Автор (ы) оригинала | OpenAI |
---|---|
Первоначальный выпуск | 11 июня 2020 г. (бета) |
Репозиторий | |
Тип | Авторегрессия Transformer языковая модель |
Лицензия | Код недоступен, доступен только через платный API |
Веб-сайт | openai.com / blog / openai-api |
Генеративный предварительно обученный преобразователь 3 (GPT-3 ) - это авторегрессивная языковая модель, который использует глубокое обучение для создания текста, похожего на человека. Это модель предсказания языка третьего поколения в серии GPT-n, созданная OpenAI, коммерческой лабораторией искусственного интеллекта в Сан-Франциско. Полная версия GPT-3 имеет 175 миллиардов параметров машинного обучения. GPT-3, который был представлен в мае 2020 года и с июля 2020 года находится в стадии бета-тестирования, является частью тенденции в системах обработки естественного языка (NLP) для предварительно обученных языковых представлений. До выпуска GPT-3 самой крупной языковой моделью была Turing NLG от Microsoft, представленная в феврале 2020 года, с емкостью 17 миллиардов параметров, или менее 10 процентов по сравнению с GPT-3.
Качество текста, создаваемого GPT-3, настолько высокое, что его трудно отличить от текста, написанного человеком, который имеет как преимущества, так и риски. Тридцать один исследователь и инженер OpenAI представили исходный документ от 28 мая 2020 года, представляющий GPT-3. В своей статье они предупредили о потенциальных опасностях GPT-3 и призвали к проведению исследований по снижению риска. Дэвид Чалмерс, австралийский философ, описал GPT-3 как «одну из самых интересных и важных систем искусственного интеллекта, когда-либо созданных.. "
22 сентября 2020 года Microsoft объявила о лицензировании« исключительного »использования GPT-3; другие могут по-прежнему использовать общедоступный API для получения вывода, но только Microsoft имеет контроль над исходным кодом.
Согласно The Economist, улучшенные алгоритмы, мощные компьютеры и увеличение количества оцифрованных данных вызвали революцию в машинном обучении, с появлением новых методов в 2010-х годах, которые привели к «быстрому улучшению задач», включая управление языком. Программные модели обучаются обучению, используя тысячи или миллионы примеров в «структуре... слабо основанной на нейронной архитектуре мозга». Одна архитектура, используемая в обработке естественного языка (NLP), - это нейронная сеть, основанная на модели глубокого обучения, которая была впервые представлена в 2017 году - Transformer. Модели GPT-n основаны на этой архитектуре нейронной сети с глубоким обучением на основе Transformer. Существует ряд систем НЛП, способных обрабатывать, анализировать, организовывать, связывать, противопоставлять, понимать и генерировать ответы на вопросы.
11 июня 2018 года исследователи и инженеры OpenAI разместили свою оригинальную статью на генеративные модели - языковые модели - системы искусственного интеллекта - которые можно предварительно обучить с помощью огромного и разнообразного корпуса текста с помощью наборов данных в процессе, который они назвали (GP). Авторы описали, как показатели понимания языка при обработке естественного языка (NLP) были улучшены в GPT-n посредством процесса «генеративного предварительного обучения языковой модели на разнообразном корпусе немаркированного текста с последующей дискриминационной тонкой настройкой для каждого конкретного случая». задача ". Это устранило необходимость человеческого наблюдения и трудоемкой ручной маркировки.
В феврале 2020 года Microsoft представила свое поколение естественного языка Тьюринга (T-NLG), которое тогда было " самая большая языковая модель, когда-либо опубликованная, с 17 миллиардами параметров ». Он лучше, чем любая другая языковая модель, справлялся с множеством задач, включая обобщение текстов и ответы на вопросы.
A 28 мая 2020 г. arXiv В препринте группы из 31 инженера и исследователя OpenAI описывалась разработка GPT-3, «современной языковой модели» третьего поколения. Команда увеличила возможности GPT-3 более чем на два порядка по сравнению с его предшественником, GPT-2, что сделало GPT-3 крупнейшей на сегодняшний день не разреженной языковой моделью. Большее количество параметров GPT-3 обеспечивает более высокий уровень точности по сравнению с предыдущими версиями с меньшей емкостью. Возможности GPT-3 в десять раз больше, чем у Microsoft Turing NLG.
Шестьдесят процентов взвешенного набора данных предварительного обучения для GPT-3 поступают из отфильтрованной версии Обычное сканирование, состоящее из 410 миллиардов кодированных пар байтов токенов. Другие источники - это 19 миллиардов токенов из WebText2, что составляет 22% от взвешенной суммы, 12 миллиардов токенов из Books1, что составляет 8%, 55 миллиардов токенов из Books2, что составляет 8%, и 3 миллиарда токенов из Википедии, что составляет 3%. GPT-3 был обучен сотням миллиардов слов и способен кодировать, среди прочего, CSS, JSX, Python. Поскольку данные обучения GPT-3 были всеобъемлющими, они не требовали дальнейшего обучения для различных языковых задач.
11 июня 2020 года OpenAI объявил, что пользователи могут запрашивать доступ к удобному для пользователя GPT-3 API - «набор инструментов для машинного обучения» - чтобы помочь OpenAI «изучить сильные и слабые стороны» этой новой технологии. В приглашении описывалось, как этот API имеет универсальный интерфейс «ввод текста - вывод текста», который может выполнять практически «любую англоязычную задачу» вместо обычного единственного варианта использования. По словам одного пользователя, у которого был доступ к закрытому раннему выпуску OpenAI GPT-3 API, GPT-3 «устрашающе хорош» в написании «удивительно связного текста» всего с несколькими простыми подсказками.
Потому что GPT-3 может «генерировать новостные статьи, которые оценщикам-людям трудно отличить от статей, написанных людьми». GPT-3 обладает «потенциалом для продвижения как полезных, так и вредных приложений языковых моделей». В своей статье от 28 мая 2020 г. исследователи подробно описали потенциальные «вредные последствия GPT-3», которые включают «дезинформацию, спам, фишинг, злоупотребление судебными и государственными процессами, мошенничество в академической среде. эссе написание и предлоги социальной инженерии ". Авторы обращают внимание на эти опасности, чтобы призвать к исследованию снижения риска.
В своем обзоре от 29 июля 2020 г. в The New York Times, Фархад Манджу сказал, что GPT-3, который может генерировать компьютерный код и поэзию, а также прозу, не только «удивительный», «жуткий» и «унизительный», но также «более чем немного устрашающий».
Daily Nous представила серию статей девяти философов о GPT-3. Австралийский философ Дэвид Чалмерс описал GPT-3 как «одну из самых интересных и важных систем искусственного интеллекта, когда-либо созданных».
В обзоре Wired говорится, что GPT-3 Силиконовая долина ".
«вызвала озноб». В статье в журнале «Towards Data Science» говорилось, что GPT-3 обучен работе с сотнями миллиардов слов и способен кодировать на CSS, JSX, Python и других языках.
В National Law Review говорится, что GPT-3 является «впечатляющим шагом в более широком процессе», когда OpenAI и другие находят «полезные приложения для всех этих возможностей», продолжая «работать в направлении более общий интеллект ".
Статья в MIT Technology Review, написанная критиком Deep Learning Гэри Маркусом, утверждает, что GPT-3" понимание мира " часто серьезно ошибается, а это означает, что вы никогда не сможете по-настоящему доверять тому, что он говорит ». По мнению авторов, GPT-3 моделирует отношения между словами, не понимая смысла каждого слово.