Глубокое обучение

редактировать
Раздел машинного обучения

Глубокое обучение (также известное как глубокое структурированное обучение ) часть более широкого семейства методов машинного обучения на основе искусственных нейронных сетей с обучением представлению. Обучение может быть контролируемым, частично контролируемым или неконтролируемым.

архитектурами глубокого обучения, такими как глубокие нейронные сети, сети глубоких убежений, рекуррентные нейронные сети и сверточные нейронные сети были применены к таким областям, как компьютерное зрение, машинное зрение, речь распознавание, обработка естественного языка, распознавание звука, фильтрация социальных сетей, машинный перевод, биоинформатика, дизайн лекарств, программы анализа медицинских изображений, проверки материалов и настольных игр, которые дали результаты, сопоставимые, в некоторых случаях и превосходящие возможности экспертов.

Искусственные нейронные сети (ИНС) были вдохновлены обработкой информации и распределенными узлами связи в биологических системах. ИНС имеют различные отличия от биологического мозга. В частности, нейронные сети, как правило, статичны и символичны, в то время как биологический мозг является естественным динамическим (пластичным) и аналоговым.

Прилагательное «глубокий» в глубоком обучении происходит от использования нескольких слоев в сети. Ранние работы показали, что линейный перцептрон не может быть универсальным классификатором, а затем, что с неполиномиальной функцией активации с одним скрытым слоем неограниченной ширины может, с другой стороны, быть таким. Глубокое обучение - это современная разновидность, которая использует неограниченное количество слоев размера, допускает практическое применение и оптимизированную работу, сохраняя теоретическую универсальность в мягких условиях. В глубоком обучении слоям также разрешается быть неоднородными и сильно отклоняться от биологически информированных коннекционистских моделей ради эффективности, обучаемости и понятности, и откуда возникла «структурированная» часть.

Содержание

  • 1 Определение
  • 2 Обзор
  • 3 Интерпретации
  • 4 История
    • 4.1 Революция глубокого обучения
  • 5 Нейронные сети
    • 5.1 Искусственные нейронные сети
    • 5.2 Глубокие нейронные сети сети
      • 5.2.1 Проблемы
  • 6 Аппаратное обеспечение
  • 7 Приложения
    • 7.1 Автоматическое распознавание речи
    • 7.2 Распознавание электромиографии (ЭМГ)
    • 7.3 Распознавание изображений
    • 7.4 Обработка изображений
    • 7.5 Обработка естественного языка
    • 7.6 Открытие лекарств и токсикология
    • 7.7 Управление взаимоотношениями с клиентами
    • 7.8 Системы рекомендаций
    • 7.9 Биоинформатика
    • 7.10 Медицинский анализ изображений
    • 7.11 Мобильная реклама
    • 7.12 Восстановление изображений
    • 7.13 Обнаружение финансового мошенничества
    • 7.14 Военное дело
  • 8 Связь с когнитивными и умственными способностями человека
  • 9 Коммерческая деятельность
  • 10 Критика и комментарии
    • 10.1 Теория
    • 10.2 Ошибки
    • 10.3 Кибер угроза
    • 10.4 Опора на человеческий микропроцессор
  • 11 См. также
  • 12 Ссылки
  • 13 Дополнительная литература

Определение

Представление изображений на нескольких уровнях абстракции в глубоком обучении Представление изображений на нескольких уровнях абстракции в глубоком обучении

Глубокое обучение - это класс алгоритмов машинного обучения , которые используют несколько уровней для безопасного извлечения высокоуровневых функций из необработанных входных данных. Например, в обработке изображений нижние уровни могут идентифицировать края, в то время как более высокие уровни могут идентифицировать концепции, относящиеся к человеку, такие как цифры, буквы или лица.

Обзор

Большинство современных моделей глубокого обучения основаны на искусственных нейронных сетях, в частности, на сверточных нейронных сетях (CNN), хотя они могут Также включают в себя пропозициональные формулы или скрытые переменные, организованные послойно в глубокие генеративные модели, такие как узлы в глубоких убеждений и глубоких машинах Больцмана.

В глубоком обучении каждый уровень учится преобразовывать свои входные данные в несколько более абстрактное и составное представление. В приложении распознавания изображений необработанный ввод может быть матрицей пикселей; первый репрезентативный слой может абстрагировать пиксели и кодировать края; второй слой может составлять и кодировать расположение краев; третий слой может кодировать нос и глаза; а четвертый слой может распознать, что изображение содержит лицо. Важно отметить, что процесс глубокого обучения может самостоятельно узнать, какие функции оптимально link на каком уровне. (Конечно, это не полностью исключает необходимость ручной настройки; например, различное количество слоев и их размеры могут обеспечивать разную степень абстракции.)

Слово «глубокий» в «глубоком обучении» относится к количеству слоев, через которые преобразуются данные. Точнее, глубокого обучения значительную глубину пути имеют присвоения кредитов (CAP). CAP - это цепочка преобразований от ввода к выводу. CAP описывают причинные связи между вводом и выводом. Для нейронной сети с прямой связью CAP соответствует глубине сети и количеству скрытых слоев плюс один (поскольку он является одним также параметризован). Для рекуррентных нейронных сетей, в которых сигнал может распространяться через слой более одного раза, глубина CAP предоставена. Не существует универсального согласованного порога глубины, который отделяет неглубокое обучение от глубокого, но большинство исследователей с тем, что глубокое обучение предполагает глубину CAP выше 2. Было показано, что CAP Deep 2 является универсальным приближением в том смысле, что может имитировать любую функцию. Помимо этого, большее количество слоев не увеличивает аппроксимирующую способность сети. Глубокие модели (CAP>2) способны извлекать лучшие функции, чем мелкие модели, и, следовательно, они помогают хорошо изучать функции.

Архитектуры глубокого обучения могут быть построены с помощью жадного послойного метода. Глубокое обучение помогает распутать эти абстракции и выбрать, какие функции повышают показатели.

Для задач контролируемого обучения методы глубокого обучения устраняют проектирование функций, переводы данных в компактные промежуточные представления, аналогичные основные компоненты, и производят многоуровневые структуры, которые устраняют избыточность в представлении.

Алгоритмы глубокого обучения правила к задачам обучения без учителя. Это важное преимущество, потому что немаркированных данных больше, чем помеченных данных. Примерами глубоких структур, которые могут обучить неконтролируемым образом, являются компрессоры нейронной истории и глубоких вирусов.

Интерпретации

Глубинные нейронные сети обычно интерпретируются в терминах теоремы универсального прибли или вероятностный вывод.

Классическая универсальная аппроксимационная теорема касается возможностей нейронных сетей прямого распространения с одним скрытым слоем конечного размера аппроксимировать непрерывные функции. В 1989 г. Джордж Цибенко опубликовал первое доказательство для функций активации сигмоида и в 1991 г. обобщил Курт Хорник на многослойные архитектуры прямой связью. Недавняя работа также показала, что универсальная аппроксимация также верна для неограниченных функций активации, как выпрямленный линейный блок.

Универсальная аппроксимационная теорема для глубоких нейронных сетей увеличивает пропускную способность сетей с ограниченной шириной но глубина может расти. Лу и др. доказано, что если ширина глубокой нейронной сети с активацией ReLU строго больше, чем входное измерение, то сеть может аппроксимировать любую интегрируемую функцию Лебега ; Если ширина или меньше равна входному размеру, то глубокая нейронная сеть не является универсальным аппроксиматором.

Вероятностная интерпретация происходит от области машинного обучения. Он включает в себя логический вывод, а также концепцию оптимизации обучения и тестирования, связанных с подгонкой и обобщением, соответственно. Более конкретно, вероятностная интерпретация рассматривает нелинейность активации как кумулятивную функцию распределения. Вероятностная интерпретация привела к введению выпадающего как регуляризатора в нейронных сетях. Вероятностная интерпретация была предложена исследователями, включая Хопфилд, Уидроу и Нарендра, и популяризована в обзорах, таких как исследование Бишопа.

История

Первый общий рабочий алгоритм обучения для контролируемых, глубоких, прямых и многослойных перцептронов был опубликован Алексеем Ивахненко и Лапой в 1967 году. В статье 1971 года описана глубокая сеть с восемь слоев, обученных групповым методом обработки данных . Другие рабочие архитектуры глубокого обучения, особенно те, которые созданы для компьютерного зрения, начались с Neocognitron, представленного Кунихико Фукусима в 1980 году.

Термин Глубокое обучение было представлено сообществу машинного обучения Риной Дечтер в 1986 году, а с искусственными нейронными сетями - Игорем Айзенбергом и его коллегами в 2000 году в контексте Boolean пороговые нейроны.

В 1989 г. Янн ЛеКун и др. применил стандартный алгоритм обратного распространения, который использовался как обратный режим автоматического дифференцирования с 1970 года, к глубокой нейронной сети с целью распознавания рукописных почтовых индексов по почте. Пока алгоритм работал, на обучение требовалось 3 дня.

В 1991 году такие системы использовались для распознавания отдельных двумерных рукописных цифр, в то время как распознавание трехмерных объектов осуществлялось сопоставление двух -D изображения с трехмерной объектной моделью ручной работы. Weng et al. предположили, что человеческий мозг не использует монолитную трехмерную объектную модель, и в 1992 году они опубликовали Cresceptron, метод распознавания трехмерных объектов в загроможденных сценах. Он автоматически использует естественные изображения, Cresceptron положил начало универсальному визуальному обучению естественного трехмерного мирам. Крецептрон - это каскад слоев, подобных неокогнитрону. В то время как Neocognitron требовал изучения человека-программиста для ручного слияния функций, Cresceptronил открытое количество функций на каждом уровне без надзора, где каждая функция представлена ​​ядром свертки . Крецептрон сегментировал каждый изученный объект из загроможденной сцены посредством обратного анализа по сети. Максимальное объединение, которое сейчас часто используется глубокими нейронными сетями (например, ImageNet тесты), впервые было использовано в Cresceptron для уменьшения разрешения позиции в (2x2) раз до 1 через каскад. для лучшего обобщения.

В 1994 году Андре де Карвалью вместе с Майком Фэрхерстом и Дэвидом Биссетом опубликованы экспериментальные результаты многослойной логической нейронной сети, также известная как невесомая нейронная сеть, состоящая из трехуровневой самоорганизующейся Модуль нейронной сети извлекаемых признаков (SOFT), за которым следует модуль многоуровневой нейронной классификации (GSN), которые прошли независимое обучение. Каждый слой в модуле извлечения признаков извлекал признаки с возрастающей сложностью по сравнению с предыдущим слоем.

В 1995 году Брендан Фрей действал, что можно обучить (в течение двух дней) сеть, содержащую полностью связанные слои и несколько сотен скрытых блоков с использованием алгоритма бодрствования и сна, разработанного совместно с Питером Даяном и Хинтоном. Многие факторы способствуют низкой скорости, в том числе проблема исчезающего градиента, проанализированная в 1991 г. Зеппом Хохрайтером.

Более простые модели, в которых используются специальные функции ручной работы, такие как фильтры Габора и опорные машины (SVM) были популярным выбором в 1990-х и 2000-х годах из-за вычислительной стоимости искусственной нейронной сети (ИНС) и отсутствия понимания того, как мозг связывает свои биологические сети.

Как поверхностное, так и глубокое обучение (например, повторяющиеся сети) ИНС изучаются в течение многих лет. Эти методы никогда не превосходили по эффективности неоднородную гауссову модель смесей / скрытую марковскую модель, созданную вручную (GMM-HMM), основанную на генеративных моделях речи, обучаемых дискриминационным образом. Были проанализированы ключевые трудности, уменьшение градиента и слабую временную корреляционную устойчивость в нейронных прогностических моделях. Дополнительные трудности заключались в отсутствии обучающих данных и ограниченных вычислительных мощностей.

Большинство исследователей распознавания речи отошли от нейронных сетей и занялись генеративным моделированием. Исключение составляло SRI International в конце 1990-х. При финансовой поддержке правительства США NSA и DARPA SRI изучала глубокие нейронные сети в распознавании речи и говорящего. Группа по распознаванию говорящих под руководством Ларри Хека сообщила о значительном успехе глубоких нейронных сетей в обработке речи в 1998 Национальном институте стандартов и технологий оценка распознавания говорящих. Затем глубокая нейронная сеть SRI была раскрыта в Nuance Verifier, что представляет собой первое крупное промышленное применение глубокого обучения.

Принцип повышения «сырых» функций над ручной оптимизацией впервые успешно исследован в области глубокий автокодер на «сырой» спектрограмме или линейных элементов банка фильтров в конце 1990-х годов, демонстрируя его превосходство над функциями Mel-Cepstral, которые этапы фиксированного преобразования из спектра. Необработанные особенности речи, формы сигналов, позже дали отличные результаты в более крупном масштабе.

Многие аспекты распознавания методом речи были взяты на себя глубокого обучения, называемым долговременной краткосрочной памятью. (LSTM), рекуррентная нейронная сеть, опубликованная Hochreiter и Schmidhuber в 1997 году. LSTM RNN избегают проблемы исчезающего градиента и могут изучать задачи «очень глубокого обучения», требующие воспоминания о событиях, которые произошли в тысячах дискретное время шагов до, что важно для речи. В 2003 году LSTM начал конкурировать с традиционными распознавателями речи при определенных задачах. Позже он был объединен с коннекционистской временной классификацией (CTC) в стеках LSTM RNN. Сообщается, что в 2015 году производительность распознавания речи Google резко выросла на 49% благодаря обученному CTC LSTM, который они сделали доступным через Google Voice Search.

. В 2006 году публикации Джеффа Хинтона, Руслан Салахутдинов, Осиндеро и Тех показали, как многослойная нейронная сеть с прямой связью может быть эффективно обучена по одному слою за раз, обрабатывая каждый слой по очереди как неконтролируемая ограниченная машина Больцмана, а затем тонкая настройка ее с помощью контролируемого обратного распространения ошибки. В документах говорилось об обучении для сетей глубоких убеждений.

Глубокое обучение является частью современного в различных дисциплинах, в частности, компьютерное зрение и автоматическое распознавание речи (ASR). Результаты по часто используемым наборам, таким как TIMIT (ASR) и MNIST (классификация изображений ), а также по ряду задач распознавания речи с большим словарным запасом постоянно улучшается. Сверточные нейронные сети (CNN) были заменены для ASR на CTC для LSTM. но более успешны в области компьютерного зрения.

Влияние глубокого обучения на промышленность началось в начале 2000-х годов, когда CNN уже обработали от 10% до 20% всех проверок, выписанных в США, по словам Яна ЛеКуна. Промышленное применение глубокого обучения для крупномасштабного распознавания речи началось примерно в 2010 году.

Семинар NIPS 2009 года по глубокому обучению для распознавания речи был мотивирован ограничениями глубинных генеративных моделей речи и того, что они стали более способными. аппаратные средства и крупномасштабные наборы данных, которые могут стать практическим применением глубоких нейронных сетей (DNN). Считается, что предварительное обучение DNN с использованием генеративных моделей сетей глубокого убеждения (DBN) преодолевает основные трудности нейронных сетей. Однако было обнаружено, что замена предварительного обучения большими объемами обучающих данных для прямого обратного распространения при использовании DNN с большими контекстно-зависимыми выходными слоями приводила к значительному снижению частоты ошибок, чем тогдашнее состояние. модель гауссовой смеси (GMM) / скрытая марковская модель (HMM), а также более совершенные системы на основе генеративных моделей. Природа ошибок распознавания, создаваемых двумя типами систем, была характерно различной, предлагая техническое понимание того, как интегрировать глубокое обучение в существующую высокоэффективную систему декодирования речи во время выполнения, развернутую всеми основными системами распознавания речи. Проведенный в 2009–2010 годах анализ, противопоставивший GMM (и другие модели генеративной речи) моделям DNN, стимулировал ранние промышленные инвестиции в глубокое обучение для распознавания речи, что в конечном итоге привело к повсеместному и доминирующему использованию в этой отрасли. Этот анализ был проведен со сравнимой производительностью (менее 1,5% с частотой ошибок) между дискриминирующими DNN и генеративными моделями.

В 2010 году исследователи расширили глубокое обучение с TIMIT на распознавание речи с большим словарным запасом, приняв большие выходные слои DNN, основанная на контекстно-зависимых состояниях HMM, построенных с помощью деревьев решений.

Достижения в области аппаратного обеспечения возродили интерес к глубокому обучению. В 2009 году Nvidia была вовлечена в так называемый «большой взрыв» глубокого обучения, «поскольку нейронные сети глубокого обучения обучались с помощью графических процессоров Nvidia (GPU)». В том году Google Brain использовал графические процессоры Nvidia для создания функциональных DNN. Находясь там, Эндрю Нг определил, что графические процессоры могут увеличить скорость систем глубокого обучения примерно в 100 раз. В частности, графические процессоры хорошо подходят для матричных / векторных вычислений, связанных с машинным обучением. Графические процессоры ускоряют алгоритмы обучения на порядки, сокращая время работы с недель до дней. Кроме того, для эффективной обработки моделей глубокого обучения можно использовать специализированное оборудование и оптимизацию алгоритмов.

Революция глубокого обучения

Как глубокое обучение является подмножеством машинного обучения и как машинное обучение - подмножеством искусственного интеллекта ( AI).

В 2012 году команда под руководством Джорджа Э. Даля победила в конкурсе «Merck Molecular Activity Challenge», используя многозадачные глубокие нейронные сети дляпрогнозирования биомолекулярной мишени одного лекарства. В 2014 году группа Хохрайтера использовала глубокое обучение для обнаружения нецелевого и токсического воздействия химических веществ из окружающей среды в среде питательных веществ, товаров для дома и лекарств и выиграла «Tox21 Data Challenge» NIH, FDA и NCATS.

Значительные дополнительные воздействия на распознавание изображений или объектов ощущались с 2011 по 2012 год. Хотя CNN, обученные с помощью обратного распространения ошибок, существовали десятилетиями, а реализации NN с помощью графических процессоров - в течение многих лет, включая CNN., для прогресса в области компьютерного зрения требовалось быстрое внедрение CNN на графических процессорах. В 2011 году этот подход использует сверхчеловеческие способности в конкурсе по распознаванию визуальных образов. Также в 2011 году он выиграл конкурс китайского почерка ICDAR, в мае 2012 года он выиграл конкурс сегментации изображений ISBI. До 2011 года CNN не играет роли на конференциях по компьютерному зрению, но в июне 2012 года в статье Ciresan et al. на ведущей конференции CVPR показала, как максимальное объединение CNN на GPU может улучшить многие результаты тестов машинного зрения. В Октябрь 2012 года аналогичная система Крижевского и др. выиграла крупномасштабное соревнование ImageNet со значительным отрывом от поверхностных методов машинного обучения. В ноябре 2012 года система Чиресана и др. Также выиграла конкурс ICPR по анализу больших медицинских изображений для рака, в следующем году - также в конкурсе MICCAI Grand Challenge по той же теме. В 2013 и 2014 годах частота ошибок в задаче ImageNet с использованием глубокого обучения. Эти улучшения были опубликованы в проекте Wolfram Image Identification.

Классификация изображений была расширена до более сложных задач создания описаний (подписей) для изображений, часто в виде комбинаций CNN и LSTM.

Некоторые исследователи заявляют, что победили ImageNet в октябре 2012 г. положила начало «революции глубокого обучения», изменила индустрию искусственного интеллекта.

В марте 2019 г. Йошуа Бенжио, Джеффри Хинтон и Янн ЛеКун были награждены Премией Тьюринга за концептуальные и инженерные прорывы, которые сделали глубокие нейронные сети важнейшим компонентом вычислений..

Нейронные сети

Искусственные нейронные сети

Искусственные нейронные сети (ИНС ) или коннекционист системы это вычислительные системы, вдохновленные биологическими нейронными сетями, которые составляют мозг животных. Такие системы учатся (постепенно улучшают свои способности) задачи, рассматривая примеры, как правило, без программирования для конкретных задач. Например, при распознавании изображений они могут научиться определять изображения, полученные путем анализа изображений, которые были вручную помечены как «кошка» или «без кошек», и использование результатов анализа для идентификации кошек в других местах. изображений. Они нашли самое широкое применение в приложениях, которые трудно выразить с помощью традиционного компьютерного алгоритма, использующего программирование на основе правил.

ИНС на основе связанных единиц, называемых искусственными нейронами (аналогично биологическим нейронами в биологическом мозге ). Каждое соединение (синапс ) между нейронами может передавать сигнал другому нейрону. Принимающий (постсинаптический) нейрон может обрабатывать сигнал (ы), передаваемый сигнал нижестоящим нейронам, механизм с ним. Нейроны могут иметь состояние, обычно представленное действующими числами, от 0 до 1. Нейроны и синапсы также могут иметь вес, который обычно меняется в процессе обучения, что может увеличивать или уменьшать силу указанного им сигнала. вниз по течению.

Обычно нейроны организованы по слоям. Разные слои могут выполнять разные виды преобразований на своих входах. Сигналы перемещаются от первого (входного) к последнему (выходному) слою, возможно, после многократного обхода слоев.

Первоначальной целью нейросетевого подхода было решение проблем так же, как это делает человеческий мозг. Со временем внимание сосредоточено на сопоставлении определенных способностей, таких как обратное распространение или передаче информации в обратном направлении и настройке сети для отражения этой информации.

Нейронные сети использовались для решения множества, включая компьютерное зрение, распознавание задач речи, машинный перевод, социальную сеть фильтрацию, настольные и видеоигры и медицинский диагноз.

По состоянию на 2017 год нейронные сети обычно имеют от нескольких тысяч до нескольких миллионов единиц миллионы соединений. Несмотря на то, что это количество на несколько порядков меньше, чем нейронов в человеческом мозгу, эти сети могут выполнять множество задач на уровне, превышающем человеческий (например, распознавание лиц, игра в «го»).

Глубокие нейронные сети

Глубокая нейронная сеть (DNN) - это искусственная нейронная сеть (ANN) с использованием уровней между входным и выходным слоями. Например, DNN, обучен распознавать породу собак, будет проходить по заданному изображению и вычислять вероятность того, что собака на изображении принадлежит типу пород. Пользователь может просмотреть результаты и выбрать, какие вероятности должна отображать сеть (выше определенного порога и т. Д.), И вернуть предложенную метку. Каждая математическая манипуляция как таковая считается слоем, сложным DNN имеют много уровней, отсюда и название «глубокие» сети.

DNN могут моделировать сложные нелинейные отношения. Архитектура DNN генерирует композиционные модели, в которых объект выражается как многоуровневая композиция из примитивов. Дополнительные уровни позволяют использовать механизмы из более низких уровней.

Глубокие системы множества вариантов нескольких базовых подходов. Каждая архитектура добилась успеха в определенных областях. Не всегда возможно оценивать использование нескольких архитектурных систем.

DNN обычно представляют собой сети прямого распространения, в которых данные передаются от входного уровня к выходному уровню без обратной петли. Сначала DNN вводит карту виртуальных нейронов и присваивает случайные числовые значения или «веса »ям между. Веса и входные данные умножаются и возвращают выходное значение от 0 до 1. Если сеть не может точно распознать конкретный образец, алгоритм будет корректировать вес. Таким образом, алгоритм может сделать параметры более важными, пока он не определит правильную математическую манипуляцию для полной обработки данных.

Рекуррентные нейронные сети (RNN), которые могут передаваться в любом направлении, используются для таких приложений, как языковое моделирование. Для этого особенно эффективна долговременная кратковременная память.

Сверточные глубокие нейронные сети (CNN) используются в компьютерном зрении. CNN также применялись в акустическом моделировании для автоматического распознавания речи (ASR).

Проблемы

Как и в случае с ANN, многие проблемы могут быть с наивно обученными DNN. Две общие проблемы - это переоснащение и время вычислений.

DNN склонны к переобучению из-за дополнительных уровней абстракции, которые позволяют им моделировать редкие зависимости в обучающих данных. методы регуляризации, такие как единая обрезка Ивахненко или снижение веса ({2 {\ displaystyle \ ell _ {2}}\ ell _ {2} -регуляризация) или разреженность (ℓ 1 {\ displaystyle \ ell _ {1}}\ ell _ {1} -регуляризация) может использовать во время тренировки для борьбы с переобучением. В качестве альтернативы регуляризация выпадения случайным образом исключает количество из скрытых слоев во время обучения. Это помогает исключить редкие зависимости. Наконец, данные могут быть увеличены с помощью методов, как обрезка и вращение, так что меньшие обучающие наборы могут быть увеличены в размере, чтобы снизить вероятность переобучения.

DNN должны учитывать многие параметры обучения, такие как размер (количество слоев и количество на слой), скорость обучения и начальные веса. Поиск оптимальных параметров в видео может оказаться невозможным из-за затрат времени и вычислительных ресурсов. Различные приемы, такие как пакетная обработка (вычисление градиента сразу на нескольких обучающих примерах) ускоряют вычисления. Большие вычислительные возможности многоядерных архитектур (таких как графические процессоры или Intel Xeon Phi) приводят к значительному ускорению обучения из-за пригодности таких архитектур обработки для матричных и векторных вычислений.

В качестве альтернативы инженеры ищите другие типы нейронных сетей с более простыми и конвергентными алгоритмами обучения. CMAC (контроллер артикуляции модели мозжечка ) - один из таких нейронных сетей. Для CMAC не требуются скорости обучения или рандомизированные начальные веса. Можно, что процесс обучения сходится за один шаг с новым пакетом данных, вычислительная сложность алгоритма обучения линейна по отношению к количеству задействованных нейронов.

Аппаратное обеспечение

Начиная с 2010-х годов достижения как в алгоритмах машинного обучения, так и в компьютерном оборудовании привели к более эффективным методам обучения глубоких нейронных сетей, которые содержат много уровней нелинейных скрытых и очень большой выходной слой. В 2019 году графические процессоры (GPU ), часто с усовершенствованиями, специфичными для ИИ, вытеснили ЦП в качестве доминирующего метода обучения крупномасштабного коммерческого облачного ИИ. OpenAI оценил аппаратные вычисления, использованные в рамках проекта глубокого обучения от AlexNet (2012 г.) до AlphaZero (2017 г.), и было обнаружено 300000-кратное увеличение объема требуемых вычислений с удвоением времени тренда за 3,4 месяца.

Приложения

Автоматическое распознавание речи

Крупномасштабное автоматическое распознавание речи - первый и наиболее убедительный успешный пример глубокого обучения. LSTM RNN могут изучать задачи «очень глубокого обучения», которые включают в себя многосекундные интервалы, разделенные тысячи дискретных временных шагов, где один временной шаг соответствует примерно 10 мс. LSTM с воротами забывания конкурирует с традиционными распознавателями речи по определенным задачам.

Первоначальный успех в распознавании речи был основан на небольших задачах распознавания на основе TIMIT. Набор данных содержит 630 носителей восьми основных диалектов из американского английского, где каждый говорящий читает 10 предложений. Его небольшой размер позволяет опробовать множество конфигураций. Что еще более важно, задача TIMIT указывает распознавание телефонной системы, которое, в отличие от распознавания слов, позволяет использовать слабые языковые модели phone bigram. Это позволяет легче анализировать функцию акустического моделирования распознавания речи. Перечисленные ниже коэффициенты ошибок, включая эти ранние и измеренные как процент ошибок по телефону (PER), были обобщены с 1991 года.

МетодПроцент телефонных ошибок. коэффициент ошибок (PER) (%)
Случайно инициализированный RNN26,1
Байесовский трифон GMM-HMM25,6
Модель со скрытой траекторией (генеративная)24,8
Монофон со случайной инициализацией DNN23,4
Монофон DBN-DNN22,4
Трифон GMM-HMM с обучением BMMI21,7
Монофон DBN-DNN на fbank20.7
Сверточный DNN20.0
Сверточный DNN w. Гетерогенное объединение18,7
Ансамбль DNN / CNN / RNN18,3
Двунаправленный LSTM17,8
Иерархическая сверточная сеть Deep Maxout16,5

Дебют DNN для распознавания говорящих в конце 1990-х и распознавания речи в 2009-2011 гг. И LSTM в 2003-2007 гг. Ускорил прогресс в восьми основных областях:

  • Увеличение / уменьшение и ускоренное обучение DNN и декодирование
  • Дискриминантное обучение последовательности
  • Обработка признаков с помощью глубоких моделей с твердым пониманием основных механизмов
  • Адаптация DNN и связанных глубоких моделей
  • Многозадачность и передача обучения с помощью DNN и связанных глубинных моделей
  • CNN и способы их разработки для наилучшего использования знаний предметной области речи
  • RNN и его богатые варианты LSTM
  • Другие типы глубоких моделей, включая тензорные модели и интегрированные глубинные генеративные / дискриминативные модели.

Все основные коммерческие системы распознавания речи (например, Micr osoft Cortana, Xbox, Skype Translator, Amazon Alexa, Google Now, Apple Siri, Baidu и iFlyTek голосовой поиск, а также ряд речевых продуктов Nuance и т. Д.) Основаны на глубоком обучении.

Распознавание электромиографии (ЭМГ)

Сигналы электромиографии (ЭМГ) широко использовались для определения намерения пользователя потенциально управлять вспомогательными устройствами, такими как интеллектуальные инвалидные коляски, экзоскелеты и протезы. В прошлом веке использовалась плотная нейронная сеть прямого распространения. Затем исследователь использовал спектрограмму для отображения сигнала ЭМГ, а затем использовал его в качестве входных данных для глубоких сверточных нейронных сетей. В последнее время сквозное глубокое обучение используется для сопоставления необработанных сигналов непосредственно с идентификацией намерений пользователя.

.

.

Распознавание изображений

Обычным набором оценок для классификации изображений является набор данных базы данных MNIST. MNIST состоит из рукописных цифр и включает 60 000 обучающих примеров и 10 000 тестовых примеров. Как и в случае с TIMIT, его небольшой размер позволяет пользователям тестировать несколько конфигураций. Доступен исчерпывающий список результатов по этому набору.

Распознавание изображений на основе глубокого обучения стало «сверхчеловеческим», производя более точные результаты, чем участники соревнований-людей. Впервые это произошло в 2011 году.

Транспортные средства, обученные глубокому обучению, теперь интерпретируют изображения с камеры на 360 °. Другой пример - анализ лицевой дисморфологии (FDNA), использование для анализа уродства человека, связанных с большим базой данных генетических синдромов.

Обработка визуального искусства

С прогрессом, достигнутым в распознавании использования, использует все более широкое применение методов обучения для решения задач изобразительного искусства. DNN зарекомендовали себя способными, например, а) определять период стиля данной картины, б) Neural Style Transfer - фиксировать стиль данного произведения и применять его визуально приятным образом к изображению. произвольная фотография или видео, и c) создание поразительных изображений на основе случайных полей визуального ввода.

Обработка естественного языка

Нейронные сети использовались для реализации языковых моделей с начала 2000-х годов. LSTM помог улучшить машинный перевод и языковое моделирование.

Другими ключевыми методами в этой области являются отрицательная выборка и встраивание слов. Встраивание слов, такое как word2vec, можно рассматривать как уровень представления в представлении глубокого обучения, который преобразует элементарное слово в позиционное представление слова относительно других слов в наборе данных; позиция как представлена ​​точка в векторном представлении . Использование встраивания слов в качестве входного уровня RNN позволяет сети анализировать предложения и фразы, используя эффективную композиционную векторную грамматику. Композиционная грамматика может рассматривать как вероятностная контекстно-свободная грамматика (PCFG), реализованная посредством RNN. Рекурсивные автокодировщики, построенные поверх встраивания слов, могут оценивать сходство предложений и обнаруживать перефразирование. Глубокие нейронные архитектуры обеспечивают наилучшие результаты для анализа аудитории, анализа тональности, поиска информации, понимания разговорного языка, машинного перевода, контекстного сопоставления сущностей, распознавания стиля, классификации текста и др.

Недавние разработки обобщают встраивание слов в встраивание предложений.

Google Translate (GT) использует большой сквозной длинный короткий термин сеть памяти. Google Neural Machine Translation (GNMT) использует метод машинного перевода на основе примеров, в котором система «учится на миллионах примеров». Он переводит «целые предложения за раз, а не части. Google Translate поддерживает более ста языков. Сеть кодирует «семантику предложения, а не просто запоминать перевод фраз в фразу». GT использует английский как промежуточное звено между большинством языковых пар.

Открытие лекарств и токсикология

Большой процент препаратов-кандидатов не поддается получению одобренных регулирующих органов. Эти неудачи вызваны недостаточной эффективностью (целевой эффект), неудачными реагими (нецелевыми эффектами) или непредвиденными эффектами. В исследованиях изучалось использование глубокого обучения для прогнозирования биомолекулярные мишени, нецелевые и токсические эффекты химические среды окружающей среды в питательных веществх, товарах для дома и лекарствами.

AtomNet - это система глубокого обучения для на основе структуры рациональный дизайн лекарств. пользовалась для прогнозирования новых биомолекул-кандидатов для целей болезней, таких как вирус Эбола и рассеянный склероз.

В 2019 году были созданы генеративные нейронные сети. использовались для производства молекул, которые были подтверждены экспериментально на мышах.

Cu Управление взаимоотношениями со Стомер

Глубокое обучение с подкреплением использовалось для приблизительной оценки исполнителя действий прямого маркетинга, определенных с помощью плем RFM. Было показано, что оцененная функция улучшения качества естественной интерпретации как пожизненная ценность клиента.

Системы рекомендации

Использовали глубокое обучение для извлечения значимых функций для моделей скрытых факторов для музыки, основанной на содержании, и рекомендации журнал. Глубокое обучение с использованием представления для изучения пользовательских предпочтений из нескольких доменов. Модель использует гибридный подход, основанный на совместной работе и расширяет рекомендации по множеству задач.

Биоинформатика

автоэнкодер ИНС использовался в биоинформатике для прогнозирования аннотаций генной онтологии и взаимосвязей между генами и функцией.

В медицинской информатике глубокое обучение использовалось для прогнозирования качества сна на основе данных носимых устройств и прогнозов осложнений со здоровьем на основе данных электронных медицинских карт.

Анализ медицинских изображений

Доказано, что глубокое обучение дает конкурентные результаты в медицинских приложениях, таких как классификация раковых клеток, обнаружение повреждений, сегментация органов и улучшение изображения

Мобильная реклама

Поиск подходящей мобильной аудитории для мобильной рекламы всегда необходимо проанализировать множество точек показа, прежде чем можно будет создать сегмент и использовать его прие рекламы любым рекламным сервером. Глубокое обучение использовалось для интерпретации больших многомерных наборов рекламных данных. Многие точки данных собираются во время цикла интернет-рекламы запрос / обслуживание / клик. Эта информация может стать источником машинного обучения для улучшения выбора рекламы.

Восстановление изображения

Глубокое обучение было успешно применено к обратным задачам, таким как шумоподавление, сверхвысокое разрешение, рисование и раскрашивание пленки. Эти приложения включают в себя методы обучения, как «Поля усадки для эффективного восстановления изображения», которые обучаются на изображении, и Deep Image Prior, которые обучаются на изображении, которое требует восстановления.

Обнаружение финансового мошенничества

Глубокое обучение успешно использовать для обнаружения финансового мошенничества и борьба с отмыванием денег. «Глубокая система обнаружения отмывания денег может выявлять взаимосвязи и узнавать взаимосвязи между данными и в дальнейшем, обучаться обнаруживать аномалии или классифицировать и предсказывать события». Решение использует как методы обучения с учителем, такие как классификация транзакций, так обучение без учителя, например обнаружение аномалий.

Военные

Министерство обороны США применило глубокое обучение для обучения роботов новыми задачами посредством наблюдения.

Связь с человеческими когнитивными функциями и развитие мозга

Глубокое обучение вместе с классом теорий развития мозга (в частности, развития неокортекса), предложенных когнитивными нейробиологами в начале 1990-х годов. Эти теории развития были воплощены в вычислительных моделях, что сделало их предшественниками глубокого обучения. Эти модели развития обладают тем свойством, различные предлагаемые динамики обучения в мозге (например, волна фактора роста нервов ) самоорганизацию, обучение в некоторой степени аналогичным нейронным сетям, используемым в глубоких модели. Как и неокортекс, нейронные сети используют иерархию многоуровневых фильтров, в которой каждый уровень рассматривает информацию из предыдущего слоя (или среду среды), а передает свой вывод (и, возможно, исходный ввод) другим слоям. Этот процесс дает самоорганизующийся стек из преобразователей, хорошо настроенных для их рабочей среды. В описании 1995 года говорилось: «... различные области мозга соединяются вместе, при этом один слой ткани созревает раньше другого, и поэтому тех пор, пока весь мозг»

Для исследования правдоподобности моделей глубокого обучения с нейробиологической точки зрения использовались различные подходы. С одной стороны, было предложено несколько вариантов алгоритма обратного распространения для повышения реалистичности его обработки. утверждают, что неконтролируемые формы глубокого обучения, например, основанные на иерархических структурах глубоких моделях и глубоких моделей, могут быть к биологической реальности. доказательствами обработки на основе выборки в коре головного мозга.

Хотя систематическое сравнение между организацией человеческого мозга и кодированием нейронов в глубоких сетях еще не проводилось. Установлено несколько аналогий. Например, методы нейронных вычислений, выполняемые модулями глубокого обучения. Точно так же представления, разработанные моделями глубокого обучения, соответствуют тем, которые измеряются в зрительной системе приматов на отдельных уровнях, так и на уровне популяции.

Коммерческая деятельность

Лаборатория искусственного интеллекта Facebook выполняет такие задачи, как автоматическая пометка загруженных изображений именами людей в них.

Google DeepMind Technologies разработала систему, способную обучаться играть в видеоигры Atari, используя только пиксели в качестве входных данных. В 2015 году они использовали свою систему AlphaGo, которая научилась игре в Go достаточно хорошо, чтобы победить профессионального игрока в го. Google Translate использует нейронную сеть для перевода между более 100 языков.

В 2015 году Blippar проявал мобильное приложение дополненной реальности, которое использует глубокое обучение для распознавания объектов в реальном времени.

В 2017 году Ковариант. Был запущен AI, ориентирован на интеграцию глубокого обучения на предприятиях.

В 2008 году исследователи из Техасского разработчики в Остине (UT) изменили машинное обучение под названием «Обучение агента вручную». через оценочное подкрепление, или TAMER, используя новые методы для роботов или компьютерных программ, чтобы научиться выполнять задачи, взаимодействуя с человеком-инструктором. Впервые представьте как TAMER, новый алгоритм под названием Deep TAMER был представлен в 2018 году во время сотрудничества между США. Исследователи армейской исследовательской лаборатории (ARL) и UT. Deep TAMER использовал глубокое обучение, чтобы роботу возможность изучать новые задачи посредством наблюдения дать. Используя Deep TAMER, робот изучал задачу с помощью человека-тренера, просматривая видеопотоки или наблюдая, как человек выполняет задачу лично. Позже робот практиковал это задание с помощью инструктора, давал такие отзывы, как «хорошая работа» и «плохая работа».

Критика и комментарий

Глубокое обучение привлекло и критика, и комментарии, в некоторых случаях не из области информатики.

Теория

Основная критика касается отсутствия теории вокруг некоторых методов. Обучение в наиболее распространенных глубинных архитектурах реализовано с использованием хорошо понятного градиентного спуска. Однако теория, связанная с другими алгоритмами, такими как контрастное расхождение, менее ясна. (, сходится ли оно? да, то как быстро? Что это приблизительно?) Методы глубокого обучения часто рассматриваются как черный ящик, причем подтверждений делается эмпирически, а не теоретически.

Другие отмечают, что глубокое обучение рассматривают как шаг к сильного ИИ, не как всеобъемлющее решение. Несмотря на мощь методов глубокого обучения, им по-прежнему не хватает многих функций, необходимых для полной реализации этой цели. Психолог-исследователь Гэри Маркус отметил:

«На самом деле глубокое обучение - это лишь часть более серьезной проблемы построения интеллектуальных машин. В таких случаях отсутствуют способы представления причинно-следственных связей (...) нет очевидных способов выполнения логических выводов, и они также все еще далеки от интеграции абстрактных знаний, таких как информация о том, что такие объекты, для чего они нужны и как они обычно используются. Самые мощные системы ИИ, такие как Уотсон использует (...) такие методы, как глубокое обучение, как всего лишь один элемент в очень сложном ансамбле методы, начиная с статистического метода байесовского вывода до дедуктивного мышления."

Дополнительная ссылка на идею о том, что художественная чувствительность может быть присуща относительно низкого уровня когнитивной иерархии, опубликованная серия графических представлений внутренних состояний глубоких (20-30 слоев) нейронных сетей, пытающихся различить по существу The Guardian. По данным, изображения, которые показывают самое популярное искусство в The Guardian. Веб-сайт.

Ошибки

Некоторые глубокого обучения демонстрируют такое поведение, такое как уверенная классификация нераспознаваемых изображений как принадлежащих к классическим знакомым категории обычных изображений и неправильная классификация крошечных возмущений правильно классифицированных изображений. Гертцель предположили, что такое поведение вызвано ограничениями в их внутренних представлениях и эти ограничения будут препятствовать интеграции в гетерогенные многокомпонентные архитектуру общего искусственного интеллекта (AGI). Эти проблемы, возможно, могут быть решены с помощью архитектур глубокого обучения, которые внутренне формируют состояния, гомологичные разложения на изображения-грамматику наблюдаемых объектов и событий. Изучение грамматики (визуальной или лингвистической) на основе обучающих данных было эквивалентно ограничению системы к здравому смыслу, который оперирует понятия с точки зрения грамматических своими правилами и является основным целью как овладения человеческим языком, так и искусственного интеллекта (AI).

Киберугроза

По мере как глубокое обучение переходит из лаборатории в мир, исследования и опыт показывают, что искусственные нейронные сети уязвимы для взломов и обмана. Выявляются шаблоны, используемые этими системами для работы, злоумышленники, используемые входные данные для ИНС находила совпадение. Например, злоумышленник может внести незначительные изменения в изображение, чтобы ИНС находила совпадение, если изображение не выглядит для человека совсем как цель поиска. Такая манипуляция называется «состязательной атакой». В 2016 году авторы использовали одну ИНС для проверки изображений методом проб и ошибок, способными использовать точки соприкосновения с другими и таким образом изображениями, которые обманывали их. Измененные изображения не отличались от человеческих глаз. Другая группа показала, что распечатки подделанных изображений, которые были сфотографированы, успешно обманули систему классификации изображений. Одним из способов защиты является обратный поиск изображений, при котором возможное поддельное изображение отправляется на такой сайт, как TinEye, который может найти другие его экземпляры. Уточнение заключается в поиске только по частям изображения для определения изображений, из которых этот фрагмент взят взят .

Другая группа показала, что форма психоделические очки могут обмануть система распознавания лиц думать, что обычные люди - знаменитости, что позволяет одному человеку выдавать себя за другого. В 2017 году исследователи добавили стикеры к знакам остановки и вызвали неправильную классификацию ИНС.

ИНС, однако, можно обучить обнаружить попытки обмана, которые могут привести злоумышленников и защитников к такой же гонке вооружений. к тому виду, который уже определяет вредоносное ПО оборонной промышленности. ИНС были обучены побеждать антивирусное программное обеспечение на основе посредством многократных атак на защиту с помощью вредоносного ПО, которое постоянно изменялось с помощью генетического алгоритма, пока оно не обмануло антивирусное ПО, сохранив при этой способности наносить ущерб цели.

<11119>Другая группа приложений, которые используют звуковые системы для голосовых команд Google Now открыть специальный веб-адрес, который будет загружать вредоносное ПО.

При «отравлении данных» ложные данные постоянно внедряется в обучающий набор системы машинного обучения, чтобы помешать ей достичь мастерства.

Опора на человеческий микропроцессор

Большинство систем глубокого обучения полагаются на данные обучения и проверки, которые генерируются и / или аннотируются людьми. В философии СМИ утверждено, что для этой цели используются не только низкооплачиваемые кликворки (например, на Amazon Mechanical Turk ), но и неявные человеческие формы микротехнологий, которые часто не признаются таковыми. Философ Райнер Мюльхофф выделяет пять типов «машинного захвата» микропроцессоров человека для генерации обучающих данных: (1) геймификация (встраивание аннотаций или вычислительных задач в потоке игры), (2) захват и отслеживание "(например, CAPTCHA для распознавания изображений или отслеживания кликов на страницах результатов поиска Google), (3) использование социальных мотивов (например, тегирование лиц на Facebook для получения помеченных изображений лиц), (4) интеллектуальный анализ информации (например, с помощью устройств с количественной оценкой, таких как трекеры активности ) и (5) кликворк. Мюльхофф утверждает, что в большинстве коммерческих приложений для конечных пользователей глубокого обучения, таких как система распознавания лиц Facebook, потребность в обучающих данных не прекращается после обучения ИНС. Скорее, существует постоянный спрос на данные проверки, созданные ч еловеком, для постоянной калибровки и обновления ИНС. Для этой цели Facebook представил функцию, которая, когда пользователь автоматически распознается на изображении, получает уведомление. Они могут выбрать, хотят ли они, чтобы их публично пометили на изображении, или сказать Facebook, что на картинке нет их. Этот пользовательский интерфейс представляет собой механизм для создания «постоянного потока данных проверки» для дальнейшего обучения сети в реальном времени. Как утверждает Мюльхофф, участие пользователей-людей для генерации данных обучения и проверки настолько типично для большинства коммерческих приложений для конечных пользователей Deep Learning, что такие системы можно назвать «искусственным интеллектом, управляемым человеком».

См. также

Ссылки

Дополнительная литература

Последняя правка сделана 2021-05-17 11:10:59
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте