Искусственная нейронная сеть

редактировать
Вычислительная модель, используемая в машинном обучении, на основе связанных иерархических функций

Искусственная нейронная сеть - это связанная группа узлов, вдохновленный упрощением нейронов в головном мозге. Здесь каждый круговой узел представляет собой искусственный нейрон, стрелка представляет соединение между выходом одного искусственного нейрона и входом другого.

Искусственные нейронные сети (ИНС ), обычно называемые просто нейронными сетями (NN ), вычислительные системы, смутно вдохновленные биологическими нейронными сетями, которые составляют мозг животных .

основ наборе наборе соединенных единиц или узлов, называемых искусственными нейронами, которые свободно моделируют нейроны в биологическом мозге. Каждое соединение, как синапс в биологическом мозге, может передавать другой нейронам. Искусственный нейрон, который получает сигнал, затем обрабатывает его и может сигнализировать подключенным к нему нейронам. «Сигнал» в соединении - это действительное число , выходной сигнал каждого нейрона вычисляется некоторой нелинейной функцией суммы его входов. Связи называются ребрами. Нейроны и ребра обычно имеют вес, который корректируется по мере обучения. Вес увеличивает или уменьшает силу сигнала в соединении. Нейроны могут иметь такой порог, что сигнал идет только в том случае, если совокупный сигнал пересекает этот порог. Обычно нейроны объединены в слои. Разные слои могут выполнять разные преобразования на своих входах. Сигналы перемещаются от первого уровня (входной уровень) к последнему уровню (выходному уровню), возможно, после многократного обхода слоев.

Содержание
  • 1 Обучение
  • 2 История
  • 3 Модели
    • 3.1 Компоненты ИНС
      • 3.1.1 Нейроны
      • 3.1.2 Связи и вес
      • 3.1.3 Функция распространения
    • 3.2 Организация
    • 3.3 Гиперпараметр
    • 3.4 Обучение
      • 3.4. 1 Скорость обучения
      • 3.4.2 Функция затрат
      • 3.4.3 Обратное распространение
    • 3.5 Парадигмы обучения
      • 3.5.1 Обучение с учителем
      • 3.5.2 Обучение без учителя
      • 3.5.3 Обучение с подкреплением
      • 3.5.4 Самообучение
    • 3.6 Другое
      • 3.6.1 Режимы
  • 4 Типа
  • 5 Дизайн сети
  • 6 Использование
  • 7 Приложения
  • 8 Теоретические свойства
    • 8.1 Вычислительная мощность
    • 8.2 Вместимость
    • 8.3 Конвергенция
    • 8.4 Обобщение и статистика
  • 9 Критика
    • 9.1 Обучение
    • 9.2 Теория
    • 9.3 Аппаратное обеспечение
    • 9.4 Практические контрпримеры
    • 9.5 Гибридные подходы
  • 10 Галерея
  • 11 См.
  • 12 Источники
  • 13 Нагрудник liography
  • 14 Внешние ссылки
Обучение

Нейронные сети обучаются (или обучаются) на примерах обработки, каждый из которых содержит «входные данные» и « результат », формируются взвешенные по вероятности ассоциации между двумя, которые хранятся в структуре данных самой сети. Обучение нейронной сети из данного примера обычно выполняется путем разницы между обработанным выводом сети (часто предсказанием) и целевым выводом. Это ошибка. Затем сеть корректирует свои взвешенные ассоциации в соответствии с правилами обучения и использования этого значения ошибки. Последовательные корректировки приведут к тому, что нейронная сеть будет выдавать результат, который становится все более похожим на цель. После этого количества корректировок обучение может быть прекращено по определенным критериям. Это известно как обучение с учителем.

Такие системы «учатся» задачи выполнять, рассматривая примеры, как правило, без программирования с помощью правил для конкретных задач. Например, в распознавании изображений они могут научиться определять изображения кошек, анализируя примеры изображений, которые были вручную помечены как «кошка» или «без кошек», и используя результаты. для идентификации кошек на других изображениях. Они делают это без каких-либо предварительных знаний о кошках, например, о том, что у них мех, хвосты, усы и кошачьи лица. Вместо этого они автоматически генерируют идентифицирующие характеристики из примеров, которые они обрабатывают.

История

Уоррен МакКаллох и Уолтер Питтс (1943) открыли тему, создавая вычислительную модель для нейронных сетей. В конце 1940-х годов Д. О. Хебб создал гипотезу обучения, основанную на механизме нейронной пластичности, которая стала известна как обучение Хебба. Фарли и Уэсли А. Кларк (1954) сначала использовали вычислительные машины, называемые «калькуляторами», для моделирования сети Хебба. Розенблатт (1958) <создал452>перцептрон. Первые функциональные сети со многими уровнями были опубликованы Ивахненко и Лапой в 1965 году как Групповой метод обработки данных. Основы обратного распространения ошибки были выведены в контексте теории управления Келли в 1960 году и Брайсоном в 1961 году с использованием методов динамического программирования.

В 1970 году Сеппо Линнаинмаа опубликованный общий метод автоматического дифференцирования (AD) дискретных связанных сетей вложенных дифференцируемых функций. В 1973 году Дрейфус использовал обратное, чтобы адаптировать распространение параметров контроллеров размеро градиентам ошибок. Алгоритм обратного распространения Вербоса (1975) дал возможность практического обучения многослойным сетям. В 1982 году он применил AD-метод Линнаинмаа к нейронным сетям, получив широкое распространение. После этого исследования застопорились после Мински и Паперта (1969), которые представлены, что базовые перцептроны не способны обрабатывать схему исключающего ИЛИ и что компьютерам не хватает мощности для обработки полезных нейронных сетей.

Разработка металл-оксид-полупроводник (МОП) очень крупномасштабная интеграция (СБИС) в форме дополнительной МОП (CMOS), позволившая увеличить количество транзисторов МОС в цифровом электронике. Это обеспечило большую вычислительную мощность для разработки практических искусственных нейронных сетей в 1980-х.

В 1992 году было введено max-pooling, чтобы помочь с наименьшей инвариантностью к сдвигу и устойчивостью к деформации, чтобы помочь распознавать 3D-объекты. Шмидхубер принял многоуровневую иерархию сетей (1992) обучили по одному уровню с помощью неконтролируемого обучения и точно ошибки обратного распространения.

Джеффри Хинтон и др.. (2006) предложили изучить высокоуровневое представление с использованием последовательных уровней двоичных или вещественных скрытых чисел с ограниченных Больцмана для моделирования каждого слоя. В 2012 году Нг и Дин создали сеть, которая научилась распознавать понятия более высокого уровня, такие как кошки, только по просмотру немаркированных изображений. Неконтролируемое предварительное обучение и увеличенная вычислительная мощность за счет графических процессов и распределенных вычислений позволили использовать более крупные сети, особенно в задачах распознавания изображений и визуального распознавания, которые стали известны как "глубокое обучение " ".

Чиресан и его коллеги (2010) показали, что, несмотря на проблему исчезающего градиента, графические процессоры делают обратное распространение для многоуровневых нейронных сетей с прямой связью. В период с 2009 по 2012 год ИНС начали выигрывать призы в конкурсах ИНС, приближаясь к производительности человеческого уровня в различных задачах. изначально в распознавании образов и машинном обучении. Например, двунаправленная и многомерная долговременная краткосрочная память (LSTM) Грейвса и др. Выиграли три соревнования по распознаванию рукописного ввода в 2009 году, не имея каких-либо предварительных знаний о трех языках, которые необходимо выучить.

Чиресан и его коллеги создали первые распознаватели образовательных достижений конкурентоспособных / сверхчеловеческих возможностей тестов человека, такие как Распознавание дорожных знаков (IJCNN 2012).

Модели
Нейрон и миелинизированный аксон с потоком сигналов от входов на дендритах к выходам на терминалах аксонов

ИНС начинаются как попытка использовать архитектуру человеческого мозга для выполнения задач, которые были у обычных алгоритмов небольшой успех с. Вскоре они переориентировались на улучшение эмпирических результатов, по большей части отказавшись от попытки остаться верными своим биологическим предшественникам. Нейроны соединяются друг с другом по разным схемам, чтобы выходные данные одних нейронов становились входными данными других. Сеть образует направленный, взвешенный граф.

Искусственная нейронная сеть состоит из смоделированных нейронов. Каждый нейрон представляет собой узел , который связан с другими узлами посредством связей, которые соответствуют биологическим связям аксон-синапс-дендрит. Каждая ссылка имеет вес, позволяющий установить силу одного узла на другой.

Компоненты ИНС

Нейроны

ИНС состоят из искусственных нейронов, которые концептуально происходят из биологических нейронов. Каждый искусственный нейрон имеет входы и производит один выходной сигнал, который может быть отправлен на несколько других нейронов. Входы могут быть значениями характеристик выборки внешних данных, таких как изображения или документы, или они могут быть выходами других нейронов. Выходы конечных выходных нейронов нейронной сети выполняют такую ​​задачу, как распознавание объекта на изображении.

Чтобы найти выход нейрона, сначала мы берем взвешенную сумму всех входов, взвешенную по весам соединений от входов к нейрону. К этой сумме мы добавляем смещение. Эту взвешенную сумму иногда называют активацией. Эта взвешенная сумма проходит через (обычно нелинейную) функцию активации для получения выходных данных. Первоначальные входные данные - это внешние данные, такие как изображения и документы. Конечные выходы выполняют задачу, такую ​​как распознавание объекта на изображении.

Соединения и веса

Сеть из соединений, каждое соединение обеспечивает выход одного нейрона в качестве входа для другого. нейрон. Каждому соединению присваивается вес. У данного нейрона может быть несколько входных и выходных соединений.

Функция распространения

Функция распространения вычисляет входные данные нейрона из его предшественников, нейронов и соединений в виде взвешенной суммы. К результату распространения может быть добавлен термин «ущерб».

Организация

Нейроны обычно организованы на нескольких уровнях, особенно в глубоком обучении. Нейроны одного слоя соединяются только с нейронами одного собственного и следующего следующего слоя. Слой, который получает внешние данные, является входным слоем. Слой, который дает окончательный результат, - это выходной слой. Между ними ноль или более скрытых слоев. Также используются однослойные и неслойные сети. Между двумя уровнями возможны несколько схем соединения. Они могут быть полностью связаны, при этом каждый нейрон одного слоя соединяется с каждым нейроном следующего слоя. Они могут быть объединены, когда группа нейронов в одном слое соединяется с одним нейроном в следующем слое, тем самым уменьшая количество нейронов в этом слое. Нейроны только с такими связями образуют направленный ациклический граф и известны как сети прямого распространения. В качестве альтернативных сетей, которые позволяют между нейронами на том же или предыдущем уровне, известны как рекуррентные сети.

гиперпараметр

гиперпараметр - это постоянный параметр , значение которого устанавливается перед процесс обучения начинается. Значения параметров выводятся путем обучения. Примеры гиперпараметров включают скорость обучения, количество скрытых слоев и размер пакета. Значения некоторых гиперпараметров могут зависеть от значений других гиперпараметров. Например, размер некоторых слоев может зависеть от общего количества слоев.

Обучение

Обучение - это адаптация сети для лучшего решения задачи с учетом выборочных наблюдений. Обучение включает в себя настройку весов (и необязательных пороговых значений) сети для повышения точности результата. Это достигается за счет минимизации наблюдаемых ошибок. Обучение завершено, когда изучение наблюдений не снижает процент ошибок. Даже после обучения частота ошибок обычно не достигает 0. Если после обучения частота ошибок слишком высока, обычно необходимо перепроектировать. Практически это достигается путем определения функции определения затрат , которая периодически оценивается во время обучения. Пока его объем производства продолжает снижаться, обучение продолжается. Стоимость часто определяется как статистика, значение которой можно только определить. На самом деле выходными данными являются числа, поэтому, когда ошибка мала, разница между результатом (почти наверняка кошка) и правильным ответом (кошка) мала. Обучение усиливает совокупность различий между наблюдениями. Большинство моделей обучения можно рассматривать как прямое приложение теории оптимизации и статистической оценки.

Скорость обучения

Скорость обучения определяет размер корректирующих шагов, которые выполняют модель. для корректировки ошибок в каждом наблюдении. Высокая скорость обучения сокращает время обучения, но с меньшей конечной точностью, тогда как более низкая скорость обучения занимает больше времени, но с потенциалом для большей точности. Оптимизация, такая как Quickprop, в первую очередь нацелена на ускорение ошибок, в то время как другие улучшения в основном ускорении надежности. Чтобы избежать колебаний внутри сети, таких как чередование весов соединений и для повышения скорости сходимости, уточнения используют скорость адаптивного обучения, которая увеличивается или уменьшается по мере необходимости. Концепция импульсса позволяет взвешивать баланс между градиентом и предыдущим изменением, так что корректировка веса зависит в некоторой степени от предыдущего изменения. Импульс, близкий к 0, подчеркивает градиент, а значение, близкое к 1, подчеркивает последнее изменение.

Функция затрат

Хотя можно определить функцию затрат ad hoc, часто выбор определяет желаемые свойства функции (такими как выпуклость ) или потому, что он возникает из модели (например, в вероятностной модели апостериорная вероятность модели может быть обратная стоимость).

Backpropagation

Backpropagation - это метод настройки весов соединений для компенсации каждой ошибки, обнаруженной во время обучения. Сумма соединения эффективно распределяется междуми. Технически, обратное распространение вычисляет градиент (производная) функции стоимости, не с заданным состоянием по отношению к весам. Обновление весов может быть выполнено с помощью стохастического градиентного спуска или других методов, как Extreme Learning Machines, сети «без поддержки», обучение без возврата, «невесомые» сети и нейронные сети без соединения.

Парадигмы обучения

Три основных парадигмы обучения: обучение с учителем, обучение без учителя и обучение с подкреплением. Каждый из них соответствует стандартному задаче обучения

Обучение с учителем

Обучение с учителем набор использует парных входов и желаемых выходов. Задача обучения - произвести желаемый результат для каждого входа. В этом случае функция связи с устранением неверных вычетов. Обычно используемая стоимость - это среднеквадратичная ошибка, которая пытается минимизировать среднеквадратичную ошибку между выходом сети и желаемым выходом. Для задач обучения с учителем подходят следующие: распознавание образов (также известное как классификация) и регрессия (также известное как аппроксимация функций). Контролируемое обучение также применимо к последовательным данным (например, для письма от руки, речи и распознавания жестов ). Это можно рассматривать как обучение с «учителем» в форме функции, которая обеспечивает постоянную обратную связь о решениях, полученных на данный момент.

Обучение без учителя

В обучении без учителя входные данные даются вместе с функцией стоимости, некоторая функция x {\ displaystyle \ textstyle x}\ textstyle x и выход сети. Функция стоимости зависит от задачи (предметной области модели) и априорных предположений (неявных свойств модели, ее параметров и параметров числа). В качестве тривиального примера рассмотрим модель f (x) = a {\ displaystyle \ textstyle f (x) = a}\ textstyle f (x) = a , где a {\ displaystyle \ textstyle a}\ textstyle a - константа, а стоимость C = E [(x - f (x)) 2] {\ displaystyle \ textstyle C = E [(xf (x)) ^ {2}]}\ textstyle C = E [(xf (x)) ^ {2}] . Минимизация этой стоимости дает значение a {\ displaystyle \ textstyle a}\ textstyle a , которое равно среднему значению данных. Функция стоимости может быть намного сложнее. Его форма зависит от приложения: например, в сжатии он может быть связан с взаимной информацией между x {\ displaystyle \ textstyle x}\ textstyle x и f (x) {\ displaystyle \ textstyle f (x)}\ textstyle f (x) , тогда как в статистическом моделировании это может быть связано с апостериорной вероятностью модели с учетом данных (обратите внимание, что в обоих этих примерах эти количества будут максимизированы, а не минимизированы). Задачи, которые подпадают под парадигму обучения без учителя, в общем являются оценочными проблемами; приложения включают кластеризацию, оценку статистических распределений, сжатие и фильтрацию.

обучение с подкреплением

В таких приложениях, как играя в видеоигры, актер выполняет ряд действий, получая обычно непредсказуемую реакцию окружающей среды после каждого из них. Цель состоит в том, чтобы выиграть игру, то есть получить наиболее положительные (с наименьшими затратами) отзывы. В обучении с подкреплением цель состоит в том, чтобы взвесить сеть (разработать политику) для выполнения действий, которые минимизируют долгосрочные (ожидаемые совокупные) затраты. В каждый момент времени агент выполняет действие, а среда генерирует наблюдение и мгновенную стоимость в соответствии с некоторыми (обычно неизвестными) правилами. Правила и долгосрочную стоимость обычно можно только оценить. В любой момент агент решает, следует ли исследовать новые действия, чтобы раскрыть свои затраты, или использовать предыдущее обучение, чтобы действовать быстрее.

Формально среда моделируется как марковский процесс принятия решений (MDP) с состояниями s 1,..., s n ∈ S {\ displaystyle \ textstyle {s_ {1},..., s_ {n}} \ in S}\ textstyle {s_ {1},..., s_ {n}} \ in S и действия a 1,..., a m ∈ A {\ displaystyle \ textstyle {a_ {1},..., a_ {m}} \ in A}\ textstyle {a_ {1},..., a_ {m}} \ in A . Поскольку переходы между состояниями неизвестны, вместо них используются распределения вероятностей: распределение мгновенных затрат P (ct | st) {\ displaystyle \ textstyle P (c_ {t} | s_ {t})}\ textstyle P (c_ {t} | s_ {t}) , распределение наблюдений P (xt | st) {\ displaystyle \ textstyle P (x_ {t} | s_ {t})}\ textstyle P (x_ {t} | s_ {t}) и переходное распределение P (st + 1 | st, at) {\ displaystyle \ textstyle P (s_ {t + 1} | s_ {t}, a_ {t})}\ textstyle P (s_ { t + 1} | s_ {t}, a_ {t}) , а политика определяется как условное распределение по действиям с учетом наблюдения. Взятые вместе, эти два образуют цепь Маркова (MC). Цель - найти самый дешевый MC.

ИНС служат вкак обучающего компонента в таких приложениях. Динамическое программирование в сочетании с ИНС (обеспечивающее нейродинамическое программирование) применяется для решения таких задач, как те, которые связаны с маршрутизацией транспортных средств, видеоигры, управление природными ресурсами и медицина из-за способности ИНС снижать потери даже при уменьшении плотности дискретизации для численной аппроксимации решения задач управления. Задачи, которые подпадают под парадигму обучения с подкреплением, - это задачи управления, игры и другие задачи последовательности решений принятия решений.

Самообучение

Самообучение в нейронных сетях было введено в 1982 году вместе с нейронной сетью, способной к самообучению, под названием Crossbar Adaptive Array (CAA). Это система только с одним входом, ситуацией с одним входом, запуском (или поведением) a. У него нет ни внешнего совета, ни внешнего подкрепления из окружающей среды. CAA перекрестным образом вычисляет решения о действиях, так и эмоции (чувства) по возникшим ситуациям. Система управляет взаимодействием познания и эмоций. При заданной матрице памяти W = || w (a, s) || алгоритм самообучения ригеля на каждой итерации выполняет вычисления:

В следующих ситуациях выполнить выполнить a; Получите последствия ситуации s '; Вычислить эмоцию в ситуации v (s ’); Обновить память перекладины w ’(a, s) = w (a, s) + v (s’).

Ценность обратного распространения (вторичное подкрепление) - это эмоция по отношению к ситуации последствий. CAA существует в двух средах: одна - это поведенческая среда, в которой она ведет себя, а другая - генетическая среда, откуда она изначально и только один раз получает начальные эмоции, которые могут в поведенческой среде. Получив вектор генома (вектор видов) из генетической среды, CAA будет изучать стремление к цели в поведенческой среде, которая содержит желательные, так и нежелательные ситуации.

Другое

В рамках байесовской структуры выбрано распределение по набору допустимых моделей для минимизации затрат. Эволюционные методы, программирование экспрессии генов, моделирование отжига, максимизация ожидания, непараметрические методы и оптимизация роя частиц - другие алгоритмы обучения. Конвергентная рекурсия - это алгоритм обучения для нейронных сетей контроллер артикуляции модели мозжечка (CMAC).

Режимы

Доступны два режима обучения: стохастический и партия. В стоимостном обучении каждый вход настраку веса. При пакетном обучении веса корректируются на основе пакета входных данных, накапливая ошибки по пакету. Стохастическое обучение вносит «шум» в процесс, используя локальный градиент, вычисленный из одной точки данных; это снижает вероятность застревания сети вальных минимумах. Однако пакетное обучение обычно дает более быстрый и стабильный спуск к локальному минимуму, выполняется обновление в направлении средней ошибки пакета. Распространенным компромиссом является использование «мини-партий», небольших партий с выборками в каждой партии, выбранными стохастически из всего набора данных.

Типы

ИНС превратились в широкое семейство методов, которые продвинули уровень техники во многих областях. Самые простые типы имеют один или несколько статических компонентов, включая количество, количество уровней, веса и топологию . Динамические типы позволяют одному или нескольким из них развиваться в процессе обучения. Последние намного сложнее, но могут сократить периоды обучения и дать лучшие результаты. Некоторые типы позволяют / требуют, чтобы обучение «контролировалось» оператором, в то время как другие работают независимо. Некоторые работают чисто аппаратно, а другие - чисто программно и работают на компьютере общего назначения.

Некоторые из основных достижений включают: сверточные нейронные сети, которые оказались особенно успешными при обработке визуальных и других двумерных данных; долговременная кратковременная память позволяет избежать проблемы исчезающего градиента и может обрабатывать сигналы, содержащие сочетание низкочастотных и высокочастотных компонентов, помогая распознавать речь с большим кратарным запасом, распознавать текст в речи и фотореалистичные говорящие головы; конкурирующие сети, такие как порождающие состязательные сети in, в которых несколько сетей (разной структуры) конкурируют друг с другом за такие задачи, как победа в игре или обман оппонента относительно подлинности входных данных.

Проектирование сети

Поиск нейронной архитектуры (NAS) использует машинное обучение для автоматизированного проектирования ИНС. Различные подходы к NAS позволили создать сети, которые хорошо сравниваются с системами, созданными вручную. Базовый алгоритм поиска включает в себя том, чтобы предложить кандидата, оценить ее по набору данных и использовать результаты в обратном качестве связи для обучения сети NAS. Доступные системы включают AutoML и AutoKeras.

Проблемы проектирования включают определение количества, типа и связности сетевых уровней, а также размера каждого из них и типа подключения (полное, объединение,...).

Гиперпараметры также должны быть разработаны как часть дизайна (они не изучаются), управляя такими, как количество нейронов в каждом слое, скорость обучения, шаг, шаг, глубина, поле восприятия и отступы (для CNN) и т. Д.

Использование

Использование искусственных нейронных сетей требует понимания их характеристик.

  • Выбор модели: это зависит от представления данных и приложения. Слишком сложно моделируют обучение.
  • Алгоритм обучения. Между алгоритмами обучения существует множество компромиссов. Практически любой алгоритм будет хорошо работать с правильными гиперпараметрами для обучения на конкретном наборе данных. Однако выбор и настройка алгоритма для обучения на невидимых данных требует значительных экспериментов.
  • Надежность: если модель, функция стоимости и алгоритм обучения выбраны надлежащим образом, полученная ИНС может стать устойчивой.

Возможности ИНС падают. в следующих широких категориях:

Приложения

Из-за их способность воспроизводить и моделировать нелинейные процессы. Искусственныеронные сети нашли применение во многих областях. sciplines. Области применения идентификацию системы и управление (управление транспортным средством, прогнозирование траектории, управление процессами, управление природными ресурсами ), квантовая химия, общая игра, распознавание образов (радиолокационные системы, идентификация лица, классификация сигналов, трехмерная реконструкция, распознавание объектов и др.), Распознавание следовать (жест, речь, распознавание рукописного и печатного текста), медицинский диагноз, финансы (например, автоматические торговые системы ), интеллектуальный анализ данных, визуализация, машинный перевод, фильтрация социальных сетей и фильтрация электронной спама в почте. ИНС использовались для диагностики рака, включая рак легкого, рак простаты, колоректальный рак, а также для отличия высокоинвазивных раковых клеточных линий от менее инвазивных с использованием информации только клеток. о форме.

ИНС использовались для ускорения анализа надежности инфраструктур, подверженных стихийным бедствиям, и для прогнозирования оседания фундаментов. ИНС также использовались для построения моделей черного ящика в геонауке : гидрологии, моделировании океана и прибрежной инженерии и геоморфологии. ИНС использовались в кибербезопасности с целью различения законных действий и злонамеренных. Например, машинное обучение используется для определения угроз безопасности Android, для доменов, принадлежащих злоумышленникам, и для определения URL-адресов, представляющих угрозу безопасности. В настоящее время используется исследование систем ИНС, предназначенных для тестирования на проникновение ботнетов, мошенничества с кредитными картами и сетевых вторжений.

ИНС были предложены в качестве модели для моделирования свойств многочастичных открытых квантовых систем. В исследованиях мозга изучали краткосрочное поведение отдельных нейронов, динамика нейронных цепей возникает из взаимодействий между отдельными нейронами, как поведение может возникнуть из абстрактных нейронных модулей, которые обеспечивают собой полные подсистемы. Исследования рассматривают долгосрочную и краткосрочную пластичность нейронных систем и их связь с обучением и памятью от отдельного нейрона до системного уровня.

Теоретические свойства

Вычислительная мощность

Многослойный персептрон представляет собой универсальный аппроксиматор функции, что подтверждается универсальная аппроксимационная теорема. Однако доказательство неконструктивно в отношении количества необходимых нейронов, топологии сети, весов и параметров обучения.

Конкретная рекуррентная архитектура с рациональными -значными весами (в отличие от вещественных -значных весов с полной точностью) обладает мощностью универсальной машины Тьюринга. использование с конечного числа нейронов и стандартных линейных связей. Кроме того, использование иррациональных значений приводит к машине с сверхтьюринговым мощностью.

Емкость

свойство «вместимость» модели соответствует его свойствам моделировать любую заданную функцию. Это связано с объемом информации, которая может храниться в сети, и с понятием сложности. Сообществу известны два понятия емкости. Информационная емкость и VC Dimension. Информационная способность перцептрона интенсивно обсуждается в книге сэра Дэвида Маккея, обобщающей работу Томаса Ковер. Пропускная способность сети стандартных нейронов может быть определена с помощью четырех правил, которые вытекают из понимания нейрона как электрического элемента. Информационная емкость охватывает функции, моделируемые сетью, данные любые входные данные. Второе понятие - это размер VC. VC Dimension использует принципы теории теории и находит максимальную пропускную способность при наилучших обстоятельствах. Это при заданных входных данных в форме. Использование выше, размер виртуального канала для входов представляет половину информационного потенциала персептрона. Размер VC для произвольных точек иногда объемом памяти.

Конвергенция

Модели могут не всегда сходиться в едином решении, во-первых, потому что могут существовать локальные минимумы, в зависимости от функций стоимости и модель. Во-применяемый метод оптимизации может не сходимости, когда он начинается далеко от любого локального минимума. В-третьих, для достаточно больших данных или некоторых методов становятся непрактичными.

Конвергенция типов архитектур ИНС изучена лучше, чем других. Когда ширина сети приближается к бесконечности, ИНС хорошо описывается расширением Тейлора первого порядка на протяжении всего обучения и, таким образом, наследует поведение сходимости аффинных моделей. Другой пример: когда параметры невелики, можно заметить, что ИНС часто соответствуют целевым функциям от низких до высоких частот. Это явление противоположно поведению некоторых хорошо изученных итерационных численных схем, таких как метод Якоби.

Обобщение и статистика

Приложения, целью которых является создание системы, которая хорошо обобщается на невидимые примеры, сталкиваются с возможность перетренированности. Это возникает в запутанных или чрезмерно определенных системах, когда емкость сети значительно превышает необходимые свободные параметры. Два подхода к проблеме перетренированности. Первый заключается в использовании перекрестной проверки и аналогичных методов для проверки наличия перетренированности и выбора гиперпараметров для минимизации ошибки обобщения.

Второй - использовать некоторую форму регуляризации. Эта концепция возникает в вероятностной (байесовской) структуре, где регуляризация может быть выполнена путем выбора большей априорной вероятности по сравнению с более простыми моделями; но также и в теории статистического обучения, где цель состоит в том, чтобы минимизировать более двух величин: «эмпирический риск» и «структурный риск», что примерно соответствует ошибке по обучающей выборке и прогнозируемой ошибке невидимых данных из-за переобучения.

Анализ достоверности нейронной сети

Контролируемые нейронные сети, которые используют функцию стоимости среднеквадратичной ошибки (MSE), могут использовать формальные статистические методы для определения достоверности обученной модели. MSE на проверочном наборе может использоваться как оценка дисперсии. Это значение затем можно использовать для вычисления доверительного интервала выходных данных сети, предполагая нормальное распределение. Проведенный таким образом анализ достоверности является статистически достоверным, пока выходное распределение вероятностей остается неизменным и сеть не изменяется.

Путем назначения функции активации softmax, обобщения логистической функции на выходном слое нейронной сети (или компонент softmax в компонентном сеть) для категориальных целевых переменных, выходные данные можно интерпретировать как апостериорные вероятности. Это полезно при классификации, поскольку дает определенную степень достоверности классификации.

Функция активации softmax:

yi = exi ∑ j = 1 cexj {\ displaystyle y_ {i} = {\ frac {e ^ {x_ {i}}} {\ sum _ {j = 1} ^ {c} e ^ {x_ {j}}}}}y_ {i } = {\ гидроразрыва {е ^ {x_ {i}}} {\ sum _ {j = 1} ^ {c} e ^ {x_ {j}}}}

.

Критика

Обучение

Распространенная критика нейронных сетей, особенно в робототехнике, заключается в том, что они требуют слишком большого обучения для работы в реальном мире. Возможные решения включают случайное перемешивание обучающих примеров с использованием алгоритма численной оптимизации, который не требует слишком больших шагов при изменении сетевых подключений в соответствии с примером, группирование примеров в так называемые мини-пакеты и введение рекурсивного алгоритма наименьших квадратов для CMAC.

Теория

Основное возражение в том, что ИНС недостаточно отражают функцию нейронов. Обратное распространение - критический шаг, хотя в биологических нейронных сетях такого механизма не существует. Как информация кодируется реальными нейронами, неизвестно. Сенсорные нейроны активируют потенциалы действия чаще при активации сенсора, а мышечные клетки тянут сильнее, когда связанные с ними двигательные нейроны чаще получают потенциалы действия. За исключением случая передачи информации от сенсорного нейрона к двигательному нейрону, почти ничего не известно о принципах того, как информация обрабатывается биологическими нейронными сетями.

Главное требование ИНС - то, что они воплощают новые и мощные общие принципы обработки информации. К сожалению, эти принципы плохо развитой. Часто утверждается, что они возникли из самой сети. Это обеспечивает простую статистическую ассоциацию (основная функция искусственных нейронных сетей), можно описать как обучение или распознавание. Александр Дьюдни пишет, что в результате искусственные нейронные сети обладают «бесполезным» качеством, которое придает особую ауру лени и явное отсутствие любопытства по поводу того, насколько хороши эти вычислительные системы.. Никакая человеческая рука (или разум) не вмешивается, решения находят как по волшебству, и, кажется, ничему не научился ". Один из ответов Дьюдни заключается в том, что нейронные сети предоставляют собой набор сложных и разнообразных задач. мошенничества с кредитными картами и до освоения игры Go.

Технический писатель Роджер Бриджман пишет:

Нейронные сети, например, находятся в доке не только потому, что они были разрекламированы до небес (а что нет?), но и потому, что вы можете создать успешную сеть, не понимающая, как она: набор чисел, отражающий ее поведение, по всей вероятности, будет непрозрачная, нечитаемая таблица... бесполезная как научный ресурс ".

Несмотря на его решающее заявление о Нечитаемую таблицу, которую бы могли прочитать полезная машина, все равно стоило бы иметь, пытается стать хорошими инженерами, когда большинство из тех, кто их выполняет, пытается стать хорошими инженерами.

Биологический мозг использует как мелкие, так и глубокие цепи, как сообщает анатомия мозга, демонстрируя широкий спектр инвариантности. Вэн утверждал, что мозг самонастра действует в основном в соответствии со статистическими сигн алами, и поэтому последовательный каскад может уловить все статистические зависимости.

Аппаратное обеспечение

Большие и эффективные нейронные сети требуют значительных вычислительных ресурсов. В то время как в мозгу есть оборудование, приспособленное для обработки сигналов через граф нейронов, моделирование даже упрощенного нейрона на может потреблять огромные объемы памяти и хранилище. Более того, необходимо большое количество устройств, связанных с нейронами.

Шмидхубер отметил, что возрождение нейронных сетей в двадцать первом веке достижения степени в области аппаратного обеспечения: с 1991 по 2015 годы вычислительная мощность, особенно предоставляемая GPGPU (на GPU ) увеличилось примерно в миллион раз, что сделало алгоритм обратного распространения применимым ошибки для обучения сетей, которые на несколько уровней глубже, чем раньше. Использование ускорителей, таких как ПЛИС и графические процессоры, может сократить время обучения с месяцев до дней.

Нейроморфная инженерия напрямую решает аппаратные трудности, создавая не-фон-нейманские микросхемы для непосредственной реализации нейронных сетей в схемотехнике. Другой тип микросхемы, оптимизированный для обработки нейронных сетей, называется Tensor Processing Unit или TPU.

Практические контрпримеры

Анализировать то, что былоено с помощью ANN, очень проще, чем анализировать то, что узнала биологическая нейронная сеть. Кроме того, исследователи, занимаются изучением алгоритмов обучения нейронных сетей, постепенно открывают общие принципы, которые позволяют машине обучения быть успешной. Например, локальное и нелокальное обучение и неглубокая архитектура против глубокой.

Гибридные подходы

Сторонники гибридных моделей (сочетающих нейронные сети и символические подходы), утверждают, что такая смесь может лучше уловить механизмы человеческого разума.

Галерея
См. Также
Ссылки
Библиография
Внешние ссылки
Последняя правка сделана 2021-06-11 21:54:58
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте