A нейронной сети сеть - это сеть или цепь из нейронов, или, в современном смысле, искусственная нейронная сеть, состоящая из искусственных нейронов или узлов. Таким образом, нейронная сеть - это либо биологическая нейронная сеть, составленная из реальных биологических нейронов, либо искусственная нейронная сеть для решения задач искусственного интеллекта (AI). Связи биологического нейрона моделируются как веса. Положительный вес отражает возбуждающую связь, а отрицательный - тормозящую связь. Все входы модифицируются по весу и суммируются. Эта деятельность называется линейной комбинацией. Наконец, функция активации управляет амплитудой выходного сигнала. Например, приемлемый диапазон вывода обычно составляет от 0 до 1 или может быть от -1 до 1.
Эти искусственные сети могут использоваться для прогнозного моделирования, адаптивного управления и приложений. где их можно обучить с помощью набора данных. Самообучение на основе опыта может происходить в сетях, которые могут делать выводы из сложного и, казалось бы, не связанного набора информации.
A биологическая нейронная сеть состоит из групп химически связанных или функционально связанных нейронов. Один нейрон может быть связан со многими другими нейронами, и общее количество нейронов и соединений в сети может быть большим. Соединения, называемые синапсами, обычно образуются от аксонов к дендритам, хотя возможны дендродендритные синапсы и другие соединения. Помимо электрических сигналов, существуют другие формы передачи сигналов, возникающие в результате диффузии нейромедиатора.
Искусственный интеллект, когнитивное моделирование и нейронные сети - это парадигмы обработки информации, вдохновленные тем, как биологические нейронные системы обрабатывают данные. Искусственный интеллект и когнитивное моделирование пытаются имитировать некоторые свойства биологических нейронных сетей. В поле искусственный интеллект искусственные нейронные сети были успешно применены для распознавания речи, анализа изображений и адаптивного управления, чтобы создавать программные агенты (в компьютерных и видеоиграх ) или автономных роботов.
Исторически цифровые компьютеры произошли от модели фон Неймана и работают посредством выполнения явных инструкций через доступ к памяти несколькими процессорами. С другой стороны, происхождение нейронных сетей основано на попытках моделирования обработки информации в биологических системах. В отличие от модели фон Неймана, нейросетевые вычисления не разделяют память и обработку.
Теория нейронных сетей послужила как для более точного определения того, как функционируют нейроны мозга, так и для обеспечения основы для усилий по созданию искусственного интеллекта.
Предварительная теоретическая база для современных нейронных сетей была независимо предложена Александром Бэйном (1873) и Уильямом Джеймсом (1890). В их работе мысли и деятельность тела были результатом взаимодействия нейронов мозга.
Компьютерное моделирование архитектуры ветвления дендритов пирамидных нейронов.Для Bain каждая активность приводила к срабатыванию определенного набора нейронов. Когда активность повторялась, связи между этими нейронами усиливались. Согласно его теории, именно это повторение привело к формированию памяти. В то время научное сообщество в целом скептически относилось к теории Бейна, потому что она требовала чрезмерного количества нейронных связей в мозгу. Теперь очевидно, что мозг чрезвычайно сложен и что одна и та же «проводка» мозга может обрабатывать множество проблем и входных сигналов.
Теория Джеймса была похожа на теорию Бейна, однако он предположил, что воспоминания и действия являются результатом электрических токов, протекающих между нейронами мозга. Его модель, сфокусированная на потоке электрического тока, не требовала отдельных нейронных связей для каждого воспоминания или действия.
С. С. Шеррингтон (1898) провел эксперименты, чтобы проверить теорию Джеймса. Он пропустил электрический ток по спинному мозгу крыс. Однако вместо того, чтобы продемонстрировать увеличение электрического тока, как прогнозировал Джеймс, Шеррингтон обнаружил, что сила электрического тока уменьшалась по мере того, как испытания продолжались с течением времени. Важно отметить, что эта работа привела к открытию концепции привыкания.
Маккаллох и Питтс (1943) создал вычислительную модель для нейронных сетей, основанную на математике и алгоритмах. Они назвали эту модель. Модель открыла путь для исследования нейронных сетей, разделив его на два разных подхода. Один подход был сосредоточен на биологических процессах в мозге, а другой - на применении нейронных сетей в искусственном интеллекте.
В конце 1940-х годов психолог Дональд Хебб создал гипотезу обучения, основанную на механизме нейронной пластичности, которая теперь известна как обучение по Хеббу. Хеббийское обучение считается «типичным» правилом обучения без учителя, а его более поздние варианты были ранними моделями для долгосрочного потенцирования. Эти идеи начали применяться к вычислительным моделям в 1948 году, когда машины Тьюринга B-типа.
Фарли и Кларк (1954) сначала использовали вычислительные машины, затем называемые калькуляторами, для моделирования хеббийской сети в Массачусетском технологическом институте. Другие вычислительные машины нейронных сетей были созданы Рочестером, Холландом, Хабитом и Дудой (1956).
Розенблатт (1958) создал перцептрон, алгоритм распознавания образов, основанный на двухуровневой обучающей компьютерной сети с использованием простого сложения и вычитания. В математической нотации Розенблатт также описал схему, не входящую в базовый персептрон, такую как схему исключающее ИЛИ, схему, математические вычисления которой не могли быть обработаны до тех пор, пока не был создан алгоритм обратного распространения. по Werbos (1975).
Исследования нейронных сетей застопорились после публикации исследования машинного обучения, проведенного Марвином Мински и Сеймуром Папертом (1969). Они обнаружили две ключевые проблемы с вычислительными машинами, которые обрабатывали нейронные сети. Первая проблема заключалась в том, что однослойные нейронные сети не могли обрабатывать схему «исключающее ИЛИ». Вторая важная проблема заключалась в том, что компьютеры не были достаточно сложными, чтобы эффективно справляться с длительным временем работы, необходимым для больших нейронных сетей. Исследования нейронных сетей замедлились, пока компьютеры не достигли большей вычислительной мощности. Ключевым моментом в более поздних достижениях стал алгоритм обратного распространения ошибки, который эффективно решил проблему исключающего ИЛИ (Werbos 1975).
Параллельная распределенная обработка середины 1980-х годов стала популярный под названием коннекционизм. Текст Рамелхарта и Макклелланда (1986) предоставил полное изложение использования коннекционизма в компьютерах для моделирования нейронных процессов.
Нейронные сети, используемые в искусственном интеллекте, традиционно рассматривались как упрощенные модели мозга, хотя связь между этой моделью и биологической архитектурой мозга обсуждается, поскольку неясно, в какой степени искусственные нейронные сети отражают функцию мозга.
Нейронная сеть (NN), в случае искусственных нейронов, называемая искусственной нейронной сетью (ANN) или моделируемой нейронной сетью (SNN), является взаимосвязанная группа естественных или искусственных нейронов, которая использует математическую или вычислительную модель для обработки информации на основе коннекционистского подхода к вычисление. В большинстве случаев ИНС - это адаптивная система, которая изменяет свою структуру на основе внешней или внутренней информации, которая проходит через сеть.
С практической точки зрения нейронные сети - это нелинейные статистические инструменты моделирования данных или принятия решений. Их можно использовать для моделирования сложных отношений между входами и выходами или для поиска шаблонов в данных.
искусственная нейронная сеть включает в себя сеть простых обрабатывающих элементов (искусственных нейронов ), которые могут демонстрировать сложное глобальное поведение, определяемое связями между обрабатывающими элементами и элементом параметры. Искусственные нейроны были впервые предложены в 1943 году Уорреном МакКаллоком, нейрофизиологом, и Уолтером Питтсом, логиком, которые впервые сотрудничали в Чикагском университете.
Один классический тип искусственной нейронной сети - это повторяющаяся сеть Хопфилда.
. Концепция нейронной сети, по-видимому, была впервые предложена Аланом Тьюрингом в его статье 1948 года «Интеллектуальные машины», в которой он назвал их «неорганизованными машинами B-типа».
Полезность моделей искусственных нейронных сетей заключается в том, что их можно использовать для вывода функции из наблюдений, а также для ее использования. Неконтролируемые нейронные сети также могут использоваться для изучения представлений входных данных, которые отражают основные характеристики входного распределения, например, см. машину Больцмана (1983), а с недавних пор, глубокое обучение алгоритмы, которые могут неявно изучать функцию распределения наблюдаемых данных. Обучение в нейронных сетях особенно полезно в приложениях, где сложность данных или задачи делает создание таких функций вручную непрактичным.
Нейронные сети можно использовать в разных областях. Задачи, к которым применяются искусственные нейронные сети, относятся к следующим широким категориям:
Области применения ИНС включают идентификацию нелинейных систем и управление (управление транспортным средством, управление процессами), игры и принятие решений (нарды, шахматы, гонки), распознавание образов (радиолокационные системы, идентификация лица, распознавание объектов), распознавание последовательности (жест, речь, распознавание рукописного текста ), медицинская диагностика, финансовые приложения, интеллектуальный анализ данных (или обнаружение знаний в базах данных, «KDD»), визуализация и фильтрация спама в электронной почте. Например, можно создать семантический профиль интересов пользователя, возникающий из изображений, обученных распознаванию объектов.
Теоретическая и вычислительная нейробиология - это область, связанная с анализ и компьютерное моделирование биологических нейронных систем. Поскольку нейронные системы тесно связаны с когнитивными процессами и поведением, эта область тесно связана с когнитивным и поведенческим моделированием.
Целью данной области является создание моделей биологических нейронных систем, чтобы понять, как работают биологические системы. Чтобы понять это, нейробиологи стремятся установить связь между наблюдаемыми биологическими процессами (данными), биологически правдоподобными механизмами нейронной обработки и обучения (модели биологических нейронных сетей ) и теорией (теория статистического обучения и информация теория ).
Используется много моделей; определены на разных уровнях абстракции и моделируют различные аспекты нейронных систем. Они варьируются от моделей краткосрочного поведения отдельных нейронов до моделей динамики нейронных схем, возникающих в результате взаимодействий между отдельными нейронами, до моделей поведения, возникающих из абстрактных нейронных модулей, которые представляют собой полные подсистемы. К ним относятся модели долгосрочной и краткосрочной пластичности нейронных систем и ее связи с обучением и памятью, от отдельного нейрона до системного уровня.
В августе 2020 года ученые сообщили, что двунаправленные соединения или добавленные соответствующие обратные связи могут ускорить и улучшить связь между модульными нейронными сетями мозга и в них. кора головного мозга и снизить порог их успешного общения. Они показали, что добавление обратных связей между резонансной парой может способствовать успешному распространению одиночного импульсного пакета по всей сети.
Общая критика нейронных сетей, особенно в робототехнике, заключается в том, что они требуют разнообразного обучения для реальной эксплуатации. Это неудивительно, поскольку любой обучающейся машине требуется достаточное количество репрезентативных примеров, чтобы уловить основную структуру, которая позволяет обобщать ее на новые случаи. Дин Померло в своем исследовании, представленном в статье «Обучение искусственных нейронных сетей для автономного вождения роботов на основе знаний», использует нейронную сеть для обучения роботизированного транспортного средства движению по разным типам дорог (однополосная, многополосная, грязная)., так далее.). Большая часть его исследований посвящена (1) экстраполяции нескольких сценариев обучения из одного опыта обучения и (2) сохранению разнообразия прошлых тренировок, чтобы система не перетренировалась (если, например, она представлена серией правых поворотов - он не должен учиться всегда поворачивать направо). Эти проблемы распространены в нейронных сетях, которые должны решаться на основе широкого спектра ответов, но с ними можно справиться несколькими способами, например, путем случайного перетасовки обучающих примеров, с помощью алгоритма численной оптимизации, который не делает слишком больших шагов, когда изменение сетевых подключений по примеру или путем группирования примеров в так называемые мини-пакеты.
А. К. Дьюдни, бывший обозреватель Scientific American, писал в 1997 году: «Хотя нейронные сети действительно решают несколько игрушечных задач, их вычислительные возможности настолько ограничены, что я удивлен, что кто-то воспринимает их всерьез. общий инструмент решения проблем »(Dewdney, p. 82).
Аргументы в пользу позиции Дьюдни заключаются в том, что для реализации больших и эффективных программных нейронных сетей необходимо выделить много ресурсов обработки и хранения. В то время как у мозга есть оборудование, адаптированное к задаче обработки сигналов через граф нейронов, моделирование даже самой упрощенной формы с помощью технологии фон Неймана может заставить разработчика нейронной сети заполнить многие миллионы строк базы данных для своих соединений —Который может потреблять огромное количество памяти компьютера и места на жестком диске. Более того, разработчику нейронных сетевых систем часто необходимо моделировать передачу сигналов через многие из этих соединений и связанных с ними нейронов, что часто требует невероятных затрат вычислительной мощности и времени CPU. Хотя нейронные сети часто дают эффективные программы, они слишком часто делают это за счет эффективности (они обычно требуют значительного количества времени и денег).
Аргументы против позиции Дьюдни состоят в том, что нейронные сети успешно использовались для решения многих сложных и разнообразных задач, таких как автономный полет самолета.
Автор, пишущий о технологиях, прокомментировал утверждения Дьюдни о нейронных сетях:
Нейронные сети, например, находятся на скамье подсудимых не только потому, что они были раскручены до небес (а что нет?), Но и потому, что вы могли создать успешную сеть, не понимая, как она работает: набор чисел, которые фиксируют его поведение, по всей вероятности, было бы «непрозрачной, нечитаемой таблицей... бесполезной как научный ресурс».
Несмотря на его решительное заявление о том, что наука - это не технология, Дьюдни здесь, кажется, называет нейронные сети плохой наукой, когда большинство их разработчиков просто пытаются стать хорошими инженерами. Нечитабельная таблица, которую могла бы прочитать полезная машина, все равно стоило бы иметь.
Хотя верно то, что анализировать то, что было изучено с помощью искусственной нейронной сети, сложно, это сделать намного проще, чем анализировать то, что было изучены биологической нейронной сетью. Более того, недавний акцент на объяснимости ИИ способствовал развитию методов, особенно основанных на механизмах внимания, для визуализации и объяснения изученных нейронных сетей. Более того, исследователи, занимающиеся изучением алгоритмов обучения нейронных сетей, постепенно открывают общие принципы, которые позволяют машине обучения быть успешной. Например, Bengio и LeCun (2007) написали статью о локальном и нелокальном обучении, а также о неглубокой и глубокой архитектуре.
Некоторые другие критические замечания исходили от сторонников гибридных моделей (сочетающих нейронные сети и символические подходы). Они выступают за сочетание этих двух подходов и полагают, что гибридные модели могут лучше отражать механизмы человеческого разума (Sun and Bookman, 1990).
Хотя первоначально исследования были посвящены в основном с электрическими характеристиками нейронов, особенно важной частью исследований в последние годы было изучение роли нейромодуляторов, таких как дофамин, ацетилхолин и серотонин на поведение и обучение.
Биофизические модели, такие как теория BCM, сыграли важную роль в понимании механизмов синаптической пластичности и нашли применение как в информатике, так и в нейробиологии. В настоящее время ведутся исследования по пониманию вычислительных алгоритмов, используемых в мозге, с некоторыми недавними биологическими доказательствами радиальных базисных сетей и обратного нейронного распространения как механизмов обработки данных.
Вычислительные устройства были созданы на CMOS как для биофизического моделирования, так и для нейроморфных вычислений. Более поздние усилия показывают многообещающие возможности создания наноустройств для очень крупномасштабного анализа основных компонентов и свертки. В случае успеха эти усилия могут открыть новую эру нейронных вычислений, что является шагом вперед по сравнению с цифровыми вычислениями, потому что это зависит от обучения, а не программирования, и потому что это в основном аналоговый, а не цифровой, хотя первые экземпляры могут фактически быть с цифровыми устройствами CMOS.
В период с 2009 по 2012 год рекуррентные нейронные сети и глубокие нейронные сети прямого распространения были разработаны исследовательской группой Юргеном Шмидхубером в Швейцарская лаборатория искусственного интеллекта IDSIA выиграла восемь международных соревнований по распознаванию образов и машинному обучению. Например, многомерная долговременная краткосрочная память (LSTM) выиграла три конкурса по распознаванию рукописного ввода на Международной конференции по анализу и распознаванию документов (ICDAR) в 2009 году, не имея каких-либо предварительных знаний о трех разных языках, чтобы учиться.
Варианты алгоритма обратного распространения, а также неконтролируемые методы Джеффа Хинтона и его коллег из Университета Торонто могут быть использованы для тренировать глубокие, высоконелинейные нейронные архитектуры, подобные неокогнитрону 1980 по Кунихико Фукусима, и «стандартной архитектуре зрения», вдохновленной простыми и сложными клетками, идентифицированными Дэвид Хьюбел и Торстен Визель в первичной зрительной коре.
Также были представлены радиальная базисная функция и сети вейвлетов. Можно показать, что они предлагают свойства наилучшего приближения и были применены в нелинейной идентификации системы и приложениях классификации.
Глубокое обучение сети прямого распространения чередуют сверточные слои и максимальное объединение слои, увенчанные несколькими чистыми классификационными слоями. Реализации этого подхода на основе Fast GPU выиграли несколько конкурсов по распознаванию образов, включая IJCNN 2011 Traffic Sign Recognition Competition и ISBI 2012 Segmentation of Neuronal Structures in Electron Microscopy Stacks. Такие нейронные сети также были первыми искусственными распознавателями образов, которые достигли конкурентоспособности человека или даже сверхчеловеческой производительности в тестах, таких как распознавание дорожных знаков (IJCNN 2012) или проблема рукописных цифр MNIST Яна ЛеКуна и его коллег из NYU.