ImageNet

редактировать

Проект ImageNet - это большая база данных визуальных элементов , предназначенная для использования в визуальных элементах . ПО для распознавания объектов исследование. Более 14 миллионов изображений были вручную аннотированы в рамках проекта, чтобы указать, какие объекты изображены, и, по крайней мере, в одном миллионе изображений также предусмотрены ограничивающие рамки. ImageNet содержит более 20 000 категорий, среди которых типичная категория, такая как «воздушный шар» или «клубника», состоит из нескольких сотен изображений. База данных аннотаций сторонних изображений URL-адресов находится в свободном доступе непосредственно из ImageNet, хотя фактические изображения не принадлежат ImageNet. С 2010 года в рамках проекта ImageNet проводится ежегодный конкурс программного обеспечения ImageNet Large Scale Visual Recognition Challenge (ILSVRC), в рамках которого программы соревнуются за правильную классификацию и обнаружение объектов и сцен. В задаче используется «усеченный» список из тысячи неперекрывающихся классов.

Содержание

1 Значение для глубокого обучения
2 История базы данных
3 Набор данных
4 История задачи ImageNet
5 Смещение в ImageNet
6 См. Также
7 Ссылки
8 Внешние ссылки

Значение для глубокого обучения

30 сентября 2012 г. сверточная нейронная сеть (CNN) под названием AlexNet достиг первой пятерки ошибки в 15,3% в ImageNet 2012 Challenge, что более чем на 10,8 процентных пункта ниже, чем у занявшего второе место. Это стало возможным благодаря использованию графических процессоров (графических процессоров) во время обучения, что является важным компонентом революции глубокого обучения. Согласно The Economist, «внезапно люди начали обращать внимание не только в сообществе ИИ, но и во всей технологической индустрии в целом».

В 2015 году AlexNet уступил очень глубокая CNN с более чем 100 слоями, которая выиграла конкурс ImageNet 2015.

История базы данных

Исследователь ИИ Фей-Фэй Ли начал работу над идеей ImageNet в 2006. В то время, когда большая часть исследований ИИ была сосредоточена на моделях и алгоритмах, Ли хотел расширить и улучшить данные, доступные для обучения алгоритмов ИИ. В 2007 году Ли встретился с профессором Принстона Кристиан Феллбаум, одним из создателей WordNet, чтобы обсудить проект. В результате этой встречи Ли продолжил создание ImageNet, исходя из словарной базы данных WordNet и используя многие из ее функций.

В качестве доцента в Принстоне Ли собрал команду исследователей для работы над проект ImageNet. Они использовали Amazon Mechanical Turk, чтобы помочь с классификацией изображений.

Они впервые представили свою базу данных в качестве плаката на конференции 2009 года по компьютерному зрению и распознаванию образов (CVPR) во Флориде.

Набор данных

ImageNet краудсорсинг процесс аннотации. Аннотации на уровне изображения указывают на наличие или отсутствие класса объекта на изображении, например, «на этом изображении есть тигры» или «на этом изображении нет тигров». Аннотации на уровне объекта представляют собой ограничивающую рамку вокруг (видимой части) указанного объекта. ImageNet использует вариант широкой схемы WordNet для категоризации объектов, дополненный 120 категориями пород собак для демонстрации детальной классификации. Одним из недостатков использования WordNet является то, что категории могут быть более «повышенными», чем было бы оптимально для ImageNet: «Большинство людей больше интересуются Леди Гагой или iPod Mini, чем этим редким типом диплодока ». В 2012 году ImageNet был крупнейшим в мире академическим пользователем Mechanical Turk. Средний работник обнаружил 50 изображений в минуту.

История проблемы ImageNet

История ошибок в ImageNet (показывает лучший результат для каждой команды и до 10 записей в год)

Цель ILSVRC: " следовать по стопам "меньшего по размеру проекта PASCAL VOC, учрежденного в 2005 году и содержавшего всего около 20 000 изображений и двадцать классов объектов. Чтобы «демократизировать» ImageNet, Фей-Фэй Ли предложил команде PASCAL VOC сотрудничество, начиная с 2010 года, в котором исследовательские группы будут оценивать свои алгоритмы на заданном наборе данных и соревноваться за достижение более высокой точности в нескольких задачах визуального распознавания.

Итоговый ежегодный конкурс теперь известен как конкурс визуального распознавания изображений ImageNet Large Scale Visual Recognition Challenge (ILSVRC). ILSVRC использует «обрезанный» список только из 1000 категорий или «классов» изображений, включая 90 из 120 пород собак, классифицированных по полной схеме ImageNet. В 2010-е годы произошел значительный прогресс в обработке изображений. Примерно в 2011 году частота ошибок первой пятерки по классификации ILSVRC составляла 25%. В 2012 году глубокая сверточная нейронная сеть под названием AlexNet достигла 16%; в следующие пару лет количество ошибок в топ-5 упало до нескольких процентов. В то время как прорыв 2012 года «объединил элементы, которые были там раньше», резкое количественное улучшение ознаменовало начало промышленного бума в области искусственного интеллекта. К 2015 году исследователи Microsoft сообщили, что их CNN превзошли человеческие возможности в узких задачах ILSVRC. Однако, как указала в 2015 году одна из организаторов конкурса, Ольга Русаковская, в программах нужно только идентифицировать изображения как принадлежащие к одной из тысячи категорий; люди могут распознавать большее количество категорий, а также (в отличие от программ) могут судить о контексте изображения.

К 2014 году более пятидесяти организаций участвовали в ILSVRC. В 2015 году ученые Baidu были заблокированы на год за использование разных учетных записей, значительно превышающее установленный лимит - две заявки в неделю. Позже Baidu заявила, что уволила руководителя группы и создала научную консультативную группу.

В 2017 году 29 из 38 соревнующихся команд имели точность более 95%. В 2017 году ImageNet заявила, что в 2018 году развернет новую, гораздо более сложную задачу, связанную с классификацией трехмерных объектов с использованием естественного языка. Поскольку создание 3D-данных обходится дороже, чем аннотирование уже существующего 2D-изображения, ожидается, что набор данных будет меньше. Применение прогресса в этой области будет варьироваться от роботизированной навигации до дополненной реальности.

Предвзятость в ImageNet

Изучение истории нескольких уровней (таксономия, классы объектов и маркировка) ImageNet и WordNet в 2019 году описали, как предвзятость глубоко встроена в большинство подходов к классификации для всех видов изображений. ImageNet работает над устранением различных источников предвзятости.

См. Также

Ссылки

Внешние ссылки

Официальный сайт