Автоматическая идентификация видов

редактировать

Таксономические процессы ИИ

Автоматическая идентификация видов - это метод повышения квалификации таксономистов доступны экологам, паратаксономистам и другим с помощью цифровых технологий и искусственного интеллекта. Сегодня большинство автоматизированных систем идентификации полагаются на изображения, изображающие виды для идентификации. На основе точно идентифицированных изображений вида обучается классификатор . После получения достаточного количества обучающих данных этот классификатор может идентифицировать обученные виды на ранее невидимых изображениях. Точная идентификация видов является основой для всех аспектов таксономических исследований и важным компонентом рабочих процессов в биологических исследованиях.

Содержание

1 Введение
2 Проблема идентификации видов
3 См. Также
4 Цитированные ссылки
5 Внешние ссылки

Введение

автоматизированный идентификация биологических объектов, таких как насекомые (отдельные лица) и / или группы (например, виды, гильдии, персонажи), была мечтой систематиков на века. Цель некоторых из первых многомерных биометрических методов состояла в том, чтобы решить извечную проблему межгрупповой характеристики. Несмотря на большую предварительную работу в 1950-х и 60-х годах, прогресс в разработке и внедрении практических систем для полностью автоматизированной биологической идентификации объектов оказался удручающе медленным. Не далее как в 2004 году Дэн Янзен обновил мечту для новой аудитории:

Космический корабль приземляется. Он выходит. Он указывает на это. Там написано «дружелюбный - недружелюбный - съедобный - ядовитый - безопасный - опасный - живой - неодушевленный». На следующем проходе он говорит: «Quercus oleoides - Homo sapiens - Spondias mombin - Solanum nigrum - Crotalus durissus - Morpho peleides - змеиный». Это было у меня в голове с тех пор, как полвека назад читал научную фантастику в девятом классе.

Проблема идентификации видов

DFE - графический интерфейс системы Daisy. На изображении изображено крыло мокрецы Culicoides sp., Некоторые виды которой являются переносчиками голубого языка. Другие также могут быть переносчиками вируса Шмалленберга, развивающейся болезни домашнего скота, особенно овец.. (Источник: Марк А. О'Нил )

Предпочтительное решение Янзена этой классической проблемы заключалось в создании машин для идентификации видов по их ДНК. Его прогнозируемый бюджет и предлагаемая исследовательская группа: « 1 миллион долларов и пять умных людей ». Однако недавние разработки в области компьютерных архитектур, а также инновации в разработке программного обеспечения передали инструменты, необходимые для реализации видения Янцена, в руки систематики и Сообщество информатики не через несколько лет, а сейчас; и не только для создания штрих-кодов ДНК, но и для идентификации на основе цифровых изображений.

Основополагающий обзор, опубликованный в 2004 году, изучает, почему автоматическая идентификация видов не получила широкого распространения в настоящее время и будет ли это реалистичным вариантом в будущем.Авторы обнаружили, что «небольшое, но растущее число исследований было направлено на разработку автоматизированных систем идентификации видов на основе морфологических признаков». Обзор 20 исследований анального Анализ структур видов, таких как клетки, пыльца, крылья и гениталии, показывает процент успешной идентификации от 40% до 100% на обучающих наборах с 1 до 72 видов. Однако они также выявили четыре фундаментальные проблемы с этими системами: (1) обучающие наборы - были слишком маленькими (5-10 особей на вид), и их расширение, особенно для редких видов, может быть затруднительным; (2) ошибки в идентификации - недостаточно изучены, чтобы справиться с ними и найти систематику, (3) масштабирование - исследования рассматривают только небольшое количество видов (<200 species), and (4) novel species — systems are restricted to the species they have been trained for and will classify any novel observation as one of the known species.

Опрос, опубликованный в 2017 году, систематически сравнивает и обсуждает прогресс и результаты в области автоматической идентификации видов растений за последнее десятилетие ( 2005–2015 гг.). За это время на высококачественных площадках было опубликовано 120 первичных исследований, в основном авторами с опытом работы в компьютерных науках. Эти исследования предлагают множество подходов компьютерного зрения, т. Е. функций снижение многомерности пиксельных данных изображения при сохранении характерной информации, а также методов классификации. В подавляющем большинстве этих исследований анализируется , а остается для идентификации, в то время как только 13 исследований предлагают методы идентификации цветов. Причина в том, что листья легче собирать и визуализировать, и они доступны большую часть года. Предлагаемые элементы отражают общие характеристики объекта, т. Е. форму, текстуру и цвет, а также характеристики, характерные для листа, т. Е. жилкование и маржа. В большинстве исследований для оценки по-прежнему использовались наборы данных, содержащие не более 250 видов. Однако в этом отношении есть прогресс: в одном исследовании используется набор данных с>2k, а в другом - с>20k видами.

Эти разработки не могли произойти в лучшее время. Как уже известно таксономическому сообществу, в мире не хватает специалистов, способных идентифицировать то самое биоразнообразие, сохранение которого стало глобальной проблемой. Комментируя эту проблему в палеонтологии еще в 1993 году, он признал:

«… у нас не хватает систематических палеонтологов, которые имеют что-либо близкое к синоптическим знаниям об основной группе организмов… Палеонтологи следующего поколения. века вряд ли позволят себе роскошь подробно разобраться с таксономическими проблемами... Палеонтология должна будет поддерживать свой уровень возбуждения без помощи систематиков, которые так много способствовали ее успеху ».

Этот недостаток опыта врезается так же глубоко в те коммерческие отрасли, которые полагаются на точную идентификацию (например, сельское хозяйство, биостратиграфия ), а также в широкий спектр программ чисто и прикладных исследований (например, сохранение, биологическая океанография, климатология, экология ). Также обычно, хотя и неофициально, признается, что техническая, таксономическая литература по всем группам организмов изобилует примерами непоследовательных и неправильных определений. Это происходит из-за множества факторов, в том числе недостаточной подготовки и навыков таксономистов в проведении идентификации (например, использования различных практических правил при распознавании границ между схожими группами), недостаточно подробных исходных описаний групп и / или иллюстраций, недостаточного доступа к текущим монографиям и тщательно подобранным коллекциям и, конечно же, систематикам, имеющим разные мнения относительно концепций групп. Рецензирование устраняет только наиболее очевидные ошибки, связанные с совершением или упущением в этой области, и то только тогда, когда автор предоставляет адекватные представления (например, иллюстрации, записи и последовательности генов) рассматриваемых образцов.

Систематика тоже может много выиграть, как практически, так и теоретически, от дальнейшего развития и использования автоматизированных систем идентификации. В настоящее время широко признано, что времена систематики как области, населенной слегка эксцентричными людьми, преследующими знания в полной изоляции от финансовых приоритетов и экономических императивов, быстро подходят к концу. Чтобы привлечь как персонал, так и ресурсы, систематика должна трансформироваться в «большое, скоординированное международное научное предприятие». Многие определили использование Интернета, особенно через World Wide Web - как средство, с помощью которого может быть осуществлено это преобразование. Хотя создание виртуальной GenBank -подобной системы для доступа к морфологическим данным, аудиоклипам, видеофайлам и т. Д. Было бы значительным шагом в правильном направлении, улучшенный доступ к информации наблюдений и / или текстовые описания сами по себе не устранят ни таксономического препятствия, ни проблемы с низкой воспроизводимостью идентификации. Вместо этого неизбежная субъективность, связанная с принятием критических решений на основе качественных критериев, должна быть уменьшена или, по крайней мере, встроена в более формально аналитический контекст.

SDS изображения геля белка гусениц бабочки сфинкса. Его можно использовать аналогично дактилоскопии ДНК

Надлежащим образом спроектированные, гибкие и надежные автоматизированные системы идентификации, организованные вокруг распределенных вычислительных архитектур и ссылающиеся на авторитетно идентифицированные коллекции данных обучающего набора (например, изображения и генные последовательности ), в принципе, могут предоставить всем систематикам доступ к электронным архивам данных и необходимым аналитическим инструментам для повседневной идентификации общих таксонов. Правильно спроектированные системы также могут распознавать, когда их алгоритмы не могут произвести надежную идентификацию, и направлять это изображение специалисту (адрес которого можно получить из другой базы данных). Такие системы также могут включать в себя элементы искусственного интеллекта и, таким образом, улучшать свою производительность по мере их использования. Самое заманчивое то, что после того, как морфологические (или молекулярные) модели вида были разработаны и продемонстрировали свою точность, эти модели могут быть запрошены, чтобы определить, какие аспекты наблюдаемых паттернов вариации и пределов вариабельности используются для достижения идентификации, что открывает путь к открытию новых и (потенциально) более надежных таксономических признаков.

iNaturalist - это глобальный гражданский научный проект и социальная сеть натуралистов, которая включает как человека, так и автоматическую идентификацию растений, животных и других живых существ через браузер или мобильные приложения.
Pl @ ntNet глобальный гражданский научный проект, который предоставляет приложение и веб-сайт для идентификации растений по фотографиям на основе машинного обучения
Leaf Snap - это приложение для iOS, разработанное Смитсоновским институтом, которое использует визуальное распознавание программное обеспечение для определения видов деревьев в Северной Америке по фотографиям листьев.
Бот FlowerChecker - это чаттербот Facebook, использующий программное обеспечение для визуального распознавания для определения видов растений по фотографиям. Бот использует базу данных, собранную приложением FlowerChecker для мобильных телефонов.
Google Фото может автоматически определять различные виды на фотографиях.
Plant.id - это веб-приложение, которое использует нейронную сеть, обученную на фотографиях из приложения FlowerChecker
Flora Incognita - это приложение, разработанное в рамках исследовательского проекта и использующее каскад сверточных нейронных сетей для идентификации растений на основе изображений и данных о местоположении.

См. Также

Клавиша множественного доступа

Цитированная литература

Внешние ссылки

Вот некоторые ссылки на домашние страницы систем идентификации видов. Системы SPIDA и DAISY, по сути, являются общими и способны классифицировать любой представленный графический материал. Системы ABIS и DrawWing предназначены только для насекомых с перепончатыми крыльями, поскольку они действуют путем сопоставления определенного набора символов на основе жилкования крыльев.