Неструктурированные данные

редактировать

Неструктурированные данные (или неструктурированная информация ) - это информация, которая либо не имеет заранее определенного модель данных или не организована заранее определенным образом. Неструктурированная информация обычно представляет собой текст -тяжелый, но может также содержать такие данные, как даты, числа и факты. Это приводит к неточностям и двусмысленностям, которые затрудняют понимание использования традиционных программ по сравнению с данными, хранящимися в полевой форме в базах данных или аннотированными (семантически помеченными ) в документы.

В 1998 году Merrill Lynch сказал, что «неструктурированные данные составляют подавляющее большинство данных, имеющихся в организации, по некоторым оценкам, до 80%». Неясно, каков источник этого числа, но, тем не менее, некоторые принимают его. Другие источники сообщают об аналогичном или более высоком проценте неструктурированных данных.

По состоянию на 2012 год IDC и Dell EMC прогнозируют, что объем данных вырастет до 40 зеттабайт к 2020 году, что приведет к 50-кратному росту по сравнению с началом 2010 года. Совсем недавно IDC и Seagate прогнозируют, что глобальная сфера данных вырастет до 163 зеттабайт к 2025 году, и большая часть из них будет неструктурированной. В журнале Computer World говорится, что неструктурированная информация может составлять более 70–80% всех данных в организациях.

Содержание

  • 1 Предпосылки
  • 2 Проблемы с терминологией
  • 3 Работа с неструктурированными данными
    • 3.1 Подходы к обработке естественного языка
    • 3.2 Подходы в медицине и биомедицинских исследованиях
  • 4 См. Также
  • 5 Примечания
  • 6 Ссылки
  • 7 Внешние ссылки

Предпосылки

Самое раннее исследование бизнес-аналитики было сосредоточено на неструктурированных текстовых данных, а не на числовых данных. Еще в 1958 году исследователи информатики, такие как H.P. Лун был особенно озабочен извлечением и классификацией неструктурированного текста. Тем не менее, только на рубеже веков эта технология заинтересовала исследователей. В 2004 году институт SAS разработал программу SAS Text Miner, которая использует разложение по сингулярным значениям (SVD) для уменьшения гипермерного текстового пространства на меньшие размеры для значительно более эффективного машинного анализа. Математические и технологические достижения, вызванные машинным анализом текста, побудили ряд предприятий исследовать приложения, что привело к развитию таких областей, как анализ настроений, голос клиента майнинг и оптимизация call-центра. Появление больших данных в конце 2000-х годов привело к повышенному интересу к приложениям аналитики неструктурированных данных в современных областях, таких как прогнозная аналитика и анализ первопричин.

Проблемы с терминологией

Термин неточен по нескольким причинам:

  1. Структура, хотя формально не определена, все же может подразумеваться.
  2. Данные с некоторой формой структуры все еще могут быть характеризуется как неструктурированная, если ее структура не полезна для текущей задачи обработки.
  3. Неструктурированная информация может иметь некоторую структуру (частично структурированную ) или даже быть сильно структурированной, но непредвиденными способами или без предварительного уведомления.

Работа с неструктурированными данными

Такие методы, как интеллектуальный анализ данных, обработка естественного языка (NLP) и текстовая аналитика предоставлять различные методы поиска шаблонов в этой информации или иной интерпретации этой информации. Общие методы структурирования текста обычно включают ручное тегирование метаданными или тегирование части речи для дальнейшего структурирования интеллектуального анализа текста. Стандарт Архитектура управления неструктурированной информацией (UIMA) предоставляет общую основу для обработки этой информации для извлечения смысла и создания структурированных данных об информации.

Программное обеспечение, которое создает машинно-обрабатываемую структуру, может использовать лингвистическая, слуховая и визуальная структура, присутствующая во всех формах человеческого общения. Алгоритмы могут вывести эту внутреннюю структуру из текста, например, исследуя морфологию слова , синтаксис предложения и другие мелкие и крупномасштабные шаблоны. Затем неструктурированная информация может быть обогащена и помечена для устранения двусмысленностей и методов, основанных на релевантности, а затем использована для облегчения поиска и обнаружения. Примеры «неструктурированных данных» могут включать книги, журналы, документы, метаданные, медицинские записи, аудио, видео, аналоговые данные, изображения, файлы и неструктурированный текст, например тело сообщения электронной почты, веб-страница или документ текстового процессора. Хотя основной передаваемый контент не имеет определенной структуры, он обычно поставляется упакованным в объекты (например, в файлы или документы,...), которые сами имеют структуру и, таким образом, представляют собой смесь структурированных и неструктурированных данных, но в совокупности это все еще называется как «неструктурированные данные». Например, веб-страница HTML помечена тегами, но разметка HTML обычно служит исключительно для визуализации. Он не фиксирует значение или функцию помеченных элементов способами, которые поддерживают автоматическую обработку информационного содержания страницы. XHTML тегирование допускает машинную обработку элементов, хотя обычно не фиксирует и не передает семантическое значение тегированных терминов.

Поскольку неструктурированные данные обычно встречаются в электронных документах, часто предпочтительнее использовать контент или систему управления документами, которая может классифицировать все документы над передачей данных и манипуляциями из документов. Таким образом, управление документами предоставляет средства для передачи структуры в коллекции документов.

Поисковые машины стали популярными инструментами для индексации и поиска по таким данным, особенно по тексту.

Подходы к обработке естественного языка

Были разработаны специальные вычислительные рабочие процессы для наложения структуры на неструктурированные данные, содержащиеся в текстовых документах. Эти рабочие процессы обычно предназначены для обработки наборов из тысяч или даже миллионов документов, или гораздо большего количества, чем может позволить ручной подход к аннотации. Некоторые из этих подходов основаны на концепции оперативной аналитической обработки, или OLAP, и могут поддерживаться моделями данных, такими как текстовые кубы. Как только метаданные документа становятся доступными через модель данных, создание сводных данных по подмножествам документов (т. Е. Ячеек в текстовом кубе) может быть выполнено с помощью подходов на основе фраз.

Подходы в медицине и биомедицинских исследованиях

Биомедицинские исследования являются одним из основных источников неструктурированных данных, поскольку исследователи часто публикуют свои выводы в научных журналах. Хотя язык в этих документах сложно вывести из структурных элементов (например, из-за сложного технического словаря, содержащегося внутри, и знаний предметной области, необходимых для полной контекстуализации наблюдений), результаты этих действий могут дать связи между техническими и медицинскими исследованиями и подсказками. относительно новых методов лечения болезней. Недавние усилия по обеспечению структуры в биомедицинских документах включают самоорганизующиеся карты подходы для определения тем в документах, универсальные неконтролируемые алгоритмы и применение рабочего процесса CaseOLAP для определения ассоциаций между белками. названия и сердечно-сосудистые заболевания темы в литературе. CaseOLAP определяет отношения фраза-категория точным (идентифицирующим отношения), последовательным (воспроизводимым) и эффективным способом. Эта платформа предлагает расширенную доступность и предоставляет биомедицинскому сообществу инструменты для анализа фраз для широко распространенных приложений биомедицинских исследований.

См. Также

Примечания

  1. ^Сегодняшняя проблема правительства: что делать с неструктурированной информацией и почему ничего не делать - не вариант, Ноэль Юханна, главный аналитик, Forrester Research, ноябрь 2010 г.

Источники

Внешние ссылки

Последняя правка сделана 2021-06-20 02:30:23
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте