Объединение данных - это процесс интеграции нескольких источников данных для получения более согласованной, точной и полезной информации, чем та, которая предоставляется любым отдельным источником данных.
Процессы объединения данных часто подразделяются на низкие, промежуточные или высокие, в зависимости от стадии обработки, на которой происходит объединение. Слияние низкоуровневых данных объединяет несколько источников необработанных данных для создания новых необработанных данных. Ожидается, что объединенные данные будут более информативными и синтетическими, чем исходные входные данные.
Например, объединение сенсоров также известно как (мультисенсорное) объединение данных и является подмножеством объединения данных.
Концепция объединения данных возникла в развитая способность людей и животных воспринимать информацию от различных органов чувств для улучшения их способности к выживанию. Например, сочетание зрения, осязания, запаха и вкуса может указывать на то, является ли вещество съедобным.
В середине 1980-х годов совместные директора лабораторий сформировали подпанель Data Fusion. (которая позже стала известна как Data Fusion Group). С появлением всемирной паутины слияние данных, таким образом, включало слияние данных, датчиков и информации. JDL / DFIG представил модель слияния данных, которая разделяет различные процессы. В настоящее время шесть уровней модели информационной группы слияния данных (DFIG):
Уровень 0: предварительная обработка источника (или оценка данных)
Уровень 1: оценка объекта
Уровень 2: Оценка ситуации
Уровень 3: Оценка воздействия (или уточнение угрозы)
Уровень 4: Уточнение процесса (или управление ресурсами)
Уровень 5: Уточнение пользователя (или Cognitive Refinement)
Уровень 6: Уточнение миссии (или Управление миссией)
Хотя модель JDL (уровни 1–4) все еще используется сегодня, ее часто критикуют за то, что подразумевается, что уровни обязательно происходят по порядку, а также из-за отсутствия адекватного представления о потенциале человека в цикле. Модель DFIG (уровень 0–5) исследовала последствия осведомленности о ситуации, уточнения пользователя и управления миссией. Несмотря на эти недостатки, модели JDL / DFIG полезны для визуализации процесса слияния данных, облегчения обсуждения и общего понимания и важны для проектирования слияния информации на системном уровне.
В геопространственной (ГИС ) области слияние данных часто является синонимом интеграции данных. В этих приложениях часто возникает необходимость объединить различные наборы данных в единый (объединенный) набор данных, который включает все точки данных и временные шаги из входных наборов данных. Объединенный набор данных отличается от простого комбинированного расширенного набора тем, что точки в объединенном наборе данных содержат атрибуты и метаданные, которые, возможно, не были включены для этих точек в исходный набор данных.
Упрощенный пример этого процесса показан ниже, где набор данных «α» объединен с набором данных β для формирования объединенного набора данных δ. Точки данных в наборе «α» имеют пространственные координаты X и Y и атрибуты A1 и A2. Точки данных в наборе β имеют пространственные координаты X и Y и атрибуты B1 и B2. Объединенный набор данных содержит все точки и атрибуты.
Набор входных данных α | Набор входных данных β | Набор объединенных данных δ | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
|
|
В простом случае, когда все атрибуты единообразны во всем домене анализа, атрибуты могут быть просто назначены: M ?, N ?, Q ?, R? на M, N, Q, R. В реальном приложении атрибуты не являются единообразными, и обычно требуется некоторый тип интерполяции для правильного назначения атрибутов точкам данных в объединенном наборе.
Визуализация слитных наборов данных по следам каменных омаров в Тасмановом море. Изображение, созданное с помощью программного обеспечения Myriax Pty. Ltd.В гораздо более сложном приложении исследователи морских животных используют объединение данных для объединения данных отслеживания животных с данными батиметрических, метеорологических, данные о температуре поверхности моря (SST) и среде обитания животных для изучения и понимания использования среды обитания и поведения животных в ответ на внешние факторы, такие как погода или температура воды. Каждый из этих наборов данных имеет разную пространственную сетку и частоту дискретизации, поэтому простая комбинация, вероятно, создаст ошибочные предположения и испортит результаты анализа. Но благодаря использованию объединения данных все данные и атрибуты объединяются в единое представление, в котором создается более полная картина среды. Это позволяет ученым определять ключевые места и время и формировать новые представления о взаимодействиях между окружающей средой и поведением животных.
На рисунке справа скальные омары изучаются у побережья Тасмании. Хью Педерсон из Университета Тасмании использовал программное обеспечение для объединения данных, чтобы объединить данные отслеживания южного каменного лобстера (окрашенные желтым и черным цветом для дня и ночи соответственно) с батиметрией и средой обитания данные для создания уникального 4D-изображения поведения рок-омара.
В приложениях за пределами геопространственной области применяются различия в использовании терминов Интеграция данных и Объединение данных. В таких областях, как бизнес-аналитика, например, интеграция данных используется для описания объединения данных, тогда как объединение данных - это интеграция с последующим сокращением или заменой. Интеграцию данных можно рассматривать как комбинацию наборов, в которой сохраняется более крупный набор, тогда как слияние - это метод сокращения набора с повышенной достоверностью.
сенсорные технологии могут быть объединены интеллектуальными способами для точного определения состояния трафика. Подход, основанный на слиянии данных, который использует собранные на обочине дороги акустические данные, изображения и данные датчиков, как было показано, объединяет преимущества различных индивидуальных методов.
Во многих случаях географически- рассредоточенные датчики сильно ограничены по энергии и полосе пропускания. Поэтому необработанные данные, относящиеся к определенному явлению, часто суммируются в нескольких битах от каждого датчика. При выводе двоичного события (т. Е. или ), в крайнем случае только двоичные решения отправляются с датчиков в Центр объединения решений (DFC) и объединяются для повышения эффективности классификации.
Благодаря множеству встроенных датчиков, включая датчик движения, датчик окружающей среды, датчик положения, современное мобильное устройство обычно предоставляет мобильным приложениям доступ к ряду сенсорных данных, которые можно использовать для улучшения контекстного осведомленность. Использование методов обработки сигналов и объединения данных, таких как создание признаков, технико-экономическое обоснование и анализ главных компонентов (PCA), такие сенсорные данные значительно улучшат положительную скорость классификации движения и контекстуально релевантного состояния устройства. Многие методы контекстной информации предоставлены Snidaro, et al..
Найдите объединение данных в Wiktionary, бесплатном словаре. |