Неопределенные данные

редактировать

В информатике, неопределенные данные - это данные, содержащие шум, который заставляет их отклоняться от правильных, предполагаемых или исходных значений. В эпоху больших данных неопределенность или достоверность данных является одной из определяющих характеристик данных. Объем, разнообразие, скорость и неопределенность данных постоянно растут (1 / достоверность). Сегодня в Интернете, в сенсорных сетях, на предприятиях, как в их структурированных, так и в неструктурированных источниках, имеется множество неопределенных данных. Например, может существовать неопределенность относительно адреса клиента в наборе корпоративных данных или показаний температуры, зафиксированных датчиком из-за старения датчика. В 2012 году IBM призвала к масштабному управлению неопределенными данными в своем отчете глобальный технологический прогноз, в котором представлен всесторонний анализ на три-десять лет в будущее с целью выявления важных, прорывных технологий, которые будут изменить мир. Чтобы принимать уверенные бизнес-решения на основе реальных данных, анализ обязательно должен учитывать множество различных видов неопределенности, присутствующих в очень больших объемах данных. Анализ, основанный на недостоверных данных, будет влиять на качество последующих решений, поэтому нельзя игнорировать степень и типы неточностей в этих неопределенных данных.

Неопределенные данные обнаружены в области сенсорных сетей ; текст, где зашумленный текст встречается в изобилии в социальных сетях, в Интернете и на предприятиях, где структурированные и неструктурированные данные могут быть устаревшими, устаревшими или явно неверными; при моделировании, где математическая модель может быть только приближением реального процесса. При представлении таких данных в базе данных, также необходимо оценить некоторое указание на вероятность правильности различных значений.

Существует три основных модели недостоверных данных в базах данных. В неопределенности атрибута каждый неопределенный атрибут в кортеже подчиняется своему собственному независимому распределению вероятностей. Например, если снимаются показания температуры и скорости ветра, каждое из них будет описано своим собственным распределением вероятностей, поскольку знание показаний одного измерения не предоставит никакой информации о другом.

В коррелированной неопределенности несколько атрибутов могут быть описаны с помощью совместного распределения вероятностей. Например, если снимаются показания положения объекта и сохраняются координаты x и y, вероятность различных значений может зависеть от расстояния от записанных координат. Поскольку расстояние зависит от обеих координат, может оказаться целесообразным использовать совместное распределение для этих координат, поскольку они не являются независимыми.

В неопределенности кортежа все атрибуты кортежа подлежат совместному распределению вероятностей. Это охватывает случай коррелированной неопределенности, но также включает случай, когда существует вероятность того, что кортеж не принадлежит соответствующему отношению, что указывается всеми вероятностями, которые не суммируются с единицей. Например, предположим, что у нас есть следующий кортеж из вероятностной базы данных :

(a, 0.4) | (b, 0.5)

Тогда вероятность того, что кортеж не существует в базе данных, составляет 10%.

Ссылки
  • Volk, Habich; Клеменс Утзны, Ральф Диттманн, Вольфганг Ленер. "Кластеризация неточных значений измерений на основе плотности с учетом ошибок". Седьмая Международная конференция IEEE по интеллектуальному анализу данных, 2007. ICDM Workshops 2007. IEEE. CS1 maint: несколько имен: список авторов (ссылка )
  • Розенталь, Фольк; Мартин Хахманн, Дирк Хабич, Вольфганг Ленер ». Кластеризация неопределенных данных с помощью возможных миров ". Труды 1-го семинара по управлению и интеллектуальному анализу неопределенных данных в связи с 25-й Международной конференцией по инженерии данных, 2009 г. IEEE. CS1 maint: несколько имен: список авторов (ссылка )

.

Последняя правка сделана 2021-06-20 10:33:36
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте