Вероятностная база данных

редактировать

Большинство реальных баз данных содержат данные, правильность которых неопределенно. Чтобы работать с такими данными, необходимо количественно оценить целостность данных. Это достигается за счет использования вероятностных баз данных.

A вероятностная база данных - это неопределенная база данных, в которой возможные миры связаны вероятностями. Вероятностные системы управления базами данных в настоящее время являются активной областью исследований. «Хотя в настоящее время нет коммерческих систем вероятностных баз данных, существует несколько исследовательских прототипов...»

Вероятностные базы данных различают логическую модель данных и физическое представление данных во многом как реляционные базы данных делают в архитектуре ANSI-SPARC. В вероятностных базах данных это еще более важно, поскольку такие базы данных должны представлять очень большое количество возможных миров, часто экспоненциально по размеру одного мира (классическая база данных ), кратко.

Содержание

  • 1 Терминология
    • 1.1 Возможные миры
    • 1.2 Типы неопределенностей
  • 2 История
  • 3 Ссылки
  • 4 Внешние ссылки

Терминология

В вероятностной базе данных каждый кортеж связан с вероятностью от 0 до 1, где 0 означает, что данные определенно неверны, а 1 означает, что они определенно верны.

Возможные миры

Вероятностная база данных может существовать в нескольких состояниях. Например, если мы не уверены в существовании кортежа в базе данных, то база данных может находиться в двух разных состояниях по отношению к этому кортежу - первое состояние содержит кортеж, а второе - нет. Точно так же, если атрибут может принимать одно из значений x, y или z, то база данных может находиться в трех разных состояниях по отношению к этому атрибуту.

Каждое из этих состояний называется возможным миром.

Рассмотрим следующую базу данных:

Неполная база данных
AB
a1b1
a2b2
a3{b3, b3 ′, b3 ′ ′}

(Здесь {b3, b3 ′, b3 ′ ′} Означает, что атрибут может принимать любое из значений b3, b3 ′ или b3 ′ ′)

  • Предположим, что мы не уверены в первом кортеже, уверены во втором кортеже и не уверены в значении атрибута B в третьем кортеже.

Тогда фактическое состояние базы данных может содержать или не содержать первый кортеж (в зависимости от того, правильное оно или нет). Точно так же значение атрибута B может быть b3, b3 ′ или b3 ′ ′.

Следовательно, возможные миры, соответствующие базе данных, следующие:

Мир 1
AB
a1b1
a2b2
a3b3
Мир 2
AB
a1b1
a2b2
a3b3 ′
Мир 3
AB
a1b1
a2b2
a3b3 ′ ′
Мир 4
AB
a2b2
a3b3
Мир 5
AB
a2b2
a3b3 ′
Мир 6
AB
a2b2
a3b3 ′ ′

Типы неопределенностей

По сути, существует два вида неопределенностей, которые могут существовать в вероятностной базе данных, как описано в таблице ниже:

Типы неопределенностей
Неопределенность на уровне кортежейНеопределенность на уровне атрибутов
Здесь мы не уверены, является ли кортеж правильным или нет, то есть должен ли он существовать в базе данных или нет.Здесь мы не уверены в том, какие значения может принимать атрибут кортежа, то есть он может принимать одно из нескольких возможных значений.
В соответствии с каждым неопределенным кортежем существует два возможных мира: один, который включает кортеж, а другой - нет.Соответствует каждому неопределенному атрибуту, который может принимать одно из значений a 1,..., a n, существует n возможных миров.
Неопределенность на уровне кортежа можно рассматривать как логическую случайную величину, связанную с каждым неопределенным кортежом.Неопределенность на уровне атрибута можно рассматривать как случайную величину, связанную с каждым неопределенным атрибутом, которая может принимать значения a 1,..., a n.

Присваивая значения случайным переменным, связанным с элементами данных, мы можем представлять различные возможные миры.

История

Впервые термин «вероятностная база данных» был опубликован, вероятно, в документе конференции VLDB 1987 года «Теория вероятностных баз данных» Кавалло и Питтарелли. Название (8-страничного доклада) было задумано как шутка, поскольку 600-страничная монография Дэвида Майера «Теория реляционных баз данных» была бы известна в то время большинству участников конференции и читателям материалов конференции..

Источники

  1. ^Винод Мутусами, Хайфэн Лю, Ханс-Арно Якобсен: Предиктивное сопоставление публикации / подписки. Университет Торонто.
  2. ^, Дэн Сучи : Эффективная оценка запросов к вероятностным базам данных. VLDB J. 16 (4): 523-544 (2007)
  3. ^,: 10 ^ (10 ^ 6) Миры и за их пределами: эффективное представление и обработка неполной информации. ICDE 2007: 606-615

Внешние ссылки

Последняя правка сделана 2021-06-02 07:16:44
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте