Большинство реальных баз данных содержат данные, правильность которых неопределенно. Чтобы работать с такими данными, необходимо количественно оценить целостность данных. Это достигается за счет использования вероятностных баз данных.
A вероятностная база данных - это неопределенная база данных, в которой возможные миры связаны вероятностями. Вероятностные системы управления базами данных в настоящее время являются активной областью исследований. «Хотя в настоящее время нет коммерческих систем вероятностных баз данных, существует несколько исследовательских прототипов...»
Вероятностные базы данных различают логическую модель данных и физическое представление данных во многом как реляционные базы данных делают в архитектуре ANSI-SPARC. В вероятностных базах данных это еще более важно, поскольку такие базы данных должны представлять очень большое количество возможных миров, часто экспоненциально по размеру одного мира (классическая база данных ), кратко.
В вероятностной базе данных каждый кортеж связан с вероятностью от 0 до 1, где 0 означает, что данные определенно неверны, а 1 означает, что они определенно верны.
Вероятностная база данных может существовать в нескольких состояниях. Например, если мы не уверены в существовании кортежа в базе данных, то база данных может находиться в двух разных состояниях по отношению к этому кортежу - первое состояние содержит кортеж, а второе - нет. Точно так же, если атрибут может принимать одно из значений x, y или z, то база данных может находиться в трех разных состояниях по отношению к этому атрибуту.
Каждое из этих состояний называется возможным миром.
Рассмотрим следующую базу данных:
A | B |
---|---|
a1 | b1 |
a2 | b2 |
a3 | {b3, b3 ′, b3 ′ ′} |
(Здесь {b3, b3 ′, b3 ′ ′} Означает, что атрибут может принимать любое из значений b3, b3 ′ или b3 ′ ′)
Тогда фактическое состояние базы данных может содержать или не содержать первый кортеж (в зависимости от того, правильное оно или нет). Точно так же значение атрибута B может быть b3, b3 ′ или b3 ′ ′.
Следовательно, возможные миры, соответствующие базе данных, следующие:
A | B |
---|---|
a1 | b1 |
a2 | b2 |
a3 | b3 |
A | B |
---|---|
a1 | b1 |
a2 | b2 |
a3 | b3 ′ |
A | B |
---|---|
a1 | b1 |
a2 | b2 |
a3 | b3 ′ ′ |
A | B |
---|---|
a2 | b2 |
a3 | b3 |
A | B |
---|---|
a2 | b2 |
a3 | b3 ′ |
A | B |
---|---|
a2 | b2 |
a3 | b3 ′ ′ |
По сути, существует два вида неопределенностей, которые могут существовать в вероятностной базе данных, как описано в таблице ниже:
Неопределенность на уровне кортежей | Неопределенность на уровне атрибутов |
---|---|
Здесь мы не уверены, является ли кортеж правильным или нет, то есть должен ли он существовать в базе данных или нет. | Здесь мы не уверены в том, какие значения может принимать атрибут кортежа, то есть он может принимать одно из нескольких возможных значений. |
В соответствии с каждым неопределенным кортежем существует два возможных мира: один, который включает кортеж, а другой - нет. | Соответствует каждому неопределенному атрибуту, который может принимать одно из значений a 1,..., a n, существует n возможных миров. |
Неопределенность на уровне кортежа можно рассматривать как логическую случайную величину, связанную с каждым неопределенным кортежом. | Неопределенность на уровне атрибута можно рассматривать как случайную величину, связанную с каждым неопределенным атрибутом, которая может принимать значения a 1,..., a n. |
Присваивая значения случайным переменным, связанным с элементами данных, мы можем представлять различные возможные миры.
Впервые термин «вероятностная база данных» был опубликован, вероятно, в документе конференции VLDB 1987 года «Теория вероятностных баз данных» Кавалло и Питтарелли. Название (8-страничного доклада) было задумано как шутка, поскольку 600-страничная монография Дэвида Майера «Теория реляционных баз данных» была бы известна в то время большинству участников конференции и читателям материалов конференции..