теория функций убеждений, также известная как теория свидетельств или теория Демпстера – Шейфера (DST ), является общей основой для рассуждений с неопределенностью с понятными связями с другими концепциями, такими как вероятность, возможность и неточные теории вероятностей. Впервые представленная Артуром П. Демпстером в контексте статистического вывода, теория была позже развита Гленном Шафер в общую основу для моделирования эпистемической неопределенности - математическую теорию Доказательства. Теория позволяет объединить свидетельства из разных источников и прийти к определенной степени уверенности (представленной математическим объектом, называемым функцией убеждений), которая учитывает все доступные свидетельства.
В узком смысле термин теория Демпстера – Шафера относится к первоначальной концепции теории Демпстера и Шафера. Однако более распространено использование этого термина в более широком смысле того же общего подхода, адаптированного к конкретным типам ситуаций. В частности, многие авторы предложили разные правила комбинирования доказательств, часто с целью лучшего разрешения конфликтов в доказательствах. Ранние разработки также стали отправной точкой для многих важных разработок, включая переносимую модель убеждений и теорию подсказок.
Теория Демпстера – Шейфера является обобщением байесовской теории субъективной вероятности. Функции убеждения основывают степени уверенности (или уверенности, или доверия) для одного вопроса от вероятностей для связанного вопроса. Сами степени веры могут иметь или не иметь математические свойства вероятностей; насколько они отличаются, зависит от того, насколько тесно связаны эти два вопроса. Другими словами, это способ представления эпистемической правдоподобности, но он может давать ответы, противоречащие тем, которые были получены с помощью теории вероятностей.
Часто используется как метод слияния сенсоров Теория Демпстера-Шейфера основана на двух идеях: получение степени уверенности для одного вопроса из субъективных вероятностей для связанного вопроса и правило Демпстера для объединения таких степеней веры, когда они основаны на независимых элементах свидетельств. По сути, степень веры в предложение зависит в первую очередь от количества ответов (на связанные вопросы), содержащих предложение, и от субъективной вероятности каждого ответа. Также вносят свой вклад правила комбинирования, которые отражают общие предположения о данных.
В этом формализме степень веры (также называемая массой ) представлена как функция веры, а не Байесовское распределение вероятностей. Значения вероятностей присваиваются скорее множеству возможностей, чем отдельным событиям: их привлекательность основана на том факте, что они естественным образом кодируют свидетельства в пользу предположений.
Теория Демпстера-Шейфера приписывает свои массы всем подмножествам предложений, составляющих систему - в теоретико-множественных терминах набор степеней утверждений. Например, предположим ситуацию, когда в системе есть два связанных вопроса или предложения. В этой системе любая функция убеждения приписывает массу первому утверждению, второму, обоим или ни одному из них.
Формализм Шафера начинается с набора рассматриваемых возможностей, например числовых значений переменной или пар лингвистических переменных, таких как «дата и место происхождения реликвии» (спрашивая, антиквариат это или недавняя подделка). Гипотеза представлена подмножеством этой системы различения, например «(династия Мин, Китай)» или «(19 век, Германия)».
Структура Шафера позволяет представить веру в такие предположения как интервалы, ограниченные двумя ценностями, убеждением (или поддержкой) и правдоподобием:
На первом этапе всем подмножествам кадра присваиваются субъективные вероятности (массы); обычно только ограниченное количество наборов будет иметь ненулевую массу (фокальные элементы). Вера в гипотезу складывается из суммы масс всех подмножеств набора гипотез. Это количество убеждений, которое напрямую поддерживает либо данную гипотезу, либо более конкретную, таким образом формируя нижнюю границу ее вероятности. Убеждение (обычно обозначаемое как Bel) измеряет силу свидетельства в пользу утверждения p. Он варьируется от 0 (указывает на отсутствие доказательств) до 1 (означает уверенность). Правдоподобие равно 1 минус сумма масс всех множеств, пересечение которых с гипотезой пусто. Или его можно получить как сумму масс всех множеств, пересечение которых с гипотезой не является пустым. Это верхняя граница вероятности того, что гипотеза может быть верной, то есть «может быть истинным состоянием системы» до этого значения, потому что существует лишь определенное количество свидетельств, которые противоречат этой гипотезе. Правдоподобие (обозначается Pl) определяется как Pl (p) = 1 - Bel (~ p). Он также колеблется от 0 до 1 и измеряет степень, в которой свидетельство в пользу ~ p оставляет место для веры в p.
Например, предположим, что у нас есть убеждение 0,5 для предложения, скажем, «кот в коробке мертв». Это означает, что у нас есть доказательства, которые позволяют нам твердо утверждать, что утверждение верно с уверенностью 0,5. Однако свидетельства, противоречащие этой гипотезе (то есть «кошка жива»), имеют достоверность только 0,2. Оставшаяся масса 0,3 (разрыв между 0,5 подтверждающим доказательством с одной стороны и 0,2 противоположным доказательством с другой) является «неопределенной», что означает, что кошка могла быть либо мертвой, либо живой. Этот интервал представляет собой уровень неопределенности, основанный на свидетельствах в системе.
Гипотеза | Масса | Вера | Правдоподобие |
---|---|---|---|
Ноль (ни живые, ни мертвые) | 0 | 0 | 0 |
Живые | 0,2 | 0,2 | 0,5 |
Мертвые | 0,5 | 0,5 | 0,8 |
Либо (живые, либо мертвые) | 0,3 | 1,0 | 1,0 |
Нулевая гипотеза по определению устанавливается равной нулю (соответствует «нет решения»). Ортогональные гипотезы «Живой» и «Мертвый» имеют вероятности 0,2 и 0,5 соответственно. Это может соответствовать сигналам «Детектор живой / мертвой кошки», которые имеют надежность 0,2 и 0,5 соответственно. Наконец, всеобъемлющая гипотеза «Либо» (которая просто признает, что в коробке есть кошка) устраняет недостаток, так что сумма масс равна 1. Вера в гипотезы «Живой» и «Мертвой» соответствует их соответствующие массы, потому что у них нет подмножеств; Вера для «Либо» состоит из суммы всех трех масс (Либо, Живой, и Мертвый), потому что «Живой» и «Мертвый» являются подмножествами «Либо». «Живое» правдоподобие составляет 1 - m (мертвое): 0,8, а правдоподобие «мертвое» равно 1 - m (живое): 0,5. Другими словами, «живое» правдоподобие составляет m (живое) + m (любое), а «мертвое» правдоподобие - m (мертвое) + m (любое). Наконец, правдоподобие «Либо» складывается из m (живого) + m (мертвого) + m (любого). Универсальная гипотеза («Либо») всегда будет иметь 100% уверенность и правдоподобие - она действует как своего рода контрольная сумма.
Вот несколько более подробный пример, когда начинает проявляться поведение веры и правдоподобия. Мы смотрим через множество детекторных систем на единственный дальний сигнальный огонь, который может быть окрашен только в один из трех цветов (красный, желтый или зеленый):
Гипотеза | Масса | Убеждение | Правдоподобие |
---|---|---|---|
Пусто | 0 | 0 | 0 |
Красный | 0,35 | 0,35 | 0,56 |
Желтый | 0,25 | 0,25 | 0,45 |
Зеленый | 0,15 | 0,15 | 0,34 |
Красный или желтый | 0,06 | 0,66 | 0,85 |
красный или зеленый | 0,05 | 0,55 | 0,75 |
желтый или зеленый | 0.04 | 0.44 | 0.65 |
Любые | 0.1 | 1.0 | 1.0 |
События такого типа нельзя моделировать как непересекающиеся множества в вероятностном пространстве, как здесь, в пространстве массового назначения. Скорее, событие «Красный или Желтый» будет рассматриваться как объединение событий «Красный» и «Желтый» и (см. аксиомы вероятности ) P (красный или желтый) ≥ P (желтый), и P (Any) = 1, где Any означает красный, желтый или зеленый. В DST масса, присвоенная Любому, относится к пропорции свидетельства, которое не может быть отнесено ни к одному из других состояний, что здесь означает свидетельство, которое говорит о наличии света, но ничего не говорит о том, какого он цвета. В этом примере пропорции свидетельства, показывающей, что свет является красным или зеленым, придается масса 0,05. Такие доказательства могут быть получены, например, от дальтоника R / G. DST позволяет нам извлекать ценность из свидетельств этого датчика. Кроме того, в DST считается, что нулевой набор имеет нулевую массу, что означает, что здесь существует сигнальная световая система, и мы исследуем ее возможные состояния, а не размышляем о том, существует ли она вообще.
Убеждения из разных источников можно комбинировать с различными операторами слияния для моделирования конкретных ситуаций слияния убеждений, например с правилом комбинации Демпстера, которое объединяет ограничения убеждений, которые продиктованы независимыми источниками убеждений, например, в случае комбинирования подсказок или комбинирования предпочтений. Обратите внимание, что массы вероятностей из утверждений, которые противоречат друг другу, могут использоваться для получения меры конфликта между независимыми источниками убеждений. Другие ситуации можно смоделировать с помощью различных операторов слияния, таких как совокупное слияние убеждений из независимых источников, которое можно смоделировать с помощью оператора кумулятивного слияния.
Правило комбинирования Демпстера иногда интерпретируется как приблизительное обобщение Правило Байеса. В этой интерпретации априорные и условные выражения не нужно указывать, в отличие от традиционных байесовских методов, которые часто используют аргумент симметрии (минимаксная ошибка) для присвоения априорных вероятностей случайным величинам (например, присвоение 0,5 двоичным значениям, для которых нет информации о том, какие из них скорее). Однако любая информация, содержащаяся в пропущенных априорных и условных выражениях, не используется в правиле комбинирования Демпстера, если она не может быть получена косвенно - и, возможно, тогда доступна для вычислений с использованием уравнений Байеса.
Теория Демпстера-Шейфера позволяет указать степень невежества в этой ситуации вместо того, чтобы быть вынужденным предоставлять априорные вероятности, которые добавляют к единице. Ситуация подобного рода, а также вопрос о том, существует ли реальное различие между риском и незнанием, широко обсуждались статистиками и экономистами. См., Например, противоположные взгляды Дэниела Эллсберга, Ховарда Райффа, Кеннета Эрроу и Фрэнка Найта.
Пусть X будет вселенной : набором, представляющим все возможные состояния рассматриваемой системы. набор мощности
- это набор всех подмножеств X, включая пустой набор . Например, если:
, то
Элементы Могут быть взяты для представления предложений относительно фактического состояния системы, содержащего все и только состояния, в которых утверждение истинно.
Теория свидетельств приписывает массу убеждений каждому элементу набора силы. Формально функция
называется базовым назначением убеждений (BBA), когда он имеет два свойства. Во-первых, масса пустого набора равна нулю:
Во-вторых, массы всех элементов набор мощности в сумме составляет 1:
Масса m (A) A, данного члена множества степеней, выражает долю всех релевантных и доступных свидетельств, подтверждающих утверждение о том, что фактическое состояние принадлежит A, но никакому конкретному подмножеству A. Значение m (A) относится только к набору A и не делает никаких дополнительных заявлений о каких-либо подмножествах A, каждое из которых по определению имеет свою собственную массу.
Из массовых назначений можно определить верхнюю и нижнюю границы вероятностного интервала. Этот интервал содержит точную вероятность интересующего множества (в классическом смысле) и ограничен двумя неаддитивными непрерывными мерами, называемыми убеждением (или поддержкой ) и правдоподобие :
Вера bel (A) для множества A определяется как сумма всех массы подмножеств интересующего множества:
Правдоподобие pl (A) - это сумма всех масс множества B, которые пересекают интересующее множество A:
Эти две меры связаны друг с другом следующим образом:
И наоборот, для конечного A, с учетом меры доверия bel (B) для всех подмножеств B в A мы можем найти массы m (A) с помощью следующей обратной функции:
где | А - Б | является разностью мощностей двух множеств.
Проблема, с которой мы сейчас сталкиваемся, заключается в том, как объединить два независимых набора вероятностных массовых назначений в конкретных ситуациях. В случае, если разные источники выражают свои убеждения через фрейм в терминах ограничений убеждений, например, в случае подсказок или в случае выражения предпочтений, тогда подходящим оператором слияния является правило Демпстера. Это правило выводит общее общее убеждение между несколькими источниками и игнорирует все конфликтующие (не разделяемые) убеждения с помощью фактора нормализации. Использование этого правила в других ситуациях, кроме объединения ограничений убеждений, подверглось серьезной критике, например, в случае объединения отдельных оценок убеждений из нескольких источников, которые должны быть объединены кумулятивным образом, а не в качестве ограничений. Кумулятивное слияние означает, что все вероятностные массы из разных источников отражаются в производном убеждении, поэтому никакая вероятностная масса не игнорируется.
В частности, комбинация (называемая совместной массой ) вычисляется из двух наборов масс m 1 и m 2 в следующем способ:
где
K - это мера степени конфликта между двумя массовые наборы.
Коэффициент нормализации, указанный выше, 1 - K, имеет эффект полного игнорирования конфликта и приписывания любой массы, связанной с конфликтом, нулевому набору. Таким образом, это комбинированное правило доказательств может давать противоречивые результаты, как мы покажем далее.
В следующем примере показано, как правило Демпстера дает интуитивно понятные результаты при применении в ситуации слияния предпочтений, даже когда существует высокий конфликт.
Пример с точно такими же числовыми значениями был представлен Заде в 1979 году, чтобы указать противоречащие интуиции результаты, генерируемые правилом Демпстера, когда существует высокая степень конфликта. Пример выглядит следующим образом:
Такой результат противоречит здравому смыслу, поскольку оба врача согласны с тем, что существует небольшой шанс, что у пациента менингит. Этот пример стал отправной точкой для многих исследовательских работ, в которых пытались найти твердое обоснование правила Демпстера и основ теории Демпстера – Шафера или показать несоответствия этой теории.
В следующем примере показано, где правило Демпстера дает противоречивый результат, даже если конфликт низкий.
Этот результат подразумевает полную поддержку диагноза опухоли головного мозга, который оба доктора считали весьма вероятным. Соглашение возникает из-за низкой степени противоречия между двумя наборами доказательств, содержащихся во мнениях двух врачей.
В любом случае было бы разумно ожидать, что:
, поскольку наличие ненулевых вероятностей веры для других диагнозов подразумевает менее чем полную поддержку опухоли мозга диагноз.
Как и в теории Демпстера-Шейфера, байесовская функция веры имеет свойства и . Третье условие, однако, подпадает под, но ослабляется в теории DS:
Например, байесовец смоделирует цвет автомобиля как распределение вероятностей по (красный, зеленый, синий), присвоив каждому цвету одно число. Демпстер-Шафер присваивает номера каждому из (красный, зеленый, синий, (красный или зеленый), (красный или синий), (зеленый или синий), (красный, зеленый или синий)), которые не должны совпадать, для например Бел (красный) + Бел (зеленый)! = Бел (красный или зеленый). Это может быть более эффективным в вычислительном отношении, если свидетель сообщает: «Я видел, что машина была либо синей, либо зеленой», и в этом случае убеждение может быть присвоено за один шаг, а не разбиваться на значения для двух разных цветов. Однако это может привести к иррациональным выводам.
Эквивалентно, каждое из следующих условий определяет байесовский частный случай теории DS:
Условная вероятность Байеса является частным случаем правила комбинации Демпстера.
Утверждалось, что теория DS обеспечивает более четкое различие между эпистемической неопределенностью и физической неопределенностью, чем Байесовская теория. Например, рост ненаблюдаемого человека из популяции может иметь гауссовское распределение убеждений с высокой дисперсией, но байесовская теория получает такое же распределение в случае, когда все люди имеют одинаковый рост, но мало данных о том, каков этот рост., как и в случае, когда население имеет широкий диапазон физически разного роста. Стандартная байесовская теория может привести к неоптимальным решениям, если это различие не будет учтено с учетом использования и оборудования для оценки полезности действий по сбору информации.
Также утверждалось, что теория DS не является обобщением байесовской теории.
Байесовское приближение [Voorbraak, 1989) сводит заданное bpa к (дискретному) распределению вероятностей, т. Е. только одноэлементные подмножества кадра распознавания могут быть центральными элементами приближенной версии Markup Renders как of :
Это полезно для тех, кого интересует только гипотеза единственного состояния.
Это можно сделать на «легком» примере.
Гипотеза | ||||||
---|---|---|---|---|---|---|
Нулевой | 0 | 0 | 0 | 0 | 0 | 0 |
Красный | 0,35 | 0,11 | 0,32 | 0,41 | 0,30 | 0,37 |
Желтый | 0,25 | 0,21 | 0,33 | 0,33 | 0,38 | 0,38 |
Зеленый | 0,15 | 0,33 | 0,24 | 0,25 | 0,32 | 0,25 |
Красный или желтый | 0,06 | 0,21 | 0,07 | 0 | 0 | 0 |
Красный или зеленый | 0,05 | 0,01 | 0,01 | 0 | 0 | 0 |
Желтый или зеленый | 0,04 | 0,03 | 0,01 | 0 | 0 | 0 |
Любой | 0,1 | 0,1 | 0,02 | 0 | 0 | 0 |
Judea Pearl (1988a, глава 9; 1988b и 1990) утверждала, что неверно интерпретировать функции убеждений как представляющие либо «вероятности событие »или« уверенность в вероятности, приписываемые различным результатам », или« степени веры (или уверенности, или доверия) в предложение », или« степень невежества в ситуации ». Вместо этого функции убеждений представляют вероятность того, что данное предложение доказуемо на основе набора других предложений, которым приписываются вероятности. Смешение вероятностей истины с вероятностями доказуемости может привести к противоречивым результатам в задачах рассуждения, таких как (1) представление неполных знаний, (2) обновление убеждений и (3) объединение доказательств. Он также продемонстрировал, что если частичное знание кодируется и обновляется методами функции убеждений, полученные в результате убеждения не могут служить основой для рациональных решений.
Клопотек и Вежхон предложили интерпретировать теорию Демпстера – Шафера в терминах статистики таблиц решений (теории грубых множеств ), согласно которой оператор объединения свидетельств следует рассматривать как реляционное соединение таблиц решений. В другой интерпретации М. А. Клопотек и С. Т. Вежхон предлагают рассматривать эту теорию как описывающую деструктивную обработку материала (с потерей свойств), например как в некоторых процессах производства полупроводников. При обеих интерпретациях рассуждение в DST дает правильные результаты, в отличие от более ранних вероятностных интерпретаций, критикованных Перлом в цитируемых статьях и другими исследователями.
Йосанг доказал, что правило комбинирования Демпстера на самом деле является методом объединения ограничений убеждений. Он представляет собой только примерный оператор слияния в других ситуациях, например, кумулятивное слияние убеждений, но обычно дает неверные результаты в таких ситуациях. Таким образом, путаница вокруг обоснованности правила Демпстера возникает из-за неспособности правильно интерпретировать природу моделируемых ситуаций. Правило комбинирования Демпстера всегда дает правильные и интуитивно понятные результаты в ситуации слияния ограничений убеждений из разных источников.
При рассмотрении предпочтений можно использовать частичный порядок решетки вместо общего порядка действительная линия, найденная в теории Демпстера – Шафера. Действительно, Гюнтер Шмидт предложил эту модификацию и обрисовал метод.
Учитывая набор критериев C и решетку L с упорядочением E, Шмидт определяет реляционную меру μ из набора степеней на C в L, который соблюдает порядок Ω на ℙ (C): инструменты исчисления отношений, включая композицию отношений, используются для выражения этого уважения:
Шмидт сравнивает μ с функцией убеждений Шафера, а также рассматривает метод объединения мер, обобщающий подход Демпстера (когда новое свидетельство объединяется с ранее имевшимся свидетельством). Он также вводит реляционный интеграл и сравнивает его с интегралом Шоке и интегралом Сугено. Любое отношение m между C и L может быть введено как «прямая оценка», а затем обработано с помощью исчисления отношений для получения меры возможности μ.