Индуктивная вероятность

редактировать

Определение вероятности будущих событий на основе прошлых событий

Индуктивная вероятность пытается дать вероятность будущих событий на основе прошлых событий. Это основа для индуктивного мышления и математическая основа для обучения и восприятия закономерностей. Это источник знаний о мире.

Есть три источника знаний: вывод, общение и дедукция. Коммуникация передает информацию, полученную другими методами. Выведение устанавливает новые факты на основе существующих фактов. Вывод устанавливает новые факты из данных. Его основой является теорема Байеса.

Информация, описывающая мир, записывается на языке. Например, может быть выбран простой математический язык предложений. На этом языке предложения могут быть записаны в виде строк символов. Но в компьютере эти предложения можно закодировать в виде цепочек битов (единиц и нулей). Затем язык может быть закодирован так, чтобы наиболее часто используемые предложения были самыми короткими. Этот внутренний язык неявно представляет вероятности утверждений.

Бритва Оккама говорит, что «простейшая теория, согласующаяся с данными, скорее всего, верна». «Простейшая теория» интерпретируется как представление теории, написанной на этом внутреннем языке. Теория с кратчайшей кодировкой на этом внутреннем языке, скорее всего, верна.

Содержание

1 История
- 1.1 Минимальная длина описания / сообщения
  - 1.1.1 Переобучение
- 1.2 Вывод на основе сложности программы
  - 1.2.1 Выявление шаблонов в данных
  - 1.2. 2 Рассмотрение всех теорий
  - 1.2.3 Универсальные априорные значения
- 1.3 Универсальный искусственный интеллект
2 Вероятность
- 2.1 Сравнение с дедуктивной вероятностью
- 2.2 Вероятность как оценка
- 2.3 Комбинирование вероятностных подходов
3 Вероятность и информация
- 3.1 Объединение информации
- 3.2 Внутренний язык информации
  - 3.2.1 Кодирование выражений
  - 3.2.2 Распределение чисел
4 Вероятность и частота
- 4.1 Условная вероятность
- 4.2 Частотный подход, применяемый к возможным мирам
- 4.3 Закон общей вероятности
- 4.4 Альтернативные возможности
- 4.5 Отрицание
- 4.6 Вероятность следствия и условий
5 Проверка байесовской гипотезы
- 5.1 Набор гипотезы
6 Логический индуктивный вывод
- 6.1 Обобщение и специализация
- 6.2 Ne Использование индукции wton
- 6.3 Вероятности для индуктивного вывода
7 Выводы
- 7.1 Вывод индуктивной вероятности
- 7.2 Модель для индуктивного вывода
  - 7.2.1 Применение теоремы Байеса
  - 7.2.2 Удаление теорий без предсказательной силы
8 Ключевые люди
9 См. Также
10 Ссылки
11 Внешние ссылки

История

Вероятность и статистика были сосредоточены на распределениях вероятностей и тесты значимости. Вероятность была формальной, четко определенной, но ограниченной по масштабу. В частности, его применение было ограничено ситуациями, которые можно было определить как эксперимент или испытание с четко определенной популяцией.

Теорема Байеса названа в честь преподобного Томаса Байеса 1701–1761 гг. Байесовский вывод расширил применение вероятности ко многим ситуациям, когда совокупность не была четко определена. Но теорема Байеса всегда зависела от априорных вероятностей, чтобы генерировать новые вероятности. Было неясно, откуда должны взяться эти априорные вероятности.

Рэй Соломонофф разработал алгоритмическую вероятность, которая дала объяснение того, что такое случайность и как шаблоны в данных могут быть представлены компьютерными программами, которые дают более короткие представления данных примерно в 1964 году.

Крис Уоллес и DM Boulton разработали минимальную длину сообщения примерно в 1968 году. Позже Йорма Риссанен разработал минимальную длину описания примерно в 1978 году. Эти методы позволяют теория информации должна быть связана с вероятностью таким образом, чтобы ее можно было сравнить с применением теоремы Байеса, но которая дает источник и объяснение роли априорных вероятностей.

Маркус Хаттер объединил теорию принятия решений с работами Рэя Соломонова и Андрея Колмогорова, чтобы дать теорию оптимального по Парето поведения для Интеллектуальный агент, около 1998 г.

Минимальная длина описания / сообщения

Программа с наименьшей длиной, соответствующей данным, с наибольшей вероятностью предсказывает будущие данные. Это тезис, лежащий в основе методов минимальной длины сообщения и минимальной длины описания.

На первый взгляд теорема Байеса кажется отличной от принципа минимальной длины сообщения / описания. При ближайшем рассмотрении оказывается то же самое. Теорема Байеса касается условных вероятностей и утверждает вероятность того, что событие B произойдет, если сначала произойдет событие A:

P (A ∧ B) = P (B) ⋅ P (A | B) = P (A) ⋅ P (B | A) {\ displaystyle P (A \ land B) = P (B) \ cdot P (A | B) = P (A) \ cdot P (B | A)}

{\ displaystyle P (A \ land B) = P (B) \ cdot P (A | B) = P (A) \ cdot P (B | A)}

становится с точки зрения сообщения длина L,

L (A ∧ B) = L (B) + L (A | B) = L (A) + L (B | A). {\ displaystyle L (A \ land B) = L (B) + L (A | B) = L (A) + L (B | A).}

{\ displaystyle L (A \ land B) = L (B) + L (A | B) = L (A) + L (B | A).}

Это означает, что если вся информация дается с описанием event, то длина информации может быть использована для определения исходной вероятности события. Таким образом, если дана информация, описывающая возникновение A, вместе с информацией, описывающей B для данного A, то была предоставлена вся информация, описывающая A и B.

Переобучение

Переобучение происходит, когда модель соответствует случайному шуму, а не шаблону в данных. Например, возьмем ситуацию, когда кривая аппроксимируется по набору точек. Если подбирается многочлен с множеством членов, он может более точно представлять данные. Тогда аппроксимация будет лучше, а информации, необходимой для описания отклонений от подобранной кривой, будет меньше. Меньшая длина информации означает более высокую вероятность.

Однако необходимо также учитывать информацию, необходимую для описания кривой. Общая информация для кривой с большим количеством членов может быть больше, чем для кривой с меньшим количеством членов, которая не так хорошо подходит, но требует меньше информации для описания полинома.

Вывод, основанный на сложности программы

Теория индуктивного вывода Соломонова также является индуктивным выводом. Наблюдается битовая строка x. Затем рассмотрите все программы, которые генерируют строки, начинающиеся с x. Программы, представленные в форме индуктивного вывода, представляют собой теории, предполагающие наблюдение за битовой цепочкой x.

Используемый здесь метод определения вероятностей для индуктивного вывода основан на теории индуктивного вывода Соломонова.

Обнаружение закономерностей в данных

Если все биты равны 1, то люди сделайте вывод, что в монете есть смещение, и что более вероятно, что следующий бит также равен 1. Это описывается как изучение или обнаружение закономерностей в данных.

Такой шаблон может быть представлен компьютерной программой. Может быть написана короткая компьютерная программа, которая производит серию битов, которые все равны 1. Если длина программы K составляет $L (K) {\ displaystyle L (K)}$ $L (K)$ бит, то ее априорная вероятность:

P (K) = 2 - L (K) {\ displaystyle P (K) = 2 ^ {- L (K)}}

п (К) = 2 ^ {{- L (К)}}

Длина самой короткой программы, представляющей строку бит называется сложностью Колмогорова.

сложностью Колмогорова не вычислима. Это связано с проблемой остановки . При поиске самой короткой программы некоторые программы могут зайти в бесконечный цикл.

Рассмотрение всех теорий

Цитируется греческий философ Эпикур : «Если более одной теории согласуется с наблюдениями, сохраняйте все теории».

Как в криминальном романе, при определении вероятного убийцы необходимо учитывать все теории, так и с индуктивной вероятностью все программы должны учитываться при определении вероятных будущих битов, возникающих из потока битов.

Программы, длина которых уже превышает n, не имеют возможности прогнозирования. Необработанная (или априорная) вероятность того, что последовательность битов случайна (не имеет шаблона), равна $2 - n {\ displaystyle 2 ^ {- n}}$ $2 ^ {- n}$ .

Каждая программа, которая производит последовательность битов, но короче n - это теория / шаблон о битах с вероятностью $2 - k {\ displaystyle 2 ^ {- k}}$ $2 ^ {{- k}}$ , где k - длина программы.

Вероятность получения последовательности битов y после приема серии битов x является тогда условной вероятностью получения y при заданном x, которая представляет собой вероятность x с добавленным y, деленную на вероятность x.

Универсальные приоритеты

Язык программирования влияет на предсказание следующего бита в строке. Язык действует как априорная вероятность. Это особенно проблема, когда язык программирования кодирует числа и другие типы данных. Интуитивно мы думаем, что 0 и 1 - простые числа, и что простые числа каким-то образом сложнее, чем числа, которые могут быть составными.

Использование сложности Колмогорова дает несмещенную оценку (универсальную априорную) априорной вероятности числа. В качестве мысленного эксперимента интеллектуальный агент может быть снабжен устройством ввода данных, выдающим ряд чисел после применения некоторой функции преобразования к необработанным числам. Другой агент может иметь такое же устройство ввода с другой функцией преобразования. Агенты не видят и не знают об этих функциях преобразования. Тогда не возникает рациональных оснований для предпочтения одной функции другой. Универсальный априор гарантирует, что, хотя два агента могут иметь разные начальные распределения вероятностей для ввода данных, разница будет ограничена константой.

Таким образом, универсальные априорные факторы не устраняют изначальную предвзятость, но уменьшают и ограничивают ее. Каждый раз, когда мы описываем событие на каком-либо языке, используя естественный или другой язык, язык закодировал в нем наши предыдущие ожидания. Так что некоторая опора на априорные вероятности неизбежна.

Проблема возникает, когда предварительные ожидания интеллектуального агента взаимодействуют с окружающей средой, образуя самоусиливающуюся петлю обратной связи. Это проблема предвзятости или предубеждений. Универсальные приоры уменьшают, но не устраняют эту проблему.

Универсальный искусственный интеллект

Теория универсального искусственного интеллекта применяет теорию принятия решений к индуктивным вероятностям. Теория показывает, как можно выбрать лучшие действия для оптимизации функции вознаграждения. Результатом является теоретическая модель интеллекта.

Это фундаментальная теория интеллекта, которая оптимизирует поведение агентов в:

исследовании окружающей среды; выполнение действий для получения ответов, которые расширяют знания агентов.
Конкуренция или сотрудничество с другим агентом; игры.
Уравновешивание краткосрочных и долгосрочных вознаграждений.

В общем, ни один агент не всегда обеспечивает наилучшие действия во всех ситуациях. Конкретный выбор, сделанный агентом, может быть неправильным, и среда может не предоставить агенту возможности оправиться от первоначального неправильного выбора. Однако агент является оптимальным по Парето в том смысле, что ни один другой агент не будет работать лучше, чем этот агент в этой среде, без ухудшения в другой среде. В этом смысле нельзя сказать, что никакой другой агент лучше.

В настоящее время теория ограничена невыполнимостью (проблема остановки ). Чтобы избежать этого, можно использовать приближения. Скорость обработки и комбинаторный взрыв остаются основными ограничивающими факторами для искусственного интеллекта.

Вероятность

Вероятность - это представление неопределенного или частичного знания об истинности утверждений. Вероятности - это субъективные и личные оценки вероятных результатов, основанные на прошлом опыте и выводах, сделанных на основе данных.

Это описание вероятности поначалу может показаться странным. На естественном языке мы говорим о «вероятности» того, что солнце взойдет завтра. Мы не говорим о «вашей вероятности» восхода солнца. Но для того, чтобы вывод был правильно смоделирован, вероятность должна быть личной, а акт вывода порождает новые апостериорные вероятности из предшествующих вероятностей.

Вероятности личны, потому что они зависят от знания человека. Вероятности субъективны, потому что они всегда в некоторой степени зависят от априорных вероятностей, назначенных человеком. Под субъективным здесь не следует понимать неопределенность или неопределенность.

Термин интеллектуальный агент используется для обозначения держателя вероятностей. Интеллектуальный агент может быть человеком или машиной. Если интеллектуальный агент не взаимодействует с окружающей средой, то вероятность со временем сходится к частоте события.

Однако, если агент использует вероятность взаимодействия с окружающей средой, может возникнуть обратная связь, так что два агента в идентичной среде, начиная с немного разных априорных значений, в конечном итоге получат совершенно разные вероятности. В этом случае оптимальная теория принятия решений, как в Универсальный искусственный интеллект Маркуса Хаттера, даст оптимальную по Парето производительность для агента. Это означает, что ни один другой интеллектуальный агент не может добиться лучших результатов в одной среде и не добиться худших результатов в другой.

Сравнение с дедуктивной вероятностью

В дедуктивных теориях вероятности вероятности являются абсолютными величинами, не зависящими от человека, производящего оценку. Но дедуктивные вероятности основаны на

общих знаниях.
предполагаемых фактах, которые должны быть выведены из данных.

Например, в испытании участники осведомлены о результатах всей предыдущей истории испытаний. Они также предполагают, что каждый исход одинаково вероятен. Вместе это позволяет определить одно безусловное значение вероятности.

Но на самом деле у каждого человека нет одинаковой информации. И вообще вероятность каждого исхода не равна. Игра в кости может быть загружена, и эту загрузку необходимо вывести из данных.

Вероятность как оценка

Принцип безразличия сыграл ключевую роль в теории вероятностей. Он говорит, что если N утверждений симметричны, так что одно условие не может быть предпочтительнее другого, тогда все утверждения равновероятны.

Если серьезно, то при оценке вероятности этот принцип приводит к противоречиям. Предположим, что на расстоянии есть 3 мешка с золотом, и одного просят выбрать один. Тогда из-за большого расстояния не видно размеров сумки. Вы оцениваете, используя принцип безразличия, что в каждой сумке есть равное количество золота, а в каждой сумке - треть золота.

Сейчас, пока один из нас не смотрит, другой берет один из мешков и делит его на 3 мешка. Сейчас есть 5 мешков с золотом. Принцип безразличия гласит, что в каждой сумке находится пятая часть золота. В сумке, в которой, по оценкам, находилась треть золота, сейчас оценивается пятая часть золота.

В качестве значения, связанного с сумкой, значения различны, поэтому противоречивы. Но взятые в качестве оценки, данной при конкретном сценарии, оба значения представляют собой отдельные оценки, данные при разных обстоятельствах, и нет оснований полагать, что они равны.

Особенно сомнительны оценки априорных вероятностей. Оценки будут построены без согласованного частотного распределения. По этой причине априорные вероятности рассматриваются как оценки вероятностей, а не вероятностей.

Полная теоретическая трактовка связана с каждой вероятностью,

Утверждение
Предыдущие знания
Априорные вероятности
Процедура оценки, используемая для определения вероятность.

Объединение вероятностных подходов

Индуктивная вероятность объединяет два разных подхода к вероятности.

Вероятность и информация
Вероятность и частота

Каждый подход дает немного разную точку зрения. Теория информации используется для соотнесения вероятностей с количеством информации. Этот подход часто используется для оценки априорных вероятностей.

Частотная вероятность определяет вероятности как объективные утверждения о том, как часто происходит событие. Этот подход можно расширить, определив испытания как более возможных миров. Утверждения о возможных мирах определяют события.

Вероятность и информацию

Тогда как логика представляет только два значения; истина и ложь как значения утверждения, вероятность связывает число в [0,1] с каждым утверждением. Если вероятность утверждения равна 0, утверждение ложно. Если вероятность утверждения равна 1, утверждение верно.

При рассмотрении некоторых данных как строки битов априорные вероятности для последовательности единиц и нулей, вероятность 1 и 0 равна. Следовательно, каждый дополнительный бит вдвое снижает вероятность последовательности битов. Это приводит к выводу, что

P (x) = 2 - L (x) {\ displaystyle P (x) = 2 ^ {- L (x)}}

п (х) = 2 ^ {{- L (х)}}

Где $P (x) {\ displaystyle P (x)}$ $P (x)$ - это вероятность строки битов $x {\ displaystyle x}$ $x$ и $L (x) {\ displaystyle L ( x)}$ $L (x)$ - его длина.

Априорная вероятность любого утверждения вычисляется из количества битов, необходимых для его утверждения. См. Также теория информации.

Объединение информации

Два оператора $A {\ displaystyle A}$ $A$ и $B {\ displaystyle B}$ $B$ может быть представлен двумя отдельными кодировками. Тогда длина кодировки равна

L (A ∧ B) = L (A) + L (B) {\ displaystyle L (A \ land B) = L (A) + L (B)}

{\ displaystyle L (A \ land B) Знак равно L (A) + L (B)}

или с точки зрения вероятности

P (A ∧ B) = P (A) P (B) {\ displaystyle P (A \ land B) = P (A) P (B)}

{\ displaystyle P (A \ land B) = P (A) P (B)}

Но это закон не всегда верен, потому что может быть более короткий метод кодирования $B {\ displaystyle B}$ $B$ , если мы предположим $A {\ displaystyle A}$ $A$ . Таким образом, приведенный выше вероятностный закон применяется, только если $A {\ displaystyle A}$ $A$ и $B {\ displaystyle B}$ $B$ являются «независимыми».

Внутренний язык информации

Основное использование информационного подхода к вероятности заключается в предоставлении оценок сложности утверждений. Напомним, что бритва Оккама гласит: «При прочих равных, простейшая теория, скорее всего, будет правильной». Чтобы применить это правило, сначала нужно дать определение того, что означает «простейший». Теория информации определяет простейшее как кратчайшее кодирование.

Знания представлены в виде утверждений. Каждый оператор представляет собой булево выражение. Выражения кодируются функцией, которая принимает описание (в отличие от значения) выражения и кодирует его как строку битов.

Длина кодировки утверждения дает оценку вероятности утверждения. Эта оценка вероятности часто используется в качестве априорной вероятности утверждения.

Технически эта оценка не является вероятностью, потому что она не построена на основе частотного распределения. Приведенные им оценки вероятностей не всегда подчиняются закону суммы вероятностей. Применение закона полной вероятности к различным сценариям обычно дает более точную оценку вероятности априорной вероятности, чем оценка,основанная на длине утверждения.

Выражения кодирования

Выражение конструируется из подвыражений,

констант (включая функции функции).
Применение функций.
квантификаторы.

A Хаффмана код должен различать 3 случая. Длина каждого кода зависит от частоты типа подвыражений.

Первоначально все константы имеют одинаковую длину / вероятность. Последующим константам может быть присвоена вероятность с помощью кода Хаффмана на основе количества используемых функций во всех выражениях, записанных на данный момент. При использовании кода Хаффмана цель состоит в оценке вероятностей, а не в введении данных.

Длина константы приложения функции плюс сумма размеров для каждого варианта выполнения.

Длина квантификатора - это длина выражения, по которой проводится количественная оценка.

Распределение чисел

Явное представление натуральных чисел не дается. Однако натуральные числа можно построить, применив функцию-последователь к 0, а применив другие арифметические функции. Под этим подразумевается распределение натуральных чисел в зависимости от сложности построения каждого числа.

Рациональные числа строятся путем деления натуральных чисел. В простейшем представлении нет общих множителей между числителем и знаменателем. Это позволяет вероятностное распределение натуральных чисел до рациональных чисел.

Вероятность и частота

Вероятность события можно интерпретировать как частоту результатов, где утверждение истинно, деленное на общее число результатов. Если результаты образуют континуум, может потребоваться заменить частоту показателем ..

События - это наборы результатов. Заявления могут быть связаны с событиями. Логическое выражение B о результатах получить набор результатов b,

b = {x: B (x)} {\ displaystyle b = \ {x: B (x) \}}

b = \ {x: B (x) \}

Условная вероятность

Каждая вероятность всегда соединяется с состоянием в определенной точке аргумента. Вероятности до известны как априорные вероятности, а вероятности после - как апостериорные вероятности.

Вероятность зависит от известных фактов. Истинность факта ограничивает область результатов, полученный факту. Априорные вероятности - это вероятности до того, как факт станет известен. Апостериорные вероятности известны после того, как факт известен. Говорят, что апостериорные вероятности зависят от факта. вероятность того, что $B {\ displaystyle B}$ $B$ верно при условии, что $A {\ displaystyle A}$ $A$ верно, записывается как: $P (B | А). {\ displaystyle P (B | A).}$ ${\ displaystyle P (B | A).}$

Все вероятности в некотором смысле условны. Априорная вероятность $B {\ displaystyle B}$ $B$ равна,

P (B) = P (B | ⊤) {\ displaystyle P (B) = P (B | \ top)}

{\ displaystyle P (B) = P (B | \ top)}

Частотный подход, применяемый к возможному мирум

В частотном подходе вероятности определения как отношение количества результатов в событии к общему количеству исходов. В модели возможного мира каждый возможный мир является результатом, а утверждением о применении мирах определяют события. Вероятность того, что истинное истинное, - это количество миров, в котором утверждение истинно, деленное на общее количество миров. Тогда вероятность того, что утверждение $A {\ displaystyle A}$ $A$ будет истинным о виновном мирах, составляет

P (A) = | {x: A (x)} | | x: ⊤ | {\ Displaystyle P (A) = {\ frac {| \ {x: A (x) \} |} {| x: \ top |}}}

{\ displaystyle P (A) = {\ frac { | \ {x: A (x) \} |} {| x: \ top |}}}

Для условной вероятности.

P (B | A) = | {x: A (x) ∧ B (x)} | | х: А (х) | {\ Displaystyle P (B | A) = {\ frac {| \ {x: A (x) \ land B (x) \} |} {| x: A (x) |}}}

{\ Displaystyle P (B | A) = {\ frac {| \ {x: A (x) \ land B (x) \} |} {| x: A (x) |}}}

затем

P (A ∧ B) = | {x: A (x) ∧ B (x)} | | x: ⊤ | = | {x: A (x) ∧ B (x)} | | {x: A (x)} | | {x: A (x)} | | x: ⊤ | Знак равно п (А) п (В | А) {\ Displaystyle {\ begin {выровнено} P (A \ земля В) = {\ гидроразрыва {| \ {х: А (х) \ земля В (х) \} |} {| x: \ top |}} \\ [8pt] = {\ frac {| \ {x: A (x) \ land B (x) \} |} {| \ {x: A (x) \} |}} {\ frac {| \ {x: A (x) \} |} {| x: \ top |}} \\ [8pt] = P (A) P (B | A) \ end {align}}}

{\ displaystyle {\ begin {выровнено} P (A \ land B) = {\ frac {| \ {x: A (x) \ land B (x) \} |} {| x: \ top |}} \\ [8pt] = {\ frac {| \ {x: A (x) \ land B (x) \} |} {| \ {x: A (x) \} |}} {\ frac {| \ {x: A (x) \} |} {| x: \ top |}} \\ [8pt] = P (A) P (B | A) \ end {align}}}

Используя симметрию, это уравнение можно записать как закон Байеса.

P (A ∧ B) знак равно P (A) P (B | A) = P (B) P (A | B) {\ displaystyle P (A \ land B) = P (A) P (B | A) = P (B) P (A | B)}

{\ Displaystyle P (A \ земля B) = P (A) P (B | A) = P (B) P (A | B)}

Этот закон распределения между априорной и апостериорной вероятностями при изучении новых фактов.

Записанный в виде количества информации Теорема Байеса принимает вид

L (A ∧ B) = L (A) + L (B | A) = L (B) + L ( A | B) {\ displaystyle L (A \ land B) = L (A) + L (B | A) = L (B) + L (A | B)}

{\ Displaystyle L (A \ земля B) = L (A) + L (B | A) = L (B) + L (A | B)}

Сказаны два утверждения A и B быть независимым, если знание истинности А не изменяет вероятность Б. Математически это:

P (B) = P (B | A) {\ displaystyle P (B) = P (B | A)}

{\ displaystyle P (B) = P (B | A)}

тогда теорема Байеса сводится к

P (A ∧ B) = P (A) P (B) {\ displaystyle P (A \ land B) = P (A) P (B)}

{\ displaystyle P (A \ land B) = P (A) P (B)}

Закон общей вероятности

Для набора взаимоисключающих возможностей $A i {\ displaystyle A_ {i}}$ $A_ {i}$ , сумма апостериорных вероятностей должны быть 1.

∑ i P (A i | B) = 1 {\ displaystyle \ sum _ {i} {P (A_ {i} | B)} = 1}

{\ displaystyle \ sum _ {i} {P (A_ { я} | B)} = 1}

Подстановка с использованием байесовской Теорема дает закон полной вероятности

∑ i P (B | A i) P (A i) = ∑ i P (A я | В) п (В) {\ displaystyle \ sum _ {i} {P (B | A_ {i}) P (A_ {i})} = \ sum _ {i} {P (A_ {i } | B) P (B)}}

{\ displaystyle \ sum _ {i} {P (B | A_ {i}) P (A_ {i})} = \ sum _ {i} {P (A_ {i} | B) P (B)}}

P (B) = ∑ я P (B | A i) P (A i) {\ displaystyle P (B) = \ sum _ {i} {P (B | A_ {i}) P (A_ {i})}}

{\ displaystyle П (В) = \ сумма _ {я} {п (В | A_ {i}) P (A_ {i})}}

Этот результат используется для получения расширенная форма теоремы Байеса,

P (A i | B) = P (B | A i) P ( A i) ∑ J P (B | A j) P (A j) {\ Displaystyle P (A_ {i} | B) = {\ frac {P (B | A_ {i}) P (A_ {i}))} {\ sum _ {j} {P (B | A_ {j}) P (A_ {j})}}}}

{\ displaystyle P (A_ {i} | B) = {\ frac {P (B | A_ {i}) P (A_ {i})} {\ sum _ {j} {P (B | A_ {j}) P (A_ {j})}}} }

Это обычная форма теоремы Байеса, используемая на практике, поскольку она гарантирует все апостериорные вероятности для $A i {\ displaystyle A_ {i}}$ $A_ {i}$ равно 1.

Альтернативные возможности

Для взаимоисключающих возможностей вероятности складываются.

P (A ∨ B) знак равно P (A) + P (B), если P (A ∧ B) = 0 {\ displaystyle P (A \ lor B) = P (A) + P (B), \ qquad {\ text {if}} P (A \ land B) = 0}

{\ displaystyle P (A \ lor B) = P (A) + P (B), \ qquad { \ текст {if}} P (A \ земля B) = 0}

Использование

A ∨ B = (A ∧ ¬ (A ∧ B)) ∨ (B ∧ ¬ (A ∧ B)) ∨ (A ∧ B) {\ Displaystyle A \ лор B = (A \ земля \ neg (A \ земля B)) \ лор (B \ земля \ neg (A \ земля B)) \ лор (A \ земля B)}

{\ displaystyle A \ lor B = (A \ land \ neg (A \ land B)) \ lor (B \ land \ neg (A \ land B)) \ lor ( A \ земля B)}

Тогда альтернативы

A ∧ ¬ (A ∧ B), B ∧ ¬ (A ∧ B), A ∧ B {\ displaystyle A \ land \ neg (A \ land B), \ quad B \ land \ neg (A \ land B), \ quad A \ land B}

{\ displaystyle A \ land \ neg (A \ land B), \ quad B \ land \ neg (A \ land B), \ quad A \ land B}

являются взаимоисключающими. Кроме того,

(A ∧ ¬ (A ∧ B)) ∨ (A ∧ B) = A {\ displaystyle (A \ land \ neg (A \ land B)) \ lor (A \ land B) = A }

{\ displaystyle (A \ land \ neg (A \ land B)) \ lor (A \ land B) = A}

P (A ∧ ¬ (A ∧ B)) + P (A ∧ B) = P (A) {\ displaystyle P (A \ land \ neg (A \ land B)) + P (A \ land B) Знак равно п (A)}

{\ displaystyle P (A \ land \ neg (A \ land B)) + P (A \ land B) = P (A)}

п (A ∧ ¬ (A ∧ B)) = P (A) - P (A ∧ B) {\ displaystyle P (A \ land \ neg (A \ land B))) = P (A) -P (A \ land B)}

{ \ displaystyle P (A \ land \ neg (A \ land B)) = P (A) -P (A \ land B)}

, поэтому сложив все вместе,

P (A ∨ B) = P ((A ∧ ¬ (A ∧ B)) ∨ ( B ∧ ¬ (A ∧ B)) ∨ (A ∧ B)) = P (A ∧ ¬ (A ∧ B) + P (B ∧ ¬ (A ∧ B)) + P (A ∧ B) = P (A) - P (A ∧ B) + P (B) - P (A ∧ B) + P (A ∧ B) = P (A) + P (B) - P (A ∧ B) {\ Displaystyle {\ begin {выровнено} P (A \ lor B) = P ((A \ land \ neg (A \ land B)) \ lor (B \ land \ neg (A \ land B)) \ lor (A \ land B)) \ \ = P (A \ land \ neg (A \ land B) + P (B \ land \ neg (A \ land B)) + P (A \ land B) \\ = P (A) - P (A \ земля B) + P (B) -P (A \ земля B) + P (A \ земля B) \\ = P (A) + P (B) -P (A \ земля B) \ конец {выровнено}}}

{\ displaystyle {\ begin {align} P (A \ lor B) = P ((A \ land \ neg ( A \ земля B)) \ lor (B \ земля \ neg (A \ земля B)) \ lor (A \ land B)) \\ = P (A \ land \ neg (A \ land B) + P (B \ land \ neg (A \ land B)) + P (A \ земля B) \\ = P (A) -P (A \ land B) + P (B) -P (A \ land B) + P (A \ land B) \\ = P (A) + P (B) -P (A \ земля B) \ конец {выровненный}}}

Отрицание

As,

A ∨ ¬ A Знак равно ⊤ {\ displaystyle A \ lor \ neg A = \ top}

{\ displaystyle A \ lor \ neg A = \ top}

, затем

P (A) + П (¬ A) знак равно 1 {\ Displaystyle P (A) + P (\ neg A) = 1}

P (A) + P (\ отр A) = 1

Вероятность следствия и условий

Следствие связано с условной вероятностью следующим уравнением:

A → B ⟺ P (B | A) = 1 {\ displaystyle A \ к B \ iff P (B | A) = 1}

{\ displaystyle A \ to B \ iff P (B | A) = 1}

Вывод,

A → B ⟺ P (A → B) = 1 ⟺ P (A ∧ B ∨ ¬ A) = 1 ⟺ P (A ∧ B) + P (¬ A) = 1 ⟺ P (A ∧ B) = P (A) ⟺ P (A) ⋅ P (B | A) = P (A) ⟺ P (В | A) знак равно 1 {\ Displaystyle {\ begin {выровнено} от A \ до B \ iff P (A \ to B) = 1 \\ \ iff P (A \ land B \ lor \ neg A) = 1 \\ \ тогда и только тогда, когда P (A \ land B) + P (\ neg A) = 1 \\ \ iff P (A \ land B) = P (A) \\ \ iff P (A) \ cdot P (B | A) = P (A) \\ \ iff P (B | A) = 1 \ end {align}}}

{\ displaystyle { \ begin {align} A \ to B \ iff P (A \ to B) = 1 \\ \ iff P (A \ land B \ lor \ neg A) = 1 \\ \ iff P (A \ land B) + P (\ neg A) = 1 \\ \ тогда и только тогда, когда P (A \ land B) = P (A) \\ \ тогда и только тогда, когда P (A) \ cdot P (B | A) = P (A) \ \ \ iff P (B | A) = 1 \ конец {выровнено}}}

Проверка байесовской гипотезы

Теорема Байеса может установить вероятность гипотезы или теории H, учитывая некоторые факты F. Тогда апостериорная вероятность H равна

P (H | F) = P (H) P (F | H) P (F) {\ displaystyle P (H | F) = {\ frac {P (H) P (F | H)} {P (F)}}}

{\ displaystyle P (H | F) = { \ frac {P (H) P (F | H)} {P (F)}}}

или с точки зрения информации,

P (H | F) = 2 - (L (ЧАС) + L (F | ЧАС) - L (F)) {\ Displaystyle P (H | F) = 2 ^ {- (L (H) + L (F | H) -L (F)) }}

{\ Displaystyle P (H | F) = 2 ^ {- (L (H) + L (F | H) -L (F)) }}

Предположение, что гипотеза верна, можно дать более простое представление F. Длина кодирования этого более простого представления составляет $L (F | ЧАС). {\ displaystyle L (F | H).}$ ${\ displaystyle L (F | H).}$

$L (H) + L (F | H) {\ displaystyle L (H) + L (F | H)}$ ${\ displaystyle L (H) + L (F | H)}$ представляет количество информации, необходима для представления фактов F, если истинно. $L (F) {\ displaystyle L (F)}$ $L (F)$ - это объем информации, необходимый для представления F без гипотезы H. Разница в насколько сжато представление фактов при допущении H верно. Это свидетельство того, что гипотеза H верна.

$L (F) {\ displaystyle L (F)}$ $L (F)$ оценивается из длины кодирования, то полученная вероятность не будет 0 и 1 Полученное значение вероято вероятности, но не является хорошей оценкой вероятности. Полученное число иногда называют относительной вероятностью: вероятнее теория, чем несоответствие теории.

Если известен полный набор взаимоисключающих гипотез, может быть дана надлежащая оценка априорной вероятности $P (F) {\ displaystyle P (F)}$ $P (F)$ .

Набор гипотеза

Вероятности могут быть вычислены на основе расширенной формы теоремы Байеса. Учитывая все взаимоисключающие гипотезы $H i {\ displaystyle H_ {i}}$ $H_ {i}$ , которые дают такие доказательства, что

L (H i) + L (F | H i) < L ( F) {\displaystyle L(H_{i})+L(F|H_{i})

{\ displaystyle L (H_ {i}) + L (F | H_ {i}) <L (F)}

а также гипотеза R о том, что ни одна из гипотез не верна, тогда

P (H i | F) = P (H i) P (F | H i) P (F | R) + ∑ j P ( ЧАС J) п (F | ЧАС J) п (р | F) знак равно п (F | R) п (F | R) + ∑ j п (H j) п (F | H j) {\ displaystyle {\ begin {выровнено} P (H_ {i} | F) = {\ frac {P (H_ {i}) P (F | H_ {i})} {P (F | R) + \ sum _ {j} {P (H_ {j}) P (F | H_ {j})}}} \\ [8pt] P (R | F) = {\ frac {P (F | R)} {P (F | R)) + \ sum _ {j} {P (H_ {j}) P (F | H_ {j})}}} \ end {align}}}

{\ displaystyle {\ begin {align} P (H_ {i} | F) = {\ frac {P (H_ {i}) P (F | H_ {i})} {P (F | R) + \ sum _ {j} {P (H_ {j}) P (F | H_ {j})}}} \\ [8pt] P (R | F) = {\ frac {P (F | R)} {P (F | R) + \ sum _ {j} {P (H_ { j}) P (F | H_ {j})}}} \ end {align}}}

С точки зрения информации,

P (H i | F) = 2 - (L (H i) + L (F | H i)) 2 - L (F | R) + ∑ j 2 - (L (H j) + L (F | H j)) P (Р | F) знак равно 2 - L (F | R) 2 - L (F | R) + ∑ j 2 - (L (H j) + L (F | H j)) {\ displaystyle {\ begin { align} P (H_ {i} | F) = {\ frac {2 ^ {- (L (H_ {i}) + L (F | H_ {i}))}} {2 ^ {- L (F | R)} + \ sum _ {j} 2 ^ {- (L (H_ {j}) + L ( F | H_ {j}))}}} \\ [8pt] P (R | F) = {\ гидроразрыв {2 ^ {- L (F | R)}} {2 ^ {- L (F | R)} + \ sum _ {j} {2 ^ {- (L (H_ {j}) + L (F | H _ {j}))}}}} \ end {align}}}

{\ displaystyle {\ begin {выровнено} P (H_ {i} | F) = {\ frac {2 ^ {- (L (H_ {i}) + L (F | H_ {i}))}} {2 ^ {- L (F | R)} + \ sum _ {j} 2 ^ {- (L (H_ {j}) + L (F | H_ {j}))}}} \\ [8pt] P (R | F) = {\ frac {2 ^ {- L (F | R)}} {2 ^ {- L (F | R)} + \ sum _ {j} {2 ^ {- (L (H_ {j}) + L (F | H_ {j}))}}}} \ end {align}}}

В ситуации хорошим приближением будет предположение, что $F {\ displaystyle F}$ $F$ не зависит от $R {\ displaystyle R}$ $R$ , что означает $P (F | R) Знак равно P (F) {\ Displaystyle P (F | R) = P (F)}$ ${\ displaystyle P (F | R) = P (F)}$ давая,

P (H i | F) ≈ 2 - (L (H i) + L ( F | H i)) 2 - L (F) + ∑ j 2 - (L (H j) + L (F | H j)) P (R | F) ≈ 2 - L (F) 2 - L (F) + ∑ J 2 - (L (ЧАС J) + L (F | ЧАС J)) {\ Displaystyle {\ begin {выровнено} P (H_ {i} | F) \ приблизительно {\ гидроразрыва {2 ^ {- (L (H_ {i}) + L (F | H_ {i}))}} {2 ^ {- L (F)} + \ sum _ {j} {2 ^ {- (L (H_ {j})) + L (F | H_ {j}))}}}} \\ [8pt] P (R | F) \ приблизительно {\ frac {2 ^ {- L (F)}} {2 ^ {- L (F)} + \ sum _ {j} {2 ^ {- (L (H_ {j}) + L (F | H_ {j}))}}}} \ end {align}}}

{\ displaystyle {\ begin {выровнено} P (H_ {i} | F) \ приблизительно {\ frac {2 ^ {- (L (H_ {i}) + L (F | H_ {i})))}} {2 ^ {- L (F)} + \ sum _ {j} {2 ^ {- (L (H_ {j}) + L (F | H_ {j}))}}}} \\ [8pt] P (R | F) \ приблизительно {\ frac {2 ^ {- L (F)}} {2 ^ {- L (F)} + \ sum _ {j} {2 ^ {- (L (H_ {j}) + L (F | H_ {j}))}}}} \ end {align}}}

логический индуктивный вывод

Абдуктивный вывод начинается с набора фактов F, который является утверждением (логическим выражением). Абдуктивное мышление имеет форму:

Теория T подразумевает утверждение F. Поскольку теория T проще, чем F, абдукция говорит, что существует вероятность того, что теория T подразумевается F.

Теория T, также называемая объяснением условия F, является ответом на широко распространенный фактологический вопрос «почему». Например, условие F - «Почему падают яблоки?». Ответ - теория T, которая подразумевает, что яблоки падают;

F = G m 1 m 2 r 2 {\ displaystyle F = G {\ frac {m_ {1} m_ {2}} {r ^ {2}}}}

F = G \ frac {m_1 m_2} {r ^ 2}

Индуктивный вывод имеет форму,

Все наблюдаемые объекты в классе C имеют свойство P. Следовательно, существует вероятность того, что все объекты в классе C обладают свойством P.

С точки зрения абдуктивного вывода, все объекты в классе C или множестве имеют свойство P - это теория, которая подразумевает наблюдаемое состояние. Все наблюдаемые объекты в классе C обладают свойством P.

Итак, индуктивный вывод - это частный случай абдуктивного вывода. В обычном использовании термин индуктивный вывод часто используется для обозначения как абдуктивного, так и индуктивного вывода.

Обобщение и специализация

Индуктивный вывод связан с обобщением. Обобщения можно формировать из утверждений, заменяя конкретное значение членством в категории или заменяя членство в категории членством в более широкой категории. В дедуктивной логике обобщение - мощный метод создания новых теорий, которые могут быть верными. При индуктивном умозаключении обобщение порождает теории, которые имеют вероятность быть верными.

Противоположностью обобщения является специализация. Специализация используется для применения общего правила к конкретному случаю. Специализации создаются из обобщений путем замены членства в категории определенным значением или путем замены категории подкатегорией.

Линнаен классификация живых существ и предметов составляет основу для обобщения и уточнения. Умение идентифицировать, распознавать и классифицировать - основа для обобщения. Восприятие мира как совокупности объектов, по-видимому, является ключевым аспектом человеческого интеллекта. Это объектно-ориентированная модель в смысле, отличном от информатики.

Объектно-ориентированная модель построена на основе нашего восприятия. В частности, зрение основано на способности сравнивать два изображения и вычислять, сколько информации необходимо для преобразования или отображения одного изображения в другое. Компьютерное зрение использует это отображение для построения трехмерных изображений из пар стереоизображений..

Индуктивное логическое программирование - это средство построения теории, которая подразумевает условие. Подход Плоткина «относительное наименьшее общее обобщение (rlgg)» строит простейшее обобщение, совместимое с условием.

Использование Ньютоном индукции

Исаак Ньютон использовал индуктивные аргументы при построении своего закона всемирного тяготения. Начиная с утверждения,

Центр яблока падает к центру Земли.

Обобщение путем замены яблока на объект и земли на объект дает в системе двух тел

Центр объект падает в сторону центра другого объекта.

Теория объясняет все падения объектов, поэтому есть веские доказательства этому. Второе наблюдение,

Кажется, что планеты движутся по эллиптическому пути.

После некоторых сложных математических вычислений можно увидеть, что если ускорение следует закону обратных квадратов, то объекты будут следовать эллипсу.. Итак, индукция свидетельствует о законе обратных квадратов.

Используя наблюдение Галилео, все объекты падают с одинаковой скоростью,

F 1 = m 1 a 1 = m 1 k 1 r 2 i 1 {\ displaystyle F_ {1} = m_ {1} a_ {1} = {\ frac {m_ {1} k_ {1}} {r ^ {2}}} i_ {1}}

F_ {1} = m_ {1} a_ {1 } = {\ frac {m_ {1} k_ {1}} {r ^ {2}}} i_ {1}

F 2 = m 2 a 2 = m 2 k 2 р 2 я 2 {\ displaystyle F_ {2} = m_ {2} a_ {2} = {\ frac {m_ {2} k_ {2}} {r ^ {2}}} i_ {2}}

F_ {2} = m_ {2} a_ {2} = {\ frac {m_ {2} k_ {2 }} {r ^ {2}}} i_ {2}

где $i 1 {\ displaystyle i_ {1}}$ $i_ {1}$ и $i 2 {\ displaystyle i_ {2}}$ $i_ {2}$ векторов по направлению к центру другого объекта. Затем используя третий закон Ньютона $F 1 = - F 2 {\ displaystyle F_ {1} = - F_ {2}}$ $F_ {1} = -F_ {2}$

F = G m 1 m 2 r 2 {\ displaystyle F = G {\ frac {m_ {1} m_ {2}} {r ^ {2}}}}

F = G {\ frac {m_ {1} m_ {2}} {r ^ {2}}}

Вероятность индуктивного вывода

Импликация определяет условия вероятности как,

T → F ⟺ P (F | T) = 1 {\ Displaystyle T \ к F \ iff P (F | T) = 1}

{\ displaystyle T \ to F \ iff P (F | T) = 1}

Итак,

P (F | T) = 1 {\ displaystyle P (F | T) = 1}

{\ displaystyle P (F | T) = 1}

L (F | T) = 0 {\ displaystyle L (F | T) = 0}

{\ displaystyle L (F | T) = 0}

Этот результат может быть в вероятностях, данных для байесовской гипотезы. Для одной теории H = T и

P (T | F) = P (T) P (F) {\ displaystyle P (T | F) = {\ frac {P (T)} {P (F)} }}

{\ displaystyle P (T | F) = {\ frac {P ( T)} {P (F)}}}

или, с точки зрения информации, относительная вероятность равна

P (T | F) = 2 - (L (T) - L (F)) {\ displaystyle P (T | F)) = 2 ^ {- (L (T) -L (F))}}

{\ displaystyle P (T | F) = 2 ^ {- (L (T) -L (F))}}

Обратите внимание, что эта оценка для P (T | F) не является истинной вероятностью. Если $L (T i) < L ( F) {\displaystyle L(T_{i})$ $L (T_ {i}) <L (F)$ , то у теории есть доказательства, подтверждающие это. Тогда для набора теорий $T i = H i {\ displaystyle T_ {i} = H_ {i}}$ $T_ {i} = H_ {i}$ , таких что $L (T i) < L ( F) {\displaystyle L(T_{i})$ $L (T_ {i}) <L (F)$ ,

P (T я | F) знак равно п (T я) п (F | R) + ∑ JP (T j) {\ displaystyle P (T_ {i} | F) = {\ frac {P (T_ {i})} {P ( F | R) + \ sum _ {j} {P (T_ {j})}}}}

{\ displaystyle P (T_ {i} | F) = {\ гидроразрыва {P (T_ {i})} {P (F | R) + \ sum _ {j} {P (T_ {j})}}}}

P (R | F) = P (F | R) P (F | R) + ∑ j П ( TJ) {\ Displaystyle P (R | F) = {\ гидроразрыва {P (F | R)} {P (F | R) + \ sum _ {j} {P (T_ {j})}}}}

{\ displaystyle P (R | F) = {\ frac {P (F | R)} {P (F | R) + \ sum _ {j} {P (T_ {j})}}}}

давая,

P (T i | F) ≈ 2 - L (T i) 2 - L (F) + ∑ j 2 - L (T j) {\ displaystyle P (T_ {i} | F) \ приблизительно {\ frac {2 ^ {- L (T_ {i})}} {2 ^ {- L (F)} + \ sum _ {j} {2 ^ {- L (T_ {j})}} }}}

{\ displaystyle P (T_ {i} | F) \ приблизительно {\ frac {2 ^ {- L (T_ {i})}} {2 ^ {- L (F)} + \ sum _ {j} {2 ^ {- L (T_ {j}) }}}}}

P (R | F) ≈ 2 - L (F) 2 - L (F) + ∑ j 2 - L (T j) {\ displaystyle P (R | F) \ приблизительно {\ frac { 2 ^ {- L (F)}} {2 ^ {- L (F)} + \ sum _ {j} {2 ^ {- L (T_ {j})}}}}}

{\ Displaystyle P (R | F) \ приблизительно {\ frac {2 ^ {- L (F)}} {2 ^ {- L (F)} + \ sum _ {j} {2 ^ {-L (T_ {j})}}}}}

Выведение

Выведение индуктивной вероятности

Составьте список всех кратчайших программ $K i {\ displaystyle K_ {i}}$ $K_ {i}$ , каждая из которых производит отдельную бесконечную стр. ока битов и удовлетворяет заражению

T n (R (K i)) = x {\ displaystyle T_ {n} (R (K_ {i})) = x}

T_{n}(R(K_{i}))=x

где $R (K i) {\ displaystyle R (K_ {i})}$ $R (K_ {i})$ - результат выполнения программы $K i {\ displaystyle K_ {i}}$ $K_ {i}$ и $T n {\ displaystyle T_ {n}}$ $T_ {n}$ уследование после n битов.

Проблема состоит в том, чтобы вычислить вероятность того, что источник создан программой $K i, {\ displaystyle K_ {i},}$ ${\ displaystyle K_ {i},}$ , учитывая, что усеченный источник после n битов Икс. Это представлено условной вероятностью,

P (s = R (K i) | T n (s) = x) {\ displaystyle P (s = R (K_ {i})) | T_ {n} (s) = x)}

{\ displaystyl е P (s = R (K_ {i}) | T_ {n} (s) = x)}

Использование расширенной формы теоремы Байеса

P (s = R (K i) | T n (s) = x) = P (T n (s) = x | s = R (K i)) P (s = R (K i)) ∑ j P (T n (s) = x | s = R (K j)) P (s = R (K j))). {\ Displaystyle P (s = R (K_ {i}) | T_ {n} (s) = x) = {\ frac {P (T_ {n} (s) = x | s = R (K_ {i})))) P (s = R (K_ {i}))} {\ sum _ {j} P (T_ {n} (s) = x | s = R (K_ {j})) P (s = R (K_ {j}))}}.}

{\ displaystyle P (s = R (K_ {i}) | T_ {n} (s) = x) = {\ frac {P (T_ {n} (s) = x | s = R (K_ {i})) P (s = R (K_ {i}))} {\ sum _ {j} P (T_ {n} ( s) = Икс | s = R (K_ {j})) P (s = R (K_ {j}))}}.}

Расширенная форма полагается на закон полной вероятности. Это означает, что $s = R (K i) {\ displaystyle s = R (K_ {i})}$ ${\ displaystyle s = R (K_ {i}) }$ должны быть различными возможностями, что задается условием, что каждый $K i { \ displaystyle K_ {i}}$ $K_ {i}$ Создать. Также должно быть одно из условий $s = R (K i) {\ displaystyle s = R (K_ {i})}$ ${\ displaystyle s = R (K_ {i}) }$ . Это должно быть правдой, так как в пределах $n → ∞, {\ displaystyle n \ to \ infty,}$ ${\ displaystyle n \ to \ infty,}$ всегда есть хотя бы одна программа, которая производит $T n (s) { \ displaystyle T_ {n} (s)}$ $T_{n}(s)$ .

As $K i {\ displaystyle K_ {i}}$ $K_ {i}$ выбираются так, чтобы $T n (R (K i)) = x, {\ displaystyle T_ {n} (R (K_ {i})) = x,}$ ${\ displaystyle T_ {n} (R (K_ {i})) = x,}$ , тогда

P (T n (s) = x | s = R (K i)) = 1 {\ displaystyle P (T_ {n} (s) = x | s = R (K_ {i})) = 1}

{\ displaystyle P (T_ {n} (s) = x | s = R (K_ {i})) = 1}

Априорная вероятность того, что строка будет получена программой при отсутствии информации о строке зависит от размера программы,

P (s = R (K i)) = 2 - I (K i) {\ displaystyle P (s = R (K_ {i})) = 2 ^ {- I (K_ {i})}}

P (s = R (K_ {i})) = 2 ^ {{- I (K_ {i}) }}

дает,

P (s = R (K i) | T n (s) = x) = 2 - I (K i) ∑ j 2 - Я (K j). {\ Displaystyle P (s = R (K_ {i}) | T_ {n} (s) = x) = {\ frac {2 ^ {- I (K_ {i})}} {\ sum _ {j} 2 ^ {- I (K_ {j})}}}.}

{\ displaystyle P (s = R (K_ {i}) | T_ {n} (s) = x) = {\ frac {2 ^ {- I (K_ { i})}} {\ sum _ {j} 2 ^ {- I (K_ {j})}}}.}

Программы, длина которых равна или превышает длину x, не обеспечивают предсказательной силы. Разделите их, получив:

P (s = R (K i) | T n (s) = x) = 2 - I (K i) ∑ j: I (K j) < n 2 − I ( K j) + ∑ j : I ( K j) ⩾ n 2 − I ( K j). {\displaystyle P(s=R(K_{i})|T_{n}(s)=x)={\frac {2^{-I(K_{i})}}{\sum _{j:I(K_{j})

{\ displaystyle P (s = R (K_ {i}) | T_ {n } (s) = x) = {\ frac {2 ^ {- I (K_ {i})}} {\ sum _ {j: I (K_ {j}) <n} 2 ^ {- I (K_ { j})} + \ sum _ {j: I (K_ {j}) \ geqslant n} 2 ^ {- I (K_ {j})}}}.}

Затем определите две вероятности как,

P (x имеет шаблон) = ∑ j: I (K j) < n 2 − I ( K j) {\displaystyle P(x{\text{ has pattern}})=\sum _{j:I(K_{j})

{\ displaystyle P (x {\ text {имеет шаблон}}) = \ sum _ {j: I (K_ {j}) <n} 2 ^ {- I (K_ {j})}}

P (x является случайным) = ∑ j: I (K j) ⩾ n 2 - I (K j) {\ displaystyle P (x {\ text {is random}}) = \ sum _ {j: I (K_ {j}) \ geqslant n} 2 ^ {- I (K_ {j})}}

{\ displaystyle P (x {\ text {is random}}) = \ sum _ {j: I (K_ {j}) \ geqslant n } 2 ^ {- I (K_ {j})}}

Но априорная вероятность что x представляет собой случайный набор битов: $2 - n {\ displaystyle 2 ^ {- n}}$ $2 ^ {- n}$ . Итак,

P (s = R (K i) | T n (s) = x) = 2 - I (K i) 2 - n + ∑ j: I (K j) < n 2 − I ( K j). {\displaystyle P(s=R(K_{i})|T_{n}(s)=x)={\frac {2^{-I(K_{i})}}{2^{-n}+\sum _{j:I(K_{j})

{\ displaystyle P (s = R (K_ {i}) | T_ {n} (s) = x) = {\ frac {2 ^ {- I (K_ {i})}} {2 ^ {- n} + \ sum _ {j: I (K_ {j}) <n}2^{-I(K_{j})}}}.}

Вероятность того, что источник случайен, или непредсказуем,

P (random ⁡ (s) | T n (s) = x) = 2 - n 2 - n + ∑ j: I (K j) < n 2 − I ( K j). {\displaystyle P(\operatorname {random} (s)|T_{n}(s)=x)={\frac {2^{-n}}{2^{-n}+\sum _{j:I(K_{j})

{\ displaystyle P (\ operatorname {random} (s) | T_ {n} (s) = x) = {\ frac {2 ^ {- n}} {2 ^ { -n} + \ sum _ {j: I (K_ {j}) <n} 2 ^ {- I (K_ {j})}}}.}

Модель для индуктивного вывод

Модель построения миров используется при определении вероятностей теорий,

Выбирается случайная битовая строка.
Условие конструируется из битовой строки.
Создается мир, соответствующий условию.

Если w - это битовая строка, тогда мир создается так, что $R (w) {\ displaystyle R (w)}$ $R (w)$ верно. У интеллектуального агента есть некоторые факты о слове, представленные битовой строкой c, которая дает условие,

C = R (c) {\ displaystyle C = R (c)}

C = R (c)

Набор битовых строк, идентичных любому условию x, равен $E (x) {\ displaystyle E (x)}$ $E (x)$ .

∀ x, E (x) = {w: R (w) ≡ x} {\ displaystyle \ forall x, E (x) = \ {w: R (w) \ Equiv x \}}

\ forall x, E (x) = \ {w: R (w) \ Equiv x \}

Теория - это более простое условие, которое объясняет (или подразумевает) C. Множество всех таких теорий называется T,

T (C) = {t: t → C} {\ displaystyle T (C) = \ {t: t \ to C \}}

T (C) = \ {t: t \ to C \}

Применение теоремы Байеса

расширенная форма теоремы Байеса может применяться

P (A i | B) = P (B | A i) P (A i) ∑ j P (B | A j) P (A j), {\ displaystyle P (A_ {i} | B) = {\ frac {P (B | A_ {i}) \, P (A_ {i})} {\ sum _ {j} P (B | A_ {j}) \, P ( A_ {j})}},}

{\ displaystyle P (A_ {i} | B) = {\ frac {P (B | A_) {i}) \, P (A_ {i})} {\ sum _ {j} P (B | A_ {j}) \, P (A_ {j})}},}

где,

B = E (C) {\ displaystyle B = E (C)}

B = E (C)

A i = E (t) {\ displaystyle A_ {i} = E (t)}

A_ {i} = E (t)

Чтобы применить теорему Байеса, должно выполняться следующее: $A i {\ displaystyle A_ {i}}$ $A_ {i}$ - раздел события.Космос.

Для $T (C) {\ displaystyle T (C)}$ $T (C)$ как раздела, ни одна битовая строка n не может принадлежать двум теориям. Чтобы доказать это, предположим, что они могут, и получим противоречие:

(N ∈ T) ∧ (N ∈ M) ∧ (N ≠ M) ∧ (n ∈ E (N) ∧ n ∈ E (M)) {\ displaystyle (N \ in T) \ land (N \ in M) \ land (N \ neq M) \ land (n \ in E (N) \ land n \ in E (M))}

{\ displaystyle (N \ in T) \ land (N \ in M) \ land (N \ neq M) \ land (n \ in E (N) \ земля n \ in E (M))}

⟹ (N ≠ M) ∧ р (N) ≡ N ∧ р (N) ≡ M {\ displaystyle \ подразумевает (N \ neq M) \ земля R (n) \ эквив N \ земля R (n) \ эквив M}

{\ displaystyle \ подразумевает (N \ neq M) \ land R (n) \ эквив N \ земля R (n) \ Equiv M}

⟹ ⊥ {\ displaystyle \ implies \ bot}

{\ displaystyle \ implies \ bot}

Во-вторых, докажите, что T включает в себя все результаты, соответствующие условию. Поскольку все теории, согласующиеся с C, включены, то $R (w) {\ displaystyle R (w)}$ $R (w)$ должен быть в этом наборе.

Таким образом, теорема Байеса может применяться, как указано, давая,

∀ t ∈ T (C), P (E (t) | E (C)) = P (E (t)) ⋅ P ( E (C) | E (T)) ∑ J ∈ T (C) P (E (J)) ⋅ P (E (C) | E (j)) {\ Displaystyle \ forall т \ в T (C), P (E (t) | E (C)) = {\ frac {P (E (t)) \ cdot P (E (C) | E (t))} {\ sum _ {j \ in T (C)} P (E (j)) \ cdot P (E (C) | E (j))}}}

{\ displaystyle \ forall t \ in T (C), P (E (t) | E (C)) = {\ frac {P (E (t)) \ cdot P (E (C) | E (t))} {\ sum _ {j \ in T (C)} P (E (j)) \ cdot P (E (C) | E (j))}}}

Используя импликацию и закон вероятности условия, определение $T (C) {\ Displaystyle T (C)}$ $T (C)$ подразумевает,

∀ t ∈ T (C), P (E (C) | E (t)) = 1 {\ displaystyle \ forall t \ in T (C), P (E (C) | E (t)) = 1}

{\ displaystyle \ forall t \ in T (C), P (E (C) | E (t)) = 1}

Вероятность каждой теории в T определяется выражением,

∀ t ∈ T (C), P (E (T)) знак равно ∑ N: р (N) ≡ T 2 - L (N) {\ displaystyle \ forall t \ in T (C), P (E (t)) = \ sum _ {n: R (n) \ Equiv t} 2 ^ {- L (n)}}

\ forall t \ in T (C), P (E (t)) = \ sum _ {{n: R ( n) \ Equiv t}} 2 ^ {{- L (n)}}

так,

∀ t ∈ T (C), P (E (t) | E (C)) = ∑ n: R (n) ≡ T 2 - L (N) ∑ J ∈ T (C) ∑ m: R (m) ≡ J 2 - L (m) {\ Displaystyle \ forall t \ in T (C), P (E (t) | E (C)) = {\ frac {\ sum _ {n: R (n) \ Equiv t} 2 ^ {- L (n)}} {\ sum _ {j \ in T (C)} \ su m _ {m: R (m) \ Equiv j} 2 ^ {- L (m)}}}}

{\ displaystyle \ forall t \ in T (C), P (E (t) | E (C)) = {\ frac {\ sum _ {n: R (n) \ Equiv t} 2 ^ {- L (n)}} {\ sum _ {j \ in T (C)} \ сумма _ {m: R (m) \ Equiv j} 2 ^ {- L (m)}}}}

Наконец, вероятности событий могут быть отождествлены с вероятностями условия, которому удовлетворяют исходы события.,

∀ t ∈ T (C), P (E (t) | E (C)) знак равно P (t | C) {\ displaystyle \ forall t \ in T (C), P (E (t) | E (C)) = P (t | C)}

{\ displaystyle \ forall t \ in T (C), P (E (t) | E (C)) = П (t | C)}

давая

∀ t ∈ T (C), P (t | C) = ∑ n: R (n) ≡ t 2 - L (n) ∑ j ∈ T (C) ∑ m: R (m) ≡ j 2 - L (т) {\ Displaystyle \ forall т \ в Т (С), п (т | С) = {\ гидроразрыва {\ сумма _ {п: R (п) \ эквив т} 2 ^ {- L (п) }} {\ sum _ {j \ in T (C)} \ sum _ {m: R (m) \ Equiv j} 2 ^ {- L (m)}}}}

{\ displaystyle \ forall t \ in T (C), P (t | C) = {\ frac {\ sum _ {n: R (n) \ Equiv t} 2 ^ {- L (n)}} {\ sum _ {j \ in T (C)} \ sum _ {m: R (m) \ Equiv j} 2 ^ {- L (м)}}}}

Это вероятность теории t после наблюдения за выполнением условия C.

Удаление теорий без предсказательной силы

Теории, которые менее вероятны, чем условие C, не имеют предсказательной силы. Разделяем их, получая,

∀ t ∈ T (C), P (t | C) = P (E (t)) (∑ j: j ∈ T (C) ∧ P (E (j))>P (E (C)) P (E (J))) + (∑ J: j ∈ T (C) ∧ P (E (J)) ≤ P (E (C)) P (J)) {\ Displaystyle \ для всех t \ в T (C), P (t | C) = {\ frac {P (E (t))} {(\ sum _ {j: j \ in T (C) \ land P (E (j))>P (E (C))} P (E (j))) + (\ sum _ {j: j \ in T (C) \ land P (E (j)) \ leq P (E (C))} P (j))}}}

\forall t\in T(C),P(t|C)={\frac {P(E(t))}{(\sum _{j:j\in T(C)\land P(E(j))>P (E (C))} P (E (j))) + (\ sum _ {j: j \ in T (C) \ land P (E (j)) \ leq P (E (C))} P (j))}}

Вероятность теорий без предсказательной силы на C такая же, как вероятность C. Итак,

P (E (C)) Знак равно ∑ J: J ∈ T (C) ∧ P (E (J)) ≤ P (E (C)) P (J) {\ Displaystyle P (E (C)) = \ sum _ {j: j \ in T (C) \ land P (E (j)) \ leq P (E (C))} P (j)}

{\ Displaystyle P (E (C)) = \ sum _ {j: j \ in T (C) \ land P (E (j)) \ Leq P (E (C))} P (j) }

Таким образом, вероятность

∀ t ∈ T (C), P (t | C) = P (E (t)) P (E (C)) + ∑ j: j ∈ T (C) ∧ P (E (j))>P (E (C)) P (E (j)) {\ displaystyle \ forall t \ in T (C), P (t | C) = {\ frac {P (E (t))} {P (E (C)) + \ sum _ {j: j \ in T (C) \ land P (E (j))>P (E (C))} P (E (j))}}}

\forall t\in T(C),P(t|C)={\frac {P(E(t))}{P(E(C))+\sum _{j:j\in T(C)\land P(E(j))>P (E (C))} P ( E (j))}}

и вероятность отсутствия прогноза для C, записанная как $random ⁡ (C) {\ displaystyle \ operatorname {random} (C)}$ $\ operatorname {random} (C)$ ,

P (random (C) | C) = P (E (C)) P (E (C)) + ∑ j: j ∈ T (C) ∧ P (E (j))>P (E (C)) P (E (j)) {\ Displaystyle P ({\ text {random}} (C) | C) = {\ гидроразрыва {P (E (C))} {P (E (C)) + \ sum _ {j: j \ in T (C) \ land P (E (j))>P (E (C))} P (E (j))}}}

P({\text{random}}(C)|C)={\frac {P(E(C))}{P(E(C))+\sum _{j:j\in T(C)\land P(E(j))>P (E (C))} P (E (j))}}

вероятность состояния была задана как,

∀ t, P (E (t)) = ∑ n: R (n) ≡ t 2 - L (n) {\ displaystyle \ forall t, P (E (t)) = \ sum _ {n: R (n) \ Equiv t} 2 ^ {- L (n)}}

\ forall t, P (E (t)) = \ sum _ {{n: R (n) \ Equiv t}} 2 ^ {{- L (п)}}

Битовые строки для теорий, которые более сложны, чем битовая строка, переданная агенту в качестве входных данных, не имеют предсказательного мощность. Вероятности лучше включать в случайный случай. Для реализации этого нового определения дается как F in,

∀ t, P (F (t, c)) = ∑ n: R (n) ≡ t ∧ L (n) < L ( c) 2 − L ( n) {\displaystyle \forall t,P(F(t,c))=\sum _{n:R(n)\equiv t\land L(n)

{\ displaystyle \ forall t, P (F (t, c)) = \ sum _ {n: R (n) \ Equiv t \ land L (n) <L (c)} 2 ^ {- L (n)}}

Используя F, улучшенная версия абдуктивных вероятностей:

∀ t ∈ T (C), P (t | C) = P (F (t, c)) P (F ( С, в)) + ∑ J: J ∈ T (C) ∧ P (F (J, C))>P (F (C, C)) P (E (J, C)) {\ Displaystyle \ forall т \ в T (C), P (t | C) = {\ frac {P (F (t, c))} {P (F (C, c)) + \ sum _ {j: j \ in T (C) \ land P ( F (j, c))>P (F (C, c))} P (E (j, c))}}}

\forall t\in T(C),P(t|C)={\frac {P(F(t,c))}{P(F(C,c))+\sum _{j:j\in T(C)\land P(F(j,c))>P (F (C, c))} P (E ( j, c))}}

P (случайный ⁡ (C) | C) = P (F (C, c)) P (F (C, c)) + ∑ j: j ∈ T (C) ∧ P (F (j, c))>P (F (C, c)) P (F (J, C)) {\ Displaystyle P (\ Operatorname {random} (C) | C) = {\ frac {P (F (C, c))} {P (F (C, c)) + \ sum _ {j: j \ in T (C) \ land P (F (j, c))>P (F (C, c))} P (F (j, c))}}}

P(\operatorname {random} (C)|C)={\frac {P(F(C,c))}{P(F(C,c))+\sum _{j:j\in T(C)\land P(F(j,c))>P (F (C, c))} P (F (j, c))}}

Ключевые люди

См. Также

Ссылки

Внешние ссылки

Ратманнер, С. и Хаттер, М., «Философский трактат универсальной индукции» в Entropy 2011, 13, 1076–1136: очень четкий философский и математический анализ теории Соломонова. Теория индуктивного вывода.
CS Уоллес, Статистический и индуктивный вывод по минимальной длине сообщения, Springer-Verlag (информатика и статистика), ISBN 0-387-23795-X, май 2005 г. - заголовки глав, содержание и примеры страниц.