Индуктивная вероятность пытается дать вероятность будущих событий на основе прошлых событий. Это основа для индуктивного мышления и математическая основа для обучения и восприятия закономерностей. Это источник знаний о мире.
Есть три источника знаний: вывод, общение и дедукция. Коммуникация передает информацию, полученную другими методами. Выведение устанавливает новые факты на основе существующих фактов. Вывод устанавливает новые факты из данных. Его основой является теорема Байеса.
Информация, описывающая мир, записывается на языке. Например, может быть выбран простой математический язык предложений. На этом языке предложения могут быть записаны в виде строк символов. Но в компьютере эти предложения можно закодировать в виде цепочек битов (единиц и нулей). Затем язык может быть закодирован так, чтобы наиболее часто используемые предложения были самыми короткими. Этот внутренний язык неявно представляет вероятности утверждений.
Бритва Оккама говорит, что «простейшая теория, согласующаяся с данными, скорее всего, верна». «Простейшая теория» интерпретируется как представление теории, написанной на этом внутреннем языке. Теория с кратчайшей кодировкой на этом внутреннем языке, скорее всего, верна.
Вероятность и статистика были сосредоточены на распределениях вероятностей и тесты значимости. Вероятность была формальной, четко определенной, но ограниченной по масштабу. В частности, его применение было ограничено ситуациями, которые можно было определить как эксперимент или испытание с четко определенной популяцией.
Теорема Байеса названа в честь преподобного Томаса Байеса 1701–1761 гг. Байесовский вывод расширил применение вероятности ко многим ситуациям, когда совокупность не была четко определена. Но теорема Байеса всегда зависела от априорных вероятностей, чтобы генерировать новые вероятности. Было неясно, откуда должны взяться эти априорные вероятности.
Рэй Соломонофф разработал алгоритмическую вероятность, которая дала объяснение того, что такое случайность и как шаблоны в данных могут быть представлены компьютерными программами, которые дают более короткие представления данных примерно в 1964 году.
Крис Уоллес и DM Boulton разработали минимальную длину сообщения примерно в 1968 году. Позже Йорма Риссанен разработал минимальную длину описания примерно в 1978 году. Эти методы позволяют теория информации должна быть связана с вероятностью таким образом, чтобы ее можно было сравнить с применением теоремы Байеса, но которая дает источник и объяснение роли априорных вероятностей.
Маркус Хаттер объединил теорию принятия решений с работами Рэя Соломонова и Андрея Колмогорова, чтобы дать теорию оптимального по Парето поведения для Интеллектуальный агент, около 1998 г.
Программа с наименьшей длиной, соответствующей данным, с наибольшей вероятностью предсказывает будущие данные. Это тезис, лежащий в основе методов минимальной длины сообщения и минимальной длины описания.
На первый взгляд теорема Байеса кажется отличной от принципа минимальной длины сообщения / описания. При ближайшем рассмотрении оказывается то же самое. Теорема Байеса касается условных вероятностей и утверждает вероятность того, что событие B произойдет, если сначала произойдет событие A:
становится с точки зрения сообщения длина L,
Это означает, что если вся информация дается с описанием event, то длина информации может быть использована для определения исходной вероятности события. Таким образом, если дана информация, описывающая возникновение A, вместе с информацией, описывающей B для данного A, то была предоставлена вся информация, описывающая A и B.
Переобучение происходит, когда модель соответствует случайному шуму, а не шаблону в данных. Например, возьмем ситуацию, когда кривая аппроксимируется по набору точек. Если подбирается многочлен с множеством членов, он может более точно представлять данные. Тогда аппроксимация будет лучше, а информации, необходимой для описания отклонений от подобранной кривой, будет меньше. Меньшая длина информации означает более высокую вероятность.
Однако необходимо также учитывать информацию, необходимую для описания кривой. Общая информация для кривой с большим количеством членов может быть больше, чем для кривой с меньшим количеством членов, которая не так хорошо подходит, но требует меньше информации для описания полинома.
Теория индуктивного вывода Соломонова также является индуктивным выводом. Наблюдается битовая строка x. Затем рассмотрите все программы, которые генерируют строки, начинающиеся с x. Программы, представленные в форме индуктивного вывода, представляют собой теории, предполагающие наблюдение за битовой цепочкой x.
Используемый здесь метод определения вероятностей для индуктивного вывода основан на теории индуктивного вывода Соломонова.
Если все биты равны 1, то люди сделайте вывод, что в монете есть смещение, и что более вероятно, что следующий бит также равен 1. Это описывается как изучение или обнаружение закономерностей в данных.
Такой шаблон может быть представлен компьютерной программой. Может быть написана короткая компьютерная программа, которая производит серию битов, которые все равны 1. Если длина программы K составляет бит, то ее априорная вероятность:
Длина самой короткой программы, представляющей строку бит называется сложностью Колмогорова.
сложностью Колмогорова не вычислима. Это связано с проблемой остановки . При поиске самой короткой программы некоторые программы могут зайти в бесконечный цикл.
Цитируется греческий философ Эпикур : «Если более одной теории согласуется с наблюдениями, сохраняйте все теории».
Как в криминальном романе, при определении вероятного убийцы необходимо учитывать все теории, так и с индуктивной вероятностью все программы должны учитываться при определении вероятных будущих битов, возникающих из потока битов.
Программы, длина которых уже превышает n, не имеют возможности прогнозирования. Необработанная (или априорная) вероятность того, что последовательность битов случайна (не имеет шаблона), равна .
Каждая программа, которая производит последовательность битов, но короче n - это теория / шаблон о битах с вероятностью , где k - длина программы.
Вероятность получения последовательности битов y после приема серии битов x является тогда условной вероятностью получения y при заданном x, которая представляет собой вероятность x с добавленным y, деленную на вероятность x.
Язык программирования влияет на предсказание следующего бита в строке. Язык действует как априорная вероятность. Это особенно проблема, когда язык программирования кодирует числа и другие типы данных. Интуитивно мы думаем, что 0 и 1 - простые числа, и что простые числа каким-то образом сложнее, чем числа, которые могут быть составными.
Использование сложности Колмогорова дает несмещенную оценку (универсальную априорную) априорной вероятности числа. В качестве мысленного эксперимента интеллектуальный агент может быть снабжен устройством ввода данных, выдающим ряд чисел после применения некоторой функции преобразования к необработанным числам. Другой агент может иметь такое же устройство ввода с другой функцией преобразования. Агенты не видят и не знают об этих функциях преобразования. Тогда не возникает рациональных оснований для предпочтения одной функции другой. Универсальный априор гарантирует, что, хотя два агента могут иметь разные начальные распределения вероятностей для ввода данных, разница будет ограничена константой.
Таким образом, универсальные априорные факторы не устраняют изначальную предвзятость, но уменьшают и ограничивают ее. Каждый раз, когда мы описываем событие на каком-либо языке, используя естественный или другой язык, язык закодировал в нем наши предыдущие ожидания. Так что некоторая опора на априорные вероятности неизбежна.
Проблема возникает, когда предварительные ожидания интеллектуального агента взаимодействуют с окружающей средой, образуя самоусиливающуюся петлю обратной связи. Это проблема предвзятости или предубеждений. Универсальные приоры уменьшают, но не устраняют эту проблему.
Теория универсального искусственного интеллекта применяет теорию принятия решений к индуктивным вероятностям. Теория показывает, как можно выбрать лучшие действия для оптимизации функции вознаграждения. Результатом является теоретическая модель интеллекта.
Это фундаментальная теория интеллекта, которая оптимизирует поведение агентов в:
В общем, ни один агент не всегда обеспечивает наилучшие действия во всех ситуациях. Конкретный выбор, сделанный агентом, может быть неправильным, и среда может не предоставить агенту возможности оправиться от первоначального неправильного выбора. Однако агент является оптимальным по Парето в том смысле, что ни один другой агент не будет работать лучше, чем этот агент в этой среде, без ухудшения в другой среде. В этом смысле нельзя сказать, что никакой другой агент лучше.
В настоящее время теория ограничена невыполнимостью (проблема остановки ). Чтобы избежать этого, можно использовать приближения. Скорость обработки и комбинаторный взрыв остаются основными ограничивающими факторами для искусственного интеллекта.
Вероятность - это представление неопределенного или частичного знания об истинности утверждений. Вероятности - это субъективные и личные оценки вероятных результатов, основанные на прошлом опыте и выводах, сделанных на основе данных.
Это описание вероятности поначалу может показаться странным. На естественном языке мы говорим о «вероятности» того, что солнце взойдет завтра. Мы не говорим о «вашей вероятности» восхода солнца. Но для того, чтобы вывод был правильно смоделирован, вероятность должна быть личной, а акт вывода порождает новые апостериорные вероятности из предшествующих вероятностей.
Вероятности личны, потому что они зависят от знания человека. Вероятности субъективны, потому что они всегда в некоторой степени зависят от априорных вероятностей, назначенных человеком. Под субъективным здесь не следует понимать неопределенность или неопределенность.
Термин интеллектуальный агент используется для обозначения держателя вероятностей. Интеллектуальный агент может быть человеком или машиной. Если интеллектуальный агент не взаимодействует с окружающей средой, то вероятность со временем сходится к частоте события.
Однако, если агент использует вероятность взаимодействия с окружающей средой, может возникнуть обратная связь, так что два агента в идентичной среде, начиная с немного разных априорных значений, в конечном итоге получат совершенно разные вероятности. В этом случае оптимальная теория принятия решений, как в Универсальный искусственный интеллект Маркуса Хаттера, даст оптимальную по Парето производительность для агента. Это означает, что ни один другой интеллектуальный агент не может добиться лучших результатов в одной среде и не добиться худших результатов в другой.
В дедуктивных теориях вероятности вероятности являются абсолютными величинами, не зависящими от человека, производящего оценку. Но дедуктивные вероятности основаны на
Например, в испытании участники осведомлены о результатах всей предыдущей истории испытаний. Они также предполагают, что каждый исход одинаково вероятен. Вместе это позволяет определить одно безусловное значение вероятности.
Но на самом деле у каждого человека нет одинаковой информации. И вообще вероятность каждого исхода не равна. Игра в кости может быть загружена, и эту загрузку необходимо вывести из данных.
Принцип безразличия сыграл ключевую роль в теории вероятностей. Он говорит, что если N утверждений симметричны, так что одно условие не может быть предпочтительнее другого, тогда все утверждения равновероятны.
Если серьезно, то при оценке вероятности этот принцип приводит к противоречиям. Предположим, что на расстоянии есть 3 мешка с золотом, и одного просят выбрать один. Тогда из-за большого расстояния не видно размеров сумки. Вы оцениваете, используя принцип безразличия, что в каждой сумке есть равное количество золота, а в каждой сумке - треть золота.
Сейчас, пока один из нас не смотрит, другой берет один из мешков и делит его на 3 мешка. Сейчас есть 5 мешков с золотом. Принцип безразличия гласит, что в каждой сумке находится пятая часть золота. В сумке, в которой, по оценкам, находилась треть золота, сейчас оценивается пятая часть золота.
В качестве значения, связанного с сумкой, значения различны, поэтому противоречивы. Но взятые в качестве оценки, данной при конкретном сценарии, оба значения представляют собой отдельные оценки, данные при разных обстоятельствах, и нет оснований полагать, что они равны.
Особенно сомнительны оценки априорных вероятностей. Оценки будут построены без согласованного частотного распределения. По этой причине априорные вероятности рассматриваются как оценки вероятностей, а не вероятностей.
Полная теоретическая трактовка связана с каждой вероятностью,
Индуктивная вероятность объединяет два разных подхода к вероятности.
Каждый подход дает немного разную точку зрения. Теория информации используется для соотнесения вероятностей с количеством информации. Этот подход часто используется для оценки априорных вероятностей.
Частотная вероятность определяет вероятности как объективные утверждения о том, как часто происходит событие. Этот подход можно расширить, определив испытания как более возможных миров. Утверждения о возможных мирах определяют события.
Тогда как логика представляет только два значения; истина и ложь как значения утверждения, вероятность связывает число в [0,1] с каждым утверждением. Если вероятность утверждения равна 0, утверждение ложно. Если вероятность утверждения равна 1, утверждение верно.
При рассмотрении некоторых данных как строки битов априорные вероятности для последовательности единиц и нулей, вероятность 1 и 0 равна. Следовательно, каждый дополнительный бит вдвое снижает вероятность последовательности битов. Это приводит к выводу, что
Где - это вероятность строки битов и - его длина.
Априорная вероятность любого утверждения вычисляется из количества битов, необходимых для его утверждения. См. Также теория информации.
Два оператора и может быть представлен двумя отдельными кодировками. Тогда длина кодировки равна
или с точки зрения вероятности
Но это закон не всегда верен, потому что может быть более короткий метод кодирования , если мы предположим . Таким образом, приведенный выше вероятностный закон применяется, только если и являются «независимыми».
Основное использование информационного подхода к вероятности заключается в предоставлении оценок сложности утверждений. Напомним, что бритва Оккама гласит: «При прочих равных, простейшая теория, скорее всего, будет правильной». Чтобы применить это правило, сначала нужно дать определение того, что означает «простейший». Теория информации определяет простейшее как кратчайшее кодирование.
Знания представлены в виде утверждений. Каждый оператор представляет собой булево выражение. Выражения кодируются функцией, которая принимает описание (в отличие от значения) выражения и кодирует его как строку битов.
Длина кодировки утверждения дает оценку вероятности утверждения. Эта оценка вероятности часто используется в качестве априорной вероятности утверждения.
Технически эта оценка не является вероятностью, потому что она не построена на основе частотного распределения. Приведенные им оценки вероятностей не всегда подчиняются закону суммы вероятностей. Применение закона полной вероятности к различным сценариям обычно дает более точную оценку вероятности априорной вероятности, чем оценка,основанная на длине утверждения.
Выражение конструируется из подвыражений,
A Хаффмана код должен различать 3 случая. Длина каждого кода зависит от частоты типа подвыражений.
Первоначально все константы имеют одинаковую длину / вероятность. Последующим константам может быть присвоена вероятность с помощью кода Хаффмана на основе количества используемых функций во всех выражениях, записанных на данный момент. При использовании кода Хаффмана цель состоит в оценке вероятностей, а не в введении данных.
Длина константы приложения функции плюс сумма размеров для каждого варианта выполнения.
Длина квантификатора - это длина выражения, по которой проводится количественная оценка.
Явное представление натуральных чисел не дается. Однако натуральные числа можно построить, применив функцию-последователь к 0, а применив другие арифметические функции. Под этим подразумевается распределение натуральных чисел в зависимости от сложности построения каждого числа.
Рациональные числа строятся путем деления натуральных чисел. В простейшем представлении нет общих множителей между числителем и знаменателем. Это позволяет вероятностное распределение натуральных чисел до рациональных чисел.
Вероятность события можно интерпретировать как частоту результатов, где утверждение истинно, деленное на общее число результатов. Если результаты образуют континуум, может потребоваться заменить частоту показателем ..
События - это наборы результатов. Заявления могут быть связаны с событиями. Логическое выражение B о результатах получить набор результатов b,
Каждая вероятность всегда соединяется с состоянием в определенной точке аргумента. Вероятности до известны как априорные вероятности, а вероятности после - как апостериорные вероятности.
Вероятность зависит от известных фактов. Истинность факта ограничивает область результатов, полученный факту. Априорные вероятности - это вероятности до того, как факт станет известен. Апостериорные вероятности известны после того, как факт известен. Говорят, что апостериорные вероятности зависят от факта. вероятность того, что верно при условии, что верно, записывается как:
Все вероятности в некотором смысле условны. Априорная вероятность равна,
В частотном подходе вероятности определения как отношение количества результатов в событии к общему количеству исходов. В модели возможного мира каждый возможный мир является результатом, а утверждением о применении мирах определяют события. Вероятность того, что истинное истинное, - это количество миров, в котором утверждение истинно, деленное на общее количество миров. Тогда вероятность того, что утверждение будет истинным о виновном мирах, составляет
Для условной вероятности.
затем
Используя симметрию, это уравнение можно записать как закон Байеса.
Этот закон распределения между априорной и апостериорной вероятностями при изучении новых фактов.
Записанный в виде количества информации Теорема Байеса принимает вид
Сказаны два утверждения A и B быть независимым, если знание истинности А не изменяет вероятность Б. Математически это:
тогда теорема Байеса сводится к
Для набора взаимоисключающих возможностей , сумма апостериорных вероятностей должны быть 1.
Подстановка с использованием байесовской Теорема дает закон полной вероятности
Этот результат используется для получения расширенная форма теоремы Байеса,
Это обычная форма теоремы Байеса, используемая на практике, поскольку она гарантирует все апостериорные вероятности для равно 1.
Для взаимоисключающих возможностей вероятности складываются.
Использование
Тогда альтернативы
являются взаимоисключающими. Кроме того,
, поэтому сложив все вместе,
As,
, затем
Следствие связано с условной вероятностью следующим уравнением:
Вывод,
Теорема Байеса может установить вероятность гипотезы или теории H, учитывая некоторые факты F. Тогда апостериорная вероятность H равна
или с точки зрения информации,
Предположение, что гипотеза верна, можно дать более простое представление F. Длина кодирования этого более простого представления составляет
представляет количество информации, необходима для представления фактов F, если истинно. - это объем информации, необходимый для представления F без гипотезы H. Разница в насколько сжато представление фактов при допущении H верно. Это свидетельство того, что гипотеза H верна.
оценивается из длины кодирования, то полученная вероятность не будет 0 и 1 Полученное значение вероято вероятности, но не является хорошей оценкой вероятности. Полученное число иногда называют относительной вероятностью: вероятнее теория, чем несоответствие теории.
Если известен полный набор взаимоисключающих гипотез, может быть дана надлежащая оценка априорной вероятности .
Вероятности могут быть вычислены на основе расширенной формы теоремы Байеса. Учитывая все взаимоисключающие гипотезы , которые дают такие доказательства, что
а также гипотеза R о том, что ни одна из гипотез не верна, тогда
С точки зрения информации,
В ситуации хорошим приближением будет предположение, что не зависит от , что означает давая,
Абдуктивный вывод начинается с набора фактов F, который является утверждением (логическим выражением). Абдуктивное мышление имеет форму:
Теория T, также называемая объяснением условия F, является ответом на широко распространенный фактологический вопрос «почему». Например, условие F - «Почему падают яблоки?». Ответ - теория T, которая подразумевает, что яблоки падают;
Индуктивный вывод имеет форму,
С точки зрения абдуктивного вывода, все объекты в классе C или множестве имеют свойство P - это теория, которая подразумевает наблюдаемое состояние. Все наблюдаемые объекты в классе C обладают свойством P.
Итак, индуктивный вывод - это частный случай абдуктивного вывода. В обычном использовании термин индуктивный вывод часто используется для обозначения как абдуктивного, так и индуктивного вывода.
Индуктивный вывод связан с обобщением. Обобщения можно формировать из утверждений, заменяя конкретное значение членством в категории или заменяя членство в категории членством в более широкой категории. В дедуктивной логике обобщение - мощный метод создания новых теорий, которые могут быть верными. При индуктивном умозаключении обобщение порождает теории, которые имеют вероятность быть верными.
Противоположностью обобщения является специализация. Специализация используется для применения общего правила к конкретному случаю. Специализации создаются из обобщений путем замены членства в категории определенным значением или путем замены категории подкатегорией.
Линнаен классификация живых существ и предметов составляет основу для обобщения и уточнения. Умение идентифицировать, распознавать и классифицировать - основа для обобщения. Восприятие мира как совокупности объектов, по-видимому, является ключевым аспектом человеческого интеллекта. Это объектно-ориентированная модель в смысле, отличном от информатики.
Объектно-ориентированная модель построена на основе нашего восприятия. В частности, зрение основано на способности сравнивать два изображения и вычислять, сколько информации необходимо для преобразования или отображения одного изображения в другое. Компьютерное зрение использует это отображение для построения трехмерных изображений из пар стереоизображений..
Индуктивное логическое программирование - это средство построения теории, которая подразумевает условие. Подход Плоткина «относительное наименьшее общее обобщение (rlgg)» строит простейшее обобщение, совместимое с условием.
Исаак Ньютон использовал индуктивные аргументы при построении своего закона всемирного тяготения. Начиная с утверждения,
Обобщение путем замены яблока на объект и земли на объект дает в системе двух тел
Теория объясняет все падения объектов, поэтому есть веские доказательства этому. Второе наблюдение,
После некоторых сложных математических вычислений можно увидеть, что если ускорение следует закону обратных квадратов, то объекты будут следовать эллипсу.. Итак, индукция свидетельствует о законе обратных квадратов.
Используя наблюдение Галилео, все объекты падают с одинаковой скоростью,
где и векторов по направлению к центру другого объекта. Затем используя третий закон Ньютона
Импликация определяет условия вероятности как,
Итак,
Этот результат может быть в вероятностях, данных для байесовской гипотезы. Для одной теории H = T и
или, с точки зрения информации, относительная вероятность равна
Обратите внимание, что эта оценка для P (T | F) не является истинной вероятностью. Если
давая,
Составьте список всех кратчайших программ
где
Проблема состоит в том, чтобы вычислить вероятность того, что источник создан программой
Использование расширенной формы теоремы Байеса
Расширенная форма полагается на закон полной вероятности. Это означает, что
As
Априорная вероятность того, что строка будет получена программой при отсутствии информации о строке зависит от размера программы,
дает,
Программы, длина которых равна или превышает длину x, не обеспечивают предсказательной силы. Разделите их, получив:
Затем определите две вероятности как,
Но априорная вероятность что x представляет собой случайный набор битов:
Вероятность того, что источник случайен, или непредсказуем,
Модель построения миров используется при определении вероятностей теорий,
Если w - это битовая строка, тогда мир создается так, что
Набор битовых строк, идентичных любому условию x, равен
Теория - это более простое условие, которое объясняет (или подразумевает) C. Множество всех таких теорий называется T,
расширенная форма теоремы Байеса может применяться
где,
Чтобы применить теорему Байеса, должно выполняться следующее:
Для
Во-вторых, докажите, что T включает в себя все результаты, соответствующие условию. Поскольку все теории, согласующиеся с C, включены, то
Таким образом, теорема Байеса может применяться, как указано, давая,
Используя импликацию и закон вероятности условия, определение
Вероятность каждой теории в T определяется выражением,
так,
Наконец, вероятности событий могут быть отождествлены с вероятностями условия, которому удовлетворяют исходы события.,
давая
Это вероятность теории t после наблюдения за выполнением условия C.
Теории, которые менее вероятны, чем условие C, не имеют предсказательной силы. Разделяем их, получая,
Вероятность теорий без предсказательной силы на C такая же, как вероятность C. Итак,
Таким образом, вероятность
и вероятность отсутствия прогноза для C, записанная как
вероятность состояния была задана как,
Битовые строки для теорий, которые более сложны, чем битовая строка, переданная агенту в качестве входных данных, не имеют предсказательного мощность. Вероятности лучше включать в случайный случай. Для реализации этого нового определения дается как F in,
Используя F, улучшенная версия абдуктивных вероятностей: