Инфо-метрики

редактировать

Инфо-метрики - это междисциплинарный подход к научному моделированию, выводам и эффективная обработка информации. Это наука моделирования, рассуждений и выводов в условиях зашумленной и ограниченной информации. С точки зрения науки, эта структура находится на пересечении теории информации, статистических методов вывода, прикладной математики, информатики., эконометрика, теория сложности, анализ решений, моделирование и философия науки.

Инфо-метрики обеспечивают оптимизация с ограничениями структура для решения недостаточно определенных или некорректно поставленных проблем - проблем, для которых недостаточно информации для поиска уникального решения. Такие проблемы очень распространены во всех науках: доступная информация неполная, ограниченная, шумная и неопределенная. Информационные метрики полезны для моделирования, обработки информации, теории построения и вывода проблем во всем научном спектре. Структура инфо-метрик также может использоваться для проверки гипотез о конкурирующих теориях или причинных механизмах.

Содержание

  • 1 История
  • 2 Предварительные определения
  • 3 Основная проблема инфо-метрик
  • 4 Примеры
    • 4.1 Шестигранный кубик
    • 4.2 Некоторые междисциплинарные примеры
  • 5 См. Также
  • 6 Примечания
  • 7 Ссылки
  • 8 Дополнительная литература
    • 8.1 Классика
    • 8.2 Базовая книги и исследовательские монографии
    • 8.3 Другие типичные приложения
  • 9 Внешние ссылки

История

Инфометрики произошли от классического формализма максимальной энтропии, который основан на работе из Шеннон. Ранний вклад был в основном в естественных и математических / статистических науках. С середины 1980-х и особенно в середине 1990-х подход максимальной энтропии был обобщен и расширен для решения более широкого класса проблем в социальных и поведенческих науках, особенно для сложных проблем и данных. Слово «инфо-метрики» было придумано в 2009 году Амосом Голаном, прямо перед открытием междисциплинарного института инфо-метрики.

Предварительные определения

Рассмотрим случайную величину X {\ textstyle X}{\ textstyle X} , которая может привести к одному из K различных результатов. Вероятность pk {\ textstyle p_ {k}}{\ textstyle p_ {k}} каждого результата xk {\ textstyle x_ {k}}{\ textstyle x_ {k}} составляет pk = p (xk) {\ textstyle p_ {k} = p (x_ {k})}{\ textstyle p_ {k} = p (x_ {k})} для k = 1, 2,…, K {\ textstyle k = 1,2, \ ldots, K}{\ textstyle k = 1,2, \ ldots, K} . Таким образом, P {\ textstyle P}{\ textstyle P} - это K-мерное распределение вероятностей, определенное для X {\ textstyle X}{\ textstyle X} такое, что pk ≥ 0 { \ displaystyle p_ {k} \ geq 0}{\ displaystyle p_ {k} \ geq 0} и ∑ kpk = 1 {\ textstyle \ sum _ {k} p_ {k} = 1}{\ textstyle \ sum _ {k } p_ {k} = 1} . Определите информационное содержание одного результата xk {\ textstyle x_ {k}}{\ textstyle x_ {k}} как h (xk) = h (pk) = log 2 ⁡ (1 / pk) { \ textstyle h (x_ {k}) = h (p_ {k}) = \ log _ {2} (1 / p_ {k})}{\ textstyle h (x_ {k}) = h (p_ {k}) = \ log _ {2} (1 / p_ {k})} (например, Шеннон). Наблюдение за исходом в хвостах распределения (редкое событие) дает гораздо больше информации, чем наблюдение за другим, более вероятным исходом. Энтропия - это ожидаемое информационное содержание результата случайной величины X, распределение вероятностей которой равно P:

H (P) = ∑ k = 1 K pk log 2 ⁡ (1 pk) = - ∑ k = 1 K pk журнал 2 ⁡ (pk) знак равно E ⁡ [журнал 2 ⁡ (1 P (X))] {\ displaystyle H (P) = \ sum _ {k = 1} ^ {K} p_ {k} \ log _ {2 } \ left ({\ frac {1} {p_ {k}}} \ right) = - \ sum _ {k = 1} ^ {K} p_ {k} \ log _ {2} (p_ {k}) = \ operatorname {E} \ left [\ log _ {2} \ left ({\ frac {1} {P (X)}} \ right) \ right]}{\ displaystyle H (P) = \ sum _ {k = 1} ^ {K} p_ {k} \ log _ {2} \ left ({\ frac {1} {p_ {k}}} \ right) = - \ sum _ {k = 1} ^ {K} p_ {k} \ log _ {2} (p_ {k }) = \ OperatorName {E} \ left [\ log _ {2} \ left ({\ frac {1} {P (X)}} \ right) \ right]}

Здесь pk log 2 ⁡ ( pk) ≡ 0 {\ displaystyle p_ {k} \ log _ {2} (p_ {k}) \ Equiv 0}{\ displaystyle p_ {k} \ log _ { 2} (п_ ​​{к}) \ эквив 0} , если pk = 0 {\ displaystyle p_ {k} = 0}{\ displaystyle p_ {k} = 0} , а E {\ displaystyle \ operatorname {E}}{\ displaystyle \ operatorname {E} } - оператор ожидания.

Основная проблема информационных показателей

Рассмотрим проблему моделирования и вывода ненаблюдаемого распределения вероятностей некоторой K-мерной дискретной случайной величины с учетом только среднего (ожидаемого значения) этой переменной. Мы также знаем, что вероятности неотрицательны и нормированы (т.е. суммируются с точностью до 1). Для всех K>2 проблема недоопределена. В рамках инфо-метрик решение состоит в том, чтобы максимизировать энтропию случайной величины с учетом двух ограничений: среднего и нормализации. Это дает обычное решение с максимальной энтропией. Решения этой проблемы можно расширить и обобщить несколькими способами. Во-первых, можно использовать другую энтропию вместо энтропии Шеннона. Во-вторых, тот же подход может использоваться для непрерывных случайных величин, для всех типов условных моделей (например, регрессии, неравенства и нелинейных моделей) и для многих ограничений. В-третьих, в эту структуру могут быть включены априори. В-четвертых, та же структура может быть расширена для учета большей неопределенности: неопределенности в отношении наблюдаемых значений и / или неопределенности в отношении самой модели. Наконец, ту же базовую структуру можно использовать для разработки новых моделей / теорий, проверки этих моделей с использованием всей доступной информации и проверки статистических гипотез о модели.

Примеры

Шестигранная игральная кость

Вывод, основанный на информации, полученной в результате повторных независимых экспериментов.

Следующий пример приписывается Больцману и был популяризирован Джейнсом. Рассмотрим шестигранный кубик , где бросок кубика является событием, а отдельные результаты - числами от 1 до 6 на верхней грани кубика . Эксперимент представляет собой независимое повторение подбрасывания одного и того же кубика. Предположим, вы наблюдаете только эмпирическое среднее значение y N бросков шестигранной кубика. Учитывая эту информацию, вы хотите сделать вывод о вероятностях того, что определенное значение лица появится при следующем броске кубика. Вы также знаете, что сумма вероятностей должна быть 1. Максимизация энтропии (и использование логарифмической базы 2) с учетом этих двух ограничений (среднего и нормализации) дает наиболее неинформированное решение.

увеличить {P} H (p) = - ∑ k = 1 6 pk log 2 ⁡ (pk) с учетом ∑ kpkxk = y и ∑ kpk = 1 {\ displaystyle {\ begin {align} {\ underset { \ {P \}} {\ text {maximize}}} H (\ mathbf {p}) = - \ sum _ {k = 1} ^ {6} p_ {k} \ log _ {2} (p_ {k }) \\ {\ text {при условии}} \ sum _ {k} p_ {k} x_ {k} = y {\ text {and}} \ sum _ {k} p_ {k} = 1 \ конец {выровнен}}}{\ displaystyle {\ begin {align} {\ underset {\ {P \}} {\ text {maximize}}} H (\ mathbf {p}) = - \ sum _ {k = 1} ^ {6} p_ {k} \ log _ {2} (p_ {k}) \\ { \ text {subject to}} \ sum _ {k} p_ {k} x_ {k} = y {\ text {and}} \ sum _ {k} p_ {k} = 1 \ end {выровнено}}}

для xk = k {\ textstyle x_ {k} = k}{\ textstyle x_ {k} = k} и k = 1, 2,…, 6 {\ textstyle k = 1,2, \ ldots, 6}{\ textstyle k = 1,2, \ ldots, 6} . Решение:

p ^ k = 2 - λ ^ xk ∑ k = 1 6 2 - λ ^ xk ≡ 2 - λ xk Ω {\ displaystyle {\ widehat {p}} _ {k} = {\ frac { 2 ^ {- {\ widehat {\ lambda}} x_ {k}}} {\ sum _ {k = 1} ^ {6} 2 ^ {- {\ widehat {\ lambda}} x_ {k}}}} \ Equiv {\ frac {2 ^ {- \ lambda x_ {k}}} {\ Omega}}}{\ displaystyle {\ widehat {p}} _ {k} = {\ frac {2 ^ {- {\ widehat {\ lambda}} x_ {k}}} {\ sum _ {k = 1} ^ {6} 2 ^ {- {\ widehat {\ lambda }} x_ {k}}}} \ Equiv {\ frac {2 ^ {- \ lambda x_ {k}}} {\ Omega}}}

где p ^ k {\ textstyle {\ widehat {p}} _ {k}}{\ textstyle {\ widehat {p}} _ {k}} - предполагаемая вероятность события. k {\ textstyle k}{\ textstyle k} , λ ^ {\ textstyle {\ widehat {\ lambda}}}{\ textstyle {\ widehat {\ lambda}}} - выведенные множители Лагранжа, связанные с среднее ограничение, а Ω {\ textstyle \ Omega}{\ textstyle \ Omega} - это функция разбиения (нормализация). Если это справедливый кубик со средним значением 3,5, можно ожидать, что все лица одинаково вероятны и вероятности равны. Это то, что дает решение с максимальной энтропией. Если кубик несправедлив (или загружен) со средним значением 4, результирующее решение для максимальной энтропии будет pk = (0,103, 0,123, 0,146, 0,174, 0,207, 0,247) {\ textstyle p_ {k} = (0.103,0.123,0.146,0.174,0.207,0.247)}{\ textstyle p_ {k} = (0.103,0.123,0.146,0.174,0.207,0.247)} . Для сравнения: минимизация критерия наименьших квадратов (∑ k = 1 6 pk 2) {\ textstyle \ left (\ sum _ {k = 1} ^ {6} p_ {k} ^ {2} \ right)}{\ textstyle \ left (\ sum _ {k = 1} ^ {6} p_ {k} ^ {2} \ right)} вместо максимизации энтропии дает pk (LS) = (0,095, 0,124, 0,152, 0,181, 0,210, 0,238) {\ textstyle p_ {k} (LS) = (0,095,0,124,0,152, 0.181,0.210,0.238)}{\ textstyle p_ {k} ( LS) = (0,095,0,124,0,152,0,181,0,210,0,238)} .

Некоторые междисциплинарные примеры

Прогнозирование осадков: Используя ожидаемое дневное количество осадков (среднее арифметическое), можно использовать схему максимальной энтропии для вывода и прогноза ежедневного распределения осадков..

Управление портфелем: предположим, что есть менеджер портфеля, которому нужно распределить некоторые активы или присвоить веса портфеля различным активам, принимая во внимание ограничения и предпочтения инвестора. Используя эти предпочтения и ограничения, а также наблюдаемую информацию, такую ​​как среднерыночная доходность и ковариации каждого актива за некоторый период времени, можно использовать структуру максимизации энтропии для поиска оптимальных весов портфеля. В этом случае энтропия портфеля представляет его разнообразие. Эта модель может быть изменена для включения других ограничений, таких как минимальная дисперсия, максимальное разнообразие и т. Д. Эта модель включает неравенство и может быть дополнительно обобщена, чтобы включить короткие продажи. Больше таких примеров и связанный код можно найти на

. Обширный список работ, связанных с информационными метриками, можно найти здесь: http://info-metrics.org/bibliography.html

См. Также

Примечания

Ссылки

Далее чтение

Классика

  • Рудольф Клаузиус. «Си. О природе движения, которое мы называем теплом». Лондонский, Эдинбургский и Дублинский философский журнал и научный журнал, 14 (91): 108–127, 1857.
  • Людвиг Больцманн. «Дальнейшие исследования теплового равновесия молекул газа (weitere studien über das wärmegleichgewicht unter gasmolekülen)». Sitzungsberichte der Akademie der Wissenschaften, Mathematische-Naturwissenschaftliche Klasse, страницы 275–370, 1872.
  • J. У. Гиббс. Элементарные принципы статистической механики. (Нью-Хейвен, Коннектикут: издательство Йельского университета), 1902.
  • К. Э. Шеннон. «Математическая теория коммуникации». Bell System Technical Journal, 27 : 379–423, 1948.
  • Y. Альхассид и Р. Д. Левин. «Экспериментальные и неотъемлемые неопределенности в теоретико-информационном подходе». Chemical Physics Letters, 73 (1): 16–20, 1980.
  • R. Б. Ясень. Теория информации. Interscience, New York, 1965.
  • A Caticha. Относительная энтропия и индуктивный вывод. 2004.
  • A Caticha. «Лекции по вероятности, энтропии и статистической физике». MaxEnt, Сан-Паулу, Бразилия, 2008.
  • Ян М. Ван Кампенхаут Кавер и Томас М. «Максимальная энтропия и условная вероятность». IEEE Transactions on Information Theory, IT-27, No. 4, 1981.
  • I. Цисар. «Почему наименьшие квадраты и максимальная энтропия? Аксимоматический подход к выводу для линейной обратной задачи». «Анналы статистики», 19 : 2032–2066, 1991.
  • Дэвид Донохо, Хоссейн Какаванд и Джеймс Маммен. «Простейшее решение недоопределенной системы линейных уравнений». В теории информации, Международный симпозиум IEEE 2006 г., стр. 1924–1928. IEEE, 2007.

Основные книги и исследовательские монографии

  • Голан, Амос. Основы инфометрики: моделирование, вывод и несовершенная информация. Oxford University Press, 2018.
  • Голан. «Информационная и энтропийная эконометрика - обзор и синтез». Основы и тенденции в эконометрике, 2 (1-2): 1–145, 2008.
  • R. Д. Левин и М. Трибус. Формализм максимальной энтропии. MIT Press, Кембридж, Массачусетс, 1979.
  • J. Н. Капур. Модели максимальной энтропии в науке и технике. Wiley, 1993.
  • Дж. Харт. Максимальная энтропия и экология: теория изобилия, распределения и энергетики. Oxford U Press, 2011.
  • А. Голан, Дж. Джадж и Д. Миллер. Эконометрика максимальной энтропии: надежная оценка с ограниченными данными. John Wiley Sons, 1996.
  • Э. Т. Джейнс. Теория вероятностей: логика науки. Cambridge University Press, 2003.

Другие репрезентативные приложения

  • J. Р. Банавар, А. Маритан, И. Волков. «Приложения принципа максимальной энтропии: от физики к экологии». Journal of Physics-Condensed Matter, 22 (6), 2010.
  • Анил К. Бера и Сунг Ю. Парк. «Оптимальная диверсификация портфеля с использованием принципа максимальной энтропии». Econometric Reviews, 27 (4-6): 484–512, 2008.
  • Бхати, Б. Буюксахин и А. Голан. «Реконструкция изображения: теоретико-информационный подход». Слушания Американской статистической ассоциации, 2005.
  • Питер Бухен и Майкл Келли. «Максимальное распределение энтропии актива, выведенное из цен опционов». Журнал финансового и количественного анализа, 31 (01): 143–159, 1996.
  • Рэндалл К. Кэмпбелл и Р. Картер Хилл. «Предсказание полиномиального выбора с использованием максимальной энтропии». Economics Letters, 64 (3): 263–269, 1999.
  • Ариэль Катича и Амос Голан. «Энтропийная основа для моделирования экономик». Physica A: Статистическая механика и ее приложения, 408: 149–163, 2014.
  • Марша Куршан, Амос Голан и Дэвид Никерсон. «Оценка и оценка кредитной дискриминации: информационный подход». Journal of Housing Research, 11 (1): 67–90, 2000.
  • Цукаса Фудзивара и Йошио Мияхара. «Минимальные энтропийные мартингальные меры для геометрических процессов Леви». Финансы и стохастика, 7 (4): 509–531, 2003.

Марко Фриттелли. «Мартингальная мера минимальной энтропии и проблема оценки на неполных рынках». Математические финансы, 10 (1): 39–52, 2000.

  • Д. Гленнон и А. Голан. «Марковская модель банкротства банка, оцененная с использованием теоретико-информационного подхода, банки». Отчет, Казначейство США, 2003.
  • А. Голаны. «Многопараметрическая стохастическая теория распределения фирм по размерам с эмпирическими данными». Успехи в эконометрике, 10: 1–46, 1994.
  • А. Голаны. «Модель Modcomp влияния компенсации на удержание персонала - теоретико-информационный подход». Отчет, ВМС США, февраль 2003 г.

Амос Голан и Волкер Доз. «Обобщенный информационный теоретический подход к томографической реконструкции». Journal of Physics A: Mathematical and General, 34 (7): 1271, 2001.

  • Барт Хегеман и Рампал С. Этьен. «Максимизация энтропии и пространственное распределение видов». Американский натуралист, 175 (4): E74 – E90, 2010.
  • U. В. Туссен, А. Голан, В. Доз и "Максимальное энтропийное разложение четырехкратных масс-спектров". Journal of Vacuum Science and Technology A 22 (2), март / апрель 2004 г., 401–406
  • Голан А., Д. Волкер, «Теоретический подход к томографической реконструкции с обобщенной информацией», J. of Physics A: Математические и общие (2001) 1271–1283.

Внешние ссылки

Последняя правка сделана 2021-05-24 14:42:00
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте