Информационный критерий Акаике

редактировать

Информационный критерий Акаике (AIC ) - это оценщик ошибки прогнозирования вне выборки и, следовательно, относительного качества статистических моделей для заданного набора данных. Учитывая набор моделей для данных, AIC оценивает качество каждой модели относительно каждой из других моделей. Таким образом, AIC предоставляет средства для выбора модели..

AIC основан на теории информации. Когда статистическая модель используется для представления процесса, создавшего данные, представление почти никогда не будет точным; поэтому некоторая информация будет потеряна при использовании модели для представления процесса. AIC оценивает относительный объем информации, потерянной данной моделью: чем меньше информации теряет модель, тем выше качество этой модели.

При оценке количества информации, потерянной моделью, AIC рассматривает компромисс между степенью соответствия модели и простотой модели. Другими словами, AIC имеет дело как с риском переобучения, так и с риском недостаточного соответствия.

Информационный критерий Акаике назван в честь японского статистика Хиротугу Акаике, который сформулировал его. Теперь он составляет основу парадигмы для основ статистики, а также широко используется для статистического вывода.

Содержание
  • 1 Определение
  • 2 Как использовать AIC на практике
  • 3 Проверка гипотез
    • 3.1 Воспроизведение t-критерия Стьюдента
    • 3.2 Сравнение наборов категориальных данных
  • 4 Основы статистики
  • 5 Модификация для небольшого размера выборки
  • 6 История
  • 7 Советы по использованию
    • 7.1 Параметры подсчета
    • 7.2 Преобразование данных
    • 7.3 Ненадежность программного обеспечения
  • 8 Сравнение с другими методами выбора модели
    • 8.1 Сравнение с BIC
    • 8.2 Сравнение с перекрестной проверкой
    • 8.3 Сравнение с наименьшим квадраты
    • 8.4 Сравнение с Mallows C p
  • 9 См. также
  • 10 Примечания
  • 11 Ссылки
  • 12 Дополнительная литература
Определение

Предположим, что у нас есть статистический модель некоторых данных. Пусть k будет количеством оцененных параметров в модели. Пусть L ^ {\ displaystyle {\ hat {L}}}\hat Lбудет максимальным значением функции правдоподобия для модели. Тогда значение AIC модели будет следующим:

AIC = 2 k - 2 ln ⁡ (L ^) {\ displaystyle \ mathrm {AIC} \, = \, 2k-2 \ ln ({\ hat {L }})}{\displaystyle \mathrm {AIC} \,=\,2k-2\ln({\hat {L}})}

Учитывая набор моделей-кандидатов для данных, предпочтительной является модель с минимальным значением AIC. Таким образом, AIC награждает степенью соответствия (оцениваемой функцией правдоподобия), но также включает штраф, который является возрастающей функцией количества оцениваемых параметров. Штраф препятствует переобучению, что является желательным, потому что увеличение количества параметров в модели почти всегда улучшает точность соответствия.

AIC основана на теории информации. Предположим, что данные генерируются каким-то неизвестным процессом f. Мы рассматриваем две модели-кандидаты для представления f: g 1 и g 2. Если бы мы знали f, то мы могли бы найти информацию, потерянную при использовании g 1 для представления f, вычислив расхождение Кульбака – Лейблера, D KL (f ‖ g 1); аналогично, информация, потерянная из-за использования g 2 для представления f, может быть найдена путем вычисления D KL (f ‖ g 2). Затем мы, как правило, выбираем модель кандидата, которая минимизирует потерю информации.

Мы не можем выбирать с уверенностью, потому что мы не знаем f. Акаике (1974) показал, однако, что мы можем оценить с помощью AIC, насколько больше (или меньше) информации теряется при g 1, чем при g 2. Однако оценка действительна только асимптотически ; если количество точек данных невелико, часто требуется некоторая корректировка (см. AICc ниже).

Обратите внимание, что AIC ничего не говорит об абсолютном качестве модели, только о качестве по сравнению с другими моделями. Таким образом, если все модели-кандидаты плохо подходят, AIC не предупредит об этом. Следовательно, после выбора модели с помощью AIC обычно рекомендуется проверять абсолютное качество модели. Такая проверка обычно включает проверки остатков модели (чтобы определить, кажутся ли остатки случайными) и проверки прогнозов модели. Для получения дополнительной информации по этой теме см. Проверка статистической модели.

Как использовать AIC на практике

Чтобы применить AIC на практике, мы начинаем с набора моделей-кандидатов, а затем находим соответствующие модели. Ценности AIC. Информация почти всегда будет потеряна из-за использования модели-кандидата для представления «истинной модели», то есть процесса, создавшего данные. Мы хотим выбрать среди моделей-кандидатов ту модель, которая минимизирует потерю информации. Мы не можем выбирать с уверенностью, но можем минимизировать предполагаемую потерю информации.

Предположим, что существует R моделей-кандидатов. Обозначьте значения AIC этих моделей AIC 1, AIC 2, AIC 3,..., AIC R. Пусть AIC min будет минимальным из этих значений. Тогда величина exp ((AIC min - AIC i) / 2) может быть интерпретирована как пропорциональная вероятности того, что i-я модель минимизирует (оценочную) потерю информации.

В качестве примера предположим, что существует три модели-кандидата, значения AIC которых равны 100, 102 и 110. Тогда вторая модель exp ((100–102) / 2) = в 0,368 раза более вероятна, чем первая. модель для минимизации потери информации. Точно так же третья модель exp ((100 - 110) / 2) = 0,007 раза более вероятна, чем первая модель, чтобы минимизировать потерю информации.

В этом примере мы бы исключили третью модель из дальнейшего рассмотрения. Затем у нас есть три варианта: (1) собрать больше данных в надежде, что это позволит четко различать первые две модели; (2) просто сделать вывод, что данных недостаточно для выбора одной модели из первых двух; (3) возьмите средневзвешенное значение первых двух моделей с весами, пропорциональными 1 и 0,368, соответственно, а затем выполните статистический вывод на основе взвешенной мультимодели.

Величина exp (( AIC min - AIC i) / 2) известен как относительная вероятность модели i. Он тесно связан с отношением правдоподобия, используемым в тесте отношения правдоподобия. Действительно, если все модели в наборе кандидатов имеют одинаковое количество параметров, тогда использование AIC может сначала показаться очень похожим на использование теста отношения правдоподобия. Однако есть важные различия. В частности, тест отношения правдоподобия действителен только для вложенных моделей, тогда как AIC (и AICc) не имеет такого ограничения.

Проверка гипотез

Каждые Проверка статистической гипотезы может быть сформулирована как сравнение статистических моделей. Следовательно, каждая проверка статистической гипотезы может быть воспроизведена через AIC. Два примера кратко описаны в подразделах ниже. Подробности этих и многих других примеров приведены в Сакамото, Исигуро и Китагава (1986, часть II) и Кониси и Китагава (2008, глава 4).

Воспроизведение t-критерия Стьюдента

В качестве примера проверки гипотезы рассмотрим t-критерий для сравнения средних значений двух нормально распределенных Популяции. Входные данные для t-критерия включают случайную выборку из каждой из двух популяций.

Чтобы сформулировать тест как сравнение моделей, мы построили две разные модели. Первая модель моделирует две популяции как имеющие потенциально разные средние значения и стандартные отклонения. Таким образом, функция правдоподобия для первой модели является продуктом правдоподобия для двух различных нормальных распределений; поэтому он имеет четыре параметра: μ 1, σ 1, μ 2, σ 2. Чтобы быть точным, функция правдоподобия выглядит следующим образом (размеры выборки обозначаются n 1 и n 2).

L (μ 1, σ 1, μ 2, σ 2) = {\ Displaystyle {\ mathcal {L}} (\ mu _ {1}, \ sigma _ {1}, \ mu _ {2}, \ sigma _ {2}) \, = \,}{\ displaystyle {\ mathcal {L}} (\ mu _ {1}, \ sigma _ {1}, \ mu _ {2}, \ sigma _ {2}) \, = \,}
∏ i = 1 n 1 1 2 π σ 1 exp ⁡ (- (xi - μ 1) 2 2 σ 1 2) ⋅ ∏ i = n 1 + 1 N 1 + N 2 1 2 π σ 2 ехр ⁡ (- (xi - μ 2) 2 2 σ 2 2) {\ displaystyle \; \; \; \; \; \; \; \; \ prod _ { i = 1} ^ {n_ {1}} {\ frac {1} {{\ sqrt {2 \ pi}} \ sigma _ {1}}} \ exp \ left (- {\ frac {(x_ {i} - \ mu _ {1}) ^ {2}} {2 \ sigma _ {1} ^ {2}}} \ right) \; \, {\ boldsymbol {\ cdot}} \, \ prod _ {i = n_ {1} +1} ^ {n_ {1} + n_ {2}} {\ frac {1} {{\ sqrt {2 \ pi}} \ sigma _ {2}}} \ exp \ left (- { \ frac {(x_ {i} - \ mu _ {2}) ^ {2}} {2 \ sigma _ {2} ^ {2}}} \ right)}{\displaystyle \;\;\;\;\;\;\;\;\prod _{i=1}^{n_{1}}{\frac {1}{{\sqrt {2\pi }}\sigma _{1}}}\exp \left(-{\frac {(x_{i}-\mu _{1})^{2}}{2\sigma _{1}^{2}}}\right)\;\,{\boldsymbol {\cdot }}\,\prod _{i=n_{1}+1}^{n_{1}+n_{2}}{\frac {1}{{\sqrt {2\pi }}\sigma _{2}}}\exp \left(-{\frac {(x_{i}-\mu _{2})^{2}}{2\sigma _{2}^{2}}}\right)}

Вторая модель моделирует две популяции как с одними и теми же средствами, но с потенциально разными стандартными отклонениями. Таким образом, функция правдоподобия для второй модели устанавливает μ 1 = μ 2 в приведенном выше уравнении; поэтому у него есть три параметра.

Затем мы максимизируем функции правдоподобия для двух моделей (на практике мы максимизируем функции логарифма правдоподобия); после этого легко рассчитать значения AIC моделей. Затем мы вычисляем относительную вероятность. Например, если бы вероятность второй модели была всего в 0,01 раза выше, чем у первой модели, то мы бы исключили вторую модель из дальнейшего рассмотрения: так мы бы пришли к выводу, что две популяции имеют разные средние значения.

t-тест предполагает, что две совокупности имеют одинаковые стандартные отклонения; тест имеет тенденцию быть ненадежным, если предположение ложно, а размеры двух выборок сильно различаются (t-критерий Велча будет лучше). Сравнение средних значений совокупностей с помощью AIC, как в приведенном выше примере, имеет преимущество, поскольку не делает таких предположений.

Сравнение наборов категориальных данных

В качестве другого примера проверки гипотез предположим, что у нас есть две популяции, и каждый член каждой популяции находится в одной из двух категорий - категория №1 или категория №2. Каждая популяция биномиально распределена. Мы хотим знать, одинаковы ли распределения двух популяций. Нам дается случайная выборка из каждой из двух популяций.

Пусть m будет размером выборки из первой генеральной совокупности. Пусть m 1 будет количеством наблюдений (в выборке) в категории №1; таким образом, количество наблюдений в категории № 2 равно m - m 1. Аналогично, пусть n будет размером выборки из второй совокупности. Пусть n 1 будет количеством наблюдений (в выборке) в категории №1.

Пусть p будет вероятностью того, что случайно выбранный член первой совокупности находится в категории №1. Следовательно, вероятность того, что случайно выбранный член первой популяции находится в категории № 2, равна 1 - p. Обратите внимание, что у распределения первой популяции есть один параметр. Пусть q будет вероятностью того, что случайно выбранный член второй популяции находится в категории №1. Обратите внимание, что распределение второй популяции также имеет один параметр.

Чтобы сравнить распределения двух популяций, мы построили две разные модели. Первая модель моделирует две популяции как имеющие потенциально разные распределения. Таким образом, функция правдоподобия для первой модели является продуктом правдоподобия для двух различных биномиальных распределений; поэтому у него есть два параметра: p, q. Чтобы быть точным, функция правдоподобия выглядит следующим образом.

L (p, q) = м! м 1! (м - м 1)! п м 1 (1 - р) м - м 1 ⋅ п! п 1! (п - п 1)! qn 1 (1 - q) n - n 1 {\ displaystyle {\ mathcal {L}} (p, q) \, = \, {\ frac {m!} {m_ {1}! (m-m_ {1 })!}} p ^ {m_ {1}} (1-p) ^ {m-m_ {1}} \; \, {\ boldsymbol {\ cdot}} \; \; {\ frac {n!} {n_ {1}! (n-n_ {1})!}} q ^ {n_ {1}} (1-q) ^ {n-n_ {1}}}{\displaystyle {\mathcal {L}}(p,q)\,=\,{\frac {m!}{m_{1}!(m-m_{1})!}}p^{m_{1}}(1-p)^{m-m_{1}}\;\,{\boldsymbol {\cdot }}\;\;{\frac {n!}{n_{1}!(n-n_{1})!}}q^{n_{1}}(1-q)^{n-n_{1}}}

Вторая модель моделирует две популяции как имеющие такое же распределение. Таким образом, функция правдоподобия для второй модели устанавливает p = q в приведенном выше уравнении; так что вторая модель имеет один параметр.

Затем мы максимизируем функции правдоподобия для двух моделей (на практике мы максимизируем функции логарифма правдоподобия); после этого легко вычислить значения AIC моделей. Затем мы вычисляем относительную вероятность. Например, если бы вероятность второй модели была всего в 0,01 раза выше, чем у первой модели, то мы бы исключили вторую модель из дальнейшего рассмотрения: так мы бы пришли к выводу, что две популяции имеют разное распределение.

Основы статистики

Статистический вывод обычно рассматривается как состоящий из проверки гипотез и оценки. Как обсуждалось выше, проверка гипотез может выполняться через AIC. Что касается оценки, существует два типа: точечная оценка и интервальная оценка. Точечная оценка может выполняться в рамках парадигмы AIC: она обеспечивается с помощью оценки максимального правдоподобия. Оценка интервала также может быть выполнена в рамках парадигмы AIC: она обеспечивается интервалами правдоподобия. Следовательно, статистический вывод обычно можно сделать в рамках парадигмы AIC.

Наиболее часто используемые парадигмы для статистического вывода - это частотный вывод и байесовский вывод. Однако AIC можно использовать для статистического вывода, не полагаясь ни на частотную парадигму, ни на байесовскую парадигму: потому что AIC можно интерпретировать без помощи уровней значимости или байесовских априорных значений. Другими словами, AIC можно использовать для формирования основы статистики, отличной как от частотного, так и от байесовского подхода.

Модификация для небольшого размера выборки

Когда размер выборки мал, существует значительная вероятность того, что AIC выберет модели со слишком большим количеством параметров, т. е. что AIC переобучится. Для устранения такого потенциального переобучения был разработан AICc: AICc - это AIC с поправкой на небольшие размеры выборки.

Формула для AICc зависит от статистической модели. Предполагая, что модель является одномерной, линейной по своим параметрам и имеет нормально распределенные остатки (в зависимости от регрессоров), тогда формула для AICc выглядит следующим образом.

AIC с = AIC + 2 К 2 + 2 кн - к - 1 {\ Displaystyle \ mathrm {AICc} \, = \, \ mathrm {AIC} + {\ frac {2k ^ {2} + 2k} {nk-1} }}{\displaystyle \mathrm {AICc} \,=\,\mathrm {AIC} +{\frac {2k^{2}+2k}{n-k-1}}}

- где n обозначает размер выборки, а k обозначает количество параметров. Таким образом, AICc по сути является AIC с дополнительным штрафным сроком для количества параметров. Обратите внимание, что при n → ∞ член дополнительного штрафа сходится к 0, и, следовательно, AICc сходится к AIC.

Если предположение, что модель является одномерной и линейной с нормальными остатками, не выполняется, то формула для AICc обычно будет отличаться от приведенной выше формулы. Для некоторых моделей бывает сложно определить формулу. Однако для каждой модели, имеющей доступный AICc, формула для AICc задается как AIC плюс члены, которые включают как k, так и k. Для сравнения, формула для AIC включает k, но не k. Другими словами, AIC - это оценка первого порядка (потери информации), тогда как AICc - это оценка второго порядка.

. Дальнейшее обсуждение формулы с примерами других предположений, дано Burnham Anderson (2002, ch. 7) и Konishi Kitagawa (2008, ch. 7-8). В частности, с другими предположениями, часто возможна оценка бутстрапа формулы.

Подводя итог, AICc имеет преимущество в том, что он имеет тенденцию быть более точным, чем AIC (особенно для небольших выборок), но AICc также имеет недостаток в том, что иногда его гораздо сложнее вычислить, чем AIC. Обратите внимание, что если все модели-кандидаты имеют одинаковый k и одинаковую формулу для AICc, то AICc и AIC дадут идентичные (относительные) оценки; следовательно, не будет недостатков в использовании AIC вместо AICc. Кроме того, если n во много раз больше, чем k, то дополнительный штрафной член будет незначительным; следовательно, недостаток использования AIC вместо AICc будет незначительным.

История
Хиротугу Акаике

Информационный критерий Акаике сформулировал статистик Хиротугу Акаике. Первоначально он назывался «информационный критерий». Впервые на английском об этом объявил Акаике на симпозиуме 1971 года; Материалы симпозиума были опубликованы в 1973 году. Однако публикация 1973 года была лишь неформальной презентацией концепций. Первой официальной публикацией была статья Акаике 1974 года. По состоянию на октябрь 2014 г. статья 1974 г. получила более 14 000 цитирований в Web of Science, что сделало ее 73-й наиболее цитируемой исследовательской статьей за все время.

В настоящее время AIC стал достаточно распространен, чтобы его часто использовали без ссылки на статью Акаике 1974 года. Действительно, существует более 150 000 научных статей / книг, в которых используется AIC (по оценке Google Scholar ).

Первоначальный вывод AIC основывался на некоторых сильных предположениях. Такеучи (1976) показал, что предположения можно было бы сделать намного слабее. Однако работа Такеучи была на японском языке и не была широко известна за пределами Японии в течение многих лет.

AICc был первоначально предложен для линейной регрессии (только) Sugiura (1978). Это послужило толчком для работы Hurvich Tsai (1989) и нескольких других статей тех же авторов, в которых расширены ситуации, в которых может применяться AICc.

Первым общим изложением теоретико-информационного подхода был том Burnham Anderson (2002). Он включает английское представление работы Такеучи. Этот том привел к гораздо более широкому использованию AIC, и теперь у него более 48 000 ссылок на Google Scholar.

Акаике назвал свой подход «принципом максимизации энтропии», потому что Подход основан на концепции энтропии в теории информации. В самом деле, минимизация AIC в статистической модели фактически эквивалентна максимизации энтропии в термодинамической системе; Другими словами, теоретико-информационный подход в статистике по существу применяет Второй закон термодинамики. Таким образом, AIC берет свое начало в работе Людвига Больцмана по энтропии. Подробнее об этих проблемах см. Акаике (1985) и Бернхэм и Андерсон (2002, гл. 2).

Советы по использованию

Параметры подсчета

A статистическая модель должны соответствовать всем точкам данных. Таким образом, прямая линия сама по себе не является моделью данных, если все точки данных не лежат точно на линии. Однако мы можем выбрать модель «прямая линия плюс шум»; такую ​​модель можно формально описать следующим образом: y i = b 0 + b 1xi+ ε i. Здесь ε i - это остатки от аппроксимации прямой линией. Если предполагается, что ε i равно iid Gaussian (с нулевым средним), то модель имеет три параметра: b 0, b 1, и дисперсия гауссовых распределений. Таким образом, при расчете значения AIC этой модели мы должны использовать k = 3. В более общем смысле, для любой модели наименьших квадратов с i.i.d. Гауссовские остатки, дисперсия распределений остатков должна учитываться как один из параметров.

В качестве другого примера рассмотрим авторегрессионную модель первого порядка, определяемую x i = c + φx i-1 + ε i, где ε i является iid Гауссовский (с нулевым средним). Для этой модели существует три параметра: c, φ и дисперсия ε i. В более общем смысле модель авторегрессии p-го порядка имеет p + 2 параметра. (Если, однако, c не оценивается на основе данных, а задается заранее, то есть только параметры p + 1.)

Преобразование данных

Значения AIC моделей-кандидатов все должны быть вычислены с одним и тем же набором данных. Однако иногда нам может потребоваться сравнить модель переменной ответа , y, с моделью логарифма переменной ответа, log (y). В более общем плане нам может потребоваться сравнить модель данных с моделью преобразованных данных. Ниже приводится иллюстрация того, как работать с преобразованиями данных (адаптировано из Burnham Anderson (2002, §2.11.3): «Исследователи должны быть уверены, что все гипотезы моделируются с использованием одной и той же переменной ответа»).

Предположим, что мы хотим сравнить две модели: одну с нормальным распределением y и другую с нормальным распределением log (y). Мы не должны напрямую сравнивать значения AIC двух моделей. Вместо этого мы должны преобразовать нормальную кумулятивную функцию распределения так, чтобы сначала логарифмировался y. Для этого нам нужно выполнить соответствующее интегрирование с помощью замены : таким образом, нам нужно умножить на производную функции (натуральный) логарифм, которая равна 1 / y. Следовательно, преобразованное распределение имеет следующую функцию плотности вероятности :

y ↦ 1 y 1 2 π σ 2 exp ⁡ (- (ln ⁡ y - μ) 2 2 σ 2) {\ displaystyle y \ mapsto \, {\ frac {1} {y}} {\ frac {1} {\ sqrt {2 \ pi \ sigma ^ {2}}}} \, \ exp \ left (- {\ frac {\ left (\ ln y - \ mu \ right) ^ {2}} {2 \ sigma ^ {2}}} \ right)}{\displaystyle y\mapsto \,{\frac {1}{y}}{\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\,\exp \left(-{\frac {\left(\ln y-\mu \right)^{2}}{2\sigma ^{2}}}\right)}

- функция плотности вероятности для логнормального распределения. Затем мы сравниваем значение AIC нормальной модели со значением AIC логарифмической нормальной модели.

Ненадежность программного обеспечения

Некоторое статистическое программное обеспечение сообщает значение AIC или максимальное значение функции логарифма правдоподобия, но сообщаемые значения не всегда верны. Как правило, любая неточность возникает из-за того, что в логарифмической функции правдоподобия не указана константа. Например, функция логарифма правдоподобия для n независимых идентичных нормальных распределений равна

ln ⁡ L (μ, σ) = - n 2 ln ⁡ (2 π) - n 2 пер σ 2 - 1 2 σ 2 ∑ я знак равно 1 N (xi - μ) 2 {\ displaystyle \ ln {\ mathcal {L}} (\ mu, \ sigma) \, = \, - {\ frac { n} {2}} \ ln (2 \ pi) - {\ frac {n} {2}} \ ln \ sigma ^ {2} - {\ frac {1} {2 \ sigma ^ {2}}} \ sum _ {i = 1} ^ {n} (x_ {i} - \ mu) ^ {2}}{\ displaystyle \ ln {\ mathcal {L}} (\ mu, \ sigma) \, = \, - {\ frac {n} {2}} \ ln (2 \ pi) - {\ frac {n} {2}} \ ln \ sigma ^ {2} - {\ frac {1} {2 \ sigma ^ {2}}} \ sum _ {я = 1} ^ {n} (x_ {i} - \ mu) ^ {2}}

- это функция, которая максимизируется при получении значения AIC. Некоторое программное обеспечение, однако, опускает постоянный член (n / 2) ln (2π) и поэтому сообщает ошибочные значения для максимума логарифма правдоподобия - и, следовательно, для AIC. Такие ошибки не имеют значения для сравнений на основе AIC, если все модели имеют свои остатки как нормально распределенные: потому что тогда ошибки компенсируются. В общем, однако, постоянный член необходимо включать в функцию логарифмического правдоподобия. Следовательно, перед использованием программного обеспечения для расчета AIC, как правило, рекомендуется выполнить несколько простых тестов программного обеспечения, чтобы убедиться, что значения функции верны.

Сравнение с другими методами выбора модели

Сравнение с BIC

Формула для байесовского информационного критерия (BIC) аналогична формуле для AIC, но с другим штрафом за количество параметров. С AIC штраф составляет 2k, тогда как с BIC штраф равен ln (n) k.

Сравнение AIC / AICc и BIC дано Burnham Anderson (2002, §6.3-6.4) с последующими замечаниями Burnham Anderson (2004). Авторы показывают, что AIC / AICc может быть получен в той же байесовской структуре, что и BIC, просто путем использования различных априорных вероятностей. Однако в байесовском выводе BIC каждая модель-кандидат имеет априорную вероятность 1 / R (где R - количество моделей-кандидатов); такой вывод «не имеет смысла», потому что априор должен быть убывающей функцией k. Кроме того, авторы представляют несколько исследований моделирования, которые предполагают, что AICc имеет практические преимущества / преимущества по сравнению с BIC.

Некоторые исследователи отметили, что AIC и BIC подходят для разных задач. В частности, утверждается, что BIC подходит для выбора «истинной модели» (то есть процесса, который генерировал данные) из набора моделей-кандидатов, тогда как AIC не подходит. В частности, если «истинная модель» находится в наборе кандидатов, то BIC выберет «истинную модель» с вероятностью 1 при n → ∞; напротив, когда отбор осуществляется через AIC, вероятность может быть меньше 1. Сторонники AIC утверждают, что эта проблема незначительна, потому что «истинная модель» практически никогда не входит в набор кандидатов. Действительно, в статистике распространен афоризм «все модели ошибочны »; следовательно, «истинная модель» (то есть реальность) не может быть в наборе кандидатов.

Другое сравнение AIC и BIC дано Vrieze (2012). Vrieze представляет исследование с помощью моделирования, которое позволяет «истинной модели» быть в наборе кандидатов (в отличие от практически всех реальных данных). Исследование моделирования демонстрирует, в частности, что AIC иногда выбирает гораздо лучшую модель, чем BIC, даже если «истинная модель» находится в наборе кандидатов. Причина в том, что при конечном n BIC может иметь существенный риск выбора очень плохой модели из набора кандидатов. Эта причина может возникнуть, даже если n намного больше k. Благодаря AIC риск выбора очень плохой модели сводится к минимуму.

Если «истинная модель» не входит в набор кандидатов, то самое большее, на что мы можем надеяться, - это выбрать модель, которая наилучшим образом приближается к «истинной модели». AIC подходит для поиска наиболее приближенной модели при определенных допущениях. (Эти допущения включают, в частности, то, что аппроксимация выполняется в отношении потери информации.)

Сравнение AIC и BIC в контексте регрессии дается Ян ( 2005). В регрессии AIC является асимптотически оптимальным для выбора модели с наименьшей среднеквадратической ошибкой при предположении, что «истинная модель» не входит в набор кандидатов. BIC не является асимптотически оптимальным в предположении. Ян дополнительно показывает, что скорость, с которой AIC приближается к оптимуму, в определенном смысле является наилучшей из возможных.

Сравнение с перекрестной проверкой

Без исключения перекрестная проверка асимптотически эквивалентна AIC для обычных моделей линейной регрессии. Асимптотическая эквивалентность AIC также сохраняется для моделей со смешанными эффектами.

Сравнение с наименьшими квадратами

Иногда каждая модель-кандидат предполагает, что остатки распределены согласно независимым идентичным нормальным распределениям (с нулевым средним). Это приводит к подгонке модели методом наименьших квадратов.

При аппроксимации методом наименьших квадратов оценка максимального правдоподобия для дисперсии распределений остатков модели составляет σ ^ 2 = RSS / n {\ displaystyle {\ hat {\ sigma} } ^ {2} = \ mathrm {RSS} / n}{\ displaystyle {\ hat {\ sigma}} ^ {2} = \ mathrm {RSS } /n}, где RSS {\ displaystyle \ mathrm {RSS}}{\displaystyle \mathrm {RSS} }- остаточная сумма квадратов : RSS = ∑ я = 1 n (yi - f (xi; θ ^)) 2 {\ displaystyle \ textstyle \ mathrm {RSS} = \ sum _ {i = 1} ^ {n} ( y_ {i} -f (x_ {i}; {\ hat {\ theta}})) ^ {2}}\ textstyle {\ mathrm {RSS}} = \ sum _ {{i = 1}} ^ {n} (y_ {i} -f (x_ {i}; { \ шляпа {\ тета}})) ^ {2} . Тогда максимальное значение функции логарифмического правдоподобия модели равно

- n 2 ln ⁡ (2 π) - n 2 ln ⁡ (σ ^ 2) - 1 2 σ ^ 2 RSS = - n 2 ln ⁡ (RSS / п) + С {\ displaystyle - {\ frac {n} {2}} \ ln (2 \ pi) - {\ frac {n} {2}} \ ln ({\ hat {\ sigma}} ^ { 2}) - {\ frac {1} {2 {\ hat {\ sigma}} ^ {2}}} \ mathrm {RSS} \, = \, - {\ frac {n} {2}} \ ln ( \ mathrm {RSS} / n) + C}{\ displaystyle - {\ frac {n} {2}} \ ln (2 \ pi) - {\ frac {n} {2}} \ ln ({\ hat {\ sigma}} ^ {2}) - { \ frac {1} {2 {\ hat {\ sigma}} ^ {2}}} \ mathrm {RSS} \, = \, - {\ frac {n} {2}} \ ln (\ mathrm {RSS} / n) + C}

- где C - константа, не зависящая от модели и зависящая только от конкретных точек данных, т.е. она не меняется, если данные не изменяются.

Это дает AIC = 2k + n ln (RSS / n) - 2C = 2k + n ln (RSS) - (n ln (n) + 2C). Поскольку значимы только различия в AIC, константу (n ln (n) + 2C) можно игнорировать, что позволяет нам удобно брать AIC = 2k + n ln (RSS) для сравнения моделей. Обратите внимание, что если все модели имеют одинаковый k, то выбор модели с минимальным AIC эквивалентен выбору модели с минимальным RSS - что является обычной целью выбора модели на основе наименьших квадратов.

Сравнение с C Mallows p

C Mallows p эквивалентно AIC в случае (гауссовской) линейной регрессии.

См. Также
Примечания
Ссылки
Дополнительная литература

Последняя правка сделана 2021-06-09 23:01:51
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте