Мультимодальное распределение

редактировать
«Бимодальный» перенаправляется сюда. Для музыкальной концепции см. Бимодальность. Рисунок 1. Простое бимодальное распределение, в данном случае смесь двух нормальных распределений с одинаковой дисперсией, но разными средними значениями. На рисунке показана функция плотности вероятности (pdf), которая представляет собой равновзвешенное среднее значение колоколообразных pdf двух нормальных распределений. Если бы веса не были равны, результирующее распределение все равно могло бы быть бимодальным, но с пиками разной высоты. Рисунок 2. Бимодальное распределение. Рисунок 3. Двумерное мультимодальное распределение.

В статистике, А бимодальное распределение является распределением вероятностей с двумя различными режимами, которые также могут быть отнесены как бимодальное распределение. Они проявляются в виде отдельных пиков (локальных максимумов) в функции плотности вероятности, как показано на рисунках 1 и 2. Категориальные, непрерывные и дискретные данные могут формировать бимодальные распределения.

В более общем смысле, мультимодальное распределение - это распределение вероятностей с двумя или более модами, как показано на рисунке 3.

СОДЕРЖАНИЕ

  • 1 Терминология
  • 2 Классификация Галтунга
  • 3 Примеры
    • 3.1 Распределения вероятностей
    • 3.2 Встречи в природе
    • 3.3 Эконометрика
  • 4 Истоки
    • 4.1 Математический
    • 4.2 Особые распределения
    • 4.3 Биология
  • 5 Общие свойства
    • 5.1 Моменты смесей
  • 6 Смесь двух нормальных распределений
    • 6.1 Тесты на унимодальность
  • 7 Сводная статистика
    • 7.1 D Эшмана
    • 7.2 Ван дер Эйк's A
    • 7.3 Бимодальное разделение
    • 7.4 Коэффициент бимодальности
    • 7.5 Бимодальность амплитуды
    • 7.6 Бимодальное соотношение
    • 7.7 Параметр бимодальности
    • 7.8 Индексы бимодальности
  • 8 Статистические тесты
    • 8.1 Графические методы
    • 8.2 Унимодальное и бимодальное распределение
    • 8.3 Антимодовые тесты
    • 8.4 Общие испытания
    • 8.5 Тест Сильвермана
    • 8.6 Тест Баджье-Аггарвала
    • 8.7 Особые случаи
  • 9 Расчет параметров и аппроксимация кривых
    • 9.1 Программное обеспечение
  • 10 См. Также
  • 11 Источники

Терминология

Когда два режима не равны, больший режим называется основным режимом, а другой - второстепенным. Наименее частое значение между режимами известно как антимод. Разница между основной и второстепенной модами называется амплитудой. Во временных рядах основная мода называется акрофазой, а антимодика - батифазой.

Классификация Галтунга

Галтунг ввел систему классификации (AJUS) для распределений:

  • A: одномодальное распределение - пик посередине
  • J: одномодальный - пик на обоих концах
  • U: бимодальный - пики на обоих концах
  • S: бимодальный или мультимодальный - несколько пиков

С тех пор эта классификация была немного изменена:

  • J: (изменено) - пик справа
  • L: одномодальный - пик слева
  • F: без пика (плоский)

В соответствии с этой классификацией бимодальные распределения классифицируются как тип S или U.

Примеры

Бимодальные распределения встречаются как в математике, так и в естественных науках.

Распределения вероятностей

Важные бимодальные распределения включают распределение арксинусов и бета-распределение. Другие включают U-квадратичное распределение.

Отношение двух нормальных распределений также распределяется бимодально. Позволять

р знак равно а + Икс б + у {\ Displaystyle R = {\ гидроразрыва {а + х} {б + у}}}

где a и b постоянны, а x и y распределены как нормальные переменные со средним значением 0 и стандартным отклонением 1. R имеет известную плотность, которая может быть выражена как конфлюэнтная гипергеометрическая функция.

Распределение обратной части в т распределенной случайной величины является бимодальным, когда число степеней свободы больше, чем один. Аналогично, величина, обратная нормально распределенной переменной, также распределяется бимодально.

Т статистики генерируется из набора данных взяты из распределения Коши является бимодальным.

Встречи в природе

Примеры переменных с бимодальным распределением включают время между извержениями определенных гейзеров, цвет галактик, размер рабочих- ткачей, возраст заболеваемости лимфомой Ходжкина, скорость инактивации препарата изониазид у взрослых в США, абсолютную величину из новых звезд, и циркадных паттернов активности этих сумеречных животных, которые активны как в утренних и вечерних сумерках. В науке о рыболовстве мультимодальные распределения длин отражают разные годовые классы и, таким образом, могут использоваться для оценок возрастного распределения и роста популяции рыб. Осадки обычно распределяются бимодальным образом. При отборе проб из горных галерей, пересекающих вмещающую породу и минерализованные жилы, распределение геохимических переменных будет бимодальным. Бимодальное распределение также наблюдается при анализе трафика, когда пик трафика приходится на час пик с утра, а затем снова в час пик после полудня. Это явление также наблюдается в ежедневном распределении воды, поскольку потребность в воде в виде душа, приготовления пищи и использования туалета обычно достигает пика в утренние и вечерние периоды.

Эконометрика

В эконометрических моделях параметры могут быть распределены бимодально.

Происхождение

Основная статья: Распределение смеси

Математический

Бимодальное распределение чаще всего возникает как смесь двух разных одномодальных распределений (т. Е. Распределений, имеющих только одну моду). Другими словами, бимодально распределенная случайная величина X определяется как с вероятностью или с вероятностью, где Y и Z являются унимодальными случайными величинами и являются коэффициентом смеси. Y {\ displaystyle Y} α {\ displaystyle \ alpha} Z {\ displaystyle Z} ( 1 - α ) , {\ Displaystyle (1- \ альфа),} 0 lt; α lt; 1 {\ Displaystyle 0 lt;\ альфа lt;1}

Смеси с двумя отдельными компонентами не обязательно должны быть бимодальными, а двухкомпонентные смеси с одномодальными плотностями компонентов могут иметь более двух режимов. Непосредственной связи между количеством компонентов в смеси и количеством мод результирующей плотности нет.

Особые распределения

Бимодальные распределения, несмотря на то, что они часто встречаются в наборах данных, изучаются очень редко. Это может быть связано с трудностями при оценке их параметров частотными или байесовскими методами. Среди тех, что были изучены:

  • Бимодальное экспоненциальное распределение.
  • Альфа-косонормальное распределение.
  • Бимодальное кососимметричное нормальное распределение.
  • Смесь распределений Конвея-Максвелла-Пуассона была адаптирована к бимодальным данным подсчета.

Бимодальность также естественно возникает в распределении катастроф на пороге.

Биология

В биологии известно пять факторов, способствующих бимодальному распределению размеров популяций:

  • начальное распределение индивидуальных размеров
  • распределение темпов роста среди особей
  • размер и зависимость скорости роста каждой особи от времени
  • коэффициенты смертности, которые могут по-разному влиять на каждый размерный класс
  • метилирование ДНК в геноме человека и мыши.

Бимодальное распределение размеров рабочих- ткачей-муравьев возникает из-за существования двух различных классов рабочих, а именно основных рабочих и второстепенных рабочих.

Распределение фитнеса эффектов мутаций как для целых геномов и отдельных генов, также часто оказываются бимодальным с большинством мутаций быть либо нейтральными, либо летальными с относительно небольшого числа, имеющего промежуточного эффекта.

Общие свойства

Смесь двух одномодальных распределений с разными средними значениями не обязательно является бимодальным. Комбинированное распределение роста мужчин и женщин иногда используется в качестве примера бимодального распределения, но на самом деле разница в средних ростах мужчин и женщин слишком мала по сравнению со стандартными отклонениями для получения бимодальности.

Бимодальные распределения обладают тем особенным свойством, что, в отличие от унимодальных распределений, среднее значение может быть более надежной оценкой выборки, чем медиана. Это явно тот случай, когда распределение имеет U-образную форму, как распределение арксинуса. Это может быть неверно, если у распределения есть один или несколько длинных хвостов.

Моменты смесей

Позволять

ж ( Икс ) знак равно п грамм 1 ( Икс ) + ( 1 - п ) грамм 2 ( Икс ) {\ Displaystyle е (х) = pg_ {1} (x) + (1-p) g_ {2} (x) \,}

где g i - распределение вероятностей, а p - параметр смешивания.

Моменты f ( x) равны

μ знак равно п μ 1 + ( 1 - п ) μ 2 {\ Displaystyle \ му = п \ му _ {1} + (1-р) \ му _ {2}}
ν 2 знак равно п [ σ 1 2 + δ 1 2 ] + ( 1 - п ) [ σ 2 2 + δ 2 2 ] {\ displaystyle \ nu _ {2} = p [\ sigma _ {1} ^ {2} + \ delta _ {1} ^ {2}] + (1-p) [\ sigma _ {2} ^ {2 } + \ delta _ {2} ^ {2}]}
ν 3 знак равно п [ S 1 σ 1 3 + 3 δ 1 σ 1 2 + δ 1 3 ] + ( 1 - п ) [ S 2 σ 2 3 + 3 δ 2 σ 2 2 + δ 2 3 ] {\ displaystyle \ nu _ {3} = p [S_ {1} \ sigma _ {1} ^ {3} +3 \ delta _ {1} \ sigma _ {1} ^ {2} + \ delta _ {1 } ^ {3}] + (1-p) [S_ {2} \ sigma _ {2} ^ {3} +3 \ delta _ {2} \ sigma _ {2} ^ {2} + \ delta _ { 2} ^ {3}]}
ν 4 знак равно п [ K 1 σ 1 4 + 4 S 1 δ 1 σ 1 3 + 6 δ 1 2 σ 1 2 + δ 1 4 ] + ( 1 - п ) [ K 2 σ 2 4 + 4 S 2 δ 2 σ 2 3 + 6 δ 2 2 σ 2 2 + δ 2 4 ] {\ displaystyle \ nu _ {4} = p [K_ {1} \ sigma _ {1} ^ {4} + 4S_ {1} \ delta _ {1} \ sigma _ {1} ^ {3} +6 \ дельта _ {1} ^ {2} \ sigma _ {1} ^ {2} + \ delta _ {1} ^ {4}] + (1-p) [K_ {2} \ sigma _ {2} ^ { 4} + 4S_ {2} \ delta _ {2} \ sigma _ {2} ^ {3} +6 \ delta _ {2} ^ {2} \ sigma _ {2} ^ {2} + \ delta _ { 2} ^ {4}]}

куда

μ знак равно Икс ж ( Икс ) d Икс {\ displaystyle \ mu = \ int xf (x) \, dx}
δ я знак равно μ я - μ {\ displaystyle \ delta _ {i} = \ mu _ {i} - \ mu}
ν р знак равно ( Икс - μ ) р ж ( Икс ) d Икс {\ displaystyle \ nu _ {r} = \ int (x- \ mu) ^ {r} f (x) \, dx}

и S я и К я являюсь перекосом и эксцесса из I - го распределения.

Смесь двух нормальных распределений

Нередко встречаются ситуации, когда исследователь полагает, что данные получены из смеси двух нормальных распределений. В связи с этим данная смесь достаточно подробно изучена.

Смесь двух нормальных распределений имеет пять параметров для оценки: два средних, две дисперсии и параметр смешивания. Смесь двух нормальных распределений с равными стандартными отклонениями является бимодальной только в том случае, если их средние значения различаются как минимум на двойное стандартное отклонение. Оценка параметров упрощается, если дисперсии можно считать равными ( гомоскедастический случай).

Если средние двух нормальных распределений равны, то комбинированное распределение является унимодальным. Условия унимодальности комбинированного распределения были выведены Эйзенбергером. Необходимые и достаточные условия для того, чтобы смесь нормальных распределений была бимодальной, были идентифицированы Рэем и Линдси.

Смесь двух примерно равных массовых нормальных распределений имеет отрицательный эксцесс, поскольку две моды по обе стороны от центра масс эффективно уменьшают хвосты распределения.

Смесь двух нормальных распределений с сильно неравной массой имеет положительный эксцесс, поскольку меньшее распределение удлиняет хвост более доминирующего нормального распределения.

Смеси других распределений требуют оценки дополнительных параметров.

Тесты на унимодальность

d 1 {\ displaystyle d \ leq 1}

или

| бревно ( 1 - п ) - бревно ( п ) | 2 бревно ( d - d 2 - 1 ) + 2 d d 2 - 1 , {\ displaystyle \ left \ vert \ log (1-p) - \ log (p) \ right \ vert \ geq 2 \ log (d - {\ sqrt {d ^ {2} -1}}) + 2d {\ sqrt {d ^ {2} -1}},}

где p - параметр перемешивания, а

d знак равно | μ 1 - μ 2 | 2 σ 1 σ 2 , {\ displaystyle d = {\ frac {\ left \ vert \ mu _ {1} - \ mu _ {2} \ right \ vert} {2 {\ sqrt {\ sigma _ {1} \ sigma _ {2}} }}},}

и где μ 1 и μ 2 - средние значения двух нормальных распределений, а σ 1 и σ 2 - их стандартные отклонения.

  • Следующий тест для случая p = 1/2 был описан Шиллингом и др. Позволять
р знак равно σ 1 2 σ 2 2 . {\ displaystyle r = {\ frac {\ sigma _ {1} ^ {2}} {\ sigma _ {2} ^ {2}}}.}

Коэффициент разделения ( S) равен

S знак равно - 2 + 3 р + 3 р 2 - 2 р 3 + 2 ( 1 - р + р 2 ) 1.5 р ( 1 + р ) . {\ displaystyle S = {\ frac {\ sqrt {-2 + 3r + 3r ^ {2} -2r ^ {3} +2 (1-r + r ^ {2}) ^ {1.5}}} {{\ sqrt {r}} (1 + {\ sqrt {r}})}}.}

Если дисперсии равны, то S = 1. Плотность смеси унимодальна тогда и только тогда, когда

| μ 1 - μ 2 | lt; S | σ 1 + σ 2 | . {\ displaystyle | \ mu _ {1} - \ mu _ {2} | lt;S | \ sigma _ {1} + \ sigma _ {2} |.}
  • Достаточным условием унимодальности является
| μ 1 - μ 2 | 2 мин ( σ 1 , σ 2 ) . {\ displaystyle | \ mu _ {1} - \ mu _ {2} | \ leq 2 \ min (\ sigma _ {1}, \ sigma _ {2}).}
  • Если два нормальных распределения имеют равные стандартные отклонения, достаточным условием унимодальности является σ , {\ displaystyle \ sigma,}
| μ 1 - μ 2 | 2 σ 1 + | бревно п - пер ( 1 - п ) | 2 . {\ displaystyle | \ mu _ {1} - \ mu _ {2} | \ leq 2 \ sigma {\ sqrt {1 + {\ frac {| \ log p- \ ln (1-p) |} {2} }}}.}

Сводные статистические данные

Бимодальные распределения являются часто используемым примером того, как сводные статистические данные, такие как среднее значение, медиана и стандартное отклонение, могут вводить в заблуждение при использовании в произвольном распределении. Например, в распределении на рисунке 1 среднее значение и медиана будут около нуля, даже если ноль не является типичным значением. Стандартное отклонение также больше, чем отклонение каждого нормального распределения.

Хотя было предложено несколько, в настоящее время не существует общепризнанной сводной статистики (или набора статистических данных) для количественной оценки параметров общего бимодального распределения. Для смеси двух нормальных распределений обычно используются средние и стандартные отклонения вместе с параметром смешивания (весом для комбинации) - всего пять параметров.

D Эшмана

Статистический показатель, который может быть полезен, - это D Эшмана:

D знак равно ( 2 1 2 ) | μ 1 - μ 2 | ( σ 1 2 + σ 2 2 ) {\ displaystyle D = (2 ^ {\ frac {1} {2}}) {\ frac {\ left | \ mu _ {1} - \ mu _ {2} \ right |} {\ sqrt {(\ sigma _ {1} ^ {2} + \ sigma _ {2} ^ {2})}}}}

где μ 1, μ 2 - средние значения, а σ 1 σ 2 - стандартные отклонения.

Для смеси двух нормальных распределений требуется D gt; 2 для четкого разделения распределений.

A ван дер Эйка

Этот показатель представляет собой средневзвешенное значение степени соответствия частотного распределения. А в диапазоне от -1 (совершенной бимодальности ) до +1 (совершенной унимодальности ). Он определяется как

А знак равно U ( 1 - S - 1 K - 1 ) {\ Displaystyle А = U (1 - {\ гидроразрыва {S-1} {K-1}})}

где U - унимодальность распределения, S - количество категорий, имеющих ненулевые частоты, а K - общее количество категорий.

Значение U равно 1, если распределение имеет любую из трех следующих характеристик:

  • все ответы находятся в одной категории
  • ответы равномерно распределяются по всем категориям
  • ответы равномерно распределяются между двумя или более смежными категориями, при этом остальные категории не имеют ответов

В других дистрибутивах данные должны быть разделены на «слои». Внутри слоя ответы либо равны, либо равны нулю. Категории не обязательно должны быть смежными. Вычисляется значение A для каждого слоя ( A i) и определяется средневзвешенное значение для распределения. Веса ( w i) для каждого слоя - это количество ответов в этом слое. В символах

А о v е р а л л знак равно ш я А я {\ displaystyle A_ {total} = \ sum w_ {i} A_ {i}}

Равномерное распределение имеет = 0: когда все ответы попадают в одну категорию А = +1.

Одна теоретическая проблема с этим индексом заключается в том, что он предполагает, что интервалы расположены на одинаковом расстоянии. Это может ограничить его применимость.

Бимодальное разделение

Этот индекс предполагает, что распределение представляет собой смесь двух нормальных распределений со средними ( μ 1 и μ 2) и стандартными отклонениями ( σ 1 и σ 2):

S знак равно μ 1 - μ 2 2 ( σ 1 + σ 2 ) {\ displaystyle S = {\ frac {\ mu _ {1} - \ mu _ {2}} {2 (\ sigma _ {1} + \ sigma _ {2})}}}

Коэффициент бимодальности

Коэффициент бимодальности Сарла b равен

β знак равно γ 2 + 1 κ {\ Displaystyle \ бета = {\ гидроразрыва {\ гамма ^ {2} +1} {\ каппа}}}

где γ - асимметрия, а κ - эксцесс. Эксцесс здесь определяется как стандартизованный четвертый момент вокруг среднего. Значение b находится между 0 и 1. Логика этого коэффициента состоит в том, что бимодальное распределение со светлыми хвостами будет иметь очень низкий эксцесс, асимметричный характер или и то, и другое - все это увеличивает этот коэффициент.

Формула для конечной выборки:

б знак равно грамм 2 + 1 k + 3 ( п - 1 ) 2 ( п - 2 ) ( п - 3 ) {\ displaystyle b = {\ frac {g ^ {2} +1} {k + {\ frac {3 (n-1) ^ {2}} {(n-2) (n-3)}}}}}

где n - количество элементов в образце, g - асимметрия образца, а k - избыточный эксцесс образца.

Значение b для равномерного распределения составляет 5/9. Это также его значение для экспоненциального распределения. Значения больше 5/9 могут указывать на бимодальное или мультимодальное распределение, хотя соответствующие значения также могут быть результатом сильно искаженных одномодальных распределений. Максимальное значение (1.0) достигается только распределением Бернулли с двумя различными значениями или суммой двух различных дельта-функций Дирака (двухдельта-распределение).

Распределение этой статистики неизвестно. Это связано со статистикой, предложенной ранее Пирсоном - разницей между эксцессом и квадратом асимметрии ( см. Ниже).

Амплитуда бимодальности

Это определяется как

А B знак равно А 1 - А а п А 1 {\ displaystyle A_ {B} = {\ frac {A_ {1} -A_ {an}} {A_ {1}}}}

где A 1 - амплитуда меньшего пика, а A an - амплитуда антимоды.

A B всегда lt;1. Большие значения указывают на более отчетливые пики.

Бимодальное соотношение

Это соотношение левого и правого пиков. Математически

р знак равно А р А л {\ displaystyle R = {\ frac {A_ {r}} {A_ {l}}}}

где A l и A r - амплитуды левого и правого пиков соответственно.

Параметр бимодальности

Этот параметр ( B) принадлежит Уилкоку.

B знак равно ( А р А л ) 0,5 п я {\ Displaystyle B = ({\ гидроразрыва {A_ {r}} {A_ {l}}}) ^ {0,5} \ sum P_ {i}}

где A l и A r - амплитуды левого и правого пиков соответственно, а P i - логарифм по основанию 2 доли распределения в i- м интервале. Максимальное значение ΣP равно 1, но значение B может быть больше этого.

Для использования этого индекса берется журнал значений. Затем данные делятся на интервал шириной Φ, значение которого равно log 2. Ширина пиков принимается равной четырехкратной 1 / 4Φ, центрированной по их максимальным значениям.

Индексы бимодальности

Индекс Ванга

Индекс бимодальности, предложенный Ван и др., Предполагает, что распределение является суммой двух нормальных распределений с равными дисперсиями, но разными средними значениями. Это определяется следующим образом:

δ знак равно | μ 1 - μ 2 | σ {\ displaystyle \ delta = {\ frac {| \ mu _ {1} - \ mu _ {2} |} {\ sigma}}}

где μ 1, μ 2 - средние, а σ - стандартное отклонение.

B я знак равно δ п ( 1 - п ) {\ displaystyle BI = \ delta {\ sqrt {p (1-p)}}}

где p - параметр перемешивания.

Индекс Старрока

Другой индекс бимодальности был предложен Стурроком.

Этот индекс ( B) определяется как

B знак равно 1 N [ ( 1 N потому что ( 2 π м γ ) ) 2 + ( 1 N грех ( 2 π м γ ) ) 2 ] {\ displaystyle B = {\ frac {1} {N}} \ left [\ left (\ sum _ {1} ^ {N} \ cos (2 \ pi m \ gamma) \ right) ^ {2} + \ left (\ sum _ {1} ^ {N} \ sin (2 \ pi m \ gamma) \ right) ^ {2} \ right]}

Когда m = 2 и γ равномерно распределен, B распределен экспоненциально.

Эта статистика представляет собой разновидность периодограммы. Он страдает от обычных проблем оценки и спектральной утечки, присущих этой форме статистики.

индекс де Микеле и Аккатино

Другой индекс бимодальности был предложен де Микеле и Аккатино. Их индекс ( B) равен

B знак равно | μ - μ M | {\ Displaystyle B = | \ му - \ му _ {M} |}

где μ - среднее арифметическое образца, а

μ M знак равно я знак равно 1 L м я Икс я я знак равно 1 L м я {\ displaystyle \ mu _ {M} = {\ frac {\ sum _ {i = 1} ^ {L} m_ {i} x_ {i}} {\ sum _ {i = 1} ^ {L} m_ { я}}}}

где m i - количество точек данных в i- м интервале, x i - центр i- го интервала, а L - количество интервалов.

Авторы предложили значение отсечения 0,1 для B, чтобы различать бимодальное ( B gt; 0,1) и одномодальное ( B lt;0,1) распределение. Для этого значения не было предложено никакого статистического обоснования.

Индекс Сэмбрука Смита

Еще один индекс ( B) был предложен Sambrook Smith et al.

B знак равно | ϕ 2 - ϕ 1 | п 2 п 1 {\ displaystyle B = | \ phi _ {2} - \ phi _ {1} | {\ frac {p_ {2}} {p_ {1}}}}

где p 1 и p 2 - пропорции, содержащиеся в первичной (с большей амплитудой) и вторичной (с меньшей амплитудой) моде, а φ 1 и φ 2 - размеры φ первичной и вторичной моды. Размер φ определяется как минус один, умноженный на логарифм размера данных, взятых в базу 2. Это преобразование обычно используется при изучении отложений.

Авторы рекомендовали значение отсечения 1,5, при этом B больше 1,5 для бимодального распределения и меньше 1,5 для унимодального распределения. Никакого статистического обоснования этого значения не было.

Индекс Чаудхури и Агравала

Другой параметр бимодальности был предложен Чаудхури и Агравалом. Этот параметр требует знания дисперсии двух субпопуляций, составляющих бимодальное распределение. Он определяется как

k знак равно п 1 σ 1 2 + п 2 σ 2 2 м σ 2 {\ displaystyle k = {\ frac {n_ {1} \ sigma _ {1} ^ {2} + n_ {2} \ sigma _ {2} ^ {2}} {m \ sigma ^ {2}}}}

где n i - количество точек данных в i- й субпопуляции, σ i 2 - дисперсия i- й субпопуляции, m - общий размер выборки, а σ 2 - дисперсия выборки.

Это средневзвешенное значение дисперсии. Авторы предполагают, что этот параметр можно использовать в качестве цели оптимизации для разделения выборки на две субпопуляции. Никакого статистического обоснования этому предположению дано не было.

Статистические тесты

Доступен ряд тестов, чтобы определить, распределяется ли набор данных бимодальным (или мультимодальным) способом.

Графические методы

При изучении отложений размер частиц часто бывает двухрежимным. Эмпирически было обнаружено, что полезно построить график зависимости частоты от логарифма (размера) частиц. Обычно это дает четкое разделение частиц на бимодальное распределение. В геологических приложениях логарифм обычно берется с основанием 2. Преобразованные логарифмические значения называются единицами фи (Φ). Эта система известна как шкала Крамбейна (или фи).

Альтернативный метод заключается в построении логарифма размера частиц в зависимости от совокупной частоты. Этот график обычно состоит из двух достаточно прямых линий с соединительной линией, соответствующей антимоде.

Статистика

Приблизительные значения для нескольких статистических данных можно получить из графических графиков.

M е а п знак равно ϕ 16 + ϕ 50 + ϕ 84 3 {\ displaystyle {\ mathit {Mean}} = {\ frac {\ phi _ {16} + \ phi _ {50} + \ phi _ {84}} {3}}}
S т d D е v знак равно ϕ 84 - ϕ 16 4 + ϕ 95 - ϕ 5 6,6 {\ displaystyle {\ mathit {StdDev}} = {\ frac {\ phi _ {84} - \ phi _ {16}} {4}} + {\ frac {\ phi _ {95} - \ phi _ {5 }} {6.6}}}
S k е ш знак равно ϕ 84 + ϕ 16 - 2 ϕ 50 2 ( ϕ 84 - ϕ 16 ) + ϕ 95 + ϕ 5 - 2 ϕ 50 2 ( ϕ 95 - ϕ 5 ) {\ displaystyle {\ mathit {Skew}} = {\ frac {\ phi _ {84} + \ phi _ {16} -2 \ phi _ {50}} {2 (\ phi _ {84} - \ phi _ {16})}} + {\ frac {\ phi _ {95} + \ phi _ {5} -2 \ phi _ {50}} {2 (\ phi _ {95} - \ phi _ {5}) }}}
K ты р т знак равно ϕ 95 - ϕ 5 2,44 ( ϕ 75 - ϕ 25 ) {\ displaystyle {\ mathit {Kurt}} = {\ frac {\ phi _ {95} - \ phi _ {5}} {2.44 (\ phi _ {75} - \ phi _ {25})}}}

где Среднее - это среднее значение, StdDev - стандартное отклонение, Skew - асимметрия, Kurt - эксцесс, а φ x - значение переменной φ в x- м проценте распределения.

Унимодальное и бимодальное распределение

Пирсон в 1894 г. был первым, кто разработал процедуру проверки того, можно ли разложить распределение на два нормальных распределения. Этот метод требовал решения полинома девятого порядка. В следующей статье Пирсон сообщил, что для любой асимметрии распределения 2 + 1 lt;эксцесс. Позже Пирсон показал, что

б 2 - б 1 1 {\ displaystyle b_ {2} -b_ {1} \ geq 1}

где b 2 - эксцесс, а b 1 - квадрат асимметрии. Равенство справедливо только для двухточечного распределения Бернулли или суммы двух различных дельта-функций Дирака. Это самые крайние возможные случаи бимодальности. В обоих случаях эксцесс равен 1. Поскольку они оба симметричны, их асимметрия равна 0, а разница равна 1.

Бейкер предложил преобразование для преобразования бимодального распределения в одномодальное.

Было предложено несколько тестов на унимодальность по сравнению с бимодальностью: Холдейн предложил один, основанный на вторых центральных различиях. Позднее Ларкин представил тест, основанный на F-тесте; Бенетт создал его на основе G-теста Фишера. Токеши предложил четвертый тест. Тест, основанный на отношении правдоподобия, был предложен Хольцманном и Фоллмером.

Предложен метод, основанный на оценках и тестах Вальда. Этот метод позволяет различать одномодальные и бимодальные распределения, если известны лежащие в основе распределения.

Антимодовые тесты

Статистические тесты для антирежима известны.

Метод Оцу

Метод Оцу обычно используется в компьютерной графике для определения оптимального разделения двух распределений.

Общие тесты

Для того, чтобы проверить, если распределение является иным, чем унимодальны, несколько дополнительных испытания были разработаны: на тесте пропускной способности, то испытание погружения, тем тестовый избыток масс, МАРЫ тесты, то тестовое существование режима, то тестовое огибающей, то тест - диапазон, а седло тест.

Реализация теста погружного доступна для языка программирования R. Значения p для значений статистики падения находятся в диапазоне от 0 до 1. Значения P менее 0,05 указывают на значительную мультимодальность, а значения p более 0,05, но менее 0,10 предполагают мультимодальность с маргинальной значимостью.

Тест Сильвермана

Сильверман представил метод начальной загрузки для количества режимов. Тест использует фиксированную полосу пропускания, что снижает мощность теста и его интерпретируемость. Недостаточно сглаженные плотности могут иметь чрезмерное количество режимов, количество которых во время начальной загрузки нестабильно.

Тест Баджье-Аггарвала

Баджье и Аггарвал предложили тест, основанный на эксцессе распределения.

Особые случаи

Дополнительные тесты доступны для ряда особых случаев:

Смесь двух нормальных распределений

Исследование плотности смеси данных двух нормальных распределений показало, что разделение на два нормальных распределения было затруднительным, если средние значения не были разделены на 4–6 стандартных отклонений.

В астрономии алгоритм Kernel Mean Matching используется для определения принадлежности набора данных к одному нормальному распределению или к смеси двух нормальных распределений.

Бета-нормальное распределение

Это распределение является бимодальным для определенных значений параметров is. Был описан тест на эти значения.

Кривые оценки параметров и аппроксимации

Предполагая, что распределение известно как бимодальное или было показано, что оно является бимодальным одним или несколькими из приведенных выше тестов, часто бывает желательно подобрать кривую к данным. Это может быть сложно.

Байесовские методы могут быть полезны в сложных случаях.

Программное обеспечение

Два нормальных распределения

Пакет для R доступен для тестирования на бимодальность. Этот пакет предполагает, что данные распределены как сумма двух нормальных распределений. Если это предположение неверно, результаты могут быть ненадежными. Он также включает функции для подбора суммы двух нормальных распределений к данным.

Если предположить, что распределение представляет собой смесь двух нормальных распределений, то для определения параметров можно использовать алгоритм максимизации ожидания. Для этого доступно несколько программ, включая Cluster и пакет R nor1mix.

Другие дистрибутивы

Пакет mixtools, доступный для R, может тестировать и оценивать параметры ряда различных дистрибутивов. Доступен пакет для смеси двух правосторонних гамма-распределений.

Доступно несколько других пакетов для R, подходящих для смешанных моделей; к ним относятся flexmix, mcclust, agrmt и mixdist.

Язык статистического программирования SAS также может соответствовать множеству смешанных распределений с помощью процедуры PROC FREQ.

Смотрите также

использованная литература

Последняя правка сделана 2023-03-20 07:50:20
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте