Закон Тейлора

редактировать
Не путать с законом Тейлора или правилом Тейлора.

Степенной закон Тейлора является эмпирическим законом в экологии, которая относится к дисперсии от числа особей одного вида на единицу площади среды обитания на соответствующее среднее по степенному закону отношения. Он назван в честь Лайонела Роя Тейлора (1924–2007), впервые предложившего его в 1961 году. Первоначальное имя Тейлора для этих отношений было законом среднего.

СОДЕРЖАНИЕ
  • 1 Определение
  • 2 История
    • 2.1 Биология
    • 2.2 Физика
    • 2.3 Математика
    • 2.4 Название закона
  • 3 Гипотеза Твиди
  • 4 Математическая формулировка
    • 4.1 Масштабная инвариантность
    • 4.2 Расширения и уточнения
    • 4.3 Небольшие образцы
    • 4.4 Интерпретация
    • 4.5 Примечания
    • 4.6 Расширение кластерной выборки двоичных данных
  • 5 приложений
    • 5.1 Рекомендации по использованию
    • 5.2 Случайно распределенные популяции
    • 5.3 Оценка параметров дисперсии
    • 5.4 Семейство дистрибутивов Каца
    • 5.5 Время до исчезновения
    • 5.6 Минимальный размер популяции, необходимый для предотвращения исчезновения
    • 5.7 Оценщики размера выборки
    • 5.8 Последовательный отбор проб
  • 6 Связанные анализы
    • 6.1 Модель Барлетта-Иаво
    • 6.2 Модель Нахмана
    • 6.3 Уравнение Коно – Сугино
    • 6.4 Уравнение Хьюза – Мэддена
    • 6.5 Модель отрицательного биномиального распределения
    • 6.6 Испытания на общий параметр дисперсии
    • 6.7 Коэффициент Шарлье
    • 6.8 Индекс дисперсии Коула
    • 6.9 индексы Ллойда
    • 6.10 Регрессионный тест на пятнистость
    • 6.11 Индекс дисперсии Мориситы
    • 6.12 Стандартизированный индекс Мориситы
    • 6.13 Индекс пространственной агрегации Саутвуда
    • 6.14 Индекс дисперсии Фишера
    • 6.15 Индекс размера кластера
    • 6.16 Индекс Грина
    • 6.17 Бинарный индекс рассеивания
    • Критическая плотность скопления населения 6,18 млн лет.
  • 7 Связанная статистика
    • 7.1 статистика де Оливерии
    • 7.2 Тест Клэпхема
  • 8 См. Также
  • 9 ссылки
Определение

Этот закон был первоначально определен для экологических систем, в частности, для оценки пространственной кластеризации организмов. Для подсчета населения со средним значением и дисперсией закон Тейлора записывается Y {\ displaystyle Y} μ {\ displaystyle \ mu} вар ( Y ) {\ displaystyle \ operatorname {var} (Y)}

вар ( Y ) знак равно а μ б , {\ displaystyle \ operatorname {var} (Y) = a \ mu ^ {b},}

где a и b - положительные постоянные. Тейлор предложил эту взаимосвязь в 1961 году, предложив, чтобы показатель степени b считался видоспецифическим индексом агрегации. Впоследствии этот степенной закон был подтвержден для многих сотен видов.

Закон Тейлора также применялся для оценки зависимых от времени изменений в распределении населения. Связанное отклонение от среднего степенного закона также было продемонстрировано в нескольких неэкологических системах:

История

Впервые диаграмма двойного логарифма использовалась Рейнольдсом в 1879 году для тепловой аэродинамики. Парето использовал аналогичный график для изучения доли населения и их доходов.

Термин дисперсия был введен Фишером в 1918 году.

Биология

Фишер в 1921 г. предложил уравнение

s 2 знак равно а м + б м 2 {\ displaystyle s ^ {2} = am + bm ^ {2}}

Нейман изучил взаимосвязь между выборочным средним и дисперсией в 1926 году. Барлетт предложил взаимосвязь между выборочным средним и дисперсией в 1936 году.

s 2 знак равно а м + б м 2 {\ displaystyle s ^ {2} = am + bm ^ {2}}

Смит в 1938 году, изучая урожайность сельскохозяйственных культур, предложил связь, аналогичную соотношению Тейлора. Эти отношения были

бревно V Икс знак равно бревно V 1 + б бревно Икс {\ displaystyle \ log V_ {x} = \ log V_ {1} + b \ log x \,}

где V x - дисперсия урожайности для участков в x единиц, V 1 - дисперсия урожайности на единицу площади, а x - размер участков. Наклон ( b) - это показатель неоднородности. Значение b в этом соотношении находится между 0 и 1. Если доходность сильно коррелирована, b стремится к 0; когда они не коррелированы, b стремится к 1.

Блисс в 1941 году, Фрэкер и Бришл в 1941 году и Хейман и Лоу в 1961 году также описали то, что теперь известно как закон Тейлора, но в контексте данных по отдельным видам.

Л. Р. Тейлор (1924–2007) был английским энтомологом, работавшим в Обследовании насекомых в Ротамстеде по борьбе с вредителями. Его 1961 документ использовали данные из 24 статей, опубликованных в период между 1936 и 1960 годах эти документы рассматриваются различные биологические настройки: вирусные поражения, макро-зоопланктон, черви и symphylids в почве, насекомых в почве, на растениях и в воздухе, клещей на листьях, клещи на овцах и рыбе в море. В этих статьях значение b лежало между 1 и 3. Тейлор предложил степенной закон как общую характеристику пространственного распределения этих видов. Он также предложил механистическую гипотезу для объяснения этого закона. Среди процитированных документов были бумаги Блисс, Йейтса и Финни.

Первоначальные попытки объяснить пространственное распределение животных были основаны на таких подходах, как стохастические модели популяции Бартлетта и отрицательное биномиальное распределение, которое могло возникнуть в результате процессов рождения и смерти. Новое объяснение Тейлора было основано на предположении о сбалансированном миграционном и коллективном поведении животных. Его гипотеза изначально была качественной, но по мере ее развития стала полуколичественной и была подтверждена симуляциями. Предполагая, что поведение животных было основным механизмом кластеризации организмов, Тейлор, похоже, проигнорировал свое собственное сообщение о кластеризации, наблюдаемом с бляшками вируса некроза табака.

После первых публикаций Тейлора было выдвинуто несколько альтернативных гипотез степенного закона. Хански предложил модель случайного блуждания, модулированную предполагаемым мультипликативным эффектом воспроизводства. Модель Хански предсказывала, что экспонента степенного закона будет ограничена близко к значению 2, что казалось несовместимым со многими сообщаемыми значениями.

Андерсон и др. Сформулировали простую стохастическую модель рождения, смерти, иммиграции и эмиграции, которая дает квадратичную функцию дисперсии. В ответ на эту модель Тейлор утверждал, что такой марковский процесс предсказал бы, что показатель степени будет значительно варьироваться между повторными наблюдениями, и что такая изменчивость не наблюдалась.

Тем не менее, примерно в это время были высказаны опасения относительно статистической изменчивости при измерениях показателя степени и возможности того, что наблюдения степенного закона могут отражать больше математических артефактов, чем механистический процесс. Тейлор и др. Ответили дополнительной публикацией обширных наблюдений, которые, как он утверждал, опровергли опасения Даунинга.

Кроме того, Тораринссон опубликовал подробную критику модели поведения животных, отметив, что Тейлор несколько раз модифицировал свою модель в ответ на высказанные опасения, и что некоторые из этих модификаций несовместимы с более ранними версиями. Тораринссон также утверждал, что Тейлор смешал количество животных с плотностью и что Тейлор неправильно интерпретировал моделирование, которое было построено для демонстрации его моделей в качестве подтверждения.

Кемп рассмотрел ряд дискретных стохастических моделей, основанных на отрицательном биномиальном распределении, распределении Неймана типа A и Пойя – Эппли, которые при соответствующей настройке параметров могут давать отклонение от среднего степенного закона. Кемп, однако, не объяснил параметризации своих моделей механистическими терминами. Затем последовали и другие относительно абстрактные модели закона Тейлора.

В отношении закона Тейлора был поднят ряд дополнительных статистических проблем, связанных с трудностями, связанными с реальными данными при различении закона Тейлора и другими функциями дисперсии к среднему, а также неточностью стандартных методов регрессии.

Отчеты также начали накапливаться там, где закон Тейлора применялся к данным временных рядов. Перри показал, как моделирование, основанное на теории хаоса, может привести к закону Тейлора, а Килпатрик и Айвз предоставили имитационное моделирование, которое показало, как взаимодействия между различными видами могут привести к закону Тейлора.

Появились и другие отчеты, в которых закон Тейлора применялся к пространственному распределению растений и бактериальных популяций. Как и в случае упомянутых ранее наблюдений вируса некроза табака, эти наблюдения не соответствовали модели поведения животных Тейлора.

Ранее упоминалось, что дисперсия для обозначения степенной функции применялась к неэкологическим системам в рамках закона Тейлора. Чтобы дать более общее объяснение диапазона проявлений степенного закона, была предложена гипотеза, основанная на распределениях Твиди, семействе вероятностных моделей, которые выражают внутреннюю зависимость степенной функции между дисперсией и средним значением. Подробности относительно этой гипотезы будут предоставлены в следующем разделе.

Другое альтернативное объяснение закона Тейлора было предложено Коэном и др. На основе модели роста Левонтина- Коэна. Эта модель была успешно использована для описания пространственной и временной изменчивости лесных популяций.

Другая статья Коэна и Сюй о том, что случайная выборка в блоках, где подчиненное распределение искажено с конечными первыми четырьмя моментами, приводит к закону Тейлора. Также были выведены приближенные формулы для параметров и их дисперсий. Эти оценки были снова проверены данными из леса Блэк-Рок и оказались в разумном согласии.

После первых публикаций Тейлора было выдвинуто несколько альтернативных гипотез степенного закона. Хански предложил модель случайного блуждания, модулированную предполагаемым мультипликативным эффектом воспроизводства. Модель Хански предсказывала, что экспонента степенного закона будет ограничена близко к значению 2, что казалось несовместимым со многими сообщаемыми значениями. Андерсон и др. Сформулировали простую стохастическую модель рождения, смерти, иммиграции и эмиграции, которая дает квадратичную функцию дисперсии. Модель роста Левонтина- Коэна. другое предлагаемое объяснение. Возникла вероятность того, что наблюдения степенного закона могут отражать больше математических артефактов, чем механистический процесс. Однако вариации в показателях закона Тейлора применительно к экологическим популяциям нельзя объяснить или предсказать, основываясь только на статистических основаниях. Исследования показали, что вариации в пределах показателей закона Тейлора для сообщества рыб Северного моря варьируются в зависимости от внешней среды, предполагая, что экологические процессы, по крайней мере, частично определяют форму закона Тейлора.

Физика

В физической литературе закон Тейлора называется масштабированием флуктуаций. Эйслер и др., В дальнейшей попытке найти общее объяснение масштабирования флуктуаций, предложили процесс, который они назвали ударной неоднородностью, в котором частые события связаны с более сильными ударами. Однако в приложении B к статье Эйслера авторы отметили, что уравнения для ударной неоднородности дают те же математические соотношения, что и для распределений Твиди.

Другая группа физиков, Фрончак и Фрончак, вывели степенной закон Тейлора для масштабирования флуктуаций из принципов равновесной и неравновесной статистической физики. Их вывод был основан на предположениях о физических величинах, таких как свободная энергия и внешнее поле, которые вызывают кластеризацию биологических организмов. Однако прямая экспериментальная демонстрация этих постулируемых физических величин по отношению к агрегации животных или растений еще не была достигнута. Вскоре после этого был представлен анализ модели Фрончака и Фрончака, который показал, что их уравнения напрямую приводят к распределениям Твиди, и это открытие предполагает, что Фрончак и Фрончак, возможно, предоставили максимальное значение энтропии для этих распределений.

Математика

Было показано, что закон Тейлора справедлив для простых чисел, не превышающих заданное действительное число. Было показано, что этот результат справедлив для первых 11 миллионов простых чисел. Если гипотеза Харди – Литтлвуда о простых числах-близнецах верна, то этот закон справедлив и для простых чисел-близнецов.

Название закона

Сам закон назван в честь эколога Лайонела Роя Тейлора (1924–2007). Название закон Тейлора было придумано Саутвудом в 1966 году. Первоначальным названием Тейлора для этих отношений был закон среднего

Гипотеза Твиди

Примерно в то время, когда Тейлор обосновывал свои экологические наблюдения, MCK Tweedie, британский статистик и медицинский физик, исследовал семейство вероятностных моделей, которые теперь известны как распределения Твиди. Как упоминалось выше, все эти распределения характеризуются дисперсией, означающей степенной закон, математически идентичный закону Тейлора.

Распределение Твиди, наиболее применимое к экологическим наблюдениям, - это составное гамма-распределение Пуассона, которое представляет собой сумму N независимых и одинаково распределенных случайных величин с гамма-распределением, где N - случайная величина, распределенная в соответствии с распределением Пуассона. В аддитивной форме его кумулянтная производящая функция (CGF):

K б * ( s ; θ , λ ) знак равно λ κ б ( θ ) [ ( 1 + s θ ) α - 1 ] , {\ displaystyle K_ {b} ^ {*} (s; \ theta, \ lambda) = \ lambda \ kappa _ {b} (\ theta) \ left [\ left (1+ {s \ over \ theta} \ right) ^ {\ alpha} -1 \ right],}

где κ b ( θ) - кумулянтная функция,

κ б ( θ ) знак равно α - 1 α ( θ α - 1 ) α , {\ displaystyle \ kappa _ {b} (\ theta) = {\ frac {\ alpha -1} {\ alpha}} \ left ({\ frac {\ theta} {\ alpha -1}} \ right) ^ { \ alpha},}

показатель твиди

α знак равно б - 2 б - 1 , {\ displaystyle \ alpha = {\ frac {b-2} {b-1}},}

s - переменная производящей функции, а θ и λ - канонический и индексный параметры соответственно.

Эти последние два параметра аналогичны параметрам масштаба и формы, используемым в теории вероятностей. В кумулянтах этого распределения могут быть определены путем последовательных дифференциаций CGF, а затем замещающих S = 0 в полученные уравнения. Первый и второй кумулянты представляют собой среднее значение и дисперсию, соответственно, и, таким образом, составная функция Пуассона-гамма CGF дает закон Тейлора с константой пропорциональности

а знак равно λ 1 / ( α - 1 ) . {\ displaystyle a = \ lambda ^ {1 / (\ alpha -1)}.}

Сложная функция кумулятивного распределения Пуассона-гамма была проверена на ограниченных экологических данных путем сравнения теоретической функции распределения с эмпирической функцией распределения. Ряд других систем, демонстрирующих дисперсию для обозначения степенных законов, связанных с законом Тейлора, были аналогичным образом протестированы для составного гамма-распределения Пуассона.

Основное обоснование гипотезы Твиди лежит в свойствах математической сходимости распределений Твиди. Теорема Твиди о сходимости требует, чтобы распределения Твиди действовали как фокус сходимости для широкого круга статистических процессов. Как следствие этой теоремы сходимости, процессы, основанные на сумме нескольких независимых небольших скачков, будут иметь тенденцию выражать закон Тейлора и подчиняться распределению Твиди. Предельная теорема для независимых и одинаково распределенных переменных, как и теорема Твиди о сходимости, может тогда рассматриваться как фундаментальная по сравнению со специальными моделями популяции или моделями, предложенными на основе моделирования или аппроксимации.

Эта гипотеза остается спорной; Экологи предпочитают более традиционные подходы к популяционной динамике, несмотря на то, что составное распределение Пуассона Твиди может быть непосредственно применено к механизмам популяционной динамики.

Одна из трудностей с гипотезой Твиди состоит в том, что значение b не находится в диапазоне от 0 до 1. Значения b lt;1 редки, но о них сообщалось.

Математическая формулировка

В символах

s я 2 знак равно а м я б , {\ displaystyle s_ {i} ^ {2} = am_ {i} ^ {b},}

где s i 2 - дисперсия плотности i- го образца, m i - средняя плотность i- го образца, а a и b - константы.

В логарифмической форме

бревно s я 2 знак равно бревно а + б бревно м я {\ displaystyle \ log s_ {i} ^ {2} = \ log a + b \ log m_ {i}}

Масштабная инвариантность

Закон Тейлора масштабно инвариантен. Если единица измерения изменяется на постоянный коэффициент c, показатель степени ( b) остается неизменным.

Чтобы увидеть это, пусть y = cx. потом

μ 1 знак равно E ( Икс ) {\ displaystyle \ mu _ {1} = \ operatorname {E} (x)}
μ 2 знак равно E ( у ) знак равно E ( c Икс ) знак равно c E ( Икс ) знак равно c μ 1 {\ displaystyle \ mu _ {2} = \ operatorname {E} (y) = \ operatorname {E} (cx) = c \ operatorname {E} (x) = c \ mu _ {1}}
σ 1 2 знак равно E ( ( Икс - μ 1 ) 2 ) {\ displaystyle \ sigma _ {1} ^ {2} = \ operatorname {E} ((x- \ mu _ {1}) ^ {2})}
σ 2 2 знак равно E ( ( у - μ 2 ) 2 ) знак равно E ( ( c Икс - c μ 1 ) 2 ) знак равно c 2 E ( ( Икс - μ 1 ) 2 ) знак равно c 2 σ 1 2 {\ displaystyle \ sigma _ {2} ^ {2} = \ operatorname {E} ((y- \ mu _ {2}) ^ {2}) = \ operatorname {E} ((cx-c \ mu _ { 1}) ^ {2}) = c ^ {2} \ operatorname {E} ((x- \ mu _ {1}) ^ {2}) = c ^ {2} \ sigma _ {1} ^ {2 }}

Закон Тейлора, выраженный в исходной переменной ( x), имеет вид

σ 1 2 знак равно а μ 1 б {\ Displaystyle \ sigma _ {1} ^ {2} = а \ му _ {1} ^ {b}}

а в измененной переменной ( y) это

σ 2 2 знак равно а μ 2 б знак равно c 2 σ 1 2 знак равно c 2 а μ 1 б {\ displaystyle \ sigma _ {2} ^ {2} = a \ mu _ {2} ^ {b} = c ^ {2} \ sigma _ {1} ^ {2} = c ^ {2} a \ mu _ {1} ^ {b}}

Было показано, что закон Тейлора - это единственное соотношение между средним и дисперсией, которое не зависит от масштаба.

Расширения и уточнения

Уточнение в оценке наклона b было предложено Рейнером.

б знак равно ж - φ + ( ж - φ ) 2 - 4 р 2 ж φ 2 р ж {\ displaystyle b = {\ frac {f- \ varphi + {\ sqrt {(f- \ varphi) ^ {2} -4r ^ {2} f \ varphi}}} {2r {\ sqrt {f}}} }}

где это Пирсон коэффициент корреляции момент между и, представляет собой отношение дисперсию образца в и и этом отношении ошибок в и. р {\ displaystyle r} бревно ( s 2 ) {\ Displaystyle \ журнал (s ^ {2})} бревно м {\ displaystyle \ log m} ж {\ displaystyle f} бревно ( s 2 ) {\ Displaystyle \ журнал (s ^ {2})} бревно м {\ displaystyle \ log m} φ {\ displaystyle \ varphi} бревно ( s 2 ) {\ Displaystyle \ журнал (s ^ {2})} бревно м {\ displaystyle \ log m}

Обычная регрессия наименьших квадратов предполагает, что  φ  = ∞. Это имеет тенденцию к занижению значения b, поскольку оценки обоих и подвержены ошибкам. бревно ( s 2 ) {\ Displaystyle \ журнал (s ^ {2})} бревно м {\ displaystyle \ log m}

Феррис и др. Предложили расширение закона Тейлора, когда берутся несколько проб.

s 2 знак равно c п d м б , {\ displaystyle s ^ {2} = cn ^ {d} m ^ {b},}

где s 2 и m - дисперсия и среднее значение соответственно, b, c и d - константы, а n - количество взятых образцов. На сегодняшний день это предлагаемое расширение не было проверено на предмет применимости исходной версии закона Тейлора.

Небольшие образцы

Расширение этого закона для малых выборок было предложено Гански. Для небольших выборок вариация Пуассона ( P) - вариация, которую можно приписать вариации выборки - может быть значительной. Пусть S - общая дисперсия, а V - биологическая (реальная) дисперсия. потом

S знак равно V + п {\ Displaystyle S = V + P}

Предполагая справедливость закона Тейлора, имеем

V знак равно а м б {\ displaystyle V = am ^ {b}}

Поскольку в распределении Пуассона среднее значение равно дисперсии, мы имеем

п знак равно м {\ Displaystyle P = m}

Это дает нам

S знак равно V + п знак равно а м б + м {\ Displaystyle S = V + P = am ^ {b} + m}

Это очень похоже на первоначальное предложение Барлетта.

Интерпретация

Значения наклона ( b) значительноgt; 1 указывают на скопление организмов.

В данных с распределением Пуассона b = 1. Если совокупность следует логнормальному или гамма-распределению, то  b  = 2.

Для популяций, которые испытывают постоянную изменчивость окружающей среды на душу населения, регрессия log (дисперсия) по сравнению с log (средняя численность) должна иметь линию с b  = 2.

В большинстве изученных популяций b  lt;2 (обычно 1,5–1,6), но сообщалось о значениях 2. Иногда сообщалось о случаях с b gt; 2. Значения b ниже 1 встречаются редко, но также были зарегистрированы ( b = 0,93).

Было высказано предположение, что показатель степени закона ( b) пропорционален асимметрии основного распределения. Это предложение подверглось критике: вроде бы указывается дополнительная работа.

Примечания

Происхождение наклона ( b) в этой регрессии остается неясным. Для его объяснения были предложены две гипотезы. Один предполагает, что b возникает из-за поведения вида и является константой для этого вида. Альтернатива предполагает, что это зависит от выборки населения. Несмотря на большое количество исследований, проведенных по этому закону (более 1000), этот вопрос остается открытым.

Известно, что как a, так и b могут изменяться из-за разброса по возрасту, смертности и размера единицы выборки.

Этот закон может плохо подходить, если значения небольшие. По этой причине Хански предложил расширение закона Тейлора, которое улучшает соответствие закона Тейлора при низких плотностях.

Расширение кластерной выборки двоичных данных

Была предложена форма закона Тейлора, применимая к двоичным данным в кластерах (уравнение, квадраты). В биномиальном распределении теоретическая дисперсия составляет

вар мусорное ведро знак равно п п ( 1 - п ) , {\ displaystyle {\ text {var}} _ {\ text {bin}} = np (1-p),}

где (var bin) - биномиальная дисперсия, n - размер выборки на кластер, а p - доля людей с признаком (например, болезнью), оценка вероятности наличия этого признака у человека.

Одна из трудностей с двоичными данными заключается в том, что среднее значение и дисперсия, как правило, имеют определенную взаимосвязь: по мере того, как средняя доля инфицированных людей увеличивается выше 0,5, дисперсия уменьшается.

Теперь известно, что наблюдаемая дисперсия (var obs) изменяется как степенная функция от (var bin).

Хьюз и Мэдден отметили, что если распределение является пуассоновским, среднее значение и дисперсия равны. Поскольку это явно не так во многих наблюдаемых пропорциональных выборках, вместо этого они предположили биномиальное распределение. Они заменили среднее значение в законе Тейлора биномиальной дисперсией, а затем сравнили эту теоретическую дисперсию с наблюдаемой дисперсией. Для биномиальных данных они показали, что var obs = var bin с избыточной дисперсией, var obs  gt; var bin.

В символах модификация Хьюзом и Мэдденом закона Тиалора была

вар Наблюдения знак равно а ( вар мусорное ведро ) б . {\ displaystyle {\ text {var}} _ {\ text {obs}} = a ({\ text {var}} _ {\ text {bin}}) ^ {b}.}

В логарифмической форме это соотношение имеет вид

бревно ( вар Наблюдения ) знак равно бревно а + б бревно ( вар мусорное ведро ) . {\ displaystyle \ log ({\ text {var}} _ {\ text {obs}}) = \ log a + b \ log ({\ text {var}} _ {\ text {bin}}).}

Эта последняя версия известна как двоичный степенной закон.

Ключевым шагом в выводе бинарного степенного закона Хьюзом и Мэдденом было наблюдение Патил и Стителер о том, что отношение дисперсии к среднему, используемое для оценки чрезмерной дисперсии неограниченных количеств в одной выборке, на самом деле является отношением двух дисперсии: наблюдаемая дисперсия и теоретическая дисперсия для случайного распределения. Для неограниченных подсчетов случайным распределением является пуассоновское распределение. Таким образом, степенной закон Тейлора для набора выборок можно рассматривать как связь между наблюдаемой дисперсией и дисперсией Пуассона.

В более широком смысле Мэдден и Хьюз рассматривали степенной закон как взаимосвязь между двумя дисперсиями, наблюдаемой дисперсией и теоретической дисперсией для случайного распределения. Для двоичных данных случайное распределение является биномиальным (а не пуассоновским). Таким образом, степенной закон Тейлора и двоичный степенной закон являются двумя частными случаями общих степенных соотношений для неоднородности.

Когда и a, и b равны 1, предлагается мелкомасштабный случайный пространственный образец, который лучше всего описывается биномиальным распределением. Когда b = 1 и a gt; 1, наблюдается чрезмерная дисперсия (мелкомасштабная агрегация). Когда b gt; 1, степень агрегации зависит от p. Туречек и др. Показали, что двоичный степенной закон описывает многочисленные наборы данных в патологии растений. Как правило, b больше 1 и меньше 2.

Соответствие этого закона было проверено моделированием. Эти результаты предполагают, что вместо одной линии регрессии для набора данных сегментная регрессия может быть лучшей моделью для действительно случайных распределений. Однако эта сегментация происходит только для очень коротких расстояний распространения и больших квадратов. Обрыв линии происходит только при p, очень близком к 0.

Было предложено расширение этого закона. Первоначальная форма этого закона симметрична, но может быть расширена до асимметричной формы. Используя моделирование, симметричная форма соответствует данным, когда имеется положительная корреляция статуса болезни соседей. Если существует отрицательная корреляция между вероятностью заражения соседей, асимметричная версия лучше подходит для данных.

Приложения

Из-за повсеместного распространения закона Тейлора в биологии он нашел множество применений, некоторые из которых перечислены здесь.

Рекомендации по использованию

Это было рекомендовано на основе исследований моделирования в приложениях, проверяющих законность Тейлора на выборке данных, которая:

(1) общее количество изученных организмов должно бытьgt; 15 (2) минимальное количество изученных групп организмов должно бытьgt; 5 (3) плотность организмов должна варьироваться по крайней мере на 2 порядка в пределах выборки

Случайно распределенные популяции

Принято считать (по крайней мере, изначально), что популяция случайным образом распределена в окружающей среде. Если популяция распределена случайным образом, то среднее ( m) и дисперсия ( s 2) популяции равны, а доля выборок, содержащих хотя бы одну особь ( p), равна

п знак равно 1 - е - м {\ displaystyle p = 1-e ^ {- m}}

Когда вид с комковидной структурой сравнивается с видом, который распределен случайным образом с одинаковой общей плотностью, p будет меньше для вида, имеющего сгущенную структуру распределения. И наоборот, при сравнении равномерно и случайно распределенных видов, но при одинаковой общей плотности, p будет больше для случайно распределенной популяции. Это можно проверить графически, построив график зависимости p от m.

Уилсон и Рум разработали биномиальную модель, включающую закон Тейлора. Основные отношения

п знак равно 1 - е - м бревно ( s 2 / м ) ( s 2 / м - 1 ) - 1 {\ displaystyle p = 1-e ^ {- m \ log (s ^ {2} / m) (s ^ {2} / m-1) ^ {- 1}}}

где бревно ведется в основание e.

Включая закон Тейлора, эти отношения становятся

п знак равно 1 - е - м бревно ( а м б - 1 ) ( а м б - 1 - 1 ) - 1 {\ displaystyle p = 1-e ^ {- m \ log (am ^ {b-1}) (am ^ {b-1} -1) ^ {- 1}}}

Оценщик параметра дисперсии

Общий параметр дисперсии ( k) отрицательного биномиального распределения равен

k знак равно м 2 s 2 - м {\ Displaystyle к = {\ гидроразрыва {м ^ {2}} {s ^ {2} -m}}}

где - выборочное среднее, а - дисперсия. Если 1 / k gt; 0, совокупность считается агрегированной; 1 / k = 0 ( s 2 = m) популяция считается распределенной случайным образом (Пуассон), и если 1 / k lt;0, совокупность считается равномерно распределенной. Никаких комментариев по поводу распределения делать нельзя, если k = 0. м {\ displaystyle m} s 2 {\ displaystyle s ^ {2}}

Уилсон и Рум, предположив, что закон Тейлора применим к населению, дали альтернативную оценку для k:

k знак равно м а м б - 1 - 1 {\ displaystyle k = {\ frac {m} {am ^ {b-1} -1}}}

где a и b - константы из закона Тейлора.

Джонс, используя оценку k, приведенную выше, вместе с соотношением, разработанным Уилсоном и Румом для вероятности обнаружения выборки, содержащей хотя бы одного человека.

п знак равно 1 - е - м бревно ( а м б - 1 ) ( а м б - 1 - 1 ) - 1 {\ displaystyle p = 1-e ^ {- m \ log (am ^ {b-1}) (am ^ {b-1} -1) ^ {- 1}}}

получили оценку вероятности выборки, содержащей x человек на единицу выборки. Формула Джонса

п ( Икс ) знак равно п ( Икс - 1 ) k + Икс - 1 Икс м k - 1 м k - 1 - 1 {\ Displaystyle P (x) = P (x-1) {\ frac {k + x-1} {x}} {\ frac {mk ^ {- 1}} {mk ^ {- 1} -1}} }

где P ( x) - вероятность найти x особей на единицу выборки, k оценивается по уравнению Уилона и Рома, а m - выборочное среднее. Вероятность найти ноль особей P (0) оценивается с помощью отрицательного биномиального распределения

п ( 0 ) знак равно ( 1 + м k ) - k {\ displaystyle P (0) = \ left (1 + {\ frac {m} {k}} \ right) ^ {- k}}

Джонс также дает доверительные интервалы для этих вероятностей.

C я знак равно т ( п ( Икс ) ( 1 - п ( Икс ) ) N ) 1 / 2 {\ Displaystyle \ mathrm {CI} = t \ left ({\ frac {P (x) (1-P (x))} {N}} \ right) ^ {1/2}}

где CI - доверительный интервал, t - критическое значение, взятое из распределения t, а N - общий размер выборки.

Семейство распределений Каца

Кац предложил семейство распределений (семейство Каца ) с двумя параметрами ( w 1, w 2). Это семейство распределений включает в себя распределения Бернулли, геометрические, Паскаля и Пуассона в качестве частных случаев. Среднее значение и дисперсия распределения Каца равны

м знак равно ш 1 1 - ш 2 {\ displaystyle m = {\ frac {w_ {1}} {1-w_ {2}}}}
s 2 знак равно ш 1 ( 1 - ш 2 ) 2 {\ displaystyle s ^ {2} = {\ frac {w_ {1}} {(1-w_ {2}) ^ {2}}}}

где m - среднее значение, а s 2 - дисперсия выборки. Параметры можно оценить методом моментов, из которых имеем

ш 1 1 - ш 2 знак равно м {\ displaystyle {\ frac {w_ {1}} {1-w_ {2}}} = m}
ш 2 1 - ш 2 знак равно s 2 - м м {\ displaystyle {\ frac {w_ {2}} {1-w_ {2}}} = {\ frac {s ^ {2} -m} {m}}}

Для распределения Пуассона w 2 = 0 и w 1 = λ параметр распределения Пуассона. Это семейство дистрибутивов также иногда называют семейством дистрибутивов Panjer.

Семейство Кац связано с семейством распределений Sundt-Jewel:

п п знак равно ( а + б п ) п п - 1 {\ displaystyle p_ {n} = \ left (a + {\ frac {b} {n}} \ right) p_ {n-1}}

Единственными членами семейства Sundt-Jewel являются распределения Пуассона, биномиальные, отрицательные биномиальные (Паскаль), расширенные усеченные отрицательные биномиальные и логарифмические ряды.

Если популяция подчиняется распределению Каца, то коэффициенты закона Тейлора равны

а знак равно - бревно ( 1 - ш 2 ) {\ displaystyle a = - \ log (1-w_ {2})}
б знак равно 1 {\ displaystyle b = 1}

Кац также представил статистический тест.

J п знак равно п 2 s 2 - м м {\ displaystyle J_ {n} = {\ sqrt {\ frac {n} {2}}} {\ frac {s ^ {2} -m} {m}}}

где J n - статистика теста, s 2 - дисперсия выборки, m - среднее значение выборки, а n - размер выборки. J n асимптотически нормально распределено с нулевым средним и единичной дисперсией. Если образец имеет распределение Пуассона J n = 0; значения J n lt;0 иgt; 0 указывают на недостаточную и большую дисперсию соответственно. Чрезмерная дисперсия часто вызвана скрытой неоднородностью - наличием нескольких субпопуляций в популяции, из которой отбирается выборка.

Эта статистика связана со статистикой Неймана – Скотта.

N S знак равно п - 1 2 ( s 2 м - 1 ) {\ displaystyle NS = {\ sqrt {\ frac {n-1} {2}}} \ left ({\ frac {s ^ {2}} {m}} - 1 \ right)}

который, как известно, является асимптотически нормальным, и условной статистикой хи-квадрат (тест дисперсии Пуассона)

Т знак равно ( п - 1 ) s 2 м {\ Displaystyle Т = {\ гидроразрыва {(п-1) s ^ {2}} {м}}}

которое, как известно, имеет асимптотическое распределение хи-квадрат с n - 1 степенями свободы при распределении Пуассона.

Если население подчиняется закону Тейлора, тогда

J п знак равно п 2 ( а м б - 1 - 1 ) {\ displaystyle J_ {n} = {\ sqrt {\ frac {n} {2}}} (am ^ {b-1} -1)}

Время вымирания

Если предположить, что применяется закон Тейлора, можно определить среднее время до местного исчезновения. Эта модель предполагает простое случайное блуждание во времени и отсутствие регулирования численности населения, зависящего от плотности.

Пусть где N t +1 и N t - размеры популяции в момент времени t  + 1 и t соответственно, а r - параметр, равный ежегодному приросту (уменьшению популяции). потом N т + 1 знак равно р N т {\ displaystyle N_ {t + 1} = rN_ {t}}

вар ( р ) знак равно s 2 бревно р {\ displaystyle \ operatorname {var} (r) = s ^ {2} \ log r}

где дисперсия. вар ( р ) {\ displaystyle {\ text {var}} (г)} р {\ displaystyle r}

Позвольте быть мерой численности вида (организмов на единицу площади). потом K {\ displaystyle K}

Т E знак равно 2 бревно N Вар ( р ) ( бревно K - бревно N 2 ) {\ displaystyle T_ {E} = {\ frac {2 \ log N} {\ operatorname {Var} (r)}} \ left (\ log K - {\ frac {\ log N} {2}} \ right) }

где T E - среднее время до местного вымирания.

Вероятность вымирания к моменту t равна

п ( т ) знак равно 1 - е т / Т E {\ Displaystyle Р (т) = 1-е ^ {т / Т_ {E}}}

Минимальный размер популяции, необходимый для предотвращения исчезновения

Если популяция распределена логнормально, то среднее гармоническое значение размера популяции ( H) связано со средним арифметическим ( m).

ЧАС знак равно м - а м б - 1 {\ displaystyle H = m-am ^ {b-1}}

Учитывая, что H должно бытьgt; 0 для сохранения популяции, при перегруппировке мы имеем

м gt; а 1 / ( 2 - б ) {\ displaystyle mgt; а ^ {1 / (2-b)}}

это минимальный размер популяции для сохранения вида.

Предположение о логнормальном распределении применимо примерно к половине выборки из 544 видов. предполагая, что это, по крайней мере, правдоподобное предположение.

Оценщики размера выборки

Степень точности ( D) определяется как s / m, где s - стандартное отклонение, а m - среднее значение. Степень точности в других контекстах называется коэффициентом вариации. В экологических исследованиях рекомендуется, чтобы D находилась в диапазоне 10–25%. Желаемая степень точности важна при оценке требуемого размера выборки, если исследователь хочет проверить, применим ли к данным закон Тейлора. Требуемый размер выборки был оценен для ряда простых распределений, но там, где распределение населения неизвестно или не может предполагаться, могут потребоваться более сложные формулы для определения требуемого размера выборки.

Если генеральная совокупность распределена по Пуассону, необходимый размер выборки ( n) равен

п знак равно ( т / D ) 2 м {\ Displaystyle п = {\ гидроразрыва {(т / Д) ^ {2}} {м}}}

где t - критический уровень t-распределения для ошибки 1-го типа со степенями свободы, по которым вычислялось среднее значение ( m).

Если совокупность распределена как отрицательное биномиальное распределение, то требуемый размер выборки составляет

п знак равно ( т / D ) 2 ( м + k ) м k {\ Displaystyle п = {\ гидроразрыва {(т / D) ^ {2} (м + к)} {mk}}}

где k - параметр отрицательного биномиального распределения.

Также была предложена более общая оценка размера выборки.

п знак равно ( т D ) 2 а м б - 2 {\ displaystyle n = \ left ({\ frac {t} {D}} \ right) ^ {2} am ^ {b-2}}

где a и b получены из закона Тейлора.

Альтернатива была предложена Саутвудом

п знак равно а м б D 2 {\ Displaystyle п = а {\ гидроразрыва {м ^ {b}} {D ^ {2}}} \,}

где n - требуемый размер выборки, a и b - коэффициенты закона Тейлора, а D - желаемая степень точности.

Карандинос предложил две аналогичные оценки для n. Первый был изменен Ruesink, чтобы включить закон Тейлора.

п знак равно ( т d м ) 2 а м б - 2 {\ displaystyle n = \ left ({\ frac {t} {d_ {m}}} \ right) ^ {2} am ^ {b-2}}

где d - отношение половины желаемого доверительного интервала ( ДИ) к среднему значению. В символах

d м знак равно C я 2 м {\ displaystyle d_ {m} = {\ frac {CI} {2m}}}

Второй оценщик используется при биномиальной выборке (присутствие-отсутствие). Желаемый размер выборки ( n) равен

п знак равно ( т d п ) 2 п - 1 q {\ Displaystyle п = \ влево (td_ {p} \ right) ^ {2} p ^ {- 1} q}

где d p - это отношение половины желаемого доверительного интервала к доле единиц выборки с индивидуумами, p - доля проб, содержащих индивидуумы, а q  = 1 -  p. В символах

d п знак равно C я 2 п {\ displaystyle d_ {p} = {\ frac {CI} {2p}}}

Для бинарной выборки (наличие / отсутствие) Шультесс и др. Модифицировали уравнение Карандиноса.

N знак равно ( т D п я ) 2 1 - п п {\ displaystyle N = \ left ({\ frac {t} {D_ {pi}}} \ right) ^ {2} {\ frac {1-p} {p}}}

где N - требуемый размер выборки, p - доля единиц, содержащих интересующие организмы, t - выбранный уровень значимости, а D ip - параметр, полученный из закона Тейлора.

Последовательная выборка

Последовательный анализ - это метод статистического анализа, при котором размер выборки заранее не фиксируется. Вместо этого образцы берутся в соответствии с заранее определенным правилом остановки. Закон Тейлора был использован для вывода ряда правил остановки.

Формула фиксированной точности в последовательной выборке для проверки закона Тейлора была выведена Грином в 1970 году.

бревно Т знак равно бревно ( D 2 ) - а б - 2 + ( бревно п ) б - 1 б - 2 {\ displaystyle \ log T = {\ frac {\ log (D ^ {2}) - a} {b-2}} + (\ log n) {\ frac {b-1} {b-2}}}

где T - совокупная сумма выборки, D - уровень точности, n - размер выборки, а a и b получены из закона Тейлора.

В качестве помощи в борьбе с вредителями Уилсон и др. Разработали тест, который включал пороговый уровень, при котором следует предпринять действия. Требуемый размер выборки составляет

п знак равно т | м - Т | - 2 а м б {\ displaystyle n = t | mT | ^ {- 2} am ^ {b}}

где a и b - коэффициенты Тейлора, || - абсолютное значение, m - выборочное среднее, T - пороговый уровень, а t - критический уровень t-распределения. Авторы также предоставили аналогичный тест для биномиальной выборки (присутствие-отсутствие).

п знак равно т | м - Т | - 2 п q {\ Displaystyle п = т | mT | ^ {- 2} pq}

где p - вероятность найти образец с присутствующими вредителями, а q  = 1 -  p.

Грин вывел другую формулу выборки для последовательной выборки на основе закона Тейлора.

D знак равно ( а п 1 - б Т б - 2 ) 1 / 2 {\ displaystyle D = (an ^ {1-b} T ^ {b-2}) ^ {1/2}}

где D - степень точности, a и b - коэффициенты закона Тейлора, n - размер выборки, а T - общее количество выбранных лиц.

Серра и др. Предложили правило остановки, основанное на законе Тейлора.

Т п ( а п 1 - б D 2 ) 1 / ( 2 - б ) {\ displaystyle T_ {n} \ geq \ left ({\ frac {an ^ {1-b}} {D ^ {2}}} \ right) ^ {1 / (2-b)}}

где a и b - параметры из закона Тейлора, D - желаемый уровень точности, а T n - общий размер выборки.

Серра и др. Также предложили второе правило остановки, основанное на регрессии Ивоа.

Т п α - 1 D 2 - β - 1 п {\ displaystyle T_ {n} \ geq {\ frac {\ alpha -1} {D ^ {2} - {\ frac {\ beta -1} {n}}}}}

где α и β - параметры линии регрессии, D - желаемый уровень точности, а T n - общий размер выборки.

Авторы рекомендовали установить D на 0,1 для исследований динамики популяции и D  = 0,25 для борьбы с вредителями.

Связанные анализы

Считается хорошей практикой оценить по крайней мере один дополнительный анализ агрегирования (кроме закона Тейлора), поскольку использование только одного индекса может вводить в заблуждение. Хотя был предложен ряд других методов для обнаружения взаимосвязи между дисперсией и средним значением в биологических образцах, на сегодняшний день ни один из них не достиг популярности закона Тейлора. Наиболее популярным анализом, используемым в сочетании с законом Тейлора, является, вероятно, регрессионный тест на пятнистость штата Айова, но все перечисленные здесь методы использовались в литературе.

Модель Барлетта – Иаво

Барлетт в 1936 году и позже Яво независимо друг от друга в 1968 году предложили альтернативное соотношение между дисперсией и средним значением. В символах

s я 2 знак равно а м я + б м я 2 {\ displaystyle s_ {i} ^ {2} = am_ {i} + bm_ {i} ^ {2} \,}

где s - дисперсия в i- й выборке, а m i - среднее значение в i- й выборке.

Когда популяция следует отрицательному биномиальному распределению, a  = 1 и b  =  k (показатель степени отрицательного биномиального распределения).

Эта альтернативная формулировка не так хорошо подходит, как закон Тейлора, в большинстве исследований.

Модель Нахмана

Нахман предложил связь между средней плотностью и долей образцов с нулевым счетом:

п 0 знак равно exp ( - а м б ) {\ displaystyle p_ {0} = \ exp (-am ^ {b})}

где p 0 - доля образца с нулевым счетчиком, m - средняя плотность, a - параметр масштаба, а b - параметр дисперсии. Если a = b = 0, распределение случайное. Это соотношение обычно проверяется в логарифмической форме.

бревно м знак равно c + d бревно п 0 {\ Displaystyle \ журнал м = с + d \ журнал р_ {0}}

Allsop использовал это соотношение вместе с законом Тейлора, чтобы получить выражение для доли зараженных единиц в выборке.

п 1 знак равно 1 - exp ( - exp ( бревно е ( А 2 а ) б - 2 + бревно е ( п ) ( б - 1 б - 2 - 1 ) - c d ) ) {\ displaystyle P_ {1} = 1- \ exp \ left (- \ exp \ left ({\ frac {{\ frac {\ log _ {e}) \ left ({\ frac {A ^ {2}} {a }} \ right)} {b-2}} + \ log _ {e} (n) \ left ({\ frac {b-1} {b-2}} - 1 \ right) -c} {d} }\верно-верно)}
N знак равно п п 1 {\ displaystyle N = nP_ {1}}

куда

А 2 знак равно D 2 z α / 2 2 {\ displaystyle A ^ {2} = {\ frac {D ^ {2}} {z _ {\ alpha / 2} ^ {2}}}}

где D 2 - желаемая степень точности, z α / 2 - верхний угол α / 2 нормального распределения, a и b - коэффициенты закона Тейлора, c и d - коэффициенты Нахмана, n - размер выборки, а N - количество зараженных единиц.

Уравнение Коно – Сугино

Двоичный отбор образцов нередко используется в экологии. В 1958 году Коно и Сугино вывели уравнение, которое связывает долю выборок без особей со средней плотностью выборок.

бревно ( м ) знак равно бревно ( а ) + б бревно ( - бревно ( п 0 ) ) {\ displaystyle \ log (m) = \ log (a) + b \ log (- \ log (p_ {0}))}

где p 0 - доля выборки без особей, m - средняя плотность выборки, a и b - константы. Как и закон Тейлора, это уравнение подходит для различных групп населения, включая те, которые подчиняются закону Тейлора. В отличие от отрицательного биномиального распределения эта модель не зависит от средней плотности.

Вывод этого уравнения несложен. Пусть доля пустых единиц равна p 0, и предположим, что они распределены экспоненциально. потом

п 0 знак равно exp ( - А м B ) {\ displaystyle p_ {0} = \ exp (-Am ^ {B})}

Взяв бревна дважды и переставив, мы получим приведенное выше уравнение. Эта модель аналогична предложенной Нахманом.

Преимущество этой модели состоит в том, что она не требует подсчета особей, а требует их наличия или отсутствия. Подсчет особей может оказаться невозможным во многих случаях, особенно когда изучаются насекомые.

Примечание

Уравнение было получено при исследовании взаимосвязи между долей P в серии зараженных рисовых холмов и средней серьезностью заражения  m. Изучаемая модель была

п знак равно 1 - а е б м {\ displaystyle P = 1-ae ^ {bm}}

где a и b - эмпирические константы. На основе этой модели были выведены константы a и b и подготовлена ​​таблица, связывающая значения P и  m

Использует

Прогнозируемые оценки m из этого уравнения подвержены систематической ошибке, и вместо этого рекомендуется использовать скорректированное среднее значение ( m a).

м а знак равно м ( 1 - вар ( бревно ( м я ) ) 2 ) {\ displaystyle m_ {a} = m \ left (1 - {\ frac {\ operatorname {var} (\ log (m_ {i}))} {2}} \ right)}

где var - дисперсия средних значений единицы выборки m i, а m - общее среднее значение.

Альтернативная корректировка средних оценок:

м а знак равно м е ( MSE / 2 ) {\ displaystyle m_ {a} = я ^ {({\ text {MSE}} / 2)}}

где MSE - среднеквадратичная ошибка регрессии.

Эту модель также можно использовать для оценки стоп-линий для счетной (последовательной) выборки. Дисперсия оценочных средних составляет

вар ( м ) знак равно м 2 ( c 1 + c 2 - c 3 + MSE ) {\ displaystyle \ operatorname {var} (m) = m ^ {2} (c_ {1} + c_ {2} -c_ {3} + {\ text {MSE}})}

куда

c 1 знак равно β 2 ( 1 - п 0 ) п п 0 бревно е ( п 0 ) 2 {\ displaystyle c_ {1} = {\ frac {\ beta ^ {2} (1-p_ {0})} {np_ {0} \ log _ {e} (p_ {0}) ^ {2}}} }
c 2 знак равно MSE N + s β 2 ( бревно е ( бревно е ( п 0 ) ) - п 2 ) {\ displaystyle c_ {2} = {\ frac {\ text {MSE}} {N}} + s _ {\ beta} ^ {2} (\ log _ {e} (\ log _ {e} (p_ {0 })) - p ^ {2})}
c 3 знак равно exp ( а + ( б - 2 ) [ α - β бревно е ( п 0 ) ] ) п {\ displaystyle c_ {3} = {\ frac {\ exp (a + (b-2) [\ alpha - \ beta \ log _ {e} (p_ {0})])} {n}}}

где MSE - среднеквадратичная ошибка регрессии, α и β - константа и наклон регрессии соответственно, s β 2 - дисперсия наклона регрессии, N - количество точек в регрессии, n - количество единиц выборки, а p - среднее значение p 0 в регрессии. Параметры a и b оцениваются по закону Тейлора:

s 2 знак равно а + б бревно е ( м ) {\ displaystyle s ^ {2} = a + b \ log _ {e} (m)}

Уравнение Хьюза – Мэддена

Хьюз и Мэдден предложили проверить аналогичную взаимосвязь, применимую к бинарным наблюдениям в кластере, где каждый кластер содержит от 0 до n индивидуумов.

v а р Наблюдения знак равно а п б ( 1 - п ) c {\ displaystyle var _ {\ text {obs}} = ap ^ {b} (1-p) ^ {c}}

где a, b и c - константы, var obs - наблюдаемая дисперсия, а p - доля людей с признаком (например, болезнью), оценка вероятности индивидуума с признаком. В логарифмической форме это соотношение имеет вид

бревно ( вар Наблюдения ) знак равно бревно ( а ) + б бревно ( п ) + c бревно ( 1 - п ) . {\ displaystyle \ log (\ Operatorname {var} _ {\ text {obs}}) = \ log (a) + b \ log (p) + c \ log (1-p).}

В большинстве случаев предполагается, что b = c, что приводит к простой модели

вар Наблюдения знак равно а ( п ( 1 - п ) ) б {\ displaystyle \ operatorname {var} _ {\ text {obs}} = a (p (1-p)) ^ {b}}

Эта связь была подвергнута менее тщательной проверке, чем закон Тейлора. Однако он точно описал более 100 наборов данных, и нет опубликованных примеров, свидетельствующих о том, что это не работает.

Вариант этого уравнения был предложен Shiyomi et al. () кто предложил проверить регрессию

бревно ( вар Наблюдения / п 2 ) знак равно а + б бревно п ( 1 - п ) п {\ displaystyle \ log (\ operatorname {var} _ {\ text {obs}} / n ^ {2}) = a + b \ log {\ frac {p (1-p)} {n}}}

где var obs - дисперсия, a и b - константы регрессии, n - размер выборки (не выборка на кластер), а p - вероятность того, что выборка будет содержать хотя бы одного человека.

Модель отрицательного биномиального распределения

Также была предложена отрицательная биномиальная модель. Параметр дисперсии ( k) с использованием метода моментов равен m 2 / ( s 2 - m), а p i - это доля выборок со счетамиgt; 0. s 2, используемые при вычислении k, являются значениями, предсказанными законом Тейлора.. p i наносится на график относительно 1 - ( k ( k  +  m) −1) k, и соответствие данных проверяется визуально.

Перри и Тейлор предложили альтернативную оценку k, основанную на законе Тейлора.

1 k знак равно а м б - 2 - 1 м {\ displaystyle {\ frac {1} {k}} = {\ frac {am ^ {b-2} -1} {m}}}

Более точную оценку параметра дисперсии можно сделать методом максимального правдоподобия. Для отрицательного бинома это можно оценить из уравнения

А Икс k + Икс знак равно N бревно ( 1 + м k ) {\ displaystyle \ sum {\ frac {A_ {x}} {k + x}} = N \ log \ left (1 + {\ frac {m} {k}} \ right)}

где A x - общее количество выборок с более чем x особями, N - общее количество особей, x - количество особей в выборке, m - среднее количество особей в выборке, а k - показатель степени. Значение k необходимо оценить численно.

Соответствие этой модели можно проверить несколькими способами, в том числе с помощью критерия хи-квадрат. Поскольку они могут быть смещены небольшими выборками, альтернативой является статистика U - разница между дисперсией, ожидаемой при отрицательном биномиальном распределении, и дисперсией выборки. Ожидаемая дисперсия этого распределения составляет m + m 2 / k и

U знак равно s 2 - м + м 2 k {\ displaystyle U = s ^ {2} -m + {\ frac {m ^ {2}} {k}}}

где s 2 - выборочная дисперсия, m - выборочное среднее, а k - отрицательный биномиальный параметр.

Дисперсия U равна

вар ( U ) знак равно 2 м п 2 q ( 1 - р 2 - бревно ( 1 - р ) - р ) + п 4 ( 1 - р ) - k - 1 - k р N ( - бревно ( 1 - р ) - р ) 2 {\ displaystyle \ operatorname {var} (U) = 2mp ^ {2} q \ left ({\ frac {1-R ^ {2}} {- \ log (1-R) ​​-R}} \ right) + p ^ {4} {\ frac {(1-R) ​​^ {- k} -1-kR} {N (- \ log (1-R) ​​-R) ^ {2}}}}

где p = m / k, q = 1 + p, R = p / q и N - общее количество особей в выборке. Ожидаемое значение U равно 0. Для больших размеров выборки U распределяется нормально.

Примечание: отрицательный бином на самом деле представляет собой семейство распределений, определяемых отношением среднего значения к дисперсии.

σ 2 знак равно μ + а μ п {\ displaystyle \ sigma ^ {2} = \ mu + a \ mu ^ {p}}

где a и p - постоянные. Когда a = 0, это определяет распределение Пуассона. При p = 1 и p = 2 распределение известно как распределение NB1 и NB2 соответственно.

Эта модель является версией модели, предложенной ранее Барлеттом.

Тесты на общий параметр дисперсии

Параметр дисперсии ( k) равен

k знак равно м 2 s 2 - м {\ Displaystyle к = {\ гидроразрыва {м ^ {2}} {s ^ {2} -m}}}

где m - выборочное среднее, а s 2 - дисперсия. Если k −1 gt; 0, совокупность считается агрегированной; k −1 = 0 популяция считается случайной; и если k −1 lt;0, популяция считается равномерно распределенной.

Саутвуд рекомендовал регрессировать k против среднего и постоянного

k я знак равно а + б м я {\ Displaystyle к_ {я} = а + bm_ {я}}

где k i и m i - параметр дисперсии и среднее значение i-го образца, соответственно, для проверки существования общего параметра дисперсии ( k c). Значение наклона ( b) значительноgt; 0 указывает на зависимость k от средней плотности.

Альтернативный метод был предложен Эллиотом, который предложил строить график ( s 2 - m) против ( m 2 - s 2 / n). k c равно 1 / наклон этой регрессии.

Коэффициент Шарлье

Этот коэффициент ( C) определяется как

C знак равно 100 ( s 2 - м ) 0,5 м {\ displaystyle C = {\ frac {100 (s ^ {2} -m) ^ {0,5}} {m}}}

Если можно предположить, что популяция распределена отрицательно биномиальным образом, тогда C = 100 (1 / k) 0,5, где k - параметр дисперсии распределения.

Индекс дисперсии Коула

Этот индекс ( I c) определяется как

я c знак равно Икс 2 ( Икс ) 2 {\ Displaystyle I_ {c} = {\ гидроразрыва {\ сумма х ^ {2}} {(\ сумма х) ^ {2}}}}

Обычно этот индекс интерпретируется следующим образом: значения I c lt;1, = 1,gt; 1 означают равномерное распределение, случайное распределение или агрегированное распределение.

Поскольку s 2 = Σ x 2 - (Σx) 2, индекс также можно записать

я c знак равно s 2 + ( п м ) 2 ( п м ) 2 знак равно 1 п 2 s 2 м 2 + 1 {\ displaystyle I_ {c} = {\ frac {s ^ {2} + (nm) ^ {2}} {(nm) ^ {2}}} = {\ frac {1} {n ^ {2}} } {\ frac {s ^ {2}} {m ^ {2}}} + 1}

Если можно предположить, что закон Тейлора выполняется, то

я c знак равно а м б - 2 п 2 + 1 {\ displaystyle I_ {c} = {\ frac {am ^ {b-2}} {n ^ {2}}} + 1}

Индексы Ллойда

Индекс средней скученности Ллойда ( IMC) - это среднее количество других точек, содержащихся в единице выборки, содержащей случайно выбранную точку.

я M C знак равно м + s 2 м - 1 {\ displaystyle \ mathrm {IMC} = m + {\ frac {s ^ {2}} {m-1}}}

где m - выборочное среднее, а s 2 - дисперсия.

Индекс неоднородности ( IP) Ллойда равен

я п знак равно IMC / м {\ Displaystyle \ mathrm {IP} = {\ текст {IMC}} / м}

Это показатель интенсивности рисунка, на который не влияет прореживание (случайное удаление точек). Этот индекс также был предложен Пиелу в 1988 году и иногда также известен под этим именем.

Поскольку оценку дисперсии IP чрезвычайно сложно оценить по самой формуле, LLyod предложил подгонять к данным отрицательное биномиальное распределение. Этот метод дает параметр k

s 2 знак равно м + м 2 k {\ displaystyle s ^ {2} = m + {\ frac {m ^ {2}} {k}}}

потом

S E ( я п ) знак равно 1 k 2 [ вар ( k ) + k ( k + 1 ) ( k + м ) м q ] {\ displaystyle SE (IP) = {\ frac {1} {k ^ {2}}} \ left [\ operatorname {var} (k) + {\ frac {k (k + 1) (k + m)} {mq}} \ right]}

где стандартная ошибка индекса пятнистости, является дисперсией параметра к и д есть число quadrats дискретизированного.. S E ( я п ) {\ displaystyle SE (IP)} вар ( k ) {\ displaystyle {\ text {var}} (к)}

Если население подчиняется закону Тейлора, тогда

я M C знак равно м + а - 1 м 1 - б - 1 {\ displaystyle \ mathrm {IMC} = m + a ^ {- 1} m ^ {1-b} -1}
я п знак равно 1 + а - 1 м - б - 1 м {\ displaystyle \ mathrm {IP} = 1 + a ^ {- 1} m ^ {- b} - {\ frac {1} {m}}}

Регрессионный тест на пятнистость

Ивао предложил регрессию пятнистости для проверки скопления

Позволять

у я знак равно м я + s 2 м я - 1 {\ displaystyle y_ {i} = m_ {i} + {\ frac {s ^ {2}} {m_ {i}}} - 1}

y i вот индекс средней загруженности Ллойда. Выполните обычную регрессию методом наименьших квадратов m i против  y.

В этой регрессии значение наклона ( b) является индикатором скопления: наклон = 1, если данные распределены по Пуассону. Константа ( а) - это количество особей, которые разделяют единицу среды обитания с бесконечно малой плотностью, и может быть lt;0, 0 илиgt; 0. Эти значения представляют собой регулярность, случайность и агрегацию популяций в пространственных структурах соответственно. Значение a lt;1 означает, что основной единицей распределения является отдельное лицо.

Если статистика s 2 / m непостоянна, вместо нее рекомендуется использовать регрессию индекса Ллойда по отношению к am + bm 2, где a и b - константы.

Размер выборки ( n) для данной степени точности ( D) для этой регрессии определяется выражением

п знак равно ( т D ) 2 ( а + 1 м + б - 1 ) {\ displaystyle n = \ left ({\ frac {t} {D}} \ right) ^ {2} \ left ({\ frac {a + 1} {m}} + b-1 \ right)}

где a - константа в этой регрессии, b - наклон, m - среднее значение, а t - критическое значение t-распределения.

Иаво предложил тест с последовательной выборкой, основанный на этой регрессии. Верхний и нижний пределы этого теста основаны на критических плотностях m c, когда борьба с вредным организмом требует принятия мер.

N ты знак равно я м c + т ( я ( а + 1 ) м c + ( б - 1 ) м c 2 ) 1 / 2 {\ displaystyle N_ {u} = im_ {c} + t (я (a + 1) m_ {c} + (b-1) m_ {c} ^ {2}) ^ {1/2}}
N л знак равно я м c - т ( я ( а + 1 ) м c + ( б - 1 ) м c 2 ) 1 / 2 {\ displaystyle N_ {l} = im_ {c} -t (я (a + 1) m_ {c} + (b-1) m_ {c} ^ {2}) ^ {1/2}}

где N u и N l - верхняя и нижняя границы соответственно, a - константа регрессии, b - наклон, а i - количество выборок.

Куно предложил альтернативный тест последовательной остановки, также основанный на этой регрессии.

Т п знак равно а + 1 D 2 - б - 1 п {\ displaystyle T_ {n} = {\ frac {a + 1} {D ^ {2} - {\ frac {b-1} {n}}}}}

где T n - общий размер выборки, D - степень точности, n - количество единиц выборки, a - константа, а b - крутизна регрессии соответственно.

Тест Куно подчиняется условию, что n ≥ ( b - 1) / D 2

Паррелла и Джонс предложили альтернативную, но связанную стоп-линию

Т п знак равно ( 1 - п N ) а + 1 D 2 - ( 1 - п N ) б - 1 п {\ displaystyle T_ {n} = \ left (1 - {\ frac {n} {N}} \ right) {\ frac {a + 1} {D ^ {2} - \ left (1 - {\ frac { n} {N}} \ right) {\ frac {b-1} {n}}}}}

где a и b - параметры регрессии, N - максимальное количество единиц выборки, а n - размер индивидуальной выборки.

Индекс дисперсии Мориситы

Индекс дисперсии Мориситы ( I m) - это масштабированная вероятность того, что две точки, выбранные случайным образом из всей совокупности, находятся в одной и той же выборке. Более высокие значения указывают на более сгущенное распределение.

я м знак равно Икс ( Икс - 1 ) п м ( м - 1 ) {\ Displaystyle I_ {м} = {\ гидроразрыва {\ сумма х (х-1)} {нм (м-1)}}}

Альтернативная формулировка:

я м знак равно п Икс 2 - Икс ( Икс ) 2 - Икс {\ displaystyle I_ {m} = n {\ frac {\ sum x ^ {2} - \ sum x} {(\ sum x) ^ {2} - \ sum x}}}

где n - общий размер выборки, m - среднее значение выборки, а x - отдельные значения с суммой, взятой по всей выборке. Он также равен

я м знак равно п IMC п м - 1 {\ displaystyle I_ {m} = {\ frac {n \ operatorname {IMC}} {nm-1}}}

где IMC - индекс скученности Ллойда.

Этот индекс относительно не зависит от плотности населения, но зависит от размера выборки. Значенияgt; 1 указывают на скопление; значения lt;1 указывают на однородность распределения, а значение 1 указывает на случайную выборку.

Морисита показал, что статистика

я м ( Икс - 1 ) + п - Икс {\ Displaystyle I_ {м} \ влево (\ сумма х-1 \ вправо) + п- \ сумма х}

распределяется как переменная хи-квадрат с n  - 1 степенями свободы.

Альтернативный критерий значимости этого индекса был разработан для больших выборок.

z знак равно я м - 1 2 / ( п м 2 ) {\ displaystyle z = {\ frac {I_ {m} -1} {2 / (нм ^ {2})}}}

где m - общее среднее значение выборки, n - количество единиц выборки, а z - абсцисса нормального распределения. Значимость проверяется путем сравнения значения z со значениями нормального распределения.

Функция для ее расчета можно найти в статистическом языке R. Функция R

Обратите внимание: не путать с индексом перекрытия Мориситы.

Стандартизированный индекс Мориситы

Смит-Гилл разработал статистику, основанную на индексе Мориситы, который не зависит ни от размера выборки, ни от плотности населения и ограничен значениями -1 и +1. Эта статистика рассчитывается следующим образом

Сначала определите индекс Мориситы ( I d) обычным способом. Тогда пусть k будет количеством единиц, из которых была произведена выборка населения. Рассчитайте два критических значения

M ты знак равно χ 0,975 2 - k + Икс Икс - 1 {\ displaystyle M_ {u} = {\ frac {\ chi _ {0,975} ^ {2} -k + \ sum x} {\ sum x-1}}}
M c знак равно χ 0,025 2 - k + Икс Икс - 1 {\ Displaystyle M_ {c} = {\ гидроразрыва {\ chi _ {0,025} ^ {2} -k + \ sum x} {\ sum x-1}}}

где χ 2 - значение хи-квадрат для n - 1 степеней свободы при уровнях достоверности 97,5% и 2,5%.

Затем рассчитывается стандартизованный индекс ( I p) по одной из формул, приведенных ниже.

Когда I d ≥ M c gt; 1

я п знак равно 0,5 + 0,5 ( я d - M c k - M c ) {\ displaystyle I_ {p} = 0,5 + 0,5 \ left ({\ frac {I_ {d} -M_ {c}} {k-M_ {c}}} \ right)}

Когда M c gt; I d ≥ 1

я п знак равно 0,5 ( я d - 1 M ты - 1 ) {\ displaystyle I_ {p} = 0,5 \ left ({\ frac {I_ {d} -1} {M_ {u} -1}} \ right)}

Когда 1gt; I d ≥ M u

я п знак равно - 0,5 ( я d - 1 M ты - 1 ) {\ displaystyle I_ {p} = - 0,5 \ left ({\ frac {I_ {d} -1} {M_ {u} -1}} \ right)}

Когда 1gt; M u gt; I d

я п знак равно - 0,5 + 0,5 ( я d - M ты M ты ) {\ displaystyle I_ {p} = - 0,5 + 0,5 \ left ({\ frac {I_ {d} -M_ {u}} {M_ {u}}} \ right)}

I p находится в диапазоне от +1 до -1 с 95% доверительным интервалом ± 0,5. I p имеет значение 0, если шаблон случайный; если шаблон однороден, I p lt;0, и если шаблон показывает агрегацию, I p gt; 0.

Индекс пространственной агрегации Саутвуда

Индекс пространственной агрегации Саутвуда ( k) определяется как

1 k знак равно м * м - 1 {\ displaystyle {\ frac {1} {k}} = {\ frac {m ^ {*}} {m}} - 1}

где m - среднее значение выборки, а m * - индекс скученности Ллойда.

Индекс дисперсии Фишера

Индекс дисперсии Фишера равен

я D знак равно ( п - 1 ) s 2 м {\ displaystyle \ mathrm {ID} = {\ frac {(n-1) s ^ {2}} {m}}}

Этот индекс можно использовать для проверки чрезмерной дисперсии населения. Рекомендуется, чтобы в приложениях ngt; 5 и чтобы общее количество образцов, разделенное на количество образцов, былоgt; 3. В символах

Икс п gt; 3 {\ displaystyle {\ frac {\ sum x} {n}}gt; 3}

где x - индивидуальное значение выборки. Математическое ожидание индекса равно n, и он распределяется как распределение хи-квадрат с n  - 1 степенями свободы, когда совокупность распределена Пуассона. Он равен параметру масштаба, когда популяция подчиняется гамма-распределению.

Его можно применять как к генеральной совокупности, так и к отдельным районам, отобранным индивидуально. Использование этого теста на отдельных участках выборки также должно включать использование поправочного коэффициента Бонферрони.

Если население подчиняется закону Тейлора, тогда

я D знак равно ( п - 1 ) а м б - 1 {\ displaystyle \ mathrm {ID} = (n-1) am ^ {b-1}}

Индекс размера кластера

Индекс размера кластера ( ICS) был создан Дэвидом и Муром. Ожидается, что при случайном распределении (Пуассона) ICS будет равно 0. Положительные значения указывают на сгруппированное распределение; отрицательные значения указывают на равномерное распределение.

я C S знак равно s 2 м - 1 {\ Displaystyle \ mathrm {ICS} = {\ гидроразрыва {s ^ {2}} {м-1}}}

где s 2 - дисперсия, m - среднее значение.

Если население подчиняется закону Тейлора

я C S знак равно а м б - 1 - 1 {\ displaystyle \ mathrm {ICS} = am ^ {b-1} -1}

ИКС также равен тестовая статистика Каца, деленной на ( п / 2) 1/2, где п является размером выборки. Это также связано со статистикой теста Клэпхэма. Его также иногда называют индексом слипания.

Индекс Грина

Индекс Грина ( GI) представляет собой модификацию индекса размера кластера, который не зависит от п числа единиц выборки.

C Икс знак равно s 2 / м - 1 п м - 1 {\ displaystyle C_ {x} = {\ frac {s ^ {2} / m-1} {nm-1}}}

Этот индекс равен 0, если распределение является случайным, 1, если оно максимально агрегировано, и -1 / ( нм - 1), если оно равномерно.

Распределение индекса Грина в настоящее время неизвестно, поэтому для него было сложно разработать статистические тесты.

Если население подчиняется закону Тейлора

C Икс знак равно а м б - 1 - 1 п м - 1 {\ displaystyle C_ {x} = {\ frac {am ^ {b-1} -1} {nm-1}}}

Бинарный индекс рассеивания

Двоичная выборка (наличие / отсутствие) часто используется там, где трудно получить точные подсчеты. Индекс рассеивания ( D) используется, когда исследуемая популяция делится на серию равных выборок (количество единиц = N: количество единиц в выборке = n: общая численность населения = n x N). Теоретическое отклонение выборки от совокупности с биномиальным распределением составляет

s 2 знак равно п п ( 1 - п ) {\ displaystyle s ^ {2} = np (1-p)}

где s 2 - дисперсия, n - количество единиц выборки, а p - средняя доля единиц выборки, в которых присутствует по крайней мере один человек. Индекс рассеивания ( D) определяется как отношение наблюдаемой дисперсии к ожидаемой дисперсии. В символах

D знак равно вар Наблюдения вар мусорное ведро знак равно s 2 п п ( 1 - п ) {\ displaystyle D = {\ frac {{\ text {var}} _ {\ text {obs}}} {{\ text {var}} _ {\ text {bin}}}} = {\ frac {s ^ {2}} {нп (1-п)}}}

где var obs - наблюдаемая дисперсия, а var bin - ожидаемая дисперсия. Ожидаемая дисперсия рассчитывается по общему среднему значению для генеральной совокупности. Считается, что значения D gt; 1 предполагают агрегацию. D ( n - 1) распределяется как переменная хи-квадрат с n - 1 степенями свободы, где n - количество отобранных единиц.

Альтернативный тест - тест C.

C знак равно D ( п N - 1 ) - п N ( 2 N ( п 2 - п ) ) 1 / 2 {\ Displaystyle С = {\ гидроразрыва {D (nN-1) -nN} {(2N (n ^ {2} -n)) ^ {1/2}}}}

где D - индекс рассеивания, n - количество единиц в выборке, а N - количество выборок. C распространяется нормально. Статистически значимое значение C указывает на чрезмерную дисперсию населения.

D также связано с внутриклассовой корреляцией ( ρ), которая определяется как

ρ знак равно 1 - Икс я ( Т - Икс я ) п ( 1 - п ) N Т ( Т - 1 ) {\ displaystyle \ rho = 1 - {\ frac {\ sum x_ {i} (T-x_ {i})} {p (1-p) NT (T-1)}}}

где T - количество организмов в образце, p - вероятность наличия у организма искомого свойства (заболевание, отсутствие вредителей и т. д.), а x i - количество организмов в i- й единице с этим свойством. T должен быть одинаковым для всех единиц выборки. В этом случае с константой n

ρ знак равно D - 1 п - 1 {\ displaystyle \ rho = {\ frac {D-1} {n-1}}}

Если данные можно сопоставить с бета-биномиальным распределением, тогда

D знак равно 1 + ( п - 1 ) θ 1 + θ {\ Displaystyle D = 1 + {\ гидроразрыва {(п-1) \ theta} {1+ \ theta}}}

где θ - параметр распределения.

Критическая плотность скопления населения Ма

Ма предложил параметр ( m 0) - критическую плотность скопления населения - чтобы связать плотность населения с законом Тейлора.

м 0 знак равно exp ( бревно а 1 - б ) {\ displaystyle m_ {0} = \ exp \ left ({\ frac {\ log a} {1-b}} \ right)}
Связанная статистика

Известен ряд статистических тестов, которые могут быть полезны в приложениях.

статистика де Оливерии

Связанная статистика, предложенная де Оливерией, - это разница между дисперсией и средним значением. Если популяция распределена по Пуассону, то

v а р ( s 2 - м ) знак равно 2 т 2 п - 1 {\ displaystyle var (s ^ {2} -m) = {\ frac {2t ^ {2}} {n-1}}}

где t - параметр Пуассона, s 2 - дисперсия, m - среднее значение, а n - размер выборки. Ожидаемое значение s 2 - m равно нулю. Эта статистика распределяется нормально.

Если оценить параметр Пуассона в этом уравнении, положив t = m, после небольших манипуляций эту статистику можно записать

О Т знак равно п - 1 2 s 2 - м м {\ displaystyle O_ {T} = {\ sqrt {\ frac {n-1} {2}}} {\ frac {s ^ {2} -m} {m}}}

Это почти идентично статистике Каца с заменой n ( n - 1). Опять же, O T имеет нормальное распределение со средним 0 и единичной дисперсией для больших n. Эта статистика совпадает со статистикой Неймана-Скотта.

Примечание

де Оливериа фактически предположил, что дисперсия s 2 - m составляла (1-2 t 1/2 + 3 t) / n, где t - параметр Пуассона. Он предположил, что t можно оценить, положив его равным среднему значению ( m) выборки. Дальнейшее исследование, проведенное Бенингом, показало, что эта оценка дисперсии неверна. Поправка Бохинга приведена в приведенных выше уравнениях.

Тест Клэпхема

В 1936 году Клэпхэм предложил использовать отношение дисперсии к среднему в качестве тестовой статистики (относительной дисперсии). В символах

θ знак равно s 2 м {\ displaystyle \ theta = {\ frac {s ^ {2}} {m}}}

Для распределения Possion это отношение равно 1. Чтобы проверить отклонения от этого значения, он предложил проверить его значение по распределению хи-квадрат с n степенями свободы, где n - количество единиц выборки. Распределение этой статистики было дополнительно изучено Блэкманом, который отметил, что она была приблизительно нормально распределена со средним значением 1 и дисперсией ( V θ)

V θ знак равно 2 п ( п - 1 ) 2 {\ displaystyle V _ {\ theta} = {\ frac {2n} {(n-1) ^ {2}}}}

Вывод дисперсии был повторно проанализирован Бартлеттом, который считал, что это

V θ знак равно 2 п - 1 {\ displaystyle V _ {\ theta} = {\ frac {2} {n-1}}}

Для больших выборок эти две формулы примерно совпадают. Этот тест связан с более поздней статистикой Каца J n.

Если население подчиняется закону Тейлора, тогда

θ знак равно а м б - 1 {\ displaystyle \ theta = am ^ {b-1}}
Примечание

Также было опубликовано уточнение этого теста. Авторы отметили, что исходный тест имеет тенденцию обнаруживать избыточную дисперсию в более высоких масштабах, даже если этого не было в данных. Они отметили, что использование полиномиального распределения может быть более подходящим, чем использование распределения Пуассона для таких данных. Статистика θ распределяется

θ знак равно s 2 м знак равно 1 п ( Икс я - п N ) 2 {\ displaystyle \ theta = {\ frac {s ^ {2}} {m}} = {\ frac {1} {n}} \ sum \ left (x_ {i} - {\ frac {n} {N}) } \ right) ^ {2}}

где N - количество единиц выборки, n - общее количество исследованных выборок, а x i - отдельные значения данных.

Математическое ожидание и дисперсия θ равны

E ( θ ) знак равно N N - 1 {\ displaystyle \ operatorname {E} (\ theta) = {\ frac {N} {N-1}}}
Вар ( θ ) знак равно ( N - 1 ) 2 N 3 - 2 N - 3 п N 2 {\ displaystyle \ operatorname {Var} (\ theta) = {\ frac {(N-1) ^ {2}} {N ^ {3}}} - {\ frac {2N-3} {nN ^ {2} }}}

Для больших N E ( θ) приблизительно равно 1 и

Вар ( θ )   2 N ( 1 - 1 п ) {\ displaystyle \ operatorname {Var} (\ theta) \ sim \ {\ frac {2} {N}} \ left (1 - {\ frac {1} {n}} \ right)}

Если количество отобранных особей ( n) велико, эта оценка дисперсии согласуется с полученными ранее. Однако для небольших выборок эти последние оценки более точны, и их следует использовать.

Смотрите также
использованная литература
Последняя правка сделана 2023-03-29 08:54:07
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте