Степенной закон Тейлора является эмпирическим законом в экологии, которая относится к дисперсии от числа особей одного вида на единицу площади среды обитания на соответствующее среднее по степенному закону отношения. Он назван в честь Лайонела Роя Тейлора (1924–2007), впервые предложившего его в 1961 году. Первоначальное имя Тейлора для этих отношений было законом среднего.
Этот закон был первоначально определен для экологических систем, в частности, для оценки пространственной кластеризации организмов. Для подсчета населения со средним значением и дисперсией закон Тейлора записывается
где a и b - положительные постоянные. Тейлор предложил эту взаимосвязь в 1961 году, предложив, чтобы показатель степени b считался видоспецифическим индексом агрегации. Впоследствии этот степенной закон был подтвержден для многих сотен видов.
Закон Тейлора также применялся для оценки зависимых от времени изменений в распределении населения. Связанное отклонение от среднего степенного закона также было продемонстрировано в нескольких неэкологических системах:
Впервые диаграмма двойного логарифма использовалась Рейнольдсом в 1879 году для тепловой аэродинамики. Парето использовал аналогичный график для изучения доли населения и их доходов.
Термин дисперсия был введен Фишером в 1918 году.
Фишер в 1921 г. предложил уравнение
Нейман изучил взаимосвязь между выборочным средним и дисперсией в 1926 году. Барлетт предложил взаимосвязь между выборочным средним и дисперсией в 1936 году.
Смит в 1938 году, изучая урожайность сельскохозяйственных культур, предложил связь, аналогичную соотношению Тейлора. Эти отношения были
где V x - дисперсия урожайности для участков в x единиц, V 1 - дисперсия урожайности на единицу площади, а x - размер участков. Наклон ( b) - это показатель неоднородности. Значение b в этом соотношении находится между 0 и 1. Если доходность сильно коррелирована, b стремится к 0; когда они не коррелированы, b стремится к 1.
Блисс в 1941 году, Фрэкер и Бришл в 1941 году и Хейман и Лоу в 1961 году также описали то, что теперь известно как закон Тейлора, но в контексте данных по отдельным видам.
Л. Р. Тейлор (1924–2007) был английским энтомологом, работавшим в Обследовании насекомых в Ротамстеде по борьбе с вредителями. Его 1961 документ использовали данные из 24 статей, опубликованных в период между 1936 и 1960 годах эти документы рассматриваются различные биологические настройки: вирусные поражения, макро-зоопланктон, черви и symphylids в почве, насекомых в почве, на растениях и в воздухе, клещей на листьях, клещи на овцах и рыбе в море. В этих статьях значение b лежало между 1 и 3. Тейлор предложил степенной закон как общую характеристику пространственного распределения этих видов. Он также предложил механистическую гипотезу для объяснения этого закона. Среди процитированных документов были бумаги Блисс, Йейтса и Финни.
Первоначальные попытки объяснить пространственное распределение животных были основаны на таких подходах, как стохастические модели популяции Бартлетта и отрицательное биномиальное распределение, которое могло возникнуть в результате процессов рождения и смерти. Новое объяснение Тейлора было основано на предположении о сбалансированном миграционном и коллективном поведении животных. Его гипотеза изначально была качественной, но по мере ее развития стала полуколичественной и была подтверждена симуляциями. Предполагая, что поведение животных было основным механизмом кластеризации организмов, Тейлор, похоже, проигнорировал свое собственное сообщение о кластеризации, наблюдаемом с бляшками вируса некроза табака.
После первых публикаций Тейлора было выдвинуто несколько альтернативных гипотез степенного закона. Хански предложил модель случайного блуждания, модулированную предполагаемым мультипликативным эффектом воспроизводства. Модель Хански предсказывала, что экспонента степенного закона будет ограничена близко к значению 2, что казалось несовместимым со многими сообщаемыми значениями.
Андерсон и др. Сформулировали простую стохастическую модель рождения, смерти, иммиграции и эмиграции, которая дает квадратичную функцию дисперсии. В ответ на эту модель Тейлор утверждал, что такой марковский процесс предсказал бы, что показатель степени будет значительно варьироваться между повторными наблюдениями, и что такая изменчивость не наблюдалась.
Тем не менее, примерно в это время были высказаны опасения относительно статистической изменчивости при измерениях показателя степени и возможности того, что наблюдения степенного закона могут отражать больше математических артефактов, чем механистический процесс. Тейлор и др. Ответили дополнительной публикацией обширных наблюдений, которые, как он утверждал, опровергли опасения Даунинга.
Кроме того, Тораринссон опубликовал подробную критику модели поведения животных, отметив, что Тейлор несколько раз модифицировал свою модель в ответ на высказанные опасения, и что некоторые из этих модификаций несовместимы с более ранними версиями. Тораринссон также утверждал, что Тейлор смешал количество животных с плотностью и что Тейлор неправильно интерпретировал моделирование, которое было построено для демонстрации его моделей в качестве подтверждения.
Кемп рассмотрел ряд дискретных стохастических моделей, основанных на отрицательном биномиальном распределении, распределении Неймана типа A и Пойя – Эппли, которые при соответствующей настройке параметров могут давать отклонение от среднего степенного закона. Кемп, однако, не объяснил параметризации своих моделей механистическими терминами. Затем последовали и другие относительно абстрактные модели закона Тейлора.
В отношении закона Тейлора был поднят ряд дополнительных статистических проблем, связанных с трудностями, связанными с реальными данными при различении закона Тейлора и другими функциями дисперсии к среднему, а также неточностью стандартных методов регрессии.
Отчеты также начали накапливаться там, где закон Тейлора применялся к данным временных рядов. Перри показал, как моделирование, основанное на теории хаоса, может привести к закону Тейлора, а Килпатрик и Айвз предоставили имитационное моделирование, которое показало, как взаимодействия между различными видами могут привести к закону Тейлора.
Появились и другие отчеты, в которых закон Тейлора применялся к пространственному распределению растений и бактериальных популяций. Как и в случае упомянутых ранее наблюдений вируса некроза табака, эти наблюдения не соответствовали модели поведения животных Тейлора.
Ранее упоминалось, что дисперсия для обозначения степенной функции применялась к неэкологическим системам в рамках закона Тейлора. Чтобы дать более общее объяснение диапазона проявлений степенного закона, была предложена гипотеза, основанная на распределениях Твиди, семействе вероятностных моделей, которые выражают внутреннюю зависимость степенной функции между дисперсией и средним значением. Подробности относительно этой гипотезы будут предоставлены в следующем разделе.
Другое альтернативное объяснение закона Тейлора было предложено Коэном и др. На основе модели роста Левонтина- Коэна. Эта модель была успешно использована для описания пространственной и временной изменчивости лесных популяций.
Другая статья Коэна и Сюй о том, что случайная выборка в блоках, где подчиненное распределение искажено с конечными первыми четырьмя моментами, приводит к закону Тейлора. Также были выведены приближенные формулы для параметров и их дисперсий. Эти оценки были снова проверены данными из леса Блэк-Рок и оказались в разумном согласии.
После первых публикаций Тейлора было выдвинуто несколько альтернативных гипотез степенного закона. Хански предложил модель случайного блуждания, модулированную предполагаемым мультипликативным эффектом воспроизводства. Модель Хански предсказывала, что экспонента степенного закона будет ограничена близко к значению 2, что казалось несовместимым со многими сообщаемыми значениями. Андерсон и др. Сформулировали простую стохастическую модель рождения, смерти, иммиграции и эмиграции, которая дает квадратичную функцию дисперсии. Модель роста Левонтина- Коэна. другое предлагаемое объяснение. Возникла вероятность того, что наблюдения степенного закона могут отражать больше математических артефактов, чем механистический процесс. Однако вариации в показателях закона Тейлора применительно к экологическим популяциям нельзя объяснить или предсказать, основываясь только на статистических основаниях. Исследования показали, что вариации в пределах показателей закона Тейлора для сообщества рыб Северного моря варьируются в зависимости от внешней среды, предполагая, что экологические процессы, по крайней мере, частично определяют форму закона Тейлора.
В физической литературе закон Тейлора называется масштабированием флуктуаций. Эйслер и др., В дальнейшей попытке найти общее объяснение масштабирования флуктуаций, предложили процесс, который они назвали ударной неоднородностью, в котором частые события связаны с более сильными ударами. Однако в приложении B к статье Эйслера авторы отметили, что уравнения для ударной неоднородности дают те же математические соотношения, что и для распределений Твиди.
Другая группа физиков, Фрончак и Фрончак, вывели степенной закон Тейлора для масштабирования флуктуаций из принципов равновесной и неравновесной статистической физики. Их вывод был основан на предположениях о физических величинах, таких как свободная энергия и внешнее поле, которые вызывают кластеризацию биологических организмов. Однако прямая экспериментальная демонстрация этих постулируемых физических величин по отношению к агрегации животных или растений еще не была достигнута. Вскоре после этого был представлен анализ модели Фрончака и Фрончака, который показал, что их уравнения напрямую приводят к распределениям Твиди, и это открытие предполагает, что Фрончак и Фрончак, возможно, предоставили максимальное значение энтропии для этих распределений.
Было показано, что закон Тейлора справедлив для простых чисел, не превышающих заданное действительное число. Было показано, что этот результат справедлив для первых 11 миллионов простых чисел. Если гипотеза Харди – Литтлвуда о простых числах-близнецах верна, то этот закон справедлив и для простых чисел-близнецов.
Сам закон назван в честь эколога Лайонела Роя Тейлора (1924–2007). Название закон Тейлора было придумано Саутвудом в 1966 году. Первоначальным названием Тейлора для этих отношений был закон среднего
Примерно в то время, когда Тейлор обосновывал свои экологические наблюдения, MCK Tweedie, британский статистик и медицинский физик, исследовал семейство вероятностных моделей, которые теперь известны как распределения Твиди. Как упоминалось выше, все эти распределения характеризуются дисперсией, означающей степенной закон, математически идентичный закону Тейлора.
Распределение Твиди, наиболее применимое к экологическим наблюдениям, - это составное гамма-распределение Пуассона, которое представляет собой сумму N независимых и одинаково распределенных случайных величин с гамма-распределением, где N - случайная величина, распределенная в соответствии с распределением Пуассона. В аддитивной форме его кумулянтная производящая функция (CGF):
где κ b ( θ) - кумулянтная функция,
показатель твиди
s - переменная производящей функции, а θ и λ - канонический и индексный параметры соответственно.
Эти последние два параметра аналогичны параметрам масштаба и формы, используемым в теории вероятностей. В кумулянтах этого распределения могут быть определены путем последовательных дифференциаций CGF, а затем замещающих S = 0 в полученные уравнения. Первый и второй кумулянты представляют собой среднее значение и дисперсию, соответственно, и, таким образом, составная функция Пуассона-гамма CGF дает закон Тейлора с константой пропорциональности
Сложная функция кумулятивного распределения Пуассона-гамма была проверена на ограниченных экологических данных путем сравнения теоретической функции распределения с эмпирической функцией распределения. Ряд других систем, демонстрирующих дисперсию для обозначения степенных законов, связанных с законом Тейлора, были аналогичным образом протестированы для составного гамма-распределения Пуассона.
Основное обоснование гипотезы Твиди лежит в свойствах математической сходимости распределений Твиди. Теорема Твиди о сходимости требует, чтобы распределения Твиди действовали как фокус сходимости для широкого круга статистических процессов. Как следствие этой теоремы сходимости, процессы, основанные на сумме нескольких независимых небольших скачков, будут иметь тенденцию выражать закон Тейлора и подчиняться распределению Твиди. Предельная теорема для независимых и одинаково распределенных переменных, как и теорема Твиди о сходимости, может тогда рассматриваться как фундаментальная по сравнению со специальными моделями популяции или моделями, предложенными на основе моделирования или аппроксимации.
Эта гипотеза остается спорной; Экологи предпочитают более традиционные подходы к популяционной динамике, несмотря на то, что составное распределение Пуассона Твиди может быть непосредственно применено к механизмам популяционной динамики.
Одна из трудностей с гипотезой Твиди состоит в том, что значение b не находится в диапазоне от 0 до 1. Значения b lt;1 редки, но о них сообщалось.
В символах
где s i 2 - дисперсия плотности i- го образца, m i - средняя плотность i- го образца, а a и b - константы.
В логарифмической форме
Закон Тейлора масштабно инвариантен. Если единица измерения изменяется на постоянный коэффициент c, показатель степени ( b) остается неизменным.
Чтобы увидеть это, пусть y = cx. потом
Закон Тейлора, выраженный в исходной переменной ( x), имеет вид
а в измененной переменной ( y) это
Было показано, что закон Тейлора - это единственное соотношение между средним и дисперсией, которое не зависит от масштаба.
Уточнение в оценке наклона b было предложено Рейнером.
где это Пирсон коэффициент корреляции момент между и, представляет собой отношение дисперсию образца в и и этом отношении ошибок в и.
Обычная регрессия наименьших квадратов предполагает, что φ = ∞. Это имеет тенденцию к занижению значения b, поскольку оценки обоих и подвержены ошибкам.
Феррис и др. Предложили расширение закона Тейлора, когда берутся несколько проб.
где s 2 и m - дисперсия и среднее значение соответственно, b, c и d - константы, а n - количество взятых образцов. На сегодняшний день это предлагаемое расширение не было проверено на предмет применимости исходной версии закона Тейлора.
Расширение этого закона для малых выборок было предложено Гански. Для небольших выборок вариация Пуассона ( P) - вариация, которую можно приписать вариации выборки - может быть значительной. Пусть S - общая дисперсия, а V - биологическая (реальная) дисперсия. потом
Предполагая справедливость закона Тейлора, имеем
Поскольку в распределении Пуассона среднее значение равно дисперсии, мы имеем
Это дает нам
Это очень похоже на первоначальное предложение Барлетта.
Значения наклона ( b) значительноgt; 1 указывают на скопление организмов.
В данных с распределением Пуассона b = 1. Если совокупность следует логнормальному или гамма-распределению, то b = 2.
Для популяций, которые испытывают постоянную изменчивость окружающей среды на душу населения, регрессия log (дисперсия) по сравнению с log (средняя численность) должна иметь линию с b = 2.
В большинстве изученных популяций b lt;2 (обычно 1,5–1,6), но сообщалось о значениях 2. Иногда сообщалось о случаях с b gt; 2. Значения b ниже 1 встречаются редко, но также были зарегистрированы ( b = 0,93).
Было высказано предположение, что показатель степени закона ( b) пропорционален асимметрии основного распределения. Это предложение подверглось критике: вроде бы указывается дополнительная работа.
Происхождение наклона ( b) в этой регрессии остается неясным. Для его объяснения были предложены две гипотезы. Один предполагает, что b возникает из-за поведения вида и является константой для этого вида. Альтернатива предполагает, что это зависит от выборки населения. Несмотря на большое количество исследований, проведенных по этому закону (более 1000), этот вопрос остается открытым.
Известно, что как a, так и b могут изменяться из-за разброса по возрасту, смертности и размера единицы выборки.
Этот закон может плохо подходить, если значения небольшие. По этой причине Хански предложил расширение закона Тейлора, которое улучшает соответствие закона Тейлора при низких плотностях.
Была предложена форма закона Тейлора, применимая к двоичным данным в кластерах (уравнение, квадраты). В биномиальном распределении теоретическая дисперсия составляет
где (var bin) - биномиальная дисперсия, n - размер выборки на кластер, а p - доля людей с признаком (например, болезнью), оценка вероятности наличия этого признака у человека.
Одна из трудностей с двоичными данными заключается в том, что среднее значение и дисперсия, как правило, имеют определенную взаимосвязь: по мере того, как средняя доля инфицированных людей увеличивается выше 0,5, дисперсия уменьшается.
Теперь известно, что наблюдаемая дисперсия (var obs) изменяется как степенная функция от (var bin).
Хьюз и Мэдден отметили, что если распределение является пуассоновским, среднее значение и дисперсия равны. Поскольку это явно не так во многих наблюдаемых пропорциональных выборках, вместо этого они предположили биномиальное распределение. Они заменили среднее значение в законе Тейлора биномиальной дисперсией, а затем сравнили эту теоретическую дисперсию с наблюдаемой дисперсией. Для биномиальных данных они показали, что var obs = var bin с избыточной дисперсией, var obs gt; var bin.
В символах модификация Хьюзом и Мэдденом закона Тиалора была
В логарифмической форме это соотношение имеет вид
Эта последняя версия известна как двоичный степенной закон.
Ключевым шагом в выводе бинарного степенного закона Хьюзом и Мэдденом было наблюдение Патил и Стителер о том, что отношение дисперсии к среднему, используемое для оценки чрезмерной дисперсии неограниченных количеств в одной выборке, на самом деле является отношением двух дисперсии: наблюдаемая дисперсия и теоретическая дисперсия для случайного распределения. Для неограниченных подсчетов случайным распределением является пуассоновское распределение. Таким образом, степенной закон Тейлора для набора выборок можно рассматривать как связь между наблюдаемой дисперсией и дисперсией Пуассона.
В более широком смысле Мэдден и Хьюз рассматривали степенной закон как взаимосвязь между двумя дисперсиями, наблюдаемой дисперсией и теоретической дисперсией для случайного распределения. Для двоичных данных случайное распределение является биномиальным (а не пуассоновским). Таким образом, степенной закон Тейлора и двоичный степенной закон являются двумя частными случаями общих степенных соотношений для неоднородности.
Когда и a, и b равны 1, предлагается мелкомасштабный случайный пространственный образец, который лучше всего описывается биномиальным распределением. Когда b = 1 и a gt; 1, наблюдается чрезмерная дисперсия (мелкомасштабная агрегация). Когда b gt; 1, степень агрегации зависит от p. Туречек и др. Показали, что двоичный степенной закон описывает многочисленные наборы данных в патологии растений. Как правило, b больше 1 и меньше 2.
Соответствие этого закона было проверено моделированием. Эти результаты предполагают, что вместо одной линии регрессии для набора данных сегментная регрессия может быть лучшей моделью для действительно случайных распределений. Однако эта сегментация происходит только для очень коротких расстояний распространения и больших квадратов. Обрыв линии происходит только при p, очень близком к 0.
Было предложено расширение этого закона. Первоначальная форма этого закона симметрична, но может быть расширена до асимметричной формы. Используя моделирование, симметричная форма соответствует данным, когда имеется положительная корреляция статуса болезни соседей. Если существует отрицательная корреляция между вероятностью заражения соседей, асимметричная версия лучше подходит для данных.
Из-за повсеместного распространения закона Тейлора в биологии он нашел множество применений, некоторые из которых перечислены здесь.
Это было рекомендовано на основе исследований моделирования в приложениях, проверяющих законность Тейлора на выборке данных, которая:
(1) общее количество изученных организмов должно бытьgt; 15 (2) минимальное количество изученных групп организмов должно бытьgt; 5 (3) плотность организмов должна варьироваться по крайней мере на 2 порядка в пределах выборки
Принято считать (по крайней мере, изначально), что популяция случайным образом распределена в окружающей среде. Если популяция распределена случайным образом, то среднее ( m) и дисперсия ( s 2) популяции равны, а доля выборок, содержащих хотя бы одну особь ( p), равна
Когда вид с комковидной структурой сравнивается с видом, который распределен случайным образом с одинаковой общей плотностью, p будет меньше для вида, имеющего сгущенную структуру распределения. И наоборот, при сравнении равномерно и случайно распределенных видов, но при одинаковой общей плотности, p будет больше для случайно распределенной популяции. Это можно проверить графически, построив график зависимости p от m.
Уилсон и Рум разработали биномиальную модель, включающую закон Тейлора. Основные отношения
где бревно ведется в основание e.
Включая закон Тейлора, эти отношения становятся
Общий параметр дисперсии ( k) отрицательного биномиального распределения равен
где - выборочное среднее, а - дисперсия. Если 1 / k gt; 0, совокупность считается агрегированной; 1 / k = 0 ( s 2 = m) популяция считается распределенной случайным образом (Пуассон), и если 1 / k lt;0, совокупность считается равномерно распределенной. Никаких комментариев по поводу распределения делать нельзя, если k = 0.
Уилсон и Рум, предположив, что закон Тейлора применим к населению, дали альтернативную оценку для k:
где a и b - константы из закона Тейлора.
Джонс, используя оценку k, приведенную выше, вместе с соотношением, разработанным Уилсоном и Румом для вероятности обнаружения выборки, содержащей хотя бы одного человека.
получили оценку вероятности выборки, содержащей x человек на единицу выборки. Формула Джонса
где P ( x) - вероятность найти x особей на единицу выборки, k оценивается по уравнению Уилона и Рома, а m - выборочное среднее. Вероятность найти ноль особей P (0) оценивается с помощью отрицательного биномиального распределения
Джонс также дает доверительные интервалы для этих вероятностей.
где CI - доверительный интервал, t - критическое значение, взятое из распределения t, а N - общий размер выборки.
Кац предложил семейство распределений (семейство Каца ) с двумя параметрами ( w 1, w 2). Это семейство распределений включает в себя распределения Бернулли, геометрические, Паскаля и Пуассона в качестве частных случаев. Среднее значение и дисперсия распределения Каца равны
где m - среднее значение, а s 2 - дисперсия выборки. Параметры можно оценить методом моментов, из которых имеем
Для распределения Пуассона w 2 = 0 и w 1 = λ параметр распределения Пуассона. Это семейство дистрибутивов также иногда называют семейством дистрибутивов Panjer.
Семейство Кац связано с семейством распределений Sundt-Jewel:
Единственными членами семейства Sundt-Jewel являются распределения Пуассона, биномиальные, отрицательные биномиальные (Паскаль), расширенные усеченные отрицательные биномиальные и логарифмические ряды.
Если популяция подчиняется распределению Каца, то коэффициенты закона Тейлора равны
Кац также представил статистический тест.
где J n - статистика теста, s 2 - дисперсия выборки, m - среднее значение выборки, а n - размер выборки. J n асимптотически нормально распределено с нулевым средним и единичной дисперсией. Если образец имеет распределение Пуассона J n = 0; значения J n lt;0 иgt; 0 указывают на недостаточную и большую дисперсию соответственно. Чрезмерная дисперсия часто вызвана скрытой неоднородностью - наличием нескольких субпопуляций в популяции, из которой отбирается выборка.
Эта статистика связана со статистикой Неймана – Скотта.
который, как известно, является асимптотически нормальным, и условной статистикой хи-квадрат (тест дисперсии Пуассона)
которое, как известно, имеет асимптотическое распределение хи-квадрат с n - 1 степенями свободы при распределении Пуассона.
Если население подчиняется закону Тейлора, тогда
Если предположить, что применяется закон Тейлора, можно определить среднее время до местного исчезновения. Эта модель предполагает простое случайное блуждание во времени и отсутствие регулирования численности населения, зависящего от плотности.
Пусть где N t +1 и N t - размеры популяции в момент времени t + 1 и t соответственно, а r - параметр, равный ежегодному приросту (уменьшению популяции). потом
где дисперсия.
Позвольте быть мерой численности вида (организмов на единицу площади). потом
где T E - среднее время до местного вымирания.
Вероятность вымирания к моменту t равна
Если популяция распределена логнормально, то среднее гармоническое значение размера популяции ( H) связано со средним арифметическим ( m).
Учитывая, что H должно бытьgt; 0 для сохранения популяции, при перегруппировке мы имеем
это минимальный размер популяции для сохранения вида.
Предположение о логнормальном распределении применимо примерно к половине выборки из 544 видов. предполагая, что это, по крайней мере, правдоподобное предположение.
Степень точности ( D) определяется как s / m, где s - стандартное отклонение, а m - среднее значение. Степень точности в других контекстах называется коэффициентом вариации. В экологических исследованиях рекомендуется, чтобы D находилась в диапазоне 10–25%. Желаемая степень точности важна при оценке требуемого размера выборки, если исследователь хочет проверить, применим ли к данным закон Тейлора. Требуемый размер выборки был оценен для ряда простых распределений, но там, где распределение населения неизвестно или не может предполагаться, могут потребоваться более сложные формулы для определения требуемого размера выборки.
Если генеральная совокупность распределена по Пуассону, необходимый размер выборки ( n) равен
где t - критический уровень t-распределения для ошибки 1-го типа со степенями свободы, по которым вычислялось среднее значение ( m).
Если совокупность распределена как отрицательное биномиальное распределение, то требуемый размер выборки составляет
где k - параметр отрицательного биномиального распределения.
Также была предложена более общая оценка размера выборки.
где a и b получены из закона Тейлора.
Альтернатива была предложена Саутвудом
где n - требуемый размер выборки, a и b - коэффициенты закона Тейлора, а D - желаемая степень точности.
Карандинос предложил две аналогичные оценки для n. Первый был изменен Ruesink, чтобы включить закон Тейлора.
где d - отношение половины желаемого доверительного интервала ( ДИ) к среднему значению. В символах
Второй оценщик используется при биномиальной выборке (присутствие-отсутствие). Желаемый размер выборки ( n) равен
где d p - это отношение половины желаемого доверительного интервала к доле единиц выборки с индивидуумами, p - доля проб, содержащих индивидуумы, а q = 1 - p. В символах
Для бинарной выборки (наличие / отсутствие) Шультесс и др. Модифицировали уравнение Карандиноса.
где N - требуемый размер выборки, p - доля единиц, содержащих интересующие организмы, t - выбранный уровень значимости, а D ip - параметр, полученный из закона Тейлора.
Последовательный анализ - это метод статистического анализа, при котором размер выборки заранее не фиксируется. Вместо этого образцы берутся в соответствии с заранее определенным правилом остановки. Закон Тейлора был использован для вывода ряда правил остановки.
Формула фиксированной точности в последовательной выборке для проверки закона Тейлора была выведена Грином в 1970 году.
где T - совокупная сумма выборки, D - уровень точности, n - размер выборки, а a и b получены из закона Тейлора.
В качестве помощи в борьбе с вредителями Уилсон и др. Разработали тест, который включал пороговый уровень, при котором следует предпринять действия. Требуемый размер выборки составляет
где a и b - коэффициенты Тейлора, || - абсолютное значение, m - выборочное среднее, T - пороговый уровень, а t - критический уровень t-распределения. Авторы также предоставили аналогичный тест для биномиальной выборки (присутствие-отсутствие).
где p - вероятность найти образец с присутствующими вредителями, а q = 1 - p.
Грин вывел другую формулу выборки для последовательной выборки на основе закона Тейлора.
где D - степень точности, a и b - коэффициенты закона Тейлора, n - размер выборки, а T - общее количество выбранных лиц.
Серра и др. Предложили правило остановки, основанное на законе Тейлора.
где a и b - параметры из закона Тейлора, D - желаемый уровень точности, а T n - общий размер выборки.
Серра и др. Также предложили второе правило остановки, основанное на регрессии Ивоа.
где α и β - параметры линии регрессии, D - желаемый уровень точности, а T n - общий размер выборки.
Авторы рекомендовали установить D на 0,1 для исследований динамики популяции и D = 0,25 для борьбы с вредителями.
Считается хорошей практикой оценить по крайней мере один дополнительный анализ агрегирования (кроме закона Тейлора), поскольку использование только одного индекса может вводить в заблуждение. Хотя был предложен ряд других методов для обнаружения взаимосвязи между дисперсией и средним значением в биологических образцах, на сегодняшний день ни один из них не достиг популярности закона Тейлора. Наиболее популярным анализом, используемым в сочетании с законом Тейлора, является, вероятно, регрессионный тест на пятнистость штата Айова, но все перечисленные здесь методы использовались в литературе.
Барлетт в 1936 году и позже Яво независимо друг от друга в 1968 году предложили альтернативное соотношение между дисперсией и средним значением. В символах
где s - дисперсия в i- й выборке, а m i - среднее значение в i- й выборке.
Когда популяция следует отрицательному биномиальному распределению, a = 1 и b = k (показатель степени отрицательного биномиального распределения).
Эта альтернативная формулировка не так хорошо подходит, как закон Тейлора, в большинстве исследований.
Нахман предложил связь между средней плотностью и долей образцов с нулевым счетом:
где p 0 - доля образца с нулевым счетчиком, m - средняя плотность, a - параметр масштаба, а b - параметр дисперсии. Если a = b = 0, распределение случайное. Это соотношение обычно проверяется в логарифмической форме.
Allsop использовал это соотношение вместе с законом Тейлора, чтобы получить выражение для доли зараженных единиц в выборке.
куда
где D 2 - желаемая степень точности, z α / 2 - верхний угол α / 2 нормального распределения, a и b - коэффициенты закона Тейлора, c и d - коэффициенты Нахмана, n - размер выборки, а N - количество зараженных единиц.
Двоичный отбор образцов нередко используется в экологии. В 1958 году Коно и Сугино вывели уравнение, которое связывает долю выборок без особей со средней плотностью выборок.
где p 0 - доля выборки без особей, m - средняя плотность выборки, a и b - константы. Как и закон Тейлора, это уравнение подходит для различных групп населения, включая те, которые подчиняются закону Тейлора. В отличие от отрицательного биномиального распределения эта модель не зависит от средней плотности.
Вывод этого уравнения несложен. Пусть доля пустых единиц равна p 0, и предположим, что они распределены экспоненциально. потом
Взяв бревна дважды и переставив, мы получим приведенное выше уравнение. Эта модель аналогична предложенной Нахманом.
Преимущество этой модели состоит в том, что она не требует подсчета особей, а требует их наличия или отсутствия. Подсчет особей может оказаться невозможным во многих случаях, особенно когда изучаются насекомые.
Уравнение было получено при исследовании взаимосвязи между долей P в серии зараженных рисовых холмов и средней серьезностью заражения m. Изучаемая модель была
где a и b - эмпирические константы. На основе этой модели были выведены константы a и b и подготовлена таблица, связывающая значения P и m
Прогнозируемые оценки m из этого уравнения подвержены систематической ошибке, и вместо этого рекомендуется использовать скорректированное среднее значение ( m a).
где var - дисперсия средних значений единицы выборки m i, а m - общее среднее значение.
Альтернативная корректировка средних оценок:
где MSE - среднеквадратичная ошибка регрессии.
Эту модель также можно использовать для оценки стоп-линий для счетной (последовательной) выборки. Дисперсия оценочных средних составляет
куда
где MSE - среднеквадратичная ошибка регрессии, α и β - константа и наклон регрессии соответственно, s β 2 - дисперсия наклона регрессии, N - количество точек в регрессии, n - количество единиц выборки, а p - среднее значение p 0 в регрессии. Параметры a и b оцениваются по закону Тейлора:
Хьюз и Мэдден предложили проверить аналогичную взаимосвязь, применимую к бинарным наблюдениям в кластере, где каждый кластер содержит от 0 до n индивидуумов.
где a, b и c - константы, var obs - наблюдаемая дисперсия, а p - доля людей с признаком (например, болезнью), оценка вероятности индивидуума с признаком. В логарифмической форме это соотношение имеет вид
В большинстве случаев предполагается, что b = c, что приводит к простой модели
Эта связь была подвергнута менее тщательной проверке, чем закон Тейлора. Однако он точно описал более 100 наборов данных, и нет опубликованных примеров, свидетельствующих о том, что это не работает.
Вариант этого уравнения был предложен Shiyomi et al. () кто предложил проверить регрессию
где var obs - дисперсия, a и b - константы регрессии, n - размер выборки (не выборка на кластер), а p - вероятность того, что выборка будет содержать хотя бы одного человека.
Также была предложена отрицательная биномиальная модель. Параметр дисперсии ( k) с использованием метода моментов равен m 2 / ( s 2 - m), а p i - это доля выборок со счетамиgt; 0. s 2, используемые при вычислении k, являются значениями, предсказанными законом Тейлора.. p i наносится на график относительно 1 - ( k ( k + m) −1) k, и соответствие данных проверяется визуально.
Перри и Тейлор предложили альтернативную оценку k, основанную на законе Тейлора.
Более точную оценку параметра дисперсии можно сделать методом максимального правдоподобия. Для отрицательного бинома это можно оценить из уравнения
где A x - общее количество выборок с более чем x особями, N - общее количество особей, x - количество особей в выборке, m - среднее количество особей в выборке, а k - показатель степени. Значение k необходимо оценить численно.
Соответствие этой модели можно проверить несколькими способами, в том числе с помощью критерия хи-квадрат. Поскольку они могут быть смещены небольшими выборками, альтернативой является статистика U - разница между дисперсией, ожидаемой при отрицательном биномиальном распределении, и дисперсией выборки. Ожидаемая дисперсия этого распределения составляет m + m 2 / k и
где s 2 - выборочная дисперсия, m - выборочное среднее, а k - отрицательный биномиальный параметр.
Дисперсия U равна
где p = m / k, q = 1 + p, R = p / q и N - общее количество особей в выборке. Ожидаемое значение U равно 0. Для больших размеров выборки U распределяется нормально.
Примечание: отрицательный бином на самом деле представляет собой семейство распределений, определяемых отношением среднего значения к дисперсии.
где a и p - постоянные. Когда a = 0, это определяет распределение Пуассона. При p = 1 и p = 2 распределение известно как распределение NB1 и NB2 соответственно.
Эта модель является версией модели, предложенной ранее Барлеттом.
Параметр дисперсии ( k) равен
где m - выборочное среднее, а s 2 - дисперсия. Если k −1 gt; 0, совокупность считается агрегированной; k −1 = 0 популяция считается случайной; и если k −1 lt;0, популяция считается равномерно распределенной.
Саутвуд рекомендовал регрессировать k против среднего и постоянного
где k i и m i - параметр дисперсии и среднее значение i-го образца, соответственно, для проверки существования общего параметра дисперсии ( k c). Значение наклона ( b) значительноgt; 0 указывает на зависимость k от средней плотности.
Альтернативный метод был предложен Эллиотом, который предложил строить график ( s 2 - m) против ( m 2 - s 2 / n). k c равно 1 / наклон этой регрессии.
Этот коэффициент ( C) определяется как
Если можно предположить, что популяция распределена отрицательно биномиальным образом, тогда C = 100 (1 / k) 0,5, где k - параметр дисперсии распределения.
Этот индекс ( I c) определяется как
Обычно этот индекс интерпретируется следующим образом: значения I c lt;1, = 1,gt; 1 означают равномерное распределение, случайное распределение или агрегированное распределение.
Поскольку s 2 = Σ x 2 - (Σx) 2, индекс также можно записать
Если можно предположить, что закон Тейлора выполняется, то
Индекс средней скученности Ллойда ( IMC) - это среднее количество других точек, содержащихся в единице выборки, содержащей случайно выбранную точку.
где m - выборочное среднее, а s 2 - дисперсия.
Индекс неоднородности ( IP) Ллойда равен
Это показатель интенсивности рисунка, на который не влияет прореживание (случайное удаление точек). Этот индекс также был предложен Пиелу в 1988 году и иногда также известен под этим именем.
Поскольку оценку дисперсии IP чрезвычайно сложно оценить по самой формуле, LLyod предложил подгонять к данным отрицательное биномиальное распределение. Этот метод дает параметр k
потом
где стандартная ошибка индекса пятнистости, является дисперсией параметра к и д есть число quadrats дискретизированного..
Если население подчиняется закону Тейлора, тогда
Ивао предложил регрессию пятнистости для проверки скопления
Позволять
y i вот индекс средней загруженности Ллойда. Выполните обычную регрессию методом наименьших квадратов m i против y.
В этой регрессии значение наклона ( b) является индикатором скопления: наклон = 1, если данные распределены по Пуассону. Константа ( а) - это количество особей, которые разделяют единицу среды обитания с бесконечно малой плотностью, и может быть lt;0, 0 илиgt; 0. Эти значения представляют собой регулярность, случайность и агрегацию популяций в пространственных структурах соответственно. Значение a lt;1 означает, что основной единицей распределения является отдельное лицо.
Если статистика s 2 / m непостоянна, вместо нее рекомендуется использовать регрессию индекса Ллойда по отношению к am + bm 2, где a и b - константы.
Размер выборки ( n) для данной степени точности ( D) для этой регрессии определяется выражением
где a - константа в этой регрессии, b - наклон, m - среднее значение, а t - критическое значение t-распределения.
Иаво предложил тест с последовательной выборкой, основанный на этой регрессии. Верхний и нижний пределы этого теста основаны на критических плотностях m c, когда борьба с вредным организмом требует принятия мер.
где N u и N l - верхняя и нижняя границы соответственно, a - константа регрессии, b - наклон, а i - количество выборок.
Куно предложил альтернативный тест последовательной остановки, также основанный на этой регрессии.
где T n - общий размер выборки, D - степень точности, n - количество единиц выборки, a - константа, а b - крутизна регрессии соответственно.
Тест Куно подчиняется условию, что n ≥ ( b - 1) / D 2
Паррелла и Джонс предложили альтернативную, но связанную стоп-линию
где a и b - параметры регрессии, N - максимальное количество единиц выборки, а n - размер индивидуальной выборки.
Индекс дисперсии Мориситы ( I m) - это масштабированная вероятность того, что две точки, выбранные случайным образом из всей совокупности, находятся в одной и той же выборке. Более высокие значения указывают на более сгущенное распределение.
Альтернативная формулировка:
где n - общий размер выборки, m - среднее значение выборки, а x - отдельные значения с суммой, взятой по всей выборке. Он также равен
где IMC - индекс скученности Ллойда.
Этот индекс относительно не зависит от плотности населения, но зависит от размера выборки. Значенияgt; 1 указывают на скопление; значения lt;1 указывают на однородность распределения, а значение 1 указывает на случайную выборку.
Морисита показал, что статистика
распределяется как переменная хи-квадрат с n - 1 степенями свободы.
Альтернативный критерий значимости этого индекса был разработан для больших выборок.
где m - общее среднее значение выборки, n - количество единиц выборки, а z - абсцисса нормального распределения. Значимость проверяется путем сравнения значения z со значениями нормального распределения.
Функция для ее расчета можно найти в статистическом языке R. Функция R
Обратите внимание: не путать с индексом перекрытия Мориситы.
Смит-Гилл разработал статистику, основанную на индексе Мориситы, который не зависит ни от размера выборки, ни от плотности населения и ограничен значениями -1 и +1. Эта статистика рассчитывается следующим образом
Сначала определите индекс Мориситы ( I d) обычным способом. Тогда пусть k будет количеством единиц, из которых была произведена выборка населения. Рассчитайте два критических значения
где χ 2 - значение хи-квадрат для n - 1 степеней свободы при уровнях достоверности 97,5% и 2,5%.
Затем рассчитывается стандартизованный индекс ( I p) по одной из формул, приведенных ниже.
Когда I d ≥ M c gt; 1
Когда M c gt; I d ≥ 1
Когда 1gt; I d ≥ M u
Когда 1gt; M u gt; I d
I p находится в диапазоне от +1 до -1 с 95% доверительным интервалом ± 0,5. I p имеет значение 0, если шаблон случайный; если шаблон однороден, I p lt;0, и если шаблон показывает агрегацию, I p gt; 0.
Индекс пространственной агрегации Саутвуда ( k) определяется как
где m - среднее значение выборки, а m * - индекс скученности Ллойда.
Индекс дисперсии Фишера равен
Этот индекс можно использовать для проверки чрезмерной дисперсии населения. Рекомендуется, чтобы в приложениях ngt; 5 и чтобы общее количество образцов, разделенное на количество образцов, былоgt; 3. В символах
где x - индивидуальное значение выборки. Математическое ожидание индекса равно n, и он распределяется как распределение хи-квадрат с n - 1 степенями свободы, когда совокупность распределена Пуассона. Он равен параметру масштаба, когда популяция подчиняется гамма-распределению.
Его можно применять как к генеральной совокупности, так и к отдельным районам, отобранным индивидуально. Использование этого теста на отдельных участках выборки также должно включать использование поправочного коэффициента Бонферрони.
Если население подчиняется закону Тейлора, тогда
Индекс размера кластера ( ICS) был создан Дэвидом и Муром. Ожидается, что при случайном распределении (Пуассона) ICS будет равно 0. Положительные значения указывают на сгруппированное распределение; отрицательные значения указывают на равномерное распределение.
где s 2 - дисперсия, m - среднее значение.
Если население подчиняется закону Тейлора
ИКС также равен тестовая статистика Каца, деленной на ( п / 2) 1/2, где п является размером выборки. Это также связано со статистикой теста Клэпхэма. Его также иногда называют индексом слипания.
Индекс Грина ( GI) представляет собой модификацию индекса размера кластера, который не зависит от п числа единиц выборки.
Этот индекс равен 0, если распределение является случайным, 1, если оно максимально агрегировано, и -1 / ( нм - 1), если оно равномерно.
Распределение индекса Грина в настоящее время неизвестно, поэтому для него было сложно разработать статистические тесты.
Если население подчиняется закону Тейлора
Двоичная выборка (наличие / отсутствие) часто используется там, где трудно получить точные подсчеты. Индекс рассеивания ( D) используется, когда исследуемая популяция делится на серию равных выборок (количество единиц = N: количество единиц в выборке = n: общая численность населения = n x N). Теоретическое отклонение выборки от совокупности с биномиальным распределением составляет
где s 2 - дисперсия, n - количество единиц выборки, а p - средняя доля единиц выборки, в которых присутствует по крайней мере один человек. Индекс рассеивания ( D) определяется как отношение наблюдаемой дисперсии к ожидаемой дисперсии. В символах
где var obs - наблюдаемая дисперсия, а var bin - ожидаемая дисперсия. Ожидаемая дисперсия рассчитывается по общему среднему значению для генеральной совокупности. Считается, что значения D gt; 1 предполагают агрегацию. D ( n - 1) распределяется как переменная хи-квадрат с n - 1 степенями свободы, где n - количество отобранных единиц.
Альтернативный тест - тест C.
где D - индекс рассеивания, n - количество единиц в выборке, а N - количество выборок. C распространяется нормально. Статистически значимое значение C указывает на чрезмерную дисперсию населения.
D также связано с внутриклассовой корреляцией ( ρ), которая определяется как
где T - количество организмов в образце, p - вероятность наличия у организма искомого свойства (заболевание, отсутствие вредителей и т. д.), а x i - количество организмов в i- й единице с этим свойством. T должен быть одинаковым для всех единиц выборки. В этом случае с константой n
Если данные можно сопоставить с бета-биномиальным распределением, тогда
где θ - параметр распределения.
Ма предложил параметр ( m 0) - критическую плотность скопления населения - чтобы связать плотность населения с законом Тейлора.
Известен ряд статистических тестов, которые могут быть полезны в приложениях.
Связанная статистика, предложенная де Оливерией, - это разница между дисперсией и средним значением. Если популяция распределена по Пуассону, то
где t - параметр Пуассона, s 2 - дисперсия, m - среднее значение, а n - размер выборки. Ожидаемое значение s 2 - m равно нулю. Эта статистика распределяется нормально.
Если оценить параметр Пуассона в этом уравнении, положив t = m, после небольших манипуляций эту статистику можно записать
Это почти идентично статистике Каца с заменой n ( n - 1). Опять же, O T имеет нормальное распределение со средним 0 и единичной дисперсией для больших n. Эта статистика совпадает со статистикой Неймана-Скотта.
де Оливериа фактически предположил, что дисперсия s 2 - m составляла (1-2 t 1/2 + 3 t) / n, где t - параметр Пуассона. Он предположил, что t можно оценить, положив его равным среднему значению ( m) выборки. Дальнейшее исследование, проведенное Бенингом, показало, что эта оценка дисперсии неверна. Поправка Бохинга приведена в приведенных выше уравнениях.
В 1936 году Клэпхэм предложил использовать отношение дисперсии к среднему в качестве тестовой статистики (относительной дисперсии). В символах
Для распределения Possion это отношение равно 1. Чтобы проверить отклонения от этого значения, он предложил проверить его значение по распределению хи-квадрат с n степенями свободы, где n - количество единиц выборки. Распределение этой статистики было дополнительно изучено Блэкманом, который отметил, что она была приблизительно нормально распределена со средним значением 1 и дисперсией ( V θ)
Вывод дисперсии был повторно проанализирован Бартлеттом, который считал, что это
Для больших выборок эти две формулы примерно совпадают. Этот тест связан с более поздней статистикой Каца J n.
Если население подчиняется закону Тейлора, тогда
Также было опубликовано уточнение этого теста. Авторы отметили, что исходный тест имеет тенденцию обнаруживать избыточную дисперсию в более высоких масштабах, даже если этого не было в данных. Они отметили, что использование полиномиального распределения может быть более подходящим, чем использование распределения Пуассона для таких данных. Статистика θ распределяется
где N - количество единиц выборки, n - общее количество исследованных выборок, а x i - отдельные значения данных.
Математическое ожидание и дисперсия θ равны
Для больших N E ( θ) приблизительно равно 1 и
Если количество отобранных особей ( n) велико, эта оценка дисперсии согласуется с полученными ранее. Однако для небольших выборок эти последние оценки более точны, и их следует использовать.