Индекс разнообразия

редактировать
Количественный показатель, отражающий, сколько разных типов содержится в наборе данных

A индекс разнообразия (также называемый филогенетическим или индекс разнообразия Симпсона ) - это количественный показатель, который отражает количество различных типов (например, видов ) в наборе данных (сообществе) и который может одновременно учитывать филогенетические отношения между индивидуумами, распределенными между этими типами, такие как богатство, дивергенция или равномерность. Эти индексы являются статистическими представлениями биоразнообразия в различных аспектах (богатство, равномерность и доминирование ).

Содержание
  • 1 Богатство
  • 2 Индекс Шеннона
    • 2.1 Энтропия Реньи
  • 3 Индекс Симпсона
    • 3.1 Обратный индекс Симпсона
    • 3.2 Индекс Джини – Симпсона
  • 4 Индекс Бергера – Паркера
  • 5 Эффективное количество видов или количество холмов
  • 6 См. Также
  • 7 Ссылки
  • 8 Дополнительная литература
  • 9 Внешние ссылки
Богатство

Богатство R просто количественно определяет количество различные типы, которые содержит интересующий набор данных. Например, видовое богатство (обычно обозначаемое буквой S) набора данных - это количество различных видов в соответствующем списке видов. Богатство - это простая мера, поэтому он стал популярным индексом разнообразия в экологии, где данные о численности часто недоступны для интересующих наборов данных. Поскольку богатство не принимает во внимание изобилие типов, это не то же самое, что разнообразие, которое действительно принимает во внимание изобилие. Однако, если истинное разнообразие рассчитывается с q = 0, эффективное количество типов (D) равно фактическому количеству типов (R).

Индекс Шеннона

Индекс Шеннона был популярный индекс разнообразия в экологической литературе, где он также известен как индекс разнообразия Шеннона, индекс Шеннона– Винера, индекс Шеннона– Уивера и энтропия Шеннона. Изначально эта мера была предложена Клодом Шенноном для количественной оценки энтропии (неопределенности или информационного содержания) в строках текста. Идея состоит в том, что чем больше разных букв и чем больше их пропорциональное количество в интересующей строке, тем труднее правильно предсказать, какая буква будет следующей в строке. Энтропия Шеннона количественно определяет неопределенность (энтропию или степень неожиданности), связанную с этим предсказанием. Чаще всего он рассчитывается следующим образом:

H '= - ∑ i = 1 R pi ln ⁡ pi {\ displaystyle H' = - \ sum _ {i = 1} ^ {R} p_ {i} \ ln p_ {i}}H'=-\sum _{i=1}^{R}p_{i}\ln p_{i}

где p i - пропорция символов, принадлежащих i-му типу буквы в интересующей строке. В экологии p i часто представляет собой долю особей, принадлежащих к i-му виду в интересующем наборе данных. Затем энтропия Шеннона количественно определяет неопределенность в прогнозировании видовой принадлежности особи, которая случайным образом выбирается из набора данных.

Хотя здесь уравнение записано с натуральными логарифмами, основание логарифма, используемое при вычислении энтропии Шеннона, может быть выбрано произвольно. Сам Шеннон обсуждал основания логарифмов 2, 10 и e, и с тех пор они стали самыми популярными основаниями в приложениях, использующих энтропию Шеннона. Каждая логическая база соответствует разным единицам измерения, которые называются двоичными цифрами (битами), десятичными цифрами (decits) и натуральными цифрами (nats) для оснований 2, 10 и e соответственно. Сравнение значений энтропии Шеннона, которые были первоначально рассчитаны с разными логарифмическими базами, требует их преобразования в одну и ту же логарифмическую базу: переход от базы a к базе b получается с умножением на log ba.

Было показано, что индекс Шеннона основан на средневзвешенное геометрическое пропорциональной численности типов, равное логарифму истинного разнообразия, вычисленного с q = 1:

H ′ = - ∑ i = 1 R pi ln ⁡ pi = - ∑ я знак равно 1 р пер ⁡ пипи {\ displaystyle H '= - \ sum _ {я = 1} ^ {R} p_ {i} \ ln p_ {i} = - \ sum _ {i = 1} ^ { R} \ ln p_ {i} ^ {p_ {i}}}H'=-\sum _{i=1}^{R}p_{i}\ln p_{i}=-\sum _{i=1}^{R}\ln p_{i}^{p_{i}}

Это также можно записать

H ′ = - (ln ⁡ p 1 p 1 + ln ⁡ p 2 p 2 + ln ⁡ p 3 п 3 + ⋯ + пер п р р п R) {\ displaystyle H '= - (\ ln p_ {1} ^ {p_ {1}} + \ ln p_ {2} ^ {p_ {2}} + \ ln p_ {3} ^ {p_ {3}} + \ cdots + \ ln p_ {R} ^ {p_ {R}})}H'=-(\ln p_{1}^{p_{1}}+\ln p_{2}^{p_{2}}+\ln p_{3}^{p_{3}}+\cdots +\ln p_{R}^{p_{R}})

, что равно

H ′ = - ln ⁡ p 1 p 1 p 2 п 2 п 3 п 3 ⋯ п р п р знак равно пер ⁡ (1 п 1 п 1 п 2 п 2 п 3 п 3 ⋯ п р п р) = пер (1 ∏ я = 1 р пипи) {\ Displaystyle H '= - \ ln p_ {1} ^ {p_ {1}} p_ {2} ^ {p_ {2}} p_ {3} ^ {p_ {3}} \ cdots p_ {R} ^ {p_ {R}} = \ ln \ left ({1 \ over p_ {1} ^ {p_ {1}} p_ {2} ^ {p_ {2}} p_ {3} ^ {p_ { 3}} \ cdots p_ {R} ^ {p_ {R}}} \ right) = \ ln \ left ({1 \ over {\ prod _ {i = 1} ^ {R} p_ {i} ^ {p_ {i}}}} \ right)}H'=-\ln p_{1}^{p_{1}}p_{2}^{p_{2}}p_{3}^{p_{3}}\cdots p_{R}^{p_{R}}=\ln \left({1 \over p_{1}^{p_{1}}p_{2}^{p_{2}}p_{3}^{p_{3}}\cdots p_{R}^{p_{R}}}\right)=\ln \left({1 \over {\prod _{i=1}^{R}p_{i}^{p_{i}}}}\right)

Поскольку сумма значений p i по определению равна единице, знаменатель равен средневзвешенному геометрическому значению p i, причем сами значения p i используются в качестве весовых коэффициентов (показателей степени в уравнении). Термин в скобках, следовательно, равен истинному разнообразию D, а H 'равно ln (D).

Когда все типы в интересующем наборе данных одинаковы, все значения p i равны 1 / R, и, следовательно, индекс Шеннона принимает значение ln (R). Чем более неравномерно содержание типов, тем больше средневзвешенное геометрическое значение p i и меньше соответствующая энтропия Шеннона. Если практически все изобилие сосредоточено на одном типе, а другие типы очень редки (даже если их много), энтропия Шеннона приближается к нулю. Когда в наборе данных только один тип, энтропия Шеннона в точности равна нулю (нет никакой неопределенности в предсказании типа следующей случайно выбранной сущности).

энтропия Реньи

энтропия Реньи - это обобщение энтропии Шеннона на другие значения q, кроме единицы. Его можно выразить так:

q H = 1 1 - q ln ⁡ (∑ i = 1 R piq) {\ displaystyle {} ^ {q} H = {\ frac {1} {1-q}} \; \ ln \ left (\ sum _ {i = 1} ^ {R} p_ {i} ^ {q} \ right)}{} ^ {q} H = {\ frac {1} {1 -q}} \; \ ln \ left (\ sum _ {i = 1} ^ {R} p_ {i} ^ {q} \ right)

, что равно

q H = ln ⁡ (1 ∑ i = 1 R pipiq - 1 q - 1) знак равно пер ⁡ (q D) {\ displaystyle {} ^ {q} H = \ ln \ left ({1 \ над {\ sqrt [{q-1}] {\ sum _ {i = 1} ^ {R} p_ {i} p_ {i} ^ {q-1}}}} \ right) = \ ln ({} ^ {q} \! D)}{} ^ {q} H = \ ln \ left ({1 \ over {\ sqrt [{q-1}] {\ sum _ {i = 1} ^ {R} p_ {i} p_ {i} ^ {q-1}}}}} \ right) = \ ln ({} ^ {q} \! D)

Это означает, что логарифм истинного разнообразия на основе любого значения q дает энтропию Реньи, соответствующую тому же значению q.

Индекс Симпсона

Индекс Симпсона был введен в 1949 году Эдвардом Х. Симпсоном для измерения степени концентрации при классификации людей по типам. Тот же индекс был заново открыт Оррисом К. Херфиндалом в 1950 году. Квадратный корень из индекса уже был введен в 1945 году экономистом Альбертом О. Хиршманом. В результате тот же показатель обычно известен как индекс Симпсона в экологии и как индекс Херфиндаля или индекс Херфиндаля – Хиршмана (HHI) в экономике.

Эта мера равна вероятности того, что два объекта, произвольно взятые из интересующего набора данных, представляют один и тот же тип. Он равен:

λ = ∑ i = 1 R pi 2 {\ displaystyle \ lambda = \ sum _ {i = 1} ^ {R} p_ {i} ^ {2}}\ lambda = \ sum _ {i = 1} ^ {R} p_ {i} ^ {2} ,

где R - богатство ( общее количество типов в наборе данных). Это уравнение также равно среднему арифметическому взвешенному значению пропорциональных количеств p i интересующих типов, при этом сами пропорциональные количества используются в качестве весов. Пропорциональная численность по определению ограничена значениями от нуля до единицы, но это средневзвешенное арифметическое значение, следовательно, λ ≥ 1 / R, которое достигается, когда все типы одинаково многочисленны.

Сравнивая уравнение, используемое для расчета λ, с уравнениями, используемыми для расчета истинного разнообразия, можно видеть, что 1 / λ равно D, то есть истинному разнообразию, рассчитанному с q = 2. Таким образом, исходный индекс Симпсона равен соответствующая базовая сумма.

Интерпретация λ как вероятности того, что два объекта, взятые наугад из интересующего набора данных, представляют один и тот же тип, предполагает, что первый объект заменяется в наборе данных перед тем, как взять второй объект. Если набор данных очень большой, выборка без замены дает примерно такой же результат, но в небольших наборах данных разница может быть значительной. Если набор данных невелик и предполагается выборка без замены, вероятность получения одного и того же типа при обоих случайных выборках равна:

ℓ = ∑ i = 1 R ni (ni - 1) N (N - 1) {\ displaystyle \ ell = {\ frac {\ sum _ {i = 1} ^ {R} n_ {i} (n_ {i} -1)} {N (N-1)}}}{\ displaystyle \ ell = {\ frac {\ sum _ {i = 1} ^ {R} n_ {i} (n_ {i} -1)} {N (N-1)}}}

где n i - количество сущностей, принадлежащих к i-му типу, а N - общее количество сущностей в наборе данных. Эта форма индекса Симпсона также известна в микробиологии как индекс Хантера – Гастона.

Поскольку среднее пропорциональное количество типов увеличивается с уменьшением числа типов и увеличением численности наиболее распространенного типа, λ принимает небольшие значения в наборах данных с большим разнообразием и большими значениями в наборах данных с низким разнообразием. Это противоречит интуиции для индекса разнообразия, поэтому вместо этого часто использовались такие преобразования λ, которые увеличиваются с увеличением разнообразия. Самыми популярными из таких индексов были обратный индекс Симпсона (1 / λ) и индекс Джини – Симпсона (1 - λ). Оба они также называются индексом Симпсона в экологической литературе, поэтому необходимо соблюдать осторожность, чтобы избежать случайного сравнения различных индексов, как если бы они были одинаковыми.

Обратный индекс Симпсона

Обратный индекс Симпсона равен:

1 λ = 1 ∑ i = 1 R pi 2 = 2 D {\ displaystyle {\ frac {1} {\ lambda }} = {1 \ over \ sum _ {i = 1} ^ {R} p_ {i} ^ {2}} = {} ^ {2} D}{\ displaystyle {\ frac {1} {\ lambda}} = {1 \ over \ sum _ {i = 1} ^ {R} p_ {i} ^ {2}} = {} ^ {2} D}

Это просто равно истинному разнообразию второго порядка, т. Е. эффективное количество типов, которое получается, когда взвешенное среднее арифметическое используется для количественной оценки среднего пропорционального количества типов в интересующем наборе данных.

Индекс также используется в качестве меры эффективного числа сторон.

индекс Джини – Симпсона

Исходный индекс Симпсона λ равен вероятности того, что два объекта взяты наугад из интересующего набора данных (с заменой) представляют один и тот же тип. Его преобразование 1 - λ, следовательно, равно вероятности того, что два объекта представляют разные типы. Этот показатель также известен в экологии как вероятность межвидовой встречи (PIE) и индекс Джини – Симпсона. Его можно выразить как преобразование истинного разнообразия порядка 2:

1 - λ = 1 - ∑ i = 1 R pi 2 = 1 - 1 2 D {\ displaystyle 1- \ lambda = 1- \ sum _ { i = 1} ^ {R} p_ {i} ^ {2} = 1 - {\ frac {1} {{} ^ {2} D}}}{\ displaystyle 1- \ lambda = 1- \ sum _ {i = 1} ^ {R} p_ {i} ^ {2 } = 1 - {\ frac {1} {{} ^ {2} D}}}

Индекс Гиббса – Мартина социологии, психологии и менеджмента исследований, который также известен как индекс Блау, является той же мерой, что и индекс Джини – Симпсона.

В популяционной генетике это количество также известно как ожидаемая гетерозиготность.

Индекс Бергера – Паркера

Индекс Бергера – Паркера равен максимальному значению p i в наборе данных, то есть пропорциональной численности наиболее распространенного типа. Это соответствует взвешенному обобщенному среднему значений p i, когда q приближается к бесконечности и, следовательно, равно обратному истинному разнообразию бесконечного порядка (1 / D).

Эффективное количество видов или числа Хилла

Когда индексы разнообразия используются в экологии, представляющими интерес типами обычно являются виды, но они также могут относиться к другим категориям, например как роды, семейства, функциональные типы или гаплотипы. Представляющими интерес объектами обычно являются отдельные растения или животные, а мерой численности может быть, например, количество особей, биомасса или покрытие. В демографии интересующими субъектами могут быть люди, а интересующие типы - различные демографические группы. В информатике объекты могут быть символами, а типы - разными буквами алфавита. Наиболее часто используемые индексы разнообразия - это простые преобразования эффективного числа типов (также известные как `` истинное разнообразие ''), но каждый индекс разнообразия также может интерпретироваться сам по себе как мера, соответствующая некоторому реальному явлению (но другому). для каждого индекса разнообразия).

Многие индексы учитывают только категориальное разнообразие между субъектами или объектами. Однако такие индексы не учитывают общую вариацию (разнообразие), которая может иметь место между субъектами или объектами, которая возникает только при расчете как категориального, так и качественного разнообразия.

Истинное разнообразие, или эффективное количество типов, относится к количеству одинаково распространенных типов, необходимых для того, чтобы средняя пропорциональная численность типов была равна той, которая наблюдается в интересующем наборе данных (где все типы не могут быть одинаковыми обильный). Истинное разнообразие в наборе данных рассчитывается, сначала беря взвешенное обобщенное среднее M q − 1 пропорциональных количеств типов в наборе данных, а затем принимая обратную величину. из этого. Уравнение следующее:

q D = 1 M q - 1 = 1 ∑ i = 1 R pipiq - 1 q - 1 = (∑ i = 1 R piq) 1 / (1 - q) {\ displaystyle {} ^ {q} \! D = {1 \ над M_ {q-1}} = {1 \ over {\ sqrt [{q-1}] {\ sum _ {i = 1} ^ {R} p_ {i} p_ {i} ^ {q-1}}}} = \ left ({\ sum _ {i = 1} ^ {R} p_ {i} ^ {q}} \ right) ^ {1 / (1-q)}}{} ^ {q} \! D = {1 \ over M_ {q-1} } = {1 \ over {\ sqrt [{q-1}] {\ sum _ {i = 1} ^ {R} p_ {i} p_ {i} ^ {q-1}}}} = \ left ( {\ sum _ {i = 1} ^ {R} p_ {i} ^ {q}} \ right) ^ {1 / (1-q)}

Знаменатель M q − 1 равняется средней пропорциональной численности типов в наборе данных, вычисленной с помощью взвешенного обобщенного среднего с показателем q-1. В уравнении R - это богатство (общее количество типов в наборе данных), а пропорциональное количество i-го типа равно p i. Сами пропорциональные количества используются как номинальные веса. Числа q D {\ displaystyle ^ {q} D}{\ displaystyle ^ {q} D} называются числами Хилла порядка q или эффективным числом видов .

, когда q = 1, приведенное выше уравнение не определено. Однако математический предел , когда q приближается к 1, хорошо определен, и соответствующее разнесение вычисляется с помощью следующего уравнения:

1 D = 1 ∏ i = 1 R pipi = exp ⁡ (- ∑ i = 1 р пи пер (пи)) {\ displaystyle {} ^ {1} \! D = {1 \ over {\ prod _ {i = 1} ^ {R} p_ {i} ^ {p_ {i}} }} = \ exp \ left (- \ sum _ {i = 1} ^ {R} p_ {i} \ ln (p_ {i}) \ right)}{} ^ {1} \! D = {1 \ over {\ prod _ {i = 1} ^ { R} p_ {i} ^ {p_ {i}}}} = \ exp \ left (- \ sum _ {i = 1} ^ {R} p_ {i} \ ln (p_ {i}) \ right)

, которая является экспонентой Шеннона энтропия вычисляется натуральным логарифмом (см. выше). В других областях эта статистика также известна как недоумение..

Значение q часто называют порядком разнообразия. Он определяет чувствительность значения разнообразия к редким и многочисленным видам, изменяя способ расчета средневзвешенного значения пропорциональной численности видов. При некоторых значениях параметра q значение M q-1 предполагает знакомые виды взвешенного среднего как особые случаи. В частности, q = 0 соответствует взвешенному среднему гармоническому, q = 1 - взвешенному геометрическому среднему и q = 2 - взвешенному среднему арифметическому. Когда q приближается к бесконечности, взвешенное обобщенное среднее с показателем q-1 приближается к максимальному значению p i, которое является пропорциональной численностью наиболее распространенных видов в наборе данных. Как правило, увеличение значения q увеличивает эффективный вес, придаваемый наиболее многочисленным видам. Это приводит к получению большего значения M q-1 и меньшего значения истинного разнесения (D) с увеличением q.

Когда q = 1, используется средневзвешенное геометрическое значение p i значений, и каждый вид точно взвешивается по его пропорциональной численности (в средневзвешенном геометрическом весе показатели). Когда q>1, вес, придаваемый многочисленным видам, преувеличен, а когда значения q < 1, the weight given to rare species is. At q = 0, the species weights exactly cancel out the species proportional abundances, such that the weighted mean of the piравны 1 / R, даже если все виды не одинаково многочисленны. При q = 0 эффективное количество видов D, следовательно, равно фактическому количеству видов R. В контексте разнообразия q обычно ограничивается неотрицательными значениями. Это связано с тем, что отрицательные значения q придавали бы редким видам гораздо больший вес, чем многочисленным, что D превышало бы R.

Общее уравнение разнообразия часто записывается в форме

q D = (∑ i Знак равно 1 R piq) 1 / (1 - q) {\ displaystyle {} ^ {q} \! D = \ left ({\ sum _ {i = 1} ^ {R} p_ {i} ^ {q}} \ right) ^ {1 / (1-q)}}{} ^ {q} \! D = \ left ({\ sum _ {i = 1} ^ {R} p_ {i } ^ {q}} \ right) ^ {1 / (1-q)}

и член в круглых скобках называется базовой суммой. Некоторые популярные индексы разнообразия соответствуют базовой сумме, рассчитанной с различными значениями q.

См. Также
Ссылки
Дополнительная литература
Внешние ссылки
Последняя правка сделана 2021-05-17 09:34:09
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте