Коэффициент вариации

редактировать

Статистический параметр

В теории вероятностей и статистике, коэффициент вариации (CV), также известный как относительное стандартное отклонение (RSD ), является стандартизованной мерой дисперсии распределения вероятностей или частотного распределения. Часто выражается в процентах и ​​определяется как отношение стандартного отклонения σ {\ displaystyle \ \ sigma}\ sigma к среднему μ {\ displaystyle \ \ mu}\ \ mu (или его абсолютное значение, | μ | {\ displaystyle | \ mu |}| \ mu | ). CV или RSD широко используется в аналитической химии для выражения точности и повторяемости анализа анализа. Он также обычно используется в таких областях, как инженерия или физика при проведении исследований по обеспечению качества и ANOVA gauge RR. Кроме того, CV используется экономистами и инвесторами в экономических моделях.

Содержание

  • 1 Определение
  • 2 Примеры
  • 3 Примеры неправильного использования
  • 4 Оценка
    • 4.1 Логнормальные данные
  • 5 Сравнение со стандартным отклонением
    • 5.1 Преимущества
    • 5.2 Недостатки
  • 6 Применения
    • 6.1 Лабораторные измерения CV внутри анализов и между анализами
    • 6.2 Как мера экономического неравенства
    • 6.3 Как мера стандартизации археологических артефактов
  • 7 Распространение
    • 7.1 Альтернатива
  • 8 Подобные соотношения
  • 9 См. Также
  • 10 Ссылки
  • 11 Внешние ссылки

Определение

Коэффициент вариации (CV) определяется как отношение стандартного отклонения σ {\ displaystyle \ \ sigma}\ sigma к среднему μ {\ displaystyle \ \ mu}\ \ mu , cv = σ μ. {\ displaystyle c _ {\ rm {v}} = {\ frac {\ sigma} {\ mu}}.}{\ displaystyle c _ {\ rm {v}} = {\ frac {\ sigma} {\ mu }}.} Показывает степень изменчивости по отношению к среднему значению генеральной совокупности. Коэффициент вариации следует вычислять только для данных, измеренных по шкале соотношений , то есть шкал, которые имеют значимый ноль и, следовательно, позволяют относительное сравнение двух измерений (т. Е. Деление одного измерения на другое).. Коэффициент вариации может не иметь никакого значения для данных на интервальной шкале . Например, большинство температурных шкал (например, Цельсия, Фаренгейта и т. Д.) Представляют собой интервальные шкалы с произвольными нулями, поэтому вычисленный коэффициент вариации будет различным в зависимости от того, какую шкалу вы использовали. С другой стороны, температура Кельвина имеет значимый ноль, полное отсутствие тепловой энергии и, следовательно, является шкалой отношений. Проще говоря, имеет смысл сказать, что 20 Кельвинов вдвое горячее, чем 10 Кельвинов, но только в этой шкале с истинным абсолютным нулем. Хотя стандартное отклонение (SD) может быть измерено в Кельвинах, Цельсиях или Фаренгейтах, вычисленное значение применимо только к этой шкале. Только шкалу Кельвина можно использовать для вычисления действительного коэффициента изменчивости.

Измерения, которые нормально логарифмически распределены, показывают стационарную CV; напротив, SD варьируется в зависимости от ожидаемого значения измерений.

Более надежной возможностью является квартильный коэффициент дисперсии, половина межквартильного диапазона (Q 3 - Q 1) / 2 {\ displaystyle {( Q_ {3} -Q_ {1}) / 2}}{\ displaystyle {(Q_ {3} -Q_ {1}) / 2}} , деленное на среднее значение квартилей (midhinge ), (Q 1 + Q 3) / 2 {\ displaystyle {(Q_ {1} + Q_ {3}) / 2}}{\ displaystyle {(Q_ {1 } + Q_ {3}) / 2}} .

В большинстве случаев CV вычисляется для одной независимой переменной (например, для одного заводского продукта) с многочисленными повторяющимися измерениями зависимая переменная (например, ошибка в производственном процессе). Однако данные, которые являются линейными или даже логарифмически нелинейными и включают непрерывный диапазон для независимой переменной с разреженными измерениями по каждому значению (например, диаграмма разброса), могут быть подвергнуты вычислению одиночного CV с использованием оценки максимального правдоподобия . подход.

Примеры

Набор данных [100, 100, 100] имеет постоянные значения. Его стандартное отклонение равно 0, а среднее значение равно 100, что дает коэффициент вариации как

0/100 = 0

Набор данных [90, 100, 110] более изменчив. Его стандартное отклонение составляет 10, а его среднее значение - 100, что дает коэффициент вариации как

10/100 = 0,1

Набор данных [1, 5, 6, 8, 10, 40, 65, 88] имеет еще больше вариативности. Его стандартное отклонение составляет 30,78, а среднее значение - 27,9, что дает коэффициент вариации

30,78 / 27,9 = 1,10

Примеры неправильного использования

Сравнение коэффициентов вариации между параметрами с использованием относительных единиц может привести к различиям. это может быть неправдой. Если мы сравним один и тот же набор температур в градусах Цельсия и градусах Фаренгейта (обе относительные единицы, где кельвин и шкала Ренкина являются их связанными абсолютными значения):

Цельсия: [0, 10, 20, 30, 40]

Фаренгейта: [32, 50, 68, 86, 104]

стандартные отклонения выборки составляют 15,81 и 28,46 соответственно. CV первого набора составляет 15,81 / 20 = 79%. Для второго набора (те же температуры) это 28,46 / 68 = 42%.

Если, например, наборы данных представляют собой показания температуры с двух разных датчиков (датчик Цельсия и датчик Фаренгейта), и вы хотите узнать, какой датчик лучше, выбрав датчик с наименьшим отклонением, тогда вы будут введены в заблуждение, если вы воспользуетесь резюме. Проблема здесь в том, что вы разделили на относительное значение, а не на абсолютное.

Сравнение того же набора данных, теперь в абсолютных единицах:

Кельвин: [273,15, 283,15, 293,15, 303,15, 313,15]

Ренкин: [491,67, 509,67, 527,67, 545,67, 563,67]

Стандартные отклонения выборки по-прежнему составляют 15,81 и 28,46 соответственно, поскольку на стандартное отклонение не влияет постоянное смещение. Однако теперь оба коэффициента вариации равны 5,39%.

С математической точки зрения коэффициент вариации не является полностью линейным. То есть для случайной величины X {\ displaystyle X}Икс коэффициент вариации a X + b {\ displaystyle aX + b}{\ displaystyle aX + b} равен с коэффициентом вариации X {\ displaystyle X}Икс , только когда b = 0 {\ displaystyle b = 0}b = 0 . В приведенном выше примере градусы Цельсия можно преобразовать в градусы Фаренгейта только с помощью линейного преобразования формы ax + b {\ displaystyle ax + b}ax + b с b ≠ 0 {\ displaystyle b \ neq 0}b \ neq 0 , в то время как Кельвины могут быть преобразованы в Ренкина посредством преобразования формы ax {\ displaystyle ax}топор .

Оценка

Когда только образец данных из доступна генеральная совокупность, CV генеральной совокупности можно оценить с помощью отношения стандартного отклонения выборки s {\ displaystyle s \,}s \, к выборочному среднему x ¯ {\ displaystyle {\ bar {x}}}{\ bar {x}} :

cv ^ = sx ¯ {\ displaystyle {\ widehat {c _ {\ rm {v}}}} = {\ frac {s} {\ bar {x}} }}{\ displaystyle {\ widehat {c _ {\ rm {v}}}} = {\ frac {s} {\ bar {x}}}}

Но эта оценка, применяемая к выборке небольшого или среднего размера, имеет тенденцию быть слишком низкой: это смещенная оценка. Для нормально распределенных данных несмещенная оценка для выборки размера n:

cv ^ ∗ = (1 + 1 4 n) cv ^ {\ displaystyle {\ widehat {c _ {\ rm { v}}}} ^ {*} = {\ bigg (} 1 + {\ frac {1} {4n}} {\ bigg)} {\ widehat {c _ {\ rm {v}}}}}{\ displaystyle {\ widehat {c _ {\ rm {v}}}} ^ {*} = {\ bigg (} 1 + {\ frac {1} {4n}} {\ bigg)} {\ widehat {c _ {\ rm {v}}}}}

Логарифмически нормальные данные

Во многих приложениях можно предположить, что данные распределены логарифмически нормально (о чем свидетельствует наличие асимметрии в выборочных данных). В таких случаях более точная оценка, полученная на основе свойств логнормального распределения, определяется как:

cv ^ raw = esln 2-1 {\ displaystyle {\ widehat {cv} } _ {\ rm {raw}} = {\ sqrt {\ mathrm {e} ^ {s _ {\ rm {ln}} ^ {2}} - 1}}}{\ displaystyle {\ widehat {cv}} _ {\ rm {raw}} = {\ sqrt {\ mathrm { e} ^ {s _ {\ rm {ln}} ^ {2}} - 1}}}

где sln {\ displaystyle {s _ {\ rm {ln}}} \,}{\ displaystyle {s _ {\ rm {ln}}} \,} - стандартное отклонение выборки данных после преобразования натуральный логарифм. (В случае, если измерения записываются с использованием любой другой логарифмической основы, b, их стандартное отклонение sb {\ displaystyle s_ {b} \,}s_b \, преобразуется в базу e с использованием sln = sb ln ⁡ (b) {\ displaystyle s _ {\ rm {ln}} = s_ {b} \ ln (b) \,}{\ displaystyle s _ {\ rm {ln}} = s_ { b} \ ln (b) \,} и формула для cv ^ raw {\ displaystyle {\ widehat {cv}} _ {\ rm {raw}} \,}{\ displaystyle {\ widehat {cv}} _ {\ rm {raw}} \,} остается прежним.) Эту оценку иногда называют "геометрической CV" (GCV), чтобы отличить ее от простая оценка выше. Однако Кирквуд также определил «геометрический коэффициент вариации» как:

GCVK = esln - 1 {\ displaystyle \ mathrm {GCV_ {K}} = {\ mathrm {e} ^ {s _ {\ rm {ln }}} \! \! - 1}}{\ displaystyle \ mathrm {GCV_ {K}} = {\ mathrm {e} ^ {s _ {\ rm {ln}}} \! \! - 1}}

Этот термин был задуман как аналог коэффициента вариации для описания мультипликативной вариации логнормальных данных, но это определение GCV не имеет теоретической основы для оценки cv {\ displaystyle c _ {\ rm {v}} \,}{\ displaystyle c _ {\ rm {v}} \,} сам.

Для многих практических целей (таких как определение размера выборки и вычисление доверительных интервалов ) это sln {\ displaystyle s_ {ln} \,}s_ {ln} \, , который наиболее часто используется в контексте нормально распределенных данных. При необходимости это можно получить из оценки c v {\ displaystyle c _ {\ rm {v}} \,}{\ displaystyle c _ {\ rm {v}} \,} или GCV путем инвертирования соответствующей формулы.

Сравнение со стандартным отклонением

Преимущества

Коэффициент вариации полезен, поскольку стандартное отклонение данных всегда следует понимать в контексте среднего значения данных. Напротив, фактическое значение CV не зависит от единицы измерения, поэтому это безразмерное число. Для сравнения наборов данных с разными единицами измерения или сильно различающимися средними значениями следует использовать коэффициент вариации вместо стандартного отклонения.

Недостатки

  • Когда среднее значение близко к нулю, коэффициент вариации приближается к бесконечности и, следовательно, чувствителен к небольшим изменениям среднего. Это часто случается, если значения не основаны на шкале отношений.
  • В отличие от стандартного отклонения, его нельзя использовать напрямую для построения доверительных интервалов для среднего.
  • CV не являются идеальным показателем достоверности измерения, когда количество повторов варьируется от выборки, потому что CV инвариантен к количеству повторов, в то время как достоверность среднего увеличивается с увеличением количества повторов. В этом случае рекомендуется использовать стандартную ошибку в процентах.

Приложения

Коэффициент вариации также часто используется в прикладных областях вероятности, таких как теория восстановления, организация очередей теория и теория надежности. В этих полях экспоненциальное распределение часто более важно, чем нормальное распределение. Стандартное отклонение экспоненциального распределения равно его среднему значению, поэтому его коэффициент вариации равен 1. Распределения с CV < 1 (such as an Распределение Эрланга ) считаются низко-дисперсионными, тогда как распределения с CV>1 (например, гиперэкспоненциальное распределение ) считаются высокодисперсными. Некоторые формулы в этих полях выражаются с помощью квадрата коэффициента вариации, часто сокращенно SCV. При моделировании вариацией CV является CV (RMSD). По сути, CV (RMSD) заменяет термин стандартного отклонения на Среднеквадратичное отклонение (RMSD). Хотя многие естественные процессы действительно показывают корреляцию между средним значением и величиной вариации вокруг него, точные сенсорные устройства должны быть спроектированы таким образом, чтобы коэффициент вариации был близок к нулю, то есть давал постоянный абсолютный ошибка в их рабочем диапазоне.

В актуарной науке CV известен как единичный риск .

В промышленной переработке твердых материалов CV особенно важен для измерения степени однородности порошковой смеси. Сравнение рассчитанного CV со спецификацией позволит определить, была ли достигнута достаточная степень смешивания.

Лабораторные измерения CV внутри анализа и между анализами

Измерения CV часто используются в качестве контроль качества для количественных лабораторных анализов . Хотя можно предположить, что CV внутри анализов и между анализами можно рассчитать путем простого усреднения значений CV по значениям CV для нескольких образцов в рамках одного анализа или путем усреднения нескольких оценок CV между анализами, было высказано предположение, что эти методы неверны и что требуется более сложный вычислительный процесс. Также было отмечено, что значения CV не являются идеальным показателем достоверности измерения, когда количество повторов варьируется между образцами - в этом случае стандартная ошибка в процентах считается более высокой. Если измерения не имеют естественной нулевой точки, тогда CV не является допустимым измерением, и рекомендуются альтернативные меры, такие как коэффициент внутриклассовой корреляции.

В качестве меры экономического неравенства

Коэффициент вариации удовлетворяет требованиям для измерения экономического неравенства. Если x (с записями x i) - это список значений экономического показателя (например, богатства), где x i - богатство агента i, то выполняются следующие требования:

  • Анонимность - c v не зависит от порядка в списке x . Это следует из того факта, что дисперсия и среднее значение не зависят от порядка x.
  • Масштабная инвариантность: c v(x) = c v(αx), где α - действительное число.
  • Независимость от совокупности - если {x,x} - это список x, добавленный к самому себе, тогда c v({x,x}) = c v(x). Это следует из того факта, что и дисперсия, и среднее значение подчиняются этому принципу.
  • Принцип передачи Пигу – Далтона: когда богатство передается от более богатого агента i к более бедному агенту j (т.е. x i>xj) без изменения их ранг, то c v уменьшается, и наоборот.

cvпринимает минимальное значение нуля для полного равенства (все x i равны). Его наиболее заметным недостатком является то, что он не ограничен сверху, поэтому его нельзя нормализовать, чтобы он находился в фиксированном диапазоне (например, как коэффициент Джини, который ограничен между 0 и 1). Однако он более податлив с математической точки зрения, чем коэффициент Джини.

В качестве меры стандартизации археологических артефактов

Археологи часто используют значения CV для сравнения степени стандартизации древних артефактов. Вариация резюме была интерпретирована как указание на различные культурные контексты передачи для принятия новых технологий. Коэффициенты вариации также использовались для исследования стандартизации керамики, связанной с изменениями в социальной организации. Археологи также используют несколько методов для сравнения значений CV, например тест модифицированного отношения правдоподобия со знаком (MSLR) на равенство CV.

Распределение

При условии, что отрицательные и небольшие положительные значения выборки Среднее значение встречается с незначительной частотой, распределение вероятностей коэффициента вариации для выборки размером n {\ displaystyle n}n было показано Хендриксом и Роби как

d F cv = 2 π 1/2 Γ (n - 1 2) e - n 2 (σ μ) 2 cv 2 1 + cv 2 cvn - 2 (1 + cv 2) n / 2 ∑ ∑ ′ i = 0 п - 1 ⁡ (п - 1)! Γ (п - я 2) (п - 1 - я)! я! ni / 2 2 i / 2 (σ μ) я 1 (1 + cv 2) i / 2 dcv, {\ displaystyle \ mathrm {d} F_ {c _ {\ rm {v}}} = {\ frac {2} {\ pi ^ {1/2} \ Gamma \ left ({\ frac {n-1} {2}} \ right)}} \; \ mathrm {e} ^ {- {\ frac {n} {2 \ left ({\ frac {\ sigma} {\ mu}} \ right) ^ {2}}} {\ frac {{c _ {\ rm {v}}} ^ {2}} {1+ {c _ {\ rm {v}}} ^ {2}}}} {\ frac {{c _ {\ rm {v}}} ^ {n-2}} {(1+ {c _ {\ rm {v}}} ^ {2 }) ^ {n / 2}}} \ sideset {} {^ {\ prime}} \ sum _ {i = 0} ^ {n-1} {\ frac {(n-1)! \, \ Gamma \ left ({\ frac {ni} {2}} \ right)} {(n-1-i)! \, i! \,}} {\ frac {n ^ {i / 2}} {2 ^ {i / 2} \ left ({\ frac {\ sigma} {\ mu}} \ right) ^ {i}}} {\ frac {1} {(1+ {c _ {\ rm {v}}} ^ {2 }) ^ {i / 2}}} \, \ mathrm {d} c _ {\ rm {v}},}{\ displaystyle \ mathrm {d} F_ {c _ {\ rm {v}}} = {\ frac {2} {\ pi ^ {1/2} \ Ga mma \ left ({\ frac {n-1} {2}} \ right)}} \; \ mathrm {e} ^ {- {\ frac {n} {2 \ left ({\ frac {\ sigma} { \ mu}} \ right) ^ {2}}} {\ frac {{c _ {\ rm {v}}} ^ {2}} {1+ {c _ {\ rm {v}}} ^ {2}} }} {\ frac {{c _ {\ rm {v}}} ^ {n-2}} {(1+ {c _ {\ rm {v}}} ^ {2}) ^ {n / 2}}} \ sideset {} {^ {\ prime}} \ sum _ {i = 0} ^ {n-1} {\ frac {(n-1)! \, \ Gamma \ left ({\ frac {ni} {2 }} \ right)} {(n-1-i)! \, i! \,}} {\ frac {n ^ {i / 2}} {2 ^ {i / 2} \ left ({\ frac { \ sigma} {\ mu}} \ right) ^ {i}}} {\ frac {1} {(1+ {c _ {\ rm {v}}} ^ {2}) ^ {i / 2}}} \, \ mathrm {d} c _ {\ rm {v}},}

, где символ ∑ ∑ ′ {\ displaystyle \ sideset {} {^ {\ prime}} \ sum}\ sideset {} {^ \ prime} \ sum указывает, что суммирование закончилось только по четным значениям n - 1 - i {\ displaystyle n-1-i}{\ displaystyle n-1-i} , т. е. если n {\ displaystyle n}n нечетно, суммируйте четные значения i {\ displaystyle i}i и если n {\ displaystyle n}n является четным, суммируется только по нечетным значениям i {\ displaystyle i}i .

Это u полезны, например, при построении тестов гипотез или доверительных интервалов. Статистический вывод для коэффициента вариации в нормально распределенных данных часто основан на аппроксимации хи-квадрат Маккея для коэффициента вариации

Альтернатива

Согласно Лю (2012), Леманн (1986). «также получил выборочное распределение CV, чтобы дать точный метод построения доверительного интервала для CV»; он основан на нецентральном t-распределении.

Аналогичные отношения

Стандартизованные моменты - аналогичные отношения, μ k / σ k {\ displaystyle {\ mu _ {k}} / {\ sigma ^ {k}}}{\ mu_k} / {\ sigma ^ k} где μ k {\ displaystyle \ mu _ {k}}\ mu _ {k} - момент k относительно среднего, которые также безразмерны и масштабный инвариант. Отношение дисперсии к среднему, σ 2 / μ {\ displaystyle \ sigma ^ {2} / \ mu}\ sigma ^ 2 / \ mu - еще одно аналогичное соотношение, но не безразмерное. и, следовательно, не масштабно инвариантны. См. Нормализация (статистика) для дальнейших соотношений.

В обработке сигналов, в частности обработке изображений, обратное отношение μ / σ {\ displaystyle \ mu / \ sigma}\ mu / \ sigma (или его квадрат) упоминается как отношение сигнал / шум в целом и отношение сигнал / шум (отображение) в частности.

Другие связанные коэффициенты включают:

См. Также

Ссылки

Внешние ссылки

  • cvequality : R пакет для проверки значительных различий между несколькими коэффициентами вариации
Последняя правка сделана 2021-05-15 13:48:39
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте