Степенной закон

редактировать
Пример степенного графика, демонстрирующего ранжирование популярности. Справа находится длинный хвост, а слева - несколько доминирующих (также известное как правило 80–20 ).

В статистике, степенной закон - это функциональная связь между двумя величинами, где относительное изменение одной величины приводит к пропорциональному относительному изменению другой величины, независимо от начального размера эти величины: одна величина изменяется как степень другой. Например, если рассматривать площадь квадрата с точки зрения длины его стороны, если длина удваивается, площадь умножается на коэффициент четыре.

Содержание
  • 1 Эмпирические примеры
  • 2 Свойства
    • 2.1 Масштабная инвариантность
    • 2.2 Отсутствие четко определенного среднего значения
    • 2.3 Универсальность
  • 3 Степенные функции
    • 3.1 Примеры
      • 3.1.1 Астрономия
      • 3.1.2 Криминология
      • 3.1.3 Физика
      • 3.1.4 Биология
      • 3.1.5 Метеорология
      • 3.1.6 Общая наука
      • 3.1. 7 Математика
      • 3.1.8 Экономика
      • 3.1.9 Финансы
    • 3.2 Варианты
      • 3.2.1 Нарушенный степенной закон
      • 3.2.2 Степенной закон с экспоненциальной отсечкой
      • 3.2.3 Кривой степенной закон
  • 4 Степенные распределения вероятностей
    • 4.1 Графические методы идентификации
    • 4.2 Построение графиков степенных распределений
    • 4.3 Оценка экспоненты на основе эмпирических данных
      • 4.3.1 Максимальное правдоподобие
      • 4.3.2 Оценка Колмогорова – Смирнова
      • 4.3.3 Метод двухточечной аппроксимации
  • 5 Проверка степенных законов
  • 6 См. также
  • 7 Ссылки
  • 8 Внешние ссылки
Эмпирические примеры

Распределение широкого спектра физических, биологических и антропогенных явлений приблизительно подчиняется степенному закону в широком диапазоне величин. : к ним относятся размеры кратеров на луне и солнечных вспышек, схемы кормодобывания различных видов, размеры моделей активности популяций нейронов, частоты слов в большинстве языков, частота фамилий, видовое богатство в кладах организмов, размеры степени сбои, уголовные обвинения на осужденного, извержения вулканов, человеческие оценки интенсивности раздражителя и многие другие величины. Некоторые эмпирические распределения соответствуют степенному закону для всех своих значений, а скорее подчиняются степенному закону в хвосте. Акустическое затухание следует законам мощности в широких полосах частот для многих сложных сред. Законы аллометрического масштабирования для взаимосвязей между биологическими переменными являются одними из самых известных степенных функций в природе.

Свойства

Масштабная инвариантность

Одним из атрибутов степенных законов является их масштабная инвариантность. Учитывая отношение f (x) = ax - k {\ displaystyle f (x) = ax ^ {- k}}f(x)=ax^{-k}, масштабирование аргумента x {\ displaystyle x}xс постоянным коэффициентом c {\ displaystyle c}cвызывает только пропорциональное масштабирование самой функции. То есть

f (cx) = a (cx) - k = c - kf (x) ∝ f (x), {\ displaystyle f (cx) = a (cx) ^ {- k} = c ^ {-k} f (x) \ propto f (x), \!}{\displaystyle f(cx)=a(cx)^{-k}=c^{-k}f(x)\propto f(x),\!}

где ∝ {\ displaystyle \ propto}\propto обозначает прямую пропорциональность. То есть масштабирование на константу c {\ displaystyle c}cпросто умножает исходное степенное отношение на константу c - k {\ displaystyle c ^ {- k}}c^{{-k}}. Таким образом, следует, что все степенные законы с определенным показателем масштабирования эквивалентны с точностью до постоянных множителей, поскольку каждый является просто масштабированной версией других. Это поведение создает линейную зависимость, когда логарифмируются как f (x) {\ displaystyle f (x)}f(x), так и x {\ displaystyle x}x, а прямую линию на графике логарифма часто называют сигнатурой степенного закона. Для реальных данных такая прямолинейность является необходимым, но не достаточным условием для данных, подчиняющихся степенной зависимости. Фактически, есть много способов генерировать конечные объемы данных, которые имитируют это поведение сигнатуры, но в их асимптотическом пределе не являются истинными степенными законами (например, если процесс генерации некоторых данных следует логнормальному распределению ). Таким образом, точная подгонка и проверка степенных моделей является активной областью исследований в статистике; увидеть ниже.

Отсутствие четко определенного среднего значения

Степенный закон x - k {\ displaystyle x ^ {- k}}{\displaystyle x^{-k}}имеет четко определенный означает более x ∈ [1, ∞) {\ displaystyle x \ in [1, \ infty)}{\displaystyle x\in [1,\infty)}, только если k>2 {\ displaystyle k>2}{\displaystyle k>2} , и он имеет конечную дисперсию, только если k>3 {\ displaystyle k>3}{\displaystyle k>3} ; большинство идентифицированных степенных законов в природе имеют такие экспоненты, что среднее значение четко определено, а дисперсия - нет, что означает, что они способны к поведению черный лебедь. Это можно увидеть в следующем мысленном эксперименте: представьте себе комнату с друзьями и оцените средний ежемесячный доход в этой комнате. А теперь представьте, что в комнату входит самый богатый человек в мире с ежемесячным доходом около 1 миллиарда долларов США. Что происходит со средним доходом в комнате? Доход распределяется согласно степенному закону, известному как распределение Парето (например, чистая стоимость активов американцев распределяется согласно степенному закону с показателем 2).

С одной стороны, это делает неправильным применение традиционной статистики, основанной на дисперсии и стандартном отклонении (например, регрессионном анализе ). С другой стороны, это также позволяет проводить рентабельные вмешательства. Например, учитывая, что выхлопные газы распределяются между автомобилями по степенному закону (очень мало автомобилей вносят наибольший вклад в загрязнение), будет достаточно убрать эти очень немногие автомобили с дороги, чтобы существенно снизить общий выхлоп.

Однако медиана существует: для степенного закона x с показателем k>1 {\ displaystyle k>1}k>1 , принимает значение 2x min, где x min - минимальное значение, для которого выполняется степенной закон.

Универсальность

Эквивалентность степенных законов с конкретным показателем масштабирования может иметь более глубокое происхождение в динамических процессах, которые порождают степенное отношение В физике, например, фазовые переходы в термодинамических системах связаны с возникновением степенных распределений некоторых величин, показатели степени которых обозначаются как th e критические показатели системы. С помощью теории ренормгруппы можно показать, что различные системы с одинаковыми критическими показателями, то есть демонстрирующие идентичное масштабирующее поведение по мере приближения к критичности, имеют одну и ту же фундаментальную динамику. Например, поведение воды и CO 2 при их точках кипения попадает в один и тот же класс универсальности, поскольку они имеют одинаковые критические показатели. Фактически, почти все материальные фазовые переходы описываются небольшим набором классов универсальности. Подобные наблюдения были сделаны, хотя и не столь исчерпывающе, для различных самоорганизующихся критических систем, где критической точкой системы является аттрактор. Формально такое разделение динамики называется универсальностью, а системы с точно такими же критическими показателями относятся к одному и тому же классу универсальности.

степенные функции

Научный интерес к степенно-правовым отношениям частично проистекает из легкости, с которой определенные общие классы механизмов порождают их. Демонстрация степенной зависимости в некоторых данных может указывать на определенные виды механизмов, которые могут лежать в основе рассматриваемого природного явления, и может указывать на глубокую связь с другими, казалось бы, несвязанными системами; см. также универсальность выше. Повсеместное распространение степенных отношений в физике частично объясняется размерными ограничениями, в то время как в сложных системах степенные законы часто считаются признаками иерархии или конкретной стохастической процессы. Несколько ярких примеров степенных законов: закон Парето распределения доходов, структурное самоподобие фракталов и законы масштабирования в биологических системах. Исследование происхождения степенно-законных отношений, а также усилия по их наблюдению и проверке в реальном мире являются активной темой исследований во многих областях науки, включая физику, информатику, лингвистика, геофизика, нейробиология, социология, экономика и другие.

Тем не менее, большая часть недавнего интереса к степенным законам связана с изучением распределений вероятностей : распределения большого разнообразия величин, кажется, следуют степенной форме, по крайней мере, в их верхний хвост (крупные события). Поведение этих крупных событий связывает эти величины с изучением теории больших отклонений (также называемой теорией экстремальных значений ), которая учитывает частоту чрезвычайно редких событий, таких как акции. рыночные обвалы и крупные стихийные бедствия. Название «степенной закон» используется в первую очередь при изучении статистических распределений.

В эмпирическом контексте приближение к степенному закону o (xk) {\ displaystyle o (x ^ {k})}o(x^k)часто включает член отклонения ε {\ displaystyle \ varepsilon}\varepsilon , который может представлять неопределенность в наблюдаемых значениях (возможно, ошибки измерения или выборки) или обеспечивать простой способ отклонения наблюдений от степенной функции (возможно, для стохастические причины):

y = axk + ε. {\ displaystyle y = ax ^ {k} + \ varepsilon. \!}y = ax^k + \varepsilon.\!

Математически строгий степенной закон не может быть вероятностным распределением, но возможно распределение, которое является усеченной степенной функцией : p (x) = C x - α {\ displaystyle p (x) = Cx ^ {- \ alpha}}p(x) = C x^{-\alpha}для x>x min {\ displaystyle x>x _ {\ текст {min}}}x>x_ \ text {min} где показатель степени α {\ displaystyle \ alpha}\alpha (греческая буква альфа, не путать с коэффициентом масштабирования a {\ displaystyle a}aиспользованный выше) больше 1 (в противном случае площадь хвоста бесконечна), минимальное значение x min {\ displaystyle x _ {\ text {min}}}x_\text{min}необходимо, иначе распределение будет иметь бесконечную площадь, когда x приближается к 0, а константа C является коэффициентом масштабирования, чтобы гарантировать, что общая площадь равна 1, как требуется распределением вероятности. Чаще используется асимптотический степенной закон - тот, который верен только в пределе; подробнее см. степенное распределение вероятностей ниже. Обычно показатель степени попадает в диапазон 2 < α < 3 {\displaystyle 2<\alpha <3}2 <\alpha <3, хотя и не всегда.

Примеры

В физике (например, песчаные лавины), биологии (например, вымирание видов и масса тела), а также социальные науки (например, размеры городов и доход). Среди них:

Астрономия

Криминология

  • количество обвинений на одного преступника

Физика

Биология

  • закон Клейбера, связывающий метаболизм животных с размером, и законы аллометрии в целом
  • Степенный закон двух третей, связывающий скорость с кривизной человеческая двигательная система.
  • Закон Тейлора, связывающий средний размер популяции и дисперсию размеров популяций в экологии
  • Нейрональные лавины
  • Видовое богатство (количество видов) в кладах пресноводных рыб
  • Эффект Харлоу-Кнаппа, когда подмножество киназ, обнаруженных в организме человека, составляет большинство опубликованных исследований

Метеорология

  • Размер ячеек ливневого дождя, рассеяние энергии в циклонах и диаметры пылевых дьяволов на Земле и Марсе

Общая наука

Математика

Экономика

  • Размер населения городов в регионе или городской сети, закон Ципфа.
  • Распределение художников по средней цене их произведений.
  • Распределение доходов в рыночной экономике.
  • Распределение степеней в банковских сетях.

Финансы

  • Среднее абсолютное изменение логарифмических средних цен
  • Число отсчетов тиков во времени
  • Размер максимального ценового движения
  • Среднее время ожидания изменения направления
  • Среднее время ожидания выброса

Варианты

Нарушенный степенной закон

Некоторые модели начальная функция масс использует нарушенный степенной закон; здесь Kroupa (2001) красным.

Нарушенный степенной закон - это кусочная функция, состоящая из двух или более степенных законов, объединенных с порогом. Например, с двумя степенными законами:

f (x) ∝ x α 1 {\ displaystyle f (x) \ propto x ^ {\ alpha _ {1}}}f(x) \propto x^{\alpha_1}для x < x th, {\displaystyle xx<x_\text{th},
f (Икс) ∝ Икс th α 1 - α 2 Икс α 2 для Икс>Икс th {\ Displaystyle F (x) \ propto x _ {\ text {th}} ^ {\ alpha _ {1} - \ alpha _ {2 }} x ^ {\ alpha _ {2}} {\ text {for}} x>x _ {\ text {th}}}f(x) \propto x^{\alpha_1-\alpha_2}_\text{th}x^{\alpha_2}\text{ for } x>x_ \ text {th} .

Степенный закон с экспоненциальным отсечением

Мощность закон с экспоненциальной отсечкой - это просто степенной закон, умноженный на экспоненциальную функцию:

f (x) ∝ x α e β x. {\ displaystyle f (x) \ propto x ^ {\ alpha} e ^ {\ beta x}.}f(x) \propto x^{\alpha}e^{\beta x}.

Кривая степенного закона

f (x) ∝ x α + β x {\ displaystyle f (x) \ propto x ^ {\ alpha + \ beta x}}f(x) \propto x^{\alpha + \beta x}
Вероятность степенного закона распределения

В более широком смысле, степенное распределение вероятностей - это распределение, функция плотности которого (или функция массы в дискретном случае) имеет вид для больших значений Икс { \ Displaystyle x}x,

P (X>x) ∼ L (x) x - (α - 1) {\ displaystyle P (X>x) \ sim L (x) x ^ {- (\ alpha -1) }}{\displaystyle P(X>x) \ sim L (x) x ^ {- (\ alpha -1)}}

где α>1 {\ displaystyle \ alpha>1}\alpha>1и L (x) {\ displaystyle L (x)}L(x)- это медленно меняющаяся функция, которая представляет собой любую функцию, которая удовлетворяет lim x → ∞ L (rx) / L (x) = 1 {\ displaystyle \ lim _ {x \ rightarrow \ infty} L (r \, x) / L (x) = 1}\lim _{{x\rightarrow \infty }}L(r\,x)/L(x)=1для любого положительного множителя r {\ displaystyle r}r. Это свойство L (x) {\ displaystyle L (x)}L(x)непосредственно следует из требования, чтобы p (x) {\ displaystyle p (x)}p(x)быть асимптотически масштабно инвариантным; таким образом, форма L (x) {\ displaystyle L (x)}L(x)управляет только формой и конечной протяженностью нижнего хвоста. Например, если L (x) {\ displaystyle L (x)}L(x)- постоянная функция, то у нас есть степенной закон, который выполняется для всех значений x {\ displaystyle x }x. Во многих случаях удобно предполагать нижнюю границу x m i n {\ displaystyle x _ {\ mathrm {min}}}x_{\mathrm{min}}, из которой выполняется закон. Объединяя эти два случая, и где x {\ displaystyle x}x- непрерывная переменная, степенной закон имеет вид

p (x) = α - 1 x min (xx min) - α, {\ displaystyle p (x) = {\ frac {\ alpha -1} {x _ {\ min}}} \ left ({\ frac {x} {x _ {\ min}}} \ right) ^ { - \ alpha},}p(x) = \frac{\alpha-1}{x_\min} \left(\frac{x}{x_\min}\right)^{-\alpha},

где предварительный множитель до α - 1 x min {\ displaystyle {\ frac {\ alpha -1} {x _ {\ min}}}}\frac{\alpha-1}{x_\min}- нормализующая константа. Теперь мы можем рассмотреть несколько свойств этого распределения. Например, его моменты определяются как

⟨xm⟩ = ∫ x min ∞ xmp (x) dx = α - 1 α - 1 - mx min m {\ displaystyle \ langle x ^ {m } \ rangle = \ int _ {x _ {\ min}} ^ {\ infty} x ^ {m} p (x) \, \ mathrm {d} x = {\ frac {\ alpha -1} {\ alpha - 1-m}} x _ {\ min} ^ {m}}\langle x^{m} \rangle = \int_{x_\min}^\infty x^{m} p(x) \,\mathrm{d}x = \frac{\alpha-1}{\alpha-1-m}x_\min^m

, который хорошо определен только для m < α − 1 {\displaystyle m<\alpha -1}m <\alpha -1. То есть все моменты m ≥ α - 1 {\ displaystyle m \ geq \ alpha -1}m \geq \alpha - 1расходятся: когда α ≤ 2 {\ displaystyle \ alpha \ leq 2}{\displaystyle \alpha \leq 2}, среднее значение и все моменты высших порядков бесконечны; когда 2 < α < 3 {\displaystyle 2<\alpha <3}2<\alpha<3, среднее существует, но дисперсия и моменты более высокого порядка бесконечны и т. д. Для выборок конечного размера, взятых из такого распределения, такое поведение подразумевает, что оценки центрального момента (например, m ean и дисперсия) для расходящихся моментов никогда не сойдутся - по мере накопления данных они продолжают расти. Эти степенные распределения вероятностей также называются распределениями типа Парето, распределениями с хвостами Парето или распределениями с правильно меняющимися хвостами.

Модификация, которая не удовлетворяет приведенной выше общей форме с экспоненциальным обрезанием, - это

p (x) ∝ L (x) x - α e - λ x. {\ displaystyle p (x) \ propto L (x) x ^ {- \ alpha} \ mathrm {e} ^ {- \ lambda x}.}p(x) \propto L(x) x^{-\alpha} \mathrm{e}^{-\lambda x}.

В этом распределении член экспоненциального затухания e - λ x {\ displaystyle \ mathrm {e} ^ {- \ lambda x}}\mathrm{e}^{-\lambda x}в конечном итоге подавляет поведение степенного закона при очень больших значениях x {\ displaystyle x}x. Это распределение не масштабируется и, следовательно, не является асимптотическим степенным законом; тем не менее, он приближенно масштабируется по конечной области до обрезания. Приведенная выше чистая форма является подмножеством этого семейства с λ = 0 {\ displaystyle \ lambda = 0}\lambda =0. Это распределение является общей альтернативой асимптотическому степенному распределению, поскольку оно естественным образом учитывает эффекты конечного размера.

Распределения Твиди представляют собой семейство статистических моделей, характеризующихся закрытием при аддитивной и репродуктивной свертке, а также при масштабном преобразовании. Следовательно, все эти модели выражают степенную зависимость между дисперсией и средним значением. Эти модели играют фундаментальную роль в качестве фокусов математической сходимости, аналогичной роли, которую нормальное распределение играет как центральную роль в центральной предельной теореме. Этот эффект сходимости объясняет, почему степенной закон дисперсии к среднему так широко проявляется в естественных процессах, как, например, закон Тейлора в экологии и масштабирование флуктуаций в физике. Также можно показать, что этот степенной закон дисперсии к среднему, продемонстрированный методом расширения бинов, подразумевает наличие шума 1 / f и что шум 1 / f может возникать как следствие этот эффект конвергенции Твиди.

Графические методы идентификации

Хотя были предложены более сложные и надежные методы, наиболее часто используемыми графическими методами идентификации степенных распределений вероятностей с использованием случайных выборок являются квантиль Парето. графики квантилей (или графики Парето Q – Q ), графики среднего остаточного срока службы и графики log – log. Другой, более надежный графический метод использует связки остаточных функций квантилей. (Имейте в виду, что степенные распределения также называются распределениями типа Парето.) Здесь предполагается, что случайная выборка получается из распределения вероятностей, и что мы хотим знать, следует ли хвост распределения степенному закону (другими словами, мы хотим знать, есть ли у распределения «хвост Парето»). Здесь случайная выборка называется «данными».

Графики Парето Q – Q сравнивают квантили логарифмически преобразованных данных с соответствующими квантилями экспоненциального распределения со средним значением 1 (или с квантилями стандартного распределения Парето) путем построения графика первое по сравнению со вторым. Если полученная диаграмма рассеяния предполагает, что нанесенные на график точки «асимптотически сходятся» к прямой линии, то следует подозревать степенное распределение. Ограничение диаграмм Парето Q – Q заключается в том, что они плохо себя ведут, когда хвостовой индекс α {\ displaystyle \ alpha}\alpha (также называемый индексом Парето) близок к 0, потому что графики Парето Q – Q не предназначены для определения распределений с медленно меняющимися хвостами.

С другой стороны, в своей версии для определения степенных распределений вероятностей график среднего остаточного ресурса состоит из сначала логарифмического преобразования данных, а затем построения графика среднее значение тех логарифмически преобразованных данных, которые выше статистики i-го порядка по сравнению со статистикой i-го порядка, для i = 1,..., n, где n - размер случайной выборки. Если полученная диаграмма рассеяния предполагает, что нанесенные на график точки имеют тенденцию «стабилизироваться» относительно горизонтальной прямой линии, тогда следует подозревать степенное распределение. Поскольку график среднего остаточного срока службы очень чувствителен к выбросам (он не является надежным), он обычно дает графики, которые трудно интерпретировать; по этой причине такие графики обычно называют графиками ужасов Хилла

Прямая линия на графике логарифмически необходима, но недостаточно доказательств для степенных законов, наклон прямой соответствует показателю степенного закона.

Логарифмические графики представляют собой альтернативный способ графического исследования хвоста распределения с использованием случайной выборки. Однако следует проявлять осторожность, поскольку график логарифмически необходим, но недостаточное доказательство наличия степенной зависимости, так как многие распределения, не являющиеся степенными, будут отображаться в виде прямых линий на диаграмме логарифм. Этот метод состоит из построения графика логарифма оценки вероятности того, что определенное число распределения встречается в зависимости от логарифма этого конкретного числа. Обычно эта оценка представляет собой долю раз, когда число встречается в наборе данных. Если точки на графике имеют тенденцию «сходиться» к прямой линии для больших чисел по оси x, исследователь приходит к выводу, что распределение имеет степенной хвост. Опубликованы примеры использования этих типов сюжетов. Недостатком этих графиков является то, что для получения надежных результатов они требуют огромных объемов данных. Кроме того, они подходят только для дискретных (или сгруппированных) данных.

Был предложен другой графический метод идентификации степенных распределений вероятностей с использованием случайных выборок. Эта методология состоит в построении пакета для образца, преобразованного в журнал. Первоначально предложенная как инструмент для изучения существования моментов и функции генерации моментов с использованием случайных выборок, методология связки основана на остаточных квантильных функциях (RQF), также называемых остаточными процентильными функциями, которые обеспечивают полную характеристику поведения хвостов многих хорошо известных распределений вероятностей, включая степенные распределения, распределения с другими типами тяжелых хвостов и даже распределения с не тяжелыми хвостами. Групповые диаграммы не имеют недостатков диаграмм Парето Q – Q, диаграмм среднего остаточного ресурса и диаграмм логарифма, упомянутых выше (они устойчивы к выбросам, позволяют визуально определять степенные законы с небольшими значениями α {\ displaystyle \ alpha }\alpha и не требуют сбора большого количества данных). Кроме того, другие типы поведения хвоста могут быть идентифицированы с помощью диаграмм пакетов.

Построение степенных распределений

Как правило, степенные распределения наносятся на график, который подчеркивает верхнюю часть хвоста. Самый удобный способ сделать это - использовать (дополнительное) кумулятивное распределение (cdf), P (x) = P r (X>x) {\ displaystyle P (x) = \ mathrm {Pr} (X>x)}P(x) = \mathrm{Pr}(X>x) ,

P (x) = Pr (X>x) = C ∫ x ∞ p (X) d X = α - 1 x min - α + 1 ∫ x ∞ X - α d Икс знак равно (хх мин) - α + 1, {\ Displaystyle P (x) = \ Pr (X>x) = C \ int _ {x} ^ {\ infty} p (X) \, \ mathrm {d } X = {\ frac {\ alpha -1} {x _ {\ min} ^ {- \ alpha +1}}} \ int _ {x} ^ {\ infty} X ^ {- \ alpha} \, \ mathrm {d} X = \ left ({\ frac {x} {x _ {\ min}}} \ right) ^ {- \ alpha +1}.}P(x) = \Pr(X>x) = C \ int_x ^ \ infty p (X) \, \ mathrm {d} X = \ frac {\ alpha-1} {x_ \ min ^ {- \ alpha + 1}} \ int_x ^ \ infty X ^ {- \ alpha} \, \ mathrm {d} X = \ left (\ frac {x} {x_ \ min} \ right) ^ {- \ alpha + 1}.

CD также является мощным функция закона, но с меньшим масштабным показателем. Для данных эквивалентной формой cdf является подход ранжирования и частоты, в котором мы сначала сортируем наблюдаемые значения n {\ displaystyle n}nв порядке возрастания и наносим их на график относительно вектора [1, n - 1 n, n - 2 n,…, 1 n] {\ displaystyle \ left [1, {\ frac {n-1} {n}}, {\ frac {n-2} { n}}, \ dots, {\ frac {1} {n}} \ right]}\left[1,\frac{n-1}{n},\frac{n-2}{n},\dots,\frac{1}{n}\right].

Хотя может быть удобно регистрировать данные или иным образом напрямую сглаживать функцию плотности вероятности (массы), эти методы вносить неявную предвзятость в представление данных, и поэтому этого следует избегать. Cdf, с другой стороны, более устойчив к (но не без) таким смещениям в данных и сохраняет линейную сигнатуру на дважды логарифмических осях. Хотя представление в формате cdf предпочтительнее, чем в формате PDF, при подгонке степенного закона к данным с помощью линейного метода наименьших квадратов, оно не лишено математической неточности. Таким образом, при оценке показателей степенного распределения рекомендуется использовать оценку максимального правдоподобия.

Оценка экспоненты на основе эмпирических данных

Существует много способов оценить значение показателя масштабирования для хвоста степенного закона, однако не все из них дают несмещенные и последовательные ответы. Некоторые из наиболее надежных методов часто основаны на методе максимального правдоподобия. Альтернативные методы часто основаны на линейной регрессии либо логарифмически логарифмической вероятности, либо логарифмической кумулятивной функции распределения, либо логарифмических данных, но этих подходов следует избегать, поскольку все они могут привести к сильно смещенным оценкам показатель масштабирования.

Максимальное правдоподобие

Для вещественных, независимых и одинаково распределенных данных мы подбираем степенное распределение вида

p (x) = α - 1 x мин (xx мин) - α {\ displaystyle p (x) = {\ frac {\ alpha -1} {x _ {\ min}}} \ left ({\ frac {x} {x_ { \ min}}} \ right) ^ {- \ alpha}}p(x) = \frac{\alpha-1}{x_\min} \left(\frac{x}{x_\min}\right)^{-\alpha}

к данным x ≥ x min {\ displaystyle x \ geq x _ {\ min}}x\geq x_\min, где коэффициент α - 1 x min {\ displaystyle {\ frac {\ alpha -1} {x _ {\ min}}}}\frac{\alpha-1}{x_\min}включен, чтобы гарантировать, что распределение нормализовано. Если выбрать x min {\ displaystyle x _ {\ min}}x_\min, логарифмическая функция правдоподобия принимает следующий вид:

L (α) = log ⁡ ∏ i = 1 n α - 1 x мин (xix мин) - α {\ displaystyle {\ mathcal {L}} (\ alpha) = \ log \ prod _ {i = 1} ^ {n} {\ frac {\ alpha -1} {x _ {\ min }}} \ left ({\ frac {x_ {i}} {x _ {\ min}}} \ right) ^ {- \ alpha}}{\displaystyle {\mathcal {L}}(\alpha)=\log \prod _{i=1}^{n}{\frac {\alpha -1}{x_{\min }}}\left({\frac {x_{i}}{x_{\min }}}\right)^{-\alpha }}

Максимум этой вероятности находится путем дифференцирования по параметру α {\ displaystyle \ alpha}\alpha , устанавливая результат равным нулю. После перестановки это дает уравнение оценки:

α ^ = 1 + n [∑ i = 1 n ln ⁡ xix min] - 1 {\ displaystyle {\ hat {\ alpha}} = 1 + n \ left [\ sum _ {i = 1} ^ {n} \ ln {\ frac {x_ {i}} {x _ {\ min}}} \ right] ^ {- 1}}\hat{\alpha} = 1 + n \left[ \sum_{i=1}^n \ln \frac{x_i}{x_\min} \right]^{-1}

где {xi} { \ displaystyle \ {x_ {i} \}}\{x_i\}- это n {\ displaystyle n}nточки данных xi ≥ x min {\ displaystyle x_ {i} \ geq x _ {\ min}}x_{i}\geq x_\min. Эта оценка показывает небольшое смещение конечного размера выборки порядка O (n - 1) {\ displaystyle O (n ^ {- 1})}O(n^{-1}), которое мало, когда n>100. Кроме того, стандартная ошибка оценки составляет σ = α ^ - 1 n + O (n - 1) {\ displaystyle \ sigma = {\ frac {{\ hat {\ alpha}} - 1} {\ sqrt {n}}} + O (n ^ {- 1})}\sigma ={\frac {{\hat {\alpha }}-1}{{\sqrt {n}}}}+O(n^{{-1}}). Эта оценка эквивалентна популярной оценке Хилла из количественных финансов и теории экстремальных ценностей.

для набора из n целочисленных точек данных {xi} {\ displaystyle \ {x_ {i} \}}\{x_i\}, где каждый xi ≥ x min {\ displaystyle x_ {i} \ geq x _ {\ min}}x_i\geq x_\min, показатель максимального правдоподобия является решением трансцендентного уравнения

ζ ′ (α ^, x min) ζ (α ^, x min) = - 1 n ∑ i = 1 n ln ⁡ xix min {\ displaystyle {\ frac {\ zeta '({\ hat {\ alpha}}, x _ {\ min})} {\ zeta ({\ hat {\ alpha}}, x _ {\ min})}} = - {\ frac {1 } {n}} \ sum _ {i = 1} ^ {n} \ ln {\ frac {x_ {i}} {x _ {\ min}}}}\frac{\zeta'(\hat\alpha,x_\min)}{\zeta(\hat{\alpha},x_\min)} = -\frac{1}{n} \sum_{i=1}^n \ln \frac{x_i}{x_\min}

где ζ (α, xmin) {\ displaystyle \ zeta (\ alpha, x _ {\ mathrm {min}})}\zeta(\alpha,x_{\mathrm{min}})- неполная дзета-функция. Неопределенность этой оценки определяется той же формулой, что и для непрерывного уравнения. Однако два уравнения для α ^ {\ displaystyle {\ hat {\ alpha}}}\hat{\alpha}не эквивалентны, и непрерывная версия не должна применяться к дискретным данным, и наоборот.

Кроме того, обе эти оценки требуют выбора x min {\ displaystyle x _ {\ min}}x_\min. Для функций с нетривиальной функцией L (x) {\ displaystyle L (x)}L(x), выбирая x min {\ displaystyle x _ {\ min}}x_\minслишком маленькое значение приводит к значительному смещению α ^ {\ displaystyle {\ hat {\ alpha}}}{\hat {\alpha }}, а слишком большое значение увеличивает неопределенность в α ^ {\ displaystyle { \ hat {\ alpha}}}\hat{\alpha}и снижает статистическую мощность нашей модели. В общем, лучший выбор x min {\ displaystyle x _ {\ min}}x_\minсильно зависит от конкретной формы нижнего хвоста, представленного L (x) {\ displaystyle L (x)}L(x)выше.

Подробнее об этих методах и условиях, при которых они могут быть использованы, можно найти в. Кроме того, эта всеобъемлющая обзорная статья предоставляет полезный код (Matlab, Python, R и C ++) для процедур оценки и тестирования степенных распределений.

Оценка Колмогорова – Смирнова

Другой метод оценки степенного показателя, который не предполагает независимых и одинаково распределенных данных (iid), использует минимизацию статистики Колмогорова – Смирнова, D {\ displaystyle D}D, между кумулятивными функциями распределения данных и степенным законом:

α ^ = argmin α D α {\ displaystyle {\ hat {\ alpha}} = {\ underset {\ alpha} {\ operatorname {arg \, min}}} \, D _ {\ alpha}}\hat{\alpha} = \underset{\alpha}{\operatorname{arg\,min}} \, D_\alpha

с

D α = макс х | P e m p (x) - P α (x) | {\ displaystyle D _ {\ alpha} = \ max _ {x} | P _ {\ mathrm {emp}} (x) -P _ {\ alpha} (x) |} D_\alpha = \max_x | P_\mathrm{emp}(x) - P_\alpha(x) |

где P emp (x) {\ displaystyle P _ {\ mathrm {emp}} (x)}P_\mathrm{emp}(x)и P α (x) {\ displaystyle P _ {\ alpha} (x)}P_\alpha(x)обозначают cdf данных и степенной закон с показателем α {\ displaystyle \ alpha}\alpha соответственно. Поскольку в этом методе не используются данные iid, он предоставляет альтернативный способ определения показателя степени для наборов данных, в которых нельзя игнорировать временную корреляцию.

Метод двухточечной аппроксимации

Этот критерий может применяться для оценки показателя степени в случае безмасштабных распределений и обеспечивает более сходящуюся оценку, чем метод максимального правдоподобия. Он был применен для исследования вероятностных распределений отверстий трещин. В некоторых контекстах распределение вероятности описывается не функцией кумулятивного распределения , а кумулятивной частотой свойства X, определяемой как количество элементов на метр (или единицу площади, второй и т. д.), для которого применяется X>x, где x - переменное действительное число. Например, кумулятивное распределение апертуры трещины X для выборки из N элементов определяется как «количество трещин на метр, имеющее апертуру больше x. Использование совокупной частоты имеет некоторые преимущества, например: он позволяет нанести на одну и ту же диаграмму данные, собранные из линий образцов разной длины в разных масштабах (например, из обнажения и с микроскопа).

Проверка степенных законов

Хотя степенные отношения привлекательны по многим теоретическим причинам, демонстрация того, что данные действительно следуют степенному отношению, требует большего, чем просто подгонка конкретной модели к данным. Это важно для понимания механизма, который приводит к распределению: внешне похожие распределения могут возникать по существенно разным причинам, а разные модели дают разные прогнозы, такие как экстраполяция.

Например, логнормальное распределение часто ошибочно принимают за степенное: набор данных, полученный из логнормального распределения, будет приблизительно линейным для больших значений (соответствует верхнему хвосту логнормальное значение близко к степенному закону), но для малых значений логнормальное будет значительно уменьшаться (изгиб вниз), что соответствует малому нижнему хвосту логнормального значения (есть очень мало маленьких значений, а не много маленьких значений в

Например, закон Гибрата о процессах пропорционального роста дает распределения, которые являются логнормальными, хотя их логарифмические графики выглядят линейными в ограниченном диапазоне. Это объясняется тем, что, хотя логарифм логарифмической функции плотности является квадратичным по логарифму (x), давая «изогнутую» форму на логарифмическом графике, если квадратичный является малым по сравнению с линейным членом, тогда результат может казаться почти линейным, а логнормальное поведение видно только тогда, когда преобладает квадратичный член, что может потребовать значительно больше данных. Следовательно, график логарифмически слегка «изогнутый» вниз может отражать логнормальное распределение, а не степенной закон.

В общем, многие альтернативные функциональные формы могут до некоторой степени следовать степенной форме. Штумпф предложил построить эмпирическую кумулятивную функцию распределения в логарифмической области и утверждал, что степенной закон кандидата должен охватывать как минимум два порядка величины. Кроме того, исследователи обычно сталкиваются с проблемой определения того, следует ли реальное распределение вероятностей степенному закону. В качестве решения этой проблемы Диас предложил графическую методологию, основанную на случайных выборках, которая позволяет визуально различать различные типы поведения хвоста. В этой методологии используются наборы остаточных функций квантилей, также называемые процентильными функциями остаточного срока службы, которые характеризуют множество различных типов хвостов распределения, включая как тяжелые, так и нетяжелые хвосты. Однако Штумпф утверждал, что необходимы как статистические, так и теоретические основы для поддержки степенного закона в базовом механизме, управляющем процессом генерации данных.

Один метод проверки степенного отношения проверяет множество ортогональных предсказаний конкретного механизма генерации на основе данных. Простая подгонка степенного отношения к конкретному виду данных не считается рациональным подходом. Таким образом, подтверждение степенных требований остается очень активной областью исследований во многих областях современной науки.

См. Также
Ссылки

Примечания

Библиография

External links
Последняя правка сделана 2021-06-02 13:10:46
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте