Диапазон (статистика)

редактировать

В statistics, диапазон набора данных является разницей между наибольшим и наименьшим значениями. Это может дать вам приблизительное представление о том, каким будет результат набора данных, прежде чем вы посмотрите на него на самом деле. Разница здесь специфична, диапазон набора данных является результатом вычитания наименьшее значение из наибольшее значение.

Однако в описательной статистике это понятие диапазона имеет более сложное значение. Диапазон - это размер наименьшего интервала (статистика), который содержит все данные и обеспечивает индикацию статистической дисперсии. Он измеряется в тех же единицах, что и данные. Поскольку он зависит только от двух наблюдений, он наиболее полезен для представления разброса небольших наборов данных. Диапазон оказывается наименьшим, а вычитаются самые высокие числа

Содержание
  • 1 Для непрерывных случайных величин IID
    • 1.1 Распределение
    • 1.2 Моменты
  • 2 Для непрерывных случайных величин без IID
  • 3 Для дискретные случайные величины IID
    • 3.1 Распределение
      • 3.1.1 Пример
  • 4 Выведение
  • 5 Связанные величины
  • 6 См. также
  • 7 Ссылки
Для непрерывных случайных величин IID

Для n независимых и одинаково распределенных непрерывных случайных величин X1, X 2,..., X n с кумулятивной функцией распределения G (x) и функция плотности вероятности g (x). Пусть T обозначает диапазон выборки размера n из совокупности с функцией распределения G (x).

Распределение

Диапазон имеет кумулятивную функцию распределения

F (t) = n ∫ - ∞ ∞ g (x) [G (x + t) - G (x)] n - 1 дх. {\ Displaystyle F (T) = п \ int _ {- \ infty} ^ {\ infty} g (x) [G (x + t) -G (x)] ^ {n-1} \, {\ text {d}} x.}{\ Displaystyle F (t) = n \ int _ {- \ infty} ^ {\ infty} g (x) [G (x + t) -G (x)] ^ {n-1} \, { \ text {d}} x.}

Гамбель отмечает, что «красота этой формулы полностью омрачена тем фактом, что, как правило, мы не можем выразить G (x + t) через G (x), и что численное интегрирование является длительным и утомительным. "

Если распределение каждого X i ограничено вправо (или влево), то асимптотическое распределение диапазона равно асимптотическому распределению наибольшего (наименьшего) значения. Для более общих распределений асимптотическое распределение может быть выражено как функция Бесселя.

Моменты

Средний диапазон определяется как

n ∫ 0 1 x (G) [G n - 1 - (1 - G) n - 1] d G {\ displaystyle n \ int _ {0} ^ {1} x (G) [G ^ {n-1} - (1-G) ^ {n-1}] \, {\ text {d}} G}{\ displaystyle n \ int _ {0} ^ {1} Икс (G) [G ^ {n-1} - (1-G) ^ {n-1}] \, {\ text {d}} G}

где x (G) - обратная функция. В случае, когда каждый из X i имеет стандартное нормальное распределение, средний диапазон определяется как

∫ - ∞ ∞ (1 - (1 - Φ (x)) n - Φ (x) n) dx. {\ displaystyle \ int _ {- \ infty} ^ {\ infty} (1- (1- \ Phi (x)) ^ {n} - \ Phi (x) ^ {n}) \, {\ text {d }} x.}{\ displaystyle \ int _ {- \ infty} ^ {\ infty} (1- (1- \ Phi ( x)) ^ {n} - \ Phi (x) ^ {n}) \, {\ text {d}} x.}
Для непрерывных случайных величин не-IID

Для n неидентично распределенных независимых непрерывных случайных величин X 1, X 2,..., X n с кумулятивными функциями распределения G 1 (x), G 2 (x),..., G n ( x) и функции плотности вероятности g 1 (x), g 2 (x),..., g n (x), диапазон имеет кумулятивное функция распределения

F (t) = ∑ i = 1 n ∫ - ∞ ∞ gi (x) ∏ j = 1, j ≠ в [G j (x + t) - G j (x)] dx. {\ Displaystyle F (t) = \ sum _ {i = 1} ^ {n} \ int _ {- \ infty} ^ {\ infty} g_ {i} (x) \ prod _ {j = 1, j \ neq i} ^ {n} [G_ {j} (x + t) -G_ {j} (x)] \, {\ text {d}} x.}{\ displaystyle F (t) = \ sum _ {i = 1} ^ {n} \ int _ {- \ infty} ^ {\ infty} g_ {i} (x) \ prod _ {j = 1, j \ neq i} ^ {n } [G_ {j} (x + t) -G_ {j} (x)] \, {\ text {d}} x.}
Для дискретных случайных величин IID

Для n независимых и одинаково распределенных дискретных случайных величин X 1, X 2,..., X n с кумулятивной функцией распределения G (x) и функция массы вероятности g (x) диапазон X i - это диапазон выборки размера n из совокупности с функцией распределения G (x). Мы можем предположить без ограничения общности, что поддержка каждого X i равна {1,2,3,..., N}, где N - положительное целое число или бесконечность.

Распределение

Диапазон имеет функцию массы вероятности

f (t) = {∑ x = 1 N [g (x)] nt = 0 ∑ x = 1 N - t ([G (x + t) - G (x - 1)] n - [G (x + t) - G (x)] n - [G (x + t - 1) - G (x - 1)] n + [G (x + t - 1) - G (x)] n) t = 1, 2, 3…, N - 1. {\ displaystyle f (t) = {\ begin {cases} \ sum _ {x = 1} ^ {N} [g (x)] ^ {n} t = 0 \\ [6pt] \ sum _ {x = 1} ^ {Nt} \ left ({\ begin {alignat } {2} [G (x + t) -G (x-1)] ^ {n} \\ {} - {} [G (x + t) -G (x)] ^ {n} \ \ {} - {} [G (x + t-1) -G (x-1)] ^ {n} \\ {} + {} [G (x + t-1) -G (x) ] ^ {n} \\\ end {alignat}} \ right) t = 1,2,3 \ ldots, N-1. \ end {cases}}}{\ displaystyle f (t) = {\ begin {cases} \ sum _ {x = 1} ^ {N} [g (x)] ^ {n } t = 0 \\ [6pt] \ sum _ {x = 1} ^ {Nt} \ left ({\ begin {ali gnedat} {2} [G (x + t) -G (x-1)] ^ {n} \\ {} - {} [G (x + t) -G (x)] ^ {n} \\ {} - {} [G (x + t-1) -G (x-1)] ^ {n} \\ {} + {} [G (x + t-1) -G (x)] ^ {n} \\\ end {alignat}} \ right) t = 1,2,3 \ ldots, N-1. \ end {cases}}}

Пример

Если предположить что g (x) = 1 / N, дискретное равномерное распределение для всех x, то находим

f (t) = {1 N n - 1 t = 0 ∑ x = 1 N - t ([t + 1 N] n - 2 [t N] n + [t - 1 N] n) t = 1, 2, 3…, N - 1. {\ displaystyle f (t) = {\ begin { case} {\ frac {1} {N ^ {n -1}}} t = 0 \\ [4pt] \ sum _ {x = 1} ^ {Nt} \ left (\ left [{\ frac {t + 1} {N}} \ right] ^ {n} -2 \ left [{\ frac {t} {N}} \ right] ^ {n} + \ left [{\ frac {t-1} {N}} \ right] ^ {n} \ right) t = 1,2,3 \ ldots, N-1. \ End {cases}}}{\ displaystyle f (t) = {\ begin {cases} {\ frac {1} {N ^ {n-1}}} t = 0 \\ [4pt] \ sum _ {x = 1} ^ { Nt} \ left (\ left [{\ frac {t + 1} {N}} \ right] ^ {n} -2 \ left [{\ frac {t} {N}} \ right] ^ {n} + \ left [{\ frac {t-1} {N}} \ right] ^ {n} \ right) t = 1,2,3 \ ldots, N-1. \ end {case}}}
Выведение

Вероятность наличия определенного значения диапазона, t, может быть определена путем сложения вероятностей наличия двух образцы, отличающиеся t, и все остальные образцы, имеющие значение между двумя крайними значениями. Вероятность того, что одна выборка будет иметь значение x, равна n g (x) {\ displaystyle ng (x)}{\ displaystyle ng (x)} . Вероятность того, что другое значение t будет больше x, равна:

(n - 1) g (x + t). {\ displaystyle (n-1) g (x + t).}{\ displaystyle (n-1) g (x + t).}

Вероятность того, что все другие значения находятся между этими двумя крайностями, равна:

(∫ xx + tg (x) dx) n - 2 = ( G (x + t) - G (x)) n - 2. {\ displaystyle \ left (\ int _ {x} ^ {x + t} g (x) \, {\ text {d}} x \ right) ^ {n-2} = \ left (G (x + t) -G (x) \ right) ^ {n-2}.}{\ displaystyle \ left (\ int _ {x} ^ {x + t} g (x) \, {\ text {d}} x \ right) ^ {n-2} = \ left (G (x + t) -G (x) \ right) ^ {n-2}.}

Объединение трех вместе дает:

f (t) = n (n - 1) ∫ - ∞ ∞ g (x) g ( Икс + T) [Г (Икс + T) - Г (Икс)] N - 2 dx {\ Displaystyle F (T) = N (N-1) \ int _ {- \ infty} ^ {\ infty} г ( x) g (x + t) [G (x + t) -G (x)] ^ {n-2} \, {\ text {d}} x}{\ displaystyle f (t) = n (n-1) \ int _ {- \ infty} ^ {\ infty} g (x) g (x + t) [G (x + t) -G (x)] ^ {n-2} \, {\ text {d}} x}
Связанные величины

Диапазон - это простая функция максимума и минимума выборки, и это конкретные примеры статистики заказов. В частности, диапазон является линейной функцией статистики порядка, что вводит его в область L-оценки.

См. Также
  • icon Математический портал
Ссылки
Последняя правка сделана 2021-06-03 08:12:20
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте