Цензура (статистика)

редактировать

В статистике, цензура - это условие, при котором значение измерения измерения или наблюдение известно лишь частично.

Например, предположим, что проводится исследование для измерения воздействия лекарственного средства на уровень смертности. В таком исследовании может быть известно, что возраст человека на момент смерти составляет не менее 75 лет (но может быть больше). Такая ситуация может возникнуть, если человек выбыл из исследования в возрасте 75 лет или если человек в настоящее время жив в возрасте 75 лет.

Цензура также происходит, когда значение выходит за пределы диапазона измерительный прибор. Например, весы для ванной могут весить не более 140 кг (310 фунтов). Если человек весом 160 кг (350 фунтов) взвешивается с помощью весов, наблюдатель будет знать только то, что вес человека составляет не менее 140 кг (310 фунтов).

Проблема цензурированных данных, в которых наблюдаемое значение некоторой переменной частично известно, связана с проблемой отсутствующих данных, где наблюдаемое значение некоторой переменной неизвестно.

Цензуру не следует путать с связанной идеей усечение. При цензурировании наблюдения приводят либо к знанию точного применимого значения, либо к знанию того, что значение находится в пределах интервала. С усечением наблюдения никогда не приводят к значениям вне заданного диапазона: значения в генеральной совокупности за пределами диапазона никогда не видны или никогда не записываются, если они видны. Обратите внимание, что в статистике усечение - это не то же самое, что округление.

Содержание

  • 1 Типы
  • 2 Анализ
    • 2.1 Эпидемиология
    • 2.2 Проверка срока службы
    • 2.3 Цензурированная регрессия
    • 2.4 Вероятность
  • 3 См. Также
  • 4 Ссылки
  • 5 Дополнительная литература
  • 6 Внешние ссылки

Типы

  • Цензура слева - точка данных находится ниже определенного значения, но на сколько неизвестно.
  • Интервальная цензура - точка данных находится где-то в интервале между двумя значениями.
  • Правильная цензура - точка данных выше определенного значения, но неизвестно на сколько.
  • Цензура типа I происходит, если в эксперименте задано количество субъектов или элементов, и эксперимент останавливается в заданное время, после чего любые оставшиеся субъекты подвергаются цензуре справа.
  • Цензура II типа происходит, если эксперимент имеет установленное количество субъектов или предметов и останавливает эксперимент, когда обнаруживается, что заранее определенное количество не удалось; остальные субъекты затем подвергаются цензуре справа.
  • Случайная (или неинформативная) цензура - это когда каждый субъект имеет время цензуры, которое статистически не зависит от времени их отказа. Наблюдаемое значение - это минимум времени цензуры и времени отказа; субъекты, время сбоя которых больше, чем время их цензуры, подвергаются цензуре справа.

Интервальная цензура может происходить, когда наблюдение за значением требует последующих действий или проверок. Левая и правая цензура являются частными случаями интервальной цензуры, с началом интервала в нуле или концом на бесконечности, соответственно.

Методы оценки для использования данных, подвергнутых левой цензуре, различаются, и не все методы оценки могут быть применимы или наиболее надежны для всех наборов данных.

Распространенное заблуждение с данными временного интервала классифицируется как интервалы с цензурой слева, где время начала неизвестно. В этих случаях у нас есть нижняя граница временного интервала, поэтому данные подвергаются цензуре справа (несмотря на то, что отсутствующая начальная точка находится слева от известного интервала, если смотреть как на временную шкалу!).

Анализ

Для обработки цензурированных данных могут использоваться специальные методы. Тесты с определенным временем отказа кодируются как фактические отказы; Цензурированные данные кодируются в соответствии с типом цензуры и известным интервалом или пределом. Специальные программы (часто ориентированные на надежность ) могут проводить оценку максимального правдоподобия для сводной статистики, доверительных интервалов и т. Д. Самой ранней попыткой анализа статистической проблемы, связанной с цензурированными данными, был анализ данных о заболеваемости и смертности от оспы, проведенный Дэниелом Бернулли за 1766 год для демонстрации эффективности вакцинации. Первой работой, в которой использовалась оценка Каплана – Мейера для оценки цензурированных затрат, была работа Quesenberry et al. (1989), однако этот подход был признан неверным Lin et al. за исключением случаев, когда все пациенты накапливают затраты с помощью общей детерминированной функции ставки с течением времени, они предложили альтернативный метод оценки, известный как оценка Lin.

Тестирование срока службы

Пример пяти повторных тестов, в результате при четырех сбоях и одном времени ожидания.

Надежность тестирование часто состоит из проведения теста элемента (при определенных условиях) для определения времени, которое требуется для возникновения сбоя.

  • Иногда отказ запланирован и ожидается, но не происходит: ошибка оператора, неисправность оборудования, аномалия теста и т. Д. Результатом теста было не желаемое время до отказа, но его можно (и нужно) использовать как время -до прекращения. Использование цензурированных данных непреднамеренно, но необходимо.
  • Иногда инженеры планируют программу тестирования так, что по истечении определенного времени или количества сбоев все остальные тесты будут прекращены. Это время ожидания обрабатывается как данные, подвергнутые цензуре справа. Использование цензурированных данных является преднамеренным.

Анализ данных повторных тестов включает в себя как время до отказа для элементов, которые не прошли проверку, так и время завершения теста для тех, которые не прошли проверку.

Цензурированная регрессия

Ранняя модель для цензурированной регрессии, модель Тобита, была предложена Джеймсом Тобином в 1958 году..

Вероятность

Правдоподобие - это вероятность или плотность вероятности того, что наблюдалось, рассматриваемое как функция параметров в предполагаемой модели. Предположим, нас интересуют времена выживания, T 1, T 2,..., T n {\ displaystyle T_ {1}, T_ {2},..., T_ {n}}{\ displaystyle T_ {1}, T_ {2},..., T_ {n}} , но мы не наблюдаем T i {\ displaystyle T_ {i} }T_{i}для всех i {\ displaystyle i}i . Вместо этого мы наблюдаем

(U i, δ i) {\ displaystyle (U_ {i}, \ delta _ {i})}{\ displaystyle (U_ {i}, \ delta _ {i})} , где U i = T i {\ displaystyle U_ {i} = T_ {i}}{\ displaystyle U_ {i} = T_ {i}} и δ i = 1 {\ displaystyle \ delta _ {i} = 1}{\ displaystyle \ delta _ {i} = 1} , если T i {\ displaystyle T_ {i}}T_{i}действительно наблюдается, и
(U i, δ i) {\ displaystyle (U_ {i}, \ delta _ {i})}{\ displaystyle (U_ {i}, \ delta _ {i})} , с U i < T i {\displaystyle U_{i}{\ displaystyle U_ {i} <T_ {i}} и δ i = 0 {\ displaystyle \ delta _ {i} = 0}{\ displaystyle \ delta _ {i} = 0} , если все, что мы знаем, это то, что T i {\ displaystyle T_ {i}}T_{i}длиннее, чем U i {\ displaystyle U_ {i}}U_ {i} .

Когда T i>U i, U i {\ displaystyle T_ { i}>U_ {i}, U_ {i}}{\displaystyle T_{i}>U_ {i}, U_ {i}} называется временем цензуры.

Если все времена цензуры являются известными константами, тогда вероятность =

L ∏ я, δ я знак равно 1 е (ui) ∏ я, δ я знак равно 0 S (ui) {\ displaystyle L = \ prod _ {i, \ delta _ {i} = 1} f (u_ {i}) \ prod _ {i, \ delta _ {i} = 0} S (u_ {i}) }{\ displaystyle L = \ prod _ {i, \ delta _ {i} = 1} f (u_ {i}) \ prod _ {i, \ delta _ {i} = 0} S (u_ {i})}

где f (ui) {\ displaystyle f (u_ {i})}{ \ displaystyle f (u_ {i})} = функция плотности вероятности, оцененная в ui {\ displaystyle u_ {i}}u_ {i} ,

и S (ui) {\ displaystyle S (u_ {i})}{\ Displaystyle S (и_ {я})} = вероятность того, что T i {\ displaystyle T_ {i}}T_{i}будет больше, чем ui {\ displaystyle u_ {i}}u_ {i} , называется функцией выживания.

Это можно упростить, определив функцию риска, мгновенную силу смертности, как

λ (u) = f (u) / S (u) {\ displaystyle \ lambda (u) = f (u) / S (u)}{\ displaystyle \ lambda (u) знак равно е (и) / S (и)}

так

f (u)) = λ (u) S (u) {\ displaystyle f (u) = \ lambda (u) S (u)}{\ displaystyle f (u) = \ lambda (u) S (u)} .

Тогда

L = ∏ я λ (ui) δ i S (ui) { \ displaystyle L = \ prod _ {i} \ lambda (u_ {i}) ^ {\ delta _ {i}} S (u_ {i})}{\ displaystyle L = \ прод _ {я} \ лямбда (и_ {я}) ^ {\ дельта _ {я}} S (и_ {я})} .

Для экспоненциального распределения это становится еще проще, потому что коэффициент опасности, λ {\ displaystyle \ lambda}\ lambda , является постоянным, и S (u) = exp ⁡ (- λ u) {\ displaystyle S ( u) = \ exp (- \ lambda u)}{\ displaystyle S (u) = \ exp (- \ lambda u)} . Тогда:

L (λ) = λ К ехр ⁡ (- λ ∑ ui) {\ displaystyle L (\ lambda) = \ lambda ^ {k} \ exp (- \ lambda \ sum {u_ {i}}) }{\ displaystyle L (\ lambda) = \ lambda ^ {k} \ exp (- \ lambda \ sum {u_ {i}})} ,

где k = ∑ δ i {\ displaystyle k = \ sum {\ delta _ {i}}}{\ displaystyle k = \ sum {\ delta _ {i}}} .

Отсюда мы легко вычисляем λ ^ {\ displaystyle {\ hat {\ лямбда}}}{\ hat { \ lambda}} , оценка максимального правдоподобия (MLE) для λ {\ displaystyle \ lambda}\ lambda , как показано ниже:

l ( λ) знак равно журнал ⁡ (L (λ)) знак равно К журнал ⁡ (λ) - λ ∑ Ui {\ Displaystyle L (\ lambda) = \ журнал (L (\ lambda)) = к \ журнал (\ лямбда) - \ lambda \ sum {u_ {i}}}{\ displaystyle l (\ lambda) = \ log (L (\ lambda)) = k \ log (\ lambda) - \ lambda \ sum {u_ {i}}} .

Тогда

dl / d λ = k / λ - ∑ ui {\ displaystyle dl / d \ lambda = k / \ lambda - \ sum {u_ {i}} }{\ displaystyle dl / d \ lambda = k / \ lambda - \ sum {u_ {i}}} .

Мы устанавливаем это значение на 0 и решаем для λ {\ displaystyle \ lambda}\ lambda , чтобы получить:

λ ^ = k / ∑ ui {\ displaystyle {\ hat {\ lambda} }} = k / \ sum u_ {i}}{\ displaystyle {\ hat {\ lambda}} = k / \ sum u_ {i}} .

Аналогично, средняя наработка до отказа равна:

1 / λ ^ = ∑ ui / k {\ displaystyle 1 / {\ hat {\ lambda}} = \ sum u_ {i} / k}{\ displaystyle 1 / {\ hat {\ lambda}} = \ sum u_ {i} / k} .

Он отличается от стандартного MLE для экспоненциального распределения тем, что любой цензурированный объект наблюдения Все значения учитываются только в числителе.

См. Также

Ссылки

Дополнительная литература

Внешние ссылки

  • «Справочник по технической статистике», NIST / SEMATEK, [1 ]
Последняя правка сделана 2021-05-14 14:12:11
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте