Оценка Тейла – Сена

редактировать
Метод статистического анализа для подгонки строки к данным points

Оценка Тейла – Сена для набора точек выборки с выбросами (черная линия) по сравнению с ненадежной обычной линией наименьших квадратов для того же набора (синяя). Пунктирная зеленая линия представляет собой основную истину, на основе которой были сгенерированы выборки.

В непараметрической статистике, оценка Тейла – Сена является методом для надежно подгонка линии к точкам выборки на плоскости (простая линейная регрессия ) путем выбора медианы из наклонов всех линий через пары точек. Его также называли оценкой наклона Сена, выбором наклона, методом единой медианы, методом надежной аппроксимации линии Кендалла и робастная линия Кендалла – Тейла . Он назван в честь Анри Тейля и Пранаба К. Сена, опубликовавших статьи по этому методу в 1950 и 1968 годах соответственно, и в честь Мориса Кендалла из-за его связи к коэффициенту ранговой корреляции тау Кендалла.

Эта оценка может быть вычислена эффективно и нечувствительна к выбросам. Он может быть значительно более точным, чем ненадежная простая линейная регрессия (наименьшие квадраты) для искаженных и гетероскедастических данных, и хорошо конкурирует с методом наименьших квадратов даже для нормально распределенные данные с точки зрения статистической мощности. Он был назван «самым популярным непараметрическим методом оценки линейного тренда».

Содержание
  • 1 Определение
  • 2 Варианты
  • 3 Статистические свойства
  • 4 Алгоритмы и реализация
  • 5 Приложения
  • 6 См. Также
  • 7 Примечания
  • 8 Ссылки
Определение

Как определено в Theil (1950), оценщик Тейла – Сена для набора двух размерные точки (x i,yi) - это медиана m наклонов (y j - y i) / (x j - x i) определяется по всем парам точек выборки. Сен (1968) расширил это определение на случай, когда две точки данных имеют одинаковую координату x. В определении Сена берется медиана уклонов, определенных только для пар точек, имеющих различные координаты x.

После определения наклона m можно определить линию из точек выборки, установив y-точка пересечения b как медиана значений y i - mx i. Тогда аппроксимирующей линией будет линия y = mx + b с коэффициентами m и b в форме наклон – пересечение. Как заметил Сен, этот выбор наклона приводит к тому, что коэффициент ранговой корреляции тау Кендалла становится приблизительно нулевым, когда он используется для сравнения значений x i с соответствующими им остатками yi- mx i - б. Интуитивно это предполагает, что расстояние, на которое линия соответствия проходит выше или ниже точки данных, не коррелирует с тем, находится эта точка слева или справа от набора данных. Выбор b не влияет на коэффициент Кендалла, но приводит к тому, что средний остаток становится приблизительно равным нулю; то есть аппроксимирующая линия проходит выше и ниже равного количества точек.

A доверительный интервал для оценки наклона может быть определен как интервал, содержащий средние 95% наклонов линий, определенных парами точек, и может можно быстро оценить путем отбора пар точек и определения 95% интервала выбранных уклонов. Согласно моделированию, примерно 600 пар выборок достаточно для определения точного доверительного интервала.

Варианты

Вариант оценки Тейла – Сена, повторная медианная регрессия Siegel (1982), определяет для каждой точки выборки (x i,yi) медианное значение m i наклонов (y j - y i) / (x j - x i) линий, проходящих через эту точку, а затем определяет общую оценку как медиану этих медиан. Он может допускать большее количество выбросов, чем оценка Тейла – Сена, но известные алгоритмы для его эффективного вычисления более сложны и менее практичны.

В другом варианте точки выборки разбиваются на пары по рангу их x-координат. : точка с наименьшей координатой сопоставляется с первой точкой над средней координатой, вторая наименьшая точка сопоставляется со следующей точкой над медианной и т. д. Затем он вычисляет медиану наклонов линий, определенных этими парами точек, набирая скорость за счет изучения значительно меньшего количества пар, чем оценка Тейла – Сена.

Варианты оценки Тейла – Сена на основе взвешенные медианы также были изучены на основе принципа, согласно которому пары выборок, координаты x которых сильно различаются, с большей вероятностью будут иметь точный наклон и, следовательно, должны получить более высокий вес.

Для сезонных данных., может оказаться целесообразным сгладить сезонные вариации в данных, рассматривая только пары точек выборки, которые принадлежат одному и тому же месяцу или одному сезону года, и нахождение медианы наклонов линий, определяемых этим более строгим набор пар.

Статистические свойства

Оценка Тейла – Сена - это несмещенная оценка истинного наклона в простой линейной регрессии. Для многих распределений ошибки ответа эта оценка имеет высокую асимптотическую эффективность по сравнению с оценкой методом наименьших квадратов. Оценщики с низкой эффективностью требуют более независимых наблюдений, чтобы получить такую ​​же выборочную дисперсию эффективных несмещенных оценщиков.

Оценщик Тейла – Сена более надежен, чем оценщик методом наименьших квадратов, поскольку он гораздо менее чувствителен к выбросам. Он имеет точку разбивки

1 - 1 2 ≈ 29,3%, {\ displaystyle 1 - {\ frac {1} {\ sqrt {2}}} \ приблизительно 29,3 \%,}{\ displaystyle 1 - {\ frac {1} {\ sqrt {2}}} \ приблизительно 29,3 \%,}

, что означает, что он может допускать произвольное искажение до 29,3% точек входных данных без ухудшения его точности. Однако точка срыва уменьшается для многомерных обобщений метода. Более высокая точка разбивки, 50%, имеет место для другого надежного алгоритма подбора линий, повторной медианной оценки Сигеля.

Оценка Тейла – Сена эквивариантна при каждом линейном преобразовании своей переменной ответа, что означает, что сначала преобразование данных, а затем подгонка к строке, или подгонка сначала к строке, а затем ее преобразование таким же образом, дают один и тот же результат. Однако он не эквивалентен при аффинных преобразованиях как переменных-предикторов, так и переменных ответа.

Алгоритмы и реализация

Средний наклон набора из n точек выборки может быть вычисляется точно путем вычисления всех O (n) линий через пары точек и последующего применения алгоритма поиска медианы с линейным временем . В качестве альтернативы, это может быть оценено путем выборки пар точек. Эта проблема эквивалентна в рамках проективной двойственности проблеме поиска точки пересечения в расположении прямых, у которого есть медианная координата x среди всех таких точек пересечения.

Проблема выполнения выбора уклона точно, но более эффективно, чем алгоритм квадратичного времени методом грубой силы, широко изучалась в вычислительной геометрии. Известно несколько различных методов вычисления оценки Тейла – Сена точно за время O (n log n) либо детерминированно, либо с использованием рандомизированных алгоритмов. Повторная медианная оценка Зигеля также может быть построена с той же временной границей. В моделях вычислений, в которых входные координаты являются целыми числами и в которых поразрядные операции с целыми числами занимают постоянное время, оценка Тейла – Сена может быть построена еще быстрее, за рандомизированное ожидаемое время O (n log ⁡ n) {\ displaystyle O (n {\ sqrt {\ log n}})}O (п {\ sqrt {\ log n}}) .

Оценка наклона с приблизительно средним рангом, имеющая ту же точку разбивки, что и оценка Тейла – Сена, может быть сохранена в модель потока данных (в которой точки выборки обрабатываются одна за другой с помощью алгоритма, не имеющего достаточного постоянного хранилища для представления всего набора данных) с использованием алгоритма, основанного на ε-сетях.

В статистическом пакете R и оценка Тейла – Сена, и повторная медианная оценка Зигеля доступны через библиотеку mblm. Бесплатное автономное приложение Visual Basic для оценки Тейла – Сена, KTRLine, было предоставлено Геологической службой США. Оценщик Тейла – Сена также был реализован в Python как часть библиотек SciPy и scikit-learn.

Приложения

Оценка Тейла – Сена была применена к астрономии из-за ее способности работать с цензурированными моделями регрессии. В биофизике, Fernandes Leblanc (2005) предлагают использовать его для приложений дистанционного зондирования, таких как оценка площади листьев по данным отражательной способности, благодаря его «простоте вычислений, аналитическим оценкам достоверности. интервалы, устойчивость к выбросам, проверяемые допущения относительно остатков и... ограниченная априорная информация относительно ошибок измерения ". Для измерения сезонных данных об окружающей среде, таких как качество воды, вариант оценки Тейла – Сена с поправкой на сезонность был предложен как предпочтительный по сравнению с оценкой методом наименьших квадратов из-за его высокой точности при наличии искаженных данных. В информатике метод Тейла – Сена использовался для оценки тенденций в старении программного обеспечения. В метеорологии и климатологии он использовался для оценки долгосрочных тенденций возникновения и скорости ветра.

См. Также
Примечания
Ссылки
Последняя правка сделана 2021-06-11 07:53:55
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте