Преобразование данных (статистика)

редактировать
A диаграмма рассеяния, в которой области суверенных государств и зависимых территорий в мире нанесены на вертикальную ось против их совокупности на горизонтальной оси. Верхний график использует необработанные данные. На нижнем графике данные о площади и населении были преобразованы с использованием функции логарифма.

В статистике, данные преобразование является применением детерминированная математическая функция для каждой точки в наборе данных , то есть каждая точка данных z i заменяется преобразованным значением y i = f (z i), где f - функция. Преобразования обычно применяются для того, чтобы данные, по-видимому, более точно соответствовали предположениям применяемой процедуры статистического вывода, или для улучшения интерпретируемости или внешнего вида графиков.

Практически всегда, функция, которая используется для преобразования данных, - обратимая и обычно непрерывная. Преобразование обычно применяется к набору сопоставимых измерений. Например, если мы работаем с данными о доходах людей в некоторых единицах валюты, обычно значение дохода каждого человека преобразуется с помощью функции логарифма .

Содержание
  • 1 Мотивация
  • 2 В регрессии
    • 2.1 Примеры
    • 2.2 Альтернатива
  • 3 Общие случаи
    • 3.1 Преобразование в нормальное состояние
    • 3.2 Преобразование в равномерное распределение или произвольное распределение
    • 3.3 Преобразования, стабилизирующие дисперсию
  • 4 Преобразования для многомерных данных
  • 5 См. также
  • 6 Ссылки
  • 7 Внешние ссылки
Мотивация

Руководство по преобразованию данных, или нужно ли вообще применять преобразование, должно исходить из конкретного статистического анализа, который необходимо выполнить. Например, простой способ построить приблизительный 95% доверительный интервал для среднего по генеральной совокупности - взять выборочное среднее плюс или минус две единицы стандартной ошибки. Однако используемый здесь постоянный коэффициент 2 является специфическим для нормального распределения и применим только в том случае, если выборочное среднее значение изменяется приблизительно нормально. Центральная предельная теорема утверждает, что во многих ситуациях выборочное среднее обычно изменяется, если размер выборки достаточно велик. Однако, если совокупность существенно искажена и размер выборки не более чем умеренный, приближение, обеспечиваемое центральной предельной теоремой, может быть плохим, и полученный доверительный интервал, вероятно, будет иметь неверно вероятность охвата. Таким образом, когда есть свидетельства существенного перекоса в данных, обычно данные преобразуются в симметричное распределение перед построением доверительного интервала. При желании доверительный интервал можно затем преобразовать обратно к исходной шкале, используя преобразование, обратное преобразованию, которое было применено к данным.

Данные также можно преобразовать, чтобы упростить их визуализацию. Например, предположим, что у нас есть диаграмма рассеяния, на которой точки - это страны мира, а отображаемые значения данных - это площадь суши и население каждой страны. Если график составлен с использованием нетрансформированных данных (например, квадратных километров для площади и количества людей для населения), большинство стран будут нанесены на график в виде плотной группы точек в нижнем левом углу графика. Несколько стран с очень большими территориями и / или населением будут рассредоточены по большей части области графика. Простое изменение масштаба единиц (например, до тысяч квадратных километров или миллионов людей) этого не изменит. Однако после логарифмических преобразований площади и населения точки будут более равномерно распределены на графике.

Другой причиной применения преобразования данных является улучшение интерпретируемости, даже если формальный статистический анализ или визуализация не требуется. Например, предположим, что мы сравниваем автомобили с точки зрения их экономии топлива. Эти данные обычно представлены в виде «километров на литр» или «миль на галлон». Однако, если цель состоит в том, чтобы оценить, сколько дополнительного топлива человек использовал бы в течение одного года при вождении одной машины по сравнению с другой, более естественно работать с данными, преобразованными с применением обратной функции , что дает литров на километр или галлонов на милю.

В регрессии

Преобразование данных может использоваться в качестве корректирующей меры, чтобы сделать данные подходящими для моделирования с помощью линейной регрессии, если исходные данные нарушают одно или несколько предположений линейной регрессии. Например, простейшие модели линейной регрессии предполагают линейную взаимосвязь между ожидаемым значением Y (переменной ответа, которую нужно спрогнозировать) и каждым независимым переменная (когда другие независимые переменные остаются неизменными). Если линейность не соблюдается, даже приблизительно, иногда можно преобразовать независимые или зависимые переменные в регрессионной модели, чтобы улучшить линейность. Например, добавление квадратичных функций исходных независимых переменных может привести к линейной зависимости с ожидаемым значением Y, что приведет к модели полиномиальной регрессии, особому случаю линейной регрессии.

Другое предположение линейной регрессии - это гомоскедастичность, то есть дисперсия ошибок должна быть одинаковой независимо от значений предикторов. Если это предположение нарушается (т. Е. Если данные гетероскедастические ), может оказаться возможным найти преобразование только Y или преобразования обоих X (переменные-предикторы ) и Y, так что предположение о гомоскедастичности (в дополнение к предположению о линейности) выполняется для преобразованных переменных, и поэтому к ним может применяться линейная регрессия.

Еще одно применение преобразования данных - решить проблему отсутствия нормальности в терминах ошибок. Одномерная нормальность не требуется для того, чтобы оценки параметров регрессии методом наименьших квадратов имели смысл (см. теорему Гаусса – Маркова ). Однако доверительные интервалы и тесты гипотез будут иметь лучшие статистические свойства, если переменные демонстрируют многомерную нормальность. Преобразования, которые стабилизируют дисперсию членов ошибок (т.е. те, которые обращаются к гетероскедатичности), часто также помогают сделать условия ошибок приблизительно нормальными.

Примеры

Уравнение :Y = a + b X { \ displaystyle Y = a + bX}Y = a + bX

Значение: Увеличение X на единицу связано с увеличением Y в среднем на b единиц.

Уравнение: log ⁡ (Y) = a + b Икс {\ displaystyle \ log (Y) = a + bX}\ log (Y) = a + bX (Из возведения в степень обе части уравнения: Y = eaeb X {\ displaystyle Y = e ^ {a} e ^ {bX}}Y = e ^ {a} e ^ {{bX}} )

Значение: Увеличение X на единицу связано со средним увеличением на b единиц в log ⁡ (Y) {\ displaystyle \ log (Y)}{\ displaystyle \ log (Y)} или, что эквивалентно, Y увеличивается в среднем на множитель eb {\ displaystyle e ^ {b} \!}{\ displaystyle e ^ {b} \!} . В иллюстративных целях, если логарифм по основанию 10 были использованы вместо натурального логарифма в приведенном выше преобразовании, и те же символы (a и b) используются для обозначения коэффициентов регрессии, затем единичное увеличение в X приведет к 10 b {\ displaystyle 10 ^ {b}}10 ^ {{b}} раз увеличению Y в среднем. Если бы b было равно 1, то это означает 10-кратное увеличение Y для единичного увеличения X

Уравнение: Y = a + b log ⁡ (X) {\ displaystyle Y = a + b \ log (X)}Y = a + b \ log (X)

Значение: k-кратное увеличение X связано со средним значением b × log ⁡ (k) {\ displaystyle b \ times \ log (k)}{\ displaystyle b \ times \ log (k)} единиц увеличиваются в Y. В иллюстративных целях, если логарифм по основанию 10 использовался вместо натурального логарифма в приведенном выше преобразовании и тех же символах (a и b) используются для обозначения коэффициентов регрессии, то десятикратное увеличение X приведет к среднему увеличению b × log 10 ⁡ (10) = b {\ displaystyle b \ times \ log _ {10} (10) = b}{\ displaystyle b \ times \ log _ {10} (10) = b} единиц в Y

Уравнение: журнал ⁡ (Y) = a + b log ⁡ (X) {\ displaystyle \ log (Y) = a + b \ log (X)}\ log ( Y) = a + b \ log (X) (От возведения в степень обе части уравнения: Y = ea X b {\ displaystyle Y = e ^ {a} X ^ {b}}Y = e ^ {a} X ^ {{b}} )

Значение: K-кратное увеличение X связано с kb {\ displaystyle k ^ {b}}{\ displaystyle k ^ {b}} мультипликативным увеличением Y на средний. Таким образом, если X удвоится, это приведет к изменению Y на множитель 2 b {\ displaystyle 2 ^ {b} \!}{\ displaystyle 2 ^ {b} \!} .

Альтернатива

Обобщенные линейные модели (GLM) обеспечивают гибкое обобщение обычной линейной регрессии, которое позволяет использовать переменные отклика, которые имеют модели распределения ошибок, отличные от нормального распределения. GLM позволяют связать линейную модель с переменной отклика через функцию связи и позволяют величине дисперсии каждого измерения быть функцией его прогнозируемого значения.

Общие случаи

Преобразования логарифм и квадратный корень обычно используются для положительных данных, а обратное мультипликативное преобразование (обратное) может использоваться для ненулевых данных. Степенное преобразование - это семейство преобразований, параметризованное неотрицательным значением λ, которое включает в себя логарифм, квадратный корень и мультипликативную обратную величину как особые случаи. Для систематического подхода к преобразованию данных можно использовать методы статистической оценки для оценки параметра λ в преобразовании мощности, тем самым идентифицируя преобразование, которое является приблизительно наиболее подходящим в данной настройке. Поскольку семейство степенных преобразований также включает в себя преобразование идентичности, этот подход также может указать, лучше ли анализировать данные без преобразования. В регрессионном анализе этот подход известен как метод Бокса – Кокса.

Обратное преобразование, некоторые преобразования мощности, такие как преобразование Йео – Джонсона, и некоторые другие преобразования, такие как применение обратного гиперболического синуса, могут быть осмысленно применены к данным, которые включают как положительные, так и отрицательные значения (преобразование степени обратимо для всех действительных чисел, если λ - нечетное целое число). Однако, когда наблюдаются как отрицательные, так и положительные значения, иногда обычно начинают с добавления константы ко всем значениям, создавая набор неотрицательных данных, к которым может быть применено любое преобразование мощности.

Общее Ситуация, когда применяется преобразование данных, - это когда интересующее значение колеблется в пределах нескольких порядков. Такое поведение проявляется во многих физических и социальных явлениях - доходах, популяциях видов, размерах галактик и количестве осадков, и это лишь некоторые из них. Преобразование мощности, и в частности логарифм, часто можно использовать для создания симметрии в таких данных. Часто отдают предпочтение логарифму, потому что его результат легко интерпретировать в терминах «кратных изменений».

Логарифм также оказывает полезное влияние на отношения. Если мы сравниваем положительные величины X и Y с использованием отношения X / Y, тогда, если X < Y, the ratio is in the interval (0,1), whereas if X>Y, отношение находится в полупрямой (1, ∞), где отношение 1 соответствует равенству. В анализе, где X и Y обрабатываются симметрично, логарифмический коэффициент log (X / Y) равен нулю в случае равенства, и он обладает тем свойством, что если X в K раз больше, чем Y, логарифмическое отношение равно равноудалены от нуля, как в ситуации, когда Y в K раз больше, чем X (в этих двух ситуациях логарифмические отношения равны log (K) и −log (K)).

Если значения естественным образом ограничены диапазоном от 0 до 1, не включая конечные точки, тогда может быть подходящим преобразование логита : это дает значения в диапазоне (-∞, ∞).

Преобразование в нормальное состояние

1. Не всегда необходимо или желательно преобразовывать набор данных, чтобы он напоминал нормальное распределение. Однако, если требуется симметрия или нормальность, их часто можно вызвать с помощью одного из степенных преобразований;

2. Лингвистическая степенная функция распределяется в соответствии с законом Ципфа-Мандельброта. Распределение чрезвычайно резкое и лептокуртическое, поэтому исследователям пришлось отказаться от статистики для решения, например, авторства проблемы. Тем не менее, использование гауссовой статистики вполне возможно при применении преобразования данных.

3. Чтобы оценить, была ли достигнута нормальность после трансформации, можно использовать любой из стандартных тестов на нормальность. Графический подход обычно более информативен, чем формальный статистический тест, и поэтому график нормальных квантилей обычно используется для оценки соответствия набора данных нормальной генеральной совокупности. В качестве альтернативы также были предложены практические правила, основанные на выборке асимметрии и эксцесса.

Преобразование в равномерное или произвольное распределение

Если мы наблюдаем набор из n значений X 1,..., X n без связей (т.е. есть n различных значений), мы можем заменить X i с преобразованным значением Y i = k, где k определяется таким образом, что X i является k наибольшим среди всех значений X. Это называется ранговым преобразованием и создает данные, идеально подходящие для равномерного распределения. У этого подхода есть аналог совокупность.

Используя интегральное преобразование вероятности, если X - любая случайная величина, а F - кумулятивная функция распределения X, то до тех пор, пока поскольку F является обратимым, случайная величина U = F (X) следует равномерному распределению на единичном интервале [0,1].

Из равномерного распределения мы можем перейти к любому распределению с обратимой кумулятивной функцией распределения. Если G - обратимая кумулятивная функция распределения, а U - равномерно распределенная случайная величина, то случайная величина G (U) имеет G в качестве кумулятивной функции распределения.

Если сложить их вместе, если X - любая случайная величина, F - обратимая кумулятивная функция распределения X, а G - обратимая кумулятивная функция распределения, то случайная величина G (F (X)) имеет G как его кумулятивная функция распределения.

Преобразования, стабилизирующие дисперсию

Многие типы статистических данных демонстрируют «отношение дисперсии к среднему», что означает, что изменчивость различна для значений данных с разными ожидаемые значения. Например, при сравнении различных групп населения в мире разница в доходах имеет тенденцию увеличиваться со средним доходом. Если мы рассмотрим несколько небольших территориальных единиц (например, округа в США) и получим среднее значение и дисперсию доходов в каждом округе, то обычно округа с более высоким средним доходом также имеют более высокие отклонения.

A преобразование стабилизации дисперсии направлено на устранение зависимости дисперсии от среднего, так что дисперсия становится постоянной по отношению к среднему. Примерами преобразований, стабилизирующих дисперсию, являются преобразование Фишера для выборочного коэффициента корреляции, преобразование квадратного корня или преобразование Анскомба для данных Пуассона. (подсчет данных), преобразование Бокса – Кокса для регрессионного анализа и преобразование квадратного корня арксинуса или угловое преобразование для пропорций (биномиальные данные). Хотя обычно используется для статистического анализа пропорциональных данных, преобразование квадратного корня арксинуса не рекомендуется, потому что логистическая регрессия или преобразование логита более подходят для биномиальных или небиномиальных пропорций, соответственно, особенно из-за уменьшения ошибки типа II.

Преобразования для многомерных данных

Одномерные функции могут применяться точечно к многомерным данным для изменения их предельных распределений. Также можно изменить некоторые атрибуты многомерного распределения, используя правильно построенное преобразование. Например, при работе с временными рядами и другими типами последовательных данных обычно разность данных улучшает стационарность. Если данные, сгенерированные случайным вектором X, наблюдаются как векторы X i наблюдений с ковариационной матрицей Σ, для декорреляции данных можно использовать линейное преобразование. Для этого разложение Холецкого используется для выражения Σ = A A '. Тогда преобразованный вектор Y i = AX i имеет единичную матрицу в качестве своей ковариационной матрицы.

См. Также
Ссылки
Внешние ссылки
Последняя правка сделана 2021-05-17 14:11:28
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте