Среднее арифметическое аналогично обычному среднему арифметическому (наиболее общий тип среднее ), за исключением того, что вместо того, чтобы каждая из точек данных вносила равный вклад в окончательное среднее, некоторые точки данных вносят больший вклад, чем другие. Понятие взвешенного среднего играет роль в описательной статистике, а также встречается в более общей форме в нескольких других областях математики.
Если все веса равны, то средневзвешенное значение совпадает со средним арифметическим . В то время как взвешенные средние обычно ведут себя аналогично средним арифметическим, у них есть несколько нелогичных свойств, как показано, например, в парадоксе Симпсона.
Содержание
- 1 Примеры
- 1.1 Базовый пример
- 1.2 Пример выпуклой комбинации
- 2 Математическое определение
- 3 Статистические свойства
- 4 Веса дисперсии
- 4.1 Корректировка избыточной или недостаточной дисперсии
- 5 Проверка начальной загрузки
- 6 Взвешенная дисперсия выборки
- 6.1 Веса частоты
- 6.2 Веса надежности
- 7 Ковариация взвешенной выборки
- 7.1 Веса частоты
- 7.2 Веса надежности
- 8 Оценки с векторными значениями
- 9 Учет корреляций
- 10 Уменьшение силы взаимодействий
- 11 Экспоненциально убывающие веса
- 12 Средневзвешенные значения функций
- 13 См. Также
- 14 Ссылки
- 15 Дополнительная литература
- 16 Внешние ссылки
Примеры
Базовый пример
Учитывая два школьных класса, один с 20 учениками, а другой с 30 учениками, оценки в каждом h класс на тесте:
- Утреннее занятие = 62, 67, 71, 74, 76, 77, 78, 79, 79, 80, 80, 81, 81, 82, 83, 84, 86, 89, 93, 98
- Дневной класс = 81, 82, 83, 84, 85, 86, 87, 87, 88, 88, 89, 89, 89, 90, 90, 90, 90, 91, 91, 91, 92, 92, 93, 93, 94, 95, 96, 97, 98, 99
Среднее значение для утреннего урока - 80, а среднее значение для дневного урока - 90. Невзвешенное среднее для 80 и 90 равно 85, поэтому невзвешенное среднее из двух средних составляет 85. Однако это не учитывает разницу в количестве студентов в каждом классе (20 против 30); следовательно, значение 85 не отражает среднюю оценку учащегося (независимо от класса). Средняя оценка студента может быть получена путем усреднения всех оценок без учета классов (сложите все оценки и разделите на общее количество студентов):
Или это может быть достигнуто путем взвешивания средних значений класса по количеству учащихся в каждом классе. Большему классу присваивается больший «вес»:
Таким образом, взвешенное среднее позволяет найти среднюю среднюю оценку учащегося, не зная оценки каждого учащегося. Требуются только средства класса и количество учеников в каждом классе.
Пример выпуклой комбинации
Поскольку важны только относительные веса, любое взвешенное среднее может быть выражено с помощью коэффициентов, которые в сумме равны единице. Такая линейная комбинация называется выпуклой комбинацией.
. Используя предыдущий пример, мы получили бы следующие веса:
Затем примените веса следующим образом:
Математическое определение
Формально, взвешенное среднее непустого конечного мультимножества данных с соответствующими неотрицательными весами равно
который расширяется до:
Следовательно, элементы данных с большим весом вносят больший вклад в средневзвешенное значение, чем элементы с низким весом. Вес не может быть отрицательным. Некоторые могут быть равны нулю, но не все (так как деление на ноль недопустимо).
Формулы упрощаются, если веса нормализованы таким образом, что они в сумме составляют , то есть:
- .
Для таких нормализованных весов среднее взвешенное значение будет таким:
- .
Обратите внимание, что всегда можно нормализовать веса, сделав следующее преобразование исходных весов:
- .
Использование нормализованного веса дает те же результаты, что и при использовании исходных весов:
обычное среднее - особый случай взвешенного среднего, где все данные имеют одинаковый вес.
Стандартная ошибка средневзвешенного значения (единицы входной дисперсии), можно представить с помощью распространения неопределенности следующим образом:
Статистические свойства
Взвешенное выборочное среднее, , сам по себе является случайной величиной. Его ожидаемое значение и стандартное отклонение связаны с ожидаемыми значениями и стандартными отклонениями наблюдений следующим образом. Для простоты мы предполагаем нормализованные веса (веса, суммирующие единицу).
Если наблюдения имеют ожидаемые значения
, то взвешенное среднее значение выборки имеет математическое ожидание
В частности, если средство равны, , то математическое ожидание взвешенного выборочного среднего будет этим значением,
Для некоррелированных наблюдений с дисперсией , дисперсия средневзвешенного выборочного среднего составляет
, квадратный корень которого можно назвать стандартной ошибкой взвешенного среднего (общий случай).
Следовательно, если все наблюдения имеют одинаковую дисперсию, , взвешенное выборочное среднее будет иметь дисперсию
где . Дисперсия достигает своего максимального значения, , когда все веса, кроме единицы, равны нулю. Его минимальное значение находится, когда все веса равны (т.е. невзвешенное среднее), и в этом случае мы имеем , т. Е. Вырождается в стандартную ошибку среднего в квадрате.
Обратите внимание, что, поскольку ненормализованные веса всегда можно преобразовать в нормализованные веса, все формулы в этом разделе можно адаптировать к ненормированным весам, заменив все .
Веса дисперсии
Для средневзвешенное значение списка данных, для которого каждый элемент потенциально происходит из другого распределения вероятностей с известной дисперсией , один из возможных вариантов весов дается обратной величиной дисперсии:
Средневзвешенное значение в этом случае:
и стандартная ошибка взвешенного среднего (с весами дисперсии) составляет:
Обратите внимание, что это сокращается до когда все . Это частный случай общей формулы из предыдущего раздела,
Приведенные выше уравнения можно объединить, чтобы получить:
Значение этого выбора состоит в том, что это взвешенное среднее является оценкой максимального правдоподобия среднего распределения вероятностей в предположении, что они независимы и нормально распределенное с тем же средним значением.
Поправка на чрезмерную или недостаточную дисперсию
Взвешенные средние обычно используются для нахождения взвешенного среднего исторических данных, а не теоретически сгенерированных данных. В этом случае будет некоторая ошибка в дисперсии каждой точки данных. Обычно экспериментальные ошибки могут быть недооценены из-за того, что экспериментатор не принимает во внимание все источники ошибок при вычислении дисперсии каждой точки данных. В этом случае дисперсию средневзвешенного значения необходимо скорректировать, чтобы учесть тот факт, что слишком велик. Требуемая коррекция:
где - приведенный хи-квадрат :
Квадратный корень можно назвать стандартной ошибкой взвешенного среднего (веса дисперсии, скорректированный масштаб).
Когда все отклонения данных равны, , они компенсируются в средневзвешенная дисперсия , что снова сводится к стандартной ошибке среднего (в квадрате), , сформулированное в терминах стандартного отклонения выборки (в квадрате),
Проверка начальной загрузки
Методами начальной загрузки было показано, что следующее является точной оценкой квадрата стандартной ошибки среднего (общий случай):
где . Дальнейшее упрощение приводит к
Взвешенная дисперсия выборки
Обычно при вычислении среднего важно знать дисперсию и стандартное отклонение этого среднего. Когда используется взвешенное среднее , дисперсия взвешенной выборки отличается от дисперсии невзвешенной выборки.
Смещенная взвешенная выборочная дисперсия определяется аналогично стандартной смещенной выборочной дисперсии :
где , который равен 1 для нормализованных весов. Если веса являются частотными (и, следовательно, случайными величинами), можно показать, что - оценка максимального правдоподобия для iid гауссовских наблюдений.
Для небольших выборок обычно используется несмещенная оценка дисперсии генеральной совокупности. В нормальных невзвешенных выборках N в знаменателе (соответствующем размеру выборки) изменяется на N - 1 (см. поправку Бесселя ). В настройке с взвешиванием на самом деле есть две разные несмещенные оценки: одна для частотных весов, а другая - для весовых коэффициентов надежности.
Веса частоты
Если веса являются весами частоты, то несмещенная оценка будет:
Это эффективно применяет поправку Бесселя для частотных весов.
Например, если значения взяты из того же распределения, то мы можем рассматривать этот набор как невзвешенный образец, или мы можем рассматривать его как взвешенный образец с соответствующими весами , и мы получим тот же результат в любом случае.
Если частотные веса нормализованы до 1, то правильное выражение после поправки Бесселя становится
, где общее количество выборок равно (не ). В любом случае информация об общем количестве выборок необходима для получения несмещенной коррекции, даже если имеет другое значение, отличное от частотного веса.
Обратите внимание, что оценка может быть несмещенной, только если веса не стандартизированы или нормализованы, эти процессы изменяют среднее значение и дисперсию данных и, таким образом, приводят к потеря базовой ставки (подсчет населения, необходимый для поправки Бесселя).
Веса надежности
Если веса не случайны (веса надежности), мы можем определить поправочный коэффициент, чтобы получить несмещенную оценку. Предполагая, что каждая случайная переменная выбирается из одного и того же распределения со средним значением и фактической дисперсией , принимая наши ожидания,
где . Следовательно, смещение в нашей оценке составляет , аналогично смещения в невзвешенной оценке (также обратите внимание, что равно эффективный размер выборки ). Это означает, что для несмещения нашей оценки нам нужно предварительно разделить на , гарантируя, что ожидаемое значение оцененной дисперсии равно фактической дисперсии выборочного распределения.
Окончательная несмещенная оценка выборочной дисперсии:
- ,
где .
Степени свободы взвешенной несмещенной дисперсии выборки соответственно изменяются от N - 1 до 0.
Стандартное отклонение - это просто квадратный корень из дисперсии, указанной выше.
В качестве примечания, были описаны другие подходы для вычисления дисперсии взвешенной выборки.
Ковариация взвешенной выборки
Во взвешенной выборке каждый вектор-строка (каждому набору отдельных наблюдений для каждой из K случайных величин) назначается вес .
Затем средневзвешенное вектор определяется выражением
А взвешенная ковариационная матрица имеет вид:
Как и в случае взвешенной выборочной дисперсии, существуют две разные несмещенные оценки в зависимости от типа весов.
Веса частот
Если веса являются весами частот, несмещенная взвешенная оценка ковариационной матрицы с поправкой Бесселя определяется как:
Обратите внимание, что эта оценка может быть несмещенной, только если веса не стандартизированы и нормализованы, эти процессы изменяют среднее значение и дисперсию данных и, таким образом, приводят к потеря базовой ставки (подсчет населения, который требуется для поправки Бесселя).
Веса надежности
В случае весов надежности нормализованы :
(Если это не так, разделите веса на их сумму для нормализации перед вычислением :
Тогда средневзвешенное вектор можно упростить до
и несмещенная взвешенная оценка ковариационной матрицы составляет:
Рассуждения здесь те же, что и в предыдущем разделе.
Поскольку мы предполагаем, что веса нормализованы, тогда и это сокращается до:
Если все веса одинаковы, т.е. , затем взвешенное среднее и ковариация уменьшаются до невзвешенного выборочного среднего и ковариация выше.
Векторнозначные оценки
Сказанное выше легко обобщается на случай взятия среднего из векторнозначных оценок. Например, оценки положения на самолете могут иметь меньшую уверенность в одном направлении, чем в другом. Как и в скалярном случае, средневзвешенное значение нескольких оценок может обеспечить оценку максимального правдоподобия . Мы просто заменяем дисперсию на ковариационную матрицу и арифметический обратный матрицей, обратный (оба обозначаются одинаково через верхний индекс); матрица весов будет иметь следующий вид:
Средневзвешенное значение в этом случае:
(где порядок матрично-векторного произведения не равен коммутативный ) в терминах ковариации средневзвешенного значения:
Например, рассмотрим средневзвешенное значение точки [1 0] с высокой дисперсией во втором компоненте и [0 1] с высокой дисперсией в первом компоненте. Тогда
тогда средневзвешенное значение:
что имеет смысл: оценка [1 0] "соответствует" во втором компоненте, а оценка [0 1] соответствует nt в первом компоненте, поэтому средневзвешенное значение почти [1 1].
Учет корреляций
В общем случае предположим, что , - это ковариационная матрица, связывающая величины , - обычное среднее значение для оценки, а - матрица плана , равная вектору единиц (длины ). Теорема Гаусса – Маркова утверждает, что оценка среднего, имеющего минимальную дисперсию, определяется как:
и
где:
Снижение силы взаимодействий
Рассмотрим временной ряд независимой переменной и зависимая переменная с наблюдениями, выбранными в дискретное время . Во многих распространенных ситуациях значение в момент зависит не только от , но также и от его прошлых значений. Обычно сила этой зависимости уменьшается с увеличением разнесения наблюдений во времени. Чтобы смоделировать эту ситуацию, можно заменить независимую переменную ее скользящим средним для размера окна .
Экспоненциально убывающие веса
В описанном сценарии в предыдущем разделе чаще всего уменьшение силы взаимодействия подчиняется отрицательному экспоненциальному закону. Если наблюдения производятся через эквидистантные моменты времени, то экспоненциальное уменьшение эквивалентно уменьшению на постоянную долю на каждом временном шаге. Установив , мы можем определить нормализованные веса на
где - сумма ненормализованных весов. В этом случае просто
приближается к для больших значений .
Константа демпфирования должна соответствовать фактическому снижению силы взаимодействия. Если это не может быть определено из теоретических соображений, то следующие свойства экспоненциально убывающих весов полезны для выбора подходящего варианта: на этапе , вес приблизительно равен , область хвоста - значение , область головы . Область хвоста на этапе равна . Если в первую очередь важны самые близкие наблюдения, а влияние остальных наблюдений можно безопасно игнорировать, тогда выберите так, чтобы площадь хвоста была достаточно маленькой.
Средневзвешенное значение функций
Концепция средневзвешенного значения может быть распространена на функции. Средневзвешенные значения функций играют важную роль в системах взвешенного дифференциального и интегрального исчисления.
См. Также