Единичная регрессия

редактировать

В статистике, Единично-взвешенная регрессия является упрощенной, а надежная версия (Wainer Thissen, 1976) множественного регрессионного анализа, в которой оценивается только член перехвата. То есть он соответствует модели

y ^ = f ^ (x) = b ^ + ∑ ixi {\ displaystyle {\ hat {y}} = {\ hat {f}} (\ mathbf {x}) = {\ hat {b}} + \ sum _ {i} x_ {i}}

{\ displaystyle {\ hat {y}} = {\ hat {f}} (\ mathbf {x}) = {\ hat {b} } + \ sum _ {i} x_ {i}}

где каждая из $xi {\ displaystyle x_ {i}}$ $x_ {i}$ - двоичные переменные, возможно, умноженные с произвольным весом.

Сравните это с более распространенной моделью множественной регрессии, где каждый предиктор имеет свой собственный оценочный коэффициент:

y ^ = f ^ (x) = b ^ + ∑ iw ^ ixi {\ displaystyle {\ hat {y}} = {\ hat {f}} (\ mathbf {x}) = {\ hat {b}} + \ sum _ {i} {\ hat {w}} _ {i} x_ {i}}

{\ displaystyle {\ hat {y}} = {\ hat {f}} (\ mathbf {x}) = {\ hat {b}} + \ sum _ {i} {\ hat {w}} _ {i} x_ {i}}

В социальных науках взвешенная регрессия иногда используется для двоичной классификации, то есть для предсказания ответа да-нет где $y ^ < 0 {\displaystyle {\hat {y}}<0}$ ${\ displaystyle {\ hat {y}} <0}$ означает «нет», $y ^ ≥ 0 {\ displaystyle {\ hat {y}} \ geq 0}$ ${\ displaystyle {\ hat {y}} \ geq 0}$ «да». Его легче интерпретировать, чем множественную линейную регрессию (известную как линейный дискриминантный анализ в случае классификации).

Содержание

1 Вес единицы
- 1.1 Метод Берджесса
- 1.2 Метод Керби
- 1.3 Метод z-оценки
2 Обзор литературы
3 Пример
4 Бета-веса
5 Спецификация модели
6 См. Также
7 Ссылки
8 Дополнительная литература
9 Внешние ссылки

Веса единиц

Взвешенная по единицам регрессия - это метод надежной регрессии, который выполняется в три этапа. Сначала выбираются предикторы для интересующего результата; в идеале для выбора должны быть веские эмпирические или теоретические основания. Во-вторых, предикторы преобразуются в стандартную форму. Наконец, предикторы складываются, и эта сумма называется вариацией, которая используется в качестве предиктора результата.

Метод Берджесса

Метод Берджесса впервые был представлен социологом Эрнестом У. Берджессом в исследовании 1928 года для определения успеха или неудачи заключенных, освобожденных условно-досрочно. Во-первых, он выбрал 21 переменную, которая, как считается, связана с успешным условно-досрочным освобождением. Затем он преобразовал каждый предиктор в стандартную форму нуля или единицы (Берджесс, 1928). Когда предикторы имели два значения, значение, связанное с целевым результатом, кодировалось как одно. Берджесс выбрал успешное условно-досрочное освобождение в качестве целевого результата, поэтому предиктор, такой как история краж, был закодирован как «да» = 0 и «нет» = 1. Эти закодированные значения были затем добавлены для создания предикторной оценки, так что более высокие баллы предсказал больше шансов на успех. Баллы могут варьироваться от нуля (нет предикторов успеха) до 21 (все 21 предиктор оцениваются как предсказывающие успех).

Для предикторов с более чем двумя значениями метод Берджесса выбирает оценку отсечения на основе субъективного суждения. Например, в исследовании с использованием метода Берджесса (Gottfredson Snyder, 2005) было выбрано в качестве одного предиктора количество жалоб на правонарушительное поведение. При отказе от условно-досрочного освобождения в качестве целевого результата количество жалоб было закодировано следующим образом: «от нуля до двух жалоб» = 0 и «три или более жалоб» = 1 (Gottfredson Snyder, 2005. стр. 18).

Метод Керби

Метод Керби похож на метод Берджесса, но отличается двумя способами. Во-первых, в то время как метод Берджесса использует субъективное суждение для выбора порогового значения для многозначного предиктора с двоичным результатом, метод Керби использует анализ классификации и регрессионного дерева (CART ). Таким образом, выбор пороговой оценки основан не на субъективном суждении, а на статистическом критерии, таком как точка, в которой значение хи-квадрат является максимальным.

Второе отличие заключается в том, что, хотя метод Берджесса применяется к двоичному результату, метод Керби может применяться к многозначному результату, потому что анализ CART может определять граничные оценки в таких случаях, используя такой критерий, как точка, в которой значение t является максимальным. Поскольку анализ CART не только бинарный, но и рекурсивный, результатом может быть то, что переменная-предиктор будет снова разделена, давая две оценки отсечения. Стандартная форма для каждого предиктора состоит в том, что оценка, равная единице, добавляется, когда анализ CART создает раздел.

Одно исследование (Kerby, 2003) выбрало в качестве предикторов пять черт Большой пятерки личностных черт, предсказывая многозначную меру суицидальных мыслей. Затем показатели личности были преобразованы в стандартную форму с помощью CART-анализа. Когда анализ CART дал одно разделение, результат был похож на метод Берджесса в том, что предиктор был закодирован как ноль или единица. Но для показателя невротизма результатом были две пороговые оценки. Поскольку более высокие баллы невротизма коррелировали с более суицидными мыслями, два пороговых значения привели к следующему кодированию: «низкий невротизм» = 0, «умеренный невротизм» = 1, «высокий невротизм» = 2 (Kerby, 2003).

Метод z-оценки

Другой метод может применяться, когда предикторы измеряются по непрерывной шкале. В таком случае каждый предиктор может быть преобразован в стандартную оценку или z-оценку, так что все предикторы будут иметь среднее значение ноль и стандартное отклонение, равное единице. При использовании этого метода взвешенной регрессии вариация представляет собой сумму z-значений (например, Dawes, 1979; Bobko, Roth, Buster, 2007).

Обзор литературы

Первым эмпирическим исследованием, использующим взвешенную регрессию, широко считается исследование 1928 года социолога Эрнеста Бёрджесса. Он использовал 21 переменную, чтобы предсказать успех или неудачу условно-досрочного освобождения, и результаты показывают, что удельные веса являются полезным инструментом при принятии решения о том, кого из заключенных освободить условно-досрочно. Из заключенных с лучшими оценками 98% действительно добились условно-досрочного освобождения; а из тех, кто набрал наихудшие результаты, только 24% действительно преуспели (Burgess, 1928).

Математические вопросы, связанные с взвешенной регрессией, были впервые обсуждены в 1938 году Сэмюэлем Стэнли Уилксом, ведущим статистиком, проявлявшим особый интерес к многомерному анализу. Уилкс описал, как можно использовать единичные веса на практике, когда данные для оценки бета-весов недоступны. Например, небольшой колледж может захотеть отобрать хороших студентов для поступления. Но у школы может не быть денег для сбора данных и проведения стандартного множественного регрессионного анализа. В этом случае школа может использовать несколько предикторов - оценки в старшей школе, результаты SAT, рейтинги учителей. Уилкс (1938) математически показал, почему единицы веса должны хорошо работать на практике.

Фрэнк Шмидт (1971) провел имитационное исследование веса единиц. Его результаты показали, что Уилкс действительно был прав и что единицы веса, как правило, хорошо работают при моделировании практических занятий.

Робин Доус (1979) обсуждал использование единичных весов в прикладных исследованиях, имея в виду устойчивую красоту моделей, взвешенных по единице. Джейкоб Коэн также обсудил значение единиц веса и отметил их практическую полезность. Более того, он писал: «На практике в большинстве случаев нам лучше использовать единичные веса» (Коэн, 1990, стр. 1306).

Дэйв Керби (2003) показал, что удельные веса хорошо сопоставимы со стандартной регрессией, сделав это с помощью перекрестной проверки исследования, то есть он вывел бета-веса в одной выборке и применил их к второй образец. Результатом интереса было суицидальное мышление, а прогностическими переменными были общие черты личности. В выборке перекрестной проверки корреляция между личностью и суицидальным мышлением была немного сильнее при взвешенной регрессии (r = 0,48), чем при стандартной множественной регрессии (r = 0,47).

Готфредсон и Снайдер (2005) сравнили метод взвешенной регрессии Берджесса с другими методами с выборкой построения N = 1,924 и выборкой перекрестной проверки N = 7,552. Используя точечный бисериал Пирсона, размер эффекта в выборке перекрестной проверки для модели единичных весов составил r = 0,392, что несколько больше, чем для логистической регрессии (r = 0,368) и анализа прогнозных атрибутов (r = 0,387).), а меньше множественной регрессии только в третьем десятичном разряде (r = 0,397).

В обзоре литературы по единичным весам Бобко, Рот и Бастер (2007) отметили, что «единичные веса и регрессионные веса работают одинаково с точки зрения величины перекрестно подтвержденной множественной корреляции и эмпирических исследований. подтвердили этот результат на протяжении нескольких десятилетий »(с. 693).

Андреас Грефе применил подход равных весов к девяти установленным моделям множественной регрессии для прогнозирования США. президентские выборы. За десять выборов с 1976 по 2012 год одинаково взвешенные предсказатели уменьшили ошибку прогноза исходных регрессионных моделей в среднем на четыре процента. Модель равных весов, включающая все переменные, обеспечивала откалиброванные прогнозы, которые уменьшили ошибку наиболее точной регрессионной модели на 29% процентов.

Пример

Пример может прояснить, как могут быть полезны единицы веса на практике.

Бренна Брай и его коллеги (1982) обратились к вопросу о том, что вызывает употребление наркотиков у подростков. Предыдущие исследования использовали множественную регрессию; с помощью этого метода естественно искать лучший предсказатель с наибольшим бета-весом. Брай и его коллеги отметили, что одно из предыдущих исследований показало, что раннее употребление алкоголя является лучшим предиктором. Другое исследование показало, что отчуждение от родителей было лучшим предсказателем. Еще одно исследование показало, что низкие оценки в школе являются лучшим предсказателем. Отсутствие репликации явно было проблемой, проблемой, которая могла быть вызвана откатом бета-версий.

Брай и его коллеги предложили другой подход: вместо того, чтобы искать лучший предсказатель, они смотрели на количество предсказателей. Другими словами, они присвоили каждому предсказателю единичный вес. В их исследовании было шесть предикторов: 1) низкие оценки в школе, 2) отсутствие принадлежности к религии, 3) ранний возраст употребления алкоголя, 4) психологический стресс, 5) низкая самооценка и 6) отчуждение от родителей. Чтобы преобразовать предикторы в стандартную форму, каждый фактор риска оценивался как отсутствующий (оценивался как ноль) или как присутствующий (оценивался как один). Например, для младших классов в школе кодировка была следующей: «C или выше» = 0, «D или F» = 1. Результаты показали, что количество факторов риска было хорошим предиктором употребления наркотиков: подростки с более факторы риска чаще употребляли наркотики.

Модель, которую использовали Брай и его коллеги, заключалась в том, что потребители наркотиков ничем не отличаются от потребителей, не употребляющих наркотики. Скорее, они различаются по количеству проблем, с которыми им приходится сталкиваться. «Число факторов, с которыми индивидуум должен справиться, более важно, чем то, каковы именно эти факторы» (стр. 277). С учетом этой модели подходящим методом анализа является взвешенная регрессия.

Бета-веса

В стандартной множественной регрессии каждый предиктор умножается на число, которое называется бета-весом, регрессионным весом или взвешенными коэффициентами регрессии (обозначается β W или BW). Прогноз получается путем добавления этих продуктов вместе с константой. Когда веса выбираются так, чтобы дать лучший прогноз по некоторому критерию, модель называется правильной линейной моделью. Следовательно, множественная регрессия - это правильная линейная модель. В отличие от этого, регрессия с единичным взвешиванием называется неправильной линейной моделью.

Спецификация модели

Стандартная множественная регрессия основана на предположении, что все соответствующие предикторы результата включены в регрессионную модель. Это предположение называется спецификацией модели. Говорят, что модель указана, когда все соответствующие предикторы включены в модель, а все нерелевантные предикторы исключены из модели. В практических условиях исследование редко может априори определить все соответствующие предикторы. В этом случае модели не указываются, а оценки бета-весов страдают из-за смещения переменной. То есть веса бета-версии могут меняться от одной выборки к другой, что иногда называют проблемой прыгающих бета-версий. Именно эта проблема с отскакивающими бета-версиями делает взвешенную по единице регрессию полезным методом.

См. Также

Ссылки

Бобко П., Рот П. Л. и Бастер М. А. (2007). «Полезность единичных весов в создании составных баллов: обзор литературы, применение к валидности контента и метаанализ». Организационные методы исследования, том 10, страницы 689-709. doi : 10,1177 / 1094428106294734
Bry, B.H.; McKeon, P.; Пандина, Р. Дж. (1982). «Степень употребления наркотиков в зависимости от ряда факторов риска». Журнал аномальной психологии. 91 (4): 273–279. doi : 10.1037 / 0021-843X.91.4.273. PMID 7130523.
Берджесс, Э. У. (1928). «Факторы, определяющие успех или неудачу условно-досрочного освобождения». В А. А. Брюсе (ред.), Работа закона о неопределенном приговоре и условно-досрочном освобождении в Иллинойсе (стр. 205–249). Спрингфилд, Иллинойс: Совет по условно-досрочному освобождению штата Иллинойс. Google Книги
Коэн, Джейкоб. (1990). «Вещи, которые я узнал (пока)». Американский психолог, том 45, страницы 1304-1312. doi : 10.1037 / 0003-066X.45.12.1304
Доус, Робин М. (1979). «Надежная красота неправильных линейных моделей в принятии решений». Американский психолог, том 34, страницы 571-582. doi : 10.1037 / 0003-066X.34.7.571. заархивированный pdf
Готтфредсон Д. М. и Снайдер Х. Н. (июль 2005 г.). Математика классификации рисков: превращение данных в действенные инструменты для судов по делам несовершеннолетних. Питтсбург, Пенсильвания: Национальный центр ювенальной юстиции. NCJ 209158. Eric.ed.gov pdf
Керби, Дэйв С. (2003). «Анализ CART с взвешенной регрессией для прогнозирования суицидальных мыслей по чертам Большой пятерки». Личность и индивидуальные различия, том 35, страницы 249-261. doi : 10.1016 / S0191-8869 (02) 00174-5
Шмидт, Франк Л. (1971). «Относительная эффективность регрессии и простых единиц веса предиктора в прикладной дифференциальной психологии». Образовательные и психологические измерения, том 31, страницы 699-714. doi : 10.1177 / 001316447103100310
Wainer, H., Thissen, D. (1976). Три шага к устойчивой регрессии. Психометрика, том 41 (1), страницы 9–34. doi : 10.1007 / BF02291695
Уилкс, С.С. (1938). «Системы взвешивания для линейных функций коррелированных переменных при отсутствии зависимой переменной». Психометрика. 3 : 23–40. doi : 10.1007 / BF02287917.

Дополнительная литература

Dana, J., Dawes, R.M. (2004). «Превосходство простых альтернатив регрессии для прогнозов социальных наук». Журнал образовательной и поведенческой статистики, том 29 (3), страницы 317-331. doi : 10.3102 / 10769986029003317
Доус, Р. М., и Корриган, Б. (1974). Линейные модели в принятии решений. Психологический бюллетень, том 81, страницы 95–106. doi : 10,1037 / h0037613
Эйнхорн, Х. Дж., И Хогарт, Р. М. (1975). Схемы взвешивания единиц для принятия решений. Организационное поведение и деятельность человека, том 13 (2), страницы 171–192. doi : 10.1016 / 0030-5073 (75) 90044-6
Хаким, М. (1948). Обоснованность метода предсказания условно-досрочного освобождения по методу Берджесса. Американский журнал социологии, том 53 (5), страницы 376-386. JSTOR
Ньюман, Дж. Р., Сивер, Д., Эдвардс, У. (1976). Единичные и дифференциальные схемы взвешивания для принятия решений: метод исследования и некоторые предварительные результаты. Лос-Анджелес, Калифорния: Институт социальных исследований. архив в формате pdf
Раджу, Н.С., Билгич, Р., Эдвардс, Дж. Э., Флир, П. Ф. (1997). Обзор методологии: оценка достоверности и перекрестной достоверности населения, а также использование равных весов в прогнозировании. Прикладное психологическое измерение, том 21 (4), страницы 291-305. doi : 10.1177 / 01466216970214001
Ри, М. Дж., Карретта, Т. Р., и Эрлз, Дж. А. (1998). «В нисходящих решениях весовые переменные не имеют значения: следствие теоремы Уилка». Методы организационного исследования, том 1 (4), страницы 407-420. doi : 10.1177 / 109442819814003
Уэйнер, Ховард (1976). «Оценка коэффициентов в линейных моделях: это не имеет значения» (PDF). Психологический бюллетень. 83 (2): 213. doi : 10.1037 / 0033-2909.83.2.213.архивный pdf
Wainer, H. (1978). О чувствительности регрессии и регрессоров. Психологический бюллетень, том 85 (2), страницы 267-273. doi : 10.1037 / 0033-2909.85.2.267

Внешние ссылки

блог Chis Stucchio - Почему список сторонников и противников на 75% лучше вашего воображения машинное обучение алгоритм