Дноуглубительные работы

редактировать

Пример результата, полученного в результате драгирования данных, показывающего корреляцию между количеством букв в выигрышном слове Scripps National Spelling Bee и количеством людей в США, убитых ядовитыми пауками.

Извлечение данных (также поиск данных, отслеживание данных, бойня данных и p-hacking ) - это неправильное использование анализ данных найти закономерности в данных, которые могут быть представлены как статистически значимые, что значительно увеличивает и занижает риск ложных срабатываний. Это достигается путем выполнения множества статистических тестов данных и представления отчетов только о тех, которые возвращаются со значительными результатами.

Процесс извлечения данных включает проверку нескольких гипотез с использованием одних данных установить на с исчерпывающим поиском - возможно, для комбинаций переменных, которые могут показать корреляцию, и, возможно, для групп наблюдений или наблюдений, которые показывают различия в их средних значениях или в их разбивке на какая-то другая переменная.

Обычные тесты статистической значимости основаны на вероятности того, что конкретный результат возник бы, если бы имел место только случай, и обязательно допускают некоторый риск ошибочных выводов определенного типа (ошибочные отклонения нулевой гипотезы). Этот уровень риска называется значимостью. Когда выполняется большое количество тестов, некоторые из них дают ложные результаты этого типа; следовательно, 5% случайно выбранных гипотез могут быть (ошибочно) признаны статистически значимыми на 5% уровне значимости, 1% могут быть (ошибочно) признаны статистически значимыми на уровне значимости 1%, и так далее, только случайно. Когда проверено достаточное количество гипотез, становится практически наверняка, что некоторые из них будут считаться статистически значимыми (даже если это вводит в заблуждение), поскольку почти каждый набор данных с любой степенью случайности может содержать (например) некоторые ложные корреляции. Если они не будут осторожны, эти результаты могут легко ввести в заблуждение исследователей, использующих методы интеллектуального анализа данных.

Извлечение данных - это пример игнорирования проблемы множественных сравнений. Одна из форм - это когда подгруппы сравниваются без предупреждения читателя об общем количестве изученных сравнений подгрупп.

Содержание

1 Выводы на основе данных
2 Гипотеза, предложенная на основе нерепрезентативных данных
3 Смещение
4 Множественное моделирование
5 Примеры в метеорологии и эпидемиологии
6 Средства правовой защиты
7 См. Также
8 Ссылки
9 Дополнительная литература
10 Внешние ссылки

Выводы на основе данных

Традиционная процедура frequentist статистической проверки гипотез состоит в том, чтобы сформулировать исследовательскую гипотезу, например, «люди из более высоких социальных классов живут дольше», затем собрать соответствующие данные с последующим переносом провели статистический критерий значимости, чтобы увидеть, насколько вероятно получение таких результатов, если бы действовал только случай. (Последний шаг называется проверкой нулевой гипотезы.)

Ключевым моментом в правильном статистическом анализе является проверка гипотезы с доказательствами (данными), которые не использовались при построении гипотезы. Это очень важно, потому что каждый набор данных содержит какие-то закономерности. Если гипотеза не проверяется на другом наборе данных из той же статистической совокупности, невозможно оценить вероятность того, что одна случайность создаст такие закономерности. См. проверка гипотез, предложенных данными..

Вот простой пример. Бросок монеты пять раз с результатом 2 орла и 3 решки может привести к гипотезе о том, что монета дает преимущество решке от 3/5 до 2/5. Если эта гипотеза затем проверяется на существующем наборе данных, она подтверждается, но подтверждение бессмысленно. Надлежащая процедура заключалась бы в том, чтобы заранее сформировать гипотезу о вероятности решки, а затем подбрасывать монету несколько раз, чтобы увидеть, отклоняется ли гипотеза или нет. Если наблюдаются три решки и две орла, может быть сформирована другая гипотеза о том, что вероятность решки равна 3/5, но ее можно проверить только с помощью новой серии подбрасываний монеты. Важно понимать, что статистическая значимость при неправильной процедуре полностью ложна - тесты значимости не защищают от углубления данных.

Гипотеза, основанная на нерепрезентативных данных

Предположим, что в исследование случайной выборки людей включены ровно два человека с днем рождения 7 августа: Мэри и Джон. Кто-то, занимающийся отслеживанием данных, может попытаться найти дополнительные сходства между Мэри и Джоном. Пройдя через сотни или тысячи потенциальных сходств между ними, каждое из которых имеет низкую вероятность быть правдой, почти наверняка можно найти необычное сходство. Возможно, Джон и Мэри - единственные в исследовании, кто трижды менял несовершеннолетних в колледже. Гипотеза, основанная на слежении за данными, могла бы быть такой: «Люди, родившиеся 7 августа, имеют гораздо более высокие шансы сменить несовершеннолетнего более чем дважды в колледже».

Сами данные, вырванные из контекста, можно рассматривать как убедительно подтверждающие эту корреляцию, поскольку никто с другим днем рождения не менял несовершеннолетних трижды в колледже. Однако, если (а это вероятно) это ложная гипотеза, этот результат, скорее всего, не будет воспроизводимым ; любая попытка проверить, есть ли у других, чей день рождения 7 августа, аналогичная скорость изменения несовершеннолетних, скорее всего, почти сразу приведет к противоречивым результатам.

Смещение

Смещение - это систематическая ошибка в анализе. Например, врачи направили пациентов с ВИЧ с высоким риском сердечно-сосудистых заболеваний на конкретное лечение ВИЧ, абакавир, а пациентов с низким риском - на другие препараты, что не позволило провести простую оценку абакавира по сравнению с другими видами лечения. Анализ, который не исправил эту предвзятость, несправедливо наказал абакавир, поскольку его пациенты были более подвержены риску, поэтому у большего числа из них были сердечные приступы. Эта проблема может быть очень серьезной, например, в наблюдательном исследовании.

Отсутствующие факторы, неизмеренные искажающие факторы и отказ от последующего наблюдения также могут привести к систематической ошибке. Выбирая статьи со значительным p-значением, отбираются отрицательные исследования - что является предвзятостью публикации. Это также известно как «смещение картотеки», поскольку менее значимые результаты p-значения остаются в картотеке и никогда не публикуются.

Множественное моделирование

Другой аспект кондиционирования статистических тестов знанием данных можно увидеть при использовании частоты потока данных в системе или машине в анализ данных линейная регрессия. Решающим шагом в этом процессе является решение, какие ковариаты включить в взаимосвязь, объясняющую одну или несколько других переменных. Существуют как статистические (см. Пошаговая регрессия ), так и существенные соображения, которые побуждают авторов отдавать предпочтение одними из своих моделей перед другими, а также существует широкое использование статистических тестов. Однако исключение одной или нескольких переменных из объясняющего отношения на основе данных означает, что нельзя корректно применять стандартные статистические процедуры к оставшимся переменным в отношении, как будто ничего не произошло. По сути дела, сохраненные переменные должны были пройти какой-то предварительный тест (возможно, неточный интуитивный), что отброшенные переменные не прошли. В 1966 году Селвин и Стюарт сравнили переменные, сохраненные в модели, с рыбой, которая не проваливается через сеть - в том смысле, что их влияние обязательно будет больше, чем влияние тех, которые действительно падают через сеть. Это не только изменяет характеристики всех последующих тестов на сохраненной пояснительной модели, но и может внести систематическую ошибку и изменить среднеквадратичную ошибку в оценке.

Примеры в метеорологии и эпидемиологии

В метеорологии гипотезы часто формулируются с использованием данных о погоде до настоящего времени и проверяются на данных о погоде в будущем, что гарантирует, что будущие данные даже подсознательно не могут повлиять на формулировку гипотезы. Конечно, такая дисциплина требует ожидания поступления новых данных, чтобы продемонстрировать предсказательную силу сформулированной теории по сравнению с нулевой гипотезой. Этот процесс гарантирует, что никто не сможет обвинить исследователя в ручной адаптации прогнозной модели к имеющимся данным, поскольку предстоящая погода еще не доступна.

В качестве другого примера предположим, что наблюдатели замечают, что в конкретном городе есть кластер рака, но не имеют твердой гипотезы, почему это так. Тем не менее, у них есть доступ к большому количеству демографических данных о городе и его окрестностях, содержащих измерения для области сотен или тысяч различных переменных, в основном некоррелированных. Даже если все эти переменные не зависят от уровня заболеваемости раком, весьма вероятно, что по крайней мере одна переменная существенно коррелирует с заболеваемостью раком в данной области. Хотя это может наводить на мысль о гипотезе, для подтверждения необходимо дальнейшее тестирование с использованием тех же переменных, но с данными из другого места. Обратите внимание, что p-значение 0,01 предполагает, что в 1% случаев результат, по крайней мере, такой экстремальный, будет получен случайно; если проверяются сотни или тысячи гипотез (с относительно некоррелированными между собой независимыми переменными), то для многих нулевых гипотез, вероятно, будет получено значение p меньше 0,01.

Средства правовой защиты

Поиск закономерностей в данных является законным. Применение статистического теста значимости или теста гипотез к тем же данным, из которых возникла закономерность, неверно. Один из способов построить гипотезы, избегая при этом извлечения данных, - это проведение рандомизированных тестов вне выборки. Исследователь собирает набор данных, затем случайным образом разделяет его на два подмножества, A и B. Только одно подмножество, скажем, подмножество A, исследуется для создания гипотез. После того, как гипотеза сформулирована, ее необходимо проверить на подмножестве B, которое не использовалось для построения гипотезы. Только тогда, когда B также поддерживает такую гипотезу, разумно полагать, что гипотеза может быть верной. (Это простой тип перекрестной проверки, который часто называют обучающим тестом или проверкой с разделением половин.)

Еще одно средство для извлечения данных - записать количество всех тестов значимости проводимых во время исследования и просто разделите свой критерий значимости («альфа») на это число; это поправка Бонферрони. Однако это очень консервативный показатель. Семейная альфа 0,05, разделенная таким образом на 1000, чтобы учесть 1000 критериев значимости, дает очень строгую альфа для каждой гипотезы, равную 0,00005. Методами, особенно полезными для анализа дисперсии и построения одновременных доверительных интервалов для регрессий с использованием базисных функций, являются метод Шеффе и, если исследователь имеет в виду только парные сравнения, метод Тьюки. Использование коэффициента ложного обнаружения Бенджамини и Хохберга - более сложный подход, который стал популярным методом контроля множественных проверок гипотез.

Когда ни один из подходов не является практичным, можно провести четкое различие между анализами данных, которые являются подтверждающими, и анализами, которые являются исследовательскими. Статистический вывод подходит только для первого.

В конечном счете, статистическая значимость теста и статистическая достоверность вывода являются совместными свойствами данных и методом, используемым для изучения данных. Таким образом, если кто-то говорит, что определенное событие имеет вероятность 20% ± 2% в 19 случаях из 20, это означает, что, если вероятность события оценивается тем же методом, который использовался для получения оценки 20%, результат находится между 18% и 22% с вероятностью 0,95. Невозможно претендовать на статистическую значимость, просто глядя, без должного учета метода, используемого для оценки данных.

Академические журналы все чаще переходят на формат зарегистрированного отчета, который направлен на противодействие очень серьезным проблемам, таким как углубление данных и HARKing, которые имеют сделали исследование по проверке теории очень ненадежным: например, Nature Human Behavior принял зарегистрированный формат отчета, поскольку он «переносит акцент с результатов исследования на вопросы, которые определяют направление исследования и методы, используемые для ответа на них ». European Journal of Personality определяет этот формат следующим образом: «В зарегистрированном отчете авторы создают предложение по исследованию, которое включает теоретические и эмпирические предпосылки, исследовательские вопросы / гипотезы и пилотные данные (если таковые имеются). После подачи это предложение будет рассмотрено до сбора данных, и в случае принятия, документ, полученный в результате этой процедуры экспертной оценки, будет опубликован независимо от результатов исследования ».

Методы и результаты также могут быть стали общедоступными, как в подходе открытой науки, что еще больше усложняет процесс извлечения данных.

См. также

Ссылки

Дополнительная литература

Иоаннидис, Джон PA (30 августа 2005 г.). «Почему большинство опубликованных результатов исследований ложны». PLOS Medicine. Сан-Франциско: Публичная научная библиотека. 2 (8): e124. doi : 10.1371 / journal.pmed.0020124. ISSN 1549-1277. PMC 1182327. PMID 16060722.
Head, Megan L.; Холман, Люк; Ланфир, Роб; Кан, Эндрю Т.; Дженнионс, Майкл Д. (13 марта 2015 г.). «Масштабы и последствия P-Hacking в науке». PLOS Биология. 13 (3): e1002106. doi : 10.1371 / journal.pbio.1002106. PMC 4359000. PMID 25768323.
Инсел, Томас (14 ноября 2014 г.). «П-взлом». Блог директора NIMH.
Смит, Гэри (2016). Стандартные отклонения: ошибочные предположения, вымученные данные и другие способы лгать со статистикой. Gerald Duckworth Co. ISBN 9780715649749.

Внешние ссылки

Библиография по предвзятости отслеживания данных
Ложные корреляции, галерея примеров неправдоподобных корреляций
StatQuest: Подводные камни P-значения и расчеты мощности на YouTube
Видео с объяснением p-hacking от «Neuroskeptic », блоггера журнала Discover Magazine
Step Away From Stepwise, статья в Journal of Big Data с критикой пошаговой регрессии.