Внутренняя достоверность

редактировать

Внутренняя достоверность - это степень, в которой доказательства подтверждают утверждение о причине и следствии в контексте конкретного исследования. Это одно из важнейших свойств научных исследований и важное понятие при рассуждении о доказательствах в более общем плане. Внутренняя валидность определяется тем, насколько хорошо исследование может исключить альтернативные объяснения своих выводов (обычно источники систематической ошибки или «систематической ошибки»). Это контрастирует с внешней достоверностью, степенью, в которой результаты могут оправдывать выводы о других контекстах (то есть степень, в которой результаты могут быть обобщены ).

Содержание

1 Подробности
2 Примеры угроз
- 2.1 Неоднозначный временной приоритет
- 2.2 Неопределенность
- 2.3 Ошибка выбора
- 2.4 История
- 2.5 Созревание
- 2.6 Повторное тестирование ( также называемые тестовыми эффектами)
- 2.7 Изменение инструмента (инструментальность)
- 2.8 Регрессия к среднему
- 2.9 Смертность / дифференциальное истощение
- 2.10 Взаимодействие отбор-созревание
- 2.11 Распространение
- 2.12 Компенсатор соперничество / обидная деморализация
- 2.13 Предвзятость экспериментатора
3 См. также
4 Ссылки
5 Внешние ссылки

Подробности

Считается, что выводы обладают внутренней достоверностью, если между двумя переменные правильно продемонстрированы. Допустимый причинный вывод может быть сделан при соблюдении трех критериев:

«причина» предшествует «следствию» во времени (временное преимущество),
«причина» и «следствие» имеют тенденцию возникать вместе (ковариация) и
нет правдоподобных альтернативных объяснений наблюдаемой ковариации (непредсказуемости).

В условиях научных экспериментов исследователи часто изменяют состояние одной переменной (независимая переменная ), чтобы увидеть, какое влияние это оказывает на вторую переменную (зависимая переменная ). Например, исследователь может манипулировать дозировкой определенного лекарства между разными группами людей, чтобы увидеть, какое влияние он оказывает на здоровье. В этом примере исследователь хочет сделать причинно-следственный вывод, а именно, что различные дозы препарата могут быть ответственны за наблюдаемые изменения или различия. Когда исследователь может уверенно отнести наблюдаемые изменения или различия в зависимой переменной к независимой переменной (то есть, когда исследователь наблюдает связь между этими переменными и может исключить другие объяснения или конкурирующие гипотезы), тогда говорят, что причинный вывод быть внутренне действительным.

Однако во многих случаях размер эффектов, обнаруженных в зависимой переменной, может не просто зависеть от

вариаций в независимой переменной,
мощность инструментов и статистических процедур, используемых для измерения и обнаружения эффектов, и
выбор статистических методов (см.: Достоверность статистического заключения ).

Скорее, количество переменных или обстоятельств, которые не контролируются (или не поддаются контролю), может привести к дополнительным или альтернативным объяснениям (а) обнаруженных эффектов и / или (b) величины обнаруженных эффектов. Следовательно, внутренняя достоверность является скорее вопросом степени чем либо-либо, и именно поэтому планы исследований, отличные от настоящих экспериментов, также могут дать результаты с высокой степенью внутренней достоверности.

Для того, чтобы сделать выводы с высокой степенью внутренней достоверности, при разработке исследования могут быть приняты меры предосторожности. Как правило, выводы, основанные на прямом манипулировании независимой переменной, допускают большую внутреннюю достоверность, чем выводы, основанные на ассоциации, наблюдаемой без манипуляций.

Если рассматривать только внутреннюю валидность, строго контролируемые истинные экспериментальные планы (т.е. со случайным выбором, случайным распределением либо в контрольную, либо в экспериментальную группы, надежные инструменты, надежные процессы манипуляции и гарантии против вмешивающихся факторов) могут быть " золотой стандарт »научных исследований. Однако сами методы, используемые для повышения внутренней достоверности, могут также ограничивать обобщаемость или внешнюю достоверность результатов. Например, изучение поведения животных в зоопарке может облегчить получение достоверных причинно-следственных выводов в этом контексте, но эти выводы могут не распространяться на поведение животных в дикой природе. В общем, типичный эксперимент в лаборатории по изучению конкретного процесса может не учитывать многие переменные, которые обычно сильно влияют на этот процесс в природе.

Примеры угроз

Для восьми из этих угроз существует мнемоника первой буквы ЭТО СООБЩЕНИЕ, которое относится к первым буквам Testing (повторное тестирование), History, Instrument изменение, статистическая регрессия к среднему, созревание, экспериментальная смертность, селекция и взаимодействие отбора.

Неоднозначный временной приоритет

Когда неизвестно, какая переменная изменилась первой, может быть трудно определить, какая переменная - это причина, а какая - следствие.

Смешение

Основная угроза достоверности причинных выводов - сбивание с толку : изменения зависимой переменной скорее можно отнести к вариациям в третьей переменной, которая связана с управляемая переменная. Если нельзя исключить ложные отношения, могут быть разработаны гипотезы, конкурирующие с исходным причинным выводом.

Ошибка отбора

Ошибка отбора относится к проблеме, заключающейся в том, что на предварительном тестировании существуют различия между группами, которые могут взаимодействовать с независимой переменной и, таким образом, быть «ответственными» за наблюдаемый результат. Исследователи и участники привносят в эксперимент множество характеристик, некоторые из которых приобретены, а другие присущи. Например, пол, вес, волосы, цвет глаз и кожи, личность, умственные и физические способности, а также такие отношения, как мотивация или готовность участвовать.

На этапе выбора исследования, если неравное количество испытуемых имеет одинаковые предметные переменные, возникает угроза внутренней валидности. Например, исследователь создал две тестовые группы: экспериментальную и контрольную. Субъекты в обеих группах не похожи по независимой переменной, но похожи по одной или нескольким связанным с субъектом переменным.

Самовыбор также отрицательно влияет на интерпретирующую способность зависимой переменной. Это часто происходит в онлайн-опросах, когда люди определенной демографии выбирают тест с большей частотой, чем другие демографические группы.

История

События вне исследования / эксперимента или между повторными измерениями зависимой переменной могут повлиять на реакцию участников на экспериментальные процедуры. Часто это крупномасштабные события (стихийные бедствия, политические изменения и т. Д.), Которые влияют на отношение и поведение участников, так что становится невозможным определить, вызвано ли какое-либо изменение зависимых показателей независимой переменной или историческим событием..

Созревание

Субъекты меняются в ходе эксперимента или даже между измерениями. Например, маленькие дети могут повзрослеть, и их способность к концентрации может измениться по мере взросления. И постоянные изменения, такие как физический рост, и временные, такие как усталость, дают «естественные» альтернативные объяснения; таким образом, они могут изменить то, как испытуемый будет реагировать на независимую переменную. Таким образом, по завершении исследования исследователь, возможно, не сможет определить, связана ли причина несоответствия со временем или независимой переменной.

Повторное тестирование (также называемое эффектами тестирования)

Неоднократное измерение участников может привести к смещению. Участники могут помнить правильные ответы или могут знать, что они проходят тестирование. Неоднократное прохождение (одинаковых или аналогичных) тестов интеллекта обычно приводит к увеличению количества баллов, но вместо того, чтобы сделать вывод о том, что основные навыки изменились навсегда, эта угроза внутренней валидности обеспечивает хорошую альтернативную гипотезу.

Смена инструмента (инструментальность)

Инструмент, использованный в процессе тестирования, может изменить эксперимент. Это также относится к наблюдателям, которые были более сконцентрированы, настроены или бессознательно изменили критерии, которые они используют для вынесения суждений. Это также может быть проблемой, когда показатели самоотчета предоставляются в разное время. В этом случае влияние может быть уменьшено за счет использования предварительного ретроспективного тестирования. Если происходят какие-либо изменения в инструментах, это влияет на внутреннюю достоверность основного вывода, поскольку альтернативные объяснения легко доступны.

Регрессия к среднему

Этот тип ошибки возникает, когда испытуемые выбираются на основе экстремальных баллов (один далеко от среднего) во время теста. Например, когда для участия в курсе чтения отбираются дети с худшими показателями по чтению, улучшения в конце курса могут быть связаны с регрессом к среднему значению, а не с эффективностью курса. Если бы дети прошли повторное тестирование до начала курса, они, вероятно, в любом случае получили бы лучшие результаты. Точно так же экстремальные выбросы в индивидуальных оценках с большей вероятностью будут зафиксированы в одном экземпляре тестирования, но, вероятно, превратятся в более нормальное распределение при повторном тестировании.

Смертность / дифференциальное истощение

Эта ошибка возникает, если выводы делаются на основе только тех участников, которые участвовали от начала до конца. Однако участники могли выбыть из исследования до завершения, а может быть, даже из-за самого исследования, программы или эксперимента. Например, процент членов группы, бросивших курить во время послетеста, был обнаружен намного выше в группе, получившей программу обучения отказу от курения, чем в контрольной группе. Однако в экспериментальной группе только 60% выполнили программу. Если этот отсев систематически связан с какой-либо особенностью исследования, применением независимой переменной, инструментарием или если отсев приводит к значительному смещению между группами, возможен целый класс альтернативных объяснений, которые объясняют наблюдаемые различия.

Взаимодействие выбора и созревания

Это происходит, когда связанные с субъектом переменные, цвет волос, цвет кожи и т. Д., А также переменные, связанные со временем, возраст, физический размер и т. Д., взаимодействовать. Если между тестами возникает несоответствие между двумя группами, это может быть связано с возрастными различиями в возрастных категориях.

Распространение

Если эффекты лечения распространяются от групп лечения к контрольным группам, может наблюдаться отсутствие различий между экспериментальной и контрольной группами. Однако это не означает, что независимая переменная не имеет никакого эффекта или что нет связи между зависимой и независимой переменной.

Компенсационное соперничество / злобная деморализация

Поведение в контрольных группах может измениться в результате исследования. Например, члены контрольной группы могут усердно работать, чтобы увидеть, что ожидаемое превосходство экспериментальной группы не продемонстрировано. Опять же, это не означает, что независимая переменная не оказала никакого влияния или что нет никакой связи между зависимой и независимой переменной. И наоборот, изменения в зависимой переменной могут быть затронуты только из-за деморализованной контрольной группы, менее напряженной или мотивированной, а не из-за независимой переменной.

Ошибка экспериментатора

Ошибка экспериментатора возникает, когда люди, проводящие эксперимент, непреднамеренно влияют на результат, неосознанно ведя себя по-разному по отношению к членам контрольной и экспериментальной групп. Можно исключить возможность предвзятости экспериментатора за счет использования двойного слепого дизайна исследования, в котором экспериментатор не осведомлен о состоянии, к которому принадлежит участник.

См. Также

Ссылки

Внешние ссылки

Внутренняя валидность (методы социальных исследований)