Достоверность (статистика)

редактировать
Степень, в которой измерение соответствует действительности

Действительность - это степень, в которой концепция, вывод или оценка хорошо обоснованы и, вероятно, точно соответствуют реальному миру. Слово «действительный» происходит от латинского «validus», что означает «сильный». Достоверность инструмента измерения (например, теста в образовании) - это степень, в которой инструмент измеряет то, что, по его словам, измеряется. Валидность основана на силе совокупности различных типов доказательств (например, фактическая валидность, конструктивная валидность и т. Д.), Более подробно описанных ниже.

В психометрии валидность имеет особое приложение, известное как валидность теста : «степень, в которой доказательства и теория поддерживают интерпретацию результатов тестов» («как вытекает предложенным использованием тестов ").

Общепринято, что концепция научной достоверности обращается к природе реальности с точки зрения статистических показателей и как таковая является эпистемологической и философский вопрос, а также вопрос измерения. Использование термина в логике более узкое и относится к связи между предпосылками и заключением аргумента. В логике достоверность относится к свойству аргумента, согласно которому, если посылки истинны, истинность заключения следует из необходимости. Заключение аргумента верно, если аргумент верен, то есть, если аргумент действителен и его предпосылки верны. Напротив, «научная или статистическая достоверность» - это не дедуктивное утверждение, которое обязательно сохраняет истину, а индуктивное утверждение, которое остается истинным или ложным в неопределенной манере. Вот почему «научная или статистическая достоверность» - это утверждение, которое квалифицируется как сильное или слабое по своей природе, оно никогда не является необходимым и определенно истинным. Это приводит к тому, что заявления о «научной или статистической достоверности» становятся открытыми для интерпретации того, что на самом деле означают факты.

Валидность важна, потому что она может помочь определить, какие типы тестов использовать, и поможет убедиться, что исследователи используют методы, которые не только этичны и рентабельны, но также метод, который действительно оценивает идею или рассматриваемые конструкции.

Содержание

  • 1 Валидность теста
    • 1.1 Валидность (точность)
    • 1.2 Валидность конструкции
    • 1.3 Валидность содержания
      • 1.3.1 Валидность по лицу
    • 1.4 Валидность критерия
      • 1.4.1 Одновременная достоверность
      • 1.4.2 Прогностическая достоверность
  • 2 Экспериментальная достоверность
    • 2.1 Статистическая достоверность заключения
    • 2.2 Внутренняя достоверность
    • 2.3 Внешняя достоверность
      • 2.3.1 Экологическая достоверность
      • 2.3.2 Взаимосвязь внутренней достоверности
  • 3 Диагностическая достоверность
  • 4 См. также
  • 5 Ссылки
  • 6 Дополнительная литература

Срок действия теста

Действительность (точность)

Срок действия оценка - это степень, в которой он измеряет то, что должен измерять. Это не то же самое, что надежность, то есть степень, в которой измерение дает очень согласованные результаты. В пределах действительности измерение не всегда должно быть одинаковым, как в случае надежности. Однако только потому, что мера надежна, она не обязательно действительна. Например. шкала с отклонением в 5 фунтов надежна, но недействительна. Тест не может быть действительным, если он не является надежным. Действительность также зависит от измерения того, для чего оно было разработано, а не от чего-то другого. Действительность (аналогично надежности) - понятие относительное; обоснованность - это не идея по принципу «все или ничего». Есть много разных типов действительности.

Конструктивная валидность

Конструктивная валидность относится к степени, в которой операционализация конструкции (например, практические тесты, разработанные на основе теории) измеряют конструкт в соответствии с определением теории. Он включает в себя все другие типы действительности. Например, степень, в которой тест измеряет интеллект, является вопросом конструктивной валидности. Мера интеллекта предполагает, среди прочего, что мера связана с вещами, с которыми она должна быть связана (конвергентная валидность ), а не с вещами, с которыми она не должна ассоциироваться (дискриминантная валидность ).

Доказательства достоверности конструкции включают в себя эмпирическую и теоретическую поддержку интерпретации конструкции. Такие линии доказательств включают статистический анализ внутренней структуры теста, включая отношения между ответами на различные элементы теста. Они также включают отношения между тестом и меры других конструктов. Как в настоящее время понимается, валидность конструкта не отличается от поддержки основной теории конструкта, для измерения которого предназначен тест. Таким образом, эксперименты, направленные на выявление аспектов причинной роли конструкта, также способствуют конструирование свидетельства действительности.

Валидность содержания

Валидность содержания - нестатистический тип валидности, который инволюция Вес «систематического изучения содержания теста, чтобы определить, охватывает ли он репрезентативную выборку области поведения, которую необходимо измерить» (Анастаси и Урбина, 1997, стр. 114). Например, есть ли в анкете IQ вопросы, охватывающие все области интеллекта, обсуждаемые в научной литературе?

Свидетельство достоверности контента включает в себя степень, в которой контент теста соответствует домену контента, связанному с конструкцией. Например, тест на умение складывать два числа должен включать ряд комбинаций цифр. Тест только с однозначными числами или только с четными числами не обеспечит хорошего охвата предметной области. Свидетельства, относящиеся к содержанию, обычно включают в себя эксперта в предметной области (SME), оценивающего элементы тестирования в соответствии со спецификациями тестирования. Перед тем, как перейти к окончательному заполнению анкет, исследователь должен проверить достоверность пунктов по отношению к каждой из конструктов или переменных и, соответственно, изменить инструменты измерения на основе мнения SME.

В тест встроена валидность содержания путем тщательного выбора элементов для включения (Anastasi Urbina, 1997). Пункты выбираются таким образом, чтобы они соответствовали спецификации теста, которая была составлена ​​путем тщательного изучения предметной области. Foxcroft, Paterson, le Roux Herbst (2004, стр. 49) отмечают, что использование группы экспертов для анализа спецификаций теста и выбора элементов позволяет повысить валидность содержания теста. Эксперты смогут просмотреть элементы и прокомментировать, охватывают ли они репрезентативный образец области поведения.

Подтверждение лица

Подтверждение лица - это оценка того, может ли тест измерять определенный критерий; это не гарантирует, что тест действительно измеряет явления в этой области. Меры могут иметь высокую достоверность, но когда кажется, что тест не измеряет то, что это такое, он имеет низкую достоверность. Действительно, когда тест подвергается подделке (симуляции), низкая достоверность может сделать тест более достоверным. Принимая во внимание, что можно получить более честные ответы с более низкой достоверностью лица, иногда важно создать впечатление, что при применении мер существует низкая достоверность лица.

Действительность лица очень тесно связана с достоверностью содержимого. В то время как валидность содержания зависит от теоретической основы для предположения, оценивает ли тест все области определенного критерия (например, дает ли оценка дополнительных навыков хорошую меру математическим навыкам? Чтобы ответить на этот вопрос, вы должны знать, какие различные виды арифметических навыков математические навыки включают:) фактическая валидность связана с тем, является ли тест хорошей мерой или нет. Это суждение выносится на основе теста, поэтому его может судить и любитель.

Действительность лица является отправной точкой, но никогда не следует предполагать, что она, вероятно, действительна для какой-либо конкретной цели, поскольку «эксперты» ошибались раньше - Malleus Malificarum (Молот ведьм) не имел никаких оснований для своих выводов, кроме воображаемой компетентности двух «экспертов» в «обнаружении колдовства», однако он использовался в качестве «теста», чтобы осудить и сжечь на костре десятки тысяч мужчин и женщин как «ведьм».. "

Достоверность критерия

Достоверность критерия свидетельство включает корреляцию между тестом и критериальной переменной (или переменными), взятой как репрезентативная для конструкции. Другими словами, он сравнивает тест с другими показателями или результатами (критериями), которые уже считаются действительными. Например, тесты для отбора сотрудников часто проверяются по показателям производительности труда (критерий), а тесты IQ часто проверяются по показателям академической успеваемости (критерий).

Если данные теста и данные критерия собираются одновременно, это называется свидетельством одновременной действительности. Если сначала собираются тестовые данные, чтобы предсказать данные критерия, собранные в более поздний момент времени, то это называется доказательством достоверности прогноза.

Одновременная достоверность

Параллельная достоверность относится к степени, в которой операционализация коррелирует с другими показателями той же конструкции, которые измеряются в то же время. Когда показатель сравнивается с другим показателем того же типа, они будут связаны (или коррелированы). Возвращаясь к примеру выборочного теста, это будет означать, что тесты проводятся для текущих сотрудников, а затем соотносятся с их оценками в обзорах производительности.

Прогностическая достоверность

Прогнозная достоверность относится к степени, в которой операционализация может прогнозировать (или коррелировать) с другими показателями той же конструкции, которые измеряются в какой-то момент в будущем. Опять же, в примере с отборочным тестом это будет означать, что тесты проводятся для соискателей, все кандидаты принимаются на работу, их результаты проверяются позже, а затем их баллы по двум параметрам коррелируются.

Это также когда измерение предсказывает связь между тем, что измеряется, и чем-то еще; предсказание того, произойдет ли что-то еще в будущем. Высокая корреляция между прогнозируемыми ожидаемыми и фактическими исходами является наиболее убедительным доказательством достоверности.

Экспериментальная достоверность

Обоснованность плана экспериментальных исследований является фундаментальной частью научного метода и проблемой этики исследования. Без обоснованного дизайна нельзя сделать достоверные научные выводы.

Достоверность статистического заключения

Достоверность статистического вывода - это степень, в которой выводы о взаимосвязи между переменными, основанные на данных, являются правильными или «разумными». Сначала это было исключительно о том, был ли статистический вывод о взаимосвязи переменных правильным, но теперь наблюдается движение к переходу к «разумным» выводам, в которых используются: количественные, статистические и качественные данные.

Статистические данные. Достоверность заключения включает обеспечение использования адекватных процедур выборки, соответствующих статистических тестов и надежных процедур измерения. Поскольку этот тип достоверности касается исключительно отношения, которое обнаруживается между переменными, отношение может быть исключительно корреляцией.

Внутренняя валидность

Внутренняя валидность - это индуктивная оценка степени, в которой могут быть сделаны выводы о причинно-следственных связях (например, причина и следствие) на основе используемых мер., условия исследования и весь план исследования. Хорошие экспериментальные методы, в которых влияние независимой переменной на зависимую переменную изучается в строго контролируемых условиях, обычно допускают более высокие степени внутренней достоверности, чем, например, однократная. конструкции корпуса.

Восемь видов сбивающих с толку переменных могут повлиять на внутреннюю достоверность (т. Е. При попытке изолировать причинно-следственные связи):

  1. История, конкретные события, происходящие между первым и вторым измерения в дополнение к экспериментальным переменным
  2. Созревание, процессы внутри участников в зависимости от течения времени (не относящиеся к конкретным событиям), например, старение, голод, усталость и т. д.
  3. Тестирование, влияние прохождения теста на результаты второго тестирования.
  4. Аппаратура, изменения в калибровке средства измерения или изменения в наблюдателях или счетчиках могут повлиять на полученные измерения.
  5. Статистическая регрессия, при которой группы были отобраны на основе их крайних оценок.
  6. Выборка, ошибки, возникающие в результате дифференциального отбора респондентов для групп сравнения.
  7. Экспериментальная смертность, или дифференциальная потеря респондентов из сравнение групп.
  8. Взаимодействие отбор-созревание и т. д., например, в квазиэкспериментальных планах с несколькими группами

Внешняя достоверность

Внешняя достоверность касается степени, в которой (внутренне достоверные) результаты исследования можно считать верным для других случаев, например, для разных людей, мест или времени. Другими словами, вопрос в том, можно ли обоснованно обобщить результаты. Если бы такое же исследование было проведено в этих других случаях, дало бы оно те же результаты?

Основным фактором при этом является то, является ли выборка исследования (например, участники исследования) репрезентативной для населения в целом по соответствующим параметрам. Другими факторами, угрожающими внешней валидности, являются:

  1. Реактивный или интерактивный эффект тестирования, предварительный тест может увеличить баллы на посттесте
  2. Взаимодействие смещения выборки и экспериментальной переменной .
  3. Реактивные эффекты экспериментальных схем, что помешало бы обобщению о влиянии экспериментальной переменной на людей, подвергшихся ее воздействию в неэкспериментальных условиях
  4. Вмешательство при множественном лечении, где эффекты более ранних обработок невозможно стереть.

Экологическая значимость

Экологическая достоверность - это степень, в которой результаты исследования могут быть применены к реальным ситуациям за пределами исследовательских условий. Этот вопрос тесно связан с внешней обоснованностью, но охватывает вопрос о том, в какой степени экспериментальные данные отражают то, что можно наблюдать в реальном мире (экология = наука о взаимодействии между организмом и окружающей его средой). Чтобы быть экологически обоснованными, методы, материалы и условия исследования должны приближаться к реальной ситуации, в которой проводится расследование.

Экологическая обоснованность частично связана с вопросом эксперимента по сравнению с наблюдением. Обычно в науке есть две области исследований: наблюдательные (пассивные) и экспериментальные (активные). Цель экспериментальных планов - проверить причинно-следственную связь, чтобы вы могли сделать вывод о причинах А или В причинах А. Но иногда этические и / или метологические ограничения не позволяют вам провести эксперимент (например, как изоляция влияет на когнитивные функции ребенка?). Чт Common crawl ru вы все еще можете проводить исследования, но они не причинно-следственные, а корреляционные. Можно только сделать вывод, что A встречается вместе с B. Обе техники имеют свои сильные и слабые стороны.

Связь с внутренней валидностью

На первый взгляд кажется, что внутренняя и внешняя валидность противоречат друг другу - чтобы получить экспериментальный план, вы должны контролировать все мешающие переменные. Вот почему вы часто проводите эксперимент в лабораторных условиях. Обретая внутреннюю достоверность (исключая мешающие переменные, сохраняя их постоянными), вы теряете экологическую или внешнюю достоверность, потому что вы создаете искусственную лабораторную среду. С другой стороны, с помощью наблюдательных исследований вы не можете контролировать мешающие переменные (низкая внутренняя достоверность), но вы можете проводить измерения в естественной (экологической) среде, в месте, где обычно происходит поведение. Однако поступая так, вы жертвуете внутренней обоснованностью.

Кажущееся противоречие между внутренней и внешней достоверностью, однако, только поверхностное. Вопрос о том, могут ли результаты конкретного исследования распространяться на других людей, мест или времени, возникает только тогда, когда человек следует исследовательской стратегии индуктивизма. Если цель исследования - дедуктивная проверка теории, то его интересуют только факторы, которые могут подорвать строгость исследования, то есть угрозы внутренней достоверности.

Диагностическая валидность

В психиатрии существует особая проблема с оценкой валидности самих диагностических категорий. В этом контексте:

  • валидность содержания может относиться к симптомам и диагностическим критериям;
  • одновременная валидность может определяться различными коррелятами или маркерами, а также, возможно, ответом на лечение;
  • прогностическая валидность может относиться к главным образом для диагностической стабильности с течением времени;
  • дискриминантная валидность может включать отграничение от других расстройств.

Робинс и Гуз предложили в 1970 году то, что должно было стать влиятельными формальными критериями для установления достоверности психиатрических диагнозов. Они перечислили пять критериев:

  • четкое клиническое описание (включая профили симптомов, демографические характеристики и типичные факторы);
  • лабораторные исследования (включая психологические тесты, радиологию и патологоанатомические исследования);
  • отделение от других расстройств (посредством критериев исключения)
  • последующие исследования, показывающие характерное течение (включая доказательства диагностической стабильности)
  • семейные исследования, показывающие семейную кластеризацию

Они были включены в Критерии Фейнера и Диагностические критерии исследования, которые с тех пор легли в основу систем классификации DSM и ICD.

Кендлер в 1980 г. проводил различие между:

  • предшествующими валидаторами (семейная агрегация, преморбидная личность и провоцирующие факторы)
  • параллельными валидаторами (включая психологические тесты)
  • прогностическими валидаторами ( согласованность диагностики во времени, скорость рецидивов и выздоровления, а также ответ на лечение)

Нэнси Андреасен (1995) перечислила несколько дополнительных валидаторов - молекулярная генетика и молекулярная биология, нейрохимия, нейроанатомия, нейрофизиология и когнитивная нейробиология - все они потенциально способны связывать симптомы и диагнозы с их нервной системой. субстраты.

Кенделл и Яблински (2003) подчеркнули важность различения между достоверностью и полезностью и утверждали, что диагностические категории, определяемые их синдромами, должны рассматриваться как достоверные только в том случае, если было показано, что они являются дискретными объектами. с естественными границами, отделяющими их от других расстройств.

Кендлер (2006) подчеркнул, что для того, чтобы быть полезным, критерий валидации должен быть достаточно чувствительным, чтобы валидировать большинство синдромов, которые являются истинными расстройствами, а также быть достаточно специфичным, чтобы сделать недействительными большинство синдромов, которые не являются истинными расстройствами. Исходя из этого, он утверждает, что критерий Робинса и Гузе «бега в семье» неадекватно конкретен, потому что большинство человеческих психологических и физических качеств могут быть квалифицированы - например, произвольный синдром, включающий смесь «рост более 6 футов, рыжие волосы», и большой нос "будет" бегать по семьям "и будет" ", но это не следует рассматривать как свидетельство того, что это расстройство. Кендлер также предположил, что «эссенциалист » ген моделирует психические расстройства, и надеется, что мы сможем подтвердить категориальные психиатрические диагнозы, «вырезая природу на ее суставах» исключительно в качестве результаты открытия гена неправдоподобны.

В Федеральной судебной системе Соединенных Штатов достоверность и надежность доказательств оценивается с использованием стандарта Дауберта: см. Дауберт против Merrell Dow Pharmaceuticals. Перри и Лихтенвальд (2010) предоставляют отправную точку для обсуждения широкого круга тем, касающихся надежности и обоснованности, в своем анализе осуждения за неправомерное убийство.

См. Также

ссылки

  1. ^Brains, Willnat, Manheim, Rich 2011. Эмпирический политический анализ, 8-е издание. Бостон, Массачусетс: Longman p. 105
  2. ^Келли, Трумэн Ли (1927). Интерпретация образовательных измерений. Йонкерс-он-Гудзон, Нью-Йорк: Всемирная книжная компания. п. 14. Проблема достоверности состоит в том, действительно ли тест измеряет то, что он призван измерять...
  3. ^Американская ассоциация исследований в области образования, Психологическая ассоциация и Национальный совет по измерениям в образовании. (1999). Стандарты педагогического и психологического тестирования. Вашингтон, округ Колумбия: Американская ассоциация исследований в области образования.
  4. ^Национальный совет по измерениям в образовании. http://www.ncme.org/ncme/NCME/Resource_Center/Glossary/NCME/Resource_Center/Glossary1.aspx?hkey=4bb87415-44dc-4088-9ed9-e8515326a061#anchorV
  5. ^Крамер, Джеффри П., Дуглас А. Бернштейн и Вики Фарес. Введение в клиническую психологию. 7 изд. Река Аппер Сэдл, Нью-Джерси: Pearson Prentice Hall, 2009. Печать.
  6. ^ Кронбах, Ли Дж.; Мил, Пол Э. (1955). «Конструировать валидность в психологических тестах». Психологический бюллетень. 52 (4): 281–302. doi : 10,1037 / h0040957. HDL : 11299/184279. ISSN 0033-2909. PMID 13245896. S2CID 5312179.
  7. ^Foxcroft, C., Paterson, H., le Roux, N., Herbst, D. Human Sciences Research Council, (2004). «Психологическая оценка в Южной Африке: анализ потребностей: модели использования тестов и потребности практикующих психологов: итоговый отчет: июль. Получено с веб-сайта: http://www.hsrc.ac.za/research/output/outputDocuments/1716_Foxcroft_Psychologicalassessmentin%20SA.pdf
  8. ^Наиболее распространенные оценки - от 40 000 до 60 000 смертей. («Охота на ведьм в Европе раннего Нового времени») умножила количество известных европейских судебных процессов над ведьмами на средний уровень обвинительных приговоров и казней и составила около 60 000 смертей. (Witchcraze) скорректировал оценку Левака с учетом утерянных записей, оценив 100000 смертей. Рональд Хаттон («Триумф луны») утверждает, что оценка Левака уже была скорректирована с учетом этого, и пересматривает цифру примерно до 40 000 человек.
  9. ^Козби, Пол С. Методы поведенческих исследований. 10-е изд. Бостон: Высшее образование Макгроу-Хилла, 2009. Печать.
  10. ^Джонатан Джавид (6 ноября 2015 г.). «Достоверность и достоверность измерений». slideshare.net. Проверено 23 марта 2018 г.
  11. ^ Kendell, R; Ябленский, А (2003). «Как различать достоверность и полезность психиатрических диагнозов». Американский журнал психиатрии. 160 (1): 4–12. doi : 10.1176 / appi.ajp.160.1.4. PMID 12505793.
  12. ^Кендлер, KS (2006). «Размышления о взаимосвязи психиатрической генетики и психиатрической нозологии». Американский журнал психиатрии. 163 (7): 1138–46. doi : 10.1176 / appi.ajp.163.7.1138. PMID 16816216.
  13. ^Перри, ФС; Лихтенвальд, Т.Г. (2010). «Необоснованное использование судебной психологии в качестве доказательства: дело Тимоти Мастерс» (PDF). Champion Magazine (июль): 34–45.

Дополнительная литература

Викиверситет имеет ресурсы для изучения Validity
Последняя правка сделана 2021-06-18 08:56:44
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте