Двоичная классификация

редактировать

Двоичная классификация - это задача классификации элементов набора на две группы на основе правила классификации . Типичные проблемы бинарной классификации включают:

Медицинское тестирование для определения наличия у пациента определенного заболевания;
Контроль качества в промышленности, определение соответствия спецификации;
В поиске информации, определение того, должна ли страница входить в набор результатов поиска или нет.

Двоичная классификация - это дихотомизация, применяемая к практической ситуации.. Во многих практических задачах двоичной классификации эти две группы не являются симметричными, и вместо общей точности представляет интерес относительная доля различных типов ошибок. Например, при медицинском тестировании обнаружение заболевания, когда оно отсутствует (ложноположительный ), рассматривается иначе, чем не обнаружение заболевания, когда оно присутствует (ложноотрицательный ).

Содержание

1 Статистическая двоичная классификация
2 Оценка двоичных классификаторов
- 2.1 Восемь основных соотношений
3 Преобразование непрерывных значений в двоичные
4 См. Также
5 Ссылки
6 Библиография

Статистическая двоичная классификация

Статистическая классификация - это проблема, изучаемая в машинном обучении. Это тип контролируемого обучения, метод машинного обучения, в котором категории предопределены, и используется для категоризации новых вероятностных наблюдений по указанным категориям. Когда есть только две категории, проблема известна как статистическая двоичная классификация.

Некоторые из методов, обычно используемых для двоичной классификации:

Каждый классификатор лучше всего подходит только в выбранной области на основе количества наблюдений, размерности вектора признаков, шума в данных и многих других факторов. Например, случайные леса работают лучше, чем SVM классификаторы для трехмерных облаков точек.

Оценка двоичных классификаторов

В этом наборе проверенных экземпляров экземпляры оставлены разделителя имеют проверяемое состояние; правая половина нет. Овал ограничивает те экземпляры, которые алгоритм тестирования классифицирует как имеющие условие. Зеленые области выделяют экземпляры, которые алгоритм тестирования правильно классифицировал. Этикетки относятся к:. TP = истинно положительный результат; TN = истинно отрицательный; FP = ложное срабатывание (ошибка типа I); FN = ложноотрицательный (ошибка типа II); TPR = набор экземпляров для определения истинно положительной скорости; FPR = набор экземпляров для определения количества ложных срабатываний; PPV = положительная прогностическая ценность; NPV = отрицательное прогнозируемое значение.

Существует множество показателей, которые можно использовать для измерения производительности классификатора или предиктора; разные поля имеют разные предпочтения для определенных показателей из-за разных целей. В медицине часто используются чувствительность и специфичность, в то время как при поиске информации предпочтительны точность и отзыв. Важное различие между метриками, которые не зависят от того, как часто каждая категория встречается в популяции (распространенность ), и метриками, которые зависят от распространенности - оба типа полезны, но имеют очень разные свойства.

Учитывая классификацию конкретного набора данных, существует четыре основных комбинации категории фактических данных и присвоенной категории: истинно положительные TP (правильные положительные присвоения), истинно отрицательные TN (правильные отрицательные сопоставления), ложные положительные результаты FP (неправильные положительные сопоставления) и ложноотрицательные значения FN (неправильные отрицательные сопоставления).

	Условие положительное	Условие отрицательное
Положительный результат теста	Истинно положительный	Ложноположительный
Результат теста отрицательный	Ложноотрицательный	Истинный отрицательный

Их можно упорядочить в таблицу непредвиденных обстоятельств 2 × 2 со столбцами, соответствующими фактическому значению - положительное условие или отрицательное условие - и строки, соответствующие значению классификации - результат теста положительный или результат теста отрицательный.

Восемь основных соотношений

Существует восемь основных соотношений, которые можно вычислить из этой таблицы, которые входят в четыре дополнительных пары (каждая пара в сумме равна 1). Они получаются путем деления каждого из четырех чисел на сумму его строки или столбца, в результате чего получается восемь чисел, на которые в общем случае можно ссылаться в форме «истинно положительное соотношение строк» или «ложно отрицательное соотношение столбцов».

Таким образом, есть две пары соотношений столбцов и две пары соотношений строк, и можно суммировать их четырьмя числами, выбрав одно соотношение из каждой пары - остальные четыре числа являются дополнительными.

Соотношения столбцов:

истинно положительный коэффициент (TPR) = (TP / (TP + FN)), иначе чувствительность или отзыв. Это доля населения с состоянием, при котором тест является правильным.
- с дополнением ложноотрицательной частотой (FNR) = (FN / (TP + FN))
истинно отрицательной частотой (TNR) = (TN / (TN + FP), иначе специфичность (SPC),
- с дополнением частота ложных срабатываний (FPR) = (FP / (TN + FP)), также называемый независимым от распространенности

Соотношения строк следующие:

прогнозируемое положительное значение (PPV, также известное как точность ) (TP / (TP + FP)). - это доля населения с данным результатом теста, для которого тест является правильным.
- с дополнением коэффициент ложного обнаружения (FDR) (FP / (TP + FP))
отрицательное прогнозируемое значение (NPV) (TN / (TN + FN))
- с дополнением ложной пропускной способности (FOR) (FN / (TN + FN)), также называется зависимостью от распространенности.

В диагностическом тестировании основными используемыми соотношениями являются истинные соотношения столбцов - истинно положительная частота и истинно отрицательная частота - где они известны как чувствительность и специфичность. В информационном поиске основные отношения - истинно положительные отношения (строка и столбец) - po прогнозирующая ценность и истинно положительный коэффициент - где они известны как точность и полнота.

Можно взять отношения дополнительной пары соотношений, что даст четыре отношения правдоподобия (соотношение соотношений в двух столбцах, двухрядное соотношение соотношений). В первую очередь это делается для соотношений столбцов (условий), что дает отношения правдоподобия при диагностическом тестировании. Взятие отношения одной из этих групп соотношений дает окончательное соотношение, диагностическое отношение шансов (DOR). Это также может быть определено напрямую как (TP × TN) / (FP × FN) = (TP / FN) / (FP / TN); это имеет полезную интерпретацию - как отношение шансов - и не зависит от распространенности.

Существует ряд других показателей, наиболее просто точность или правильная доля (FC), которые измеряют долю всех экземпляров, которые правильно классифицированы; дополнение - это неправильная дробь (FiC). F-оценка объединяет точность и отзыв в одно число за счет выбора взвешивания, наиболее просто равного взвешивания, как сбалансированный F-счет (оценка F1 ). Некоторые показатели берутся из коэффициентов регрессии : отмеченности и информированности, а также их геометрическое среднее, коэффициент корреляции Мэтьюза. Другие показатели включают статистику Юдена, коэффициент неопределенности, коэффициент фи и каппа Коэна.

Преобразование непрерывных значений в двоичные

Тесты, результаты которых имеют непрерывные значения, такие как большинство значений крови, могут быть искусственно преобразованы в двоичные, задав пороговое значение, при этом результаты теста обозначены как положительные. или отрицательное в зависимости от того, выше или ниже результирующее значение порогового значения.

Однако такое преобразование приводит к потере информации, поскольку результирующая двоичная классификация не сообщает, насколько значение выше или ниже порогового значения. В результате при преобразовании непрерывного значения, близкого к пороговому значению, в двоичное, результирующее положительное или отрицательное прогнозируемое значение обычно выше, чем прогнозное значение дано непосредственно из непрерывного значения. В таких случаях обозначение теста как положительного или отрицательного дает видимость неадекватно высокой достоверности, в то время как значение фактически находится в интервале неопределенности. Например, с концентрацией в моче ХГЧ в качестве непрерывного значения, тест на беременность в моче, в котором было измерено 52 мМЕ / мл ХГЧ, может отображаться как «положительный» с 50 мМЕ / мл как отсечка, но на самом деле находится в интервале неопределенности, которая может быть очевидна, только зная исходное непрерывное значение. С другой стороны, результат теста, очень далекий от порогового значения, обычно имеет результирующее положительное или отрицательное прогнозируемое значение, которое ниже, чем прогнозируемое значение, полученное из непрерывного значения. Например, значение ХГЧ в моче, равное 200 000 мМЕ / мл, дает очень высокую вероятность беременности, но преобразование в двоичные значения приводит к тому, что он показывает столь же «положительный», как и значение 52 мМЕ / мл.

См. Также

Портал математики

Ссылки

Библиография

Нелло Кристианини и Джон Шоу-Тейлор. Введение в опорные векторные машины и другие методы обучения на основе ядра. Cambridge University Press, 2000. ISBN 0-521-78019-5 ([1] Книга SVM)
Джон Шоу -Тейлор и Нелло Кристианини. Методы ядра для анализа паттернов. Cambridge University Press, 2004. ISBN 0-521-81397-2 (Веб-сайт книги )
Бернхард Шёлкопф и А.Дж. Смола: Обучение с помощью ядер. MIT Press, Кембридж, Массачусетс, 2002. ISBN 0-262-19475-9