Профиль совокупной точности

редактировать

Профиль совокупной точности (или CAP ) используется в науке о данных для визуализировать различительную силу модели. CAP модели представляет совокупное количество положительных результатов по оси y по сравнению с соответствующим совокупным числом классифицирующего параметра по оси x. CAP отличается от рабочей характеристики приемника (ROC), которая отображает коэффициент истинных положительных результатов против частоты ложных срабатываний. CAP используется при оценке эффективности модели классификации. Это помогает нам понять и сделать выводы о надежности модели классификации.

Содержание

1 Пример
2 Анализ CAP
3 Приложения
4 Ссылки

Пример

Предположим, вы ученый в магазине, который продает одежду. У вашего магазина 100 000 покупателей, которых мы размещаем на горизонтальной оси. По опыту вы знаете, что всякий раз, когда вы отправляете предложение своим клиентам, примерно 10 процентов из них отвечают и покупают продукт, что означает, что 10% от общего количества (10 000) помещаются на вертикальной оси. Итак, что мы собираемся сделать, это то, где у нас есть предложение, которое мы хотим отправить, и мы хотим увидеть, сколько клиентов собираются приобрести наш продукт. Используя процесс случайного выбора, мы можем нарисовать линию, которая будет представлять случайный выбор, наклон линии, равный тем 10 процентам, которые мы знаем, которые в среднем откликаются на предложение, как если бы мы просто так их рассылали. Теперь вопрос в том, можем ли мы как-то улучшить этот опыт, сможем ли мы привлечь больше клиентов, которые откликаются на предложения, когда мы рассылаем наши письма, так что в основном можем ли мы как-то более адекватно нацеливать наших клиентов, чтобы получить лучшую скорость отклика. А как насчет того, чтобы вместо того, чтобы рассылать эти предложения случайным образом, сказать случайной выборке из 20000 клиентов, как бы мы выбрали клиента, которому мы отправляем эти предложения, и как мы выбираем и выбираем хорошо для начала, позвольте нам построить модель. Модель сегментации клиентов модель демографической сегментации, которая хочет предсказать, покинут ли они компанию, предскажет, купят ли они продукт. Это очень простой процесс, это то же самое, потому что купленный также является двоичной переменной да или нет. И мы также можем провести тот же эксперимент, и мы можем взять группу клиентов, прежде чем разослать предложение, а затем оглянуться назад и посмотреть, кто совершил покупку, будь то мужчина или женщина, в какой стране они были, в каком возрасте они преимущественно просматривали с мобильных устройств, где они просмотр через компьютер и все эти факторы, мы можем учесть их, поместить их в логистическую регрессию и получить модель, которая поможет нам оценить вероятность покупки определенных типов клиентов на основе их характеристик или общего демографического статуса и других характеристики.

Кривая CAP для идеальной, хорошей и случайной модели, прогнозирующей покупающих клиентов из пула из 100000 человек.

И как только мы построим эту модель, как насчет того, чтобы применить ее для выбора клиента, мы отправим предложение женщина-клиент банка, чей любимый цвет красный, они, скорее всего, оставят сумку здесь, будет ли у нее аналогичный результат, скажет, что, возможно, клиент-мужчина в этой определенной возрастной группе, который просматривает и использует мобильный телефон, скорее всего, купит мобильный или что-то иначе, если мы что-то расскажем или плохо оценим наших клиентов, мы дадим им вероятность покупки, и мы используем мобильность, чтобы связаться с вашим клиентом, конечно, мы свяжемся, мы не получим никакого ответа, тогда, если мы свяжемся с 20000, мы, вероятно, получим гораздо более высокий уровень отклика, чем просто 2000, потому что с нами связались 2000. Наш уровень отклика будет выше 4000, который мы получим в этом случайном сценарии, если мы, если наша модель действительно хороша, к тому времени, когда мы будем около 60 тысяч, так что больше что чуть больше половины нашего общая клиентская база, и мы действительно приближаемся к этой отметке в 10000, так что мы получаем 10000 человек, которые ответят более чем на самом деле более чем 9000, мы могли бы остановить ее. Итак, теперь мы проводим черту через эти кресты. то, что вы видите здесь, называется профилем совокупной точности вашей модели.

Анализ CAP

CAP можно использовать для оценки модели путем сравнения кривой с идеальной CAP, в которой непосредственно достигается максимальное количество положительных результатов, и со случайной CAP, в которой положительные результаты распределяются поровну. Хорошая модель будет иметь CAP между идеальным CAP и случайным CAP, а лучшая модель стремится к идеальному CAP.

Коэффициент точности (AR) определяется как отношение площади между модельным CAP и случайным CAP и площади между идеальным CAP и случайным CAP. Для успешной модели AR имеет значения от нуля до единицы, с более высоким значением для более сильной модели.

Другим показателем силы модели является совокупное количество положительных результатов при 50% классифицирующего параметра. Для успешной модели это значение должно находиться в диапазоне от 50% до 100% от максимума, с более высоким процентом для более сильных моделей.

В очень редких случаях коэффициент точности может быть отрицательным. В этом случае модель работает хуже, чем случайная CAP.

Приложения

CAP и ROC обычно используются банками и регулирующими органами для анализа дискриминационной способности рейтинговых систем, оценивающих кредитные риски

Ссылки