Профилирование (информатика)

редактировать

В информатике, профилирование относится к процессу построения и применение профилей пользователей, созданных с помощью компьютеризированного анализа данных.

Это использование алгоритмов или других математических методов, которые позволяют обнаруживать закономерности или корреляции в больших объемах данных, агрегированных в базах данных. Когда эти шаблоны или корреляции используются для идентификации или представления людей, их можно назвать профилями. Помимо обсуждения технологий профилирования или профилирования населения, понятие профилирования в этом смысле касается не только построения профилей, но также касается применения групповых профилей к отдельным лицам, например. g., в случаях ценовой дискриминации или выявления рисков безопасности (Hildebrandt Gutwirth 2008) (Elmer 2004).

Найдите профиль в Wiktionary, бесплатном словаре.

Профилирование - это не просто компьютеризированное распознавание образов; он обеспечивает четкую ценовую дискриминацию, целевое обслуживание, обнаружение мошенничества и расширенную социальную сортировку. Профилирование машин в реальном времени является предпосылкой для появления социально-технических инфраструктур, задуманных сторонниками окружающего интеллекта, автономных вычислений (Kephart Chess 2003) и повсеместные вычисления (Weiser 1991).

Одна из самых сложных проблем информационного общества связана с растущей перегрузкой данных. С оцифровкой всех видов контента, а также с улучшением и снижением стоимости технологий записи объем доступной информации стал огромным и растет в геометрической прогрессии. Таким образом, для компаний, правительств и частных лиц стало важным отличать информацию от шума, обнаруживая полезные или интересные данные. На этом фоне следует рассматривать развитие технологий профилирования. Считается, что эти технологии эффективно собирают и анализируют данные, чтобы найти или проверить знания в виде статистических закономерностей между данными. Этот процесс, называемый обнаружение знаний в базах данных (KDD) (Fayyad, Piatetsky-Shapiro Smyth 1996), предоставляет профилировщику наборы коррелированных данных, которые можно использовать как «профили».

Содержание

1 Процесс профилирования
2 Типы практик профилирования
- 2.1 Контролируемое и неконтролируемое обучение
- 2.2 Индивидуальные и групповые профили
- 2.3 Распределительное и нераспределительное профилирование
3 Применение домены
4 Риски и проблемы
5 См. также
6 Ссылки

Процесс профилирования

Технический процесс профилирования можно разделить на несколько этапов:

Предварительное обоснование: Процесс профилирования начинается с определения применимой проблемной области и определения целей анализа.
Сбор данных : целевой набор данных или база данных для анализа формируется путем выбора соответствующих данных в свете существующих знаний в предметной области. и понимание данных.
Подготовка данных : данные предварительно обрабатываются для устранения шума и уменьшения сложности за счет устранения атрибутов.
Интеллектуальный анализ данных : данные анализируются с помощью алгоритма или эвристики, разработанной для соответствия данным, модель и цели.
Толкование: Полученные шаблоны оцениваются на предмет их релевантности и достоверности специалистами и / или профессионалами в области применения (например, исключая ложные корреляции).
Применение: применяются построенные профили, например для категорий лиц, для тестирования и настройки алгоритмов.
Институциональное решение: учреждение решает, какие действия или политики применять к группам или отдельным лицам, данные которых соответствуют соответствующему профилю.

Сбор данных, подготовка и добыча все относятся к фазе, на которой строится профиль. Однако профилирование также относится к применению профилей, то есть к использованию профилей для идентификации или категоризации групп или отдельных лиц. Как видно на шестом шаге (приложение), процесс является циклическим. Между созданием и применением профилей существует обратная связь. Интерпретация профилей может привести к повторяющейся - возможно, в реальном времени - точной настройке определенных предыдущих шагов в процессе профилирования. Применение профилей к людям, данные которых не использовались для построения профиля, основано на сопоставлении данных, которое предоставляет новые данные, которые позволяют вносить дальнейшие корректировки. Процесс профилирования является одновременно динамичным и адаптивным. Хорошей иллюстрацией динамического и адаптивного характера профилирования является межотраслевой стандартный процесс интеллектуального анализа данных (CRISP-DM ).

Типы практик профилирования

Чтобы прояснить природу технологий профилирования, необходимо провести некоторые важные различия между разными типами методов профилирования, помимо различия между конструкцией и применением. профилей. Основные различия заключаются в различиях между профилированием снизу вверх и сверху вниз (или контролируемым и неконтролируемым обучением), а также между индивидуальным и групповым профилями.

Обучение с учителем и обучение без учителя

Профили можно классифицировать по способу их создания (Fayyad, Piatetsky-Shapiro Smyth 1996) (Zarsky 2002-3) harv error: нет цели: CITEREFZarsky2002-3 (help ). С одной стороны, профили могут быть созданы путем проверки предполагаемой корреляции. Это называется нисходящим профилированием или контролируемым обучением. Это похоже на методологию традиционных научных исследований в том, что они начинаются с гипотезы и заключаются в проверке ее достоверности. Результатом этого типа профилирования является проверка или опровержение гипотезы. Можно также говорить о дедуктивном профилировании. С другой стороны, профили могут быть сгенерированы путем изучения базы данных с использованием процесса интеллектуального анализа данных для обнаружения шаблонов в базе данных, которые ранее не предполагались. В некотором смысле, это вопрос генерации гипотезы: нахождение корреляций, которых вы не ожидали или даже не думали. Как только паттерны будут добыты, они войдут в цикл, описанный выше, и будут протестированы с использованием новых данных. Это называется обучением без учителя.

В связи с этим различием важны две вещи. Во-первых, алгоритмы обучения без учителя, похоже, позволяют конструировать новый тип знаний, основанный не на гипотезе, разработанной исследователем, и не на причинно-следственных или мотивационных отношениях, а исключительно на основе стохастических корреляций. Во-вторых, алгоритмы обучения без учителя, таким образом, допускают индуктивный тип конструирования знаний, который не требует теоретического обоснования или причинного объяснения (Custers 2004).

Некоторые авторы утверждают, что если применение профилей, основанных на компьютеризованном распознавании стохастических образов «работает», т.е. позволяет надежно предсказывать будущее поведение, теоретическое или причинное объяснение этих моделей больше не имеет значения (Андерсон 2008). Однако идея о том, что «слепые» алгоритмы предоставляют надежную информацию, не означает, что информация нейтральна. В процессе сбора и агрегирования данных в базу данных (первые три шага процесса построения профиля) выполняется преобразование реальных событий в машиночитаемые данные. Затем эти данные подготавливаются и очищаются для обеспечения начальной вычислимости. В этих точках, а также в выборе разрабатываемых алгоритмов необходимо будет обнаружить потенциальную предвзятость. Невозможно найти в базе данных все возможные линейные и нелинейные корреляции, а это означает, что математические методы, разработанные для поиска шаблонов, будут определять шаблоны, которые можно найти. В случае машинного профилирования потенциальная предвзятость определяется не предрассудками здравого смысла или тем, что психологи называют стереотипами, а компьютерными методами, используемыми на начальных этапах процесса. Эти методы в основном невидимы для тех, к кому применяются профили (потому что их данные совпадают с соответствующими профилями групп).

Индивидуальные и групповые профили

Профили также должны классифицироваться по типу предмета, к которому они относятся. Этот субъект может быть отдельным человеком или группой людей. Когда профиль создается на основе данных одного человека, это называется индивидуальным профилированием (Jaquet-Chiffelle 2008). Этот вид профилирования используется для выявления конкретных характеристик определенного человека, чтобы обеспечить уникальную идентификацию или предоставление персонализированных услуг. Однако персонализированное обслуживание чаще всего также основывается на групповом профилировании, которое позволяет отнести человека к определенному типу лиц на основании того факта, что его профиль совпадает с профилем, созданным на основе огромных объемов данных о огромное количество других людей. Профиль группы может относиться к результату интеллектуального анализа данных в наборах данных, которые относятся к существующему сообществу, которое считает себя таковым, например, религиозной группе, теннисному клубу, университету, политической партии и т. Д. В этом случае он может описать ранее неизвестные модели поведения или другие характеристики такой группы (сообщества). Профиль группы может также относиться к категории людей, которые не образуют сообщество, но, как выяснилось, разделяют ранее неизвестные модели поведения или другие характеристики (Custers 2004). В этом случае профиль группы описывает конкретное поведение или другие характеристики категории людей, например, женщин с голубыми глазами и рыжими волосами или взрослых с относительно короткими руками и ногами. Эти категории могут коррелировать с рисками для здоровья, доходностью, уровнем смертности, кредитными рисками и т. Д.

Если индивидуальный профиль применяется к человеку, от которого он был добыт, то это прямое индивидуальное профилирование. Если профиль группы применяется к человеку, данные которого соответствуют профилю, то это косвенное индивидуальное профилирование, поскольку профиль был создан с использованием данных других людей. Аналогично, если профиль группы применяется к группе, из которой он был добыт, то это прямое профилирование группы (Jaquet-Chiffelle 2008). Однако, поскольку применение профиля группы к группе подразумевает применение профиля группы к отдельным членам группы, имеет смысл говорить о косвенном профилировании группы, особенно если профиль группы не является распределительным.

Распределительное и недистрибутивное профилирование

Профили групп также могут быть разделены с точки зрения их распределительного характера (Vedder 1999). Профиль группы является распределительным, если его свойства в равной степени применимы ко всем членам его группы: все холостяки не состоят в браке или все люди с определенным геном имеют 80% -ный шанс заразиться определенным заболеванием. Профиль не является распределительным, если профиль не обязательно применяется ко всем членам группы: группа лиц с определенным почтовым индексом имеет средний доход XX, или категория лиц с голубыми глазами имеет средний шанс 37%, чтобы заразиться определенным заболеванием. Обратите внимание, что в этом случае вероятность того, что человек будет иметь определенную заработную плату или заразиться определенным заболеванием, будет зависеть от других факторов, например пол, возраст, происхождение родителей, предыдущее состояние здоровья, образование. Должно быть очевидно, что, за исключением тавтологических профилей, таких как профили бакалавров, большинство групповых профилей, созданных с помощью компьютерных технологий, не являются распределительными. Это имеет далеко идущие последствия для точности косвенного индивидуального профилирования, основанного на сопоставлении данных с недистрибутивными профилями групп. Помимо того факта, что использование точных профилей может быть несправедливым или вызывать чрезмерную стигматизацию, большинство профилей групп не будут точными.

Домены приложений

Технологии профилирования могут применяться в различных областях и для различных целей. Все эти методы профилирования будут иметь разный эффект и поднимать разные вопросы.

Недавно был опубликован обзор под названием «Социальное профилирование: обзор, таксономия и проблемы», в котором приводится подробный обзор приложений профилирования для извлечения атрибутов профиля пользователя, например личности, поведения, интересов и т. Д., А также источников данных. использованные в предыдущих исследованиях.

Знания о поведении и предпочтениях клиентов представляют большой интерес для коммерческого сектора. На основе технологий профилирования компании могут прогнозировать поведение разных типов клиентов. Затем маркетинговые стратегии могут быть адаптированы к людям, подходящим для этих типов. Примерами методов профилирования в маркетинге являются клиенты карты лояльности, управление взаимоотношениями с клиентами в целом и персонализированная реклама.

В финансовом секторе учреждения используют технологии профилирования для предотвращение мошенничества и. Банки хотят минимизировать риски, связанные с кредитованием своих клиентов. На основе обширной группы профилирующим клиентам присваивается определенная оценка, которая указывает на их кредитоспособность. Финансовые учреждения, такие как банки и страховые компании, также используют профилирование групп для выявления мошенничества или отмывания денег. Поиск в базах данных с транзакциями выполняется с помощью алгоритмов для выявления поведения, которое отклоняется от стандарта, что указывает на потенциально подозрительные транзакции.

В контексте занятости профили могут быть полезны для отслеживания сотрудников путем мониторинга их онлайн-поведения, для обнаружения ими мошенничества и для использования человеческих ресурсов путем объединения и ранжирования их навыков. (Leopold Meints 2008)

Профилирование также можно использовать для поддержки людей на работе, а также для обучения, вмешиваясь в разработку адаптивных гипермедийных систем, персонализирующих взаимодействие. Например, это может быть полезным для поддержки управления вниманием (Nabeth 2008).

В судебной медицине существует возможность связывания различных баз данных случаев и подозреваемых, а также выявление общих закономерностей. Это может быть использовано для раскрытия существующих дел или с целью установления профилей риска потенциальных подозреваемых (Geradts Sommer 2008) (Harcourt 2006

Риски и проблемы

Технологии профилирования подняли множество этических, юридических и других вопросов, включая конфиденциальность, равенство, надлежащая правовая процедура, безопасность и ответственность. Многие авторы предостерегают от возможностей новой технологической инфраструктуры, которая может возникнуть на основе полуавтономной прибыли. ling technologies (Lessig 2006) (Solove 2004) (Schwartz 2000).

Конфиденциальность - одна из основных поднятых проблем. Технологии профилирования делают возможным всесторонний мониторинг поведения и предпочтений человека. Профили могут раскрывать личную или частную информацию о лицах, о которых они, возможно, даже не подозревают (Hildebrandt Gutwirth 2008).

Технологии профилирования по самой своей природе являются дискриминационными инструментами. Они допускают беспрецедентные виды социальной сортировки и сегментации, которые могут иметь несправедливые последствия. Профилируемым людям, возможно, придется платить более высокие цены, они могут упустить важные предложения или возможности и могут подвергнуться повышенному риску, поскольку удовлетворение их потребностей менее прибыльно (Lyon 2003). В большинстве случаев они не будут знать об этом, поскольку методы профилирования в большинстве своем невидимы, а сами профили часто защищены интеллектуальной собственностью или коммерческой тайной. Это создает угрозу равенству и солидарности граждан. В более крупном масштабе это может привести к сегментации общества.

Одна из проблем, лежащих в основе потенциальных нарушений конфиденциальности и недискриминации, заключается в том, что процесс профилирования чаще всего бывает незаметным для профилируемых. Это создает трудности, поскольку становится трудно, а то и невозможно оспорить заявку на конкретный профиль группы. Это нарушает принципы надлежащей правовой процедуры: если у человека нет доступа к информации, на основании которой ему отказывают в льготах или приписывают определенные риски, он не может оспаривать то, как с ним обращаются (Steinbock 2005).

Профили могут использоваться против людей, когда они попадают в руки людей, которые не имеют права доступа к ним или их использования. Важным вопросом, связанным с этими нарушениями безопасности, является кража личных данных.

Когда применение профилей причиняет вред, необходимо определить ответственность за этот ущерб, кто должен быть привлечен к ответственности. Следует ли привлекать к ответственности программиста, поставщика услуг профилирования или профилированного пользователя? Этот вопрос ответственности особенно сложен в случае, если приложение и решения по профилям также стали автоматизированными, как в Autonomic Computing или Ambient Intelligence решениях автоматизированных решений, основанных на профилировании.

См. Также

Ссылки

Примечания и другие ссылки