Алгоритмическая предвзятость

редактировать

Технологическое явление с социальными последствиями

Блок-схема, показывающая решения, принятые системой рекомендаций, примерно 2001.

Алгоритмическая систематическая ошибка описывает систематические и повторяющиеся ошибки в компьютерной системе, которые приводят к несправедливым результатам, например, привилегия одной произвольной группы пользователей над другими. Предвзятость может возникать из-за множества факторов, включая, помимо прочего, дизайн алгоритма или непреднамеренное или непредвиденное использование или решения, касающиеся способа кодирования, сбора, выбора или использования данных для обучения алгоритма. Алгоритмическая предвзятость обнаруживается на разных платформах, включая, помимо прочего, результаты поисковых систем и платформы социальных сетей, и может иметь последствия от непреднамеренного нарушения конфиденциальности до усиления социальных предубеждений расы, пола, сексуальность и этническая принадлежность. Изучение алгоритмической предвзятости больше всего связано с алгоритмами, отражающими «систематическую и несправедливую» дискриминацию. Эта предвзятость только недавно была рассмотрена в правовых рамках, таких как Общий регламент по защите данных.

Европейского Союза 2018 г. По мере того, как алгоритмы расширяют свою способность организовывать общество, политику, институты и поведение, социологов стали интересовать способы в котором непредвиденный вывод и манипуляции с данными могут повлиять на физический мир. Поскольку алгоритмы часто считаются нейтральными и беспристрастными, они могут неточно демонстрировать больший авторитет, чем человеческий опыт, а в некоторых случаях полагаться на алгоритмы может смещать человеческую ответственность за их результаты. Предвзятость может проникнуть в алгоритмические системы в результате уже существующих культурных, социальных или институциональных ожиданий; из-за технических ограничений их конструкции; или в результате использования в непредвиденных контекстах или аудиторией, не учтенной при первоначальном дизайне программного обеспечения.

Алгоритмическая предвзятость упоминалась в самых разных случаях, от результатов выборов до распространения языка вражды в Интернете. Проблемы в понимании, исследовании и обнаружении алгоритмической предвзятости проистекают из патентованной природы алгоритмов, которые обычно считаются коммерческой тайной. Даже когда обеспечивается полная прозрачность, сложность некоторых алгоритмов создает препятствие для понимания их функционирования. Кроме того, алгоритмы могут изменяться или реагировать на ввод или вывод способами, которые невозможно предвидеть или легко воспроизвести для анализа. Во многих случаях, даже в пределах одного веб-сайта или приложения, нет единого «алгоритма» для изучения, а есть сеть из множества взаимосвязанных программ и входных данных, даже между пользователями одного и того же сервиса.

Содержание

1 Определения
2 Методы
3 История
- 3.1 Ранняя критика
- 3.2 Современная критика и отзывы
4 Типы
- 4.1 Существовавшие ранее
- 4.2 Технические
- 4.3 Возникающие
  - 4.3.1 Корреляции
  - 4.3.2 Непредвиденные применения
  - 4.3.3 Петли обратной связи
5 Влияние
- 5.1 Коммерческое влияние
- 5.2 Поведение при голосовании
- 5.3 Пол дискриминация
- 5.4 Расовая и этническая дискриминация
  - 5.4.1 Правоприменение и судебное разбирательство
  - 5.4.2 Разжигание ненависти в Интернете
  - 5.4.3 Наблюдение
- 5.5 Сексуальная дискриминация
- 5.6 Поиск в Google
6 Препятствия для исследования
- 6.1 Определение справедливости
- 6.2 Сложность
- 6.3 Недостаток прозрачности
- 6.4 Отсутствие данных о деликатных категориях
7 Решения
- 7.1 Технические аспекты
- 7.2 Прозрачность и мониторинг
- 7.3 Право на исправление
- 7.4 Разнообразие и включение
8 Регламент
- 8.1 Европа
- 8.2 США
- 8.3 Индия
9 Дополнительная литература
10 Ссылки

Определения

Диаграмма 1969 года, показывающая, как простой компьютерная программа принимает решения, иллюстрируя очень простой алгоритм.

Алгоритмы трудно определить, но в целом их можно понимать как списки инструкций, которые определяют, как программы читают, собирают, обрабатывают и анализируют data для генерации вывода. Для подробного технического введения см. Алгоритмы. Достижения в области компьютерного оборудования привели к увеличению возможностей обработки, хранения и передачи данных. Это, в свою очередь, ускорило разработку и внедрение таких технологий, как машинное обучение и искусственный интеллект. Анализируя и обрабатывая данные, алгоритмы составляют основу поисковых систем, веб-сайтов социальных сетей, систем рекомендаций, розничной торговли в Интернете, интернет-рекламы и т. Д.

Современные социологи занимаются алгоритмическими процессами встроены в аппаратные и программные приложения из-за их политического и социального влияния и ставят под сомнение основные предположения о нейтральности алгоритма. Термин «алгоритмическая предвзятость» описывает систематические и повторяющиеся ошибки, которые приводят к несправедливым результатам, например, привилегия одной произвольной группы пользователей над другими. Например, алгоритм может отказать в выдаче кредита без несправедливости, если он последовательно взвешивает соответствующие финансовые критерии. Если алгоритм рекомендует ссуды одной группе пользователей, но отказывает в ссуде другой группе почти идентичных пользователей на основании несвязанных критериев, и если такое поведение может повторяться в нескольких случаях, алгоритм можно охарактеризовать как предвзятый. Эта предвзятость может быть преднамеренной или непреднамеренной (например, она может исходить из предвзятых данных, полученных от работника, который ранее выполнял работу, которую алгоритм будет выполнять с этого момента).

Методы

Смещение может быть внесено в алгоритм несколькими способами. Во время сборки набора данных данные могут быть собраны, оцифрованы, адаптированы и введены в базу данных в соответствии с критериями каталогизации, разработанными человеком. Затем программисты назначают приоритеты или иерархии того, как программа оценивает и сортирует эти данные. Это требует человеческих решений о том, как данные классифицироваться, и какие данные должны быть включены или отброшены. Некоторые алгоритмы собирают собственные данные на основе критериев, выбранных людьми, которые также могут отражать предвзятость разработчиков. Другие алгоритмы могут усиливать стереотипы и предпочтения по мере того, как они обрабатывают и отображают «релевантные» данные для пользователей-людей, например, путем выбора информации на основе предыдущих выборов аналогичного пользователя или группы пользователей.

Помимо сборки и обработки данных., предвзятость может возникнуть в результате дизайна. Например, алгоритмы, которые определяют распределение ресурсов или тщательную проверку (например, определение места в школе), могут непреднамеренно дискриминировать категорию при определении риска на основе схожих пользователей (как в кредитных рейтингах). Между тем, механизмы рекомендаций, которые работают, связывая пользователей с похожими пользователями или использующие предполагаемые маркетинговые особенности, могут полагаться на неточные ассоциации, которые отражают широкие этнические, гендерные, социально-экономические или расовые стереотипы. Другой пример связан с определением критериев включения и исключения из результатов. Эти критерии могут привести к неожиданным результатам для результатов поиска, например, с программным обеспечением рекомендаций по рейсам, которое пропускает рейсы, которые не следуют по маршрутам полета спонсирующей авиакомпании. Алгоритмы также могут отображать погрешность неопределенности, предлагая более уверенные оценки, когда доступны более крупные наборы данных. Это может смещать алгоритмические процессы в сторону результатов, которые более точно соответствуют более крупным выборкам, что может не учитывать данные из недостаточно представленных групп населения.

История

Ранняя критика

Эта карта использовалась для загрузки программного обеспечения в старый универсальный компьютер. Каждый байт (например, буква «А») вводится путем пробивки отверстий. Хотя современные компьютеры более сложны, они отражают этот процесс принятия решений человеком при сборе и обработке данных.

Самые ранние компьютерные программы были разработаны для имитации человеческих рассуждений и выводов, и считалось, что они функционируют, когда они успешно и последовательно воспроизводили это человеческая логика. В своей книге 1976 года Компьютерная мощь и человеческий разум первопроходец в области искусственного интеллекта Джозеф Вайценбаум предположил, что предвзятость могла возникнуть как из данных, используемых в программе, так и из способ кодирования программы.

Вайценбаум писал, что программы представляют собой последовательность правил, созданных людьми для компьютера, которым следует следовать. Последовательно следуя этим правилам, такие программы «воплощают закон», то есть навязывают определенный способ решения проблем. Правила, которым следует компьютер, основаны на предположениях программиста о том, как эти проблемы могут быть решены. Это означает, что код может включать в себя представление программиста о том, как устроен мир, включая его или ее предубеждения и ожидания. В то время как компьютерная программа может включать предвзятость таким образом, Вайценбаум также отметил, что любые данные, передаваемые в машину, дополнительно отражают «процессы принятия решений человеком» по мере того, как данные выбираются.

Наконец, он отметил, что машины также могут передавать хорошие данные. информация с непредвиденными последствиями, если пользователи не знают, как интерпретировать результаты. Вайценбаум предостерег от доверчивых решений, принимаемых компьютерными программами, которые пользователь не понимает, сравнивая такую веру с туристом, который может найти свой путь в гостиничный номер, только повернув налево или направо при подбрасывании монеты. Важно отметить, что у туриста нет основы для понимания того, как и почему он прибыл в пункт назначения, и успешное прибытие не означает, что процесс точен или надежен.

Ранний пример алгоритмической ошибки привел к целым 60 женщинам и представителям национальных меньшинств запрещен въезд на территорию г. Медицинская школа больницы Джорджа в год с 1982 по 1986 год, на основе внедрения новой компьютерной системы оценки, которая запрещала вход женщинам и мужчинам с "иностранными именами" на основании исторических тенденций в приеме на лечение.

Современная критика и ответы

Хотя хорошо разработанные алгоритмы часто определяют результаты, которые в равной степени (или более) справедливы, чем решения людей, случаи предвзятости все же имеют место, и их трудно предсказать и проанализировать. Сложность анализа алгоритмической ошибки выросла вместе со сложностью программ и их дизайна. Решения, принятые одним дизайнером или командой дизайнеров, могут быть не видны среди множества фрагментов кода, созданных для одной программы; Со временем об этих решениях и их коллективном влиянии на результаты программы можно забыть. Теоретически эти предубеждения могут создавать новые модели поведения или «сценарии» по отношению к конкретным технологиям, поскольку код взаимодействует с другими элементами общества. Предубеждения также могут повлиять на то, как общество формируется вокруг точек данных, которые требуются алгоритмам. Например, если данные показывают большое количество арестов в определенной области, алгоритм может назначить больше полицейских патрулей для этой области, что может привести к большему количеству арестов.

Решения алгоритмических программ можно рассматривать как большее количество авторитетнее, чем решения людей, которым они призваны помогать, - процесс, описанный автором Клэем Ширки как «алгоритмический авторитет». Ширки использует этот термин для описания «решения считать авторитетным неуправляемый процесс извлечения ценности из разнообразных, ненадежных источников», таких как результаты поиска. Этот нейтралитет также может быть искажен языком, используемым экспертами и средствами массовой информации при представлении результатов общественности. Например, список новостей, выбранных и представленных как «актуальные» или «популярные», может быть создан на основе значительно более широких критериев, чем просто их популярность.

Из-за их удобства и авторитетности алгоритмы рассматриваются как средства делегирования ответственности от людей. Это может привести к сокращению альтернативных вариантов, компромиссов или гибкости. Социолог Скотт Лэш критиковал алгоритмы как новую форму «порождающей силы», поскольку они являются виртуальным средством достижения реальных целей. В то время как ранее человеческое поведение генерировало данные для сбора и изучения, мощные алгоритмы все чаще могли формировать и определять человеческое поведение.

Обеспокоенность влиянием алгоритмов на общество привела к созданию рабочих групп в таких организациях, как Google и Microsoft, которые совместно создали рабочую группу под названием Справедливость, подотчетность и прозрачность в машинном обучении. Идеи от Google включают группы сообщества, которые следят за результатами алгоритмов и голосуют, чтобы контролировать или ограничивать результаты, которые, по их мнению, имеют негативные последствия. В последние годы изучение принципов справедливости, подотчетности и прозрачности (FAT) алгоритмов стало отдельной междисциплинарной областью исследований с ежегодной конференцией под названием FAT *. Критики высказали предположение, что инициативы FAT не могут эффективно служить в качестве независимых наблюдателей, когда многие из них финансируются корпорациями, создающими изучаемые системы.

Типы

Существовавшие ранее

Предвзятости, существовавшие ранее в алгоритме является следствием лежащих в основе социальных и институциональных идеологий. Такие идеи могут влиять или создавать личные предубеждения внутри отдельных дизайнеров или программистов. Такие предрассудки могут быть явными и сознательными или неявными и бессознательными. Плохо выбранные входные данные или просто данные из предвзятого источника повлияют на результаты, создаваемые машинами. Кодирование ранее существовавшей предвзятости в программном обеспечении может сохранить социальную и институциональную предвзятость и, без исправлений, может быть воспроизведено во всех будущих применениях этого алгоритма.

Примером такой формы предвзятости является Программа Закона о британском гражданстве, разработан для автоматизации оценки новых граждан Великобритании после принятия Закона о британском гражданстве 1981 года. Программа точно отражала положения закона, который гласил, что «мужчина является отцом только своих законных детей, а женщина - матерью всех своих детей, законных или незаконнорожденных». Пытаясь преобразовать определенную логику в алгоритмический процесс, BNAP вписал логику Закона о британском гражданстве в свой алгоритм, который увековечил бы его, даже если бы этот закон был в конечном итоге отменен.

Технический

уход за лицом программное обеспечение для распознавания, используемое в сочетании с камерами наблюдения, показало предвзятость при распознавании азиатских и черных лиц поверх белых.

Техническая предвзятость возникает из-за ограничений программы, вычислительной мощности, ее конструкции или других ограничений системы. Подобная предвзятость также может быть ограничением дизайна, например, можно понять, что поисковая машина, которая показывает три результата на экране, имеет преимущество перед тремя первыми результатами, чем следующими тремя, как при отображении цен на авиабилеты. Другой случай - программное обеспечение, которое полагается на случайность для справедливого распределения результатов. Если механизм генерации случайных чисел не является действительно случайным, он может вносить систематическую ошибку, например, смещая выборку в сторону элементов в конце или начале списка.

Деконтекстуализированный алгоритм использует несвязанные информация для сортировки результатов, например, алгоритм расчета стоимости авиабилетов, который сортирует результаты в алфавитном порядке, будет смещен в пользу American Airlines, а не United Airlines. Может также применяться противоположное, когда результаты оцениваются в контексте, отличном от того, в котором они собираются. Данные могут быть собраны без критического внешнего контекста: например, когда программное обеспечение распознавания лиц используется камерами наблюдения, но оценивается удаленным персоналом в другой стране или регионе, или оценивается нечеловеческими алгоритмами, не осознавая что происходит за пределами поля зрения камеры . Это может привести к неполному пониманию места преступления, например, из-за того, что случайные прохожие будут ошибочно приняты за тех, кто совершает преступление.

Наконец, техническая предвзятость может быть вызвана попытками формализовать решения в виде конкретных шагов, исходя из предположения, что человек поведение работает точно так же. Например, программное обеспечение взвешивает точки данных, чтобы определить, следует ли обвиняемому согласиться на сделку о признании вины, игнорируя при этом влияние эмоций на присяжных. Еще один непреднамеренный результат такой формы предвзятости был обнаружен в программе обнаружения плагиата Turnitin, которая сравнивает написанные студентом тексты с информацией, найденной в Интернете, и возвращает оценку вероятности того, что работа студента копируется. Поскольку программа сравнивает длинные строки текста, она с большей вероятностью идентифицирует носителей английского языка, для которых английский язык не является родным, чем носителей языка, поскольку последняя группа может лучше изменять отдельные слова, разбивать строки плагиата или скрывать скопированные отрывки. синонимы. Поскольку носителям языка легче избежать обнаружения из-за технических ограничений программного обеспечения, это создает сценарий, в котором Turnitin выявляет иностранцев, говорящих на английском языке, как плагиат, позволяя большему количеству носителей языка избежать обнаружения.

Эмерджентный

Эмерджентный предвзятость - это результат использования алгоритмов в новых или неожиданных контекстах и зависимости от них. Алгоритмы, возможно, не были адаптированы для учета новых форм знаний, таких как новые лекарства или медицинские открытия, новые законы, бизнес-модели или меняющиеся культурные нормы. Это может исключать группы с помощью технологий без предоставления четкого описания, чтобы понять, кто несет ответственность за их исключение. Точно так же проблемы могут возникать, когда обучающие данные (образцы, «подаваемые» в машину, с помощью которой моделируются определенные выводы) не совпадают с контекстами, с которыми алгоритм сталкивается в реальном мире.

В 1990 году пример внезапной предвзятости был выявлен в программном обеспечении, используемом для размещения студентов-медиков в США в ординатуре, Национальной программе выбора места жительства (NRMP). Алгоритм был разработан в то время, когда несколько супружеских пар хотели вместе искать жилье. По мере того, как все больше женщин поступали в медицинские вузы, все больше студентов, вероятно, запрашивали место жительства вместе со своими партнерами. Процесс требовал, чтобы каждый кандидат предоставил список предпочтений для размещения в США, который затем сортировался и назначался, когда больница и кандидат соглашались на совпадение. В случае супружеских пар, в которых оба стремились получить постоянное место жительства, алгоритм в первую очередь взвешивал выбор местоположения партнера с более высоким рейтингом. Результатом стало частое назначение наиболее предпочтительных школ первому партнеру и менее предпочтительных школ второму партнеру, а не сортировка на предмет компромиссов в предпочтении размещения.

Дополнительные возникающие предубеждения включают:

Корреляции

Непредсказуемые корреляции могут возникать при сравнении больших наборов данных друг с другом. Например, данные, собранные о шаблонах просмотра веб-страниц, могут совпадать с сигналами, обозначающими конфиденциальные данные (такие как раса или сексуальная ориентация). При выборе в соответствии с определенным поведением или шаблонами просмотра конечный эффект будет почти идентичен дискриминации с использованием прямых данных о расе или сексуальной ориентации. В других случаях алгоритм делает выводы из корреляций, не имея возможности понять эти корреляции. Например, в одной программе сортировки астматикам с пневмонией уделялось меньше внимания, чем астматикам без пневмонии. Алгоритм программы сделал это, потому что он просто сравнил выживаемость: астматики с пневмонией находятся в группе наибольшего риска. Исторически по этой же причине больницы обычно оказывают таким астматикам самую лучшую и самую немедленную помощь.

Непредвиденные случаи использования

Неожиданная предвзятость может возникнуть, когда алгоритм используется непредвиденной аудиторией. Например, машинам может потребоваться, чтобы пользователи могли читать, писать или понимать числа или относиться к интерфейсу, используя метафоры, которые они не понимают. Эти исключения могут усугубляться по мере того, как предвзятая или исключающая технология более глубоко интегрирована в общество.

Помимо исключения, непредвиденное использование может возникнуть из-за того, что конечный пользователь полагается на программное обеспечение, а не на свои собственные знания. В одном примере непредвиденная группа пользователей привела к алгоритмической предвзятости в Великобритании, когда британская национальная программа закона была создана как доказательство концепции компьютерными учеными и иммиграционными юристами для оценки пригодности для Британское гражданство. Дизайнеры имели доступ к юридическим знаниям помимо конечных пользователей в иммиграционных офисах, чье понимание программного обеспечения и иммиграционного законодательства, вероятно, было бы простым. Агенты, отвечающие за вопросы, полностью полагались на программное обеспечение, которое исключало альтернативные пути к гражданству, и использовали программное обеспечение даже после того, как новое прецедентное право и юридические интерпретации привели к тому, что алгоритм устарел. В результате разработки алгоритма для пользователей,которые, как обычно, разбираются в иммиграционном законодательстве, алгоритмы программного обеспечения не более широким критерием используют кандидатов, которые соответствуют очень узкому набору юридических критериев, алгоритмом, а не более широким критерием. иммиграционного законодательства Великобритании.

Петли обратной связи

Возникающая предвзятость может также создать петлю обратной связи или рекурсию, если данные, собранные для алгоритма, приводят к реальным ответам, которые возвращаются в алгоритм. Например, моделирование прогнозирующей программы полицейской деятельности (PredPol), развернутого в Окленде, Калифорния, на основе данных о преступности, сообщаемой общественностью, предположить увеличение присутствия полиции в чернокожих районах. Моделирование показало, что общественность сообщала о преступлении, проявлении на виде полицейских машин независимо от того, что делала полиция. Симуляция интерпретировала наблюдения полицейских машин при моделировании своих прогнозов преступности и, в свою очередь, указала на еще большее увеличение присутствия полиции в этих районах. Группа анализа данных по правам человека, которая провела моделирование, предупредила, что в местах, где расовая дискриминация является факторами уязвимости, такие петли обратной связи усилить и увековечить расовую дискриминацию в полицейской деятельности.

Рекомендующий такие системы, как те, которые используются для рекомендаций онлайн-видео или новостных статей, могут создавать петли обратной связи. Когда нажимают на контент, предложенный алгоритмами, это влияет на следующий набор предложений. Со временем это может привести к тому, что попадут в пузырь фильтра.

Влияние

Коммерческое влияние

Корпоративные алгоритмы могут быть искаженным, чтобы незримо отдавать предпочтение финансовым договоренностям или соглашениям между компаниями, без ведома пользователя, который может ошибочно принять алгоритм за беспристрастность. Например, American Airlines разработала алгоритм поиска рейсов в 1980-х годах. Программа различных авиакомпаний, учитывала факторы, которые увеличивают количество полетов независимо от цены или удобства. В свидетельских показаниях на Конгрессе США президент авиакомпании США прямо сейчас система создана с намерением получить конкурентное преимущество за счет преференциального режима.

В статье 1998 года, описывающей Google, основатели компании приняли политику прозрачности результатов поиска в платном размещении, утвержддая, что «поисковые, финансируемые за счет рекламы, будут по своей природе предвзято относиться к рекламодателям, а не к потребителям потребителей ». Это предубеждение было бы «невидимым» манипулированием пользователя.

Поведение при голосовании

Серия исследований, посвященных неопределившимся избирателям в США и Индии, показала, что результаты систем могут изменить голосование результатов примерно на 20%. Исследователи пришли к выводу, что кандидаты «не имеют возможности конкурировать», если алгоритм намеренно или без намерения увеличивает количество просмотров для конкурирующего кандидата. Пользователи Facebook, которые видели сообщениями, связанными с голосами, голосовали с большей вероятностью. В 2010 году рандомизированном исследовании пользователей Facebook было выявлено 20% -ное увеличение (340 000) среди пользователей, которые использовали сообщения к голосованию, изображения своих проголосовавших друзей. Ученый-правовед Джонатан Зиттрейн предупредил, что это может создать эффект «цифровой подделки» на выборах, «выборочное представление информации посредником для выполнения своей задачи дня, а не для обслуживания пользователей», в случае преднамеренных манипуляций

Дискриминация по признаку пола

В 2016 году был обнаружен профессиональный сетевой сайт LinkedIn, который рекомендует мужские варианты женских имен в ответ на поисковые запросы. Сайт не давал подобных по поиску мужских имен. Например, «Андреа» вызовет подсказку, спрашивающую, имели ли пользователи в виду «Эндрю», но запросы «Эндрю» не спрашивали, хотели ли пользователи найти «Андреа». Компания заявила, что это результат анализа взаимодействия пользователей с сайтом.

В 2012 году франшиза универмага Target использовалась для сбора данных, позволяющих сделать вывод, когда покупатели-женщины были в этом году, даже если они не объявили эту информацию с помощью связанных по маркетингу. Данные временных данных были предсказаны.

Алгоритмы веб-поиска также обвинялись в предвзятости. Результаты Google может приоритеты порнографического содержания в поисковых терминов, связанных с сексуальностью, например, «лесбиянка». Это предубеждение распространяется и на поисковую, показывающую популярный, но сексуализированный контент в системе поисковых запросов. Например, статьи «25 самых сексуальных спортсменок» профессионально на первой странице при поиске по запросу «спортсменки». В 2017 году, Google регулировать эти результаты наряду с другими, которые всплыли группы ненависти, вид расистский, жестокое обращение с детьми и порнография, а также другими расстроить и оскорбительное содержание. Другие примеры включают отображение более высокооплачиваемой работы для кандидатов-мужчин на сайтах поиска работы. Исследователи также установили, что машинный перевод демонстрирует сильную тенденцию к мужским дефолтам. В частности, это присутствует в областях, связанных с несбалансированным гендерным распределением, включая STEM профессии. Фактически, обратное системы машинного перевода..

В 2018 году Amazon.com отключил разработанную им систему для проверки заявлений о приеме на работу, когда они поняли, что это было предвзято относится к женщине. В сервисах потоковой передачи музыки происходило то же самое. В 2019 году Spotify было обнаружено, что его алгоритм рекомендательной системы был предвзятым против женщин-художников.

Расовая и этническая дискриминация

Алгоритмы критиковались как метод скрытия расовых предрассудков при принятии решений. Из-за того, как в прошлом обращались с определенными расами и этническими группами, данные часто содержат скрытые предубеждения. Например, чернокожие люди могут получить более длительные сроки, чем белые люди, совершившие то же преступление. Это может означать, что система усиливает исходные искажения данных.

В 2015 году Google извинился, когда чернокожие пользователи зарегистрировались на то, что идентификационный алгоритм изображений в приложении «Фото» идентифицировал их как горилл. В 2010 году камеры Nikon подверглись критике, когда алгоритмы распознавания изображений постоянно спрашивали азиатских пользователей, моргают ли они. Таким примером являются систематической ошибки в наборах биометрических данных. Биометрические данные извлекаются из подозреваемых лиц, ожидаемые или предполагаемые расовые особенности, которые могут быть перенесены в точки данных. Технология распознавания речи может иметь разную точность в зависимости от акцента пользователя. Это может быть явано отсутствием данных по обучению говорящих с таким акцентом.

Биометрические данные о расе также могут быть предположены, а не наблюдаться. Например, исследование 2012 года показало, что имена, обычно связанные с чернокожими, с большей вероятностью результатов поиска, подразумевающие записи об арестах независимо от того, есть ли какие-либо полицейские записи на имя этого человека.

В 2019 году исследование показало что алгоритм здравоохранения, продаваемый Optum, отдавал предпочтение белым пациентом над более больными чернокожими пациентами. Алгоритм предсказывает, во сколько пациенты будут стоить системе здравоохранения в будущем. Согласно данным, полученным при оценке числа пациентов с такими же рисками будущих проблем со здоровьем, прогнозируется число пациентов с такими же хроническими рисками, как медицинские пациенты., как и черных. пациенты, которые пострадали от значительно большего числа заболеваний.

Исследование, проведенное исследователями из Калифорнийского университета в Беркли в ноябре 2019 года, показало, что ипотечные алгоритмы дискриминационные по отношению к латиноцам и афроамериканцам, которые дискриминировали меньшинства по признаку «кредитоспособности», которые коренится в закон США о справедливом кредитовании, который позволяет кредиторам использовать средства идентификации того, достойно ли лицо получение ссуд. Эти алгоритмы присутствуют в компании FinTech и, как было показано, дискриминируют меньшинства.

Правоохранительные органы и судебные разбирательства

Алгоритмы уже имеют множество применений в правовых системах. Примером этого является КОМПАС, коммерческая программа, широко используемая США. суды для оценки вероятности того, что ответчик станет рецидивистом. ProPublica утверждает, что средний уровень риска рецидивизма, установленный КОМПАС для чернокожих обвиняемых, значительно выше, чем средний уровень, установленный КОМПАС для белых обвиняемых.

Одним из примеров использования является При оценке риска в приговорах к уголовным преступлениям в США и слушания по условно-досрочному освобождению судьям была представлена Алгоритмически сгенерированная оценка, предназначенная для отражения риска повторения заключенного преступления. В течение периода времени, начиная с 1920 года и заканчивая 1970, национальность отца преступника учитывалась в этих оценках риска. Сегодня эти оценки делятся с судьями в Аризоне, Колорадо, Делавэре, Кентукки, Луизиане, Оклахоме, Вирджинии, Вашингтоне и Висконсине. Независимое расследование, проведенное ProPublica, обнаружено, что оценки были неточными в 80% случаев и непропорционально искажены, что предположить, что чернокожие подвержены риску рецидива, на 77% чаще, чем белые.

Один. В исследовании, посвященном изучению «Риск, раса и рецидивизм: предвзятость в прогнозировании и несопоставимое влияние», утверждается двойная (45% против 23%). Неблагоприятная высокая вероятность, что обвиняемые из числа чернокожих и обвиняемых европеоидной расы будут ошибочно классифицированы как представляющие более высокий риск, несмотря на объективно оставались без каких-либо документально подтвержденных рецидивов в двухлетнем периоде наблюдения.

Разжигание ненависти в Интернете

В 2017 году был алгоритм Facebook, предназначенный для удаления языка вражды в Интернете Согласно внутренним документам Facebook, чтобы получить преимущество белых мужчин над черными детьми для полезного контента. Алгоритм, представляет собой комбинацию компьютерных программ и рецензентов контента, был создан для защиты широких категорий, а не конкретных подмножеств категорий. Например, сообщения, осуждающие «мусульман», будут заблокированы, а сообщения, осуждающие «радикальных мусульман», будут разрешены. Неожиданным результатом алгоритма является разрешение языка вражды в отношении чернокожих детей, поскольку они осуждают подмножество чернокожих «детей», а не «всех черных», тогда как «все белые люди» инициируют блокировку, поскольку белые и мужчины не считается подмножеством. Также было обнаружено, что Facebook позволяет покупателям рекламы нацеливать на «ненавистников евреев» как категорию пользователей, что, по словам компании, было непреднамеренным результатом алгоритмов, используемых для оценки и категоризации данных. Дизайн компании также позволял покупателям рекламы блокировать афроамериканцев от просмотра рекламы жилья.

Хотя для отслеживания и блокирования разжигания ненависти используются алгоритмы, некоторые из них в 1,5 раза чаще отмечают информацию, размещенную чернокожими пользователями. и в 2,2 раза больше шансов отметить информацию как разжигающую ненависть, если она написана на Ebonics. Без контекста для оскорблений и эпитетов, даже когда они использовались сообществами, которые переназначили их, были помечены.

Наблюдение

Программное обеспечение камеры наблюдения может считаться политическим по своей сути, поскольку оно требует алгоритмов для распознавания нормальных от ненормального поведения и для определения того, кто принадлежит в определенное место в определенное время. Было показано, что способность таких алгоритмов распознавать лица разных расовых групп ограничена расовым разнообразием изображений в их обучающей базе данных; если большинство фотографий принадлежит к одной расе или полу, программа лучше распознает других представителей этой расы или пола. Однако даже аудит этих систем распознавания изображений является этически сложным, и некоторые ученые предположили, что контекст технологии всегда будет иметь непропорциональное влияние на сообщества, действия которых чрезмерно контролируются. Например, в 2002 году анализ программного обеспечения, используемого для идентификации лиц на изображениях CCTV, выявил несколько примеров предвзятости при работе с криминальными базами данных. Было оценено, что программа выявляет мужчин чаще, чем женщин, пожилых людей - чаще, чем молодых, и выявляет азиатов, афроамериканцев и представителей других рас чаще, чем белых. Дополнительные исследования программного обеспечения для распознавания лиц показали, что при обучении на не криминальных базах данных верно обратное: программа наименее точна в определении темнокожих женщин.

Сексуальная дискриминация

В В 2011 году пользователи приложения для общения геев Grindr сообщили, что алгоритм рекомендаций магазина Android store связывает Grindr с приложениями, предназначенными для поиска сексуальных преступников, которые, по мнению критиков, неточно связывают гомосексуализм с педофилией. Писатель Майк Ананни раскритиковал эту ассоциацию в The Atlantic, утверждая, что такие ассоциации еще больше стигматизируют геев. В 2009 году интернет-магазин Amazon исключил из списка 57 000 книг после изменения алгоритма, расширив свой черный список «контента для взрослых», включив в него любые книги, посвященные сексуальности или гей-тематике, например, получивший признание критиков роман Горбатая гора.

В 2019 году было обнаружено, что в Facebook поиск «фотографий моих подруг» давал подсказки типа «в бикини» или «на пляже». Напротив, поиск по запросу «фотографии моих друзей-мужчин» не дал результатов.

Было замечено, что технология распознавания лиц вызывает проблемы у трансгендеров. В 2018 году поступали сообщения о том, что водители Uber, которые были трансгендерами или перешли на другую сторону, испытывали трудности с программным обеспечением для распознавания лиц, которое Uber реализует в качестве встроенной меры безопасности. В результате этого некоторые учетные записи водителей-транснациональных водителей были заблокированы, что стоило им платы за проезд и потенциально стоило им работы, все из-за того, что программное обеспечение для распознавания лиц испытывало трудности с распознаванием лица транс-водителя, который выполнял переход. Хотя решение этой проблемы может заключаться в включении трансгендеров в обучающие наборы для моделей машинного обучения, экземпляр транс-видео на YouTube, которые были собраны для использования в обучающих данных, не получил согласия трансгендерных лиц, включенных в видео., что создало проблему нарушения

В Стэнфордском университете в 2017 году было проведено исследование, в котором тестировались алгоритмы в системе машинного обучения, которая, как утверждается, способна определять сексуальную ориентацию людей на основе изображений их лиц. Модель в исследовании предсказывала правильное различие между геями и гетеросексуалами в 81% случаев и правильное различие между геями и гетеросексуалами в 74% случаев. Это исследование вызвало негативную реакцию со стороны сообщества LGBTQIA, которое может иметь негативные последствия, которые эта система искусственного интеллекта может иметь для лиц из сообщества LGBTQIA, подвергая людей риску быть «выдворенным» против их воли.

Поиск в Google

Хотя пользователи генерируют результаты, которые "заполняются" автоматически, Google не удалось удалить сексистский и расистский текст автозаполнения. Например, Алгоритмы Угнетение: Как поисковые системы Усилить Расизм Сафия Noble отмечает пример поиска «черных девочек», который был представлен в результате порнографических изображений. Google заявил, что не может удалить эти объявления, если они не будут объявлены незаконными.

Препятствия для исследования

Некоторые проблемы препятствуют изучению крупномасштабных алгоритмических предвзятостей, препятствиям применения академически строгих исследований и общественного понимания.

Определение справедливости

Литература по алгоритмической предвзятости сосредоточена на исправлении справедливости, но определения справедливости несовместимы друг с другом и с реалиями оптимизации машинного обучения. Например, определение справедливости как «равенство результатов» может просто относиться к системе, определяющей один и тот же результат для всех людей, в то время, как справедливость, рассчитываемая как «равенство результатов». В результате справедливость иногда описывается как противоречащая точность моделей, предполагаемая врожденная напряженность между приоритетами социальных и приоритетами поставщиков системы. В ответ на это противоречие исследователи предложили более внимательно подходить к разработке и использованию систем, основанных на предвзятых алгоритмах, с определением «справедливости» для конкретных приложений и контекстов.

Сложность

Алгоритмический подход. процессы сложны, часто превышают понимание людей, которые их используют. Крупномасштабные операции могут быть непонятны даже тем, кто их создает. Методы и процессы современных программ неясны из-за невозможности узнать каждую перестановку ввода или вывода кода. Социолог Бруно Латур определил этот процесс как черный ящик, процесс, в котором «научная и техническая работа становится невидимой из-за ее собственного успеха. Когда машина работает эффективно, когда вопрос установлен, нужно сосредоточиться только на его входах и выходах, а не на его внутренней сложности. Таким образом, как это ни парадоксально, чем больше преуспевают наука и технология, тем более непрозрачными и неясными они становятся ». Другие критиковали метафору черного ящика, предполагая, что текущие алгоритмы - это не один черный ящик, а сеть взаимосвязанных.

Пример этой сложности можно найти в диапазоне входных данных для настройки обратной связи. Сайт социальной сети Facebook учел по крайней мере 100 000 точек данных для определения макета ленты социальных сетей пользователя в 2013 году. Кроме того, большие команды программистов могут работать относительно изолированно друг от друга и не осознавать совокупный эффект небольших решений. в рамках связанных сложных алгоритмов. Не весь код является оригинальным и может быть заимствован из других библиотек, создавая сложный набор взаимосвязей между системами обработки и ввода данных.

Дополнительная сложность возникает за счет машинного обучения и персонализации алгоритмы, основанные на взаимодействиях пользователей, таких как клики, время, проведенное на сайте, и другие показатели. Эти личные настройки могут сбить с толку общие попытки понять алгоритмы. Одна неопознанная служба потокового радио сообщила, что использовала пять уникальных алгоритмов выбора музыки, которые выбрала для своих пользователей в зависимости от их поведения. Это создает различный опыт использования одних и тех же потоковых сервисов между разными пользователями, что затрудняет понимание того, что делают эти алгоритмы. Компании также часто проводят A / B-тесты для точной настройки алгоритмов на основе реакции пользователя. Например, поисковая система Bing может запускать до десяти миллионов тонких вариаций своего сервиса в день, создавая различный опыт использования сервиса для каждого пользователя и / или пользователя.

Отсутствие прозрачности

Коммерческие алгоритмы являются собственностью и могут рассматриваться как коммерческая тайна. Отношение к алгоритмам как к коммерческой тайне защищает компании, такие как поисковые системы, где прозрачный алгоритм может раскрыть тактику манипулирования рейтингом в поисковой сети. Это затрудняет для исследователей проведение интервью или анализ, чтобы выяснить, как работают алгоритмы. Критики предполагают, что такая секретность может также скрыть возможные неэтичные методы, используемые при производстве или обработке алгоритмических результатов. Другие критики, такие как адвокат и активист Катаржина Шимелевич, предположили, что отсутствие прозрачности часто маскируется из-за алгоритмической сложности, ограждающей компании от раскрытия или расследования собственных алгоритмических процессов.

Отсутствие данных о конфиденциальных данных. категории

Существенным препятствием для понимания того, как бороться с предвзятостью на практике, является то, что такие категории, как демографические данные лиц, защищенных антидискриминационным законом, часто явно не учитываются при сборе и обработке данных. В некоторых случаях существует небольшая возможность собирать эти данные в явном виде, например, в идентификационных данных устройства, повсеместных вычислений и Интернета вещей. В других случаях контролер данных может не захотеть собирать такие данные из соображений репутации или потому, что это представляет повышенную ответственность и риск для безопасности. Также может случиться так, что, по крайней мере, в отношении Общего регламента по защите данных Европейского Союза, такие данные подпадают под положения `` особой категории '' (статья 9) и, следовательно, имеют больше ограничений для потенциальных сбор и обработка.

Некоторые практикующие специалисты пытались оценить и вменять эти недостающие чувствительные категории, чтобы позволить смягчить предвзятость, например, построив системы для определения этнической принадлежности по именам, однако это может привести к другим формам предвзятости, если не будет предпринято с осторожностью. Исследователи машинного обучения использовали криптографические технологии повышения конфиденциальности, такие как безопасное многостороннее вычисление, чтобы предложить методы, с помощью которых можно оценить или смягчить алгоритмическую погрешность без того, чтобы эти данные когда-либо были доступны разработчикам моделей в Открытый текст.

Алгоритмическая предвзятость не только включает защищенные категории, но также может касаться характеристик, которые менее легко наблюдаемы или кодифицируемы, например, политические точки зрения. В этих случаях редко бывает легко доступная или не вызывающая споров основополагающая истина, и устранить предвзятость такой системы труднее. Кроме того, ложные и случайные корреляции могут возникать из-за недостаточного понимания защищаемых категорий, например, страховых тарифов, основанных на исторических данных об автомобильных авариях, которые могут совпадать, строго по совпадению, с жилыми кластерами этнических меньшинств.

Решения

Исследование 84 руководящих принципов в отношении этического ИИ показало, что справедливость и «уменьшение нежелательной предвзятости» были общей проблемой и решались с помощью сочетания технических решений и прозрачности и мониторинг, право на исправление и усиление надзора, а также усилия по разнообразию и вовлечению.

Технические аспекты

Было предпринято несколько попыток создать методы и инструменты, которые могут обнаруживать и наблюдать ошибки в алгоритме. Эти новые поля сосредоточены на инструментах, которые обычно применяются к (обучающим) данным, используемым программой, а не к внутренним процессам алгоритма. Эти методы могут также анализировать выходные данные программы и ее полезность и, следовательно, могут включать анализ ее матрицы ошибок (или таблицы ошибок). Объясняемый ИИ для обнаружения алгоритма Смещение - это предлагаемый способ обнаружения существования предвзятость в алгоритме или модели обучения.

В настоящее время разрабатывается новый стандарт IEEE, целью которого является определение методологий, которые помогут создателям алгоритмов устранить проблемы предвзятости и сформулировать прозрачность (т.е. или конечных пользователей ) о функциях и возможных эффектах их алгоритмов. Проект был одобрен в феврале 2017 года и спонсируется Комитетом по стандартам программного обеспечения и системной инженерии, комитетом, учрежденным IEEE Computer Society. Ожидается, что проект стандарта будет представлен на голосование в июне 2019 года.

Прозрачность и мониторинг

Руководящие принципы этики ИИ указывают на необходимость подотчетности и рекомендуют предпринять шаги для улучшения интерпретируемость результатов. Такие решения включают учет «права на понимание» в алгоритмах машинного обучения и сопротивление развертыванию машинного обучения в ситуациях, когда решения невозможно объяснить или проанализировать. С этой целью движение за «Объяснимый ИИ » уже осуществляется в таких организациях, как DARPA, по причинам, выходящим за рамки компенсации предвзятости. Price Waterhouse Coopers, например, также предполагает, что мониторинг результатов означает проектирование систем таким образом, чтобы гарантировать, что отдельные компоненты системы могут быть изолированы и отключены, если они искажают результаты.

Право на исправление

С точки зрения регулирования, призывы к применению системы прав человека для устранения вреда, вызванного алгоритмической предвзятостью. Это включает законодательное закрепление требований должной осмотрительности от имени разработчиков этих алгоритмов и создание подотчетности, когда частные субъекты не могут защитить общественные интересы, с учетом того, что такие права могут быть скрыты сложностью определения ответственности в сети сложных, взаимосвязанных процессов. Другие предполагают необходимость четких механизмов страхования ответственности.

Разнообразие и инклюзивность

На фоне опасений по поводу того, что проектирование систем искусственного интеллекта в первую очередь является прерогативой белых инженеров-мужчин, ряд ученых предположили, что алгоритмическую предвзятость можно свести к минимуму, расширив ряды разработчиков систем ИИ. Например, женщины составляют всего 12% инженеров по машинному обучению, а черные лидеры в области ИИ указывают на «кризис разнообразия» в этой области. Критика простых усилий по инклюзивности предполагает, что программы разнообразия не могут решить проблему перекрывающихся форм неравенства, и призвали к применению более осознанной точки зрения пересечения при разработке алгоритмов. Исследователи из Кембриджского университета утверждали, что решению проблемы расового разнообразия препятствует «белизна» культуры ИИ.

Положение

Европа

Общее Постановление о защите данных (GDPR), пересмотренный режим защиты данных Европейского Союза, который был внедрен в 2018 году, касается «Автоматизированного принятия индивидуальных решений, включая профилирование» в статье 22. Эти правила запрещают » исключительно «автоматизированные решения, которые имеют« значительный »или« юридический »эффект для человека, если только они не разрешены явным образом согласием, договором или законом государства-члена. Там, где они разрешены, должны быть предусмотрены гарантии, такие как право на человек в курсе и необязательное право на объяснение принятых решений.. Хотя эти правила обычно считаются новыми, практически идентичные положения существуют в Европе с 1995 года в статье 15 Директивы о защите данных. Первоначальные автоматизированные правила принятия решений и меры безопасности, используемые во французском законодательстве с конца 1970-х годов.

GDPR рассматривает алгоритмическую предвзятость в системах профилирования, а также статистические подходы, которые можно исправить, непосредственно в recital 71, отмечая, что

... контролер должен использовать соответствующие математические или статистические процедуры для профилирования, принимать соответствующие технические и организационные меры... которые предотвращают, среди прочего, дискриминационное воздействие на физических лиц по признаку расы или этническое происхождение, политические взгляды, религия или убеждения, членство в профсоюзах, генетическое состояние или состояние здоровья или сексуальная ориентация, или которые приводят к мерам, имеющим такой эффект.

Например, необязательное право на объяснение в рассказе 71 проблема заключается в необязательном характере концертов. Хотя это было рассмотрено как требование Рабочей группой Статьи 29, которая давала рекомендации по применению закона о защите данных, его практические аспекты неясны. Утверждалось, что оценка воздействия на защиту данных для профилирования данных с высоким риском (наряду с другими превентивными мерами в рамках защиты данных) может быть лучшим способом решения проблем алгоритмической дискриминации, поскольку она ограничивает действия тех, кто развертывает алгоритмы, а не требование к потребителям подавать жалобы или запрашивать изменения.

Соединенные Штаты

В Соединенных Штатах нет общего законодательства, регулирующего алгоритмическую предвзятость, решение проблемы с помощью различных государственных и федеральных законов, которые могут варьироваться в зависимости от отрасли, сектора, и как используется алгоритм. Многие политики осуществляются самостоятельно или контролируются Федеральной торговой комиссией. В 2016 году администрация Обамы выпустила документ, который должен был направить политиков к критической оценке алгоритмов. Исследователям рекомендовалось «спроектировать эти системы так, чтобы их действия и принятие решений были прозрачными и легко интерпретируемыми людьми, и, таким образом, их можно было исследовать на предмет наличия в них предвзятости, а не просто изучать и повторять эти предубеждения». Задуманный только в качестве руководства, отчет не создал никаких юридических прецедентов.

В 2017 году город Нью-Йорк принял первый законопроект об алгоритмической ответственности в США. Законопроект, вступивший в силу 1 января 2018 г., требовал «создания целевой группы, которая будет предоставлять рекомендации о том, как информация об автоматизированных системах принятия решений агентства может быть передана общественности, и как агентства могут реагировать на случаи, когда людям причиняют вред. агентства автоматизированных систем принятия решений ". Целевая группа должна представить выводы и рекомендации для дальнейших регулирующих действий в 2019 году.

Индия

31 июля 2018 года был представлен проект закона о персональных данных. В проекте предлагаются стандарты хранения, обработки и передачи данных. Хотя в нем не используется термин «алгоритм», в нем предусмотрены положения о «... ущербе в результате любой обработки или любого вида обработки, предпринятой фидуциаром». Он определяет «любой отказ или отказ в предоставлении услуги, выгоды или товара в результате оценочного решения в отношении субъекта данных» или «любое дискриминационное обращение» как источник вреда, который может возникнуть в результате ненадлежащего использования данных. Он также содержит специальные положения для людей с «статусом интерсексуалов».

Дополнительная литература

Баер, Тобиас (2019). Понимание, управление и предотвращение алгоритмической предвзятости: руководство для бизнес-пользователей и данных Ученые. Нью-Йорк: Apress. ISBN 9781484248843.
Нобл, Сафия Умоджа (2018). Алгоритмы подавления: как поисковые системы усиливают расизм. Нью-Йорк : New York University Press. ISBN 9781479837243.
Справедливость (машинное обучение)

Ссылки