reCAPTCHA - reCAPTCHA

редактировать

Реализация CAPTCHA, принадлежащая Google

reCAPTCHA

Первоначальный автор (авторы)	Луис фон Ан Бен Маурер Колин МакМиллен Харшад Бхуджбал Мануэль Блюм
Разработчик (и)	Google
Первый выпуск	27 мая 2007 г.; 13 лет назад (2007-05-27)
Тип	Классическая версия: CAPTCHA. Новая версия: флажок
Веб-сайт	www.google.com / recaptcha

reCAPTCHA - это система CAPTCHA, то есть система, которая позволяет веб-хостам различать человеческий и автоматический доступ к веб-сайтам. В исходной версии пользователям предлагалось расшифровать трудно читаемый текст или сопоставить изображения. Версия 2 также просила пользователей расшифровать текст или сопоставить изображения, если анализ файлов cookie и рендеринг холста предполагал, что страница загружается автоматически. Начиная с версии 3, reCAPTCHA никогда не прерывает работу пользователей и предназначена для автоматического запуска, когда пользователи загружают страницы или нажимают кнопки. reCAPTCHA принадлежит Google.

Первоначальной версией сервиса была платформа для массового сотрудничества, разработанная для оцифровки книг, особенно тех, которые были слишком неразборчивыми для сканирования компьютерами. В запросах проверки использовались пары слов из отсканированных страниц, при этом одно известное слово использовалось в качестве контроля для проверки, а второе использовалось для краудсорсинга чтения неопределенного слова. reCAPTCHA была первоначально разработана Луисом фон Ан, Дэвидом Абрахамом, Мануэлем Блюмом, Майклом Кроуфордом, Беном Маурером, Колином Макмилленом и Эдисоном Таном из главного Университета Карнеги-Меллона. Питтсбург кампус. Он был приобретен Google в сентябре 2009 года. Система помогла оцифровать архивы The New York Times и впоследствии использовалась Google Книги для аналогичных целей..

Сообщалось, что система ежедневно отображает более 100 миллионов CAPTCHA на таких сайтах, как Facebook, TicketMaster, Twitter, 4chan, CNN.com, StumbleUpon, Craigslist (с июня 2008 г.) и Национальное управление по телекоммуникациям и информации США <99 веб-сайт купонной программы конвертера цифрового ТВ (в рамках перехода на цифровое телевидение в США ).

В 2014 году Google отклонил эту услугу от ее первоначальной концепции, сосредоточив внимание на сокращении количества взаимодействия с пользователем, необходимого для проверки пользователя, и только представление проблем распознавания человека (например, идентификация изображений в наборе, которые удовлетворяют конкретному запросу), если поведенческий анализ подозревает, что пользователь может быть ботом. reCAPTCHA v1 была объявлена устаревшей на М arch 31, 2018.

Содержание

1 Источник
2 Операция
- 2.1 Без CAPTCHA reCAPTCHA
3 Реализация
4 Безопасность
5 Критика
- 5.1 Конфиденциальность
- 5.2 Доступность
- 5.3 Интерфейс
6 Производные проекты
7 Ссылки
8 Дополнительная литература
9 Внешние ссылки

Origin

Распределенные корректоры были первым проектом, который добровольно согласился расшифровать отсканированный текст, который не может быть прочитан программами оптического распознавания символов (OCR). Он работает с Project Gutenberg для оцифровки общедоступных материалов и использует методы, совершенно отличные от reCAPTCHA.

Программа reCAPTCHA была создана гватемальским ученым-компьютерщиком Луисом фон Ан, и ей помогала Товарищество Макартура. Будучи одним из первых разработчиков CAPTCHA, он понял, что «он невольно создал систему, которая растрачивала, с шагом в десять секунд, миллионы часов самого ценного ресурса: циклов человеческого мозга».

Операция

Пример того, как выглядела задача reCAPTCHA в 2007 году, содержащая слова «после обнаружения». Волнистость и горизонтальный штрих были добавлены, чтобы повысить сложность взлома CAPTCHA с помощью компьютерной программы.

Отсканированный текст подвергается анализу с помощью двух разных OCR. Любое слово, которое по-разному расшифровывается двумя программами OCR или которое отсутствует в английском словаре, помечается как «подозрительное» и преобразуется в CAPTCHA. Подозрительное слово отображается вне контекста, иногда вместе с уже известным контрольным словом. Если человек правильно набирает контрольное слово, то ответ на сомнительное слово считается вероятным. Если достаточное количество пользователей правильно набирают контрольное слово, но неправильно набирают второе слово, которое OCR не может распознать, тогда цифровая версия документов может в конечном итоге содержать неправильное слово. Идентификация, выполняемая каждой программой OCR, оценивается в 0,5 балла, а каждая интерпретация человеком получает полную оценку. Как только данный идентификатор набирает 2,5 балла, слово считается действительным. Те слова, которым судьи-люди постоянно придают единую идентичность, позже используются как контрольные. Если первые три предположения совпадают друг с другом, но не совпадают ни с одним из OCR, они считаются правильным ответом, и слово становится контрольным. Когда шесть пользователей отклоняют слово до того, как будет выбрано правильное написание, слово отбрасывается как нечитаемое.

Исходный метод reCAPTCHA был разработан, чтобы показывать сомнительные слова отдельно в качестве коррекции вне контекста, а не в использовать, например, во фразе из пяти слов исходного документа. Кроме того, контрольное слово может ввести в заблуждение контекст для второго слова, например, запрос «/ metal / / fife /» вводится как «metal file » из-за логической связи подачи с металлическим инструментом. считается более распространенным, чем музыкальный инструмент "fife ".

В 2012 году reCAPTCHA начала использовать фотографии, сделанные из проекта Google Street View, в дополнение к отсканированным словам.

Google взимает плату для использования reCAPTCHA те веб-сайты, которые делают более миллиона запросов reCAPTCHA в месяц.

Идентификация изображения CAPTCHA

Без CAPTCHA reCAPTCHA

NoCAPTCHA reCAPTCHA

В 2013 году reCAPTCHA начала внедрять поведенческий анализ взаимодействий браузера, чтобы предсказать, был ли пользователь человеком или ботом. В следующем году Google начал развертывать новый API reCAPTCHA с функцией «no CAPTCHA reCAPTCHA», где пользователям, которые, как считается, относятся к группе низкого риска, нужно только установите единственный флажок , чтобы подтвердить их личность. CAPTCHA может отображаться, если система не уверен в риске пользователя; Google также представил новый тип задачи CAPTCHA, предназначенный для большей доступности для мобильных пользователей, когда пользователь должен выбрать изображения, соответствующие конкретному запросу из сетки.

В 2017 году Google представил новую «невидимую» reCAPTCHA, где проверка происходит в фоновом режиме, и никакие проблемы не отображаются вообще, если считается, что пользователь имеет низкий риск. По словам бывшего «царя мошенничества с кликами» Google Шумана Гхосамаджумдера, эта возможность «создает новый вид проблемы, с которой могут справиться даже самые продвинутые боты, но вносит намного меньше трений для законного человека» <164.>

reCAPTCHA v1 была объявлена устаревшей и закрыта 31 марта 2018 г.

Реализация

Тесты reCAPTCHA отображаются с центрального сайта проекта reCAPTCHA, который поставляет слова для расшифровки. Это делается с помощью JavaScript API, когда сервер выполняет обратный вызов для reCAPTCHA после отправки запроса. Проект reCAPTCHA предоставляет библиотеки для различных языков программирования и приложений, чтобы упростить этот процесс. reCAPTCHA - это бесплатная услуга, предоставляемая веб-сайтам для помощи в расшифровке, но программное обеспечение reCAPTCHA не является открытым исходным кодом.

. Кроме того, reCAPTCHA предлагает плагины для нескольких платформ веб-приложений, включая ASP. NET, Ruby и PHP, чтобы упростить реализацию службы.

Безопасность

Пример того, как проблемы reCAPTCHA были представлены в 2010 году, содержащий слова «и долота»

Основная цель системы CAPTCHA - блокировать спам-боты, позволяя пользователям-людям. 14 декабря 2009 года Джонатан Уилкинс опубликовал документ, описывающий слабые места в reCAPTCHA, которые позволили ботам достичь скорости решения 18%.

1 августа 2010 года Чад Хаук провел презентацию на DEF. CON 18 Hacking Conference, подробно описывающая метод устранения искажения, добавляемого к изображениям, который позволял компьютерной программе определять допустимый ответ в 10% случаев. Система reCAPTCHA была изменена 21 июля 2010 г., перед тем как Хаук рассказал о своем методе. Хаук изменил свой метод на то, что он назвал «более простой» CAPTCHA, чтобы определять правильный ответ в 31,8% случаев. Хаук также упомянул средства защиты в системе, включая блокировку с высоким уровнем безопасности, если неверный ответ дается 32 раза подряд.

26 мая 2012 г. Адам, С.П. и Джеффболл из DC949 выступили с презентацией на на конференции хакеров LayerOne подробно рассказывалось, как им удалось создать автоматизированное решение с точностью 99,1%. Их тактика заключалась в использовании методов машинного обучения, подполя искусственного интеллекта, для анализа аудиоверсии reCAPTCHA, доступной для слабовидящих. Google выпустил новую версию reCAPTCHA за несколько часов до их выступления, внося серьезные изменения как в аудио, так и в визуальные версии своего сервиса. В этом выпуске продолжительность аудио-версии была увеличена с 8 до 30 секунд, и ее гораздо труднее понять как для людей, так и для ботов. В ответ на это и следующее обновление члены DC949 выпустили еще две версии Stiltwalker, которые превзошли reCAPTCHA с точностью 60,95% и 59,4% соответственно. После каждого следующего перерыва Google обновлял reCAPTCHA в течение нескольких дней. Согласно DC949, они часто возвращались к функциям, которые ранее были взломаны.

27 июня 2012 года Клаудиа Крус, Фернандо Учеда и Леобардо Рейес опубликовали документ, в котором показана система, работающая на изображениях reCAPTCHA с точностью 82%. Авторы не сказали, может ли их система обрабатывать недавние изображения reCAPTCHA, хотя они заявляют, что их работа является интеллектуальным OCR и устойчивой к некоторым, если не всем изменениям в базе данных изображений.

В презентации в августе 2012 года, представленной на BsidesLV 2012, DC949 назвал последнюю версию «невероятно невозможной для людей» - они также не смогли решить их вручную. В мае 2012 года организация веб-доступности WebAIM сообщила: «Более 90% респондентов [пользователей программ чтения с экрана] считают CAPTCHA очень или несколько сложной задачей».

Критика

Конфиденциальность

Первоначальная итерация reCAPTCHA подвергалась критике как источник неоплачиваемой работы для помощи в расшифровке усилий.

Текущая итерация системы подвергалась критике за то, что она полагалась на отслеживание файлы cookie и продвижение привязки к поставщику с помощью служб Google; администраторам рекомендуется включать код отслеживания reCAPTCHA на все страницы своего веб-сайта для анализа поведения и «риска» пользователей, который определяет уровень трений, возникающих при использовании запроса reCAPTCHA. Google заявил в своей политике конфиденциальности, что пользовательские данные, собранные таким образом, не используются для персонализированной рекламы. Также было обнаружено, что система отдает предпочтение тем, у кого есть активная учетная запись Google, и демонстрирует более высокий риск для тех, кто использует анонимизирующие прокси и службы VPN.

Некоторые люди были обеспокоены объявлением Google reCAPTCHA v3.0 о их конфиденциальности из-за уязвимости, с которой люди, просматривающие сайты с reCAPTCHA v2.0, сталкиваются с возможностью отслеживания их Google по всему сайту, поскольку теперь они будут иметь полный контроль.

В апреле 2020 года Cloudflare переключился с reCAPTCHA на, сославшись на опасения по поводу конфиденциальности в связи с потенциальным использованием Google данных, которые они вспоминают с помощью reCAPTCHA, для целевой рекламы и сокращения эксплуатационные расходы, поскольку значительная часть клиентов Cloudflare - бесплатные, не платящие деньги. В ответ Google сообщил журналу PC Magazine, что данные из reCAPTCHA никогда не используются в целях персонализированной рекламы.

Специальные возможности

В справочном центре Google указано, что reCAPTCHA не поддерживается для сообщества слепоглухих, эффективно блокируя таких пользователей от всех страниц, использующих сервис.

Интерфейс

В одном из вариантов задач CAPTCHA изображения не выделяются постепенно, а затемняются при активации и заменяются новым изображением, которое постепенно появляется, напоминая whack-a -mole.

Критика была направлена на длительное время, необходимое для того, чтобы изображения исчезали и появлялись.

Производные проекты

reCAPTCHA также создал проект Mailhide, который защищает электронную почту адреса на веб-страницах не были собраны спамерами. По умолчанию адрес электронной почты был преобразован в формат, который не позволял поисковому роботу видеть полный адрес электронной почты; например, [email#160;protected] был бы преобразован в mai... @ example.com. Затем посетитель нажимал на «...» и вводил CAPTCHA, чтобы получить полный адрес электронной почты. Также можно было отредактировать код всплывающего окна, чтобы адрес не был виден. Поддержка Mailhide была прекращена в 2018 году, поскольку он полагался на reCAPTCHA V1.

Ссылки

Дополнительная литература

Дзиеза, Джош (1 февраля 2019 г.). «Почему CAPTCHA стали такими сложными?». The Verge.
Шваб, Кэтрин (27 июня 2019 г.). "У новой reCAPTCHA от Google есть темная сторона". Fast Company.

Внешние ссылки

Викискладе есть материалы, связанные с ReCAPTCHA.

Официальный сайт
Репозиторий
ReCAPTCHA: Работа, о которой вы даже не подозревали Двухстраничная статья в Журнал «Морж»
Луис; Маурер, Бенджамин; Макмиллен, Колин; Авраам, Давид; Блюм, Мануэль (2008). «reCAPTCHA: распознавание персонажей с помощью средств веб-безопасности». Наука. 321 (5895): 1465–1468. CiteSeerX 10.1.1.141.6563. doi : 10.1126 / science.1160379. PMID 18703711.
Массовое онлайн-сотрудничество, выступление на TED от Луиса фон Ана