Wordfilter

редактировать

A wordfilter (иногда его называют просто «фильтр » или «цензор ") - это сценарий, который обычно используется на интернет-форумах или чатах, который автоматически сканирует сообщения или комментарии пользователей по мере их отправки и автоматически изменяет или подвергает цензуре определенные слова. или фразы.

Самые простые фильтры слов ищут только определенные строки букв и удаляют или перезаписывают их независимо от их контекста. Более продвинутые фильтры слов делают некоторые исключения для контекста (например, фильтруют «стык», но не «масло»), а наиболее продвинутые фильтры слов могут использовать регулярные выражения.

Содержание

  • 1 Функции
    • 1.1 Удаление вульгарного язык
    • 1.2 Контроль клише
    • 1.3 Контроль вандализма
    • 1.4 Фильтр хромоты
  • 2 Обходные фильтры
  • 3 Аспекты цензуры
  • 4 Ложные срабатывания
  • 5 Реализация
  • 6 См. также
  • 7 Ссылки
  • 8 Внешние ссылки

Функции

Фильтры слов могут выполнять любую из множества функций.

Удаление нецензурной лексики

Фильтр нецензурной лексики, также известный как фильтр ненормативной лексики или языковой фильтр, представляет собой программную подсистему, которая изменяет текст для удаления слов, которые администратор считает оскорбительными. или сообщество онлайн-форума. Фильтры ругательства распространены в настраиваемых чатах и онлайн-видеоиграх, в основном в MMORPG. Это не следует путать с фильтрацией содержимого, которая обычно встроена в программы просмотра Интернета сторонними разработчиками для фильтрации или блокировки определенных веб-сайтов или типов веб-сайтов. Фильтры ругательства обычно создаются или реализуются разработчиками интернет-сервиса.

Чаще всего фильтры слов используются для цензуры языка, который операторы форума или чата считают неприемлемым. ругательства обычно частично заменяются, полностью заменяются или заменяются бессмысленными словами. Это освобождает администраторов или модераторов от необходимости постоянно патрулировать доску в поисках такой лексики. Это также может помочь доске объявлений избежать установки программного обеспечения для управления контентом на компьютеры или сети пользователей, поскольку такое программное обеспечение часто блокирует доступ к веб-страницам, содержащим вульгарную лексику.

Отфильтрованные фразы могут быть навсегда заменены при сохранении (пример: phpBB 1.x), или исходная фраза может быть сохранена, но отображаться как цензурированный текст. В некоторых программах пользователи могут просматривать текст за фильтром слов, цитируя сообщение.

Фильтры ругательства обычно используют преимущества замены строк функций, встроенных в язык программирования, используемый для создания программы, для замены списка неподходящих слов и фраз с помощью множество альтернатив. Альтернативы могут включать:

  • grawlix бессмысленные символы, такие как! @ # $% ^ *
  • Замена определенной буквы символом числа сдвига или похожим на него.
  • Звездочки (* или #) либо установленной длины, либо длины исходного фильтруемого слова. Кроме того, в плакатах некоторые буквы часто заменяются звездочкой.
  • Обрезанные клятвы, такие как «черт возьми» или «черт», или придуманные слова, такие как «flum».
  • Семейные слова или фразы, или эвфемизмы, такие как «ЛЮБОВЬ» или «Я ЛЮБЛЮ ТЕБЯ», или совершенно разные слова, не имеющие ничего общего с исходным словом.
  • Удаление сообщения. В этом случае вся публикация блокируется, и обычно нет возможности исправить это.
  • Вообще ничего. В этом случае оскорбительное слово удаляется.

Некоторые фильтры ругательства выполняют простой поиск строки. У других есть меры, которые игнорируют пробел, а третьи доходят до игнорирования всех не- буквенно-цифровых символов с последующей фильтрацией простого текста. Это означает, что если слово «you» было настроено для фильтрации, «y o u» или «y.o! U» также будут отфильтрованы.

Контроль клише

Клише - определенные слова или фразы, постоянно повторно используемые в сообщениях, также известные как «мемы», - часто появляются на форумах. Некоторые пользователи считают, что эти клише добавляют удовольствия, но другие находят их утомительными, особенно при чрезмерном использовании. Администраторы могут настроить фильтр слов, чтобы заменить назойливое клише более смущающей фразой или полностью удалить его.

Контроль вандализма

Интернет-форумы иногда подвергаются нападениям со стороны вандалов, которые пытаются заполнить форум повторяющимися бессмысленными сообщениями, или со стороны спамеров, которые пытаются вставьте ссылки на их коммерческие веб-сайты. Фильтр слов сайта может быть настроен для удаления бессмысленного текста, используемого вандалами, или для удаления всех ссылок на определенные веб-сайты из сообщений.

Фильтр хромоты

Фильтры хромоты - это текстовые фильтры слов, используемые веб-сайтами с косой чертой (т. Е. текстовые доски и имиджборды ) для остановки хлам комментариев от публикации в ответ на статьи. Вот некоторые из вещей, которые они предназначены для фильтрации:

  • Слишком много заглавных букв
  • Слишком много повторений
  • ASCII art
  • Слишком короткие или длинные комментарии
  • Использование HTML-теги, которые пытаются взломать веб-страницы
  • Заголовки комментариев, состоящие исключительно из «первого сообщения»
  • Любое вхождение слова или термина, которое (программисты) сочтут оскорбительным / вульгарным

Обход фильтров

Поскольку фильтры слов автоматизированы и ищут только определенные последовательности из символов, пользователи, осведомленные о фильтрах, иногда будут пытаться обойти их, изменив свои буквы ровно настолько, чтобы избежать фильтров. Пользователь, пытающийся избежать фильтра вульгарности, может заменить один из символов в оскорбительном слове звездочкой, тире или чем-то подобным. Некоторые администраторы отвечают, пересматривая фильтры слов, чтобы уловить общие замены; другие могут сделать уклонение от фильтров в качестве наказуемого нарушения. Простым примером обхода фильтра слов может быть ввод символов между буквами или использование leet. Более продвинутые методы обхода словарного фильтра включают использование изображений с использованием скрытых тегов или кириллических символов (т. Е. Атака с подменой омографа ).

Другой способ - использовать мягкий дефис . Мягкий дефис используется только для обозначения того, где слово может быть разделено при разрыве текстовых строк, и не отображается. Помещая это наполовину в слове, слово разбивается и в некоторых случаях не распознается фильтром слов.

Некоторые более продвинутые фильтры, такие как фильтры в онлайн-игре RuneScape, могут обнаруживать обход. Однако обратная сторона чувствительных фильтров слов заключается в том, что отфильтровываются и правильные фразы.

Аспекты цензуры

Word-фильтры закодированы в интернет-форумах или чатах и ​​работают только с материалами, отправленными на соответствующий форум или чат. Это отличает фильтры слов от программного обеспечения для управления контентом, которое обычно устанавливается на ПК или компьютерной сети конечного пользователя и которое может фильтровать весь Интернет-контент, отправляемый на или с данного ПК или сети. Поскольку фильтры слов изменяют слова пользователя без его или ее согласия, некоторые пользователи по-прежнему считают их цензурой, в то время как другие считают их приемлемой частью права оператора форума контролировать содержание форума.

Ложные срабатывания

Распространенная проблема со словарными фильтрами, которую пользователи часто считают смешной или раздражающей, заключается в том, что они часто влияют на слова, которые не предназначены для фильтрации. Это типичная проблема при фильтрации коротких слов. Например, можно увидеть: «Вам нужен танец для исполнения классической музыки?» Несколько слов могут быть отфильтрованы, если пробелы игнорируются, в результате чего «как подозреваемые» становятся «использованными». Запрещение фразы, такой как «жестко», приведет к отфильтровыванию безобидных высказываний, таких как «Это было сложно!» и "Прости, что я был к тебе строг", на "Это было е!" и «Прости, что я был тобой».

Некоторые слова, которые были случайно отфильтрованы, могут стать заменой нецензурным словам. Один из примеров этого можно найти на форуме Mystcommunity Myst. Там слово «рукопись» было случайно подвергнуто цензуре за то, что оно содержало слово «анус», что привело к «m **** cript». Слово было принято в качестве замены ругательства и перенесено при перемещении форума, и многие заменители, такие как «сценарии», используются (хотя в основном старыми членами сообщества).

Названия мест могут быть непреднамеренно отфильтрованы из-за того, что они содержат части нецензурной лексики. В первые годы Интернета британское географическое название Penistone часто исключалось из фильтров спама и ругательств.

Реализация

Многие игры, такие как World of Warcraft, а в последнее время Habbo Hotel и RuneScape позволяют пользователю отключать фильтры. Другие игры, особенно бесплатные Многопользовательские онлайн-игры, такие как Knight Online, не имеют такой возможности.

Другие игры, такие как Medal of Honor и Call of Duty (кроме Call of Duty: World at War, Call of Duty: Black Ops, Call of Duty: Black Ops 2 и Call of Duty: Black Ops 3 ) не дают пользователям возможности отключить нецензурную лексику по сценарию, в то время как Gears of War делает.

Помимо игр, фильтры ненормативной лексики могут использоваться для модерации пользовательского контента на форумах, блогах, приложениях социальных сетей, детских сайтах и ​​обзорах продуктов. Существует множество API-интерфейсов фильтров ненормативной лексики, например WebPurify, которые помогают заменять нецензурные слова другими символами (например, «@ # $!»). Эти API-интерфейсы фильтров ненормативной лексики работают с методом поиска и замены ненормативной лексики.

См. Также

Ссылки

Внешние ссылки

  • Интернет Text Obfuscator - заменяет символы схожими символами Unicode из разных наборов символов (например, кириллица)
  • Текстовый фильтр - Текстовые инструменты в Интернете: алфавитная сортировка, удаление дубликатов, удаление всех не буквенно-цифровых символов, только цифр, букв и т. Д..

заменяет символы аналогичными символами Unicode из разных наборов символов (например, кириллица)

Последняя правка сделана 2021-06-21 03:32:07
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте