Викисловарь

редактировать

Бесплатный онлайн-словарь, который может редактировать каждый

Викисловарь
WiktionaryEn - DP Derivative.svg Логотип английского викисловаря
Снимок экрана English Wiktionary Main Page.png Главная страница Английский Викисловарь от 14 января 2019 г.
Тип сайтаОнлайн-словарь
Доступен наМногоязычный (152 активно)
ВладелецФонд Викимедиа
СозданоДжимми Уэльс и сообщество Викимедиа
URLвикисловарь.org
Alexa рейтингОтрицательное увеличение 758 (по всему миру, август 2020 г.)
КоммерческаяNo
РегистрацияДополнительно
Запущена12 декабря 2002 г.; 17 лет назад (12-12-2002)
Текущий статусактивный

Викисловарь - это многоязычный веб-проект для создания бесплатного содержание словарь терминов (включая слов, словосочетаний, пословиц, лингвистических реконструкций и т. д.) на всех естественных языках и на ряде искусственных языков. Эти записи могут содержать определения, изображения для иллюстраций, произношения, этимологии, интонации, примеры использования, цитаты, связанные термины и переводы слов на другие языки, среди прочего. Это через вики. Его имя - это портманто слов wiki и Dictionary. Он доступен на 171 языке и на простом английском. Как и его родственный проект Википедия, Викисловарь находится в ведении Фонда Викимедиа и написан совместно добровольцами, получившими название «Виксионарии». Его программное обеспечение вики, MediaWiki позволяет практически любому, у кого есть доступ к веб-сайту, создавать и редактировать записи.

Поскольку Викисловарь не ограничен пространством для печати, большинство языковых редакций Викисловаря содержат определения и переводы слов со многих языков, а некоторые редакции предлагают дополнительную информацию, обычно содержащуюся в тезаурусах.

Данные Викисловаря часто используется в различных задачах обработки естественного языка.

Содержание

  • 1 История и развитие
    • 1.1 Логотипы
  • 2 Точность
  • 3 Многоязычность
  • 4 Критический прием
  • 5 Викисловарь данные в обработке естественного языка
  • 6 См. также
  • 7 Примечания
  • 8 Ссылки
  • 9 Внешние ссылки

История и развитие

Викисловарь был запущен 12 декабря 2002 г. после предложение Дэниела Алстона и идея Ларри Сэнгера, соучредителя Википедии. 28 марта 2004 г. были созданы первые не английские викисловарии на французском и польском. С тех пор были запущены викисловари на многих других языках. Викисловарь размещался на временном доменном имени (wiktionary.wikipedia.org) до 1 мая 2004 года, когда он переключился на текущее доменное имя. По состоянию на ноябрь 2016 года в разных редакциях Викисловаря насчитывается более 25,9 миллиона записей. Самым крупным из языковых изданий является английский викисловарь с более чем 6,4 миллиона записей, за ним следует малагасийский викисловарь с более чем 6,1 миллиона статей, созданных ботами, и французский викисловарь с более чем 3,8 миллиона. В настоящее время сорок четыре языковых редакции Викисловаря содержат более 100 000 записей каждая.

Использование ботов для создания большого количества статей видно как «всплески роста» на этом графике количества статей в восьми крупнейших викисловарях. редакции. (Данные на декабрь 2009 г.)

Большинство статей и многие определения в крупнейших языковых редакциях проекта были созданы ботами, которые нашли творческие способы создания статей или (редко) автоматически импортировали тысячи записей из ранее опубликованных словарей. Семь из 18 ботов, зарегистрированных в английском Wiktionary, создали там 163 000 записей.

Другой из этих ботов, «ThirdPersBot», был ответственен за добавление нескольких сторонних лиц спряжения, которые не получили бы собственных записей в стандартных словарях; например, он определил «тление» как «простую настоящую форму тления в единственном числе от третьего лица». Из 648 970 определений, которые дает английский Викисловарь, содержится 501 171 английское слово, 217 850 являются «формой» определений такого рода. Это означает, что его охват английского языка немного меньше, чем у основных одноязычных печатных словарей. Оксфордский словарь английского языка, например, содержит 615 000 заглавных слов, в то время как Третий новый международный словарь Мерриам-Вебстера английского языка Unabridged содержит 475 000 словарных статей (со многими дополнительными заглавными словами). Существует подробная статистика, чтобы показать, сколько записей различных типов существует.

Английский Викисловарь не полагается на ботов в такой степени, как некоторые другие редакции. Викисловари французского и вьетнамского, например, импортировали большие разделы из проекта Free Vietnamese Dictionary Project (FVDP), который предоставляет бесплатные двуязычные словари на вьетнамском и обратно. Эти импортированные записи составляют практически все содержимое вьетнамского издания. Почти все статьи в малагасийском викисловаре на других языках, кроме малагасийского, были скопированы ботом из других викисловарь. Как и английское издание, французский Викисловарь импортировал примерно 20 000 записей из базы данных Unihan, содержащих китайские, японские и корейские символы. Французский викисловарь быстро рос в 2006 году во многом благодаря ботам, копирующим многие статьи из старых, свободно лицензируемых словарей, таких как восьмое издание Dictionnaire de l'Académie française (1935, около 35000 слов), и использование ботов для добавления слов из других изданий Викисловаря с французским переводом. Издание на русском увеличилось почти на 80 000 записей, так как "LXbot" добавил стандартные записи (с заголовками, но без определений) для слов на английском и немецком.

. По состоянию на декабрь 2019 года в en.wiktionary есть более 700 000 глянцевых определений и более 1 100 000 общих определений (включая различные формы) только для статей на английском языке, всего более 6 100 000 записей на всех языках.

Логотипы

Викисловарь исторически не хватало единого логотипа в его многочисленных языковых версиях. В некоторых изданиях используются логотипы, изображающие словарную статью о термине «Викисловарь», основанную на предыдущем логотипе английского Викисловаря, который был разработан Брионом Виббером, разработчиком MediaWiki. Поскольку чисто текстовый логотип должен значительно отличаться от языка к языку, четырехэтапный конкурс на принятие единого логотипа проводился на Wikimedia Meta-Wiki с сентября по октябрь 2006 года. Некоторые сообщества приняли победившую запись от Smurrayinchester, 3 × 3 сетка из деревянных плиток, каждая из которых имеет символы из другой системы письма. Однако в опросе не было такого большого участия сообщества викисловарь, как надеялись некоторые члены сообщества, и ряд крупных вики в конечном итоге сохранили свои текстовые логотипы.

В апреле 2009 года проблема была восстановлена ​​с помощью новый конкурс. На этот раз изображение "AAEngelman" открытого словаря в твердом переплете победило в очном голосовании против логотипа 2006 года, но процесс доработки и принятия нового логотипа затем застопорился. В последующие годы некоторые вики заменили свои текстовые логотипы одним из двух более новых логотипов. В 2012 году 55 вики, в которых использовался английский логотип Wiktionary, получили локализованные версии дизайна 2006 года от Smurrayinchester. В июле 2016 года английский Викисловарь принял вариант этого логотипа. По состоянию на 4 июля 2016 г. 135 вики, что составляет 61% записей Викисловаря, используют логотип, основанный на дизайне 2006 г., разработанном «Smurrayinchester», 33 вики (36%) используют текстовый логотип, а три вики (3%) используют логотип 2009 г. дизайн «AAEngelman».

Точность

Для обеспечения точности английский Викисловарь имеет политику, требующую заверения терминов. Термины на основных языках, таких как английский и китайский, должны быть подтверждены:

  1. явно широко распространенным использованием или
  2. использованием на постоянно записываемых носителях, передающих смысл, по крайней мере, в трех независимых случаях, охватывающих не менее года.

Для менее документированных языков, таких как крик, и вымерших языков, таких как латынь, одно использование на постоянно записанном носителе или одно упоминание в справочнике является достаточной проверкой.

Многоязычный

По состоянию на октябрь 2020 года викисловарии работают на 176 языках, из которых 152 являются активными, а 24 закрыты. На активных сайтах - 32 335 646 статей, на закрытых - 339 статей. Зарегистрировано 6076480 пользователей, из которых 4,941 недавно активны.

Десять лучших языковых проектов викислова по количеству статей в mainspace:

ЯзыкWikiХорошоВсегоРедактированиеАдминистраторыПользователиАктивные пользователиФайлы
1Английскийen 6,447,6307,229,59860,878,0201003,751,9411,77724
2малагасийскийmg 4,798,8134,900,91329,034,90129,111153
3Французскийfr 3,9110754,275,73528,678,96434292,4074706
4русскийru 1,090,6492,272,69011,551,78114247,538228334
5немецкийde 924,4091,060,0788,169,24718190,66421395
6сербохорватскийsh 911,563916,3951,469,10655,63963
7испанскийes 903,397956,1494,955,9898123,16211714
8китайскийzh 887,0461,385,6475,778,722691,1897136
9греческийel 796,670826,4814,873,715742,5206458
10голландскийnl 768,7451,047,3134,379,2011043,905857

Полный список с итогами см. В статистике Викимедиа:

Критический прием

Критический прием Викисловаря неоднозначен. В 2006 году Джилл Лепор написала в статье «Ноев ковчег» для The New Yorker,

В Викисловаре не поднимают руки. Нет даже редакции. «Будь своим собственным лексикографом!» - мог бы быть девиз Викисловаря. Кому нужны специалисты? Зачем платить хорошие деньги за словарь, написанный лексикографами, если мы могли бы составить его самостоятельно?.. Викисловарь не столько республиканский или демократический, сколько маоистский. И он настолько хорош, насколько хорош книги с истекшим сроком действия авторских прав, из которых он крадет.

Рецензия Кейра Граффа на Список книг была менее критичной:

Есть ли место для Викисловаря? Несомненно. Индустрия и энтузиазм ее многочисленных создателей доказывают, что рынок существует. И замечательно иметь еще один надежный источник, который можно использовать при поиске странных терминов, которые появляются в современном быстро меняющемся мире и онлайн-среде. Но, как и в случае с очень многими веб-источниками (включая этот столбец), его лучше всего использовать опытными пользователями в сочетании с более авторитетными источниками.

Ссылки в других публикациях мимолетны и являются частью более широких обсуждений Википедии, не выходящих за рамки определения, хотя Дэвид Брукс в The Nashua Telegraph охарактеризовал его как «дикий и пушистый». Одним из препятствий для независимого освещения Викисловаря является продолжающееся заблуждение, что это просто расширение Википедии. В 2005 году журнал PC Magazine оценил Викисловарь как один из «101 лучших веб-сайтов» в Интернете, хотя информации об этом сайте было мало.

Оценка правильности флексий для подмножества польских слов в английском Wiktionary показала, что эти грамматические данные очень стабильны. Только 131 из 4748 польских слов подверглись исправлению.

Данные викисловаря при обработке естественного языка

Викисловарь содержит полуструктурированные данные. Лексикографические данные викисловаря могут быть преобразованы в машиночитаемый формат для использования в задачах обработки естественного языка.

Интеллектуальный анализ данных викислова - сложная задача. Существуют следующие трудности:

    • (1) постоянные и частые изменения данных и схем
    • (2) неоднородность схем языковых редакций Викисловаря и
    • (3) человеческие центрический характер вики.

Существует несколько парсеров для разных языковых редакций Викисловаря:

  • Викисловарь DBpedia: подпроект DBpedia, данные извлечены из английского, Французские, немецкие и русские викисловари; данные включают язык, части речи, определения, семантические отношения и переводы. Для извлечения информации используются декларативное описание схемы страницы, регулярные выражения и преобразователь конечного состояния.
  • JWKTL (Java Wiktionary Library): обеспечивает доступ к Английский Викисловарь и Немецкий Викисловарь создают дампы через Java Wiktionary API. Данные включают язык, части речи, определения, цитаты, семантические отношения, этимологии и переводы. JWKTL распространяется под лицензией Apache License.
  • wikokit: синтаксический анализатор английского и русского викисловаря. Анализируемые данные включают язык, части речи, определения, цитаты, семантические отношения и переводы. Это мульти-лицензионное программное обеспечение с открытым исходным кодом.
  • Этимологические записи были проанализированы в проекте «Этимологические WordNet.

Примеры естественного языка обработка задач, которые были решены с помощью данных Wiktionary, включают:

  • машинный перевод на основе правил между голландским языком и африкаанс ; данные английского Викисловаря, голландского Викисловаря и Википедии использовались с платформой машинного перевода Apertium.
  • Создание машиночитаемого словаря парсером NULEX, который объединяет открытые лингвистические ресурсы: английский викисловарь, WordNet и VerbNet. Синтаксический анализатор NULEX очищает английский викисловарь на предмет напряженной информации (глаголы), формы множественного числа и частей речи (существительные).
  • Распознавание речи и синтез, где использовался викисловарь для автоматического создания словарей произношения. Пары слово-произношение были взяты из 6 языковых редакций Викисловаря (чешский, английский, французский, испанский, польский и немецкий). Произношение в терминах Международного фонетического алфавита. Система ASR, основанная на англоязычном Викисловаре, имеет самый высокий уровень ошибок в словах, где необходимо изменять каждую третью фонему.
  • Разработка онтологий и построение семантической сети.
  • Соответствие онтологии.
  • Упрощение текста. Медеро и Остендорф оценили словарную сложность (уровень чтения обнаружение) с помощью данных Wiktionary. Были исследованы свойства слов, извлеченных из статей Викисловаря (длина определения и POS, смысл и количество переводов). Медеро и Остендорф ожидали, что
    • (1) очень распространенные слова с большей вероятностью будут иметь несколько частей речи,
    • (2) общие слова с большей вероятностью будут иметь несколько значений,
    • (3) часто встречающиеся слова с большей вероятностью были переведены на несколько языков. Эти функции, извлеченные из статей Викисловаря, были полезны для различения типов слов, которые появляются в статьях Simple English Wikipedia, от слов, которые встречаются только в статьях, сопоставимых со стандартным английским языком.
  • Маркировка части речи. Ли и др. (2012) построили многоязычные POS-тегеры для восьми языков с ограниченными ресурсами на основе английского Wiktionary и скрытых марковских моделей.
  • анализа тональности.

См. Также

Notes

Ссылки

Особые
Общие

Внешние ссылки

Найдите Викисловарь в Викисловаре, бесплатном словаре.
Последняя правка сделана 2021-06-20 03:31:15
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте