Tatoeba

редактировать

Tatoeba
Главная страница проекта Tatoeba.png
Тип сайтаОткрыть совместное многоязычное " словарь предложений "
Доступен на25 языках интерфейса; контент на 301 языке (май 2016 г.)
ВладелецТранг Хо, Аллан Саймон
СозданоТранг Хо, Аллан Саймон
URLtatoeba.org
КоммерческийNo
РегистрацияНеобязательно
Запущен2006
Текущий статусОнлайн; beta
Лицензия на содержаниеCreative Commons Attribution 2.0

Tatoeba - это бесплатная совместная онлайн база данных примеров предложений, ориентированная на изучающих иностранный язык. Его название происходит от японского термина «татоеба» (例 え ば), что означает «например». В отличие от других онлайн-словарей, которые фокусируются на словах, Tatoeba фокусируется на переводе полных предложений. Кроме того, структура базы данных и интерфейса подчеркивает отношения «один ко многим». Мало того, что у предложения может быть несколько переводов на одном языке, но и его переводы на все языки легко видны, как и косвенные переводы, включающие цепочку поэтапных связей с одного языка на другой.

Содержание
  • 1 Цель проекта
  • 2 Контент
  • 3 История
  • 4 Интерфейс
  • 5 Структура базы данных
  • 6 Лицензия
  • 7 Гранты
  • 8 Использование
  • 9 Offline edition
  • 10 См. Также
  • 11 Ссылки
  • 12 Внешние ссылки
Цель проекта

Целью проекта Tatoeba является создание базы данных предложений и переводы, которые может использовать любой, кто разрабатывает приложение для изучения языков . Идея состоит в том, что проект создает данные, поэтому программисты могут просто сосредоточиться на кодировании приложения.

Данные, собранные в рамках проекта, находятся в свободном доступе по лицензии Creative Commons Attribution (CC-BY).

Содержание

По состоянию на июнь 2019 года в корпусе Tatoeba Corpus содержится более 7 500 000 предложений на 337 языках. 10 ведущих языков составляют 73% корпуса. Девяносто восемь из этих языков содержат более 1000 предложений. В каждом из 14 ведущих языков более 100 000 предложений.

Татоеба также является нынешним домом для Корпуса Танака, общедоступной серии из около 150 000 англо-японских пар предложений, составленных профессором Университета Хиого Ясухито Танакой, впервые выпущенной в 2001 году, и где она проходит последние изменения..

Статистика для всех языков находится на [1].

История

Татоеба была основана Транг Хо в 2006 году. Изначально она вела проект на Sourceforge в рамках проекта name "Multilangdict".

Интерфейс

Пользователи, даже незарегистрированные, могут искать слова на любом языке, чтобы находить предложения, в которых они используются. Каждое предложение в базе данных Tatoeba отображается рядом с его вероятным переводом на другие языки; прямые и косвенные переводы различаются. Предложения помечаются тегом для такого содержания, как тема, диалект или вульгарность ; у каждого из них также есть отдельные цепочки комментариев, чтобы облегчить обратную связь и исправления от других пользователей и культурных замечаний. По состоянию на начало 2016 года более 200 000 предложений на 19 языках имели звуковое чтение разного качества. Предложения также можно просматривать по языку, тегу или аудио.

Зарегистрированные пользователи могут добавлять новые предложения или переводить или корректировать существующие, даже если их целевой язык не является их родным языком. Однако предпочтительнее, чтобы пользователи переводили на свой родной или «самый сильный» язык и добавляли предложения со своего родного языка, а не переводили на свой целевой язык или добавляли с него.

Это означает, что корпус текста далеко не без ошибок каждый пользователь может переводить предложения, даже если они понятия не имеют об этом конкретном языке - из-за количества предложений невозможно проверить какое-либо предложение, правильно оно или нет. Более того, по состоянию на конец 2019 года не переведены даже условия использования сайта.

Переводы автоматически связываются с исходным предложением. Пользователи могут свободно редактировать свои предложения, «перенимать» и исправлять предложения без владельца, а также комментировать предложения других. Опытные участники, имеющие рейтинг выше обычных участников, могут помечать, связывать и отключать предложения. Сопровождающие корпуса, находящиеся в ранге выше опытных участников, могут снимать отметки и удалять предложения. Они также могут изменять собственные предложения, хотя обычно они делают это только в том случае, если владелец не отвечает на запрос о внесении изменения.

Структура базы данных
Упрощенная диаграмма базовой структуры данных Татоебы.

Базовая структура данных Татоебы представляет собой серию узлов и ссылки. Каждое предложение - это узел; каждая ссылка соединяет два предложения с одинаковым значением.

Лицензия

Вся база данных Tatoeba опубликована под лицензией Creative Commons Attribution 2.0, что позволяет использовать ее в академических и других целях.

Гранты

Татоэба получил грант от Mozilla Drumbeat в декабре 2010 года.

Некоторые работы над инфраструктурой Татоеба спонсировались Google Summer of Code, издание 2014 г.

В мае 2018 г. они получили грант программы Mozilla Open Source Support (MOSS) в размере 25 000 долларов США.

В августе 2019 г. они получили поддержку Mozilla Open Source Support ( MOSS) грант программы.

Использование

Параллельные текстовые корпуса, такие как Tatoeba, используются для различных задач обработки естественного языка, таких как машинный перевод. Данные Tatoeba использовались в качестве данных для древовидной структуры японского и статистического машинного перевода, а также для WWWJDIC японско-английского словаря и двуязычных пар предложений и Практика чтения и перевода на японском на сайте www.ManyThings.org.

Offline edition

Выбранный контент с Tatoeba - 83932 фразы на эсперанто вместе со всеми их переводами на другие языки - появился в третьем издании многоязычного DVD Esperanto Elektronike («Электронный эсперанто») опубликовано E @ I тиражом 6000 экземпляров в июле 2011 года.

Разделенные табуляцией данные, готовые для импорта в Anki и аналогичное программное обеспечение, можно загрузить непосредственно с веб-сайта Tatoeba.

См. Также
Ссылки
  1. ^«Корпус Танака». EDRDG Wiki. Электронный словарь Группа исследований и разработок. 3 февраля 2011 г. Источник: 20 марта 2011 г.
  2. ^Брин, Джим (2 марта 2011 г.). «WWWJDIC - Информация». WWWJDIC. Университет Монаша. Проверено 20 марта 2011.
  3. ^"Проект словаря Транга". sourceforge.net.
  4. ^http://en.wiki.tatoeba.org/articles/show/quick-start
  5. ^Хо, Транг (23 февраля 2010 г.). «Как быть хорошим сотрудником в Татоеба». Блог проекта Tatoeba. Проверено 20 марта 2011 г.
  6. ^«Условия использования». Tatoeba.org. Проверено 20 марта 2011 г.
  7. ^Хо, Транг (17 января 2011 г.). «Грант от Mozilla Drumbeat». Блог проекта Tatoeba. Проверено 20 марта 2011 г.
  8. ^Мольтке, Хенрик (30 декабря 2010 г.). «Лучшие проекты барабанного боя: Tatoeba - бесплатная и открытая база данных предложений». Yoyodyne.cc. Архивировано из оригинального 2 января 2011 г. Получено 20 марта 2011 г. ... Mozilla Foundation хочет поддержать и помочь проекту Tatoeba, предоставив ему грант Mozilla Drumbeat Grant в размере 2,5 тыс. Долларов США.
  9. ^https://www.google-melange.com/gsoc/org2/google/gsoc2014/tatoeba
  10. ^https://blog.tatoeba.org/2018/05/moss-award-for-tatoeba.html
  11. ^https://blog.tatoeba.org/2019/08/a-second-moss-award.html
  12. ^Фрэнсис Бонд, 栗林 孝行 [Такаюки Курибаяси], 力 [Хашимото Чикара] (2008) HPSG に 基 づ く フ リ ーな 日本語 ツ リ ー バ ン ク の 構築 [бесплатный японский банк деревьев на основе HPSG]. На 14-м ежегодном собрании Ассоциации обработки естественного языка, Токио.
  13. ^Эрик Николс, Фрэнсис Бонд, Даррен Скотт Эпплинг и Юджи Мацумото (2010) Перефразирование обучающих данных для статистического машинного перевода. Журнал обработки естественного языка, 17 (3), страницы 101–122.
Внешние ссылки
  • icon Языковой портал
  • icon Лингвистический портал
Последняя правка сделана 2021-06-09 10:48:25
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте