Тип сайта | Открыть совместное многоязычное " словарь предложений " |
---|---|
Доступен на | 25 языках интерфейса; контент на 301 языке (май 2016 г.) |
Владелец | Транг Хо, Аллан Саймон |
Создано | Транг Хо, Аллан Саймон |
URL | tatoeba.org |
Коммерческий | No |
Регистрация | Необязательно |
Запущен | 2006 |
Текущий статус | Онлайн; beta |
Лицензия на содержание | Creative Commons Attribution 2.0 |
Tatoeba - это бесплатная совместная онлайн база данных примеров предложений, ориентированная на изучающих иностранный язык. Его название происходит от японского термина «татоеба» (例 え ば), что означает «например». В отличие от других онлайн-словарей, которые фокусируются на словах, Tatoeba фокусируется на переводе полных предложений. Кроме того, структура базы данных и интерфейса подчеркивает отношения «один ко многим». Мало того, что у предложения может быть несколько переводов на одном языке, но и его переводы на все языки легко видны, как и косвенные переводы, включающие цепочку поэтапных связей с одного языка на другой.
Целью проекта Tatoeba является создание базы данных предложений и переводы, которые может использовать любой, кто разрабатывает приложение для изучения языков . Идея состоит в том, что проект создает данные, поэтому программисты могут просто сосредоточиться на кодировании приложения.
Данные, собранные в рамках проекта, находятся в свободном доступе по лицензии Creative Commons Attribution (CC-BY).
По состоянию на июнь 2019 года в корпусе Tatoeba Corpus содержится более 7 500 000 предложений на 337 языках. 10 ведущих языков составляют 73% корпуса. Девяносто восемь из этих языков содержат более 1000 предложений. В каждом из 14 ведущих языков более 100 000 предложений.
Татоеба также является нынешним домом для Корпуса Танака, общедоступной серии из около 150 000 англо-японских пар предложений, составленных профессором Университета Хиого Ясухито Танакой, впервые выпущенной в 2001 году, и где она проходит последние изменения..
Статистика для всех языков находится на [1].
Татоеба была основана Транг Хо в 2006 году. Изначально она вела проект на Sourceforge в рамках проекта name "Multilangdict".
Пользователи, даже незарегистрированные, могут искать слова на любом языке, чтобы находить предложения, в которых они используются. Каждое предложение в базе данных Tatoeba отображается рядом с его вероятным переводом на другие языки; прямые и косвенные переводы различаются. Предложения помечаются тегом для такого содержания, как тема, диалект или вульгарность ; у каждого из них также есть отдельные цепочки комментариев, чтобы облегчить обратную связь и исправления от других пользователей и культурных замечаний. По состоянию на начало 2016 года более 200 000 предложений на 19 языках имели звуковое чтение разного качества. Предложения также можно просматривать по языку, тегу или аудио.
Зарегистрированные пользователи могут добавлять новые предложения или переводить или корректировать существующие, даже если их целевой язык не является их родным языком. Однако предпочтительнее, чтобы пользователи переводили на свой родной или «самый сильный» язык и добавляли предложения со своего родного языка, а не переводили на свой целевой язык или добавляли с него.
Это означает, что корпус текста далеко не без ошибок каждый пользователь может переводить предложения, даже если они понятия не имеют об этом конкретном языке - из-за количества предложений невозможно проверить какое-либо предложение, правильно оно или нет. Более того, по состоянию на конец 2019 года не переведены даже условия использования сайта.
Переводы автоматически связываются с исходным предложением. Пользователи могут свободно редактировать свои предложения, «перенимать» и исправлять предложения без владельца, а также комментировать предложения других. Опытные участники, имеющие рейтинг выше обычных участников, могут помечать, связывать и отключать предложения. Сопровождающие корпуса, находящиеся в ранге выше опытных участников, могут снимать отметки и удалять предложения. Они также могут изменять собственные предложения, хотя обычно они делают это только в том случае, если владелец не отвечает на запрос о внесении изменения.
Базовая структура данных Татоебы представляет собой серию узлов и ссылки. Каждое предложение - это узел; каждая ссылка соединяет два предложения с одинаковым значением.
Вся база данных Tatoeba опубликована под лицензией Creative Commons Attribution 2.0, что позволяет использовать ее в академических и других целях.
Татоэба получил грант от Mozilla Drumbeat в декабре 2010 года.
Некоторые работы над инфраструктурой Татоеба спонсировались Google Summer of Code, издание 2014 г.
В мае 2018 г. они получили грант программы Mozilla Open Source Support (MOSS) в размере 25 000 долларов США.
В августе 2019 г. они получили поддержку Mozilla Open Source Support ( MOSS) грант программы.
Параллельные текстовые корпуса, такие как Tatoeba, используются для различных задач обработки естественного языка, таких как машинный перевод. Данные Tatoeba использовались в качестве данных для древовидной структуры японского и статистического машинного перевода, а также для WWWJDIC японско-английского словаря и двуязычных пар предложений и Практика чтения и перевода на японском на сайте www.ManyThings.org.
Выбранный контент с Tatoeba - 83932 фразы на эсперанто вместе со всеми их переводами на другие языки - появился в третьем издании многоязычного DVD Esperanto Elektronike («Электронный эсперанто») опубликовано E @ I тиражом 6000 экземпляров в июле 2011 года.
Разделенные табуляцией данные, готовые для импорта в Anki и аналогичное программное обеспечение, можно загрузить непосредственно с веб-сайта Tatoeba.
... Mozilla Foundation хочет поддержать и помочь проекту Tatoeba, предоставив ему грант Mozilla Drumbeat Grant в размере 2,5 тыс. Долларов США.