Оригинальный автор (-ы) | Radim ehůřek |
---|---|
Разработчик (и) | RARE Technologies Ltd. |
Первоначальный выпуск | 2009 |
Стабильный выпуск | 3.8.3 / 4 мая 2020 г.; 5 месяцев назад (4 мая 2020 г.) |
Репозиторий | github.com / RaRe-Technologies / gensim |
Написано на | Python |
Операционная система | Linux, Windows, macOS |
Тип | Получение информации |
Лицензия | LGPL |
Веб-сайт | radimrehurek.com / gensim / |
Gensim - это библиотека с открытым исходным кодом для неконтролируемого моделирования тем и обработки естественного языка с использованием современного статистического машинного обучения..
Gensim реализован в Python и Cython. Gensim предназначен для обработки больших текстовых коллекций с использованием потоковых данных и инкрементных онлайн-алгоритмов, что отличает его от большинства других программных пакетов машинного обучения, ориентированных только на обработку в памяти.
Gensim включает потоковую передачу параллельные реализации алгоритмов fastText, word2vec и doc2vec, а также скрытого семантического анализа (LSA, LSI, SVD), факторизация неотрицательной матрицы (NMF), скрытое распределение Дирихле (LDA), tf-idf и случайные проекции.
Некоторые из новых онлайн-алгоритмов в Gensim были также опубликованы в Кандидатская диссертация 2011 года «Масштабируемость семантического анализа в обработке естественного языка» Радима Жегуржека, создателя Gensim.
Gensim использовалась и цитировалась в более чем 1400 коммерческих и академических приложениях как 2018 года по разнообразным дисциплинам, от медицины до анализа страховых случаев и патентного поиска. Программное обеспечение было освещено в нескольких новых статьях, подкастах и интервью.
Открытый исходный код разработан и размещен на GitHub и общедоступной поддержке форум поддерживается в группах Google и Gitter.
Gensim коммерчески поддерживается компанией red-technologies.com, которая также предоставляет студентам наставничество и проекты академических диссертаций для Gensim через свою программу Student Incubator.
.