Open Mind Common Sense (OMCS ) - это проект искусственного интеллекта, основанный в Массачусетском технологическом институте (MIT) Media Lab, целью которой является создание и использование большой базы знаний здравого смысла на основе вкладов многих тысяч людей в Интернете.
С момента своего основания в 1999 г. он собрал более миллиона фактов на английском языке от более чем 15 000 участников в дополнение к базам знаний на других языках. Большая часть программного обеспечения OMCS построена на трех взаимосвязанных представлениях: корпусе естественного языка, с которым люди взаимодействуют напрямую, семантической сети, построенной из этого корпуса под названием ConceptNet, и матричном представлении ConceptNet называется AnalogySpace, который может выводить новые знания с помощью уменьшения размерности. Знания, собранные Open Mind Common Sense, позволили проводить исследовательские проекты в Массачусетском технологическом институте и других местах.
Этот проект был детищем Марвина Мински, Пуш Сингха Кэтрин Хаваси и других. Разработка началась в сентябре 1999 года, а год спустя проект был открыт для Интернета. Хаваси описала это в своей диссертации как «попытку... обуздать часть распределенных человеческих вычислительных мощностей Интернета, идея, которая тогда была только в начальной стадии». На оригинальный OMCS повлиял веб-сайт Everything2 и его предшественник, и он представил минималистский интерфейс, вдохновленный Google..
Пуш Сингх должен был стать профессором в MIT Media. Лаборатория руководит группой Common Sense Computing в 2007 году до его самоубийства во вторник, 28 февраля 2006 года.
В настоящее время проектом руководит группа Digital Intuition в лаборатории MIT Media Lab под руководством Кэтрин Хаваси.
В OMCS есть много разных типов знаний. Некоторые утверждения передают отношения между объектами или событиями, выраженные простыми фразами естественного языка: некоторые примеры включают: «Пальто используется для согрева», «Солнце очень жарко» и «Последнее, что вы делаете, когда готовите ужин, - это мыть посуду ». База данных также содержит информацию об эмоциональном содержании ситуаций в таких утверждениях, как «Проведение времени с друзьями приносит счастье» и «Попадание в автомобильную аварию вызывает гнев». OMCS содержит информацию о желаниях и целях людей, больших и малых, таких как «Люди хотят, чтобы их уважали» и «Люди хотят хорошего кофе».
Первоначально эти утверждения могли быть размещены на веб-сайте как неограниченные. предложения текста, которые нужно было проанализировать позже. Текущая версия веб-сайта собирает знания только с помощью более структурированных шаблонов с заполнением пустых полей. OMCS также использует данные, собранные с помощью Game With a Purpose "Verbosity ".
В своей собственной форме база данных OMCS представляет собой просто набор этих коротких предложений, которые передают некоторые общие знания. Чтобы использовать эти знания в вычислительных целях, их необходимо преобразовать в более структурированное представление.
ConceptNet - это семантическая сеть, основанная на информации в базе данных OMCS.ConceptNet представляет собой ориентированный граф, узлы которого являются концепциями, а ребра - утверждениями здравого смысла в отношении этих концепций. Концепции представляют собой наборы тесно связанных фраз естественного языка, которые могут быть именными фразами, глагольными фразами, фразами прилагательных или предложениями.
ConceptNet создается из утверждений на естественном языке в OMCS путем сопоставления их с шаблонами с использованием поверхностного синтаксического анализатора. Утверждения выражаются как отношения между двумя концепциями, выбранными из ограниченного набора возможных отношений. Различные отношения представляют собой общие шаблоны предложений, найденные в корпусе OMCS, и, в частности, каждый шаблон «заполнить пробелы», используемый на веб-сайте сбора знаний, связан с определенным отношением.
Структуры данных, которые составляют ConceptNet была значительно реорганизована в 2007 году и опубликована как ConceptNet 3. Группа программных агентов в настоящее время распространяет базу данных и API для новой версии 4.0.
В 2010 году соучредитель и директор OMCS Кэтрин Хаваси и Робин Спир, Деннис Кларк и Джейсон Алонсо создали Luminoso, компанию по разработке программного обеспечения для анализа текста, основанную на ConceptNet. Он использует ConceptNet в качестве основного лексического ресурса, чтобы помочь предприятиям разобраться в огромных объемах качественных данных, включая опросы, обзоры продуктов и социальные сети, и получить представление о них.
Информация в ConceptNet может использоваться в качестве основы для алгоритмов машинного обучения. Одно представление, называемое AnalogySpace, использует разложение по сингулярным значениям для обобщения и представления закономерностей в знаниях в ConceptNet таким образом, чтобы их можно было использовать в приложениях AI. Его создатели распространяют набор инструментов машинного обучения Python под названием Divisi для выполнения машинного обучения на основе корпусов текстов, структурированных баз знаний, таких как ConceptNet, и их комбинаций.
Другие похожие проекты включают Never-Ending Language Learning, Mindpixel (снято с производства), Cyc, Learner, SenticNet, Freebase, YAGO, DBpedia и Open Mind 1001 Questions, в которых исследовались альтернативные подходы к сбору знаний и стимулированию участия.
Проект Open Mind Common Sense отличается от Cyc тем, что он сосредоточен на представлении собранных знаний здравого смысла в виде предложений на английском языке, а не на использовании формальной логической структуры. ConceptNet описан одним из его создателей, Хьюго Лю, как структурированный больше как WordNet, чем Cyc, из-за его «акцента на неформальной концептуальной связности над формальной лингвистической строгостью».
Существует также бразильская инициатива под названием Open Mind Common Sense in Brazil (OMCS-Br), возглавляемая лабораторией Advanced Interaction Lab Федерального университета Сан-Карлоса (LIA-UFSCar ). Этот проект стартовал в 2005 году в сотрудничестве с группой программных агентов в MIT Media Lab. Основная цель - собрать здравый смысл, изложенный на бразильском португальском языке, и использовать его для разработки культурных программных приложений, основанных на извлечении культурных ценностей. знания профилей из ConceptNet. Это предназначено, чтобы помочь разработчикам и пользователям с программным обеспечением с культурно контекстуализированным контентом, делая конечные приложения более гибкими, адаптивными, доступными и удобными. Основное внимание в приложениях уделяется образованию и здравоохранению.