Media Cloud - это инструмент анализа контента с открытым исходным кодом, предназначенный для отображения освещения текущих событий в средствах массовой информации. Он «выполняет пять основных функций - определение мультимедиа, сканирование, извлечение текста, векторизация слов и анализ». Медиа-облако «отслеживает сотни газет, тысячи веб-сайтов и блогов, и архивирует информацию в доступной для поиска форме. База данных... позволяет исследователям искать ключевых людей, места и события - от Майкла Джексона до иранца. выборы - и точно узнайте, когда, где и как часто они освещаются ». Media Cloud было разработано Беркманским центром Интернета и общества при Гарвардском университете и запущено в марте 2009 года. Оно распространяется под лицензией GNU GPL 3+.
По состоянию на октябрь 2011 года Media Cloud отслеживает новости в основном из американских источников. Он «собирает новости» в наборы из:
Среди компаний, которые сотрудничали с Media Cloud (или продолжают сотрудничать), - Morningside Analytics [2], Betaworks [3], Bit.ly, Associated Press [4] и Global Voices [5].
6 мая 2011 г. Беркман-центр перезапустил Media Cloud, "платформу, предназначенную для того, чтобы ученые, журналисты и все, кто интересуется миром средств массовой информации, могли задавать количественные вопросы о внимании средств массовой информации и отвечать на них. Более года мы собирали примерно 50 000 англоязычных историй в день из 17 000 источников средств массовой информации, включая основные средства массовой информации, левые и правые американские политические блоги, а также из 1000 популярных общих блогов ». Эти данные были использованы для «анализа различий в освещении международных кризисов в профессиональных и гражданских СМИ и для изучения быстрых изменений внимания СМИ, которые сопровождали поток свежих новостей, характерный для начала 2011 года». Международные исследования привели к публикации «нового исследования, в котором используется Media Cloud, чтобы помочь нам понять структуру профессиональных и гражданских СМИ в России и Египте». Перезапуск Media Cloud позволяет пользователям, которые заинтересованы в использовании его инструментов, анализировать, «на что блоггеры и журналисты обращают внимание, игнорируют, празднуют или осуждают».
Медиа-лаборатория Массачусетского технологического института и Центр Беркмана Гарвардского университета постоянно обсуждали медиа-ландшафт, и они столкнулись с общим препятствием, состоящим в том, что им требовалось решение для обработки данных о новостных статьях в больших масштабах, чтобы получить ответы на определенные вопросы. Мотивация к созданию Media Cloud возникла не из-за одного конкретного вопроса, а из множества их. В разделе «О себе» на своей веб-странице разработчики Media Cloud цитируют некоторые из первых вопросов, которые система должна была решить:
Затем анализ данных позволит проанализировать различные аспекты освещения новостей, такие как источники средств массовой информации и языки, на которых будут освещаться эти истории.
Во-первых, Media Cloud выбирает набор медиаисточников и открывает каналы для каждого из них. Затем каждый канал сканируется, чтобы определить, были ли добавлены какие-либо истории в какой-либо канал. Затем извлекается весь контент из каждой релевантной истории. Любая реклама или другие страницы навигации остаются позади. Текст каждой истории разбит на количество слов, которое показывает различные варианты слов, которые каждый медиа-источник использует при обсуждении любой соответствующей темы. Затем количество слов анализируется и публикуется, чтобы показать тенденции данных.
Media Cloud использовалось с сентября 2010 года по январь 2012 года для получения данных для исследования Центра Интернета и общества Беркмана, в ходе которого был проанализирован набор из 9 757 онлайн-историй, связанных с дискуссией COICA - SOPA - PIPA. Приложение с открытым исходным кодом использовалось для части исследования, посвященной анализу текста и ссылок. Результаты этого исследования были опубликованы в июле 2013 г. [6].
Веб-сайт Berkman Center for Internet amp; Society предлагает интерактивную карту визуализации [7] из этого исследования, которая была создана для «отображения медиа-источников (« узлов », которые отображаются на карте в виде кружков с разными цветами, обозначающими разные типы медиа).. [и] отслеживают медиаисточники и их связи в пределах дискретных временных отрезков и позволяют пользователям увеличивать масштаб спора, чтобы увидеть, какие субъекты присутствуют в дебатах в течение данного периода... »Эта карта позволяет визуализировать, как COICA - SOPA - PIPA споры развивались с течением времени с помощью анализа связей.
Многие компании пользуются возможностью анализировать и систематизировать эти новые данные, которые может создавать медиа-облако. Такие компании, как RAMP, предлагают «облачный» способ анализа и создания всех типов метаданных.
На дискуссию о предвзятости СМИ повлияло то, что проект Media Cloud рассматривается как преобразовавший дискуссию не столько в вопрос личного мнения журналистов, сколько в обсуждение, основанное на данных.
Предвзятость подтверждения - одна из форм развития предвзятости СМИ, при которой люди будут искать источники информации, которые соответствуют уже имеющимся у них убеждениям. И конечным следствием предвзятости подтверждения является создание эхо-камер, ситуации, в которой все стороны спора (обычно две) разговаривают только сами с собой, и это, скорее всего, приведет к застою в дебатах и затруднит достижение консенсуса. Анализ Media Cloud, посвященный скандалу вокруг Gamergate, эпизоду личных нападок на женщин-разработчиков игр, выявил два кластера источников новостей и дискуссий, которые были разделены по критериям наиболее распространенных мнений. Хотя между этими точками на графике анализа были связи, они не отражали достижение консенсуса и были обозначены как ссылки ненависти, в которых источники, которые будут связывать источники из других кластеров, будут делать это, чтобы категорически не соглашаться. с содержанием ссылки.
Ключевая функциональность медиаоблака заключается в использовании веб-сканирования для периодического извлечения статей из различных источников и последующего разбиения их на слова, которые необходимо учитывать. Затем это количество слов анализируется, чтобы определить, что источники говорят об определенных новостях. Этот процесс не является уникальным для Media Cloud и фактически является применением недавно популярных потоковых алгоритмов. Это алгоритмы, которые работают с непрерывным и бесконечным потоком данных, а не ждут, пока будет собран полный пакет информации. Эти алгоритмы очень полезны, потому что они позволяют отслеживать тенденции, не зная, какие темы будут наиболее популярными. Этот тип функциональности впервые появился, когда сетевые менеджеры пытались динамически видеть, какие сайты имеют наибольший объем трафика. Отсюда потоковые алгоритмы использовались, чтобы программы динамически воздействовали на финансовую информацию, и исследователями, чьи эксперименты генерируют больше данных, чем можно проанализировать, поэтому потоковые алгоритмы используются для динамической фильтрации исходных данных. Медиа-облако аналогичным образом воспользовалось функциональностью потоковых алгоритмов, чтобы динамически связывать слова с новостями при обходе различных источников, а затем предоставлять свою службу подписи для генерации предложений на основе слов, которые интересуют пользователей, и связанных с ними сообщений СМИ.
Центр гражданских СМИ заявляет об их цели, как развитие политических действий и поддержке гражданских СМИ, предоставляя хаб для производства технологических инноваций, которые могут быть использованы в качестве инструментов для таких целей, а также координация проектирования на базе общин процессы на муниципальном, национальном и глобальном уровнях.
Медиа-облако - один из инструментов, используемых Центром гражданских СМИ, и, обладая способностью предоставлять анализ данных об освещении новостей из различных источников, оно использовалось во многих ситуациях для получения выводов об истории освещения событий в новостях. или категории, и вызвать гражданское участие.
Разработчики Media Cloud намерены способствовать онлайн-активизму, предоставляя инструменты для проверки влияния материалов СМИ, написанных активистами. Эти онлайн-активисты могут проверить свое влияние с помощью анализа данных, полученных с помощью инструмента, и поиска важных мест, которых он не смог достичь. Распространение контента, не достигшего определенных целевых групп, может осуществляться с помощью предоставленной платформы.
Проект идентифицирует себя как одно из решений Innovation.
Социальное исследование, в котором говорится, что общественные дебаты были ответственны за провал Закона « Остановить пиратство в Интернете» и как он сыграл свою роль, было предложено пятью исследователями из Центра Интернета и общества Беркмана при Гарвардском университете. Анализ данных был основан на использовании Media Cloud для анализа профиля тех, кто занимается проблемой. Среди участников дискуссии в исследовании перечислены люди всех групп политических убеждений. Что касается источников освещения и платформ для обсуждения, то считается, что технические СМИ, игровые сайты и политические блоги сыграли большую роль, чем ведущие СМИ. Главный вывод исследования состоит в том, что диверсификация политических взглядов, а не поляризация дебатов позволили достичь консенсуса, который вынудил политиков проголосовать против законопроекта.
Исследовательский центр Pew классифицировал убийство Trayvon Мартина, подросток, который был застрелен в груди полицейской Флориды, наиболее освещаемых новости с социальной составляющей в течение пяти лет, что anteceded события. В документе, подготовленном с использованием Media Cloud, предполагается, что участие альтернативных СМИ помогло сместить фокус сюжета с эпизода стрельбы на серию репортажей о расовой сегрегации.
В исследовании, проведенном Джулией Вейхерт и Кэтрин Ида, Media Cloud использовалось для анализа характера освещения новостей о дебатах об абортах, уделяя особое внимание тем, которыми чаще всего публикуются в социальных сетях. По словам сторонников, цифры исследования показали, что освещение в СМИ было сосредоточено на законодательстве и активизме. Кроме того, вручную классифицируя источники освещения новостей как имеющие определенные политические взгляды ( консервативные, либеральные, центристские и либертарианские ), они указывают на различное использование изображений внутри этих кластеров, при этом то, что они классифицируют как либеральные СМИ, демонстрирующие протесты, основные СМИ, показывающие законодательные фотографии и консервативные СМИ, демонстрирующие изображения плода или живого младенца. На основании этих результатов Джулия и Кэтрин пришли к выводу, что у сторонников выбора отсутствует стратегия, в отличие от того, что они считают хорошо оформленным нарративом со стороны сторонников жизни.
В течение первой недели 2015 года в Баге и Париже произошли два разных эпизода религиозного насилия со стороны исламских экстремистов. В исследовании, проведенном информационным агентством The Conversation с использованием Media Cloud, оценивалось и сравнивалось освещение этих двух событий в новостях. Результаты исследования указывают на то, что стрельба в Charlie Hebdo освещается гораздо шире, чем резня в Баге во всем мире. В исследовании также сообщается, что освещение терактов в Париже превзошло освещение резни в Баге даже в Нигерии. В отчете неравномерное внимание средств массовой информации объясняется не только евроцентризмом, но и трудностью принятия чьей-либо стороны в конфликте между « Боко Харам» и нигерийской армией.
Изучение Беркмановского Клейн центра на основе результатов анализа данных медиа - Кл о влиянии Интернета на отменяют предлагаемую политику Чистой нейтралитете по Федеральной комиссии по связи выступает за то разнообразие дискуссии помогло сформировать результат обращение.
Новости о групповом изнасиловании студента-медика Нирбхая в Нью-Дели вызвали рост освещения в новостях сексуального насилия в Индии. Это событие стало предметом исследования Media Cloud, в котором анализировался характер сообщений о сексуальных домогательствах. Сторонники исследования защищали, что освещение новостей игнорировало гендерное неравенство как причину таких эпизодов, и что они рассматривались как эпизодические события, в которых виноваты были только лица, согласно полученному ими анализу данных..
В день перезапуска Media Cloud Итан Цукерман сказал: «Мы надеемся, что предоставляемые нами инструменты станут дополнением к удивительным усилиям, таким как Project for Excellence in Journalism's News Coverage и New Media Index, - мы считаем их инструменты золотым стандартом для понимания того, что темы обсуждаются в американских СМИ. PEJ творит чудеса, используя талантливые команды кодеров, которые пробуют разные уголки медиа-экосистемы, чтобы узнать, что обсуждается. Мы используем огромные наборы данных, алгоритмы и автоматизацию, чтобы дать другую картину, сфокусированную на одной по языку, а не по теме ".
Будущее использование Media Cloud может включать приложения для смартфонов или планшетов, которые позволят пользователям познакомиться с платформой вне компьютера. Приложение Media Cloud может служить источником новостей для пользователей в пути. Если бы Media Cloud расширилось на различные информационные сайты, оно могло бы ориентироваться на сайты социальных сетей и включать в них новости. Twitter и Facebook включили функции для актуальных новостей и тем, аналогичные тем, что стремится делать Media Cloud.
Инструмент расширяется до источников, которые не квалифицируются как СМИ, чтобы понять последствия изучаемых событий. Социальные сети являются основной целью, поскольку они включают не только обмен новостями, но и реакцию на общий контент.