Google Flu Trends

редактировать

Бывшая веб-служба, управляемая Google

данные Google Flu Trends, Южная Африка

Google Flu Trends ( GFT ) была веб-службой, управляемой Google. Он предоставил оценки активности гриппа для более чем 25 стран. Агрегируя запросы Google Search, он пытался сделать точные прогнозы относительно активности гриппа. Этот проект был впервые запущен в 2008 году компанией Google.org для прогнозирования вспышек гриппа.

Google Flu Trends прекратил публиковать текущие оценки 9 августа 2015 года. Исторические оценки все еще доступны для загрузки, а текущие данные предлагаются для заявленные цели исследования.

Содержание

1 История
2 Методы
3 Проблемы конфиденциальности
4 Влияние
5 Точность
6 Связанные системы
7 Ссылки
8 Внешние ссылки

История

Идея Google Flu Trends заключалась в том, что, отслеживая поведение миллионов пользователей, отслеживающих состояние здоровья в Интернете, можно проанализировать большое количество собранных поисковых запросов Google, чтобы выявить наличие гриппоподобное заболевание среди населения. Google Flu Trends сравнил эти результаты с историческим исходным уровнем активности гриппа для соответствующего региона, а затем сообщает об уровне активности как минимальном, низком, умеренном, высоком или интенсивном. Эти оценки в целом согласовывались с традиционными данными эпиднадзора, собранными учреждениями здравоохранения как на национальном, так и на региональном уровне.

Рони Зейгер помогал в разработке Google Flu Trends.

Методы

Google Flu Trends описывались как использование следующего метода для сбора информации о тенденциях гриппа.

Во-первых, временной ряд вычисляется примерно для 50 миллионов общих запросов, вводимых еженедельно в Соединенных Штатах с 2003 по 2008 год. Временные ряды запроса вычисляются отдельно для каждого состояния и нормализуются на дробную часть путем деления количества каждого запроса на количество все запросы в этом состоянии. Путем определения IP-адреса, связанного с каждым поиском, можно определить состояние, в котором был введен этот запрос.

Для вычисления логарифма шансов посещения врача по поводу гриппоподобного заболевания (ГПЗ) и логарифма шансов поискового запроса, связанного с ГПЗ, используется линейная модель:

logit ⁡ (P) = β 0 + β 1 × logit ⁡ (Q) + ϵ {\ displaystyle \ operatorname {logit} (P) = \ beta _ {0} + \ beta _ {1} \ times \ operatorname {logit} (Q) + \ epsilon}

\ operatorname {logit} (P) = \ beta _ {0} + \ beta _ {1} \ times \ имя оператора {логит} (Q) + \ epsilon

P - процент посещений врача по ГПЗ, а Q - доля запросов, связанных с ГПЗ, вычисленная на предыдущих шагах. β 0 - точка пересечения, β 1 - коэффициент, а ε - погрешность.

Каждый из 50 миллионов запросов проверяется как Q, чтобы увидеть, может ли результат, вычисленный на основе одного запроса, соответствовать фактическим историческим данным ILI, полученным из Центров США по контролю и профилактике заболеваний (CDC). Этот процесс создает список основных запросов, который дает наиболее точные прогнозы данных CDC ILI при использовании линейной модели. Затем выбираются 45 лучших запросов, поскольку при агрегировании эти запросы наиболее точно соответствуют историческим данным. Используя сумму 45 самых популярных запросов, связанных с ILI, линейная модель подбирается к еженедельным данным ILI с 2003 по 2007 год, чтобы можно было получить коэффициент. Наконец, обученная модель используется для прогнозирования вспышки гриппа во всех регионах США.

Этот алгоритм впоследствии был пересмотрен Google, частично в ответ на озабоченность по поводу точности, и попытки воспроизвести его результаты показали, что разработчики алгоритма «почувствовали неявную потребность скрыть фактические выявленные поисковые запросы».

Проблемы конфиденциальности

Google Flu Trends пытается избежать нарушений конфиденциальности, собирая только миллионы анонимных поисковых запросов без идентификации лиц, выполнивших поиск. Их журнал поиска содержит IP-адрес пользователя, который можно использовать для отслеживания региона, в котором первоначально был отправлен поисковый запрос. Google запускает программы на компьютерах для доступа к данным и их вычисления, поэтому в этом процессе не участвует человек. Google также внедрил политику анонимности IP-адресов в своих журналах поиска через 9 месяцев.

Однако Google Flu Trends вызвала озабоченность по поводу конфиденциальности среди некоторых групп конфиденциальности. Электронный информационный центр о конфиденциальности и организация по правам пациентов направили письмо Эрику Шмидту в 2008 году, тогдашнему генеральному директору Google. Они признали, что использование данных, генерируемых пользователями, может существенно поддержать усилия общественного здравоохранения, но выразили обеспокоенность тем, что «расследования конкретных пользователей могут быть инициированы, даже несмотря на возражения Google, по решению суда или президентских властей».

Воздействие

Первоначальная мотивация для GFT заключалась в том, что способность определять активность заболевания на раннем этапе и быстро реагировать на него может снизить воздействие сезонного и пандемического гриппа. Согласно одному отчету, Google Flu Trends смог предсказать региональные вспышки гриппа на срок до 10 дней до того, как о них сообщил CDC (Центры по контролю и профилактике заболеваний).

Во время пандемии гриппа в 2009 г. Google Flu Trends отслеживает информацию о гриппе в Соединенных Штатах. В феврале 2010 г. CDC выявил резкое увеличение случаев гриппа в центрально-атлантическом регионе США. Однако данные Google по поисковым запросам о симптомах гриппа смогли показать такой же всплеск за две недели до публикации отчета CDC.

«Чем раньше предупреждение, тем раньше могут быть приняты меры по профилактике и контролю, и это может предотвратить случаи гриппа», - сказала д-р Лин Финелли, руководитель отдела эпиднадзора в подразделении CDC по гриппу. «От 5 до 20 процентов населения страны ежегодно заболевают гриппом, что в среднем приводит к 36 000 смертей».

Google Flu Trends - это пример коллективного разума, который можно использовать для определения тенденций и расчета прогнозов. Данные, собираемые поисковыми системами, очень информативны, потому что поисковые запросы отражают неотфильтрованные желания и потребности людей. «Это кажется действительно умным способом использования данных, которые непреднамеренно создаются пользователями Google, чтобы увидеть закономерности в мире, которые в противном случае были бы невидимы», - сказал Томас У. Мэлоун, профессор школы менеджмента Sloan при Массачусетском технологическом институте. «Я думаю, что мы просто царапаем поверхность того, что возможно с коллективным разумом».

Точность

В первоначальном документе Google говорилось, что прогнозы Google Flu Trends были точны на 97% по сравнению с данными CDC. Однако в последующих отчетах утверждалось, что прогнозы Google Flu Trends иногда были очень неточными, особенно за период 2011–2013 гг., Когда он постоянно завышал относительную заболеваемость гриппом, а за один интервал в сезоне гриппа 2012–2013 гг. Прогнозировалось вдвое больше посещений врачей. как записал CDC.

Один из источников проблем заключается в том, что люди, выполняющие поисковые запросы в Google о гриппе, могут очень мало знать о том, как диагностировать грипп; поиски симптомов гриппа или гриппа вполне могут быть исследованием симптомов заболевания, которые похожи на грипп, но на самом деле не грипп. Кроме того, анализ поисковых запросов, которые, как сообщается, отслеживаются Google, таких как «лихорадка» и «кашель», а также влияние изменений в их алгоритме поиска с течением времени, вызвали озабоченность по поводу значения его прогнозов. Осенью 2013 года Google начал попытки компенсировать увеличение поисковых запросов из-за того, что в новостях упоминалось о гриппе, что, как было установлено, ранее приводило к искажению результатов. Однако один из анализов пришел к выводу, что «комбинируя GFT и запаздывающие данные CDC, а также динамически перекалибруя GFT, мы можем существенно улучшить производительность GFT или только CDC». Более позднее исследование также демонстрирует, что данные поиска Google действительно можно использовать для улучшения оценок, уменьшая количество ошибок, обнаруженных в модели, использующей только данные CDC, на 52,7%.

Переоценка исходной модели GFT, исследователи обнаружили, что модель объединяет запросы о различных состояниях здоровья, что может привести к завышению прогнозов частоты ГПЗ; В той же работе был предложен ряд более продвинутых линейных и нелинейных, более эффективных подходов к моделированию ГПЗ.

Родственные системы

Подобные проекты, такие как проект института прогнозирования гриппа Когнитивной науки Оснабрюк продвигает основную идею, объединив данные социальных сетей, например Twitter с данными CDC и структурными моделями, которые позволяют сделать вывод о пространственном и временном распространении болезни.

Ссылки

Внешние ссылки

Официальный сайт