Данные наука

редактировать

Наука о данных - это междисциплинарная область, в которой используются научные методы, процессы, алгоритмы и системы для извлечения знаний и идей из многих структурных и неструктурированных данных. Наука о данных связана с интеллектуальным анализом данных, машинным обучением и большими данными.

Наука о данных - это "концепция для объединения статистики, анализ данных и связанные с ним методы "с целью" понимания и анализа реальных явлений "с помощью данных. Он использует методы и теории, взятые из многих областей в контексте математики, статистики, информатики, предметных знаний и информатика. лауреат премии Тьюринга Джим Грей представил науку о данных как «четвертую парадигму» науки (эмпирическая, теоретическая, вычислительная и теперь на основе данных) и утверждал, что «все в науке меняется из-за воздействия информационных технологий » и наводнения данных.

Содержание
  • 1 Основы
    • 1.1 Связь со статистикой
  • 2 Этимология
    • 2.1 Раннее использование
    • 2.2 Современное использование
  • 3 Влияние науки о данных
  • 4 Технологии и методы
    • 4.1 Методы
    • 4.2 Языки
    • 4.3 Структуры
    • 4.4 Инструменты визуализации
    • 4.5 Платформы
  • 5 Ссылки
Основы

Наука о данных - это междисциплинарная область, ориентированная на извлечение знаний из наборов данных, которые обычно имеют большой размер (см. большие данные ). Эта область включает анализ, подготовку данных для анализа и представление результатов для принятия решений на высоком уровне в организации. Таким образом, он включает навыки в области информатики, математики, статистики, визуализации информации, графического дизайна, сложных систем, коммуникации и бизнеса. Статистик Натан Яу, опираясь на Бен Фрай, также связывает науку о данных с взаимодействием человека и компьютера : пользователи должны иметь возможность интуитивно управлять и исследовать данные. В 2015 году Американская статистическая ассоциация определила управление базами данных, статистику и машинное обучение, а также распределенные и параллельные системы в качестве трех новых основополагающих профессиональные сообщества.

Связь со статистикой

Многие статистики, в том числе Нейт Сильвер, утверждали, что наука о данных - это не новая область, а скорее другое название статистики. Другие утверждают, что наука о данных отличается от статистики, поскольку она фокусируется на проблемах и методах, уникальных для цифровых данных. Васант Дхар пишет, что статистика делает упор на количественные данные и описание. В отличие от этого, наука о данных имеет дело с количественными и качественными данными (например, изображениями) и делает упор на предсказании и действии. Эндрю Гельман из Колумбийского университета и специалист по данным Винсент Гранвиль назвали статистику несущественной науки о данных. Стэнфордский профессор Дэвид Донохо пишет, что наука о данных не отличается от статистики размером наборов данных или использованием вычислений, и что многие программы для выпускников ошибочно рекламируют свое обучение аналитике и статистике как сущность программы по науке о данных. Он описывает науку о данных как прикладную область, выросшую из традиционной статистики. Таким образом, науку о данных можно охарактеризовать как прикладную отрасль статистики.

Этимология

Раннее употребление

В 1962 году Джон Тьюки описал область, которую он назвал «анализом данных», которая напоминает современную науку о данных. Позже участники статистического симпозиума 1992 года в Университете Монпелье II признали появление новой дисциплины, ориентированной на данные различного происхождения и форм, сочетающей устоявшиеся концепции и принципы статистики и анализа данных с вычислениями.

Термин «наука о данных» восходит к 1974 году, когда Питер Наур предложил его в качестве альтернативного названия информатике. В 1996 году Международная федерация классификационных обществ стала первой конференцией, на которой наука о данных была конкретно рассмотрена как тема. Однако определение все еще менялось. В 1997 г. К.Ф. Джефф Ву предложил переименовать статистику в науку о данных. Он рассудил, что новое название поможет статистике избавиться от неточных стереотипов, например, быть синонимом бухгалтерского учета или ограничиваться описанием данных. В 1998 году Чикио Хаяси выступал за науку о данных как новую междисциплинарную концепцию, включающую три аспекта: проектирование, сбор и анализ данных.

В 1990-х годах популярные термины для процесса поиска закономерностей в наборах данных (которые становились все более крупными) включали «открытие знаний» и «интеллектуальный анализ данных».

Современное использование

Современное понимание науки о данных как независимой дисциплины иногда приписывается Уильяму С. Кливленду. В статье 2001 года он выступал за распространение статистики за пределы теории в технические области; поскольку это существенно изменило бы поле, это потребовало нового названия. В следующие несколько лет «наука о данных» получила более широкое распространение: в 2002 г. Комитет по данным для науки и технологий запустил журнал Data Science Journal. В 2003 году Колумбийский университет запустил The Journal of Data Science. В 2014 году Секция статистического обучения и интеллектуального анализа данных Американской статистической ассоциации изменила свое название на Секцию статистического обучения и науки о данных, что отражает растущую популярность науки о данных.

профессиональное звание «специалист по данным» было присвоено DJ Патил и Джефф Хаммербахер в 2008 году. Хотя оно использовалось Национальным научным советом в своем отчете за 2005 год, «Долгоживущие сборы цифровых данных: создание возможностей для исследований и образования в 21 веке», в нем в широком смысле говорилось о любой ключевой роли в управлении сбором цифровых данных.

До сих пор нет единого мнения относительно определения науки о данных и некоторые считают это модным словом.

Воздействие науки о данных

Большие данные очень быстро становятся жизненно важным инструментом для предприятий и компаний любого размера. Доступность и интерпретация больших данных изменили бизнес-модели старых отраслей и позволили создать новые. Общая стоимость предприятий, управляемых данными, в 2020 году составит 1,2 триллиона долларов, что больше 333 миллиардов долларов в 2015 году. Специалисты по обработке данных отвечают за разбиение больших данных на полезную информацию и создание программного обеспечения и алгоритмов, которые помогают компаниям и организациям определять оптимальные операции. Поскольку большие данные продолжают оказывать большое влияние на мир, наука о данных также оказывает влияние из-за тесной взаимосвязи между ними.

Технологии и методы

Существует множество различных технологий и методы, которые используются для науки о данных, которые зависят от приложения. Совсем недавно были разработаны полнофункциональные сквозные платформы, которые активно используются для анализа данных и машинного обучения.

Методы

Языки

  • Python - это язык программирования с простым синтаксисом, который обычно используется в науке о данных. Существует ряд библиотек Python, которые используются в науке о данных, включая numpy, pandas и scipy.
  • R - это язык программирования, который был разработан для статистиков и интеллектуального анализа данных и оптимизирован для вычислений.
  • Julia - это высокоуровневый высокопроизводительный динамический язык программирования, хорошо подходящий для численного анализа и вычислений.

Фреймворки

  • TensorFlow - это фреймворк для создания моделей машинного обучения, разработанный Google.
  • Pytorch - это еще одна структура для машинного обучения, разработанная Facebook.
  • Jupyter Notebook - интерактивный веб-интерфейс для Python, который позволяет быстрее экспериментировать.
  • Apache Hadoop - это программная среда, которая используется для обрабатывают данные в больших распределенных системах.

Инструменты визуализации

  • Plotly предоставляют богатый набор интерактивных научных библиотек для построения графиков.
  • Tableau создает разнообразное программное обеспечение, которое используется для визуализации данных.
  • PowerBI - сервис бизнес-аналитики от Micros часто
  • Qlik производит программное обеспечение, такое как QlikView и Qlik Sense, используемое для визуализации данных и бизнес-аналитики.
  • AnyChart предоставляет библиотеки JavaScript и другие инструменты для визуализации данных в диаграммах и информационных панелях.
  • Google Диаграммы - это веб-сервис на основе JavaScript, созданный и поддерживаемый Google для создания графических диаграмм.
  • Sisense предоставляет интерфейс для создания визуализаций данных, включая информационные панели и отчеты.
  • Webix является набор инструментов пользовательского интерфейса, который включает специальные инструменты для визуализации информации.

Платформы

  • RapidMiner - это программная платформа для анализа данных, разработанная одноименной компанией.
  • Dataiku - это программное обеспечение для совместной работы с данными. предназначен для больших данных.
  • Anaconda предоставляет всестороннее бесплатное распространение языков программирования Python и R с открытым исходным кодом.
  • MATLAB - это вычислительная среда, широко используемая в промышленности и академических кругах.
  • Databricks - облачная платформа для инженеров по массовым данным. ng и совместная наука о данных.
Ссылки
Последняя правка сделана 2021-05-17 14:11:05
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте