Наука о данных - это междисциплинарная область, в которой используются научные методы, процессы, алгоритмы и системы для извлечения знаний и идей из многих структурных и неструктурированных данных. Наука о данных связана с интеллектуальным анализом данных, машинным обучением и большими данными.
Наука о данных - это "концепция для объединения статистики, анализ данных и связанные с ним методы "с целью" понимания и анализа реальных явлений "с помощью данных. Он использует методы и теории, взятые из многих областей в контексте математики, статистики, информатики, предметных знаний и информатика. лауреат премии Тьюринга Джим Грей представил науку о данных как «четвертую парадигму» науки (эмпирическая, теоретическая, вычислительная и теперь на основе данных) и утверждал, что «все в науке меняется из-за воздействия информационных технологий » и наводнения данных.
Наука о данных - это междисциплинарная область, ориентированная на извлечение знаний из наборов данных, которые обычно имеют большой размер (см. большие данные ). Эта область включает анализ, подготовку данных для анализа и представление результатов для принятия решений на высоком уровне в организации. Таким образом, он включает навыки в области информатики, математики, статистики, визуализации информации, графического дизайна, сложных систем, коммуникации и бизнеса. Статистик Натан Яу, опираясь на Бен Фрай, также связывает науку о данных с взаимодействием человека и компьютера : пользователи должны иметь возможность интуитивно управлять и исследовать данные. В 2015 году Американская статистическая ассоциация определила управление базами данных, статистику и машинное обучение, а также распределенные и параллельные системы в качестве трех новых основополагающих профессиональные сообщества.
Многие статистики, в том числе Нейт Сильвер, утверждали, что наука о данных - это не новая область, а скорее другое название статистики. Другие утверждают, что наука о данных отличается от статистики, поскольку она фокусируется на проблемах и методах, уникальных для цифровых данных. Васант Дхар пишет, что статистика делает упор на количественные данные и описание. В отличие от этого, наука о данных имеет дело с количественными и качественными данными (например, изображениями) и делает упор на предсказании и действии. Эндрю Гельман из Колумбийского университета и специалист по данным Винсент Гранвиль назвали статистику несущественной науки о данных. Стэнфордский профессор Дэвид Донохо пишет, что наука о данных не отличается от статистики размером наборов данных или использованием вычислений, и что многие программы для выпускников ошибочно рекламируют свое обучение аналитике и статистике как сущность программы по науке о данных. Он описывает науку о данных как прикладную область, выросшую из традиционной статистики. Таким образом, науку о данных можно охарактеризовать как прикладную отрасль статистики.
В 1962 году Джон Тьюки описал область, которую он назвал «анализом данных», которая напоминает современную науку о данных. Позже участники статистического симпозиума 1992 года в Университете Монпелье II признали появление новой дисциплины, ориентированной на данные различного происхождения и форм, сочетающей устоявшиеся концепции и принципы статистики и анализа данных с вычислениями.
Термин «наука о данных» восходит к 1974 году, когда Питер Наур предложил его в качестве альтернативного названия информатике. В 1996 году Международная федерация классификационных обществ стала первой конференцией, на которой наука о данных была конкретно рассмотрена как тема. Однако определение все еще менялось. В 1997 г. К.Ф. Джефф Ву предложил переименовать статистику в науку о данных. Он рассудил, что новое название поможет статистике избавиться от неточных стереотипов, например, быть синонимом бухгалтерского учета или ограничиваться описанием данных. В 1998 году Чикио Хаяси выступал за науку о данных как новую междисциплинарную концепцию, включающую три аспекта: проектирование, сбор и анализ данных.
В 1990-х годах популярные термины для процесса поиска закономерностей в наборах данных (которые становились все более крупными) включали «открытие знаний» и «интеллектуальный анализ данных».
Современное понимание науки о данных как независимой дисциплины иногда приписывается Уильяму С. Кливленду. В статье 2001 года он выступал за распространение статистики за пределы теории в технические области; поскольку это существенно изменило бы поле, это потребовало нового названия. В следующие несколько лет «наука о данных» получила более широкое распространение: в 2002 г. Комитет по данным для науки и технологий запустил журнал Data Science Journal. В 2003 году Колумбийский университет запустил The Journal of Data Science. В 2014 году Секция статистического обучения и интеллектуального анализа данных Американской статистической ассоциации изменила свое название на Секцию статистического обучения и науки о данных, что отражает растущую популярность науки о данных.
профессиональное звание «специалист по данным» было присвоено DJ Патил и Джефф Хаммербахер в 2008 году. Хотя оно использовалось Национальным научным советом в своем отчете за 2005 год, «Долгоживущие сборы цифровых данных: создание возможностей для исследований и образования в 21 веке», в нем в широком смысле говорилось о любой ключевой роли в управлении сбором цифровых данных.
До сих пор нет единого мнения относительно определения науки о данных и некоторые считают это модным словом.
Большие данные очень быстро становятся жизненно важным инструментом для предприятий и компаний любого размера. Доступность и интерпретация больших данных изменили бизнес-модели старых отраслей и позволили создать новые. Общая стоимость предприятий, управляемых данными, в 2020 году составит 1,2 триллиона долларов, что больше 333 миллиардов долларов в 2015 году. Специалисты по обработке данных отвечают за разбиение больших данных на полезную информацию и создание программного обеспечения и алгоритмов, которые помогают компаниям и организациям определять оптимальные операции. Поскольку большие данные продолжают оказывать большое влияние на мир, наука о данных также оказывает влияние из-за тесной взаимосвязи между ними.
Существует множество различных технологий и методы, которые используются для науки о данных, которые зависят от приложения. Совсем недавно были разработаны полнофункциональные сквозные платформы, которые активно используются для анализа данных и машинного обучения.