A статистическая база данных - это база данных, используемая для статистического анализа. Это система OLAP (онлайн-аналитическая обработка), а не OLTP (онлайн-обработка транзакций). Современные решения и классические статистические базы данных часто ближе к реляционной модели, чем к многомерной модели, обычно используемой в системах OLAP сегодня.
Статистические базы данных обычно содержат данные о параметрах и данные измерений для этих параметров. Например, данные параметров состоят из различных значений для различных условий эксперимента (например, температуры, времени). Измеренные данные (или переменные) - это измерения, сделанные в эксперименте при этих меняющихся условиях.
Многие статистические базы данных разрежены и содержат много нулевых или нулевых значений. Нередко статистическая база данных бывает разреженной на 40–50%. Есть два варианта решения проблемы разреженности: (1) оставить там нулевые значения и использовать методы сжатия, чтобы сжать их, или (2) удалить записи, которые имеют только нулевые значения.
Статистические базы данных часто включают поддержку передовых методов статистического анализа, таких как корреляции, которые выходят за рамки SQL. Они также создают уникальные проблемы безопасности, которые были предметом многих исследований, особенно в конце 1970-х и начале-середине 1980-х годов.
В статистических базах данных часто требуется разрешить доступ для запросов только к агрегированным данным, а не к отдельным записям. Защита такой базы данных - сложная проблема, поскольку умные пользователи могут использовать комбинацию совокупных запросов для получения информации об одном человеке.
Некоторые распространенные подходы:
На протяжении многих лет исследования в этой области были приостановлены, и в 1980 году считалось, что процитируем:
Но в 2006 году Синтия Дворк определила поле дифференциальной конфиденциальности, с использованием работы, которая начала появляться в 2003 году. Показав, что некоторые цели семантической безопасности, связанные с работой, были невозможны, он определил новые методы ограничения повышенного риска конфиденциальности, возникающего в результате включения частных данных в статистическую базу данных. Это позволяет во многих случаях предоставлять очень точную статистику из базы данных, при этом обеспечивая высокий уровень конфиденциальности.
Управление статистическими и научными базами данных (SSDBM) Важная серия конференции в этой области
Некоторые ключевые статьи в этой области: