Статистическая база данных

редактировать

A статистическая база данных - это база данных, используемая для статистического анализа. Это система OLAP (онлайн-аналитическая обработка), а не OLTP (онлайн-обработка транзакций). Современные решения и классические статистические базы данных часто ближе к реляционной модели, чем к многомерной модели, обычно используемой в системах OLAP сегодня.

Статистические базы данных обычно содержат данные о параметрах и данные измерений для этих параметров. Например, данные параметров состоят из различных значений для различных условий эксперимента (например, температуры, времени). Измеренные данные (или переменные) - это измерения, сделанные в эксперименте при этих меняющихся условиях.

Многие статистические базы данных разрежены и содержат много нулевых или нулевых значений. Нередко статистическая база данных бывает разреженной на 40–50%. Есть два варианта решения проблемы разреженности: (1) оставить там нулевые значения и использовать методы сжатия, чтобы сжать их, или (2) удалить записи, которые имеют только нулевые значения.

Статистические базы данных часто включают поддержку передовых методов статистического анализа, таких как корреляции, которые выходят за рамки SQL. Они также создают уникальные проблемы безопасности, которые были предметом многих исследований, особенно в конце 1970-х и начале-середине 1980-х годов.

Безопасность в статистических базах данных

В статистических базах данных часто требуется разрешить доступ для запросов только к агрегированным данным, а не к отдельным записям. Защита такой базы данных - сложная проблема, поскольку умные пользователи могут использовать комбинацию совокупных запросов для получения информации об одном человеке.

Некоторые распространенные подходы:

  • разрешить только агрегированные запросы (SUM, COUNT, AVG, STDEV и т. Д.)
  • вместо того, чтобы возвращать точные значения для конфиденциальных данных, таких как доход, возвращать только те, которые раздел, к которому он принадлежит (например, 35k-40k)
  • возвращает неточные подсчеты (например, вместо 141 записи, удовлетворяющей запросу, укажите только 130-150 записей).
  • не допускать чрезмерно выборочного Пункты WHERE
  • проверяют все запросы пользователей, поэтому пользователи, неправильно использующие систему, могут быть исследованы
  • использовать интеллектуальные агенты для автоматического обнаружения несоответствующего использования системы

На протяжении многих лет исследования в этой области были приостановлены, и в 1980 году считалось, что процитируем:

Вывод таков: статистические базы данных почти всегда подвержены компрометации. Строгие ограничения на допустимые размеры набора запросов сделают базу данных бесполезной в качестве источника статистической информации, но не обеспечат защиту конфиденциальных записей.

Но в 2006 году Синтия Дворк определила поле дифференциальной конфиденциальности, с использованием работы, которая начала появляться в 2003 году. Показав, что некоторые цели семантической безопасности, связанные с работой, были невозможны, он определил новые методы ограничения повышенного риска конфиденциальности, возникающего в результате включения частных данных в статистическую базу данных. Это позволяет во многих случаях предоставлять очень точную статистику из базы данных, при этом обеспечивая высокий уровень конфиденциальности.

Дополнительная литература

Управление статистическими и научными базами данных (SSDBM) Важная серия конференции в этой области

Некоторые ключевые статьи в этой области:

  1. doi : 10.1145 / 320613.320616 - Дороти Э. Деннинг, Защищенные статистические базы данных с помощью случайных выборочных запросов, транзакции ACM по системам баз данных (TODS), том 5, выпуск 3 (сентябрь 1980 г.), страницы: 291 - 315
  2. doi : 10.1145 / 319830.319834 - Вибрен де Йонге, Взлом статистических баз данных, отвечающих на запросы о средствах, Транзакции ACM в системах баз данных, том 8, выпуск 1 (март 1983 г.), страницы: 60 - 80
  3. doi : 10.1145 / 320128.320138 - Дороти Э. Деннинг, Ян Шлерер, Быстрая процедура поиска трекера в статистической базе данных, Транзакции ACM в системах баз данных, том 5, выпуск 1 (март 1980 г.). Страницы: 88 - 102
  4. А. Шошани, «Статистические базы данных: характеристики, проблемы и некоторые решения», в материалах 8-й Международной конференции по очень большим базам данных, Сан-Франциско, Калифорния, США, 1982, стр. 208–222.
Ссылки
Последняя правка сделана 2021-06-09 10:07:22
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте