Дифференциальная конфиденциальность - это система для публичного обмена информацией о наборе данных путем описания шаблонов групп в наборе данных при сокрытии информации о лицах в наборе данных. Идея дифференциальной конфиденциальности заключается в том, что если эффект от выполнения произвольной одиночной замены в базе данных достаточно мал, результат запроса не может использоваться для получения каких-либо выводов о каком-либо отдельном человеке и, следовательно, обеспечивает конфиденциальность. Другой способ описания дифференциальной конфиденциальности - это ограничение алгоритмов, используемых для публикации совокупной информации о статистической базе данных, которая ограничивает раскрытие частной информации о записях, информация о которых находится в базе данных. Например, некоторые правительственные учреждения используют дифференциально частные алгоритмы для публикации демографической информации или других статистических агрегатов, обеспечивая при этом конфиденциальность ответов на опрос, и компаниями для сбора информации о поведении пользователей при одновременном контроле что видно даже внутренним аналитикам.
Примерно алгоритм является дифференциально частным, если наблюдатель, видя его результат, не может сказать, использовалась ли информация конкретного человека в вычислениях. Дифференциальная конфиденциальность часто обсуждается в контексте идентификации лиц, информация о которых может находиться в базе данных. Хотя это не относится напрямую к атакам идентификации и повторной идентификации, дифференциально частные алгоритмы, вероятно, противостоят таким атакам.
Дифференциальная конфиденциальность была разработана криптографами и поэтому часто ассоциируется с криптография, и большую часть своего языка черпает из криптографии.
Официальные статистические организации обязаны собирать информацию от частных лиц или учреждений и публиковать совокупные данные данные в интересах общества. Например, в ходе переписи 1790 г. в США была собрана информация о лицах, проживающих в США, и опубликованы таблицы, основанные на полу, возрасте, расе и условиях подневольного труда. Статистические организации давно собирают информацию, обещая конфиденциальность, что предоставленная информация будет использоваться в статистических целях, но публикации не будут содержать информацию, которая может быть прослежена до конкретного человека или учреждения. Для достижения этой цели статистические организации долгое время скрывали информацию в своих публикациях. Например, в таблице, в которой представлены продажи каждого бизнеса в городе, сгруппированные по бизнес-категориям, ячейка, содержащая информацию только от одной компании, может быть скрыта, чтобы сохранить конфиденциальность конкретных продаж этой компании.
Внедрение систем электронной обработки информации статистическими агентствами в 1950-х и 1960-х годах резко увеличило количество таблиц, которые могла создать статистическая организация, и, таким образом, значительно увеличило вероятность ненадлежащего раскрытия конфиденциальной информации.. Например, если компания, для которой были подавлены показатели продаж, также включала эти цифры в общий объем продаж в регионе, то можно было бы определить подавленное значение путем вычитания других продаж из этой суммы. Но также могут быть комбинации добавлений и вычитаний, которые могут привести к раскрытию личной информации. Количество комбинаций, которые необходимо проверить, увеличивается экспоненциально с увеличением количества публикаций, и потенциально неограниченно, если пользователи данных могут делать запросы к статистической базе данных с помощью интерактивной системы запросов.
В 1977 году Тор Далениус формализовал математику подавления клеток.
В 1979 году Дороти Деннинг, Питер Дж. Деннинг и Майер Д. Шварц формализовал концепцию трекера, злоумышленника, который может узнать конфиденциальное содержимое статистической базы данных, создав серию целевых запросов и запомнив результаты. Это и дальнейшие исследования показали, что свойства конфиденциальности в базе данных можно сохранить только при рассмотрении каждого нового запроса в свете (возможно, всех) предыдущих запросов. Это направление работы иногда называют конфиденциальностью запросов, в результате чего отслеживание влияния запроса на конфиденциальность отдельных лиц в базе данных было NP-сложной задачей.
В 2003 году Кобби Ниссим и Ирит Динур продемонстрировали, что невозможно публиковать произвольные запросы к частной статистической базе данных без раскрытия некоторого количества частной информации, и что все информационное содержание базы данных может быть раскрыто путем публикации результатов удивительно небольшого числа случайных запросов - гораздо меньшего, чем предполагалось в предыдущей работе. Общий феномен известен как Основной закон восстановления информации, и его ключевое понимание, а именно то, что в самом общем случае нельзя защитить конфиденциальность, не создавая некоторого шума, привело к развитию дифференциальной конфиденциальности.
В 2006 году Синтия Дворк, Фрэнк МакШерри, Кобби Ниссим и Адам Д. Смит опубликовали статью, формулирующую количество шума, которое необходимо добавить, и предложение общего механизма для этого. Их работа стала со-обладателем награды TCC Test-of-Time Award 2016 и Gödel Prize.
2017 года. С тех пор последующие исследования показали, что существует множество способов получения очень точной статистики из базы данных, пока обеспечение высокого уровня конфиденциальности.
В статье Дворка, МакШерри, Ниссима и Смита 2006 года была представлена концепция ε-дифференциальной конфиденциальности, математическое определение потери конфиденциальности, связанной с любой выпуск данных из статистической базы данных. (Здесь термин «статистическая база данных» означает набор данных, которые собираются под залогом конфиденциальности с целью получения статистических данных, которые в результате их производства не ставят под угрозу конфиденциальность тех лиц, которые предоставили данные.)
Интуиция для определения ε-дифференциальной конфиденциальности 2006 года заключается в том, что конфиденциальность человека не может быть нарушена статистическим выпуском, если его данные не находятся в базе данных. Следовательно, при дифференцированной конфиденциальности цель состоит в том, чтобы предоставить каждому человеку примерно такую же конфиденциальность, которая была бы результатом удаления их данных. То есть статистические функции, выполняемые в базе данных, не должны чрезмерно зависеть от данных какого-либо одного человека.
Конечно, вклад каждого человека в результат базы данных частично зависит от того, сколько данных людей задействовано в запросе. Если база данных содержит данные от одного человека, данные этого человека составляют 100%. Если база данных содержит данные от сотни человек, данные каждого человека составляют всего 1%. Ключевое понимание дифференциальной конфиденциальности состоит в том, что, поскольку запрос выполняется на основе данных все меньшего и меньшего числа людей, необходимо добавить больше шума к результату запроса, чтобы обеспечить такую же степень конфиденциальности. Отсюда и название статьи 2006 года «Калибровка шума по чувствительности при анализе частных данных».
В документе 2006 года представлены как математическое определение дифференциальной конфиденциальности, так и механизм, основанный на добавлении шума Лапласа (т. Е. Шума, происходящего от распределения Лапласа ), который удовлетворяет определению.
Пусть ε будет положительным действительным числом и быть рандомизированным алгоритмом, который принимает набор данных в качестве входных данных (представляющий действия доверенной стороны, хранящей данные). Пусть обозначает изображение из . Считается, что алгоритм обеспечивает -дифференциальную конфиденциальность, если для всех наборы данных и , которые отличаются одним элементом (т. е. данные одного человека), и все подмножества из :
где вероятность берется по случайность, используемая алгоритмом.
Дифференциальная конфиденциальность предлагает надежные и надежные гарантии, которые облегчают модульное проектирование и анализ дифференциально частных механизмов благодаря его компоновке, устойчивости к постобработка и постепенная деградация в присутствии коррелированных данных.
(Само-) компонуемость относится к тому факту, что совместное распределение выходных данных (возможно, адаптивно выбранных) дифференциально закрытых механизмов удовлетворяет дифференциальной конфиденциальности.
Последовательная композиция. Если мы запрашиваем механизм ε-дифференциальной конфиденциальности раз, и рандомизация механизма независима для каждого запроса, то результат будет -дифференциально закрытым. В более общем случае, если есть независимых механизмов: , чьи гарантии конфиденциальности равны дифференциальная конфиденциальность, соответственно, то любая функция из них: равно -дифференциально частный.
Параллельная композиция. Если предыдущие механизмы вычисляются на непересекающихся подмножествах частной базы данных, то функция будет иметь вид вместо этого - дифференциально частный.
Для любой детерминированной или рандомизированной функции , определенный поверх образа механизма , если удовлетворяет ε-дифференциальной конфиденциальности, так же как и .
Вместе, компоновка и устойчивость к постобработке допускает модульное построение и анализ дифференциально частных механизмов и мотивирует концепцию бюджета потери конфиденциальности. Если все элементы, которые обращаются к конфиденциальным данным сложных механизмов, являются по отдельности дифференциально конфиденциальными, то будет их комбинация с последующей произвольной постобработкой.
В общем, ε-дифференциальная конфиденциальность предназначена для защиты конфиденциальности между соседними базами данных, которые отличаются только в одной строке. Это означает, что ни один противник с произвольной вспомогательной информацией не может знать, предоставил ли один конкретный участник свою информацию. Однако это также можно расширить, если мы хотим защитить базы данных, различающиеся строками , что означает, что злоумышленник с произвольной вспомогательной информацией может знать, конкретные участники представили свою информацию. Этого можно достичь, потому что если элементы изменяются, расширение вероятности ограничивается вместо ,т.е. для D 1 и D 2 различаются на элементы:
Таким образом, установив ε вместо , вы получите желаемый результат (защита пунктов). Другими словами, вместо того, чтобы иметь ε-дифференциально частную защиту каждого элемента, теперь каждая группа из элементов является ε-дифференциально частной защитой (и каждый элемент имеет - дифференциально закрытый защищенный).
Поскольку дифференциальная конфиденциальность - это вероятностная концепция, любой дифференциально частный механизм обязательно рандомизируется. Некоторые из них, такие как механизм Лапласа, описанный ниже, полагаются на добавление контролируемого шума к функции, которую мы хотим вычислить. Другие, такие как экспоненциальный механизм и выборка апостериорной выборки из проблемно-зависимого семейства распределений.
Пусть будет положительным целым числом, быть набором наборов данных, а быть функцией. Чувствительность функции, обозначенной , определяется как
где максимум - по всем парам наборов данных и в отличается не более чем одним элементом, а обозначает norm.
В примере из медицинской базы данных ниже, если мы рассматриваем как быть функцией , тогда чувствительность функции равна единице, так как изменение любой из записей в базе данных приводит к изменению вывода функции либо на ноль, либо на единицу.
Существуют методы (которые описаны ниже), с помощью которых мы можем создать дифференциально частный алгоритм для функций с низкой чувствительностью.
Механизм Лапласа добавляет шум Лапласа (т.е. шум от распределения Лапласа, который может быть выражен функцией плотности вероятности , что имеет нулевое среднее значение и стандартное отклонение ). Теперь в нашем случае мы определяем функцию вывода как функцию с действительным знаком (вызываемую ) как где и - это исходный запрос / функция с действительным значением, которые мы планировали выполнить в базе данных. Теперь ясно, что можно рассматривать как непрерывную случайную величину, где
.
., которое не превышает . Мы можем рассматривать как фактор конфиденциальности . Таким образом, следует дифференциально закрытому механизму (как видно из определения выше). Если мы попытаемся использовать эту концепцию в нашем примере с диабетом, то из полученного выше факта следует, что для того, чтобы иметь как -дифференциальный частный алгоритм, который нам нужен . Хотя здесь мы использовали шум Лапласа, можно использовать и другие формы шума, такие как гауссовский шум, но они могут потребовать небольшого ослабления определения дифференциальной конфиденциальности.
Согласно этому определению, дифференциальная конфиденциальность является условием для механизма выпуска (т. е. доверенная сторона раскрывает информацию о наборе данных), а не для самого набора данных. Интуитивно это означает, что для любых двух схожих наборов данных данный дифференциально частный алгоритм будет вести себя примерно одинаково для обоих наборов данных. Определение дает надежную гарантию того, что присутствие или отсутствие человека не окажет существенного влияния на окончательный результат алгоритма.
Например, предположим, что у нас есть база данных медицинских записей , где каждая запись представляет собой пару (Имя, X), где - это логическое значение, обозначающее, болен ли человек диабетом или нет. Например:
Имя | Диабет (X) |
---|---|
Росс | 1 |
Моника | 1 |
Джои | 0 |
Фиби | 0 |
Чендлер | 1 |
Рэйчел | 0 |
Теперь предположим, что злоумышленник (часто называемый противником) хочет выяснить, страдает ли Чендлер диабетом или нет. Предположим, он также знает, в какой строке базы данных находится Чендлер. Теперь предположим, что злоумышленнику разрешено использовать только определенную форму запроса , который возвращает частичную сумму первого строки столбца в базе данных. Чтобы узнать статус диабета Чендлера, противник выполняет и , затем вычисляет их разницу. В этом примере и , поэтому их разница равна 1. Это означает, что в поле «Имеет диабет» в строке Чендлера должно быть 1. В этом примере показано, как индивидуальная информация могут быть скомпрометированы даже без явного запроса информации о конкретном человеке.
Продолжая этот пример, если мы построим , заменив (Chandler, 1) на (Chandler, 0), тогда этот злонамеренный противник будет уметь отличать от путем вычисления для каждого набора данных. Если противник должен был получить значения через -дифференциально закрытый алгоритм, для достаточно маленького он или она не сможет различить два набора данных.
Простой пример, особенно разработанный в социальных науках, - это попросить человека ответить на вопрос «У вас есть атрибут А?», в соответствии со следующей процедурой:
(Кажется, что лишний дополнительный бросок в первом случае необходим в ситуациях, когда другие могут наблюдать просто подбрасывание монеты, даже если фактический результат остается скрыто.) Конфиденциальность возникает из опровержимости индивидуальных ответов.
Но в целом эти данные с множеством ответов имеют большое значение, поскольку положительные отзывы дают четверти люди, у которых нет атрибута А, и три четверти людей, которые действительно им обладают. Таким образом, если p - истинная доля людей с A, то мы ожидаем получить (1/4) (1-p) + (3/4) p = (1/4) + p / 2 положительных ответов. Следовательно, можно оценить p.
В частности, если атрибут A является синонимом незаконного поведения, то ответ «Да» не является компрометирующим, поскольку у человека есть вероятность ответа «Да», каким бы он ни был.
Хотя этот пример, вдохновленный рандомизированным ответом, может быть применим к микроданным (т. Е. Выпуск наборов данных с каждым отдельным ответом), по определению дифференциальная конфиденциальность исключает выпуск микроданных и применимо только к запросам (т. е. объединению отдельных ответов в один результат), поскольку это нарушит требования, в частности правдоподобное отрицание того, участвовал или нет субъект.
A преобразование является -устойчивым, если расстояние Хэмминга между и не более -кратное расстояние Хэмминга между и для любых двух баз данных . Теорема 2 утверждает, что если существует механизм , который является -дифференциально частным, то составной механизм is -дифференциально закрытый.
Это можно обобщить на конфиденциальность группы, поскольку размер группы можно представить как расстояние Хэмминга между и (где содержит группу, а - нет). В этом случае равно - дифференциально частный.
Поскольку дифференциальная конфиденциальность считается слишком сильной или слабой для некоторых приложений, было предложено множество ее версий. Наиболее распространенное ослабление - (ε, δ) -дифференциальная конфиденциальность, которая ослабляет определение, допуская дополнительную малую плотность вероятности δ, при которой верхняя граница ε не выполняется.
На сегодняшний день известно несколько практических применений дифференциальной конфиденциальности: