Универсальное хеширование

редактировать

В математике и вычислениях, универсальном хешировании (в рандомизированный алгоритм или структура данных) относится к случайному выбору хэш-функции из семейства хэш-функций с определенным математическим свойством (см. определение ниже). Это гарантирует небольшое количество конфликтов в ожидании, даже если данные выбираются злоумышленником. Известно много универсальных семейств (для хеширования целых чисел, векторов, строк), и их вычисление часто бывает очень эффективным. Универсальное хеширование имеет множество применений в информатике, например, в реализациях хеш-таблиц, рандомизированных алгоритмов и криптографии.

Содержание

1 Введение
2 Математические гарантии
3 Конструкции
- 3.1 Хеширование целых чисел
  - 3.1.1 Избегание модульной арифметики
- 3.2 Хеширование векторов
- 3.3 Хеширование строк
  - 3.3.1 Избегание модульной арифметики
4 См. Также
5 Ссылки
6 Дополнительная литература
7 Внешние ссылки

Введение

Предположим, мы хотим сопоставить ключи из некоторой вселенной $U {\ displaystyle U}$ $U$ в $m {\ displaystyle m}$ $m$ бункеры (с меткой $[m] = {0,…, m - 1} {\ displaystyle [m] = \ {0, \ dots, m -1 \}}$ $[m]=\{0,\dots,m-1\}$ ). Алгоритм должен будет обработать некоторый набор данных $S ⊆ U {\ displaystyle S \ substeq U}$ $S\subseteq U$ of $| S | = n {\ displaystyle | S | = n}$ $|S|=n$ ключи, которые заранее не известны. Обычно целью хеширования является получение небольшого количества конфликтов (ключи из $S {\ displaystyle S}$ $S$ , которые попадают в один и тот же лоток). Детерминированная хеш-функция не может предложить никаких гарантий в условиях состязательности, если размер $U {\ displaystyle U}$ $U$ больше, чем $m ⋅ n {\ displaystyle m \ cdot n}$ $m\cdot n$ , поскольку злоумышленник может выбрать $S {\ displaystyle S}$ $S$ как точный прообраз корзины. Это означает, что все ключи данных попадают в одну корзину, что делает хеширование бесполезным. Кроме того, детерминированная хеш-функция не позволяет перехешировать: иногда входные данные оказываются плохими для хеш-функции (например, слишком много коллизий), поэтому хотелось бы изменить хеш-функцию.

Решение этих проблем состоит в том, чтобы случайным образом выбрать функцию из семейства хеш-функций. Семейство функций $H = {h: U → [m]} {\ displaystyle H = \ {h: U \ to [m] \}}$ $H=\{h:U\to [m]\}$ называется универсальным семейством если, $∀ x, y ∈ U, x ≠ y: Pr h ∈ H [h (x) = h (y)] ≤ 1 м {\ displaystyle \ forall x, y \ in U, ~ x \ neq y: ~~ \ Pr _ {h \ in H} [h (x) = h (y)] \ leq {\ frac {1} {m}}}$ $\forall x,y\in U,~x\neq y:~~\Pr _{h\in H}[h(x)=h(y)]\leq {\frac {1}{m}}$ .

Другими словами, любые два ключа вселенной сталкиваются с вероятностью не более $1 / m {\ displaystyle 1 / m}$ $1/m$ , когда хэш-функция $h {\ displaystyle h}$ $h$ выбирается случайным образом из $Н {\ Displaystyle H}$ $H$ . Это именно та вероятность коллизии, которую мы ожидали бы, если бы хеш-функция назначила действительно случайные хэш-коды каждому ключу. Иногда определение смягчается, чтобы разрешить вероятность столкновения $O (1 / m) {\ displaystyle O (1 / m)}$ $O(1/m)$ . Эта концепция была введена Картером и Вегманом в 1977 году и нашла многочисленные применения в информатике (см., Например). Если у нас есть верхняя граница $ϵ < 1 {\displaystyle \epsilon <1}$ $\epsilon <1$ вероятности столкновения, мы говорим, что у нас $ϵ {\ displaystyle \ epsilon}$ $\epsilon$ -почти универсальность.

Многие, но не все универсальные семейства обладают следующим более сильным свойством равномерной разности :

∀ x, y ∈ U, x ≠ y {\ displaystyle \ forall x, y \ in U, ~ x \ neq y}

\forall x,y\in U,~x\neq y

, когда

h {\ displaystyle h}

h

выбирается случайным образом из семейства

H {\ displaystyle H}

H

, разница

h (x) - h (y) mod m {\ displaystyle h (x) -h (y) ~ {\ bmod {~}} m}

h(x)-h(y)~{\bmod ~}m

равномерно распределена в

[m] {\ displaystyle [m]}

[m]

Обратите внимание, что определение универсальности касается только того, $h (x) - h (y) = 0 {\ displaystyle h (x) -h (y) = 0}$ $h(x)-h(y)=0$ , который считает коллизии. Свойство равномерной разницы сильнее.

(Точно так же универсальное семейство может быть универсальным XOR, если $∀ x, y ∈ U, x ≠ y {\ displaystyle \ forall x, y \ in U, ~ x \ neq y}$ $\forall x,y\in U,~x\neq y$ , значение $h (x) ⊕ h (y) mod m {\ displaystyle h (x) \ oplus h (y) ~ {\ bmod {~}} m}$ $h(x)\oplus h(y)~{\bmod ~}m$ равномерно распределен в $[m] {\ displaystyle [m]}$ $[m]$ , где $⊕ {\ displaystyle \ oplus}$ $\oplus$ - побитовая операция исключающее ИЛИ. Это только возможно, если $m {\ displaystyle m}$ $m$ - степень двойки.)

Еще более сильным условием является попарная независимость : у нас есть это свойство, когда $∀ x, y ∈ U, x ≠ y {\ displaystyle \ forall x, y \ in U, ~ x \ neq y}$ $\forall x,y\in U,~x\neq y$ у нас есть вероятность, что $x, y {\ displaystyle x, y}$ $x,y$ будет хешировать любую пару хеш-значений $z 1, z 2 {\ displaystyle z_ {1}, z_ {2}}$ $z_{1},z_{2}$ как если бы они были совершенно случайно: $P (час (x) = z 1 ∧ час (y) = z 2) = 1 / m 2 {\ displaystyle P (h (x) = z_ {1} \ land h (y) = z_ {2}) = 1 / м ^ {2}}$ $P(h(x)=z_{1}\land h(y)=z_{2})=1/m^{2}$ . Попарную независимость иногда называют сильной универсальностью.

Еще одно свойство - однородность. Мы говорим, что семья однородна, если все хеш-значения одинаково вероятны: $P (h (x) = z) = 1 / m {\ displaystyle P (h (x) = z) = 1 / m}$ $P(h(x)=z)=1/m$ для любого хеш-значения $z {\ displaystyle z}$ $z$ . Универсальность не означает единообразия. Однако сильная универсальность предполагает единообразие.

Учитывая семейство со свойством равномерного расстояния, можно создать попарно независимое или строго универсальное хеш-семейство, добавив равномерно распределенную случайную константу со значениями в $[m] {\ displaystyle [m]}$ $[m]$ в хэш-функции. (Точно так же, если $m {\ displaystyle m}$ $m$ представляет собой степень двойки, мы можем добиться попарной независимости от семейства универсальных хеш-кодов XOR, выполняя исключающую или с равномерно распределенной случайной константой.) сдвиг на константу иногда не имеет значения в приложениях (например, в хеш-таблицах), иногда не проводится тщательное различие между свойством равномерного расстояния и попарно независимым.

Для некоторых приложений (например, хеш-таблиц) это важно, чтобы наименее значимые биты хеш-значений также были универсальными. Если семейство строго универсально, это гарантировано: если $H {\ displaystyle H}$ $H$ является строго универсальным семейством с $m = 2 L {\ displaystyle m = 2 ^ {L} }$ $m=2^{L}$ , тогда семейство, состоящее из функций $h mod 2 L ′ {\ displaystyle h {\ bmod {2 ^ {L '}}}}$ $h{\bmod {2^{{L'}}}}$ для всех $h ∈ H {\ displaystyle h \ in H}$ $h\in H$ также строго универсален для $L ′ ≤ L {\ displaystyle L '\ leq L}$ $L'\leq L$ . К сожалению, этого нельзя сказать о (просто) универсальных семьях. Например, семейство, состоящее из функции идентичности $h (x) = x {\ displaystyle h (x) = x}$ $h(x)=x$ , явно универсально, но семейство, состоящее из функции $h (x) = x mod 2 L ′ {\ displaystyle h (x) = x {\ bmod {2 ^ {L '}}}}}$ $h(x)=x{\bmod {2^{{L'}}}}$ не может быть универсальным.

UMAC и Poly1305-AES и несколько других кодов аутентификации сообщений основаны на универсальном хешировании. В таких приложениях программное обеспечение выбирает новую хэш-функцию для каждого сообщения на основе уникального одноразового номера для этого сообщения.

Некоторые реализации хеш-таблиц основаны на универсальном хешировании. В таких приложениях, как правило, программное обеспечение выбирает новую хеш-функцию только после того, как замечает, что «слишком много» ключей столкнулись; до тех пор одна и та же хеш-функция продолжает использоваться снова и снова. (Некоторые схемы разрешения конфликтов, такие как динамическое идеальное хеширование, выбирают новую хэш-функцию каждый раз, когда возникает конфликт. Другие схемы разрешения конфликтов, такие как хеширование с кукушкой и 2 -choice hashing, разрешить несколько коллизий перед выбором новой хеш-функции). Обзор самых быстрых известных универсальных и строго универсальных хеш-функций для целых чисел, векторов и строк можно найти в.

Математические гарантии

Для любого фиксированного набора $S {\ displaystyle S}$ $S$ из $n {\ displaystyle n}$ $n$ ключей, использование универсального семейства гарантирует следующие свойства.

Для любого фиксированного $x {\ displaystyle x}$ $x$ в $S {\ displaystyle S}$ $S$ ожидаемое количество ключей в корзине $h (x) {\ displaystyle h (x)}$ $h(x)$ равно $n / m {\ displaystyle n / m}$ $n/m$ . При реализации хэш-таблиц путем объединения в цепочку это число пропорционально ожидаемому времени выполнения операции с использованием ключа $x {\ displaystyle x}$ $x$ (например, запрос, вставка или удаление).
Ожидаемое количество пар ключей $x, y {\ displaystyle x, y}$ $x,y$ в $S {\ displaystyle S}$ $S$ с $Икс ≠ Y {\ Displaystyle x \ neq y}$ $x\neq y$ , которые сталкиваются ( $h (x) = h (y) {\ displaystyle h (x) = h (y)) }$ $h(x)=h(y)$ ) ограничен сверху $n (n - 1) / 2 m {\ displaystyle n (n-1) / 2m}$ $n(n-1)/2m$ , что имеет порядок $О (N 2 / м) {\ Displaystyle О (п ^ {2} / м)}$ $O(n^{2}/m)$ . Когда количество интервалов $m {\ displaystyle m}$ $m$ выбирается линейным в $n {\ displaystyle n}$ $n$ (т. Е. Определяется функцией в $Ω (n) {\ displaystyle \ Omega (n)}$ $\Omega (n)$ ), ожидаемое количество столкновений составляет $O (n) {\ displaystyle O (n)}$ $O(n)$ . При хешировании в $n 2 {\ displaystyle n ^ {2}}$ $n^{2}$ бункеры, с вероятностью не менее половины конфликтов вообще не возникает.
Ожидаемое количество ключей в бункеры с хотя бы $t {\ displaystyle t}$ $t$ ключами в них ограничены сверху $2 n / (t - 2 (n / m) + 1) {\ displaystyle 2n / ( т-2 (н / м) +1)}$ $2n/(t-2(n/m)+1)$ . Таким образом, если емкость каждого бункера ограничена трехкратным средним размером ( $t = 3 n / m {\ displaystyle t = 3n / m}$ $t=3n/m$ ), общее количество ключей в переполнении бункеры не более $O (m) {\ displaystyle O (m)}$ $O(m)$ . Это справедливо только для семейства хешей, вероятность столкновения которого ограничена выше $1 / m {\ displaystyle 1 / m}$ $1/m$ . Если используется более слабое определение, ограничивающее его $O (1 / m) {\ displaystyle O (1 / m)}$ $O(1/m)$ , этот результат больше не верен.

Как указано выше. удерживаются для любого фиксированного набора $S {\ displaystyle S}$ $S$ , они сохраняются, если набор данных выбран противником. Однако злоумышленник должен сделать этот выбор до (или независимо от) случайного выбора алгоритмом хэш-функции. Если злоумышленник может наблюдать случайный выбор алгоритма, случайность не имеет смысла, и ситуация аналогична детерминированному хешированию.

Вторая и третья гарантия обычно используются вместе с перехешированием. Например, может быть подготовлен рандомизированный алгоритм для обработки некоторого $O (n) {\ displaystyle O (n)}$ $O(n)$ количества конфликтов. Если он наблюдает слишком много столкновений, он выбирает другой случайный $h {\ displaystyle h}$ $h$ из семейства и повторяет. Универсальность гарантирует, что количество повторений является геометрической случайной величиной.

Конструкции

Поскольку любые компьютерные данные могут быть представлены в виде одного или нескольких машинных слов, обычно требуются хеш-функции для трех типов доменов: машинные слова («целые числа»); векторы машинных слов фиксированной длины; и векторы переменной длины («строки»).

Хеширование целых чисел

Этот раздел относится к случаю хеширования целых чисел, которые помещаются в машинные слова; таким образом, такие операции, как умножение, сложение, деление и т. д., являются дешевыми инструкциями машинного уровня. Пусть хешируемая вселенная имеет вид $U = {0,…, m - 1} {\ displaystyle U = \ {0, \ dots, m-1 \}}$ $U = \{0, \dots, m-1\}$ .

Первоначальное предложение Картера и Вегмана было выбрать простое число $p ≥ m {\ displaystyle p \ geq m}$ $p \ge m$ и определить

ha, b (x) = ((ax + b) mod p) mod m {\ displaystyle h_ {a, b} (x) = ((ax + b) ~ {\ bmod {~}} p) ~ {\ bmod {~}} m}

h_{{a,b}}(x)=((ax+b)~{\bmod ~}p)~{\bmod ~}m

где $a, b {\ displaystyle a, b}$ $a,b$ - случайно выбранные целые числа по модулю $p {\ displaystyle p}$ $p$ с $a ≠ 0 {\ displaystyle a \ neq 0}$ $a\neq 0$ . (Это единственная итерация линейного конгруэнтного генератора.)

Чтобы увидеть, что $H = {ha, b} {\ displaystyle H = \ {h_ {a, b } \}}$ $H=\{h_{{a,b}}\}$ - универсальное семейство, обратите внимание, что $h (x) = h (y) {\ displaystyle h (x) = h (y)}$ $h(x)=h(y)$ имеет место только когда

ax + b ≡ ay + b + i ⋅ m (mod p) {\ displaystyle ax + b \ Equiv ay + b + i \ cdot m {\ pmod {p}}}

ax+b\equiv ay+b+i\cdot m{\pmod {p}}

для некоторого целого числа $я {\ displaystyle i}$ $i$ между $0 {\ displaystyle 0}$ $0$ и $(p - 1) / m {\ displaystyle (p-1) / m}$ $(p-1)/m$ . Если $x ≠ y {\ displaystyle x \ neq y}$ $x\neq y$ , их разность, $x - y {\ displaystyle xy}$ $x-y$ не равна нулю и имеет обратный модуль $п {\ displaystyle p}$ $p$ . Решение для $a {\ displaystyle a}$ $a$ дает

a ≡ i ⋅ m ⋅ (x - y) - 1 (mod p) {\ displaystyle a \ Equiv i \ cdot m \ cdot (xy) ^ {- 1} {\ pmod {p}}}

a\equiv i\cdot m\cdot (x-y)^{{-1}}{\pmod {p}}

Существует $p - 1 {\ displaystyle p-1}$ $p-1$ возможных вариантов для $a {\ displaystyle a}$ $a$ (поскольку $a = 0 {\ displaystyle a = 0}$ $a=0$ исключен) и, изменяя $i {\ displaystyle i}$ $i$ в допустимом диапазоне $⌊ (p - 1) / m ⌋ {\ displaystyle \ lfloor (p-1) / m \ rfloor}$ $\lfloor (p - 1)/m \rfloor$ возможные ненулевые значения для правой стороны. Таким образом, вероятность столкновения равна

⌊ (p - 1) / m ⌋ / (p - 1) ≤ ((p - 1) / m) / (p - 1) = 1 / m {\ displaystyle \ lfloor (p -1) / m \ rfloor / (p-1) \ leq ((p-1) / m) / (p-1) = 1 / m}

\lfloor (p - 1)/m \rfloor / (p-1) \le ((p-1)/m)/(p-1) = 1/m

Другой способ увидеть $H {\ displaystyle H }$ $H$ - это универсальное семейство через понятие статистического расстояния. Запишите разницу $h (x) - h (y) {\ displaystyle h (x) -h (y)}$ $h(x)-h(y)$ как

h (x) - h (y) ≡ (a (Икс - Y) по модулю р) (по модулю М) {\ Displaystyle ч (х) -ч (у) \ эквив (а (ху) ~ {\ bmod {~}} р) {\ pmod {m}}}

h(x)-h(y)\equiv (a(x-y) ~{\bmod ~}p){\pmod {m}}

Поскольку $x - y {\ displaystyle xy}$ $x-y$ отлично от нуля, а $a {\ displaystyle a}$ $a$ равномерно распределен в ${1,…, p - 1} {\ displaystyle \ {1, \ dots, p-1 \}}$ $\{1,\dots,p-1\}$ , отсюда следует, что $a (x - y) {\ displaystyle a (xy)}$ $a(x-y)$ по модулю $p {\ displaystyle p}$ $p$ также равномерно распределен в ${1,…, p - 1} {\ displaystyle \ {1, \ dots, p-1 \ }}$ $\{1,\dots,p-1\}$ . Распределение $(h (x) - h (y)) mod m {\ displaystyle (h (x) -h (y)) ~ {\ bmod {~}} m}$ $(h(x)-h(y))~{\bmod ~}m$ равно таким образом, почти равномерно, с разницей в вероятности $± 1 / p {\ displaystyle \ pm 1 / p}$ $\pm 1/p$ между выборками. В результате статистическое расстояние до однородного семейства составляет $O (m / p) {\ displaystyle O (m / p)}$ $O(m/p)$ , которое становится незначительным, когда $p ≫ m {\ displaystyle p \ gg m}$ $p\gg m$ .

Семейство более простых хеш-функций

ha (x) = (ax mod p) mod m {\ displaystyle h_ {a} (x) = (ax ~ {\ bmod {~} } p) ~ {\ bmod {~}} m}

h_{a}(x)=(ax~{\bmod ~}p)~{\bmod ~}m

является приблизительно универсальным: $Pr {ha (x) = ha (y)} ≤ 2 / m {\ displaystyle \ Pr \ {h_ {a } (x) = h_ {a} (y) \} \ leq 2 / m}$ $\ Pr\{h_{a}(x)=h_{a}(y)\}\leq 2/m$ для всех $x ≠ y {\ displaystyle x \ neq y}$ $x\neq y$ . Более того, этот анализ почти точен; Картер и Вегман показывают, что $Pr {ha (1) = ha (m + 1)} ≥ 2 / (m - 1) {\ displaystyle \ Pr \ {h_ {a} (1) = h_ {a} ( m + 1) \} \ geq 2 / (m-1)}$ $\Pr\{h_{a}(1)=h_{a}(m+1)\}\geq 2/(m-1)$ всякий раз, когда $(p - 1) mod m = 1 {\ displaystyle (p-1) ~ {\ bmod {~} } m = 1}$ $(p-1)~{\bmod ~}m=1$ .

Отказ от модульной арифметики

Современным состоянием хеширования целых чисел является схема умножение-сдвиг, описанная Dietzfelbinger et al. в 1997 году. Избегая модульной арифметики, этот метод намного проще реализовать, а также он работает значительно быстрее на практике (обычно как минимум в четыре раза). Схема предполагает, что количество интервалов является степенью двойки, $m = 2 M {\ displaystyle m = 2 ^ {M}}$ $m=2^{M}$ . Пусть $w {\ displaystyle w}$ $w$ будет количеством битов в машинном слове. Затем хеш-функции параметризуются для нечетных положительных целых чисел $a < 2 w {\displaystyle a<2^{w}}$ $a<2^{w}$ (которые помещаются в слово из $w {\ displaystyle w}$ $w$ бит). Чтобы вычислить $ha (x) {\ displaystyle h_ {a} (x)}$ $h_{{a}}(x)$ , умножьте $x {\ displaystyle x}$ $x$ на $a {\ displaystyle a}$ $a$ по модулю $2 w {\ displaystyle 2 ^ {w}}$ $2^{w}$ , а затем сохраните высокий порядок $M {\ displaystyle M}$ $M$ бит как хэш-код. В математической записи это

ha (x) = (a ⋅ x mod 2 w) div 2 w - M {\ displaystyle h_ {a} (x) = (a \ cdot x \, \, {\ bmod {\,}} 2 ^ {w}) \, \, \ mathrm {div} \, \, 2 ^ {wM}}

h_{a}(x)=(a\cdot x\,\,{\bmod \,}2^{w})\,\,{\mathrm {div}}\,\,2^{{w-M}}

, и это может быть реализовано в C -подобных языках программирования by

ha (x) = {\ displaystyle h_ {a} (x) =}

h_{a}(x)=

(size_t) (a * x)>>(wM)

Эта схема не удовлетворяет свойству равномерной разницы и всего лишь $2 / m {\ displaystyle 2 / m}$ $2/m$ -почти универсальный; для любого $x ≠ y {\ displaystyle x \ neq y}$ $x\neq y$ , $Pr {ha (x) = ha (y)} ≤ 2 / m {\ displaystyle \ Pr \ {h_ {a} (x) = h_ {a} (y) \} \ leq 2 / m}$ $\ Pr\{h_{a}(x)=h_{a}(y)\}\leq 2/m$ .

Чтобы понять поведение хеш-функции, обратите внимание, что если $ax mod 2 w {\ displaystyle ax {\ bmod {2}} ^ {w}}$ $ax{\bmod 2}^{w}$ и $ay mod 2 w {\ displaystyle ay {\ bmod {2}} ^ {w}}$ $ay{\bmod 2}^{w}$ имеют одинаковые биты M наивысшего порядка, то $a (x - y) mod 2 w {\ displaystyle a (xy) {\ bmod {2}} ^ {w}}$ $a(x-y){\bmod 2}^{w}$ имеет либо все единицы, либо все нули в качестве высшего порядка M бит (в зависимости от того, $ax mod 2 w {\ displaystyle ax {\ bmod {2}} ^ {w}}$ $ax{\bmod 2}^{w}$ или $ay mod 2 w {\ displaystyle ay {\ bmod {2}} ^ {w}}$ $ay{\bmod 2}^{w}$ больше). Предположим, что младший бит набора $x - y {\ displaystyle x-y}$ $x-y$ появляется в позиции $w - c {\ displaystyle w-c}$ $w-c$ . Поскольку $a {\ displaystyle a}$ $a$ является случайным нечетным целым числом, а нечетные целые числа имеют обратные значения в кольце $Z 2 w {\ displaystyle Z_ {2 ^ {w }}}$ $Z_{{2^{w}}}$ , из этого следует, что $a (x - y) mod 2 w {\ displaystyle a (xy) {\ bmod {2}} ^ {w}}$ $a(x-y){\bmod 2}^{w}$ будет равномерно распределен среди $w {\ displaystyle w}$ $w$ -битовых целых чисел с младшим установленным битом в позиции $w - c {\ displaystyle wc}$ $w-c$ . Таким образом, вероятность того, что все эти биты - это нули или все единицы, составляет не более $2/2 M = 2 / m {\ displaystyle 2/2 ^ {M} = 2 / m}$ $2/2^{M}=2/m$ . С другой стороны, если $c < M {\displaystyle c$ $c<M$ , то M битов более высокого порядка $a (x - y) mod 2 w {\ displaystyle a (xy) {\ bmod {2}} ^ {w}}$ $a(x-y){\bmod 2}^{w}$ содержат как нули, так и единицы, поэтому очевидно, что $h (x) ≠ h (y) {\ displaystyle h (x) \ neq h (y)}$ $h(x)\neq h(y)$ . Наконец, если $c = M {\ displaystyle c = M}$ $c=M$ , то бит $w - M {\ displaystyle wM}$ $w-M$ из $a (x - y) mod 2 вес {\ displaystyle a (xy) {\ bmod {2}} ^ {w}}$ $a(x-y){\bmod 2}^{w}$ равно 1 и $ha (x) = ha (y) {\ displaystyle h_ {a } (x) = h_ {a} (y)}$ $h_{a}(x)=h_{a}(y)$ тогда и только тогда, когда биты $w - 1,…, w - M + 1 {\ displaystyle w-1, \ ldots, w- M + 1}$ $w-1,\ldots,w-M+1$ тоже равно 1, что происходит с вероятностью $1/2 M - 1 = 2 / m {\ displaystyle 1/2 ^ {M-1} = 2 / m}$ $1/2^{{M-1}}=2/m$ .

Этот анализ точен, как можно показать на примере $x = 2 w - M - 2 {\ displaystyle x = 2 ^ {wM-2}}$ $x=2^{{w-M-2}}$ и $y = 3 х {\ displaystyle y = 3x}$ $y=3x$ . Чтобы получить действительно «универсальную» хеш-функцию, можно использовать схему умножения-сложения-сдвига

ha, b (x) = ((ax + b) mod 2 w) div 2 w - M {\ displaystyle h_ { a, b} (x) = ((ax + b) {\ bmod {2}} ^ {w}) \, \ mathrm {div} \, 2 ^ {wM}}

h_{{a,b}}(x)=((ax+b){\bmod 2}^{w})\,{\mathrm {div}}\,2^{{w-M}}

который может быть реализован в C -подобные языки программирования на

ha, b (x) = {\ displaystyle h_ {a, b} (x) =}

h_{{a,b}}(x)=

(size_t) (a * x + b)>>(wM)

где $a {\ displaystyle a}$ $a$ - случайное нечетное положительное целое число с $a < 2 w {\displaystyle a<2^{w}}$ $a<2^{w}$ и $b {\ displaystyle b}$ $b$ - случайное неотрицательное целое число с $b < 2 w − M {\displaystyle b<2^{w-M}}$ $b<2^{{w-M}}$ . С этими вариантами выбора $a {\ displaystyle a}$ $a$ и $b {\ displaystyle b}$ $b$ , $Pr {ha, b (x) = ha, b (y)} ≤ 1 / m {\ displaystyle \ Pr \ {h_ {a, b} (x) = h_ {a, b} (y) \} \ leq 1 / m}$ $\Pr\{h_{{a,b}}(x)=h_{{a,b}}(y)\}\leq 1/m$ для всех $x ≢ y (по модулю 2 вес) {\ Displaystyle х \ не \ эквив у {\ pmod {2 ^ {w}}}}$ $x\not \equiv y{\pmod {2^{w}}}$ . Это немного отличается, но важно, от неправильного перевода в английской статье.

Хеширующие векторы

В этом разделе рассматривается хеширование вектора фиксированной длины машинных слов. Интерпретировать ввод как вектор $x ¯ = (x 0,…, xk - 1) {\ displaystyle {\ bar {x}} = (x_ {0}, \ dots, x_ {k-1})}$ ${\bar {x}}=(x_{0},\dots,x_{{k-1}})$ из $k {\ displaystyle k}$ $k$ машинных слов (целые числа $w {\ displaystyle w}$ $w$ бит каждое). Если $H {\ displaystyle H}$ $H$ - универсальное семейство со свойством равномерной разности, следующее семейство (восходящее к Картеру и Вегману) также имеет свойство равномерной разности (и, следовательно, является универсальным):

час (x ¯) = (∑ i = 0 k - 1 hi (xi)) mod m {\ displaystyle h ({\ bar {x}}) = \ left (\ sum _ {i = 0} ^ {k-1} h_ {i} (x_ {i}) \ right) \, {\ bmod {~}} m}

h({\bar {x}})=\left(\sum _{{i=0}}^{{k-1}}h_{i}(x_{i})\right)\,{\bmod ~}m

, где каждый

hi ∈ H {\ displaystyle h_ {i } \ in H}

h_{i}\in H

выбирается независимо случайным образом.

Если $m {\ displaystyle m}$ $m$ является степенью двойки, можно заменить суммирование исключающим или.

На практике, если доступна арифметика с двойной точностью, она создается с помощью семейства хеш-функций с множественным сдвигом. Инициализируйте хеш-функцию вектором $a ¯ = (a 0,…, ak - 1) {\ displaystyle {\ bar {a}} = (a_ {0}, \ dots, a_ {k-1}) }$ ${\bar {a}}=(a_{0},\dots,a_{{k-1}})$ случайных нечетных целых чисел по $2 w {\ displaystyle 2w}$ $2w$ битам каждое. Тогда, если количество бункеров равно $m = 2 M {\ displaystyle m = 2 ^ {M}}$ $m=2^{M}$ для $M ≤ w {\ displaystyle M \ leq w}$ $M\leq w$ :

га ¯ (Икс ¯) знак равно ((∑ я = 0 К - 1 xi ⋅ ai) mod 2 2 w) div 2 2 w - M {\ displaystyle h _ {\ bar {a}} ({\ bar {x}}) = \ left ({\ big (} \ sum _ {i = 0} ^ {k-1} x_ {i} \ cdot a_ {i} {\ big)} ~ {\ bmod {~}} 2 ^ {2w } \ right) \, \, \ mathrm {div} \, \, 2 ^ {2w-M}}

h_{{{\bar {a}}}}({\bar {x}})=\left({\big (}\sum _{{i=0}}^{{k-1}}x_{i}\cdot a_{i}{\big)}~{\bmod ~}2^{{2w}}\right)\,\,{\mathrm {div}}\,\,2^{{2w-M}}

Число умножений можно уменьшить вдвое, что примерно означает двукратное ускорение практика. Инициализируйте хеш-функцию вектором $a ¯ = (a 0,…, ak - 1) {\ displaystyle {\ bar {a}} = (a_ {0}, \ dots, a_ {k-1}) }$ ${\bar {a}}=(a_{0},\dots,a_{{k-1}})$ случайных нечетных целых чисел по $2 w {\ displaystyle 2w}$ $2w$ битам каждое. Следующее семейство хешей является универсальным:

ha ¯ (x ¯) = ((∑ i = 0 ⌈ k / 2 ⌉ (x 2 i + a 2 i) ⋅ (x 2 i + 1 + a 2 i + 1)) mod 2 2 вес) div 2 2 вес - M {\ displaystyle h _ {\ bar {a}} ({\ bar {x}}) = \ left ({\ Big (} \ sum _ {i = 0}) ^ {\ lceil k / 2 \ rceil} (x_ {2i} + a_ {2i}) \ cdot (x_ {2i + 1} + a_ {2i + 1}) {\ Big)} {\ bmod {~}} 2 ^ {2w} \ right) \, \, \ mathrm {div} \, \, 2 ^ {2w-M}}

h_{{{\bar {a}}}}({\bar {x}})=\left({\Big (}\sum _{{i=0}}^{{\lceil k/2\rceil }}(x_{{2i}}+a_{{2i}})\cdot (x_{{2i+1}}+a_{{2i+1}}){\Big)}{\bmod ~}2^{{2w}}\right)\,\,{\mathrm {div}}\,\,2^{{2w-M}}

Если операции с двойной точностью недоступны, можно интерпретировать ввод как вектор полуслова ( $w / 2 {\ displaystyle w / 2}$ $w/2$ -битовые целые числа). Затем алгоритм будет использовать $⌈ k / 2 ⌉ {\ displaystyle \ lceil k / 2 \ rceil}$ $\lceil k/2\rceil$ умножения, где $k {\ displaystyle k}$ $k$ было количество полуслов в векторе. Таким образом, алгоритм работает со «скоростью» одно умножение на слово ввода.

Ту же схему можно также использовать для хеширования целых чисел, интерпретируя их биты как векторы байтов. В этом варианте векторный метод известен как хеширование табуляции и представляет собой практическую альтернативу универсальным схемам хеширования на основе умножения.

Также возможна сильная универсальность при высокой скорости. Инициализируйте хеш-функцию вектором $a ¯ = (a 0,…, ak) {\ displaystyle {\ bar {a}} = (a_ {0}, \ dots, a_ {k})}$ ${\bar {a}}=(a_{0},\dots,a_{{k}})$ случайных целых чисел в $2 w {\ displaystyle 2w}$ $2w$ битах. Вычислить

ха ¯ (x ¯) strong = (a 0 + ∑ i = 0 k - 1 ai + 1 xi mod 2 2 w) div 2 w {\ displaystyle h _ {\ bar {a}} ({\ bar {x}}) ^ {\ mathrm {strong}} = (a_ {0} + \ sum _ {i = 0} ^ {k-1} a_ {i + 1} x_ {i} {\ bmod {~} } 2 ^ {2w}) \, \, \ mathrm {div} \, \, 2 ^ {w}}

h_{{{\bar {a}}}}({\bar {x}})^{{{\mathrm {strong}}}}=(a_{0}+\sum _{{i=0}}^{{k-1}}a_{{i+1}}x_{{i}}{\bmod ~}2^{{2w}})\,\,{\mathrm {div}}\,\,2^{w}

Результат строго универсален для $w {\ displaystyle w}$ $w$ биты. Экспериментально было обнаружено, что на последних процессорах Intel он работает при 0,2 цикла ЦП на байт для $w = 32 {\ displaystyle w = 32}$ $w=32$ .

строк хеширования

Это относится к хешированию переменных переменного размера. вектор машинных слов. Если длина строки может быть ограничена небольшим числом, лучше всего использовать решение вектора сверху (концептуально дополняя вектор нулями до верхней границы). Требуемое пространство - это максимальная длина строки, но время для вычисления $h (s) {\ displaystyle h (s)}$ $h(s)$ равно длине $s {\ displaystyle s }$ $s$ . Пока нули в строке запрещены, заполнение нулями можно игнорировать при оценке хэш-функции, не влияя на универсальность. Обратите внимание, что если в строке разрешены нули, то, возможно, лучше всего добавить фиктивный ненулевой символ (например, 1) ко всем строкам до заполнения: это гарантирует, что универсальность не пострадает.

Теперь предположим, что мы хотим хешировать $x ¯ = (x 0,…, x ℓ) {\ displaystyle {\ bar {x}} = (x_ {0}, \ dots, x _ {\ ell})}$ ${\bar {x}}=(x_{0},\dots,x_{\ell })$ , где хорошая граница для $ℓ {\ displaystyle \ ell}$ $\ell$ априори неизвестна. Универсальное семейство, предложенное в, рассматривает строку $x {\ displaystyle x}$ $x$ как коэффициенты полинома по модулю большого простого числа. Если $xi ∈ [u] {\ displaystyle x_ {i} \ in [u]}$ $x_{i}\in [u]$ , пусть $p ≥ max {u, m} {\ displaystyle p \ geq \ max \ {u, m \}}$ $p\geq \max\{u,m\}$ быть простым и определить:

ha (x ¯) = намек ((∑ i = 0 ℓ xi ⋅ a ℓ - i) mod p) {\ displaystyle h_ {a} ({\ bar {x}}) = h _ {\ mathrm {int}} \ left ({\ big (} \ sum _ {i = 0} ^ {\ ell} x_ {i} \ cdot a ^ {\ ell -i} {\ big)} {\ bmod {~}} p \ right)}

h_{a}({\bar {x}})=h_{\mathrm {int} }\left({\big (}\sum _{i=0}^{\ell }x_{i}\cdot a^{\ell -i}{\big)}{\bmod {~}}p\right)

, где

a ∈ [p] {\ displaystyle a \ in [p]}

a\in [p]

является равномерно случайным, а

подсказка {\ displaystyle h _ {\ mathrm {int}}}

h_{{\mathrm {int}}}

выбирается случайным образом из целочисленной области универсального сопоставления семейств

[p] m [m ] {\ displaystyle [p] \ mapsto [m]}

[p]\mapsto [m]

Используя свойства модульной арифметики, приведенное выше может быть вычислено без получения больших чисел для больших строк следующим образом:

uint hash (String x, int a, int p) uint h = INITIAL_VALUE for (uint i = 0; i < x.length ; ++i) h = ((h*a) + x[i]) mod p return h

Этот скользящий хеш Рабина-Карпа основан на линейном конгруэнтном генераторе. Вышеупомянутый алгоритм также известен как мультипликативный хеш функция. На практике e, оператора mod и параметра p можно полностью избежать, просто разрешив целое число переполняться, потому что это эквивалентно mod (Max-Int-Value + 1) во многих языках программирования. В таблице ниже показаны значения, выбранные для инициализации h и a для некоторых популярных реализаций.

Реализация	INITIAL_VALUE	a
хэш-функция Бернштейна djb2	5381	33
STLPort 4.6.2	0	5
Керниган и хэш-функция Ричи	0	31
`java.lang.String.hashCode ()`	0	31

Рассмотрим две строки $x ¯, y ¯ {\ displaystyle {\ bar {x}}, {\ bar {y}}}$ ${\bar {x}},{\bar {y}}$ и пусть $ℓ {\ displaystyle \ ell}$ $\ell$ будет длиной более длинного; для анализа более короткая строка концептуально дополняется нулями до длины $ℓ {\ displaystyle \ ell}$ $\ell$ . Столкновение перед применением $подсказки {\ displaystyle h _ {\ mathrm {int}}}$ $h_{{\mathrm {int}}}$ подразумевает, что $a {\ displaystyle a}$ $a$ является корнем полинома с коэффициенты $x ¯ - y ¯ {\ displaystyle {\ bar {x}} - {\ bar {y}}}$ ${\bar {x}}-{\bar {y}}$ . Этот многочлен имеет не более $ℓ {\ displaystyle \ ell}$ $\ell$ корней по модулю $p {\ displaystyle p}$ $p$ , поэтому вероятность столкновения не превышает $ℓ / п {\ displaystyle \ ell / p}$ $\ell /p$ . Вероятность столкновения из-за случайной $подсказки {\ displaystyle h _ {\ mathrm {int}}}$ $h_{{\mathrm {int}}}$ доводит общую вероятность столкновения до $1 m + ℓ p {\ displaystyle {\ frac { 1} {m}} + {\ frac {\ ell} {p}}}$ ${\frac {1}{m}}+{\frac {\ell }{p}}$ . Таким образом, если простое число $p {\ displaystyle p}$ $p$ достаточно велико по сравнению с длиной хешированных строк, семейство очень близко к универсальному (в статистическом расстоянии ).

Другие универсальные семейства хеш-функций, используемых для хеширования строк неизвестной длины в хеш-значения фиксированной длины, включают отпечаток Рабина и Бужаш.

Избегание модульной арифметики

Для уменьшения вычислительных затрат модульной арифметики на практике используются три уловки:

Один выбирает простое число $p {\ displaystyle p}$ $p$ как близкое к степени двойки, например, простое число Мерсенна. Это позволяет реализовать арифметику по модулю $p {\ displaystyle p}$ $p$ без деления (с использованием более быстрых операций, таких как сложение и сдвиги). Например, на современных архитектурах можно работать с $p = 2 61-1 {\ displaystyle p = 2 ^ {61} -1}$ $p=2^{{61}}-1$ , а $xi {\ displaystyle x_ {i }}$ $x_{i}$ - 32-битные значения.
К блокам можно применить векторное хеширование. Например, применяется векторное хеширование к каждому блоку из 16 слов в строке и применяется хеширование строки к результатам $⌈ k / 16 ⌉ {\ displaystyle \ lceil k / 16 \ rceil}$ $\lceil k/16\rceil$ . Поскольку более медленное хеширование строки применяется к вектору существенно меньшего размера, это будет по существу так же быстро, как и хеширование вектора.
В качестве делителя выбирается степень двойки, что позволяет выполнять арифметические операции по модулю $2 w { \ displaystyle 2 ^ {w}}$ $2^{w}$ для реализации без деления (с использованием более быстрых операций битового маскирования ). Этот подход используется в семействе хэш-функций NH.

См. Также

Ссылки

^ Картер, Ларри; Вегман, Марк Н. (1979). «Универсальные классы хеш-функций». Журнал компьютерных и системных наук. 18 (2): 143–154. DOI : 10.1016 / 0022-0000 (79) 90044-8. Версия для конференции в STOC'77.
^Милтерсен, Питер Бро. «Универсальное хеширование» (PDF). Архивировано из оригинала (PDF) 24 мая 2011 г. Дата обращения 24 июня 2009 г.
^Мотвани, Раджив; Рагхаван, Прабхакар (1995). Рандомизированные алгоритмы. Издательство Кембриджского университета. п. 221. ISBN 0-521-47465-5.
^Давид Вагнер, изд. «Достижения в криптологии - CRYPTO 2008». п. 145.
^Жан-Филипп Аумассон, Вилли Мейер, Рафаэль Фан, Лука Хензен. «Хеш-функция BLAKE». 2014. с. 10.
^Thorup, Mikkel (2015). «Высокоскоростное хеширование для целых чисел и строк». arXiv : 1504.06804 [cs.DS ].
^ Баран, Илья; Demaine, Erik D.; Пэтрашку, Михай (2008). «Субквадратные алгоритмы для 3SUM» (PDF). Алгоритмика. 50 (4): 584–596. doi : 10.1007 / s00453-007-9036-3.
^Дицфельбингер, Мартин; Хагеруп, Торбен; Катаянен, Юрки; Пенттонен, Марти (1997). «Надежный рандомизированный алгоритм для задачи ближайшей пары» (Postscript). Журнал алгоритмов. 25 (1): 19–51. doi : 10.1006 / jagm.1997.0873. Проверено 10 февраля 2011 г.
^Thorup, Mikkel. «Алгоритмы учебников в SODA».
^Вельфель, Филипп (2003). Über die Komplexität der Multiplikation in eingeschränkten Branchingprogrammmodellen (PDF) (Ph.D.). Universität Dortmund. Проверено 18 сентября 2012 г.
^Вельфель, Филипп (1999). Эффективное строго универсальное и оптимально универсальное хеширование. Математические основы информатики 1999. LNCS. 1672 . С. 262–272. doi : 10.1007 / 3-540-48340-3_24.
^ Thorup, Mikkel (2009). Хеширование строк для линейного зондирования. Proc. 20th ACM-SIAM Symposium on Discrete Algorithms (SODA). pp. 655–664. CiteSeerX 10.1.1.215.4253. doi :10.1137/1.9781611973068.72., section 5.3
^ Dietzfelbinger, Martin; Gil, Joseph; Matias, Yossi; Pippenger, Nicholas (1992). Polynomial Hash Functions Are Reliable (Extended Abstract). Proc. 19th International Colloquium on Automata, Languages and Programming (ICALP). pp. 235–246.
^Black, J.; Halevi, S.; Krawczyk, H.; Krovetz, T. (1999). UMAC: Fast and Secure Message Authentication (PDF). Advances in Cryptology (CRYPTO '99)., Equation 1
^Pătraşcu, Mihai ; Thorup, Mikkel (2011). The power of simple tabulation hashing. Proceedings of the 43rd annual ACM Symposium on Theory of Computing (STOC '11). pp. 1–10. arXiv :1011.5200. doi :10.1145/1993636.1993638.
^ Kaser, Owen; Lemire, Daniel (2013). "Strongly universal string hashing is fast". Computer Journal. Издательство Оксфордского университета. 57(11): 1624–1638. arXiv :1202.4961. doi :10.1093/comjnl/bxt070.
^"Hebrew University Course Slides" (PDF).
^Robert Uzgalis. "Library Hash Functions". 1996.
^Kankowsk, Peter. "Hash functions: An empirical comparison".
^Yigit, Ozan. "String hash functions".
^Kernighan; Ritchie (1988). "6". The C Programming Language (2nd ed.). pp. 118. ISBN 0-13-110362-8.CS1 maint: multiple names: authors list (link )
^"String (Java Platform SE 6)". docs.oracle.com. Retrieved 2015-06-10.