Вес Хэмминга

редактировать

Вес Хэмминга строки - это количество символов, которые отличаются от используется нулевой символ алфавита. Таким образом, это эквивалентно расстоянию Хэмминга от нулевой строки той же длины. В наиболее типичном случае, строка из бит, это количество единиц в строке или сумма цифр двоичного представления данного число и ℓ₁ norm битового вектора. В этом двоичном случае это также называется подсчетом заполнения, popcount, боковой суммой или суммированием битов .

Примеры
Строка	Вес Хэмминга
111 01	4
111 01000	4
00000000	0
678 0 1234 0 567	10

График подсчета населения (вес Хэмминга для двоичных чисел) для (десятичных) чисел от 0 до 256.

Содержание

1 История и использование
2 Эффективная реализация
3 Поддержка языка
4 Поддержка процессора
5 См. Также
6 Ссылки
7 Дополнительная литература
8 Внешние ссылки

История и использование

Вес Хэмминга назван в честь Ричарда Хэмминга Хотя это понятие не возникло. Вес Хэмминга двоичных чисел уже использовался в 1899 году Джеймсом В.Л. Глэйшером для получения формулы для количества нечетных биномиальных коэффициентов в одной строке треугольника Паскаля. Ирвинг С. Рид ввел понятие, эквивалентное весу Хэмминга в двоичном случае, в 1954 году.

Вес Хэмминга используется в нескольких дисциплинах, включая теорию информации, теория кодирования и криптография. Примеры применения веса Хэмминга включают:

В модульном возведении в степень возведением в квадрат количество модульных умножений, необходимых для экспоненты e, равно log 2 e + weight (e). Это причина того, что значение открытого ключа e, используемое в RSA, обычно выбирается как число с низким весом Хэмминга.
Вес Хэмминга определяет длину пути между узлами в хорде распределенные хэш-таблицы.
поиск IrisCode в биометрических базах данных обычно реализуются путем вычисления расстояния Хэмминга до каждой сохраненной записи.
В компьютерных шахматных программах с использованием битовая доска представление, вес Хэмминга битовой доски дает количество фишек данного типа, оставшихся в игре, или количество квадратов доски, контролируемых фишками одного игрока, и, следовательно, является важным вкладом
Вес Хэмминга может использоваться для эффективного вычисления найти первый набор с использованием тождества ffs (x) = pop (x ^ (x-1)). Это полезно на таких платформах, как SPARC, которые имеют аппаратные инструкции веса Хэмминга, но не имеют аппаратной инструкции поиска первого набора.
Операция веса Хэмминга может быть интерпретирована как преобразование из унарной система счисления от до двоичные числа.
В реализации некоторых сжатых структур данных, таких как битовых векторов и вейвлет-деревьев.

Эффективная реализация

Подсчет заполнения цепочки битов часто требуется в криптографии и других приложениях. Расстояние Хэмминга двух слов A и B можно вычислить как вес Хэмминга для A xor B.

. Проблема того, как его эффективно реализовать, широко изучалась. Отдельная операция для вычисления или параллельные операции с битовыми векторами доступны на некоторых процессорах. Для процессоров, не имеющих этих функций, лучшие известные решения основаны на добавлении счетчиков в древовидной структуре. Например, чтобы подсчитать количество 1 бит в 16-битном двоичном числе a = 0110 1100 1011 1010, можно выполнить следующие операции:

Выражение	Двоичное								Десятичное	Комментарий
`a`	01	10	11	00	10	11	10	10	27834	Исходный номер
`b0 = (a>>0) 01 01 01 01 01 01 01 01`	01	00	01	00	00	01	00	00	1, 0, 1, 0, 0, 1, 0, 0	Все остальные биты из
`b1 = (a>>1) 01 01 01 01 01 01 01 01`	00	01	01	00	01	01	01	01	0, 1, 1, 0, 1, 1, 1, 1	Остальные биты из a
`c = b0 + b1`	01	01	10	00	01	10	01	01	1, 1, 2, 0, 1, 2, 1, 1	Подсчет единиц в каждом 2-битном срезе
`d0 = (c>>0) 0011 0011 0011 0011`	0001		0000		0010		0001		1, 0, 2, 1	Каждый второй счет от c
`d2 = (c>>2) 0011 0011 0011 0011`	0001		0010		0001		0001		1, 2, 1, 1	Оставшиеся отсчеты от c
`e = d0 + d2`	0010		0010		0011		0010		2, 2, 3, 2	Количество единиц в каждой 4 -битовый фрагмент
`f0 = (e>>0) 00001111 00001111`	00000010				00000010				2, 2	Каждый второй счет от e
`f4 = (e>>4) 00001111 00001111`	00000010				00000011				2, 3	Остаток отсчета от e
`g = f0 + f4`	00000100				00000101				4, 5	Подсчет единиц в каждом 8-битном срезе
`h0 = (g>>0) 0000000011111111`	0000000000000101								5	Все остальные отсчеты от g
`h8 = (g>>8) 0000000011111111`	0000000000000100								4	Остальные отсчеты от g
`i = h0 + h8`	0000000000001001								9	Счетчик единиц во всем 16-битном слове

Здесь операции такие же, как в C prog язык набивки, поэтому X>>Yозначает сдвиг X вправо на биты Y, X Y означает побитовое И для X и Y, а + - обычное сложение. Лучшие алгоритмы, известные для этой проблемы, основаны на концепции, проиллюстрированной выше, и приведены здесь:

// типы и константы, используемые в функциях ниже // uint64_t - это 64-битный целочисленный тип переменной без знака (определен в версии C99 из Язык C) const uint64_t m1 = 0x5555555555555555; // двоичный: 0101... const uint64_t m2 = 0x3333333333333333; // двоичный: 00110011.. const uint64_t m4 = 0x0f0f0f0f0f0f0f0f; // двоичный код: 4 нуля, 4 единицы... const uint64_t m8 = 0x00ff00ff00ff00ff; // двоичный код: 8 нулей, 8 единиц... const uint64_t m16 = 0x0000ffff0000ffff; // двоичный код: 16 нулей, 16 единиц... const uint64_t m32 = 0x00000000ffffffff; // двоичный код: 32 нуля, 32 единицы const uint64_t h01 = 0x0101010101010101; // сумма 256 в степени 0,1,2,3... // Это наивная реализация, показанная для сравнения // и чтобы помочь лучше понять функции. // Этот алгоритм использует 24 арифметических операции (сдвиг, сложение и). int popcount64a (uint64_t х) {х = (х m1) + ((х>>1) m1); // помещаем количество каждых 2 бита в эти 2 бита x = (x m2) + ((x>>2) m2); // помещаем количество каждых 4 бита в эти 4 бита x = (x m4) + ((x>>4) m4); // помещаем количество каждых 8 бит в эти 8 бит x = (x m8) + ((x>>8) m8); // помещаем количество каждых 16 бит в эти 16 бит x = (x m16) + ((x>>16) m16); // помещаем количество каждых 32 бита в эти 32 бита x = (x m32) + ((x>>32) m32); // помещаем количество каждых 64 бита в эти 64 бита return x; } // Здесь используется меньше арифметических операций, чем в любой другой // известной реализации на машинах с медленным умножением. // Этот алгоритм использует 17 арифметических операций. int popcount64b (uint64_t x) {x - = (x>>1) m1; // помещаем количество каждых 2 бита в эти 2 бита x = (x m2) + ((x>>2) m2); // помещаем количество каждых 4 битов в эти 4 бита x = (x + (x>>4)) m4; // помещаем количество каждых 8 бит в эти 8 бит x + = x>>8; // помещаем количество каждых 16 бит в их младшие 8 бит x + = x>>16; // помещаем количество каждых 32 бита в их младшие 8 бит x + = x>>32; // помещаем количество каждых 64 бита в самые младшие 8 бит return x 0x7f; } // Здесь используется меньше арифметических операций, чем в любой другой // известной реализации на машинах с быстрым умножением. // Этот алгоритм использует 12 арифметических операций, одна из которых - умножение. int popcount64c (uint64_t x) {x - = (x>>1) m1; // помещаем количество каждых 2 бита в эти 2 бита x = (x m2) + ((x>>2) m2); // помещаем количество каждых 4 битов в эти 4 бита x = (x + (x>>4)) m4; // помещаем количество каждых 8 бит в эти 8 бит return (x * h01)>>56; // возвращает 8 левых битов x + (x <<8) + (x<<16) + (x<<24) +... }

Вышеупомянутые реализации имеют наилучшее поведение в худшем случае из всех известных алгоритмов. Однако, когда ожидается, что значение будет иметь несколько ненулевых битов, вместо этого может быть более эффективно использовать алгоритмы, которые подсчитывают эти биты по одному. Как Вегнер описал в 1960 году, поразрядное И x с x - 1 отличается от x только обнулением наименее значимого ненулевого бита: вычитание 1 изменяет крайнюю правую строку от 0 до 1 и изменяет крайний правый 1 на 0. Если x изначально имел n битов, равных 1, то после всего n итераций этой операции x будет уменьшен до нуля. Следующая реализация основана на этом принципе.

// Это лучше, когда большинство битов в x равны 0 // Этот алгоритм работает одинаково для всех размеров данных. // Этот алгоритм использует 3 арифметических операции и 1 сравнение / переход на «1» бит в x. Int popcount64d (uint64_t x) {int count; for (count = 0; x; count ++) x = x - 1; return count;}

Если разрешено большее использование памяти, мы может вычислить вес Хэмминга быстрее, чем описанные выше методы. Имея неограниченную память, мы могли бы просто создать большую таблицу поиска веса Хэмминга для каждого 64-битного целого числа. Если мы можем сохранить таблицу поиска функции Хэмминга для каждого 16-битного целого числа, мы можем сделать следующее, чтобы вычислить вес Хэмминга для каждого 32-битного целого числа.

static uint8_t wordbits [65536] = {/ * количество битов целых чисел от 0 до 65535 включительно * /}; // Этот алгоритм использует 3 арифметических операции и 2 чтения из памяти. int popcount32e (uint32_t x) {вернуть биты слова [x 0xFFFF] + биты слова [x>>16]; }

// Необязательно, таблица битов слов может быть заполнена с помощью этой функции int popcount32e_init (void) {uint32_t i; uint16_t x; int count; for (i = 0; i <= 0xFFFF; i++) { x = i; for (count=0; x; count++) // borrowed from popcount64d() above x = x - 1; wordbits[i] = count; } }

Мула и др. показали, что векторизованная версия popcount64b может работать быстрее, чем выделенные инструкции (например, popcnt на процессорах x64).

Поддержка языка

Некоторые компиляторы C предоставляют встроенные функции, обеспечивающие подсчет битов. Например, GCC (начиная с версии 3.4 в апреле 2004 г.) включает встроенную функцию __builtin_popcount, которая будет использовать инструкцию процессора, если она доступна. или эффективная реализация библиотеки в противном случае. LLVM-GCC включает эту функцию с версии 1.5 в июне 2005 года.

В C ++ STL структура данных битового массива bitsetимеет метод count (), который подсчитывает количество установленных битов. В C ++ 20 был добавлен новый заголовок , содержащий функции std :: popcountи std :: has_single_bit, принимающие аргументы целочисленных типов без знака.

В Java структура данных растущего битового массива BitSet имеет метод BitSet.cardinality() th at подсчитывает количество установленных битов. Кроме того, есть функции Integer.bitCount(int) и Long.bitCount(long) для подсчета битов в примитиве 32- битовые и 64-битные целые числа соответственно. Кроме того, целочисленный класс BigInteger произвольной точности также имеет метод BigInteger.bitCount() , который считает биты.

В Python тип intимеет метод bit_count ()для подсчета количества установленных битов. Эта функция является новой в Python 3.10, выпуск которой запланирован на 2021 год.

В Common Lisp функция logcount, заданная неотрицательным целым числом, возвращает количество 1 бит. (Для отрицательных целых чисел он возвращает количество 0 бит в нотации дополнения до 2.) В любом случае целое число может быть BIGNUM.

Начиная с GHC 7.4, базовый пакет Haskell имеет функцию popCount, доступную для всех типов, которые являются экземплярами Bits.класс (доступен из модуля Data.Bits).

MySQL версия языка SQL предоставляет BIT_COUNT ()в качестве стандарта

Fortran 2008 имеет стандартную внутреннюю элементарную функцию popcnt, возвращающую количество ненулевых битов в целочисленном (или целочисленном массиве).

Некоторая программируемая научная область В калькуляторах есть специальные команды для вычисления количества установленных бит, например #Bна HP-16C и WP 43S, #BITSили BITSUMна эмуляторах HP-16C, и nBITSна WP 34S.

FreePascal реализует popcnt, начиная с версии 3.0.

Поддержка процессора

Компьютер IBM STRETCH в 1960-х подсчитал количество установленных битов, а также количество начальных нулей как побочный продукт всех логических операций.
Суперкомпьютеры Cray вначале имели подсчет населения машинная инструкция, по слухам, специально запрошенная правительством США Агентством национальной безопасности для криптоанализа приложений.
Некоторые из Control Data Corporation (CDC) машины серии Cyber 70/170 включали в себя инструкцию по подсчету населения; в COMPASS эта инструкция была закодирована как CXi.
. 64-битная архитектура SPARC версии 9 определяет инструкцию POPC, но в большинстве реализаций она не реализовывать его, требуя, чтобы он был эмулирован операционной системой.
Модель компьютера Дональда Кнута MMIX, который собирается заменить MIX в его книге В The Art of Computer Programming есть инструкция SADDс 1999 года. SADD a, b, cподсчитывает все биты, которые равны 1 в b и 0 в c, и записывает результат в a.
Compaq Alpha 21264A, выпущенный в 1999 году, был первым процессором серии Alpha с расширением счетчика (CIX).
Analog Devices ' Процессоры Blackfin имеют инструкцию ONESдля выполнения 32-битного подсчета заполнения.
Архитектура AMD Barcelona представила усовершенствованную обработку битов ( ABM) ISA, представившая инструкцию POPCNTкак часть расширений SSE4a в 2007 году. Процессоры
Intel Core представили POPCNTс расширением SSE4.2 набора инструкций, впервые доступным в процессоре Core i7 на базе Nehalem, выпущенном в ноябре 2008.
Архитектура ARM представила инструкцию VCNTкак часть расширений Advanced SIMD (NEON ).
Архитектура RISC-V представила инструкцию PCNTкак часть расширения Bit Manipulation (B).

См. Также

Ссылки

Дополнительная литература

Schroeppel, Richard C. ; Орман, Хилари К. (1972-02-29). "сборник". ХАКМЕМ. Билер, Майкл; Госпер, Ральф Уильям ; Шроппель, Ричард К. (отчет). Лаборатория искусственного интеллекта, Массачусетский технологический институт, Кембридж, Массачусетс, США. MIT AI Memo 239. (Элемент 169 : ассемблерный код подсчета населения для PDP / 6-10.)

Внешние ссылки

Агрегированные магические алгоритмы. Оптимизированный подсчет совокупности и другие алгоритмы, объясненные в образце кода.
Взломы Bit Twiddling Несколько алгоритмов с кодом для подсчета битов.
Необходимые и достаточные - Дэмиен Винтур - Имеет код на C # для различных Хэммингов Весовые реализации.
Лучший алгоритм для подсчета количества установленных битов в 32-битном целом числе? - Stackoverflow