Вес Хэмминга

редактировать

Вес Хэмминга строки - это количество символов, которые отличаются от используется нулевой символ алфавита. Таким образом, это эквивалентно расстоянию Хэмминга от нулевой строки той же длины. В наиболее типичном случае, строка из бит, это количество единиц в строке или сумма цифр двоичного представления данного число и ℓ₁ norm битового вектора. В этом двоичном случае это также называется подсчетом заполнения, popcount, боковой суммой или суммированием битов .

Примеры
СтрокаВес Хэмминга
111 014
111 010004
000000000
678 0 1234 0 56710
График подсчета населения (вес Хэмминга для двоичных чисел) для (десятичных) чисел от 0 до 256.
Содержание
  • 1 История и использование
  • 2 Эффективная реализация
  • 3 Поддержка языка
  • 4 Поддержка процессора
  • 5 См. Также
  • 6 Ссылки
  • 7 Дополнительная литература
  • 8 Внешние ссылки
История и использование

Вес Хэмминга назван в честь Ричарда Хэмминга Хотя это понятие не возникло. Вес Хэмминга двоичных чисел уже использовался в 1899 году Джеймсом В.Л. Глэйшером для получения формулы для количества нечетных биномиальных коэффициентов в одной строке треугольника Паскаля. Ирвинг С. Рид ввел понятие, эквивалентное весу Хэмминга в двоичном случае, в 1954 году.

Вес Хэмминга используется в нескольких дисциплинах, включая теорию информации, теория кодирования и криптография. Примеры применения веса Хэмминга включают:

  • В модульном возведении в степень возведением в квадрат количество модульных умножений, необходимых для экспоненты e, равно log 2 e + weight (e). Это причина того, что значение открытого ключа e, используемое в RSA, обычно выбирается как число с низким весом Хэмминга.
  • Вес Хэмминга определяет длину пути между узлами в хорде распределенные хэш-таблицы.
  • поиск IrisCode в биометрических базах данных обычно реализуются путем вычисления расстояния Хэмминга до каждой сохраненной записи.
  • В компьютерных шахматных программах с использованием битовая доска представление, вес Хэмминга битовой доски дает количество фишек данного типа, оставшихся в игре, или количество квадратов доски, контролируемых фишками одного игрока, и, следовательно, является важным вкладом
  • Вес Хэмминга может использоваться для эффективного вычисления найти первый набор с использованием тождества ffs (x) = pop (x ^ (x-1)). Это полезно на таких платформах, как SPARC, которые имеют аппаратные инструкции веса Хэмминга, но не имеют аппаратной инструкции поиска первого набора.
  • Операция веса Хэмминга может быть интерпретирована как преобразование из унарной система счисления от до двоичные числа.
  • В реализации некоторых сжатых структур данных, таких как битовых векторов и вейвлет-деревьев.
Эффективная реализация

Подсчет заполнения цепочки битов часто требуется в криптографии и других приложениях. Расстояние Хэмминга двух слов A и B можно вычислить как вес Хэмминга для A xor B.

. Проблема того, как его эффективно реализовать, широко изучалась. Отдельная операция для вычисления или параллельные операции с битовыми векторами доступны на некоторых процессорах. Для процессоров, не имеющих этих функций, лучшие известные решения основаны на добавлении счетчиков в древовидной структуре. Например, чтобы подсчитать количество 1 бит в 16-битном двоичном числе a = 0110 1100 1011 1010, можно выполнить следующие операции:

ВыражениеДвоичноеДесятичноеКомментарий
a011011001011101027834Исходный номер
b0 = (a>>0) 01 01 01 01 01 01 01 0101000100000100001, 0, 1, 0, 0, 1, 0, 0Все остальные биты из
b1 = (a>>1) 01 01 01 01 01 01 01 0100010100010101010, 1, 1, 0, 1, 1, 1, 1Остальные биты из a
c = b0 + b101011000011001011, 1, 2, 0, 1, 2, 1, 1Подсчет единиц в каждом 2-битном срезе
d0 = (c>>0) 0011 0011 0011 001100010000001000011, 0, 2, 1Каждый второй счет от c
d2 = (c>>2) 0011 0011 0011 001100010010000100011, 2, 1, 1Оставшиеся отсчеты от c
e = d0 + d200100010001100102, 2, 3, 2Количество единиц в каждой 4 -битовый фрагмент
f0 = (e>>0) 00001111 0000111100000010000000102, 2Каждый второй счет от e
f4 = (e>>4) 00001111 0000111100000010000000112, 3Остаток отсчета от e
g = f0 + f400000100000001014, 5Подсчет единиц в каждом 8-битном срезе
h0 = (g>>0) 000000001111111100000000000001015Все остальные отсчеты от g
h8 = (g>>8) 000000001111111100000000000001004Остальные отсчеты от g
i = h0 + h800000000000010019Счетчик единиц во всем 16-битном слове

Здесь операции такие же, как в C prog язык набивки, поэтому X>>Yозначает сдвиг X вправо на биты Y, X Y означает побитовое И для X и Y, а + - обычное сложение. Лучшие алгоритмы, известные для этой проблемы, основаны на концепции, проиллюстрированной выше, и приведены здесь:

// типы и константы, используемые в функциях ниже // uint64_t - это 64-битный целочисленный тип переменной без знака (определен в версии C99 из Язык C) const uint64_t m1 = 0x5555555555555555; // двоичный: 0101... const uint64_t m2 = 0x3333333333333333; // двоичный: 00110011.. const uint64_t m4 = 0x0f0f0f0f0f0f0f0f; // двоичный код: 4 нуля, 4 единицы... const uint64_t m8 = 0x00ff00ff00ff00ff; // двоичный код: 8 нулей, 8 единиц... const uint64_t m16 = 0x0000ffff0000ffff; // двоичный код: 16 нулей, 16 единиц... const uint64_t m32 = 0x00000000ffffffff; // двоичный код: 32 нуля, 32 единицы const uint64_t h01 = 0x0101010101010101; // сумма 256 в степени 0,1,2,3... // Это наивная реализация, показанная для сравнения // и чтобы помочь лучше понять функции. // Этот алгоритм использует 24 арифметических операции (сдвиг, сложение и). int popcount64a (uint64_t х) {х = (х m1) + ((х>>1) m1); // помещаем количество каждых 2 бита в эти 2 бита x = (x m2) + ((x>>2) m2); // помещаем количество каждых 4 бита в эти 4 бита x = (x m4) + ((x>>4) m4); // помещаем количество каждых 8 бит в эти 8 бит x = (x m8) + ((x>>8) m8); // помещаем количество каждых 16 бит в эти 16 бит x = (x m16) + ((x>>16) m16); // помещаем количество каждых 32 бита в эти 32 бита x = (x m32) + ((x>>32) m32); // помещаем количество каждых 64 бита в эти 64 бита return x; } // Здесь используется меньше арифметических операций, чем в любой другой // известной реализации на машинах с медленным умножением. // Этот алгоритм использует 17 арифметических операций. int popcount64b (uint64_t x) {x - = (x>>1) m1; // помещаем количество каждых 2 бита в эти 2 бита x = (x m2) + ((x>>2) m2); // помещаем количество каждых 4 битов в эти 4 бита x = (x + (x>>4)) m4; // помещаем количество каждых 8 бит в эти 8 бит x + = x>>8; // помещаем количество каждых 16 бит в их младшие 8 бит x + = x>>16; // помещаем количество каждых 32 бита в их младшие 8 бит x + = x>>32; // помещаем количество каждых 64 бита в самые младшие 8 бит return x 0x7f; } // Здесь используется меньше арифметических операций, чем в любой другой // известной реализации на машинах с быстрым умножением. // Этот алгоритм использует 12 арифметических операций, одна из которых - умножение. int popcount64c (uint64_t x) {x - = (x>>1) m1; // помещаем количество каждых 2 бита в эти 2 бита x = (x m2) + ((x>>2) m2); // помещаем количество каждых 4 битов в эти 4 бита x = (x + (x>>4)) m4; // помещаем количество каждых 8 бит в эти 8 бит return (x * h01)>>56; // возвращает 8 левых битов x + (x <<8) + (x<<16) + (x<<24) +... }

Вышеупомянутые реализации имеют наилучшее поведение в худшем случае из всех известных алгоритмов. Однако, когда ожидается, что значение будет иметь несколько ненулевых битов, вместо этого может быть более эффективно использовать алгоритмы, которые подсчитывают эти биты по одному. Как Вегнер описал в 1960 году, поразрядное И x с x - 1 отличается от x только обнулением наименее значимого ненулевого бита: вычитание 1 изменяет крайнюю правую строку от 0 до 1 и изменяет крайний правый 1 на 0. Если x изначально имел n битов, равных 1, то после всего n итераций этой операции x будет уменьшен до нуля. Следующая реализация основана на этом принципе.

// Это лучше, когда большинство битов в x равны 0 // Этот алгоритм работает одинаково для всех размеров данных. // Этот алгоритм использует 3 арифметических операции и 1 сравнение / переход на «1» бит в x. Int popcount64d (uint64_t x) {int count; for (count = 0; x; count ++) x = x - 1; return count;}

Если разрешено большее использование памяти, мы может вычислить вес Хэмминга быстрее, чем описанные выше методы. Имея неограниченную память, мы могли бы просто создать большую таблицу поиска веса Хэмминга для каждого 64-битного целого числа. Если мы можем сохранить таблицу поиска функции Хэмминга для каждого 16-битного целого числа, мы можем сделать следующее, чтобы вычислить вес Хэмминга для каждого 32-битного целого числа.

static uint8_t wordbits [65536] = {/ * количество битов целых чисел от 0 до 65535 включительно * /}; // Этот алгоритм использует 3 арифметических операции и 2 чтения из памяти. int popcount32e (uint32_t x) {вернуть биты слова [x 0xFFFF] + биты слова [x>>16]; }
// Необязательно, таблица битов слов может быть заполнена с помощью этой функции int popcount32e_init (void) {uint32_t i; uint16_t x; int count; for (i = 0; i <= 0xFFFF; i++) { x = i; for (count=0; x; count++) // borrowed from popcount64d() above x = x - 1; wordbits[i] = count; } }

Мула и др. показали, что векторизованная версия popcount64b может работать быстрее, чем выделенные инструкции (например, popcnt на процессорах x64).

Поддержка языка

Некоторые компиляторы C предоставляют встроенные функции, обеспечивающие подсчет битов. Например, GCC (начиная с версии 3.4 в апреле 2004 г.) включает встроенную функцию __builtin_popcount, которая будет использовать инструкцию процессора, если она доступна. или эффективная реализация библиотеки в противном случае. LLVM-GCC включает эту функцию с версии 1.5 в июне 2005 года.

В C ++ STL структура данных битового массива bitsetимеет метод count (), который подсчитывает количество установленных битов. В C ++ 20 был добавлен новый заголовок , содержащий функции std :: popcountи std :: has_single_bit, принимающие аргументы целочисленных типов без знака.

В Java структура данных растущего битового массива BitSet имеет метод BitSet.cardinality() th at подсчитывает количество установленных битов. Кроме того, есть функции Integer.bitCount(int) и Long.bitCount(long) для подсчета битов в примитиве 32- битовые и 64-битные целые числа соответственно. Кроме того, целочисленный класс BigInteger произвольной точности также имеет метод BigInteger.bitCount() , который считает биты.

В Python тип intимеет метод bit_count ()для подсчета количества установленных битов. Эта функция является новой в Python 3.10, выпуск которой запланирован на 2021 год.

В Common Lisp функция logcount, заданная неотрицательным целым числом, возвращает количество 1 бит. (Для отрицательных целых чисел он возвращает количество 0 бит в нотации дополнения до 2.) В любом случае целое число может быть BIGNUM.

Начиная с GHC 7.4, базовый пакет Haskell имеет функцию popCount, доступную для всех типов, которые являются экземплярами Bits.класс (доступен из модуля Data.Bits).

MySQL версия языка SQL предоставляет BIT_COUNT ()в качестве стандарта

Fortran 2008 имеет стандартную внутреннюю элементарную функцию popcnt, возвращающую количество ненулевых битов в целочисленном (или целочисленном массиве).

Некоторая программируемая научная область В калькуляторах есть специальные команды для вычисления количества установленных бит, например #Bна HP-16C и WP 43S, #BITSили BITSUMна эмуляторах HP-16C, и nBITSна WP 34S.

FreePascal реализует popcnt, начиная с версии 3.0.

Поддержка процессора
См. Также
Ссылки
Дополнительная литература
Внешние ссылки
Последняя правка сделана 2021-05-22 11:59:59
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте