Закон Бенфорда

редактировать
Это последняя принятая редакция, обзор от 16 октября 2021 года.

Не следует путать с несвязанной поговоркой закон противоречия Бенфорда. Последовательность убывающих синих полос на светло-сером фоне сетки Распределение первых цифр по закону Бенфорда. Каждая полоса представляет собой цифру, а высота полосы - это процент чисел, начинающихся с этой цифры. Частота первой значащей цифры физических констант, построенных против закона Бенфорда

Закон Бенфорда, также называемый закон Ньюком-Benford, то закон аномальных чисел, или первого-значного закона, является наблюдение, что во многих реальных наборов числовых данных, то первая цифра, скорее всего, будет небольшим. В наборах, которые подчиняются закону, цифра 1 появляется как ведущая значащая цифра примерно в 30% случаев, а 9 появляется как ведущая значащая цифра менее чем в 5% случаев. Если бы цифры были распределены равномерно, каждая из них встречалась бы примерно в 11,1% случаев. Закон Бенфорда также делает предсказания о распределении вторых цифр, третьих цифр, комбинаций цифр и так далее.

График справа показывает закон Бенфорда для основания 10, один из бесконечно многих случаев обобщенного закона относительно чисел, выраженных в произвольных (целочисленных) основаниях, который исключает возможность того, что явление могло быть артефактом системы счисления с основанием 10. Дальнейшие обобщения были опубликованы в 1995 году, включая аналогичные утверждения как для n-й ведущей цифры, так и для совместного распределения ведущих n цифр, последнее из которых приводит к следствию, в котором значимые цифры показаны как статистически зависимая величина.

Было показано, что этот результат применим к широкому спектру наборов данных, включая счета за электричество, адреса улиц, цены на акции, цены на дома, численность населения, уровень смертности, протяженность рек, а также физические и математические константы. Подобно другим общим принципам, касающимся естественных данных - например, тот факт, что многие наборы данных хорошо аппроксимируются нормальным распределением - существуют иллюстративные примеры и объяснения, которые охватывают многие из случаев, когда применяется закон Бенфорда, хотя есть много других случаев, когда закон Бенфорда применяет то, что сопротивляется простому объяснению. Обычно он является наиболее точным, когда значения распределяются по нескольким порядкам величины, особенно если процесс, генерирующий числа, описывается степенным законом (который является обычным по своей природе).

Закон назван в честь физика Фрэнка Бенфорда, который заявил о нем в 1938 году в статье под названием «Закон аномальных чисел», хотя ранее он был заявлен Саймоном Ньюкомбом в 1881 году.

Закон аналогичен по концепции, хотя и не идентичен по распределению, с законом Ципфа.

СОДЕРЖАНИЕ
  • 1 Определение
    • 1.1 В других базах
  • 2 Примеры
  • 3 История
  • 4 Пояснения
    • 4.1 Объяснение энтропии Кригера – Кафри
    • 4.2 Мультипликативные колебания
    • 4.3 Множественные распределения вероятностей
    • 4.4 Инвариантность
  • 5 приложений
    • 5.1 Обнаружение мошенничества в бухгалтерском учете
    • 5.2 Использование в уголовных процессах
    • 5.3 Данные о выборах
    • 5.4 Макроэкономические данные
    • 5.5 Анализ цифр цены
    • 5.6 Геномные данные
    • 5.7 Обнаружение научного мошенничества
  • 6 Статистические тесты
  • 7 Диапазон применимости
    • 7.1 Известно, что распределения подчиняются закону Бенфорда
    • 7.2 Известно, что дистрибутивы не подчиняются закону Бенфорда
    • 7.3 Критерии ожидаемого и не ожидаемого распределения согласно закону Бенфорда
    • 7.4 Теорема Бенфорда о соответствии закону
  • 8 тестов с распространенными дистрибутивами
  • 9 Обобщение на цифры после первой
  • 10 моментов
  • 11 В популярной культуре
  • 12 См. Также
  • 13 Ссылки
  • 14 Дальнейшее чтение
  • 15 Внешние ссылки
Определение
Прямоугольник со смещенной осью, выделенной жирным шрифтом, в нижнем левом углу и светло-серыми линиями, представляющими логарифмы Логарифмическая шкала бар. Выбирая случайную позицию x равномерно на этой числовой строке, примерно в 30% случаев первая цифра числа будет 1.

Говорят, что набор чисел удовлетворяет закону Бенфорда, если первая цифра  d ( d  ∈ {1,..., 9}) встречается с вероятностью

п ( d ) знак равно бревно 10 ( d + 1 ) - бревно 10 ( d ) знак равно бревно 10 ( d + 1 d ) знак равно бревно 10 ( 1 + 1 d ) {\ Displaystyle P (d) = \ log _ {10} (d + 1) - \ log _ {10} (d) = \ log _ {10} \ left ({\ frac {d + 1} {d} } \ right) = \ log _ {10} \ left (1 + {\ frac {1} {d}} \ right)}

Таким образом, первые цифры в таком наборе имеют следующее распределение:

d п ( d ) {\ Displaystyle P (d)} Относительный размер п ( d ) {\ Displaystyle P (d)}
1 30,1% 30,1 
2 17,6% 17,6 
3 12,5% 12,5 
4 9,7% 9,7 
5 7,9% 7.9 
6 6,7% 6,7 
7 5,8% 5,8 
8 5,1% 5.1 
9 4,6% 4.6 

Величина пропорциональна промежутку между d и d  + 1 в логарифмическом масштабе. Следовательно, это распределение ожидается, если логарифмы чисел (но не сами числа) распределены равномерно и случайным образом. п ( d ) {\ Displaystyle P (d)}

Например, число x, ограниченное диапазоном от 1 до 10, начинается с цифры 1, если 1 ≤  x  lt;2, и начинается с цифры 9, если 9 ≤  x  lt;10. Следовательно, x начинается с цифры 1, если log 1 ≤ log  x  lt;log 2, или начинается с 9, если log 9 ≤ log  x  lt;log 10. Интервал [log 1, log 2] намного шире, чем интервал [log 9, log 10] (0,30 и 0,05 соответственно); следовательно, если log x распределен равномерно и случайным образом, он с большей вероятностью попадет в более широкий интервал, чем в более узкий интервал, т. е. с большей вероятностью начнется с 1, чем с 9; вероятности пропорциональны ширине интервала, что дает приведенное выше уравнение (а также обобщение для других оснований, кроме десятичных).

Закон Бенфорда иногда формулируется в более строгой форме, утверждая, что дробная часть логарифма данных обычно близка к равномерному распределению между 0 и 1; из этого можно вывести основное утверждение о распределении первых цифр.

В других базах

Графики P  ( d  ) для начальной цифры d в различных основаниях. Пунктирная линия показывает, что P  ( d  ) было равномерным распределением. На изображении SVG наведите указатель мыши на график, чтобы отобразить значение для каждой точки.

Расширение закона Бенфорда предсказывает распределение первых цифр в других основаниях, кроме десятичного ; на самом деле любая база b  ≥ 2. Общая форма:

п ( d ) знак равно бревно б ( d + 1 ) - бревно б ( d ) знак равно бревно б ( 1 + 1 d ) . {\ Displaystyle P (d) = \ log _ {b} (d + 1) - \ log _ {b} (d) = \ log _ {b} \ left (1 + {\ tfrac {1} {d}) }\Правильно).}

Для b  = 2,1 ( двоичной и унарной ) систем счисления закон Бенфорда верен, но тривиален: все двоичные и унарные числа (кроме 0 или пустого набора) начинаются с цифры 1. (С другой стороны, обобщение закона Бенфорда до вторых и последующих цифр нетривиально даже для двоичных чисел.)

Примеры
Распределение первых цифр (в%, красные столбцы) среди населения 237 стран мира по состоянию на июль 2010 г. Черные точки указывают распределение, предсказанное законом Бенфорда.

Изучение списка высот 58 самых высоких сооружений в мире по категориям показывает, что 1, безусловно, является наиболее распространенной ведущей цифрой, независимо от единицы измерения (см. «Масштабную инвариантность» ниже):

Первая цифра м футов Закон Бенфорда
Считать % Считать %
1 24 41,4% 16 27,6% 30,1%
2 9 15,5% 8 13,8% 17,6%
3 7 12,1% 5 8,6% 12,5%
4 6 10,3% 7 12,1% 9,7%
5 1 1,7% 10 17,2% 7,9%
6 5 8,6% 4 6,9% 6,7%
7 1 1,7% 2 3,4% 5,8%
8 4 6,9% 5 8,6% 5,1%
9 1 1,7% 1 1,7% 4,6%

Другой пример - первая цифра 2 n. Последовательность первых 96 цифр (1, 2, 4, 8, 1, 3, 6, 1, 2, 5, 1, 2, 4, 8, 1, 3, 6, 1... (последовательность A008952 в OEIS )) демонстрирует более точное соответствие закону Бенфорда, чем ожидается для последовательностей такой длины, потому что он получен из геометрической последовательности, а не случайным; цифра 1 всегда появляется через каждые три или четыре цифры, и только цифра 9 может появляться дважды подряд.

Первая цифра Вхождение Закон Бенфорда
Считать %
1 29 30,2% 30,1%
2 17 17,7% 17,6%
3 12 12,5% 12,5%
4 10 10,4% 9,7%
5 7 7,3% 7,9%
6 6 6,3% 6,7%
7 5 5,2% 5,8%
8 5 5,2% 5,1%
9 5 5,2% 4,6%
История

Открытие закона Бенфорда восходит к 1881 году, когда канадско-американский астроном Саймон Ньюкомб заметил, что в таблицах логарифмов более ранние страницы (которые начинались с 1) были намного более изношенными, чем другие страницы. Опубликованный результат Ньюкомба является первым известным примером этого наблюдения и также включает распределение по второй цифре. Ньюкомб предложил закон, согласно которому вероятность того, что одно число N будет первой цифрой числа, равна log ( N  + 1) - log ( N).

Это явление было снова замечено в 1938 году физиком Фрэнком Бенфордом, который проверил его на данных из 20 различных областей и получил признание. Его набор данных включал площади поверхности 335 рек, размеры 3259 жителей США, 104 физических константы, 1800 молекулярных масс, 5000 записей из математического справочника, 308 чисел, содержащихся в выпуске Reader's Digest, адреса первых 342 человек. лиц, перечисленных в списке « Американских ученых мужей», и 418 коэффициентов смертности. Общее количество наблюдений, использованных в статье, составило 20 229. Позднее это открытие было названо в честь Бенфорда (что делает его примером закона Стиглера ).

В 1995 году Тед Хилл доказал результат о смешанных распределениях, упомянутых ниже.

Пояснения

Закон Бенфорда имеет тенденцию наиболее точно применяться к данным, охватывающим несколько порядков величины. Как показывает практика, чем больше порядков величины равномерно покрывают данные, тем точнее применяется закон Бенфорда. Например, можно ожидать, что закон Бенфорда будет применяться к списку чисел, представляющих население британских поселений. Но если «поселение» определяется как деревня с населением от 300 до 999 человек, то закон Бенфорда не будет применяться.

Рассмотрим представленные ниже распределения вероятностей в логарифмической шкале. В каждом случае общая площадь, выделенная красным, представляет собой относительную вероятность того, что первая цифра равна 1, а общая площадь, указанная синим цветом, - это относительная вероятность того, что первая цифра равна 8. Для первого распределения размер областей красного и синие примерно пропорциональны ширине каждой красной и синей полос. Следовательно, числа, взятые из этого распределения, будут приблизительно соответствовать закону Бенфорда. С другой стороны, для второго распределения соотношение областей красного и синего сильно отличается от отношения ширины каждой красной и синей полос. Скорее, относительные области красного и синего больше определяются высотой полос, чем шириной. Соответственно, первые цифры в этом распределении вообще не удовлетворяют закону Бенфорда.

Широкое распределение вероятностей журнала переменной, показанное в логарифмической шкале. Закон Бенфорда можно увидеть в большей области, покрытой красным (первая цифра), по сравнению с синим (первая цифра 8) штриховкой. Узкое распределение вероятностей журнала переменной, показанное в логарифмической шкале. Закон Бенфорда не соблюдается, поскольку узкое распределение не соответствует критериям закона Бенфорда.

Таким образом, распределения реального мира, которые охватывают несколько порядков величины довольно равномерно ( например, население деревень / поселков / городов, цены на фондовом рынке), вероятно, будут удовлетворять закону Бенфорда с очень высокой точностью. С другой стороны, распределение, которое в основном или полностью находится в пределах одного порядка величины ( например, рост взрослого человека или показатели IQ), вряд ли очень точно или вообще удовлетворяет закону Бенфорда. Однако разница между применимыми и неприменимыми режимами не является резкой границей: по мере сужения распределения отклонения от закона Бенфорда постепенно увеличиваются.

(Это обсуждение не является полным объяснением закона Бенфорда, потому что оно не объясняет, почему наборы данных так часто встречаются, что при нанесении на график в виде вероятностного распределения логарифма переменной они относительно однородны на несколько порядков величины.)

Объяснение энтропии Кригера – Кафри

В 1970 году Вольфганг Кригер доказал то, что сейчас называется теоремой о генераторе Кригера. Теорема о генераторе Кригера может рассматриваться как оправдание предположения в модели шара и ящика Кафри о том, что в данной базе с фиксированным числом цифр 0, 1,... n,...,, цифра n эквивалентен ящику Кафри, содержащему n невзаимодействующих шаров. Ряд других ученых и статистиков предложили объяснения закона Бенфорда, связанные с энтропией. B {\ displaystyle B} B - 1 {\ displaystyle B-1}

Мультипликативные колебания

Многие реальные примеры закона Бенфорда возникают из-за мультипликативных флуктуаций. Например, если цена акции начинается с 100 долларов, а затем каждый день она умножается на случайно выбранный коэффициент от 0,99 до 1,01, то в течение длительного периода распределение вероятностей ее цены удовлетворяет закону Бенфорда с все большей и большей точностью.

Причина в том, что логарифм цены акции совершает случайное блуждание, поэтому со временем его распределение вероятностей будет становиться все более широким и плавным (см. Выше). (С технической точки зрения центральная предельная теорема гласит, что умножение все большего и большего числа случайных величин создаст логнормальное распределение с все большей и большей дисперсией, поэтому в конечном итоге оно охватывает многие порядки величины почти равномерно.) Чтобы быть уверенным в приблизительном согласии с законом Бенфорда., распределение должно быть приблизительно неизменным при увеличении до 10 раз; набор логнормально распределенных данных с широким разбросом будет обладать этим приблизительным свойством.

В отличие от мультипликативных флуктуаций, аддитивные флуктуации не приводят к закону Бенфорда: вместо этого они приводят к нормальным распределениям вероятностей (опять же по центральной предельной теореме ), которые не удовлетворяют закону Бенфорда. Например, «количество ударов сердца, которое я испытываю в данный день» может быть записано как сумма многих случайных величин (например, сумма ударов сердца в минуту за все минуты дня), так что это количество вряд ли будет следовать Закон Бенфорда. Напротив, эта гипотетическая цена акции, описанная выше, может быть записана как произведение многих случайных величин (т. Е. Фактора изменения цены за каждый день), поэтому, вероятно, будет достаточно хорошо следовать закону Бенфорда.

Множественные распределения вероятностей

Антон Форманн предоставил альтернативное объяснение, обратив внимание на взаимосвязь между распределением значимых цифр и распределением наблюдаемой переменной. В ходе моделирования он показал, что длинные правосторонние распределения случайной величины совместимы с законом Ньюкома-Бенфорда и что для распределений отношения двух случайных величин соответствие обычно улучшается. Для чисел, взятых из определенных распределений (IQ баллов, человеческих высот) закон Бенфорда не выполняется, потому что они переменные подчиняются нормальное распределение, которое, как известно, не закон Satisfy Бенфорда, так как нормальные распределения не могут разделяться на несколько порядков и mantissae из их логарифмы не будут (даже приблизительно) равномерно распределены. Однако, если «смешать» числа из этих распределений, например, взяв числа из газетных статей, закон Бенфорда появится снова. Это также можно доказать математически: если кто-то несколько раз «случайным образом» выбирает распределение вероятностей (из некоррелированного набора), а затем случайным образом выбирает число в соответствии с этим распределением, полученный список чисел будет подчиняться закону Бенфорда. Аналогичное вероятностное объяснение появления закона Бенфорда в числах повседневной жизни было выдвинуто, показывая, что он возникает естественным образом, когда кто-то рассматривает смеси однородных распределений.

Инвариантность

Если есть список длин, то распределение первых цифр чисел в списке может быть в целом одинаковым, независимо от того, выражены ли все длины в метрах, ярдах, футах или дюймах и т. Д. То же самое относится к денежным единицам..

Это не всегда так. Например, рост взрослых людей почти всегда начинается с 1 или 2 при измерении в метрах и почти всегда начинается с 4, 5, 6 или 7 при измерении в футах.

Но рассмотрите список длин, который равномерно распределен на многие порядки. Например, список из 1000 длин, упомянутых в научных статьях, будет включать измерения молекул, бактерий, растений и галактик. Если записать все эти длины в метрах или все в футах, разумно ожидать, что распределение первых цифр должно быть одинаковым в двух списках.

В этих ситуациях, когда распределение первых цифр набора данных не зависит от масштаба (или не зависит от единиц, в которых выражены данные), распределение первых цифр всегда задается законом Бенфорда.

Например, первая (отличная от нуля) цифра в этом списке длин должна иметь одинаковое распределение независимо от того, используются ли единицы измерения футы или ярды. Но в ярде три фута, поэтому вероятность того, что первая цифра длины в ярдах равна 1, должна быть такой же, как вероятность того, что первая цифра длины в футах равна 3, 4 или 5; аналогично вероятность того, что первая цифра длины в ярдах равна 2, должна быть такой же, как вероятность того, что первая цифра длины в футах равна 6, 7 или 8. Применение этого ко всем возможным шкалам измерений дает логарифмическое распределение Закон Бенфорда.

Закон Бенфорда для первых цифр является базовым инвариантом для систем счисления. Существуют условия и доказательства сумм-инвариантности, обратной инвариантности, сложения и вычитания.

Приложения

Обнаружение мошенничества в бухгалтерском учете

В 1972 году Хэл Вариан предположил, что закон может быть использован для выявления возможного мошенничества в списках социально-экономических данных, представляемых в поддержку решений государственного планирования. Основываясь на правдоподобном предположении, что люди, выдумывающие цифры, обычно распределяют свои цифры довольно равномерно, простое сравнение частотного распределения первых цифр из данных с ожидаемым распределением в соответствии с законом Бенфорда должно выявить любые аномальные результаты.

Использование в уголовных процессах

В Соединенных Штатах доказательства, основанные на законе Бенфорда, были допущены к рассмотрению уголовных дел на федеральном, государственном и местном уровнях.

Данные о выборах

Уолтер Мебейн, политолог и статистик из Мичиганского университета, был первым, кто применил двузначный тест Бенфорда (тест 2BL) в судебной экспертизе выборов. Такой анализ считается простым, хотя и небезопасным методом выявления нарушений в результатах выборов и помогает выявить фальсификации результатов выборов. В исследовании 2011 года, проведенном политологами Джозефом Декертом, Михаилом Мягковым и Питером Ордешуком, утверждалось, что закон Бенфорда проблематичен и вводит в заблуждение как статистический индикатор фальсификации выборов. Их метод подвергся критике со стороны Мебэйна в ответ, хотя он согласился с тем, что есть много предостережений в отношении применения закона Бенфорда к данным о выборах.

Закон Бенфорда был использован в качестве доказательства фальсификации на иранских выборах 2009 года. Анализ Мебане показал, что вторые цифры при подсчете голосов за президента Махмуда Ахмадинежада, победителя выборов, имели тенденцию значительно отличаться от ожиданий закона Бенфорда, и что урны для голосования с очень небольшим количеством недействительных бюллетеней оказали большее влияние на результаты, свидетельствующие о широкомасштабном вбросе бюллетеней. В другом исследовании использовалось моделирование начальной загрузки, чтобы обнаружить, что кандидат Мехди Карруби получил почти в два раза больше голосов, начиная с цифры 7, чем можно было бы ожидать в соответствии с законом Бенфорда, в то время как анализ Колумбийского университета пришел к выводу, что вероятность того, что справедливые выборы приведут к обоим слишком мало несмежных цифр и подозрительные отклонения в частотах последних цифр, обнаруженные на президентских выборах 2009 года в Иране, составляют менее 0,5 процента. Закон Бенфорда также применялся для судебно-медицинской экспертизы и выявления мошенничества с данными губернаторских выборов в Калифорнии в 2003 году, президентских выборов в США в 2000 и 2004 годах и федеральных выборов в Германии в 2009 году ; Было обнаружено, что тест закона Бенфорда «заслуживает серьезного отношения как статистический тест на мошенничество», хотя «он не чувствителен к искажениям, которые, как мы знаем, существенно повлияли на многие голоса».

Закон Бенфорда также был неправильно применен, чтобы заявить о фальсификации выборов. При применении закона к результатам выборов Джо Байдена в Чикаго, Милуоки и других населенных пунктах на президентских выборах в США 2020 года распределение первой цифры не соответствовало закону Бенфорда. Неправильное применение было результатом просмотра данных, которые были жестко привязаны к диапазону, что нарушает допущение, заложенное в законе Бенфорда, о том, что диапазон данных должен быть большим. По словам Мебане, «широко известно, что первые цифры подсчета голосов на участках бесполезны для диагностики фальсификаций на выборах».

Макроэкономические данные

Точно так же макроэкономические данные, которые правительство Греции представило Европейскому союзу перед вступлением в еврозону, оказались, вероятно, мошенническими с использованием закона Бенфорда, хотя и спустя годы после присоединения страны.

Анализ цифр цены

Закон Бенфорда как эталон для исследования цифр цен был успешно введен в контекст исследования ценообразования. Важность этого эталона для выявления нарушений в ценах была впервые продемонстрирована в общеевропейском исследовании, в котором изучались цифры потребительских цен до и после введения евро на предмет корректировки цен. Введение евро в 2002 году с его различными обменными курсами исказило существующие модели номинальных цен, в то же время сохранив реальные цены. В то время как первые цифры номинальных цен распределялись в соответствии с законом Бенфорда, исследование показало явное отклонение от этого эталона для второй и третьей цифр номинальных рыночных цен с четкой тенденцией к психологическому ценообразованию после номинального шока введения евро.

Данные генома

Количество открытых рамок считывания и их отношение к размеру генома различается у эукариот и прокариот, причем первые демонстрируют лог-линейную зависимость, а вторые - линейную. Для проверки этого наблюдения был использован закон Бенфорда, который отлично согласуется с данными в обоих случаях.

Обнаружение научного мошенничества

Проверка коэффициентов регрессии в опубликованных статьях показала согласие с законом Бенфорда. В качестве группы сравнения испытуемых попросили сфабриковать статистические оценки. Фальсифицированные результаты соответствовали закону Бенфорда о первых цифрах, но не соответствовали закону Бенфорда о вторых цифрах.

Статистические тесты

Хотя критерий хи-квадрат использовался для проверки соответствия закону Бенфорда, он имеет низкую статистическую мощность при использовании с небольшими выборками.

Тест Колмогорова-Смирнова и тест Койпера является более мощными, когда размер выборки мал, особенно когда используются поправочный коэффициент Стивенса в. Эти тесты могут быть излишне консервативными при применении к дискретным распределениям. Значения для теста Бенфорда были получены Морроу. Критические значения тестовой статистики показаны ниже:

α Тестовое задание 0,10 0,05 0,01
Койпер 1,191 1,321 1,579
Колмогоров – Смирнов 1.012 1,148 1,420

Эти критические значения обеспечивают минимальные значения тестовой статистики, необходимые для отклонения гипотезы о соответствии закону Бенфорда на заданных уровнях значимости.

Были опубликованы два альтернативных теста, специфичных для этого закона: во-первых, статистика max ( m) определяется выражением

м знак равно N Максимум я знак равно 1 9 { | Pr ( Икс  есть FSD знак равно я ) - бревно 10 ( 1 + 1 я ) | } {\ displaystyle m = {\ sqrt {N}} \ cdot \ max _ {i = 1} ^ {9} \ left \ {\ left | \ Pr (X {\ text {имеет FSD}} = i) - \ журнал _ {10} \ left (1 + {\ frac {1} {i}} \ right) \ right | \ right \} \,}

и, во-вторых, статистика расстояния ( d) определяется выражением

d знак равно N я знак равно 1 9 [ Pr ( Икс  есть FSD знак равно я ) - бревно 10 ( 1 + 1 я ) ] 2 , {\ displaystyle d = {\ sqrt {N \ cdot \ sum _ {i = 1} ^ {9} \ left [\ Pr (X {\ text {имеет FSD}} = i) - \ log _ {10} \ left (1 + {\ frac {1} {i}} \ right) \ right] ^ {2}}},}

где FSD - первая значащая цифра, а N - размер выборки. Морроу определил критические значения для обеих этих статистических данных, которые показаны ниже:

⍺ Статистика 0,10 0,05 0,01
Лемис м 0,851 0,967 1,212
D Чо – Гейнса 1,212 1,330 1,569

Морроу также показал, что для любой случайной величины X (с непрерывным pdf), деленной на ее стандартное отклонение ( σ), можно найти такое значение A, что вероятность распределения первой значащей цифры случайной величины (Икс/σ) A будет отличаться от закона Бенфорда менее чем на ε gt; 0. Значение A зависит от значения ε и распределения случайной величины.

Предложен метод учета обнаружения мошенничества, основанный на загрузке и регрессии.

Если цель состоит в том, чтобы заключить соглашение с законом Бенфорда, а не разногласием, то испытания благости-о-приступа упоминались выше, являются неуместными. В этом случае должны применяться специальные тесты на эквивалентность. Эмпирическое распределение называется эквивалентным закону Бенфорда, если расстояние (например, расстояние полной вариации или обычное евклидово расстояние) между функциями вероятности и массы достаточно мало. Этот метод тестирования с применением закона Бенфорда описан в Ostrovski (2017).

Диапазон применимости

Известно, что распределения подчиняются закону Бенфорда

Некоторые хорошо известные бесконечные целочисленные последовательности доказуемо точно удовлетворяют закону Бенфорда (в асимптотическом пределе, когда включается все больше и больше членов последовательности). Среди них числа Фибоначчи, факториалы, степени двойки и степени почти любого другого числа.

Точно так же некоторые непрерывные процессы точно удовлетворяют закону Бенфорда (в асимптотическом пределе, когда процесс продолжается во времени). Один из них - процесс экспоненциального роста или убывания : если величина экспоненциально увеличивается или уменьшается во времени, то процент времени, в течение которого она имеет каждую первую цифру, асимптотически удовлетворяет закону Бенфорда (т.е. увеличивается точность по мере того, как процесс продолжается во времени).

Распределения, не подчиняющиеся закону Бенфорда

В квадратные корни и обратными последовательных натуральных чисел не подчиняются этому закону. Списки местных телефонных номеров в Северной Америке (длина из 7 цифр) нарушают закон Бенфорда, поскольку они не могут начинаться с префикса междугородной связи цифры 1. Закон Бенфорда нарушается населением всех мест с населением около по меньшей мере 2500 человек из пяти штатов США по данным переписей 1960 и 1970 годов, где только 19% начинались с цифры 1, а 20% начинались с цифры 2, потому что усечение на 2500 вносит статистическую ошибку. Конечные цифры в отчетах о патологии нарушают закон Бенфорда из-за округления.

Распределения, не охватывающие несколько порядков величины, не подчиняются закону Бенфорда. Примеры включают рост, вес и показатели IQ.

Критерии ожидаемого и не ожидаемого распределения подчиняются закону Бенфорда

Ряд критериев, особенно применимых к бухгалтерским данным, был предложен там, где можно ожидать применения закона Бенфорда.

Распределения, которые, как можно ожидать, подчиняются закону Бенфорда
  • Когда среднее значение больше медианы, а перекос положительный
  • Числа, полученные в результате математической комбинации чисел: например, количество × цена.
  • Данные уровня транзакции: например, выплаты, продажи.
Распределения, которые не должны подчиняться закону Бенфорда
  • Где номера присваиваются последовательно: например, номера чеков, номера счетов-фактур.
  • Где на числа влияет человеческая мысль: например, цены устанавливаются психологическими порогами (1,99 доллара США).
  • Учетные записи с большим количеством номеров конкретных компаний: например, учетные записи, настроенные для регистрации возврата 100 долларов США.
  • Аккаунты со встроенным минимумом или максимумом
  • Распределения, которые не охватывают порядок величин.

Теорема соответствия закону Бенфорда

Математически закон Бенфорда применяется, если тестируемое распределение соответствует «Теореме соответствия закону Бенфорда». Вывод гласит, что закон Бенфорда соблюдается, если преобразование Фурье логарифма функции плотности вероятности равно нулю для всех целочисленных значений. В частности, это выполняется, если преобразование Фурье равно нулю (или пренебрежимо мало) для n≥1. Это выполняется, если распределение является широким (поскольку широкое распределение подразумевает малое преобразование Фурье). Смит резюмирует это (стр. 716):

«Закон Бенфорда сопровождается распределениями, которые шире по сравнению с единичным расстоянием по логарифмической шкале. Точно так же закон не подчиняется распределениям, которые являются узкими по сравнению с единичным расстоянием…. «Если распределение является широким по сравнению с единичным расстоянием на оси журнала, это означает, что разброс в исследуемом наборе чисел намного больше десяти».

Короче говоря, закон Бенфорда требует, чтобы числа в измеряемом распределении имели разброс по крайней мере на порядок.

Тесты с распространенными дистрибутивами

Закон Бенфорда был эмпирически проверен на числах (до 10-го разряда), генерируемых рядом важных распределений, включая равномерное распределение, экспоненциальное распределение, нормальное распределение и другие.

Равномерное распределение, как и следовало ожидать, не подчиняется закону Бенфорда. В противоположность этому, распределение соотношения из двух равномерных распределений хорошо описывается законом Бенфорда.

Ни нормальное распределение, ни распределение отношений двух нормальных распределений ( распределение Коши ) не подчиняются закону Бенфорда. Хотя полунормальное распределение не подчиняется закону Бенфорда, соотношение двух полунормальных распределений подчиняется. Ни усеченное вправо нормальное распределение, ни распределение отношения двух усеченных вправо нормальных распределений хорошо не описываются законом Бенфорда. Это неудивительно, поскольку это распределение ориентировано на большее число.

Закон Бенфорда также хорошо описывает экспоненциальное распределение и соотношение двух экспоненциальных распределений. Подгонка распределения хи-квадрат зависит от степеней свободы (df) с хорошим согласием с df = 1 и уменьшением согласия с увеличением df. F -распределение оснащено хорошо для низких степеней свободы. С увеличением dfs соответствие уменьшается, но намного медленнее, чем распределение хи-квадрат. Подгонка логнормального распределения зависит от среднего и дисперсии распределения. Дисперсия оказывает гораздо большее влияние на соответствие, чем среднее значение. Чем больше значения обоих параметров, тем лучше согласуется с законом. Отношение двух логнормальных распределений является логнормальным, поэтому это распределение не исследовалось.

Другие дистрибутивы, которые были рассмотрены, включают распределение Мут, распределение Гомпертца, распределение Вейбулла, гамма - распределения, лог-логистическое распределение и экспоненциальное распределение мощности, все из которых показывают разумное согласие с законом. Распределение Гамбеля - плотность возрастает с увеличением значения случайной величины - не соответствует этому закону.

Обобщение до цифр после первой
Логарифмический график вероятности того, что число начинается с цифры n, для распределения, удовлетворяющего закону Бенфорда. Точки показывают точную формулу: P (n) = log 10 (1 + 1 / n). График стремится к пунктирной асимптоте, проходящей через (1, log 10  e) с наклоном -1 в логарифмическом масштабе. Пример, выделенный желтым цветом, показывает, что вероятность того, что число начинается с 314, составляет около 0,00138. Пунктирными линиями показаны вероятности равномерного распределения для сравнения. На изображении SVG наведите указатель мыши на точку, чтобы отобразить ее значения.

Можно расширить закон до цифр, превышающих первую. В частности, для любого заданного количества цифр вероятность встретить число, начинающееся со строки цифр n такой длины (без начальных нулей), определяется следующим образом:

бревно 10 ( п + 1 ) - бревно 10 ( п ) знак равно бревно 10 ( 1 + 1 п ) {\ displaystyle \ log _ {10} (n + 1) - \ log _ {10} (n) = \ log _ {10} \ left (1 + {\ frac {1} {n}} \ right)}

Например, вероятность того, что число начинается с цифр 3, 1, 4, равна log 10 (1 + 1/314) ≈ 0,00138, как на рисунке справа. К числам, удовлетворяющим этому требованию, относятся 3,14159..., 314285,7... и 0,00314465....

Этот результат можно использовать для определения вероятности того, что конкретная цифра встречается в заданной позиции в числе. Например, вероятность того, что в качестве второй цифры встречается цифра "2", равна

бревно 10 ( 1 + 1 12 ) + бревно 10 ( 1 + 1 22 ) + + бревно 10 ( 1 + 1 92 ) 0,109 {\ displaystyle \ log _ {10} \ left (1 + {\ frac {1} {12}} \ right) + \ log _ {10} \ left (1 + {\ frac {1} {22}} \ вправо) + \ cdots + \ log _ {10} \ left (1 + {\ frac {1} {92}} \ right) \ приблизительно 0,109}

И вероятность того, что d ( d  = 0, 1,..., 9) встретится как n -я ( n  gt; 1) цифра, равна

k знак равно 10 п - 2 10 п - 1 - 1 бревно 10 ( 1 + 1 10 k + d ) {\ displaystyle \ sum _ {k = 10 ^ {n-2}} ^ {10 ^ {n-1} -1} \ log _ {10} \ left (1 + {\ frac {1} {10k + d }}\Правильно)}

Распределение n-й цифры при увеличении n быстро приближается к равномерному распределению с 10% для каждой из десяти цифр, как показано ниже. Четырех цифр часто бывает достаточно, чтобы предположить равномерное распределение 10%, поскольку «0» появляется в 10,0176% случаев в четвертой цифре, а «9» появляется в 9,9824% случаев.

Цифра 0 1 2 3 4 5 6 7 8 9
1-й N / A 30,1% 17,6% 12,5% 9,7% 7,9% 6,7% 5,8% 5,1% 4,6%
2-й 12,0% 11,4% 10,9% 10,4% 10,0% 9,7% 9,3% 9,0% 8,8% 8,5%
3-й 10,2% 10,1% 10,1% 10,1% 10,0% 10,0% 9,9% 9,9% 9,9% 9,8%
Моменты

Были вычислены средние и моменты случайных величин для цифр с 1 по 9 по этому закону:

Для двузначного распределения по закону Бенфорда также известны эти значения:

Доступна таблица точных вероятностей совместного появления первых двух цифр в соответствии с законом Бенфорда, а также корреляция между первой и второй цифрами: ρ = 0,0561.

В популярной культуре

В последние годы концепция закона Бенфорда стала достаточно известной, чтобы использовать ее в качестве сюжета в некоторых популярных развлечениях, в том числе:

  • Закон Бенфорда был использован для раскрытия серии крупных краж со взломом в эпизоде ​​«Бегущий человек» (2006) телевизионной криминальной драмы NUMB3RS.
  • Закон Бенфорда используется для разоблачения кражи средств робототехнической компании в фильме 2016 года «Бухгалтер».
  • Закон Бенфорда используется для анализа финансовой отчетности члена картеля и обнаружения его мошенничества в сериале Netflix « Озарк».
  • Закон Бенфорда используется для проверки того, находятся ли персонажи в симуляции или в реальности в романе Джереми Робинсона « Бесконечное 2».
Смотрите также
использованная литература
дальнейшее чтение
внешние ссылки
  • Benford Online Bibliography, онлайновая библиографическая база данных по закону Бенфорда.
  • Проверка закона Бенфорда. Проект с открытым исходным кодом, демонстрирующий действие закона Бенфорда против общедоступных наборов данных.
Последняя правка сделана 2023-08-10 04:11:16
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте