Закон Ципфа

редактировать
Чтобы узнать о законе лингвистики о длине слова, см. Закон сокращения Ципфа.
Закон Ципфа
Вероятностная функция масс График ВМП Ципфа для N = 10 Zipf PMF для N = 10 в логарифмическом масштабе. По горизонтальной оси отложен индекс k  . (Обратите внимание, что функция определена только при целочисленных значениях k. Соединительные линии не указывают на непрерывность.)
Кумулятивная функция распределения График ЦПФ Ципфа для N = 10 Zipf CDF для N = 10. По горизонтальной оси отложен индекс k  . (Обратите внимание, что функция определена только при целочисленных значениях k. Соединительные линии не указывают на непрерывность.)
Параметры s 0 {\ displaystyle s \ geq 0 \,}( реальный ) ( целое ) N { 1 , 2 , 3 } {\ Displaystyle N \ в \ {1,2,3 \ ldots \}}
Служба поддержки k { 1 , 2 , , N } {\ Displaystyle к \ в \ {1,2, \ ldots, N \}}
PMF 1 / k s ЧАС N , s {\ displaystyle {\ frac {1 / k ^ {s}} {H_ {N, s}}}}где H N, s - номер N- й обобщенной гармоники
CDF ЧАС k , s ЧАС N , s {\ displaystyle {\ frac {H_ {k, s}} {H_ {N, s}}}}
Иметь в виду ЧАС N , s - 1 ЧАС N , s {\ displaystyle {\ frac {H_ {N, s-1}} {H_ {N, s}}}}
Режим 1 {\ displaystyle 1 \,}
Дисперсия ЧАС N , s - 2 ЧАС N , s - ЧАС N , s - 1 2 ЧАС N , s 2 {\ displaystyle {\ frac {H_ {N, s-2}} {H_ {N, s}}} - {\ frac {H_ {N, s-1} ^ {2}} {H_ {N, s} ^ {2}}}}
Энтропия s ЧАС N , s k знак равно 1 N пер ( k ) k s + пер ( ЧАС N , s ) {\ displaystyle {\ frac {s} {H_ {N, s}}} \ sum \ limits _ {k = 1} ^ {N} {\ frac {\ ln (k)} {k ^ {s}}} + \ ln (H_ {N, s})}
MGF 1 ЧАС N , s п знак равно 1 N е п т п s {\ displaystyle {\ frac {1} {H_ {N, s}}} \ sum \ limits _ {n = 1} ^ {N} {\ frac {e ^ {nt}} {n ^ {s}}} }
CF 1 ЧАС N , s п знак равно 1 N е я п т п s {\ displaystyle {\ frac {1} {H_ {N, s}}} \ sum \ limits _ {n = 1} ^ {N} {\ frac {e ^ {int}} {n ^ {s}}} }

Закон Ципфа ( / z ɪ f /, а не / t s ɪ p f /, как в немецком языке) представляет собой эмпирический закон, сформулированный с использованием математической статистики, который относится к тому факту, что для многих типов данных, изучаемых в физических и социальных науках, ранг -частотное распределение является обратной зависимостью. Распределение Ципфиана является одним из семейства связанных дискретных степенных распределений вероятностей. Это связано с дзета-распределением, но не идентично.

Изначально закон Ципфа был сформулирован в терминах количественной лингвистики, утверждая, что при некотором корпусе высказываний на естественном языке частота любого слова обратно пропорциональна его рангу в таблице частот. Таким образом, наиболее часто встречающееся слово будет встречаться примерно в два раза чаще, чем второе по частоте слово, в три раза чаще, чем третье по частоте слово, и т. Д. Например, в Коричневом корпусе американского английского текста слово « the » - это наиболее часто встречающееся слово, и на его долю приходится почти 7% всех встречаемости слов (69 971 из чуть более 1 миллиона). В соответствии с законом Ципфа, слово « of », занимающее второе место, составляет чуть более 3,5% слов (36 411 случаев), за ним следует « и » (28 852). Чтобы составить половину коричневого корпуса, необходимо всего 135 словарных единиц.

Закон назван в честь американского лингвиста Джорджа Кингсли Зипфа (1902–1950), который популяризировал его и пытался объяснить (Zipf 1935, 1949), хотя он и не утверждал, что является его автором. Французский стенографист Жан-Батист Эступ (1868–1950), кажется, заметил закономерность до Ципфа. Это также было отмечено в 1913 году немецким физиком Феликсом Ауэрбахом (1856–1933).

Закон аналогичен по концепции, но не идентичен по распределению закону Бенфорда.

СОДЕРЖАНИЕ

  • 1 Другие наборы данных
  • 2 Теоретический обзор
  • 3 Статистическое объяснение
  • 4 Математическое объяснение
  • 5 Связанные законы
  • 6 приложений
  • 7 См. Также
  • 8 ссылки
  • 9 Дальнейшее чтение
  • 10 Внешние ссылки

Другие наборы данных

Такая же взаимосвязь наблюдается во многих других рейтингах созданных человеком систем, таких как ранги математических выражений или ранги нот в музыке, и даже в неконтролируемых средах, таких как ранги населения городов в разных странах, размеры корпораций, ранжирование доходов и т. Д. ряды людей, смотрящих один и тот же телеканал, расшифровки стенограмм ячеек и т. д. Появление распределения в рейтинге городов по численности населения было впервые замечено Феликсом Ауэрбахом в 1913 году. Эмпирически можно проверить набор данных, чтобы увидеть, применим ли закон Ципфа, путем проверки согласия эмпирического распределения с гипотетическим распределением степенного закона. с помощью теста Колмогорова – Смирнова, а затем сравнивая (логарифмическое) отношение правдоподобия степенного распределения с альтернативными распределениями, такими как экспоненциальное распределение или логнормальное распределение.

Когда закон Ципфа проверяется для городов, лучшее соответствие было найдено с показателем s = 1,07; т.е. п -го по величине поселение является размер самого крупного поселения, другими словами, как в соответствии с законом Ципфа. 1 п 1.07 {\ displaystyle {\ frac {1} {n ^ {1.07}}}} s е т т л р а п k знак равно s е т т л 1 1 р а п k 1.07 {\ displaystyle \ mathrm {setl} _ {\ mathrm {rank}} = \ mathrm {setl} _ {1} \ cdot {\ frac {1} {\ mathrm {rank} ^ {1.07}}}} Икс п знак равно Икс 1 1 п s {\ displaystyle x_ {n} = x_ {1} \ cdot {\ frac {1} {n ^ {s}}}}

Теоретический обзор

Закон Ципфа легче всего соблюсти, нанеся данные на логарифмический график с осями логарифма (порядок ранжирования) и логарифма (частота). Например, слово «the» (как описано выше) появится в x = log (1), y = log (69971). Также возможно построить график зависимости взаимного ранга от частоты или обратной частоты или межсловного интервала от ранга. Данные соответствуют закону Ципфа в той степени, в которой график является линейным.

Формально пусть:

  • N - количество элементов;
  • k - их ранг;
  • s - значение показателя, характеризующего распределение.

Затем закон Ципфа предсказывает, что из популяции, состоящей из N элементов, нормализованная частота элемента ранга k, f ( k ; s, N), равна:

ж ( k ; s , N ) знак равно 1 / k s п знак равно 1 N ( 1 / п s ) {\ displaystyle f (k; s, N) = {\ frac {1 / k ^ {s}} {\ sum \ limits _ {n = 1} ^ {N} (1 / n ^ {s})}} }

Закон Ципфа выполняется, если количество элементов с заданной частотой является случайной величиной со степенным распределением п ( ж ) знак равно α ж - 1 - 1 / s . {\ displaystyle p (f) = \ alpha f ^ {- 1-1 / s}.}

Было заявлено, что это представление закона Ципфа больше подходит для статистического тестирования, и таким образом оно было проанализировано в более чем 30 000 текстов на английском языке. Тесты согласия показывают, что только около 15% текстов статистически совместимы с этой формой закона Ципфа. Небольшие изменения в определении закона Ципфа могут увеличить этот процент почти до 50%.

В примере частоты встречаемости слов в английском языке N - это количество слов в английском языке, и, если мы используем классическую версию закона Ципфа, показатель s равен 1. f ( k ;  s, N) будет тогда будет доля времени, в течение которого встречается k- е наиболее часто встречающееся слово.

В законе также можно написать:

ж ( k ; s , N ) знак равно 1 k s ЧАС N , s {\ Displaystyle f (к; s, N) = {\ гидроразрыва {1} {k ^ {s} H_ {N, s}}}}

где H N, s - номер N- й обобщенной гармоники.

Простейший случай закона Ципфа - это "1/ж"функция. Учитывая набор распределенных частот Ципфа, отсортированных от наиболее распространенных к наименее распространенным, вторая наиболее распространенная частота будет встречаться вдвое реже первой, а третья по частоте встречается. 1/3так часто, как первая, и будет встречаться n- я наиболее частая частота1/птак же часто, как и первый. Однако это не может выполняться точно, потому что элементы должны встречаться целое число раз; слово не может встречаться 2,5 раза. Тем не менее, в довольно широких пределах и с довольно хорошим приближением многие природные явления подчиняются закону Ципфа.

В человеческих языках частоты слов имеют очень тяжелое распределение, и поэтому их можно достаточно хорошо смоделировать с помощью распределения Ципфа с s, близким к 1.

Пока показатель s превышает 1, такой закон может выполняться с бесконечным числом слов, поскольку если s  gt; 1, то

ζ ( s ) знак равно п знак равно 1 1 п s lt; . {\ displaystyle \ zeta (s) = \ sum _ {n = 1} ^ {\ infty} {\ frac {1} {n ^ {s}}} lt;\ infty. \!}

где ζ - дзета-функция Римана.

Статистическое объяснение

График зависимости рейтинга от частоты для первых 10 миллионов слов в 30 Википедиях (дампы с октября 2015 г.) в логарифмическом масштабе.

Хотя закон Ципфа справедлив для всех языков, даже для таких неприродных, как эсперанто, причина этого до сих пор не совсем понятна. Однако отчасти это можно объяснить статистическим анализом случайно сгенерированных текстов. Вэньтян Ли показал, что в документе, в котором каждый символ был выбран случайным образом из равномерного распределения всех букв (плюс пробел), «слова» с разной длиной следуют макротенденции закона Ципфа (более вероятный слова самые короткие с равной вероятностью). Витольд Белевич в статье, озаглавленной « О статистических законах лингвистического распределения», предлагает математический вывод. Он взял большой класс статистических распределений с хорошим поведением (не только нормальное распределение ) и выразил их в терминах ранга. Затем он расширил каждое выражение до серии Тейлора. Во всех случаях Белевич получал замечательный результат: обрезание ряда в первом порядке приводило к закону Ципфа. Кроме того, усечение второго порядка ряда Тейлора привело к закону Мандельброта.

Принцип наименьших усилий является еще одним из возможных объяснений: сам Ципф предложил, что ни ораторы, ни слушатели, использующие данный язык хотят работать тяжелее, чем это необходимо для достижения понимания, а процесс, который приводит к примерно равное распределение усилий приводит к наблюдаемому распределению Ципфа.

Точно так же предпочтительная привязанность (интуитивно «богатые становятся богаче» или «успех порождает успех»), которая приводит к распределению Юла – Саймона, как было показано, лучше соотносится между частотой слов и рангом в языке и населением в сравнении с рангом города, чем закон Ципфа. Первоначально он был получен Юлом для объяснения численности населения и ранга видов и применен к городам Саймоном.

Математическое объяснение

Модели Атласа - это системы обменных положительных диффузионных процессов с параметрами дрейфа и дисперсии, которые зависят только от ранга процесса. Математически было показано, что закон Ципфа выполняется для моделей Атласа, удовлетворяющих определенным естественным условиям регулярности. Модели Атласа могут использоваться для представления эмпирических систем многомерных данных, зависящих от времени, включая, например, частоту слов в письменном языке, население городов и размер компаний. Модель Атласа, представляющая эмпирическую систему, будет иметь такое же стационарное распределение, что и эмпирическая система, поэтому, если модель Атласа следует закону Ципфа, система также будет следовать закону Ципфа. Поскольку модели Атласа, удовлетворяющие условиям естественной регулярности, подчиняются закону Ципфа, это объясняет его универсальность.

На приведенном выше рисунке из 10 миллионов слов Википедии логарифмические графики представляют собой не совсем прямые линии, а скорее слегка вогнутые кривые с тангенсом наклона -1 в некоторой точке вдоль кривой. Такие распределения обычно называют квази-Ципфиановыми распределениями, и большинство систем зависящих от времени эмпирических данных, которые, как говорят, подчиняются закону Ципфа, на самом деле являются квази-Ципфиановыми. Квази-Ципфовые системы могут быть представлены квази-атласовыми моделями, а квази-атласские модели поддаются математической обработке, аналогичной той, что применяется для закона Ципфа.

Связанные законы

График частоты встречаемости слов в Википедии (27 ноября 2006 г.). График в логарифмических координатах. x   - ранг слова в частотной таблице; y   - общее количество вхождений слова. Как и ожидалось, наиболее популярными словами являются «the», «of» и «and». Закон Ципфа соответствует средней линейной части кривой, примерно следующей за зеленой линией (1 / x), в то время как ранняя часть находится ближе к пурпурной (1 / x 0,5) линии, а более поздняя часть ближе к голубой (1 / ( k  +  x) 2.0) строка. Эти линии соответствуют трем отдельным параметризациям распределения Ципфа – Мандельброта, в целом нарушенному степенному закону с тремя сегментами: головой, серединой и хвостом.

Фактически, закон Ципфа в более общем смысле относится к частотным распределениям «ранговых данных», в которых относительная частота элемента с n- м рангом задается дзета-распределением, 1 / ( n s ζ ( s)), где параметр s  gt; 1 индексирует членов этого семейства вероятностных распределений. Действительно, закон Ципфа иногда является синонимом «дзета-распределения», поскольку распределения вероятностей иногда называют «законами». Это распределение иногда называют распределением Ципфиана.

Обобщением закона Ципфа является закон Ципфа – Мандельброта, предложенный Бенуа Мандельброт, частоты которого равны:

ж ( k ; N , q , s ) знак равно [ постоянный ] ( k + q ) s . {\ displaystyle f (k; N, q, s) = {\ frac {[{\ text {constant}}]} {(k + q) ^ {s}}}. \,}

«Константа» является обратной величиной дзета-функции Гурвица, вычисленной в s. На практике, как это легко наблюдать на графиках распределения для больших корпусов, наблюдаемое распределение можно более точно смоделировать как сумму отдельных распределений для разных подмножеств или подтипов слов, которые следуют различным параметризациям распределения Ципфа-Мандельброта, в частности, закрытого класса функциональных слов показывает s меньше 1, в то время как неограниченный рост словарного запаса с размером документа и размером корпуса требует s больше 1 для сходимости обобщенного гармонического ряда.

Распределения Ципфа можно получить из распределений Парето путем обмена переменными.

Распределение Ципфа иногда называют дискретным распределением Парето, потому что оно аналогично непрерывному распределению Парето точно так же, как дискретное равномерное распределение аналогично непрерывному равномерному распределению.

Хвостовые частоты распределения Юла – Саймона приблизительно равны

ж ( k ; ρ ) [ постоянный ] k ρ + 1 {\ Displaystyle е (к; \ ро) \ приблизительно {\ гидроразрыва {[{\ текст {константа}}]} {к ^ {\ ро +1}}}}

при любом выборе ρ gt; 0.

В параболическом фрактальном распределении логарифм частоты является квадратичным полиномом от логарифма ранга. Это может заметно улучшить соответствие простым степенным отношениям. Как и фрактальная размерность, можно вычислить размерность Zipf, которая является полезным параметром при анализе текстов.

Утверждалось, что закон Бенфорда является частным ограниченным случаем закона Ципфа, причем связь между этими двумя законами объясняется тем, что оба они происходят из масштабно-инвариантных функциональных соотношений из статистической физики и критических явлений. Отношения вероятностей в законе Бенфорда непостоянны. Старшие цифры данных, удовлетворяющих закону Ципфа с s = 1, удовлетворяют закону Бенфорда.

п {\ displaystyle n} Закон Бенфорда: п ( п ) знак равно {\ Displaystyle P (п) =} бревно 10 ( п + 1 ) - бревно 10 ( п ) {\ Displaystyle \ журнал _ {10} (п + 1) - \ журнал _ {10} (п)} бревно ( п ( п ) / п ( п - 1 ) ) бревно ( п / ( п - 1 ) ) {\ displaystyle {\ frac {\ log (P (n) / P (n-1))} {\ log (n / (n-1))}}}
1 0,30103000
2 0,17609126 −0,7735840
3 0,12493874 -0,8463832
4 0,09691001 −0,8830605
5 0,07918125 -0,9054412
6 0,06694679 -0,9205788
7 0,05799195 -0,9315169
8 0,05115252 -0,9397966
9 0,04575749 -0,9462848

Приложения

В теории информации символ (событие, сигнал) вероятности содержит биты информации. Следовательно, закон Ципфа для натуральных чисел: эквивалентен числу, содержащему биты информации. Чтобы добавить информацию из символа вероятности в информацию, уже хранящуюся в натуральном числе, мы должны перейти к такому или что-то подобное. Например, в стандартной двоичной системе мы бы имели то, что оптимально для распределения вероятностей. Использование правила для общего распределения вероятностей является основой семейства методов энтропийного кодирования асимметричных систем счисления, используемых при сжатии данных, распределение состояний которых также регулируется законом Ципфа. п {\ displaystyle p} - бревно 2 ( 1 / п ) {\ displaystyle - \ log _ {2} (1 / p)} Pr ( Икс ) 1 / Икс {\ Displaystyle \ Pr (х) \ приблизительно 1 / х} Икс {\ displaystyle x} бревно 2 ( Икс ) {\ Displaystyle \ журнал _ {2} (х)} п {\ displaystyle p} Икс {\ displaystyle x} Икс {\ displaystyle x '} бревно 2 ( Икс ) бревно 2 ( Икс ) + бревно 2 ( 1 / п ) {\ displaystyle \ log _ {2} (x ') \ приблизительно \ log _ {2} (x) + \ log _ {2} (1 / p)} Икс Икс / п {\ Displaystyle х '\ приблизительно х / р} Икс знак равно 2 Икс + s {\ displaystyle x '= 2x + s} Pr ( s знак равно 0 ) знак равно Pr ( s знак равно 1 ) знак равно 1 / 2 {\ Displaystyle \ Pr (s = 0) = \ Pr (s = 1) = 1/2} Икс Икс / п {\ Displaystyle х '\ приблизительно х / р}

Закон Ципфа использовался для извлечения параллельных фрагментов текстов из сопоставимых корпусов. Закон Зипфа также использовался Лоренсом Дойлом и другими сотрудниками Института SETI в рамках поиска внеземного разума.

Смотрите также

использованная литература

дальнейшее чтение

Начальный:

  • Джордж К. Зипф (1949) Поведение человека и принцип наименьшего усилия. Эддисон-Уэсли. "Интернет-текст [1] "
  • Джордж К. Зипф (1935) Психобиология языка. Houghton-Mifflin.

Вторичный:

внешние ссылки

Последняя правка сделана 2023-04-05 09:59:49
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте