Проблема с немецкими танками

редактировать

Во время Второй мировой войны производство немецких танков, таких как Panther, было точно оценена разведкой союзников с использованием статистических методов

В статистической теории из оценки, проблема немецких танков состоит в оценке максимального значения дискретное равномерное распределение из выборки без замены. Проще говоря, предположим, что существует неизвестное количество элементов, которые последовательно пронумерованы от 1 до N. Берется случайная выборка этих элементов и наблюдаются их порядковые номера; проблема состоит в том, чтобы оценить N по этим наблюдаемым числам.

К проблеме можно подойти с помощью частотного вывода или байесовского вывода, что приведет к другим результатам. Оценка максимума генеральной совокупности на основе одной выборки дает разные результаты, тогда как оценка, основанная на нескольких выборках, представляет собой практический вопрос оценки, ответ на который прост (особенно в частотной настройке), но не очевиден (особенно в байесовской настройке).

Проблема названа в честь ее исторического применения союзными войсками во время Второй мировой войны для оценки ежемесячных темпов производства немецких танков на основе очень ограниченных данных. При этом использовалась производственная практика присвоения и прикрепления возрастающей последовательности серийных номеров к компонентам танка (шасси, коробка передач, двигатель, колеса), причем некоторые из танков в конечном итоге были захвачены в бою войсками союзников.

Содержание
  • 1 Предположения
  • 2 Пример
  • 3 Историческая проблема
    • 3.1 Конкретные данные
    • 3.2 Аналогичный анализ
  • 4 Контрмеры
  • 5 Частотный анализ
    • 5.1 Минимальная дисперсия несмещенная оценка
    • 5.2 Доверительные интервалы
  • 6 Байесовский анализ
    • 6.1 Условная вероятность
    • 6.2 Вероятность того, что M знает N и K
    • 6.3 Вероятность того, что M знает только K
    • 6.4 Достоверность того, что N знает только K
    • 6.5 Достоверность N, знающего M и K
    • 6.6 Среднее значение и стандартное отклонение
    • 6.7 Формула суммирования
    • 6.8 Один резервуар
    • 6.9 Два резервуара
    • 6.10 Многие резервуары
      • 6.10. 1 Достоверность функции распределения масс
      • 6.10.2 Порядок величины
      • 6.10.3 Статистическая неопределенность
  • 7 См. Также
  • 8 Дополнительная литература
  • 9 Примечания
  • 10 Ссылки
    • 10.1 Цитируемые работы
Предположения

Предполагается, что противник изготовил серию танков, помеченных последовательными целыми числами, начиная с порядкового номера 1. Кроме того, независимо от даты изготовления танка. После того, как он был использован, история обслуживания или серийный номер, который он имеет, распределение по серийным номерам, которые становятся доступными для анализа, является равномерным до момента, когда анализ проводится.

Пример
Расчетная численность населения (N). Количество наблюдений в выборке k. Самый большой серийный номер образца - m. Частотный анализ показан пунктирными линиями. Байесовский анализ имеет сплошные желтые линии со средним значением и штриховкой, чтобы показать диапазон от минимально возможного значения до среднего плюс 1 стандартное отклонение). Пример показывает, если наблюдаются четыре резервуара и самый высокий порядковый номер - «60», частотный анализ предсказывает 74, тогда как байесовский анализ предсказывает среднее значение 88,5 и стандартное отклонение 138,72 - 88,5 = 50,22 и минимум 60 резервуаров. В файле SVG наведите указатель мыши на график, чтобы выделить его.

Предположим, что танкам присвоены последовательные серийные номера, начинающиеся с 1, предположим, что захвачено четыре танка и у них есть серийные номера: 19, 40, 42 и 60.

Частотный подход предсказывает, что общее количество произведенных танков будет:

N ≈ 74 {\ displaystyle N \ приблизительно 74}{\displaystyle N\approx 74}

Байесовский подход предсказывает, что среднее количество произведенных танков будет очень похоже на частотный прогноз:

N med ≈ 74,5 {\ displaystyle N_ {med} \ приблизительно 74,5}{\displaystyle N_{med}\approx 74.5}

, тогда как байесовское среднее предсказывает, что количество произведенных танков будет следующим:

N av ≈ 89 {\ displaystyle N_ {av} \ приблизительно 89}{\displaystyle N_{av}\approx 89}

Пусть N равно общему количеству прогнозируемых произведенных танков, m равно наибольшему наблюдаемому серийному номеру а k равно количеству захваченных танков.

Частотный прогноз рассчитывается как:

N ≈ m + mk - 1 = 74 {\ displaystyle N \ приблизительно m + {\ frac {m} {k}} - 1 = 74}{\displaystyle N\approx m+{\frac {m}{k}}-1=74}

Байесовская медиана рассчитывается как:

N med ≈ m + m ln ⁡ (2) k - 1 = 74,5 {\ displaystyle N_ {med} \ приблизительно m + {\ frac {m \ ln (2)} {k- 1}} = 74,5}{\displaystyle N_{med}\approx m+{\frac {m\ln(2)}{k-1}}=74.5}

Среднее байесовское значение рассчитывается как:

N av ≈ (m - 1) k - 1 k - 2 = 89 {\ displaystyle N_ {av} \ приблизительно (m-1) { \ frac {k-1} {k-2}} = 89}{\displaystyle N_{av}\approx (m-1){\frac {k-1}{k-2}}=89}

Оба байесовских вычисления основаны на следующей функции массы вероятности :

Pr (N = n) = {0, если n < m k − 1 k ( m − 1 k − 1) ( n k) if n ≥ m, {\displaystyle \Pr(N=n)={\begin{cases}0{\text{if }}n{\displaystyle \Pr(N=n)={\begin{cases}0{\text{if }}n<m\\{\frac {k-1}{k}}{\frac {\binom {m-1}{k-1}}{\binom {n}{k}}}{\text{if }}n\geq m,\end{cases}}}

Это распределение имеет положительную асимметрию , связанную с тем, что существует не менее 60 резервуаров. Из-за этой асимметрии среднее значение может быть не самой значимой оценкой. Среднее значение в этом примере равно 74,5, что полностью согласуется с частотной формулой. Используя приближение Стирлинга, байесовская функция вероятности может быть аппроксимирована как

Pr (N = n) ≈ {0, если n < m ( k − 1) m k − 1 n − k if n ≥ m, {\displaystyle \Pr(N=n)\approx {\begin{cases}0{\text{if }}n{\displaystyle \Pr(N=n)\approx {\begin{cases}0{\text{if }}n<m\\(k-1)m^{k-1}n^{-k}{\text{if }}n\geq m,\end{cases}}}

, что приводит к следующему приближению для медианы:

N med ≈ m + m ln ⁡ (2) k - 1 {\ displaystyle N_ {med} \ приблизительно m + {\ frac {m \ ln (2)} {k-1}}}{\displaystyle N_{med}\approx m+{\frac {m\ln(2)}{k-1}}}

Наконец, средняя оценка байесовского, и его отклонение вычисляются как:

N ≈ μ ± σ = 89 ± 50, μ = (m - 1) k - 1 k - 2, σ = (k - 1) (m - 1) (m - к + 1) (к - 3) (к - 2) 2. {\ Displaystyle {\ begin {align} N \ приблизительно \ mu \ pm \ sigma = 89 \ pm 50, \\ [5pt] \ mu = (m-1) {\ frac {k-1} {k-2 }}, \\ [5pt] \ sigma = {\ sqrt {\ frac {(k-1) (m-1) (m-k + 1)} {(k-3) (k-2) ^ { 2}}}}. \ End {align}}}{\displaystyle {\begin{aligned}N\approx \mu \pm \sigma =89\pm 50,\\[5pt]\mu =(m-1){\frac {k-1}{k-2}},\\[5pt]\sigma ={\sqrt {\frac {(k-1)(m-1)(m-k+1)}{(k-3)(k-2)^{2}}}}.\end{aligned}}}
Историческая проблема
Танки Panther загружены для транспортировки в передовые части, 1943 год

В ходе войны западные союзники прилагали постоянные усилия для определения масштабов производства в Германии и подходили к этому двумя основными способами: обычным сбором разведданных и статистической оценкой. Во многих случаях статистический анализ существенно улучшил обычный интеллект. В некоторых случаях обычная разведка использовалась в сочетании со статистическими методами, как это было в случае оценки производства танков Panther незадолго до дня Д.

. Командная структура союзников считала Panzer V (Panther), замеченные в Италии, с их высокоскоростными длинноствольными пушками калибра 75 мм / L70, были необычными тяжелыми танками и их можно было увидеть только на севере Франции в небольшом количестве, почти так же, как Тигр I был замечен в Тунисе. Армия США была уверена, что танк Sherman и дальше будет хорошо себя вести, как и против танков Panzer III и Panzer IV в Северной Африке и Сицилии. Незадолго до дня высадки ходили слухи, что использовалось большое количество танков Panzer V.

Чтобы определить, правда ли это, союзники попытались оценить количество производимых танков. Для этого использовали серийные номера трофейных или уничтоженных танков. В качестве основных используемых чисел использовались номера коробок передач, поскольку они распадались в двух непрерывных последовательностях. Также использовались номера шасси и двигателя, но их использование было более сложным. Различные другие компоненты были использованы для перекрестной проверки анализа. Аналогичный анализ был проведен на колесах, которые были пронумерованы последовательно (т. Е. 1, 2, 3,..., N).

Анализ колес цистерны дал оценку количества колесных форм. которые были в употреблении. Затем в ходе обсуждения с британскими производителями опорных катков было оценено количество колес, которые можно было бы произвести из такого количества форм, что дало количество танков, производимых каждый месяц. Анализ колес от двух танков (32 опорных катка каждый, всего 64 опорных катка) показал, что в феврале 1944 года произведено 270 танков, что значительно больше, чем предполагалось ранее.

Немецкие отчеты после войны показали, что производство для в феврале 1944 года было 276. Статистический подход оказался намного более точным, чем обычные методы разведки, и фраза «проблема немецких танков» стала использоваться в качестве дескриптора для этого типа статистического анализа.

Оценка производства была не единственным использованием этого анализа серийных номеров. Он также использовался для понимания немецкого производства в более общем плане, включая количество фабрик, относительную важность фабрик, длину цепочки поставок (на основе отставания между производством и использованием), изменения в производстве и использование ресурсов, таких как каучук.

Конкретные данные

Согласно общепринятым оценкам разведки союзников, в период с июня 1940 г. по сентябрь 1942 г. немцы производили около 1400 танков в месяц. Применяя приведенную ниже формулу к серийным номерам захваченных танков, количество было подсчитано 246 в месяц. После войны захваченные данные о производстве в Германии из министерства Альберта Шпеера показали, что фактическое число составляло 245.

Оценки для некоторых конкретных месяцев представлены как:

МесяцСтатистическая оценкаОценка разведкиНемецкие записи
июнь 1940 г.1691000122
Июнь 19412441550271
август 19423271550342

Подобные анализы

Фау-2 Производство ракет было точно оценено статистическими методами

Аналогичный анализ серийных номеров использовался для другой военной техники во время Второй мировой войны, наиболее успешно для Фау-2 rocket.

Заводские маркировки на советской военной технике были проанализированы во время Корейской войны, а также немецкой разведкой во время Второй мировой войны.

В 1980-х годах некоторые Американцы получили доступ к производственной линии израильских танков Merkava. Производственные номера были засекречены, но у танков были серийные номера, позволяющие оценить производство.

Формула использовалась в невоенном контексте, например, для оценки количества Commodore 64 построены компьютеры, результат которых (12,5 миллионов) совпадает с низкими оценками.

Контрмеры

Чтобы затруднить анализ серийных номеров, серийные номера могут быть исключены или уменьшена полезная вспомогательная информация. В качестве альтернативы можно использовать серийные номера, устойчивые к криптоанализу, наиболее эффективно путем случайного выбора чисел без замены из списка, который намного превышает количество созданных объектов (сравните одноразовый блокнот ), или произвольно номера и сверьте их со списком уже присвоенных номеров; коллизии вероятны, если возможное количество цифр не более чем в два раза превышает количество цифр в количестве произведенных объектов (где серийный номер может быть в любом основании); см. день рождения. Для этого может использоваться криптографически безопасный генератор псевдослучайных чисел. Все эти методы требуют использования таблицы поиска (или взлома шифра) для перехода от серийного номера к производственному заказу, что усложняет использование серийных номеров: например, ряд серийных номеров не может быть вызван, но каждый должен быть найден индивидуально, или созданный список.

В качестве альтернативы последовательные серийные номера могут быть зашифрованы с помощью простого шифра подстановки, который позволяет легко декодировать, но также легко может быть взломан с помощью атаки с известным открытым текстом : даже если начать с произвольной точки, открытый текст имеет шаблон (а именно, числа расположены последовательно). Один из примеров приведен в романе Кена Фоллетта Code to Zero, где серийные номера ракет Юпитер-C зашифрованы следующим образом:

HUNTSVILEX
1234567890

Кодовое слово здесь - Хантсвилл (без повторяющихся букв), чтобы получить 10-буквенный ключ. Таким образом, ракета номер 13 была «HN», а ракета номер 24 - «UT».

Надежное шифрование серийных номеров без их расширения может быть достигнуто с помощью шифрования с сохранением формата. Вместо того, чтобы хранить действительно случайную перестановку на множестве всех возможных серийных номеров в большой таблице, такие алгоритмы будут выводить псевдослучайную перестановку из секретного ключа. Затем безопасность можно определить как псевдослучайную перестановку, неотличимую от действительно случайной перестановки для злоумышленника, который не знает ключа.

Частотный анализ

Несмещенная оценка с минимальной дисперсией

Для точечной оценки (оценка одного значения для итога, N ^ {\ displaystyle {\ widehat {N}}}{\displaystyle {\widehat {N}}}), несмещенная оценка с минимальной дисперсией (оценка MVUE или UMVU) задается по формуле:

N ^ = m (1 + k - 1) - 1, {\ displaystyle {\ widehat {N}} = m (1 + k ^ {- 1}) - 1,}{\displaystyle {\widehat {N}}=m(1+k^{-1})-1,}

где m - наибольший наблюдаемый серийный номер (максимум выборки ), а k - количество наблюдаемых резервуаров (размер выборки ). Обратите внимание, что после того, как серийный номер был обнаружен, он больше не находится в пуле и больше не будет наблюдаться.

Это имеет дисперсию

var ⁡ (N ^) = 1 k (N - k) (N + 1) (k + 2) ≈ N 2 k 2 для малых выборок k ≪ N, { \ displaystyle \ operatorname {var} \ left ({\ widehat {N}} \ right) = {\ frac {1} {k}} {\ frac {(Nk) (N + 1)} {(k + 2) }} \ приблизительно {\ frac {N ^ {2}} {k ^ {2}}} {\ text {для малых образцов}} k \ ll N,}{\displaystyle \operatorname {var} \left({\widehat {N}}\right)={\frac {1}{k}}{\frac {(N-k)(N+1)}{(k+2)}}\approx {\frac {N^{2}}{k^{2}}}{\text{ for small samples }}k\ll N,}

, поэтому стандартное отклонение составляет приблизительно N / k, ожидаемый размер разрыва между отсортированными наблюдениями в выборке.

Формулу можно интуитивно понимать как максимум выборки плюс средний разрыв между наблюдениями в выборке, причем максимум выборки выбирается в качестве начальной оценки, так как это оценка максимального правдоподобия, с зазором, добавленным для компенсации отрицательного смещения максимума выборки в качестве оценки для максимума совокупности, и записывается как

N ^ = m + m - kk = m + mk - 1 - 1 = m (1 + к - 1) - 1. {\ displaystyle {\ widehat {N}} = m + {\ frac {mk} {k}} = m + mk ^ {- 1} -1 = m (1 + k ^ {- 1 }) - 1.}{\displaystyle {\widehat {N}}=m+{\frac {m-k}{k}}=m+mk^{-1}-1=m(1+k^{-1})-1.}

Это можно визуализировать, представив, что наблюдения в выборке равномерно распределены по всему диапазону, с дополнительными наблюдениями сразу за пределами диапазона от 0 до N + 1. Если начать с начального промежутка между 0 и самое низкое наблюдение в выборке (минимум выборки), средний разрыв между последовательными наблюдениями в выборке составляет (m - k) / k {\ displaystyle (mk) / k}(m-k)/k; - k {\ displaystyle -k}-kозначает, что сами наблюдения не учитываются при вычислении разрыва между наблюдениями. Вывод ожидаемого значения и дисперсия максимума выборки показаны в страница дискретного равномерного распределения.

Эта философия формализована и обобщена в методе оценки максимального интервала ; аналогичная эвристика используется для при нанесении позиции на Q – Q график, на графике точек выборки при k / (n + 1), который находится на равномерном распределении, с пробелом в конце.

Доверительные интервалы

Вместо точечной оценки или в дополнение к ней может выполняться интервальная оценка, например, доверительные интервалы. Их легко вычислить, основываясь на наблюдении, что вероятность того, что k наблюдений в выборке попадут в интервал, покрывающий p диапазона (0 ≤ p ≤ 1), равна p (при условии, что в этом разделе рисунки выполнены с заменой, чтобы упростить вычислений; если ничьи без замены, это завышает вероятность, и интервалы будут слишком консервативными).

Таким образом, распределение выборки квантиля максимума выборки - это график x от 0 до 1: квантиль с p-го по q-й квантиль максимума выборки m - это интервал [ pN, qN]. Инвертирование этого дает соответствующий доверительный интервал для максимума совокупности [m / q, m / p].

Например, принимая симметричный 95% интервал p = 2,5% и q = 97,5% для k = 5, получаем 0,025 ≈ 0,48, 0,975 ≈ 0,995, поэтому доверительный интервал составляет приблизительно [1,005 м, 2,08 м]. Нижняя граница очень близка к m, поэтому более информативным является асимметричный доверительный интервал от p = 5% до 100%; для k = 5 это дает 0,05 ≈ 0,55 и интервал [м, 1,82 м].

В более общем смысле 95% доверительный интервал (смещенный вниз) составляет [m, m / 0,05] = [m, m · 20]. Для диапазона значений k с точечным оценщиком UMVU (плюс 1 для удобочитаемости) это дает:

kТочечная оценкаДоверительный интервал
12m[м, 20 м]
21,5 м[м, 4,5 м]
51,2 м[м, 1,82 м]
101,1 м[м, 1,35 м]
201,05 m[m, 1,16m]

Непосредственные наблюдения:

  • Для малых размеров выборки доверительный интервал очень широк, что отражает большую неопределенность в оценке.
  • Диапазон быстро сокращается, отражая экспоненциально убывающую вероятность того, что все наблюдения в выборке будут значительно ниже максимума.
  • Доверительный интервал демонстрирует положительный перекос, поскольку N никогда не может быть ниже максимума выборки, но потенциально может быть произвольно большим

Обратите внимание, что m / k нельзя наивно использовать (или, скорее, (m + m / k - 1) / k) в качестве оценки стандартной ошибки SE, как стандартной ошибки оценка основана на максимуме совокупности (параметр) и использует оценку для оценки ошибки в этой самой оценке рассуждения по кругу.

Байесовский анализ

Байесовский подход к проблеме немецких танков заключается в учете достоверности (N = n ∣ M = m, K = k) {\ displaystyle \ scriptstyle (N = n \ mid M = m, K = k)}\scriptstyle (N=n\mid M=m,K=k), что количество танков противника N {\ displaystyle \ scriptstyle N}\scriptstyle Nравно равно числу n {\ displaystyle \ scriptstyle n}\scriptstyle n, когда количество наблюдаемых танков K {\ displaystyle \ scriptstyle K}\scriptstyle Kравно число k {\ displaystyle \ scriptstyle k}\scriptstyle k, а максимальный наблюдаемый серийный номер M {\ displaystyle \ scriptstyle M}\scriptstyle Mравен числу м {\ Displaystyle \ scriptstyle m}\scriptstyle m. Ответ на эту проблему зависит от выбора предшествующего для N {\ displaystyle \ scriptstyle N}\scriptstyle N. Можно продолжить использование надлежащего априорного распределения, например, распределения Пуассона или отрицательного биномиального распределения, где можно получить замкнутую формулу для апостериорного среднего и апостериорной дисперсии. Альтернативой является использование прямых вычислений, как показано ниже.

Далее для краткости (N = N ∣ M = m, K = k) {\ displaystyle \ scriptstyle (N = n \ mid M = m, K = k)}\scriptstyle (N=n\mid M=m,K=k)записывается (n ∣ m, k) {\ displaystyle \ scriptstyle (n \ mid m, k)}\scriptstyle (n\mid m,k)

Условная вероятность

Правило для условной вероятности дает

(n ∣ m, k) (m ∣ k) = (m ∣ n, k) (n ∣ k) = (m, n ∣ k) {\ displaystyle (n \ mid m, k) (m \ mid k) = (m \ mid n, k) (n \ mid k) = (m, n \ mid k)}{\displaystyle (n\mid m,k)(m\mid k)=(m\mid n,k)(n\mid k)=(m,n\mid k)}

Вероятность того, что M знает N и K

Выражение

(м ∣ N, К) знак равно (М = м ∣ N = N, К = К) {\ Displaystyle (м \ середина п, к) = (М = м \ середина N = п, К = к) }{\displaystyle (m\mid n,k)=(M=m\mid N=n,K=k)}

- это условная вероятность того, что максимальный наблюдаемый серийный номер M равен m, когда известно, что количество вражеских танков N равно n, а количество наблюдаемых вражеских танков K равно заведомо равным k.

Это

(m ∣ n, k) = (m - 1 k - 1) (nk) - 1 [k ≤ m] [m ≤ n] {\ displaystyle (m \ mid n, k) = {\ binom {m-1} {k-1}} {\ binom {n} {k}} ^ {- 1} [k \ leq m] [m \ leq n]}{\displaystyle (m\mid n,k)={\binom {m-1}{k-1}}{\binom {n}{k}}^{-1}[k\leq m][m\leq n]}

где (nk) {\ displaystyle \ scriptstyle {\ binom {n} {k}}}\scriptstyle {\binom {n}{k}}- биномиальный коэффициент и [k ≤ n] {\ displaystyle \ scriptstyle [k \ leq n]}{\displaystyle \scriptstyle [k\leq n]}является скобкой Айверсона.

Выражение может быть получено следующим образом: (m ∣ n, k) {\ displaystyle (m \ mid n, k)}{\displaystyle (m\mid n,k)}отвечает на вопрос: «Какова вероятность того, что конкретный серийный номер m {\ displaystyle m}mбудет наибольшим числом, наблюдаемым в выборке k {\ displaystyle k}kрезервуаров, учитывая, что всего существует n {\ displaystyle n}nрезервуаров? "

Можно представить выборку размера k {\ displaystyle k}kкак результат k {\ displaystyle k}kиндивидуального рисует. Предположим, что m {\ displaystyle m}mнаблюдается на розыгрыше с номером d {\ displaystyle d}d. Вероятность этого:

m - 1 n ⋅ m - 2 n - 1 ⋅ m - 3 n - 2 ⋯ m - d + 1 n - d + 2 ⏟ d-1 - раз ⋅ 1 n - d + 1 ⏟ ничья нет. d ⋅ m - dn - d ⋅ m - d - 1 n - d - 1 ⋯ m - d - (k - d - 1) n - d - (k - d - 1) ⏟ k - d - раз = (n - к)! п! ⋅ (м - 1)! (м - к)!. {\ displaystyle \ underbrace {{\ frac {m-1} {n}} \ cdot {\ frac {m-2} {n-1}} \ cdot {\ frac {m-3} {n-2}} \ cdots {\ frac {m-d + 1} {n-d + 2}}} _ {\ text {d-1 - times}} \ cdot \ underbrace {\ frac {1} {n-d + 1} } _ {\ text {№ рисования. d}} \ cdot \ underbrace {{\ frac {md} {nd}} \ cdot {\ frac {md-1} {nd-1}} \ cdots {\ frac {md- (kd-1)} {nd - (kd-1)}}} _ {kd-times} = {\ frac {(nk)!} {n!}} \ cdot {\ frac {(m-1)!} {(mk)!}}.}{\displaystyle \underbrace {{\frac {m-1}{n}}\cdot {\frac {m-2}{n-1}}\cdot {\frac {m-3}{n-2}}\cdots {\frac {m-d+1}{n-d+2}}} _{\text{d-1 - times}}\cdot \underbrace {\frac {1}{n-d+1}} _{\text{draw no. d}}\cdot \underbrace {{\frac {m-d}{n-d}}\cdot {\frac {m-d-1}{n-d-1}}\cdots {\frac {m-d-(k-d-1)}{n-d-(k-d-1)}}} _{k-d-times}={\frac {(n-k)!}{n!}}\cdot {\frac {(m-1)!}{(m-k)!}}.}

Как видно из правой части, это выражение не зависит от d {\ displaystyle d}dи, следовательно, одинаково для каждого d ≤ k {\ стиль отображения d \ leq k}{\displaystyle d\leq k}. Поскольку m {\ displaystyle m}mможно нарисовать на k {\ displaystyle k}kразличных розыгрышах, вероятность любого конкретного m {\ displaystyle m}m, являющееся наибольшим наблюдаемым, в k {\ displaystyle k}kраз выше вероятности:

(m ∣ n, k) = k ⋅ (n - л)! п! ⋅ (м - 1)! (м - к)! = (м - 1 к - 1) (п к) - 1. {\ displaystyle (m \ mid n, k) = k \ cdot {\ frac {(nk)!} {n!}} \ cdot {\ frac {(m-1)!} {(mk)!}} = {\ binom {m-1} {k-1}} {\ binom {n} {k}} ^ {- 1}.}{\displaystyle (m\mid n,k)=k\cdot {\frac {(n-k)!}{n!}}\cdot {\frac {(m-1)!}{(m-k)!}}={\binom {m-1}{k-1}}{\binom {n}{k}}^{-1}.}

Вероятность того, что M знает только K

Выражение (м ∣ К) = (M = m ∣ K = K) {\ displaystyle \ scriptstyle (m \ mid k) = (M = m \ mid K = k)}\scriptstyle (m\mid k)=(M=m\mid K=k)вероятность того, что максимальный серийный номер равен m после наблюдения k танков, но до фактического наблюдения серийных номеров.

Выражение (m ∣ k) {\ displaystyle \ scriptstyle (m \ mid k)}\scriptstyle (m\mid k)может быть переписано в терминах других величин путем маргинализации по всем возможным n {\ displaystyle \ scriptstyle n}\scriptstyle n.

(m ∣ k) = (m ∣ k) ⋅ 1 = (m ∣ k) ∑ n = 0 ∞ (n ∣ m, k) = (m ∣ k)) ∑ N знак равно 0 ∞ (м ∣ N, К) (N ∣ К) (м ∣ К) = ∑ N = 0 ∞ (м ∣ N, К) (N ∣ К) {\ Displaystyle {\ begin {выровнено} (m \ mid k) = (m \ mid k) \ cdot 1 \\ = (m \ mid k) {\ sum _ {n = 0} ^ {\ infty} (n \ mid m, k)} \\ = (m \ mid k) {\ sum _ {n = 0} ^ {\ infty} (m \ mid n, k) {\ frac {(n \ mid k)} {(m \ mid k) }}} \\ = \ sum _ {n = 0} ^ {\ infty} (m \ mid n, k) (n \ mid k) \ end {align}}}{\begin{aligned}(m\mid k)=(m\mid k)\cdot 1\\=(m\mid k){\sum _{n=0}^{\infty }(n\mid m,k)}\\=(m\mid k){\sum _{n=0}^{\infty }(m\mid n,k){\frac {(n\mid k)}{(m\mid k)}}}\\=\sum _{n=0}^{\infty }(m\mid n,k)(n\mid k)\end{aligned}}

Доверие к N, зная только K

Выражение

(n ∣ k) = (N = n ∣ K = k) {\ displaystyle (n \ mid k) = (N = n \ mid K = k)}{\displaystyle (n\mid k)=(N=n\mid K=k)}

является достоверностью того, что общее количество танков N равно n, когда известно, что количество K наблюдаемых танков равно k, но до того, как были обнаружены серийные номера. Предположим, что это некоторое дискретное равномерное распределение

(n ∣ k) = (Ω - k) - 1 [k ≤ n] [n < Ω ] {\displaystyle (n\mid k)=(\Omega -k)^{-1}[k\leq n][n<\Omega ]}{\displaystyle (n\mid k)=(\Omega -k)^{-1}[k\leq n][n<\Omega ]}

Верхний предел Ω {\ displaystyle \ Omega}\Omega должен быть конечным, поскольку функция

f (n) = lim Ω → ∞ (Ω - k) - 1 [k ≤ n] [n < Ω ] = 0 {\displaystyle f(n)=\lim _{\Omega \rightarrow \infty }(\Omega -k)^{-1}[k\leq n][n<\Omega ]=0}{\displaystyle f(n)=\lim _{\Omega \rightarrow \infty }(\Omega -k)^{-1}[k\leq n][n<\Omega ]=0}

не является функцией распределения масс.

Достоверность N, знающего M и K

(n ∣ m, k) = (m ∣ n, k) (∑ n = m Ω - 1 (m ∣ n, k)) - 1 [ m ≤ n] [n < Ω ] {\displaystyle (n\mid m,k)=(m\mid n,k)\left(\sum _{n=m}^{\Omega -1}(m\mid n,k)\right)^{-1}[m\leq n][n<\Omega ]}{\displaystyle (n\mid m,k)=(m\mid n,k)\left(\sum _{n=m}^{\Omega -1}(m\mid n,k)\right)^{-1}[m\leq n][n<\Omega ]}

Если k ≥ 2, то ∑ n = m ∞ (m ∣ n, k) < ∞ {\displaystyle \scriptstyle \sum _{n=m}^{\infty }(m\mid n,k)<\infty }\scriptstyle \sum _{n=m}^{\infty }(m\mid n,k)<\infty , а нежелательная переменная Ω {\ displaystyle \ scriptstyle \ Omega}\scriptstyle \Omega исчезает из выражения.

(N ∣ м, К) знак равно (м ∣ N, К) (∑ N = м ∞ (м ∣ N, К)) - 1 [м ≤ п] {\ Displaystyle (п \ середина м, к) = (m \ mid n, k) \ left (\ sum _ {n = m} ^ {\ infty} (m \ mid n, k) \ right) ^ {- 1} [m \ leq n]}{\displaystyle (n\mid m,k)=(m\mid n,k)\left(\sum _{n=m}^{\infty }(m\mid n,k)\right)^{-1}[m\leq n]}

При k ≥ 1 режим распределения количества танков противника равен m.

Для k ≥ 2 достоверность того, что количество танков противника равно n {\ displaystyle n}n, составляет

(N = n ∣ m, k) знак равно (к - 1) (м - 1 к - 1) к - 1 (nk) - 1 [m ≤ n] {\ displaystyle (N = n \ mid m, k) = (k-1) {\ binom {m-1} {k-1}} k ^ {- 1} {\ binom {n} {k}} ^ {- 1} [m \ leq n]}{\displaystyle (N=n\mid m,k)=(k-1){\binom {m-1}{k-1}}k^{-1}{\binom {n}{k}}^{-1}[m\leq n]}

Достоверность того, что количество танков противника, N, больше n, равно

(N>n ∣ m, k) = {1, если n < m ( m − 1 k − 1) ( n k − 1) if n ≥ m {\displaystyle (N>n \ mid m, k) = {\ begin {cases} 1 {\ text {if} } n {\displaystyle (N>n \ mid m, k) = {\ begin {cases} 1 {\ text {if}} n <m\\{\frac {\binom {m-1}{k-1}}{\binom {n}{k-1}}}{\text{if }}n\geq m\end{cases}}}

Среднее значение и стандартное отклонение

Для k ≥ 3, N имеет конечное среднее значение :

(m - 1) (k - 1) (k - 2) - 1 {\ displaystyle (m-1) (k-1) (k-2) ^ {- 1}}{\displaystyle (m-1)(k-1)(k-2)^{-1}}

Для k ≥ 4 N имеет конечное стандартное отклонение :

(k - 1) 1/2 (k - 2) - 1 (k - 3) - 1/2 (m - 1) 1 / 2 (м + 1 - к) 1/2 {\ displaystyle (k-1) ^ {1/2} (k-2) ^ {- 1} (k-3) ^ {- 1/2} (м -1) ^ {1/2} (m + 1-k) ^ {1/2}}{\displaystyle (k-1)^{1/2}(k-2)^{-1}(k-3)^{-1/2}(m-1)^{1/2}(m+1-k)^{1/2}}

Эти формулы выводятся ниже.

Формула суммирования

Следующая идентичность биномиальных коэффициентов используется ниже для упрощения серии, относящейся к немецкой проблеме резервуаров.

∑ N знак равно м ∞ 1 (nk) = kk - 1 1 (m - 1 k - 1) {\ displaystyle \ sum _ {n = m} ^ {\ infty} {\ frac {1} {\ binom {n} {k}}} = {\ frac {k} {k-1}} {\ frac {1} {\ binom {m-1} {k-1}}}}\sum _{n=m}^{\infty }{\frac {1}{\binom {n}{k}}}={\frac {k}{k-1}}{\frac {1}{\binom {m-1}{k-1}}}

Эта формула суммы является несколько аналогично интегральной формуле

∫ n = m ∞ dnnk = 1 k - 1 1 mk - 1 {\ displaystyle \ int _ {n = m} ^ {\ infty} {\ frac {dn} {n ^ { k}}} = {\ frac {1} {k-1}} {\ frac {1} {m ^ {k-1}}}}\int _{n=m}^{\infty }{\frac {dn}{n^{k}}}={\frac {1}{k-1}}{\frac {1}{m^{k-1}}}

Эти формулы применимы для k>1.

Один резервуар

Наблюдение за одним резервуаром случайным образом из популяции из n резервуаров дает порядковый номер m с вероятностью 1 / n для m ≤ n и нулевую вероятность для m>n. Используя обозначение скобки Айверсона, это записывается как

(M = m ∣ N = n, K = 1) = (m ∣ n) = [m ≤ n] n {\ displaystyle (M = m \ mid N = n, K = 1) = (m \ mid n) = {\ frac {[m \ leq n]} {n}}}(M=m\mid N=n,K=1)=(m\mid n)={\frac {[m\leq n]}{n}}

Это функция условного распределения вероятностей по массе m { \ displaystyle \ scriptstyle m}\scriptstyle m.

Если рассматривать как функцию n для фиксированного m, это функция правдоподобия.

L (n) = [n ≥ m] n {\ displaystyle {\ mathcal {L}} (n) = {\ frac {[n \ geq m]} {n}}}{\mathcal {L}}(n)={\frac {[n\geq m]}{n}}

оценка максимального правдоподобия для общего количества резервуаров N 0 = m.

Предельное правдоподобие (т. Е. Маргинальное по всем моделям) составляет бесконечно, являясь хвостом гармонического ряда.

∑ n L (n) = ∑ n = m ∞ 1 п знак равно ∞ {\ Displaystyle \ сумма _ {п} {\ mathcal {L}} (п) = \ сумма _ {п = м} ^ {\ infty} {\ гидроразрыва {1} {п}} = \ infty }\sum _{n}{\mathcal {L}}(n)=\sum _{n=m}^{\infty }{\frac {1}{n}}=\infty

, но

∑ n L (n) [n < Ω ] = ∑ n = m Ω − 1 1 n = H Ω − 1 − H m − 1 {\displaystyle {\begin{aligned}\sum _{n}{\mathcal {L}}(n)[n<\Omega ]=\sum _{n=m}^{\Omega -1}{\frac {1}{n}}\\[5pt]=H_{\Omega -1}-H_{m-1}\end{aligned}}}{\displaystyle {\begin{aligned}\sum _{n}{\mathcal {L}}(n)[n<\Omega ]=\sum _{n=m}^{\Omega -1}{\frac {1}{n}}\\[5pt]=H_{\Omega -1}-H_{m-1}\end{aligned}}}

где H n {\ displaystyle H_ {n}}H_{n}- номер гармоники.

достоверность функции распределения массы зависит от предыдущего предела Ω {\ displaystyle \ scriptstyle \ Omega}\scriptstyle \Omega :

(N = n ∣ M = m, K = 1) = (n ∣ m) = [m ≤ n] n [n < Ω ] H Ω − 1 − H m − 1 {\displaystyle {\begin{aligned}(N=n\mid M=m,K=1)\\[5pt]={}(n\mid m)={\frac {[m\leq n]}{n}}{\frac {[n<\Omega ]}{H_{\Omega -1}-H_{m-1}}}\end{aligned}}}{\displaystyle {\begin{aligned}(N=n\mid M=m,K=1)\\[5pt]={}(n\mid m)={\frac {[m\leq n]}{n}}{\frac {[n<\Omega ]}{H_{\Omega -1}-H_{m-1}}}\end{aligned}}}

Среднее значение N {\ displaystyle \ scriptstyle N}\scriptstyle Nравно

∑ nn ⋅ (n ∣ m) = ∑ n = m Ω - 1 1 H Ω - 1 - ЧАС м - 1 знак равно Ω - м ЧАС Ω - 1 - ЧАС м - 1 ≈ Ω - м журнал ⁡ (Ω - 1 м - 1) {\ displaystyle {\ begin {align} \ sum _ {n} n \ cdot (n \ mid m) = \ sum _ {n = m} ^ {\ Omega -1} {\ frac {1} {H _ {\ Omega -1} -H_ {m-1}}} \\ [ 5pt] = {\ frac {\ Omega -m} {H _ {\ Omega -1} -H_ {m-1}}} \\ [5pt] \ приблизительно {\ frac {\ Omega -m} {\ log \ left ({\ frac {\ Omega -1} {m-1}} \ right)}} \ end {align}}}{\displaystyle {\begin{aligned}\sum _{n}n\cdot (n\mid m)=\sum _{n=m}^{\Omega -1}{\frac {1}{H_{\Omega -1}-H_{m-1}}}\\[5pt]={\frac {\Omega -m}{H_{\Omega -1}-H_{m-1}}}\\[5pt]\approx {\frac {\Omega -m}{\log \left({\frac {\Omega -1}{m-1}}\right)}}\end{aligned}}}

Два резервуары

Если наблюдаются два резервуара, а не один, то вероятность того, что больший из двух наблюдаемых серийных номеров равен m, составляет

(M = m ∣ N = n, K = 2) знак равно (м ∣ N) знак равно [м ≤ N] м - 1 (N 2) {\ Displaystyle (M = м \ середина N = п, К = 2) = (м \ середина п) = [м \ Leq п] {\ frac {m-1} {\ binom {n} {2}}}}(M=m\mid N=n,K=2)=(m\mid n)=[m\leq n]{\frac {m-1}{\binom {n}{2}}}

Если рассматривать функцию от n для фиксированного m, это функция правдоподобия

L (n) = [n ≥ m] m - 1 (n 2) {\ displaystyle {\ mathcal {L}} (n) = [n \ geq m] {\ frac {m-1} {\ binom {n} {2}}}}{\mathcal {L}}(n)=[n\geq m]{\frac {m-1}{\binom {n}{2}}}

Общая вероятность составляет

∑ n L (n) = m - 1 1 ∑ n = m ∞ 1 (n 2) = m - 1 1 ⋅ 2 2 - 1 ⋅ 1 (m - 1 2 - 1) = 2 {\ displaystyle {\ begin {align} \ sum _ {n} {\ mathcal {L}} (n) = {\ frac {m-1} {1}} \ sum _ {n = m} ^ {\ infty} {\ frac {1} {\ binom {n} {2}}} \\ [4pt] = {\ frac {m-1} {1}} \ cdot {\ frac {2} { 2-1}} \ cdot {\ frac {1} {\ binom {m-1} {2-1}}} \\ [4pt] = 2 \ end {align}}}{\displaystyle {\begin{aligned}\sum _{n}{\mathcal {L}}(n)={\frac {m-1}{1}}\sum _{n=m}^{\infty }{\frac {1}{\binom {n}{2}}}\\[4pt]={\frac {m-1}{1}}\cdot {\frac {2}{2-1}}\cdot {\frac {1}{\binom {m-1}{2-1}}}\\[4pt]=2\end{aligned}}}

и масса достоверности функция распределения:

(N = n ∣ M = m, K = 2) = (n ∣ m) = L (n) ∑ n L (n) = [n ≥ m] m - 1 n (n - 1) {\ dis стиль игры {\ begin {выровнен} (N = n \ mid M = m, K = 2) \\ [4pt] = {} (n \ mid m) \\ [4pt] = {} {\ frac { {\ mathcal {L}} (n)} {\ sum _ {n} {\ mathcal {L}} (n)}} \\ [4pt] = {} [n \ geq m] {\ frac {m -1} {n (n-1)}} \ end {align}}}{\displaystyle {\begin{aligned}(N=n\mid M=m,K=2)\\[4pt]={}(n\mid m)\\[4pt]={}{\frac {{\mathcal {L}}(n)}{\sum _{n}{\mathcal {L}}(n)}}\\[4pt]={}[n\geq m]{\frac {m-1}{n(n-1)}}\end{aligned}}}

median N ~ {\ displaystyle \ scriptstyle {\ tilde {N}}}\scriptstyle {\tilde {N}}удовлетворяет

∑ N [n ≥ N ~] (n ∣ m) = 1 2 {\ displaystyle \ sum _ {n} [n \ geq {\ tilde {N}}] (n \ mid m) = {\ frac {1} {2}}}\sum _{n}[n\geq {\tilde {N}}](n\mid m)={\frac {1}{2}}

поэтому

m - 1 N ~ - 1 = 1 2 {\ displaystyle {\ frac {m-1} {{\ tilde {N}} - 1}} = {\ frac {1} {2}}}{\frac {m-1}{{\tilde {N}}-1}}={\frac {1}{2}}

, поэтому медиана равна

N ~ = 2 м - 1 {\ displaystyle {\ tilde {N}} = 2m-1}{\tilde {N}}=2m-1

но среднее значение N бесконечно

μ = ∑ nn ⋅ (n ∣ m) = m - 1 1 ∑ n = m ∞ 1 n - 1 = ∞ {\ displaystyle \ mu = \ sum _ {n} n \ cdot (n \ mid m) = {\ frac {m-1} {1}} \ sum _ {n = m} ^ {\ infty} {\ frac {1} {n-1}} = \ infty }\mu =\sum _{n}n\cdot (n\mid m)={\frac {m-1}{1}}\sum _{n=m}^{\infty }{\frac {1}{n-1}}=\infty

Многие резервуары

Достоверность функции распределения масс

Условная вероятность того, что наибольшее из k наблюдений, взятых из серийных номеров {1,..., n}, равно m, равно

(M = m ∣ N = n, K = k ≥ 2) знак равно (м ∣ N, К) знак равно [м ≤ N] (м - 1 К - 1) (NK) {\ Displaystyle {\ begin {выровнено} (М = м \ середина N = п, К = к \ geq 2) \\ = {} (m \ mid n, k) \\ = {} [m \ leq n] {\ frac {\ binom {m-1} {k-1}} {\ binom { n} {k}}} \ end {align}}}{\begin{aligned}(M=m\mid N=n,K=k\geq 2)\\={}(m\mid n,k)\\={}[m\leq n]{\frac {\binom {m-1}{k-1}}{\binom {n}{k}}}\end{aligned}}

Функция правдоподобия n - это то же выражение

L (n) = [n ≥ m] (m - 1 k - 1) (nk) {\ Displaystyle {\ mathcal {L}} (п) = [п \ geq м] {\ гидроразрыва {\ бином {м-1} {к-1}} {\ бином {п} {к}}}}{\mathcal {L}}(n)=[n\geq m]{\frac {\binom {m-1}{k-1}}{\binom {n}{k}}}

Общее правдоподобие конечно для k ≥ 2:

∑ n L (n) = (m - 1 k - 1) 1 ∑ n = m ∞ 1 (nk) = (m - 1 k - 1) 1 ⋅ КК - 1 ⋅ 1 (м - 1 К - 1) = КК - 1 {\ Displaystyle {\ begin {выровнено} \ sum _ {n} {\ mathcal {L}} (п) = {\ гидроразрыва {\ binom {m-1} {k-1}} {1}} \ sum _ {n = m} ^ {\ infty} {1 \ over {\ binom {n} {k}}} \\ = {\ гидроразрыв {\ binom {m-1} {k-1}} {1}} \ cdot {\ frac {k} {k-1}} \ cdot {\ frac {1} {\ binom {m-1} { k-1}}} \\ = {\ frac {k} {k-1}} \ end {align}}}{\begin{aligned}\sum _{n}{\mathcal {L}}(n)={\frac {\binom {m-1}{k-1}}{1}}\sum _{n=m}^{\infty }{1 \over {\binom {n}{k}}}\\={\frac {\binom {m-1}{k-1}}{1}}\cdot {\frac {k}{k-1}}\cdot {\frac {1}{\binom {m-1}{k-1}}}\\={\frac {k}{k-1}}\end{aligned}}

Функция распределения достоверности массы равна

(N = n ∣ M = m, K = k ≥ 2) = (n ∣ m, k) = L (n) ∑ n L (n) = [n ≥ m] k - 1 k (m - 1 k - 1) (nk) = [n ≥ м] м - 1 n (m - 2 k - 2) (n - 1 k - 1) = [n ≥ m] m - 1 нм - 2 n - 1 k - 1 k - 2 (m - 3 k - 3) (n - 2 К - 2) {\ Displaystyle {\ begin {align} (N = n \ mid M = m, K = k \ geq 2) = (n \ mid m, k) \\ = {} {\ frac {{\ mathcal {L}} (n)} {\ sum _ {n} {\ mathcal {L}} (n)}} \\ = {} [n \ geq m] {\ frac {k- 1} {k}} {\ frac {\ binom {m-1} {k-1}} {\ binom {n} {k}}} \\ = {} [n \ geq m] {\ frac { m-1} {n}} {\ frac {\ binom {m-2} {k-2}} {\ binom {n-1} {k-1}}} \\ = {} [n \ geq m] {\ frac {m-1} {n}} {\ frac {m-2} {n-1}} {\ frac {k-1} {k-2}} {\ frac {\ binom {m -3} {k-3}} {\ binom {n-2} {k-2}}} \ end {align}}}{\begin{aligned}(N=n\mid M=m,K=k\geq 2)=(n\mid m,k)\\={}{\frac {{\mathcal {L}}(n)}{\sum _{n}{\mathcal {L}}(n)}}\\={}[n\geq m]{\frac {k-1}{k}}{\frac {\binom {m-1}{k-1}}{\binom {n}{k}}}\\={}[n\geq m]{\frac {m-1}{n}}{\frac {\binom {m-2}{k-2}}{\binom {n-1}{k-1}}}\\={}[n\geq m]{\frac {m-1}{n}}{\frac {m-2}{n-1}}{\frac {k-1}{k-2}}{\frac {\binom {m-3}{k-3}}{\binom {n-2}{k-2}}}\end{aligned}}

Дополнительная кумулятивная функция распределения - это достоверность того, что N>x

( N>x ∣ M = m, K = k) = { 1 if x < m ∑ n = x + 1 ∞ ( n ∣ m, k) if x ≥ m = [ x < m ] + [ x ≥ m ] ∑ n = x + 1 ∞ k − 1 k ( m − 1 k − 1) ( N k) = [ x < m ] + [ x ≥ m ] k − 1 k ( m − 1 k − 1) 1 ∑ n = x + 1 ∞ 1 ( n k) = [ x < m ] + [ x ≥ m ] k − 1 k ( m − 1 k − 1) 1 ⋅ k k − 1 1 ( x k − 1) = [ x < m ] + [ x ≥ m ] ( m − 1 k − 1) ( x k − 1) {\displaystyle {\begin{aligned}(N>x\mid M=m,K=k)\\[4pt]={}{\begin{ cases}1{\text{if }}x{\displaystyle {\begin{aligned}(N>x\mid M=m,K=k)\\[4pt]={}{\begin{cases}1{\text{if }}x<m\\\sum _{n=x+1}^{\infty }(n\mid m,k){\text{if }}x\geq m\end{cases}}\\={}[x<m]+[x\geq m]\sum _{n=x+1}^{\infty }{\frac {k-1}{k}}{\frac {\binom {m-1}{k-1}}{\binom {N}{k}}}\\[4pt]={}[x<m]+[x\geq m]{\frac {k-1}{k}}{\frac {\binom {m-1}{k-1}}{1}}\sum _{n=x+1}^{\infty }{\frac {1}{\binom {n}{k}}}\\[4pt]={}[x<m]+[x\geq m]{\frac {k-1}{k}}{\frac {\binom {m-1}{k-1}}{1}}\cdot {\frac {k}{k-1}}{\frac {1}{\binom {x}{k-1}}}\\[4pt]={}[x<m]+[x\geq m]{\frac {\binom {m-1}{k-1}}{\binom {x}{k-1}}}\end{aligned}}}

The cumulative distribution function is the credibility that N ≤ x

( N ≤ x ∣ M = m, K = k) = 1 − ( N>x ∣ M = m, K = k) = [ x ≥ m ] ( 1 − ( m − 1 k − 1) ( xk − 1)) {\displaystyle {\begin{aligned}(N\ leq x\mid M=m,K=k)\\[4pt]={}1-(N>x\mid M=m,K=k)\\[4pt]={}[x\geq m]\left(1-{\frac {\binom {m-1}{k-1}}{\binom {x}{k-1}}}\right)\end{aligned}}}{\displaystyle {\begin{aligned}(N\leq x\mid M=m,K=k)\\[4pt]={}1-(N>x\mid M=m,K=k)\\[4pt]={}[x\geq m]\left(1-{\frac {\binom {m-1}{k-1}}{\binom {x}{k-1}}}\right)\end{aligned}}}

Order of magnitude

The order of magnitude of the number of enemy tanks is

μ = ∑ n n ⋅ ( N = n ∣ M = m, K = k) = ∑ n n [ n ≥ m ] m − 1 n ( m − 2 k − 2) ( n − 1 k − 1) = m − 1 1 ( m − 2 k − 2) 1 ∑ n = m ∞ 1 ( n − 1 k − 1) = m − 1 1 ( m − 2 k − 2) 1 ⋅ k − 1 k − 2 1 ( m − 2 k − 2) = m − 1 1 k − 1 k − 2 {\displaystyle {\begin{aligned}\mu =\sum _{n}n\cdot (N=n\mid M=m,K=k)\\[4pt]=\sum _{n}n[n\geq m]{\frac {m-1}{n}}{\frac {\binom {m-2}{k-2}}{\binom {n-1}{k-1}}}\\[4pt]={\frac {m-1}{1}}{\frac {\binom {m-2}{k-2}}{1}}\sum _{n=m}^{\infty }{\frac {1}{\binom {n-1}{k-1}}} \\[4pt]={\frac {m-1}{1}}{\frac {\binom {m-2}{k-2}}{1}}\cdot {\frac {k-1}{k-2}}{\frac {1}{\binom {m-2}{k-2}}}\\[4pt]={\frac {m-1}{1}}{\frac {k-1}{k-2}}\end{aligned}}}{\displaystyle {\begin{aligned}\mu =\sum _{n}n\cdot (N=n\mid M=m,K=k)\\[4pt]=\sum _{n}n[n\geq m]{\frac {m-1}{n}}{\frac {\binom {m-2}{k-2}}{\binom {n-1}{k-1}}}\\[4pt]={\frac {m-1}{1}}{\frac {\binom {m-2}{k-2}}{1}}\sum _{n=m}^{\infty }{\frac {1}{\binom {n-1}{k-1}}}\\[4pt]={\frac {m-1}{1}}{\frac {\binom {m-2}{k-2}}{1}}\cdot {\frac {k-1}{k-2}}{\frac {1}{\binom {m-2}{k-2}}}\\[4pt]={\frac {m-1}{1}}{\frac {k-1}{k-2}}\end{aligned}}}

Statistical uncertainty

The statistical uncertainty is the standard deviation σ, satisfying the equation

σ 2 + μ 2 = ∑ n n 2 ⋅ ( N = n ∣ M = m, K = k) {\displaystyle \sigma ^{2}+\mu ^{2}=\sum _{n}n^{2}\cdot (N=n\mid M=m,K=k)}\sigma ^{2}+\mu ^{2}=\sum _{n}n^{2}\cdot (N=n\mid M=m,K=k)

So

σ 2 + μ 2 − μ = ∑ n n ( n − 1) ⋅ ( N = n ∣ M = m, K = k) = ∑ n = m ∞ n ( n − 1) m − 1 n m − 2 n − 1 k − 1 k − 2 ( m − 3 k − 3) ( n − 2 k − 2) = m − 1 1 m − 2 1 k − 1 k − 2 ⋅ ( m − 3 k − 3) 1 ∑ n = m ∞ 1 ( n − 2 k − 2) = m − 1 1 m − 2 1 k − 1 k − 2 ( m − 3 k − 3) 1 k − 2 k − 3 1 ( m − 3 k − 3) = m − 1 1 m − 2 1 k − 1 k − 3 {\displaystyle {\begin{aligned}\sigma ^{2}+\mu ^{2}-\mu =\sum _{n}n(n-1)\cdot (N=n\mid M=m,K=k)\\[4pt]=\sum _{n=m}^{\infty }n(n-1){\frac {m-1}{n}}{\frac {m-2}{n-1}}{\frac {k-1}{k-2}}{\frac {\binom {m-3}{k-3}}{\binom {n-2}{k-2}}}\\[4pt] ={\frac {m-1}{1}}{\frac {m-2}{1}}{\frac {k-1}{k-2}}\cdot {\frac {\binom {m-3}{k-3}}{1}}\sum _{n=m}^{\infty }{\frac {1}{\binom {n-2}{k-2}}}\\[4pt]={\frac {m-1}{1}}{\frac {m-2}{1}}{\frac {k-1}{k-2}}{\frac {\binom {m-3}{k-3}}{1}}{\frac {k-2}{k-3}}{\frac {1}{\binom {m-3}{k-3}}}\\[4pt]={\frac {m-1}{1}}{\frac {m-2}{1}}{\frac {k-1}{k-3}}\end{aligned}}}{\displaystyle {\begin{aligned}\sigma ^{2}+\mu ^{2}-\mu =\sum _{n}n(n-1)\cdot (N=n\mid M=m,K=k)\\[4pt]=\sum _{n=m}^{\infty }n(n-1){\frac {m-1}{n}}{\frac {m-2}{n-1}}{\frac {k-1}{k-2}}{\frac {\binom {m-3}{k-3}}{\binom {n-2}{k-2}}}\\[4pt]={\frac {m-1}{1}}{\frac {m-2}{1}}{\frac {k-1}{k-2}}\cdot {\frac {\binom {m-3}{k-3}}{1}}\sum _{n=m}^{\infty }{\frac {1}{\binom {n-2}{k-2}}}\\[4pt]={\frac {m-1}{1}}{\frac {m-2}{1}}{\frac {k-1}{k-2}}{\frac {\binom {m-3}{k-3}}{1}}{\frac {k-2}{k-3}}{\frac {1}{\binom {m-3}{k-3}}}\\[4pt]={\frac {m-1}{1}}{\frac {m-2}{1}}{\frac {k-1}{k-3}}\end{aligned}}}

and

σ = m − 1 1 m − 2 1 k − 1 k − 3 + μ − μ 2 = ( k − 1) ( m − 1) ( m − k + 1) ( k − 3) ( k − 2) 2 {\displaystyle {\begin{aligned}\sigma ={\sqrt {{\frac {m-1}{1}}{\frac {m-2}{1}}{\frac {k-1}{k-3}}+\mu -\mu ^{2}}}\\[4pt]={\sqrt {\frac {(k-1)(m-1)(m-k+1)}{(k-3)(k-2)^{2}}}}\end{aligned}}}{\displaystyle {\begin{aligned}\sigma ={\sqrt {{\frac {m-1}{1}}{\frac {m-2}{1}}{\frac {k-1}{k-3}}+\mu -\mu ^{2}}}\\[4pt]={\sqrt {\frac {(k-1)(m-1)(m-k+1)}{(k-3)(k-2)^{2}}}}\end{aligned}}}

The variance-to-mean ratio is simply

σ 2 μ = m − k + 1 ( k − 3) ( k − 2) {\displaystyle {\frac {\sigma ^{2}}{\mu }}={\frac {m-k+1}{(k-3)(k-2)}}}{\frac {\sigma ^{2}}{\mu }}={\frac {m-k+1}{(k-3)(k-2)}}
See also
Further reading
Notes
References

Works cited

Последняя правка сделана 2021-05-21 06:46:18
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте