Проблема с немецкими танками

редактировать

Во время Второй мировой войны производство немецких танков, таких как Panther, было точно оценена разведкой союзников с использованием статистических методов

В статистической теории из оценки, проблема немецких танков состоит в оценке максимального значения дискретное равномерное распределение из выборки без замены. Проще говоря, предположим, что существует неизвестное количество элементов, которые последовательно пронумерованы от 1 до N. Берется случайная выборка этих элементов и наблюдаются их порядковые номера; проблема состоит в том, чтобы оценить N по этим наблюдаемым числам.

К проблеме можно подойти с помощью частотного вывода или байесовского вывода, что приведет к другим результатам. Оценка максимума генеральной совокупности на основе одной выборки дает разные результаты, тогда как оценка, основанная на нескольких выборках, представляет собой практический вопрос оценки, ответ на который прост (особенно в частотной настройке), но не очевиден (особенно в байесовской настройке).

Проблема названа в честь ее исторического применения союзными войсками во время Второй мировой войны для оценки ежемесячных темпов производства немецких танков на основе очень ограниченных данных. При этом использовалась производственная практика присвоения и прикрепления возрастающей последовательности серийных номеров к компонентам танка (шасси, коробка передач, двигатель, колеса), причем некоторые из танков в конечном итоге были захвачены в бою войсками союзников.

Содержание

1 Предположения
2 Пример
3 Историческая проблема
- 3.1 Конкретные данные
- 3.2 Аналогичный анализ
4 Контрмеры
5 Частотный анализ
- 5.1 Минимальная дисперсия несмещенная оценка
- 5.2 Доверительные интервалы
6 Байесовский анализ
- 6.1 Условная вероятность
- 6.2 Вероятность того, что M знает N и K
- 6.3 Вероятность того, что M знает только K
- 6.4 Достоверность того, что N знает только K
- 6.5 Достоверность N, знающего M и K
- 6.6 Среднее значение и стандартное отклонение
- 6.7 Формула суммирования
- 6.8 Один резервуар
- 6.9 Два резервуара
- 6.10 Многие резервуары
  - 6.10. 1 Достоверность функции распределения масс
  - 6.10.2 Порядок величины
  - 6.10.3 Статистическая неопределенность
7 См. Также
8 Дополнительная литература
9 Примечания
10 Ссылки
- 10.1 Цитируемые работы

Предположения

Предполагается, что противник изготовил серию танков, помеченных последовательными целыми числами, начиная с порядкового номера 1. Кроме того, независимо от даты изготовления танка. После того, как он был использован, история обслуживания или серийный номер, который он имеет, распределение по серийным номерам, которые становятся доступными для анализа, является равномерным до момента, когда анализ проводится.

Пример

Расчетная численность населения (N). Количество наблюдений в выборке k. Самый большой серийный номер образца - m. Частотный анализ показан пунктирными линиями. Байесовский анализ имеет сплошные желтые линии со средним значением и штриховкой, чтобы показать диапазон от минимально возможного значения до среднего плюс 1 стандартное отклонение). Пример показывает, если наблюдаются четыре резервуара и самый высокий порядковый номер - «60», частотный анализ предсказывает 74, тогда как байесовский анализ предсказывает среднее значение 88,5 и стандартное отклонение 138,72 - 88,5 = 50,22 и минимум 60 резервуаров. В файле SVG наведите указатель мыши на график, чтобы выделить его.

Предположим, что танкам присвоены последовательные серийные номера, начинающиеся с 1, предположим, что захвачено четыре танка и у них есть серийные номера: 19, 40, 42 и 60.

Частотный подход предсказывает, что общее количество произведенных танков будет:

N ≈ 74 {\ displaystyle N \ приблизительно 74}

N\approx 74

Байесовский подход предсказывает, что среднее количество произведенных танков будет очень похоже на частотный прогноз:

N med ≈ 74,5 {\ displaystyle N_ {med} \ приблизительно 74,5}

N_{med}\approx 74.5

, тогда как байесовское среднее предсказывает, что количество произведенных танков будет следующим:

N av ≈ 89 {\ displaystyle N_ {av} \ приблизительно 89}

N_{av}\approx 89

Пусть N равно общему количеству прогнозируемых произведенных танков, m равно наибольшему наблюдаемому серийному номеру а k равно количеству захваченных танков.

Частотный прогноз рассчитывается как:

N ≈ m + mk - 1 = 74 {\ displaystyle N \ приблизительно m + {\ frac {m} {k}} - 1 = 74}

N\approx m+{\frac {m}{k}}-1=74

Байесовская медиана рассчитывается как:

N med ≈ m + m ln ⁡ (2) k - 1 = 74,5 {\ displaystyle N_ {med} \ приблизительно m + {\ frac {m \ ln (2)} {k- 1}} = 74,5}

N_{med}\approx m+{\frac {m\ln(2)}{k-1}}=74.5

Среднее байесовское значение рассчитывается как:

N av ≈ (m - 1) k - 1 k - 2 = 89 {\ displaystyle N_ {av} \ приблизительно (m-1) { \ frac {k-1} {k-2}} = 89}

N_{av}\approx (m-1){\frac {k-1}{k-2}}=89

Оба байесовских вычисления основаны на следующей функции массы вероятности :

Pr (N = n) = {0, если n < m k − 1 k ( m − 1 k − 1) ( n k) if n ≥ m, {\displaystyle \Pr(N=n)={\begin{cases}0{\text{if }}n

\Pr(N=n)={\begin{cases}0{\text{if }}n<m\\{\frac {k-1}{k}}{\frac {\binom {m-1}{k-1}}{\binom {n}{k}}}{\text{if }}n\geq m,\end{cases}}

Это распределение имеет положительную асимметрию , связанную с тем, что существует не менее 60 резервуаров. Из-за этой асимметрии среднее значение может быть не самой значимой оценкой. Среднее значение в этом примере равно 74,5, что полностью согласуется с частотной формулой. Используя приближение Стирлинга, байесовская функция вероятности может быть аппроксимирована как

Pr (N = n) ≈ {0, если n < m ( k − 1) m k − 1 n − k if n ≥ m, {\displaystyle \Pr(N=n)\approx {\begin{cases}0{\text{if }}n

\Pr(N=n)\approx {\begin{cases}0{\text{if }}n<m\\(k-1)m^{k-1}n^{-k}{\text{if }}n\geq m,\end{cases}}

, что приводит к следующему приближению для медианы:

N med ≈ m + m ln ⁡ (2) k - 1 {\ displaystyle N_ {med} \ приблизительно m + {\ frac {m \ ln (2)} {k-1}}}

N_{med}\approx m+{\frac {m\ln(2)}{k-1}}

Наконец, средняя оценка байесовского, и его отклонение вычисляются как:

N ≈ μ ± σ = 89 ± 50, μ = (m - 1) k - 1 k - 2, σ = (k - 1) (m - 1) (m - к + 1) (к - 3) (к - 2) 2. {\ Displaystyle {\ begin {align} N \ приблизительно \ mu \ pm \ sigma = 89 \ pm 50, \\ [5pt] \ mu = (m-1) {\ frac {k-1} {k-2 }}, \\ [5pt] \ sigma = {\ sqrt {\ frac {(k-1) (m-1) (m-k + 1)} {(k-3) (k-2) ^ { 2}}}}. \ End {align}}}

{\begin{aligned}N\approx \mu \pm \sigma =89\pm 50,\\[5pt]\mu =(m-1){\frac {k-1}{k-2}},\\[5pt]\sigma ={\sqrt {\frac {(k-1)(m-1)(m-k+1)}{(k-3)(k-2)^{2}}}}.\end{aligned}}

Историческая проблема

Танки Panther загружены для транспортировки в передовые части, 1943 год

В ходе войны западные союзники прилагали постоянные усилия для определения масштабов производства в Германии и подходили к этому двумя основными способами: обычным сбором разведданных и статистической оценкой. Во многих случаях статистический анализ существенно улучшил обычный интеллект. В некоторых случаях обычная разведка использовалась в сочетании со статистическими методами, как это было в случае оценки производства танков Panther незадолго до дня Д.

. Командная структура союзников считала Panzer V (Panther), замеченные в Италии, с их высокоскоростными длинноствольными пушками калибра 75 мм / L70, были необычными тяжелыми танками и их можно было увидеть только на севере Франции в небольшом количестве, почти так же, как Тигр I был замечен в Тунисе. Армия США была уверена, что танк Sherman и дальше будет хорошо себя вести, как и против танков Panzer III и Panzer IV в Северной Африке и Сицилии. Незадолго до дня высадки ходили слухи, что использовалось большое количество танков Panzer V.

Чтобы определить, правда ли это, союзники попытались оценить количество производимых танков. Для этого использовали серийные номера трофейных или уничтоженных танков. В качестве основных используемых чисел использовались номера коробок передач, поскольку они распадались в двух непрерывных последовательностях. Также использовались номера шасси и двигателя, но их использование было более сложным. Различные другие компоненты были использованы для перекрестной проверки анализа. Аналогичный анализ был проведен на колесах, которые были пронумерованы последовательно (т. Е. 1, 2, 3,..., N).

Анализ колес цистерны дал оценку количества колесных форм. которые были в употреблении. Затем в ходе обсуждения с британскими производителями опорных катков было оценено количество колес, которые можно было бы произвести из такого количества форм, что дало количество танков, производимых каждый месяц. Анализ колес от двух танков (32 опорных катка каждый, всего 64 опорных катка) показал, что в феврале 1944 года произведено 270 танков, что значительно больше, чем предполагалось ранее.

Немецкие отчеты после войны показали, что производство для в феврале 1944 года было 276. Статистический подход оказался намного более точным, чем обычные методы разведки, и фраза «проблема немецких танков» стала использоваться в качестве дескриптора для этого типа статистического анализа.

Оценка производства была не единственным использованием этого анализа серийных номеров. Он также использовался для понимания немецкого производства в более общем плане, включая количество фабрик, относительную важность фабрик, длину цепочки поставок (на основе отставания между производством и использованием), изменения в производстве и использование ресурсов, таких как каучук.

Конкретные данные

Согласно общепринятым оценкам разведки союзников, в период с июня 1940 г. по сентябрь 1942 г. немцы производили около 1400 танков в месяц. Применяя приведенную ниже формулу к серийным номерам захваченных танков, количество было подсчитано 246 в месяц. После войны захваченные данные о производстве в Германии из министерства Альберта Шпеера показали, что фактическое число составляло 245.

Оценки для некоторых конкретных месяцев представлены как:

Месяц	Статистическая оценка	Оценка разведки	Немецкие записи
июнь 1940 г.	169	1000	122
Июнь 1941	244	1550	271
август 1942	327	1550	342

Подобные анализы

Фау-2 Производство ракет было точно оценено статистическими методами

Аналогичный анализ серийных номеров использовался для другой военной техники во время Второй мировой войны, наиболее успешно для Фау-2 rocket.

Заводские маркировки на советской военной технике были проанализированы во время Корейской войны, а также немецкой разведкой во время Второй мировой войны.

В 1980-х годах некоторые Американцы получили доступ к производственной линии израильских танков Merkava. Производственные номера были засекречены, но у танков были серийные номера, позволяющие оценить производство.

Формула использовалась в невоенном контексте, например, для оценки количества Commodore 64 построены компьютеры, результат которых (12,5 миллионов) совпадает с низкими оценками.

Контрмеры

Чтобы затруднить анализ серийных номеров, серийные номера могут быть исключены или уменьшена полезная вспомогательная информация. В качестве альтернативы можно использовать серийные номера, устойчивые к криптоанализу, наиболее эффективно путем случайного выбора чисел без замены из списка, который намного превышает количество созданных объектов (сравните одноразовый блокнот ), или произвольно номера и сверьте их со списком уже присвоенных номеров; коллизии вероятны, если возможное количество цифр не более чем в два раза превышает количество цифр в количестве произведенных объектов (где серийный номер может быть в любом основании); см. день рождения. Для этого может использоваться криптографически безопасный генератор псевдослучайных чисел. Все эти методы требуют использования таблицы поиска (или взлома шифра) для перехода от серийного номера к производственному заказу, что усложняет использование серийных номеров: например, ряд серийных номеров не может быть вызван, но каждый должен быть найден индивидуально, или созданный список.

В качестве альтернативы последовательные серийные номера могут быть зашифрованы с помощью простого шифра подстановки, который позволяет легко декодировать, но также легко может быть взломан с помощью атаки с известным открытым текстом : даже если начать с произвольной точки, открытый текст имеет шаблон (а именно, числа расположены последовательно). Один из примеров приведен в романе Кена Фоллетта Code to Zero, где серийные номера ракет Юпитер-C зашифрованы следующим образом:

H	U	N	T	S	V	I	L	E	X
1	2	3	4	5	6	7	8	9	0

Кодовое слово здесь - Хантсвилл (без повторяющихся букв), чтобы получить 10-буквенный ключ. Таким образом, ракета номер 13 была «HN», а ракета номер 24 - «UT».

Надежное шифрование серийных номеров без их расширения может быть достигнуто с помощью шифрования с сохранением формата. Вместо того, чтобы хранить действительно случайную перестановку на множестве всех возможных серийных номеров в большой таблице, такие алгоритмы будут выводить псевдослучайную перестановку из секретного ключа. Затем безопасность можно определить как псевдослучайную перестановку, неотличимую от действительно случайной перестановки для злоумышленника, который не знает ключа.

Частотный анализ

Несмещенная оценка с минимальной дисперсией

Для точечной оценки (оценка одного значения для итога, $N ^ {\ displaystyle {\ widehat {N}}}$ ${\widehat {N}}$ ), несмещенная оценка с минимальной дисперсией (оценка MVUE или UMVU) задается по формуле:

N ^ = m (1 + k - 1) - 1, {\ displaystyle {\ widehat {N}} = m (1 + k ^ {- 1}) - 1,}

{\widehat {N}}=m(1+k^{-1})-1,

где m - наибольший наблюдаемый серийный номер (максимум выборки ), а k - количество наблюдаемых резервуаров (размер выборки ). Обратите внимание, что после того, как серийный номер был обнаружен, он больше не находится в пуле и больше не будет наблюдаться.

Это имеет дисперсию

var ⁡ (N ^) = 1 k (N - k) (N + 1) (k + 2) ≈ N 2 k 2 для малых выборок k ≪ N, { \ displaystyle \ operatorname {var} \ left ({\ widehat {N}} \ right) = {\ frac {1} {k}} {\ frac {(Nk) (N + 1)} {(k + 2) }} \ приблизительно {\ frac {N ^ {2}} {k ^ {2}}} {\ text {для малых образцов}} k \ ll N,}

\operatorname {var} \left({\widehat {N}}\right)={\frac {1}{k}}{\frac {(N-k)(N+1)}{(k+2)}}\approx {\frac {N^{2}}{k^{2}}}{\text{ for small samples }}k\ll N,

, поэтому стандартное отклонение составляет приблизительно N / k, ожидаемый размер разрыва между отсортированными наблюдениями в выборке.

Формулу можно интуитивно понимать как максимум выборки плюс средний разрыв между наблюдениями в выборке, причем максимум выборки выбирается в качестве начальной оценки, так как это оценка максимального правдоподобия, с зазором, добавленным для компенсации отрицательного смещения максимума выборки в качестве оценки для максимума совокупности, и записывается как

N ^ = m + m - kk = m + mk - 1 - 1 = m (1 + к - 1) - 1. {\ displaystyle {\ widehat {N}} = m + {\ frac {mk} {k}} = m + mk ^ {- 1} -1 = m (1 + k ^ {- 1 }) - 1.}

{\widehat {N}}=m+{\frac {m-k}{k}}=m+mk^{-1}-1=m(1+k^{-1})-1.

Это можно визуализировать, представив, что наблюдения в выборке равномерно распределены по всему диапазону, с дополнительными наблюдениями сразу за пределами диапазона от 0 до N + 1. Если начать с начального промежутка между 0 и самое низкое наблюдение в выборке (минимум выборки), средний разрыв между последовательными наблюдениями в выборке составляет $(m - k) / k {\ displaystyle (mk) / k}$ $(m-k)/k$ ; $- k {\ displaystyle -k}$ $-k$ означает, что сами наблюдения не учитываются при вычислении разрыва между наблюдениями. Вывод ожидаемого значения и дисперсия максимума выборки показаны в страница дискретного равномерного распределения.

Эта философия формализована и обобщена в методе оценки максимального интервала ; аналогичная эвристика используется для при нанесении позиции на Q – Q график, на графике точек выборки при k / (n + 1), который находится на равномерном распределении, с пробелом в конце.

Доверительные интервалы

Вместо точечной оценки или в дополнение к ней может выполняться интервальная оценка, например, доверительные интервалы. Их легко вычислить, основываясь на наблюдении, что вероятность того, что k наблюдений в выборке попадут в интервал, покрывающий p диапазона (0 ≤ p ≤ 1), равна p (при условии, что в этом разделе рисунки выполнены с заменой, чтобы упростить вычислений; если ничьи без замены, это завышает вероятность, и интервалы будут слишком консервативными).

Таким образом, распределение выборки квантиля максимума выборки - это график x от 0 до 1: квантиль с p-го по q-й квантиль максимума выборки m - это интервал [ pN, qN]. Инвертирование этого дает соответствующий доверительный интервал для максимума совокупности [m / q, m / p].

Например, принимая симметричный 95% интервал p = 2,5% и q = 97,5% для k = 5, получаем 0,025 ≈ 0,48, 0,975 ≈ 0,995, поэтому доверительный интервал составляет приблизительно [1,005 м, 2,08 м]. Нижняя граница очень близка к m, поэтому более информативным является асимметричный доверительный интервал от p = 5% до 100%; для k = 5 это дает 0,05 ≈ 0,55 и интервал [м, 1,82 м].

В более общем смысле 95% доверительный интервал (смещенный вниз) составляет [m, m / 0,05] = [m, m · 20]. Для диапазона значений k с точечным оценщиком UMVU (плюс 1 для удобочитаемости) это дает:

k	Точечная оценка	Доверительный интервал
1	2m	[м, 20 м]
2	1,5 м	[м, 4,5 м]
5	1,2 м	[м, 1,82 м]
10	1,1 м	[м, 1,35 м]
20	1,05 m	[m, 1,16m]

Непосредственные наблюдения:

Для малых размеров выборки доверительный интервал очень широк, что отражает большую неопределенность в оценке.
Диапазон быстро сокращается, отражая экспоненциально убывающую вероятность того, что все наблюдения в выборке будут значительно ниже максимума.
Доверительный интервал демонстрирует положительный перекос, поскольку N никогда не может быть ниже максимума выборки, но потенциально может быть произвольно большим

Обратите внимание, что m / k нельзя наивно использовать (или, скорее, (m + m / k - 1) / k) в качестве оценки стандартной ошибки SE, как стандартной ошибки оценка основана на максимуме совокупности (параметр) и использует оценку для оценки ошибки в этой самой оценке рассуждения по кругу.

Байесовский анализ

Байесовский подход к проблеме немецких танков заключается в учете достоверности $(N = n ∣ M = m, K = k) {\ displaystyle \ scriptstyle (N = n \ mid M = m, K = k)}$ $\scriptstyle (N=n\mid M=m,K=k)$ , что количество танков противника $N {\ displaystyle \ scriptstyle N}$ $\scriptstyle N$ равно равно числу $n {\ displaystyle \ scriptstyle n}$ $\scriptstyle n$ , когда количество наблюдаемых танков $K {\ displaystyle \ scriptstyle K}$ $\scriptstyle K$ равно число $k {\ displaystyle \ scriptstyle k}$ $\scriptstyle k$ , а максимальный наблюдаемый серийный номер $M {\ displaystyle \ scriptstyle M}$ $\scriptstyle M$ равен числу $м {\ Displaystyle \ scriptstyle m}$ $\scriptstyle m$ . Ответ на эту проблему зависит от выбора предшествующего для $N {\ displaystyle \ scriptstyle N}$ $\scriptstyle N$ . Можно продолжить использование надлежащего априорного распределения, например, распределения Пуассона или отрицательного биномиального распределения, где можно получить замкнутую формулу для апостериорного среднего и апостериорной дисперсии. Альтернативой является использование прямых вычислений, как показано ниже.

Далее для краткости $(N = N ∣ M = m, K = k) {\ displaystyle \ scriptstyle (N = n \ mid M = m, K = k)}$ $\scriptstyle (N=n\mid M=m,K=k)$ записывается $(n ∣ m, k) {\ displaystyle \ scriptstyle (n \ mid m, k)}$ $\scriptstyle (n\mid m,k)$

Условная вероятность

Правило для условной вероятности дает

(n ∣ m, k) (m ∣ k) = (m ∣ n, k) (n ∣ k) = (m, n ∣ k) {\ displaystyle (n \ mid m, k) (m \ mid k) = (m \ mid n, k) (n \ mid k) = (m, n \ mid k)}

(n\mid m,k)(m\mid k)=(m\mid n,k)(n\mid k)=(m,n\mid k)

Вероятность того, что M знает N и K

Выражение

(м ∣ N, К) знак равно (М = м ∣ N = N, К = К) {\ Displaystyle (м \ середина п, к) = (М = м \ середина N = п, К = к) }

(m\mid n,k)=(M=m\mid N=n,K=k)

- это условная вероятность того, что максимальный наблюдаемый серийный номер M равен m, когда известно, что количество вражеских танков N равно n, а количество наблюдаемых вражеских танков K равно заведомо равным k.

Это

(m ∣ n, k) = (m - 1 k - 1) (nk) - 1 [k ≤ m] [m ≤ n] {\ displaystyle (m \ mid n, k) = {\ binom {m-1} {k-1}} {\ binom {n} {k}} ^ {- 1} [k \ leq m] [m \ leq n]}

(m\mid n,k)={\binom {m-1}{k-1}}{\binom {n}{k}}^{-1}[k\leq m][m\leq n]

где $(nk) {\ displaystyle \ scriptstyle {\ binom {n} {k}}}$ $\scriptstyle {\binom {n}{k}}$ - биномиальный коэффициент и $[k ≤ n] {\ displaystyle \ scriptstyle [k \ leq n]}$ $\scriptstyle [k\leq n]$ является скобкой Айверсона.

Выражение может быть получено следующим образом: $(m ∣ n, k) {\ displaystyle (m \ mid n, k)}$ $(m\mid n,k)$ отвечает на вопрос: «Какова вероятность того, что конкретный серийный номер $m {\ displaystyle m}$ $m$ будет наибольшим числом, наблюдаемым в выборке $k {\ displaystyle k}$ $k$ резервуаров, учитывая, что всего существует $n {\ displaystyle n}$ $n$ резервуаров? "

Можно представить выборку размера $k {\ displaystyle k}$ $k$ как результат $k {\ displaystyle k}$ $k$ индивидуального рисует. Предположим, что $m {\ displaystyle m}$ $m$ наблюдается на розыгрыше с номером $d {\ displaystyle d}$ $d$ . Вероятность этого:

m - 1 n ⋅ m - 2 n - 1 ⋅ m - 3 n - 2 ⋯ m - d + 1 n - d + 2 ⏟ d-1 - раз ⋅ 1 n - d + 1 ⏟ ничья нет. d ⋅ m - dn - d ⋅ m - d - 1 n - d - 1 ⋯ m - d - (k - d - 1) n - d - (k - d - 1) ⏟ k - d - раз = (n - к)! п! ⋅ (м - 1)! (м - к)!. {\ displaystyle \ underbrace {{\ frac {m-1} {n}} \ cdot {\ frac {m-2} {n-1}} \ cdot {\ frac {m-3} {n-2}} \ cdots {\ frac {m-d + 1} {n-d + 2}}} _ {\ text {d-1 - times}} \ cdot \ underbrace {\ frac {1} {n-d + 1} } _ {\ text {№ рисования. d}} \ cdot \ underbrace {{\ frac {md} {nd}} \ cdot {\ frac {md-1} {nd-1}} \ cdots {\ frac {md- (kd-1)} {nd - (kd-1)}}} _ {kd-times} = {\ frac {(nk)!} {n!}} \ cdot {\ frac {(m-1)!} {(mk)!}}.}

\underbrace {{\frac {m-1}{n}}\cdot {\frac {m-2}{n-1}}\cdot {\frac {m-3}{n-2}}\cdots {\frac {m-d+1}{n-d+2}}} _{\text{d-1 - times}}\cdot \underbrace {\frac {1}{n-d+1}} _{\text{draw no. d}}\cdot \underbrace {{\frac {m-d}{n-d}}\cdot {\frac {m-d-1}{n-d-1}}\cdots {\frac {m-d-(k-d-1)}{n-d-(k-d-1)}}} _{k-d-times}={\frac {(n-k)!}{n!}}\cdot {\frac {(m-1)!}{(m-k)!}}.

Как видно из правой части, это выражение не зависит от $d {\ displaystyle d}$ $d$ и, следовательно, одинаково для каждого $d ≤ k {\ стиль отображения d \ leq k}$ $d\leq k$ . Поскольку $m {\ displaystyle m}$ $m$ можно нарисовать на $k {\ displaystyle k}$ $k$ различных розыгрышах, вероятность любого конкретного $m {\ displaystyle m}$ $m$ , являющееся наибольшим наблюдаемым, в $k {\ displaystyle k}$ $k$ раз выше вероятности:

(m ∣ n, k) = k ⋅ (n - л)! п! ⋅ (м - 1)! (м - к)! = (м - 1 к - 1) (п к) - 1. {\ displaystyle (m \ mid n, k) = k \ cdot {\ frac {(nk)!} {n!}} \ cdot {\ frac {(m-1)!} {(mk)!}} = {\ binom {m-1} {k-1}} {\ binom {n} {k}} ^ {- 1}.}

(m\mid n,k)=k\cdot {\frac {(n-k)!}{n!}}\cdot {\frac {(m-1)!}{(m-k)!}}={\binom {m-1}{k-1}}{\binom {n}{k}}^{-1}.

Вероятность того, что M знает только K

Выражение $(м ∣ К) = (M = m ∣ K = K) {\ displaystyle \ scriptstyle (m \ mid k) = (M = m \ mid K = k)}$ $\scriptstyle (m\mid k)=(M=m\mid K=k)$ вероятность того, что максимальный серийный номер равен m после наблюдения k танков, но до фактического наблюдения серийных номеров.

Выражение $(m ∣ k) {\ displaystyle \ scriptstyle (m \ mid k)}$ $\scriptstyle (m\mid k)$ может быть переписано в терминах других величин путем маргинализации по всем возможным $n {\ displaystyle \ scriptstyle n}$ $\scriptstyle n$ .

(m ∣ k) = (m ∣ k) ⋅ 1 = (m ∣ k) ∑ n = 0 ∞ (n ∣ m, k) = (m ∣ k)) ∑ N знак равно 0 ∞ (м ∣ N, К) (N ∣ К) (м ∣ К) = ∑ N = 0 ∞ (м ∣ N, К) (N ∣ К) {\ Displaystyle {\ begin {выровнено} (m \ mid k) = (m \ mid k) \ cdot 1 \\ = (m \ mid k) {\ sum _ {n = 0} ^ {\ infty} (n \ mid m, k)} \\ = (m \ mid k) {\ sum _ {n = 0} ^ {\ infty} (m \ mid n, k) {\ frac {(n \ mid k)} {(m \ mid k) }}} \\ = \ sum _ {n = 0} ^ {\ infty} (m \ mid n, k) (n \ mid k) \ end {align}}}

{\begin{aligned}(m\mid k)=(m\mid k)\cdot 1\\=(m\mid k){\sum _{n=0}^{\infty }(n\mid m,k)}\\=(m\mid k){\sum _{n=0}^{\infty }(m\mid n,k){\frac {(n\mid k)}{(m\mid k)}}}\\=\sum _{n=0}^{\infty }(m\mid n,k)(n\mid k)\end{aligned}}

Доверие к N, зная только K

Выражение

(n ∣ k) = (N = n ∣ K = k) {\ displaystyle (n \ mid k) = (N = n \ mid K = k)}

(n\mid k)=(N=n\mid K=k)

является достоверностью того, что общее количество танков N равно n, когда известно, что количество K наблюдаемых танков равно k, но до того, как были обнаружены серийные номера. Предположим, что это некоторое дискретное равномерное распределение

(n ∣ k) = (Ω - k) - 1 [k ≤ n] [n < Ω ] {\displaystyle (n\mid k)=(\Omega -k)^{-1}[k\leq n][n<\Omega ]}

(n\mid k)=(\Omega -k)^{-1}[k\leq n][n<\Omega ]

Верхний предел $Ω {\ displaystyle \ Omega}$ $\Omega$ должен быть конечным, поскольку функция

f (n) = lim Ω → ∞ (Ω - k) - 1 [k ≤ n] [n < Ω ] = 0 {\displaystyle f(n)=\lim _{\Omega \rightarrow \infty }(\Omega -k)^{-1}[k\leq n][n<\Omega ]=0}

f(n)=\lim _{\Omega \rightarrow \infty }(\Omega -k)^{-1}[k\leq n][n<\Omega ]=0

не является функцией распределения масс.

Достоверность N, знающего M и K

(n ∣ m, k) = (m ∣ n, k) (∑ n = m Ω - 1 (m ∣ n, k)) - 1 [ m ≤ n] [n < Ω ] {\displaystyle (n\mid m,k)=(m\mid n,k)\left(\sum _{n=m}^{\Omega -1}(m\mid n,k)\right)^{-1}[m\leq n][n<\Omega ]}

(n\mid m,k)=(m\mid n,k)\left(\sum _{n=m}^{\Omega -1}(m\mid n,k)\right)^{-1}[m\leq n][n<\Omega ]

Если k ≥ 2, то $∑ n = m ∞ (m ∣ n, k) < ∞ {\displaystyle \scriptstyle \sum _{n=m}^{\infty }(m\mid n,k)<\infty }$ $\scriptstyle \sum _{n=m}^{\infty }(m\mid n,k)<\infty$ , а нежелательная переменная $Ω {\ displaystyle \ scriptstyle \ Omega}$ $\scriptstyle \Omega$ исчезает из выражения.

(N ∣ м, К) знак равно (м ∣ N, К) (∑ N = м ∞ (м ∣ N, К)) - 1 [м ≤ п] {\ Displaystyle (п \ середина м, к) = (m \ mid n, k) \ left (\ sum _ {n = m} ^ {\ infty} (m \ mid n, k) \ right) ^ {- 1} [m \ leq n]}

(n\mid m,k)=(m\mid n,k)\left(\sum _{n=m}^{\infty }(m\mid n,k)\right)^{-1}[m\leq n]

При k ≥ 1 режим распределения количества танков противника равен m.

Для k ≥ 2 достоверность того, что количество танков противника равно $n {\ displaystyle n}$ $n$ , составляет

(N = n ∣ m, k) знак равно (к - 1) (м - 1 к - 1) к - 1 (nk) - 1 [m ≤ n] {\ displaystyle (N = n \ mid m, k) = (k-1) {\ binom {m-1} {k-1}} k ^ {- 1} {\ binom {n} {k}} ^ {- 1} [m \ leq n]}

(N=n\mid m,k)=(k-1){\binom {m-1}{k-1}}k^{-1}{\binom {n}{k}}^{-1}[m\leq n]

Достоверность того, что количество танков противника, N, больше n, равно

(N>n ∣ m, k) = {1, если n < m ( m − 1 k − 1) ( n k − 1) if n ≥ m {\displaystyle (N>n \ mid m, k) = {\ begin {cases} 1 {\ text {if} } n

(N>n \ mid m, k) = {\ begin {cases} 1 {\ text {if}} n <m\\{\frac {\binom {m-1}{k-1}}{\binom {n}{k-1}}}{\text{if }}n\geq m\end{cases}}

Среднее значение и стандартное отклонение

Для k ≥ 3, N имеет конечное среднее значение :

(m - 1) (k - 1) (k - 2) - 1 {\ displaystyle (m-1) (k-1) (k-2) ^ {- 1}}

(m-1)(k-1)(k-2)^{-1}

Для k ≥ 4 N имеет конечное стандартное отклонение :

(k - 1) 1/2 (k - 2) - 1 (k - 3) - 1/2 (m - 1) 1 / 2 (м + 1 - к) 1/2 {\ displaystyle (k-1) ^ {1/2} (k-2) ^ {- 1} (k-3) ^ {- 1/2} (м -1) ^ {1/2} (m + 1-k) ^ {1/2}}

(k-1)^{1/2}(k-2)^{-1}(k-3)^{-1/2}(m-1)^{1/2}(m+1-k)^{1/2}

Эти формулы выводятся ниже.

Формула суммирования

Следующая идентичность биномиальных коэффициентов используется ниже для упрощения серии, относящейся к немецкой проблеме резервуаров.

∑ N знак равно м ∞ 1 (nk) = kk - 1 1 (m - 1 k - 1) {\ displaystyle \ sum _ {n = m} ^ {\ infty} {\ frac {1} {\ binom {n} {k}}} = {\ frac {k} {k-1}} {\ frac {1} {\ binom {m-1} {k-1}}}}

\sum _{n=m}^{\infty }{\frac {1}{\binom {n}{k}}}={\frac {k}{k-1}}{\frac {1}{\binom {m-1}{k-1}}}

Эта формула суммы является несколько аналогично интегральной формуле

∫ n = m ∞ dnnk = 1 k - 1 1 mk - 1 {\ displaystyle \ int _ {n = m} ^ {\ infty} {\ frac {dn} {n ^ { k}}} = {\ frac {1} {k-1}} {\ frac {1} {m ^ {k-1}}}}

\int _{n=m}^{\infty }{\frac {dn}{n^{k}}}={\frac {1}{k-1}}{\frac {1}{m^{k-1}}}

Эти формулы применимы для k>1.

Один резервуар

Наблюдение за одним резервуаром случайным образом из популяции из n резервуаров дает порядковый номер m с вероятностью 1 / n для m ≤ n и нулевую вероятность для m>n. Используя обозначение скобки Айверсона, это записывается как