История статистики

редактировать

Статистика в современном понимании этого начала развития в 18 веке в новых потребностях индустриализации суверенных государств. Развитие, в частности, было установлено с использованием европейских государств после Вестфальского мира (1648 г.), а также позволяет развитие теории вероятностей, которая позволяет использовать твердые теоретические основы. (см. историю вероятностей ).

Раньше ограничивалось информацией о штатах, особенно демографических данных, такими как население. Позднее он был расширен, чтобы включить все наборы данных всех типов, а позже он был расширен, чтобы включить анализ и интерпретацию таких данных. Говоря современным языком, «статистика» означает как набор собранной информации, как в национальных счетах и данных о температуре, так и аналитическую работу, которая требует статистических выводов. Статистическая деятельность часто связана с моделями, выраженными с помощью вероятностей, отсюда и связь с теорией вероятностей. Высокие требования к обработке данных сделали статистику приложения вычислений; см. историю вычислительной техники. Ряд статистических концепций оказывает влияние на широкий круг наук. К ним относится план экспериментов и подходы к статистическому выводу, такие как байесовский вывод, каждый из рассмотренных как имеющий свою последовательность в развитии идей, лежащих в основе статистики.

Содержание

  • 1 Введение
  • 2 Этимология
  • 3 Истоки теории вероятностей
    • 3.1 Развитие современной статистики
  • 4 План экспериментов
  • 5 Байесовская статистика
  • 6 Важные участники статистики
  • 7 Ссылки
  • 8 Библиография
  • 9 Внешние ссылки

Введение

К XVIII веку термин «статистика » обозначал систематический сборник из демографических и экономические данных по штатам. Эти двух тысячелетий эти данные представляют собой в основном американские и материальные ресурсы. В начале 19 века сбор данных усилился, и теперь включает дисциплину, связанный со сбором, обобщением и анализом данных. Сегодня данные собираются, статистические данные вычисляются и широко распространяются в правительстве, бизнесе, большинстве наук и спорте и даже во многих сферах деятельности. Электронные компьютеры ускорили более сложные статистические вычисления, даже если они облегчили сбор и агрегирование данных. Один аналитик данных может иметь доступный набор данных с миллионами измерений, каждый из которых содержит десятки или сотни отдельных измерений. Они собирались с течением времени в результате компьютерной деятельности (например, на фондовой бирже) или с помощью компьютеризированных датчиков, регистров торговых точек и т. Д. Затем используются простые и точные сводки и используются более утомительный анализ, например, требующиеся инверторные большие матрицы или выполнения сотен шагов итераций, никогда не будут работать вручную. Более быстрые вычисления позволяют использовать статистические методы методов, которые могут использовать все перестановки, или использовать рандомизацию, чтобы просмотреть на 10 000 перестановок проблемы, чтобы оценить ответы, которые нелегко определить количественно только с помощью теории.

Термин статистика «математическая » обозначает математические теории вероятности и статистического вывода, которые используются в статистической практике. Однако связь между статистикой и теорией вероятностей возникла довольно поздно. В XIX веке статистика все чаще использовала теорию вероятностей, первые результаты которой были обнаружены в XVII и XVIII веках, особенно при анализе азартных игр (азартных игр). К 1800 году в астрономии использовались вероятностные модели и статистические теории, в частности, метод наименьших квадратов. Ранняя теория вероятностей и систематизированы в 19 веке были систематизированы новые модели психологических исследований и вероятностей новых моделей использовались социами для развития наук, таких экспериментальная психология и социология, а также учеными-физиками в термодинамика и статистическая механика. Развитие статистических рассуждений связано с использованием индуктивной логики и научного метода, которые вызывают озабоченность в области статистиков более узкой области математической. Большая часть теоретических работ уже доступна к тому времени, когда появились компьютеры для их использования. К 1970-м годам Джонсон и Коц выпустили четырехтомный Сборник статистических распределений (1-е изд., 1969-1972), который до сих пор является бесценным ресурсом.

Прикладную статистику можно рассматривать не как область математики, а как автономную математическую науку, такую ​​как информатика и исследование операций.. В отличие от математики, статистика берет свое начало в государственном управлении. Приложения возникли рано в демографии и экономике ; Сегодня крупные микро- и макроэкономики - это «статистика» с упором на анализ временных рядов. С акцентом на обучение на основе данных и составление точных прогнозов сформирована по областям академических исследований, включая психологическое тестирование, медицину и эпидемиологию. Идеи статистического тестирования во многом пересекаются с наукой принятия решений. Что касается поиска и пересчета статистики данных, частично используется с информатикой и информатикой.

этойологией

поиском в Викисловарь., бесплатный словарь.

Термин «статистика» в итоге получен из новой латыни statisticum collegium («государственный совет») и итальянского слово statista («государственный деятель» или «политик »). Немецкий Statistik, впервые представленный Готфридом Ахенваллом (1749), используемый обозначал анализ данных о состоянии, что означает «наука о государстве» ( Оно было введено на английский язык в 1791 году сэром Джоном Синклером, когда он опубликовал первый из 21 тома под Название Статистический отчет Шотландии.

Таким образом, основной основной статистикой были данные, которые были заведены В частности, переписи использует обновляемую информацию о часто населении.

Первой книгой, в названии была «статистика», была «Вклад в статистикуственн. ого движения населения» общими (часто централизованными) административными функциями. »(1845 г.) Фрэнсиса Г.П. Нейсона, актуария.

Истоки теории вероятностей

Основные статистики использовались с самого начала цивилизации. сопоставляют переписи населения или регистрировали торговлю ра зличными товарами. Династия Хань и Римская империя были одними из первых государств, собирающих данные о размере населения империи, географической области и богатстве.

Использование статистических методов восходит к 5 веку до нашей эры. Историк Фукидид в своей Истории Пелопоннесской войны, как афиняне вычислили высоту стены Плата, посчитав количество кирпичей на не оштукатуренном участке. стены достаточно близко к ним, чтобы можно было их сосчитать. Подсчет несколько раз повторил несколько солдат. Наиболее частое значение (в современной терминологии - режим ), определенным таким образом, было принято как наиболее вероятное значение количества кирпичей. Умножение этого значения на высоту кирпичей, использованных в стене, афинянам определить высоту лестниц, необходимых для масштабирования стен.

Были разработаны Формы вероятности и статистики Аль-Халилом (717–786 гг. Н. Э.), арабским математиком, изучающим криптологию. Он написал Книгу криптографических сообщений, которая содержит первое использование перестановок и комбинаций для перечисления всех арабских слов с гласными и без них.

Самое раннее письмо на статистика была обнаружена в арабской книге IX века под названием «Рукопись о расшифровке криптографических сообщений», написанной Аль-Кинди (801–873). В своей книге-Кинди подробное описание того, как использовать статистику и статистический анализ для расшифровки зашифрованных сообщений. Этот текст, возможно, положил начало как статистике, так и криптоанализу. Аль-Кинди также впервые применил статистический вывод, в то время как он и другие арабские криптологиали ранние статистические методы декодирования зашифрованных сообщений. Важный вклад Ибн Адлана (1187–1268) заключен в размер выборки для использования частотного анализа.

Испытание Pyx - это проверка чистоты чеканки монет Королевского монетного двора, которая проводится на регулярной основе с XII века. Само испытание основано на методх статистической выборки. После чеканки серии монет - одну монету поместили в Pyx - коробку в Вестминстерском аббатстве. По истечении определенного периода - теперь один раз в год - монеты удаляются и взвешиваются. Затем образец монет, извлеченный из коробки, проверяется на чистоту.

Nuova Cronica, история Флоренции 14-го , написанная флорентийским банкиром и официальным Джованни Виллани, включает много статистической информации о населении, постановления, коммерция и торговля, образование и религиозные учреждения и описан первое введение статистики как положительного элемента в истории. Но это оказалось неверным после повторного открытия книги Аль-Кинди по частотному анализу.

Арифметическое среднее, хотя концепция, известная грекам, не было обобщено более чем на два значения до 16 века. Изобретение Саймона Стевина в 1585 году десятичной системы, вероятно, облегчило эти вычисления. Этот метод был впервые применен в астрономии Тихо Браге, который попытался уменьшить ошибки в своих оценках местоположения различных тел.

Идея медианы возникла в книге Эдварда Райта по навигации (Определенные навигации) в 1599 году в разделе, посвященном определению местоположения с помощью компас. Райт считал, что это значение было наиболее верным в серии наблюдений.

Сэр Уильям Петти, экономист 17 века, который использовал ранние статистические методы для анализа демографических данных.

Рождение статистики часто датируется 1662 годом, когда статистика Джон Граунт вместе с Уильямом Петти, разработал ранние методы и переписи, которые обеспечили основу для современной демографии. Он составил первую таблицу дожития, указав вероятность выживания для каждого возраста. В его книге «Естественные и политические наблюдения, сделанные на счетах смертности» был использован анализ результатов проверки смертности, чтобы сделать первую статистически обоснованную оценку населения Лондона. Ежегодно ежегодно совершается около 13 000 семей, ежегодно совершающих три человека. Он подсчитал членов семьи приходских записей, что средний размер составлял 8 человек, и подсчитал, что население Лондона составляло около 384 000 человек; это первое известное использование оценщика отношения . Лаплас в 1802 г. оценил население Франции аналогичным методом; подробности см. в оценщике отношения § История.

Хотя первоначальный объем ограничен данными, полезными для управления, в XIX веке этот подход был распространен на многие области научного или коммерческого характера. Математические основы этого предмета во многом основывались на новой теории вероятностей, впервые предложенной в 16 веке Джероламо Кардано, Пьером де Ферма и Блезом Паскалем.. Христиан Гюйгенс (1657 г.) самую раннюю известную научную трактовку этого предмета. Якоба Бернулли Ars Conjectandi (посмертно, 1713 г.) и Авраама де Муавра Доктрина шансов (1718) рассматривали предмет как раздел математики. В своей книге Бернулли представил идею полной уверенности как единицы, а вероятности как числа от нуля до единицы.

Ключевым ранним применением статистики в 18 веке было соотношение полов у людей при рождении. Джон Арбетнот изучал этот вопрос в 1710 году. Арбетнот исследовал записи о рождении в Лондон для каждого из 82 лет с 1629 по 1710 год. Каждый год количество, рожденных в Лондоне, превышало количество женщин. Если рассматривать большее количество мужских или более женских рождений как равновероятные, вероятность наблюдаемого результата составляет 0,5 ^ 82, или примерно 1 из 4,8360,0000,0000,0000,0000,0000; Говоря современным языком, p-значение. Это исчезающе мало, что приводит к тому, что это произошло не случайно, а по божественному провидению: «Отсюда следует, что правит искусство, а не случайность». Эта и другие работы Арбутнота считаются «первым использованием критериев значимости », первым примером рассуждения о статистической значимости и моральной уверенности, и «… возможно, первым опубликованным отчетом». непараметрического теста … ", в частности знакового теста ; подробнее см. Проверка знаков § История.

Формальное изучение теории ошибок может быть прослежено до Роджера Котса 'Opera Miscellanea (посмертно, 1722 г.), но мемуары, подготовленные Томасом Симпсоном в 1755 году (напечатаны в 1756 году), впервые применили теорию к обсуждению ошибок наблюдения..) этого решения устанавливает акси, согласно которым существуют положительные и отрицательные равновероятные максимумы, и что возникают назначаемые пределы, в которые можно предположить ошибки, что все допускаются непрерывные и дается кривая вероятности. распределение, а дискретное симметричное треугольное распределение, за непрерывно следует симметричное треугольное распределение Тобиас Майер в своем непрерывном треугольном распределении ошибок.>луны (Kosmographische Nachrichten, Нюрнберг, 1750) изобрел первый формальный метод неизвестных величин с обобщенным усреднения наблюдений при идентичных условиях на усреднение подобных групп подобных сопоставлений.

Роджер Иосиф Боскович в 1755 году в его работе на земле в книге De Litteraria Expeditione per pontificiam ditionem ad dimetiendos duos meridiani gradus PP. Maire et Boscovicli, что истинная ценность серии наблюдений будет такой, которая минимизирует сумму абсолютных ошибок. В современной терминологии это значение - медиана. Первый пример того, что позже стало известно как нормальная кривая, был изучен Абрахамом де Муавром, построившим эту кривую 12 ноября 1733 года. Де Муавр изучал количество выпавших орлов при выпадении «честной» монеты. был брошен.

В 1761 году Томас Байес доказал теорему Байеса, а в 1765 году Джозеф Пристли изобрел первые временные диаграммы.

Иоганн Генрих Ламберт в своей книге 1765 года Anlage zur Architectonic с распределением ошибок:

f (x) = 1 2 (1 - x 2) {\ displaystyle f ( x) = {\ frac {1} {2}} {\ sqrt {(1-x ^ {2})}}}f (x) = {\ frac {1} {2}} {\ sqrt {(1-x ^ {2})}}

с -1 < x < 1.

Графики плотности вероятности для распределения Лапласа.

Пьер-Симон Лаплас (1774) сделал первую попытку вывести метод наблюдений из принципов теории вероятностей. Он изобразил закон вероятности ошибок кривой и вывел формулу для среднего значения трех наблюдений.

Лаплас в 1774 году заметил, что частота ошибки может быть выражена как экспоненциальная функция от ее величины, если ее знак игнорировать. Это распределение теперь известно как распределение Лапласа. Лагранж включает ряд ошибок в 1776 году.

Лаплас в 1778 году опубликовал свой второй закон об ошибках, в котором он отметил, что частота ошибки пропорциональна квадрата ее величины. Впервые это было переоткрыто Гауссом (возможно, в 1795 году) и сейчас наиболее как нормальное распределение, которое имеет центральное значение в статистике. Это распределение было впервые названо нормальным распределением C. С. Пирс в 1873 г., изучавший ошибки, связанные с падением объекта на деревянную основу. Он выбрал термин "нормальный", поскольку он часто встречается в переменных, встречающихся в природе.

Лагранж также предложил в 1781 г. два других распределения для ошибок - распределение с приподнятым косинусом и логарифмическое распределение.

Лаплас дал (1781) формулу закона легкости ошибка (термин из-за Джозефа Луи Лагранжа, 1774), но тот, который привел к неуправляемым уравнениям. Даниэль Бернулли (1778) ввел принцип максимального произведения вероятностей системы одновременных ошибок.

В 1786 г. Уильям Плейфэр (1759-1823) ввел идею графического представления в статистику. Он изобрел линейную диаграмму, гистограмму и гистограмму и включил их в свои работы по экономике, Коммерческому и политическому атласу. За этим последовало в 1795 году его изобретение круговой диаграммы и круговой диаграммы, которые он использовал для отображения эволюции импорта и экспорта Англии. Эти последние диаграммы привлекли всеобщее внимание, когда он опубликовал примеры в своем Статистическом Требнике в 1801 г.

Лаплас в исследовании движений Сатурна и Юпитера в 1787 г., обобщенный метод Майера с использованием различных линейных комбинаций одной группы уравнений.

В 1791 году сэр Джон Синклер ввел термин «статистика» на английский язык в своих Статистических отчетах Шотландии.

. В 1802 году Лаплас оценил население Франции в 28 328 612 человек. Он рассчитал эту цифру, используя количество рождений в предыдущем году и данные переписи для трех общин. Данные переписи этих общин показали, что в них проживает 2 037 615 человек, а число рождений - 71 866 человек. Предполагая, что эти образцы были репрезентативными для Франции, Лаплас произвел свою оценку для всего населения.

Карл Фридрих Гаусс, математик, разработавший метод наименьших квадратов в 1809 году.

Метод наименьших квадратов, который использовался для минимизации ошибок в данных измерение, было независимо опубликовано Адрианом-Мари Лежандром (1805), Робертом Адреном (1808) и Карлом Фридрихом Гауссом (1809).). Гаусс использовал этот метод в своем знаменитом предсказании 1801 г. местоположения карликовой планеты Цереры. Наблюдения, на которых основывал свои расчеты Гаусс, были сделаны итальянским монахом Пиацци.

Методу наименьших квадратов предшествовало использование среднего наклона регрессии. Этот метод минимизирует сумму абсолютных отклонений. Метод оценки этого наклона был изобретен Роджером Джозефом Босковичем в 1760 году, который он применил к астрономии.

Термин вероятная ошибка (der wahrscheinliche Fehler) - среднее отклонение от среднего - был введен в 1815 году немецким астрономом Фредериком Вильгельмом Бесселем. Антуан Огюстен Курно в 1843 г. первым использовал термин «медиана» (valeur médiane) для значения, которое делит распределение вероятностей на две равные половины.

Другими участниками теории ошибок были Эллис (1844), Де Морган (1864), Глейшер (1872) и Джованни Скиапарелли (1875 г.). Формула Петерса (1856) для r {\ displaystyle r}r , «вероятная ошибка» одного наблюдения широко использовалась и вдохновляла раннюю надежную статистику (устойчивая к выбросы : см. критерий Пирса ).

В 19 веке к авторам статистической теории относились Лаплас, С. Лакруа (1816), Литтроу (1833), Дедекинд (1860), Гельмерт (1872), Лоран (1873), Лиагре, Дидион, Де Морган и Boole.

Густав Теодор Фехнер использовал медианное значение (Centralwerth) в социологических и психологических явлениях. Ранее он использовался только в астрономии и смежных областях. Фрэнсис Гальтон впервые использовал английский термин «медиана» в 1881 г., ранее использовав термины «среднее значение» в 1869 г. и «среда» в 1880 г.

Адольф Кетле (1796–1874), другой важный основатель статистики ввел понятие «среднего человека» (l'homme moyen) как средство понимания сложных социальных явлений, таких как уровень преступности, уровень брачности и уровень самоубийств.

Первые тесты нормального распределения были изобретены немецким статистиком Вильгельмом Лексисом в 1870-х годах. Единственные доступные ему наборы данных, которые он смог показать, были нормально распределенными, - это коэффициенты рождаемости.

Развитие современной статистики

Хотя истоки статистической теории лежат в развитии вероятностей 18-го века, современная область статистики возникла только в конце 19-го и начале 20-го века в три этапа. Первую волну на рубеже веков возглавляли работы Фрэнсиса Гальтона и Карла Пирсона, которые превратили статистику в строгую математическую дисциплину, используемую для анализа, а не только в в науке, но также в промышленности и политике. Вторая волна 1910-х и 20-х годов была инициирована Уильямом Сили Госсетом и достигла своей кульминации в прозрениях Рональда Фишера. Это включало разработку более совершенных моделей экспериментов, проверки гипотез и методов для использования с небольшими выборками данных. Последняя волна, которая в основном видела уточнение и расширение более ранних разработок, возникла в результате совместной работы Эгона Пирсона и Ежи Неймана в 1930-х годах. Сегодня статистические методы применяются во всех областях, связанных с принятием решений, для точных выводов на основе сопоставленного массива данных и для принятия решений в условиях неопределенности на основе статистической методологии.

Оригинальный логотип Королевского статистического общества, основанного в 1834 году.

Первые статистические органы были созданы в начале 19 века. Королевское статистическое общество было основано в 1834 году, и Флоренс Найтингейл, его первая женщина-член, стала пионером в применении статистического анализа к проблемам здоровья для содействия пониманию эпидемиологии и практики общественного здравоохранения. Однако методы, которые использовались тогда, не могли считаться современной статистикой сегодня.

Книга оксфордского ученого Фрэнсиса Исидро Эджворта «Метретике: или метод измерения вероятности и полезности» (1887 г.) рассматривает вероятность как основу индуктивного мышления., а его более поздние работы были сосредоточены на «философии случая». Его первая статья по статистике (1883) исследовала закон ошибки (нормальное распределение ), а его методы статистики (1885) представили раннюю версию t-распределения, Разложение Эджворта, ряд Эджворта, метод переменного преобразования и асимптотическая теория оценок максимального правдоподобия.

Норвежец Андерс Николай Киер представил концепцию стратифицированной выборки в 1895 году. Артур Лайон Боули представил новые методы выборки данных в 1906 году, когда работает над социальной статистикой. Хотя статистические исследования социальных условий начались с работ Чарльза Бута «Жизнь и труд людей в Лондоне» (1889–1903) и Сибома Раунтри «Бедность, исследование of Town Life »(1901), Боули, ключевое нововведение состояло в использовании методов случайной выборки. Кульминацией его усилий стал «Новый обзор жизни и труда Лондона».

Фрэнсис Гальтон считается одним из главных основателей статистической теории. Его вклад в эту область включал введение концепций стандартного отклонения, корреляции, регрессии и применение этих методов к изучению множества человеческих характеристик - рост, вес, длина ресниц и другие. Он обнаружил, что многие из них могут быть приспособлены к нормальному распределению кривой.

Гальтон представил в Nature в 1907 году статью о полезности медианы. Он проверил точность 787 предположений о весе быка на сельской ярмарке. Фактический вес составлял 1208 фунтов: среднее предположение было 1198. Предположения были явно ненормально распределены.

Карл Пирсон, основатель математической статистики.

Публикация Гальтона «Естественного наследования» в 1889 году вызвала интерес блестящего математика Карла Пирсона, работавшего тогда в Университетский колледж Лондона, и он основал дисциплину математической статистики. Он подчеркивал статистическую основу научных законов и продвигал их изучение, а его лаборатория привлекала студентов со всего мира, которых привлекали его новые методы анализа, в том числе Удный Юл. Его работа расширилась и охватила области биологии, эпидемиологии, антропометрии, медицины и социальной истории. В 1901 году вместе с Уолтером Велдоном, основателем биометрии, и Гальтоном он основал журнал Biometrika как первый журнал математической статистики и биометрии.

Его работа и работа Гальтона лежат в основе многих «классических» статистических методов, которые широко используются сегодня, включая коэффициент корреляции, определяемый как продукт-момент; метод моментов для подгонки распределений к выборкам; система непрерывных кривых Пирсона, которая составляет основу теперь общепринятых непрерывных распределений вероятностей; расстояние Хи предшественник и частный случай расстояния Махаланобиса и P-значения, определяемого как мера вероятности дополнения шара с предполагаемым значением в качестве центральной точки и расстоянием хи в качестве радиуса. Он также ввел термин «стандартное отклонение».

Он также основал теорию статистической проверки гипотез, критерий хи-квадрат Пирсона и анализ главных компонент. В 1911 году он основал первый в мире университетский статистический факультет в Университетском колледже Лондона.

Пионером второй волны математической статистики стал Рональд Фишер, написавший два учебника Статистические методы для научных работников., опубликованный в 1925 году, и План экспериментов в 1935 году, которые должны были определить академические дисциплины в университетах по всему миру. Он также систематизировал предыдущие результаты, поставив их на прочную математическую основу. В его основополагающей статье 1918 года Корреляция между родственниками на основе предположения о менделевском наследовании впервые использовался статистический термин дисперсия. В 1919 году на экспериментальной станции Ротамстед он начал серьезное исследование обширных собраний данных, записанных за многие годы. В результате была выпущена серия отчетов под общим названием «Исследования изменчивости сельскохозяйственных культур». В 1930 году он опубликовал Генетическую теорию естественного отбора, в которой применял статистику к эволюции.

. В течение следующих семи лет он первым ввел принципы плана экспериментов ( см. ниже) и разработал свои исследования дисперсионного анализа. Он продолжил свои исследования статистики малых выборок. Возможно, что еще более важно, он начал свой систематический подход к анализу реальных данных как трамплин для разработки новых статистических методов. Он разработал вычислительные алгоритмы для анализа данных из его сбалансированных экспериментальных проектов. В 1925 году эта работа привела к публикации его первой книги Статистические методы для научных работников. В последующие годы эта книга претерпела множество изданий и переводов и стала стандартным справочником для ученых во многих дисциплинах. В 1935 году за этой книгой последовала книга План экспериментов, которая также получила широкое распространение.

Помимо дисперсионного анализа, Фишер назвал и продвигал метод оценки максимального правдоподобия. Фишер также создал концепции достаточности, вспомогательной статистики, линейного дискриминатора Фишера и информации Фишера. Его статья «О распределении, дающем функции ошибок нескольких хорошо известных статистических данных» (1924 г.) представила критерий хи-квадрат Пирсона и t Уильяма Сили Госсета в та же структура, что и распределение Гаусса, и его собственный параметр в анализе дисперсии z-распределение Фишера (чаще используется десятилетия спустя в форме F-распределения ). Уровень значимости 5%, по-видимому, был введен Фишером в 1925 году. Фишер заявил, что отклонения, превышающие вдвое стандартное отклонение, считаются значительными. До этого отклонения, превышающие трехкратную вероятную ошибку, считались значительными. Для симметричного распределения вероятная ошибка составляет половину межквартильного размаха. Для нормального распределения вероятная ошибка составляет примерно 2/3 стандартного отклонения. Похоже, что критерий 5% Фишера был основан на предыдущей практике.

Другим важным вкладом в то время был коэффициент ранговой корреляции Чарльза Спирмена , который был полезным расширением коэффициента корреляцииПирсона. Уильям Сили Госсет, английский, более известный под псевдонимом Стьюдент, представил t-распределение Стьюдента, непрерывное распределение вероятностей, полезное в ситуации, когда размер выборки невелик и стандартное отклонение совокупности неизвестно.

Эгон Пирсон (сын Карла) и Ежи Нейман представили концепции ошибки «типа II », мощности теста и доверительных интервалов. Ежи Нейман в 1934 году показал, что стратифицированная случайная выборка в целом была лучшим методом оценки, чем целенаправленная (квотная) выборка.

Планирование экспериментов

Джеймс Линд провел первое клиническое испытание, проведенное в 1747 году, в попытке найти лекарство от цинги.

В 1747 году, работая хирургом в HM Bark Salisbury, Джеймс Линд провел контролируемый эксперимент по разработке лекарство от цинги. В этом исследовании кейсы его испытуемых «были настолько похожи, насколько я мог их представить», то есть он предоставил строгие требования для входа, чтобы уменьшить посторонние вариации. Мужчины были парными, что обеспечивало блокировку. С современной точки зрения, главное, чего не хватает, - это рандомизированное распределение субъектов для лечения.

Сегодня Линда часто называют экспериментатором, постоянно учитывающим каждый фактор. Аналогичные однофакторные эксперименты (OFAT) были проведены на Ротамстедской исследовательской станции в 1840-х годах сэром Джоном Лоусом для определения оптимального неорганического удобрения для использования на пшенице..

Теория статистического вывода была разработана Чарльзом С. Пирсом в «Иллюстрациях логики науки » (1877–1878) и «A Theory of Probable Inference "(1883), две публикации, в которых подчеркивалась важность рандомизационного вывода в статистике. В другом исследовании Пирс случайным образом распределил добровольцев по слепой, схеме повторных измерений, чтобы оценить их способность различать веса.

Эксперимент Пирса вдохновил других исследователей в области психологии и психологии. образование, которое развило исследовательскую традицию рандомизированных экспериментов в лабораториях и специализированных учебниках в 1800-х годах. Пирс также внес первую англоязычную публикацию по оптимальному дизайну для регрессионных - моделей в 1876 году. Новаторский оптимальный дизайн для полиномиальная регрессия была предложена Жергонном в 1815 году. В 1918 году Кирстин Смит опубликовала оптимальные планы для полиномов шестой степени (и меньше).

Использование последовательности экспериментов, дизайн каждого из которых может зависеть от результатов предыдущих экспериментов, включая возможное решение прекратить эксперименты, было впервые предложено Абрахамом Вальдом в контексте последовательной проверки статистических гипотез. Доступны обзоры оптимальных последовательных планов и адаптивных планов. Одним из специфических типов последовательного замысла является «двурукий бандит», обобщенный до многорукого бандита, ранняя работа над которым была выполнена Гербертом Роббинсом в 1952 году.

Термин «план экспериментов» (DOE) происходит от ранних статистических работ, выполненных сэром Рональдом Фишером. Андерс Халд описал его как «гения, который почти в одиночку создал основы современной статистической науки». Фишер положил начало принципам планирования экспериментов и развил свои исследования «дисперсионного анализа ». Возможно, что еще более важно, Фишер начал свой систематический подход к анализу реальных данных как трамплин для разработки новых статистических методов. Он начал уделять особое внимание труду, связанному с необходимыми вычислениями, выполняемыми вручную, и разработал методы, которые были столь же практичными, сколь и строгими. В 1925 году эта работа завершилась публикацией его первой книги Статистические методы для научных работников. Это вошло во многие правки. В последующие годы он стал стандартным справочником для ученых во многих дисциплинах.

Методология планирования экспериментов была предложена Рональдом А. Фишером в его новаторской книге План экспериментов (1935), который также стал стандартом. В качестве примера он описал, как проверить гипотезу о том, что некая женщина может различать только по вкусу, молоко или чай. Хотя это звучит как легкомысленное применение, оно позволяет ему проиллюстрировать наиболее важные идеи экспериментального: см. Дама, дегустирующий чай.

Достижения сельскохозяйственной науки служили для удовлетворения потребностей большого населения города и меньшего количества ферм. Различают географические условия выращивания и потребности. Чтобы экстраполировать эксперименты с местными культурными национальными масштабами, им потребовалось расширить тестирование тестов на все население. По мере развития статистических методов (в первую очередь эффективности запланированных экспериментов вместо экспериментов по одному фактору), репрезентативный факторный план экспериментов начал делать распространение результатов экспериментальной выборки на популяцию в целом.. Но было трудно решить, насколько репрезентативна была выбрана выборка культур. Методология факторного дизайна показала, как оценивать и корректировать любые случайные вариации в выборке, также в процедуре сбора данных.

Байесовская статистика

Пьер-Симон, маркиз де Лаплас, главный ранний разработчик байесовской статистики.

Термин байесовский относится к Томасу Байесу (1702–1761), что доказал, что вероятностные пределы могут быть установлены на неизвестное событие. Однако именно Пьер-Симон Лаплас (1749–1827) ввел (в качестве принципа VI) то, что сейчас называется теоремой Байеса, применительно к небесной механике, медицинская статистика, надежность и юриспруденция. Когда было недостаточно знаний, чтобы сообщить информированного априора, Лаплас применил единый априор в соответствии со своим «принципом недостаточной причины ». Лаплас предполагал единообразные априорные решения для математической простоты, а не из философских соображений. Лаплас представил примитивные версии сопряженных априорных значений и теоремы из Мизеса и Бернштейна, согласно соответствующим апостериорным элементам, соответствующим также непосредственно различающимся априорам в происходит соглашаются, поскольку количество наблюдений увеличивается. Этот ранний байесовский вывод, в котором использовались единые априорные значения в соответствии с принципом недостаточной причины Лапласа, был назван «обратной вероятностью » (поскольку он выводит в обратном направлении от наблюдений к параметрам или от следствий к причинам).

После 1920-х годов обратная вероятность разработанная в степени вытеснена набором методов, методов, Рональдом А. Фишером, Ежи Нейманом и Эгон Пирсон. Их методы получили название частотная статистика. Фишер отверг байесовскую точку зрения, написав, что «теория обратной вероятности на ошибку должна быть полностью отвергнута». Однако в конце своей жизни Фишер выразил большее уважение к эссе Байеса, как полагал Фишер, предвосхитило его собственный опорный подход к вероятности; Фишер по-прежнему утверждал, что взгляды Лапласа на вероятность были «ложным вздором». Нейман начинал как «квазибайесовец», но использовать разработал доверительные интервалы (ключевой метод в частотной статистике), поскольку «вся теория выглядела бы лучше, если бы она была построена с самого начала без байесовства и приоры». Слово байесовский появилось примерно в 1950 году, и к 1960-м годам его стали отдавать предпочтение тем, кто недоволен ограниченностью частотной статистики.

В 20-м веке Лапласа получили дальнейшее развитие в двух разных направлениях, давая поднимаются к Не нужно принимать никаких субъективных решений. Напротив, «субъективные» статистики отрицают возможность полностью объективного анализа для случая.

объективным и субъективным течениям в байесовской практике. В развитии идей Лапласа субъективные идеи следует использовать объективистским позициям. етировать как «субъективную степень веры в утверждение», была предложена, например, Джоном Мейнардом Кейнсом в начале 1920-х годов. Эта идея была развита Бруно де Финетти в Италии (Fondamenti Logici del Ragionamento Probabilistico, 1930) и Фрэнком Рэмси в Кембридже (Основы математики, 1931). Подход был разработан для решения проблем с частотным определением вероятности, но также и с более ранним объективистским подходом Лапласа. Субъективные байесовские методы получили дальнейшее развитие и популяризацию в 1950-х годах Л.Дж. Сэвидж.

Объективный байесовский вывод был развит Гарольдом Джеффрисом в Кембриджском университете. Его основополагающая книга появилась в 1939 году и сыграла роль в возрождении байесовского взгляда на вероятность. В 1957 году Эдвин Джейнс продвинул концепцию максимальной энтропии для построения априорных значений, что является важным принципом при формулировании объективных методов, в основном для дискретных задач. В 1965 году двухтомный труд Денниса Линдли «Введение в вероятность и статистику с байесовской точки зрения» познакомил широкую аудиторию с байесовскими методами. В 1979 году Хосе-Мигель Бернардо представил эталонный анализ, который предлагает совместимую среду для объективного анализа. Среди других известных сторонников байесовской теории вероятностей - И.Дж. Хорошо, Б.О. Купман, Ховард Райффа, Роберт Шлайфер и Алан Тьюринг.

В 1980-х годах наблюдался резкий рост исследований и применений байесовских методов, в основном к открытию методы Монте-Карло с цепями Маркова, которые устранили многие из вычислительных проблем, а также к растущему интересу к нестандартным сложным приложениям. Несмотря на рост байесовских исследований, большая часть обучения в бакалавриате по-прежнему на основе частотной статистике. Тем не менее, байесовские методы широко приняты и используются, например, в области машинного обучения.

Важный вкладыш в статистику

Ссылки

Библиография

Внешние ссылки

На Викискладе есть средства массовой информации, связанные с История статистики.
Последняя правка сделана 2021-05-23 14:55:20
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте