В статистика, совокупность - это набор похожих элементов или событий, который представляет интерес для какого-либо вопроса или эксперимента. Статистическая совокупность может быть группой существующих объектов (например, набор всех звезд в Млечном Пути галактике ) или гипотетической и потенциально бесконечной группа объектов, задуманная как обобщение опыта (например, набор всех возможных рук в игре покер ). Обычной целью статистического анализа является получение информации о некоторой выбранной совокупности.
В статистический вывод, подмножество совокупности (статистическая выборка ) выбран для представления совокупности в статистическом анализе. Отношение размера этой статистической выборки к размеру генеральной совокупности называется фракцией выборки. Затем можно оценить параметры совокупности с использованием соответствующей статистики выборки.
Подмножество населения, которое разделяет одно или несколько дополнительных свойств, называется подгруппой . Например, если все население - египтяне, субпопуляция - это все египетские мужчины; если население - это все аптеки в мире, то подгруппой населения являются все аптеки в Египте. В отличие от этого, образец - это подмножество населения, которое не выбрано для совместного использования какой-либо дополнительной собственности.
Описательная статистика может давать разные результаты для разных подгрупп населения. Например, конкретное лекарство может оказывать различное воздействие на разные субпопуляции, и эти эффекты могут быть скрыты или отклонены, если такие особые субпопуляции не будут идентифицированы и изучены изолированно.
Точно так же можно часто более точно оценить параметры, если разделить подгруппы населения: например, распределение роста между людьми лучше моделируется, рассматривая мужчин и женщин как отдельные подгруппы.
Популяции, состоящие из субпопуляций, можно моделировать с помощью смешанных моделей, которые объединяют распределения внутри субпопуляций в общее распределение населения. Даже если субпопуляции хорошо моделируются заданными простыми моделями, общая популяция может плохо соответствовать данной простой модели - плохое соответствие может свидетельствовать о существовании субпопуляций. Например, учитывая две равные субпопуляции, обе нормально распределенные, если они имеют одинаковое стандартное отклонение, но разные средние значения, общее распределение будет демонстрировать низкий эксцесс по сравнению с одним нормальным распределением - средние значения субпопуляций ложатся на плечи общей раздачи. При достаточном разделении они образуют бимодальное распределение ; в противном случае у него просто широкий пик. Кроме того, он будет демонстрировать [сверхдисперсию] относительно единственного нормального распределения с заданной вариацией. В качестве альтернативы, учитывая две субпопуляции с одинаковым средним, но разными стандартными отклонениями, общая популяция будет демонстрировать высокий эксцесс, с более острым пиком и более тяжелыми хвостами (и, соответственно, более мелкими плечами), чем в одном распределении.