Пространственная описательная статистика является пересечением пространственная статистика и описательная статистика ; эти методы используются для различных целей в географии, особенно для количественного анализа данных с использованием географических информационных систем (ГИС).
Простейшие формы пространственных данных представляют собой данные с координатной привязкой, в которых скалярная величина измеряется для каждой точки в регулярной сетке точек, и наборы точек, в которых наблюдается набор координат (например, точек на плоскости). Примером данных с координатной привязкой может быть спутниковое изображение плотности леса, которое было оцифровано на сетке. Примером набора точек могут быть координаты широты и долготы всех вязов на определенном участке земли. Более сложные формы данных включают в себя отмеченные наборы точек и пространственные временные ряды.
Координатным средним для набора точек является центроид, который решает ту же вариационную задачу в плоскость (или евклидово пространство более высокой размерности), которую известное усреднение решает на реальной прямой, то есть центроид имеет наименьшее возможное среднее квадратическое расстояние до всех точек в наборе.
Дисперсия определяет степень, в которой точки в наборе точек отделены друг от друга. Для большинства приложений пространственная дисперсия должна определяться количественно, инвариантно по отношению к поворотам и отражениям. Несколько простых мер пространственной дисперсии для набора точек можно определить с помощью ковариационной матрицы координат точек. След , детерминант и наибольшее собственное значение ковариационной матрицы могут использоваться в качестве мер пространственной дисперсии.
Мерой пространственной дисперсии, не основанной на ковариационной матрице, является среднее расстояние между ближайшими соседями.
Однородный набор точек в Плоскость - это набор, который распределен таким образом, что примерно одинаковое количество точек встречается в любой круговой области данной области. Набор точек, в которых отсутствует однородность, может быть пространственно сгруппирован в определенном пространственном масштабе. Простая вероятностная модель для пространственно однородных точек - это процесс Пуассона на плоскости с постоянной функцией интенсивности.
K- и L-функции Рипли являются тесно связанными описательными статистическими данными для обнаружения отклонений от пространственной однородности. Функция K (технически ее оценка на основе выборки) определяется как
, где d ij - евклидово расстояние между i и j точек в наборе данных из n точек, t - радиус поиска, λ - средняя плотность точек (обычно оценивается как n / A, где A - площадь области, содержащей все точки), а I - индикаторная функция (1, если ее операнд истинен, 0 в противном случае). В двух измерениях, если точки приблизительно однородны, должен быть приблизительно равен πt.
Для анализа данных обычно используется стабилизированная по дисперсии K-функция Рипли, называемая функцией L. Примерная версия функции L определяется как
Для приблизительно однородных данных функция L имеет математическое ожидание t, а ее дисперсия приблизительно равна нт в т. Обычный график представляет собой график зависимости от t, который приблизительно соответствует горизонтальному нулю. ось с постоянной дисперсией, если данные следуют однородному пуассоновскому процессу.
Используя K-функцию Рипли, вы можете определить, имеют ли точки случайный, дисперсный или кластерный характер распределения в определенном масштабе.