Задача модифицируемых площадных единиц ( MAUP) является источником статистической погрешности, которая может существенно повлиять на результаты проверки статистических гипотез. MAUP влияет на результаты, когда точечные измерения пространственных явлений объединяются в районы, например, плотность населения или уровень заболеваемости. На итоговые итоговые значения (например, итоги, скорости, пропорции, плотности) влияют как форма, так и масштаб единицы агрегирования.
Например, данные переписи могут быть агрегированы по округам, переписным участкам, почтовым индексам, участкам полиции или любому другому произвольному пространственному разделу. Таким образом, результаты агрегирования данных зависят от выбора картографом того, какую «изменяемую единицу площади» использовать в своем анализе. Картограмма переписи, рассчитывающая плотность населения с использованием границ штатов, даст совершенно другие результаты, чем карта, рассчитывающая плотность на основе границ округов. Кроме того, границы переписных районов также могут меняться со временем, что означает, что при сравнении прошлых данных с текущими данными необходимо учитывать MAUP.
Впервые проблема была выявлена Гельке и Билем в 1934 году, а затем подробно описана в известной статье Опеншоу (1984) и в книге Арбиа (1988). В частности, Openshaw (1984) заметил, что «ареальные единицы (зональные объекты), используемые во многих географических исследованиях, являются произвольными, изменяемыми и подчиняются прихотям и фантазиям того, кто занимается или делал агрегирование». Проблема особенно очевидна, когда совокупные данные используются для кластерного анализа для пространственной эпидемиологии, пространственной статистики или картографирования хороплетов, в которых легко можно ошибиться, даже не осознавая этого. Многие области науки, особенно география человека, склонны игнорировать MAUP при выводе статистических выводов, основанных на агрегированных данных. MAUP тесно связан с темой экологической ошибки и экологической предвзятости (Arbia, 1988).
Экологическое смещение, вызванное MAUP, было задокументировано как два отдельных эффекта, которые обычно возникают одновременно во время анализа агрегированных данных. Во-первых, эффект масштаба вызывает различия в статистических результатах между разными уровнями агрегации (радиальное расстояние). Следовательно, связь между переменными зависит от размера единиц площади, по которым сообщаются данные. Как правило, корреляция увеличивается с увеличением размера единицы площади. Эффект зоны описывает изменение статистики корреляции, вызванное перегруппировкой данных в разные конфигурации в одном масштабе (форма площади).
С 1930-х годов исследования обнаружили дополнительные вариации в статистических результатах из-за MAUP. Стандартные методы расчета внутригрупповой и межгрупповой дисперсии не учитывают дополнительную дисперсию, наблюдаемую в исследованиях MAUP при изменении группировок. MAUP можно использовать в качестве методологии для расчета верхних и нижних пределов, а также средних параметров регрессии для нескольких наборов пространственных группировок. MAUP является критическим источником ошибок в пространственных исследованиях, как наблюдательных, так и экспериментальных. Таким образом, согласованность единиц измерения, особенно в контексте поперечного сечения временных рядов (TSCS), имеет важное значение. Кроме того, следует регулярно проводить проверки устойчивости единиц к альтернативной пространственной агрегации, чтобы уменьшить связанные с ней систематические ошибки в результирующих статистических оценках.
В литературе было сделано несколько предложений по уменьшению систематической ошибки агрегирования во время регрессионного анализа. Исследователь может скорректировать матрицу вариации-ковариации, используя выборки из данных индивидуального уровня. В качестве альтернативы можно сосредоточиться на локальной пространственной регрессии, а не на глобальной регрессии. Исследователь может также попытаться разработать площадные единицы, чтобы максимизировать конкретный статистический результат. Другие утверждали, что может быть трудно построить единый набор оптимальных единиц агрегирования для нескольких переменных, каждая из которых может проявлять нестационарность и пространственную автокорреляцию в пространстве по-разному. Другие предложили разработать статистику, изменяющуюся по шкале предсказуемым образом, возможно, используя фрактальную размерность в качестве масштабно-независимой меры пространственных отношений. Другие предложили байесовские иерархические модели в качестве общей методологии для объединения агрегированных данных и данных на индивидуальном уровне для экологических выводов.
Исследования MAUP, основанные на эмпирических данных, могут дать лишь ограниченное понимание из-за неспособности контролировать отношения между несколькими пространственными переменными. Моделирование данных необходимо для управления различными свойствами данных на индивидуальном уровне. Имитационные исследования показали, что пространственная поддержка переменных может повлиять на величину экологической предвзятости, вызванной агрегированием пространственных данных.
Используя моделирование одномерных данных, Ларсен выступал за использование коэффициента дисперсии для исследования влияния пространственной конфигурации, пространственной ассоциации и агрегирования данных. Подробное описание изменения статистики из-за MAUP представлено Рейнольдсом, который демонстрирует важность пространственного расположения и пространственной автокорреляции значений данных. Симуляционные эксперименты Рейнольда были расширены Свифтом, который начал серию из девяти упражнений с моделирования регрессионного анализа и пространственного тренда, а затем сосредоточился на теме MAUP в контексте пространственной эпидемиологии. Представлен метод анализа чувствительности MAUP, который демонстрирует, что MAUP не является проблемой. MAUP можно использовать в качестве аналитического инструмента для понимания пространственной неоднородности и пространственной автокорреляции.
Эта тема имеет особое значение, потому что в некоторых случаях агрегирование данных может скрыть сильную корреляцию между переменными, делая связь слабой или даже отрицательной. И наоборот, MAUP может привести к тому, что случайные переменные появятся так, как будто существует значимая ассоциация, хотя ее нет. Параметры многомерной регрессии более чувствительны к MAUP, чем коэффициенты корреляции. До тех пор, пока не будет найдено более аналитическое решение для MAUP, рекомендуется анализ пространственной чувствительности с использованием различных площадных единиц в качестве методологии для оценки неопределенности коэффициентов корреляции и регрессии из-за экологической предвзятости. Доступен пример моделирования и повторной агрегации данных с использованием библиотеки ArcPy.
В транспортном планировании MAUP связан с зонированием анализа трафика (TAZ). Основной отправной точкой в понимании проблем в транспортном анализе является признание того, что пространственный анализ имеет некоторые ограничения, связанные с дискретизацией пространства. Среди них модифицируемые территориальные единицы и граничные проблемы прямо или косвенно связаны с планированием и анализом перевозок через проектирование зон анализа трафика - большинство транспортных исследований прямо или косвенно требуют определения TAZ. Модифицируемой границе и вопросам масштаба следует уделить особое внимание во время спецификации TAZ из-за влияния этих факторов на статистические и математические свойства пространственных структур (то есть проблема изменяемых площадных единиц - MAUP). В исследованиях Вьегаса, Мартинеса и Сильвы (2009, 2009b) авторы предлагают метод, при котором результаты, полученные при изучении пространственных данных, не зависят от масштаба, а эффекты агрегации неявны при выборе зональных границ. Определение зональных границ ТАЗ напрямую влияет на реальность и точность результатов, полученных с помощью моделей прогнозирования перевозок. В этой статье влияние MAUP на определение TAZ и модели спроса на транспортировку измеряется и анализируется с использованием различных сеток (по размеру и месту происхождения). Этот анализ был разработан путем создания приложения, интегрированного в коммерческое программное обеспечение ГИС, и с использованием тематического исследования (Лиссабонский метрополис) для проверки его реализуемости и производительности. Результаты показывают конфликт между статистической и географической точностью и их связь с потерей информации на этапе назначения трафика в моделях планирования транспортировки.
Общие темы
Конкретные приложения