Индекс несходства

редактировать

Индекс несходства - это демографический показатель равномерности, с которой два группы распределены по составляющим географическим областям, составляющим большую территорию. Показатель индекса также можно интерпретировать как процент одной из двух групп, включенных в расчет, которые должны были бы переместиться в разные географические области, чтобы получить распределение, соответствующее распределению в большей области. Индекс несходства может использоваться как показатель сегрегации.

Содержание

1 Базовая формула
2 Перспектива линейной алгебры
- 2.1 Числовой пример
- 2.2 Эквивалентность формул
- 2.3 Нулевое разделение
3 См. Также
4 Ссылки
5 Внешние ссылки

Основная формула

Основная формула для индекса несходства:

D = 1 2 ∑ i = 1 N | а я А - б я Б | {\ displaystyle D = {\ frac {1} {2}} \ sum _ {i = 1} ^ {N} \ left | {\ frac {a_ {i}} {A}} - {\ frac {b_ { i}} {B}} \ right |}

{\ displaystyle D = {\ frac {1} {2}} \ sum _ {i = 1} ^ {N} \ left | {\ frac {a_ {i}} {A}} - {\ frac {b_ {i}} {B}} \ right |}

где (например, сравнивая черно-белое население):

ai= население группы A в i области, например участок переписи

A = общая численность населения в группе A в крупном географическом объекте, для которого рассчитывается индекс несходства.

bi= население группы B в i-м районе

B = общая популяция в группе B в крупном географическом объекте, для которого рассчитывается индекс несходства.

Индекс несходства применим к любой категориальной переменной (демографической или нет) и потому что Его простых свойств полезны для ввода в программы многомерного масштабирования и кластеризации. Он широко использовался в исследовании социальной мобильности для сравнения распределения профессиональных категорий происхождения (или назначения).

Перспектива линейной алгебры

Формулу для индекса несходства можно сделать гораздо более компактной и содержательной, если рассматривать ее с точки зрения линейной алгебры. Предположим, мы изучаем распределение богатых и бедных людей в городе (например, Лондон ). Предположим, наш город содержит $N {\ displaystyle N}$ $N$ блоков:

${block 1, block 2,…, block N} {\ displaystyle \ {{\ text {block 1}}, {\ text {block 2}}, \ ldots, {\ text {block N}} \}}$ ${\ displaystyle \ {{\ text {block 1}}, {\ text {block 2}}, \ ldots, {\ text {block N}} \}}$

Давайте создадим вектор $r {\ displaystyle \ mathbf {r}}$ $\ mathbf {r}$ который показывает количество богатых людей в каждом квартале нашего города:

$r = [r 1, r 2, ⋯, r N] {\ displaystyle \ mathbf {r} = [r_ {1}, r_ {2}, \ cdots, r_ {N}]}$ ${\ displaystyle \ mathbf { r} = [r_ {1}, r_ {2}, \ cdots, r_ {N}]}$

Аналогично, давайте создадим вектор $p {\ displaystyle \ mathbf {p}}$ $\ mathbf {p}$ , который показывает количество бедных в каждом квартале нашего города. :

$p = [p 1, p 2, ⋯, p N] {\ displaystyle \ mathbf {p} = [p_ {1}, p_ {2}, \ cdots, p_ {N}]}$ ${\ displaystyle \ mathbf {p} = [p_ {1}, p_ {2}, \ cdots, p_ { N}]}$

Теперь $L 1 {\ displaystyle L ^ {1}}$ $L ^ {1}$ -норма вектора - это просто сумма (величина) каждой записи в этом векторе. То есть для вектора $v = [v 1, v 2, ⋯, v N] {\ displaystyle \ mathbf {v} = [v_ {1}, v_ {2}, \ cdots, v_ {N} ]}$ ${\ displaystyle \ mathbf {v} = [v_ {1}, v_ {2}, \ cdots, v_ {N}]}$ , у нас есть $L 1 {\ displaystyle L ^ {1}}$ $L ^ {1}$ -norm:

$| v | 1 = ∑ i = 1 N | v я | {\ displaystyle | \ mathbf {v} | _ {1} = \ sum _ {i = 1} ^ {N} | v_ {i} |}$ ${\ displaystyle | \ mathbf {v} | _ {1} = \ sum _ {i = 1} ^ {N} | v_ {i} |}$

Если мы обозначим $R {\ displaystyle R}$ $R$ как общее количество богатых людей в нашем городе, чем компактный способ вычислить $R {\ displaystyle R}$ $R$ - использовать $L 1 {\ displaystyle L ^ {1}}$ $L ^ {1}$ -норма:

$R = | г | 1 = ∑ i = 1 N | г я | {\ displaystyle R = | \ mathbf {r} | _ {1} = \ sum _ {i = 1} ^ {N} | r_ {i} |}$ ${\ displaystyle R = | \ mathbf {r} | _ {1} = \ sum _ {я = 1} ^ {N} | r_ {i} |}$

Аналогично, если мы обозначим $P {\ displaystyle P}$ $P$ как общее количество бедных в нашем городе, тогда:

$P = | p | 1 = ∑ i = 1 N | p i | {\ displaystyle P = | \ mathbf {p} | _ {1} = \ sum _ {i = 1} ^ {N} | p_ {i} |}$ ${\ displaystyle P = | \ m athbf {p} | _ {1} = \ sum _ {i = 1} ^ {N} | p_ {i} |}$

Когда мы делим вектор $v {\ displaystyle \ mathbf {v}}$ $\ mathbf {v}$ по его норме, мы получаем так называемый нормализованный вектор или Единичный вектор $v ^ {\ displaystyle {\ hat {\ mathbf {v }}}}$ ${\ hat {{\ mathbf {v}}}}$ :

$v ^ = v | v | 1 {\ displaystyle {\ hat {\ mathbf {v}}} = {\ frac {\ mathbf {v}} {| \ mathbf {v} | _ {1}}}}$ ${ \ Displaystyle {\ шляпа {\ mathbf {v}}} = {\ гидроразрыва {\ mathbf {v}} {| \ mathbf {v} | _ {1}}}}$

Давайте нормализуем богатый вектор $r {\ displaystyle \ mathbf {r}}$ $\ mathbf {r}$ и плохой вектор $p {\ displaystyle \ mathbf {p}}$ $\ mathbf {p}$ :

$r ^ = r | г | 1 знак равно р р {\ Displaystyle {\ шляпа {\ mathbf {r}}} = {\ гидроразрыва {\ mathbf {r}} {| \ mathbf {r} | _ {1}}} = {\ гидроразрыва {\ mathbf {r}} {R}}}$ ${\ displaystyle {\ hat {\ mathbf {r}}} = {\ frac {\ mathbf {r}} {| \ mathbf {r} | _ {1}}} = {\ frac {\ mathbf {r}} {R}}}$

$p ^ = p | г | 1 знак равно п п {\ Displaystyle {\ шляпа {\ mathbf {p}}} = {\ гидроразрыва {\ mathbf {p}} {| \ mathbf {r} | _ {1}}} = {\ гидроразрыва {\ mathbf {p}} {P}}}$ ${\ displaystyle {\ hat {\ mathbf {p}}} = {\ frac {\ mathbf {p}} {| \ mathbf {r} | _ {1}}} = {\ frac {\ mathbf {p}} {P}}}$

Наконец, мы возвращаемся к формуле для индекса несходства ( $D {\ displaystyle D}$ $D$ ); оно просто равно половине $L 1 {\ displaystyle L ^ {1}}$ $L ^ {1}$ -нормы разности векторов $r ^ {\ displaystyle {\ hat {\ mathbf {r}}}}$ ${\ hat {\ mathbf {r}}}$ и $p ^ {\ displaystyle {\ hat {\ mathbf {p}}}}$ ${\ шляпа {\ mathbf {p}}}$ :

Индекс несходства . (в линейной алгебраической обозначение)

$D = 1 2 | г ^ - р ^ | 1 {\ displaystyle D = {\ frac {1} {2}} | {\ hat {\ mathbf {r}}} - {\ hat {\ mathbf {p}}} | _ {1}}$ ${\ displaystyle D = {\ frac {1} {2}} | {\ hat {\ mathbf {r}}} - {\ hat {\ mathbf {p}}} | _ {1}}$

Числовой пример

Рассмотрим город, состоящий из четырех кварталов по 2 человека в каждом. Один блок состоит из 2 богатых людей. Один блок состоит из 2 бедняков. Два блока состоят из 1 богатого и 1 бедного человека. Каков показатель непохожести этого города?

В нашем вымышленном городе 4 квартала: в одном - 2 богатых человека; в другом 2 бедных человека; и два блока, содержащие 1 богатый и 1 бедный.

Во-первых, давайте найдем богатый вектор $r {\ displaystyle \ mathbf {r}}$ $\ mathbf {r}$ и бедный вектор $p {\ displaystyle \ mathbf {p}}$ $\ mathbf {p}$ :

$r = [2, 0, 1, 1] {\ displaystyle \ mathbf {r} = [2,0,1,1]}$ ${ \ Displaystyle \ mathbf {r} = [2,0,1,1]}$

$p = [0, 2, 1, 1] {\ displaystyle \ mathbf {p} = [0,2,1,1]}$ ${\ displaystyle \ mathbf {p} = [0,2,1,1]}$

Затем давайте посчитаем общее количество богатых и бедных людей в нашем городе:

$R = 2 + 0 + 1 + 1 = 4 {\ displaystyle R = 2 + 0 + 1 + 1 = 4}$ ${\ displaystyle R = 2 + 0 + 1 + 1 = 4}$

$P = 0 + 2 + 1 + 1 = 4 {\ displaystyle P = 0 + 2 + 1 + 1 = 4}$ ${\ displaystyle P = 0 + 2 + 1 + 1 = 4}$

Затем нормализуем векторы богатых и бедных:

$r ^ = r R = 1 4 [2, 0, 1, 1] = [0,5, 0, 0,25, 0,25] {\ displaystyle {\ hat { \ mathbf {r}}} = {\ frac {\ mathbf {r}} {R}} = {\ frac {1} {4}} [2,0,1,1] = [0,5,0,0,25, 0,25]}$ ${\ displaystyle {\ hat {\ mathbf {r}}} = {\ frac {\ mathbf {r}} {R}} = {\ frac {1} {4}} [2,0,1,1] = [0,5,0,0,25,0,25]}$

$p ^ = p P = 1 4 [0, 2, 1, 1] = [0, 0,5, 0,25, 0,25] {\ displaystyle {\ hat {\ mathbf {p}}} = {\ frac {\ mathbf {p}} {P}} = {\ frac {1} {4}} [0,2,1,1] = [0,0.5,0.25,0.25]}$ ${\ displaystyle {\ hat {\ mathbf {p}}} = {\ frac {\ mathbf {p}} {P}} = {\ frac {1} {4}} [0,2,1,1] = [0,0.5,0.25,0.25]}$

Теперь мы можем вычислить разница $r ^ - p ^ {\ displaystyle {\ hat {\ m athbf {r}}} - {\ hat {\ mathbf {p}}}}$ ${\ displaystyle {\ hat {\ mathbf {r}}} - {\ hat {\ mathbf {p}}}}$ :

$r ^ - p ^ = [0,5, 0, 0,25, 0,25] - [0, 0,5, 0,25, 0,25] = [0,5, - 0,5, 0, 0] {\ displaystyle {\ hat {\ mathbf {r}}} - {\ hat {\ mathbf {p}}} = [0,5,0,0,25,0,25] - [0,0.5, 0,25,0,25] = [0,5, -0,5,0,0]}$ ${\ displaystyle {\ hat {\ mathbf {r}}} - {\ hat {\ mathbf {p}}} = [0,5,0, 0,25,0,25] - [0,0.5,0,25,0,25] = [0,5, -0,5,0,0]}$

Наконец, давайте найдем индекс несходства ( $D {\ displaystyle D}$ $D$ ):

$D = 1 2 | г ^ - р ^ | 1 = 1 2 (| 0,5 | + | - 0,5 |) = 0,5 {\ displaystyle D = {\ frac {1} {2}} | {\ hat {\ mathbf {r}}} - {\ hat {\ mathbf {p}}} | _ {1} = {\ frac {1} {2}} (| 0,5 | + | -0,5 |) = 0,5}$ ${\ displaystyle D = {\ frac {1} {2}} | {\ hat {\ mathbf {r}}} - {\ hat {\ mathbf {p}}} | _ {1} = {\ frac {1} {2}} (| 0,5 | + | -0,5 |) = 0,5}$

Эквивалентность формул

Мы можем доказать, что формула линейной алгебры для $D {\ displaystyle D}$ $D$ идентична базовой формуле для $D {\ displaystyle D}$ $D$ . Начнем с формулы линейной алгебры:

Давайте замените нормализованные векторы $r {\ displaystyle \ mathbf {r}}$ $\ mathbf {r}$ и $p {\ displaystyle \ mathbf {p}}$ $\ mathbf {p}$ на:

$D = 1 2 | r R - p P | 1 {\ displaystyle D = {\ frac {1} {2}} \ left | {\ frac {\ mathbf {r}} {R}} - {\ frac {\ mathbf {p}} {P}} \ right | _ {1}}$ ${\ displaystyle D = {\ frac {1} {2}} \ left | {\ frac {\ mathbf { r}} {R}} - {\ frac {\ mathbf {p}} {P}} \ right | _ {1}}$

Наконец, из определения $L 1 {\ displaystyle L ^ {1}}$ $L ^ {1}$ -нормы мы знаем, что можем заменить ее суммированием:

$D = 1 2 ∑ i = 1 N | r i R - p i P | {\ displaystyle D = {\ frac {1} {2}} \ sum _ {i = 1} ^ {N} | {\ frac {r_ {i}} {R}} - {\ frac {p_ {i} } {P}} |}$ ${\ displaystyle D = {\ frac {1} {2}} \ sum _ {i = 1} ^ {N} | {\ frac {r_ {i}} {R}} - {\ frac {p_ {i}} {P}} |}$

Таким образом, мы доказываем, что формула линейной алгебры для индекса несходства эквивалентна основной формуле для него:

$D = 1 2 | г ^ - р ^ | 1 = 1 2 ∑ i = 1 N | r i R - p i P | {\ displaystyle D = {\ frac {1} {2}} | {\ hat {\ mathbf {r}}} - {\ hat {\ mathbf {p}}} | _ {1} = {\ frac {1 } {2}} \ sum _ {i = 1} ^ {N} | {\ frac {r_ {i}} {R}} - {\ frac {p_ {i}} {P}} |}$ ${\ displaystyle D = {\ frac {1 } {2}} | {\ hat {\ mathbf {r}}} - {\ hat {\ mathbf {p}}} | _ {1} = {\ frac {1} {2}} \ sum _ {i = 1} ^ {N} | {\ frac {r_ {i}} {R}} - {\ frac {p_ {i}} {P}} |}$

Нулевая сегрегация

Когда индекс несходства равен нулю, это означает, что в изучаемом нами сообществе отсутствует сегрегация. Например, если мы изучаем разделение богатых и бедных в городе, то если $D = 0 {\ displaystyle D = 0}$ $D = 0$ , это означает, что:

Нет кварталы в городе, которые являются «богатыми кварталами», и в городе нет кварталов, которые являются «бедными кварталами»
Существует однородное распределение богатых и бедных людей по всему городу

Если мы установим $D = 0 {\ displaystyle D = 0}$ $D = 0$ в линейной алгебраической формуле, мы получаем необходимое условие для нулевой сегрегации:

$r ^ = p ^ {\ displaystyle \ mathbf {\ hat {r}} = \ mathbf {\ hat {p}}}$ ${\ displaystyle \ mathbf {\ hat {r}} = \ mathbf {\ hat {p}}}$

Например, предположим, что у вас есть город с двумя кварталами. В каждом блоке 4 богатых и 100 бедных:

$r = [4, 4] {\ displaystyle \ mathbf {r} = [4,4]}$ ${\ displaystyle \ mathbf {r} = [4,4] }$

$p = [100, 100] {\ displaystyle \ mathbf {p} = [100,100]}$ ${\ displaystyle \ mathbf {p } = [100,100]}$

Тогда общее количество богатых людей будет $R = 4 + 4 = 8 {\ displaystyle R = 4 + 4 = 8}$ ${\ displaystyle R = 4 + 4 = 8}$ , и общее количество бедных составляет $P = 100 + 100 = 200 {\ displaystyle P = 100 + 100 = 200}$ ${\ displaystyle P = 100 + 100 = 200}$ . Таким образом:

$r ^ = [4/8, 4/8] = [0,5, 0,5] {\ displaystyle \ mathbf {\ hat {r}} = [4 / 8,4 / 8] = [0,5,0,5 ]}$ ${\ displaystyle \ mathbf {\ hat {r}} = [4/8, 4/8] = [0.5,0.5]}$

$p ^ = [100/200, 100/200] = [0,5, 0,5] {\ displaystyle \ mathbf {\ hat {p}} = [100 / 200,100 / 200] = [0,5,0,5]}$ ${\ displaystyle \ mathbf {\ hat {p}} = [100/200,100/200] = [0,5,0,5]}$

Поскольку $r ^ = p ^ {\ displaystyle \ mathbf {\ hat {r}} = \ mathbf {\ hat {p}}}$ ${\ displaystyle \ mathbf {\ hat {r}} = \ mathbf {\ hat {p}}}$ , поэтому в этом городе нет сегрегации.

В качестве другого примера предположим, что у вас есть город из 3 кварталов:

$r = [1, 2, 3] {\ displaystyle \ mathbf {r} = [1,2,3]}$ ${\ displaystyle \ mathbf {r} = [1,2,3]}$

$p = [100, 200, 300] {\ displaystyle \ mathbf {p} = [100,200,300]}$ ${\ displaystyle \ mathbf {p} = [100,200,300]}$

Тогда мы имеем $R = 1 + 2 + 3 = 6 {\ displaystyle R = 1 + 2 + 3 = 6}$ ${\ displaystyle R = 1 + 2 + 3 = 6}$ богатые люди в нашем городе и $P = 100 + 200 + 300 = 600 {\ displaystyle P = 100 + 200 + 300 = 600}$ ${\ displaystyle P = 100 + 200 + 300 = 600}$ бедные люди. Таким образом:

$r ^ = [1/6, 2/6, 3/6] {\ displaystyle \ mathbf {\ hat {r}} = [1 / 6,2 / 6,3 / 6]}$ ${\ displaystyle \ mathbf {\ hat {r}} = [1 / 6,2 / 6, 3/6]}$

$p ^ = [100/600, 200/600, 300/600] = [1/6, 2/6, 3/6] {\ displaystyle \ mathbf {\ hat {p}} = [100/600,200 / 600,300 / 600] = [1 / 6,2 / 6,3 / 6]}$ ${\ displaystyle \ mathbf {\ hat {p}} = [100 / 600,200 / 600,300 / 600 ] = [1 / 6,2 / 6,3 / 6]}$

Опять же, потому что $r ^ = p ^ {\ displaystyle \ mathbf {\ hat {r}} = \ mathbf {\ hat {p}}}$ ${\ displaystyle \ mathbf {\ hat {r}} = \ mathbf {\ hat {p}}}$ , таким образом, в этом городе также отсутствует сегрегация.

См. Также

Ссылки

Внешние ссылки

http: //enceladus.isr.umich.edu / race / calculate.html