Индекс несходства

редактировать

Индекс несходства - это демографический показатель равномерности, с которой два группы распределены по составляющим географическим областям, составляющим большую территорию. Показатель индекса также можно интерпретировать как процент одной из двух групп, включенных в расчет, которые должны были бы переместиться в разные географические области, чтобы получить распределение, соответствующее распределению в большей области. Индекс несходства может использоваться как показатель сегрегации.

Содержание

  • 1 Базовая формула
  • 2 Перспектива линейной алгебры
    • 2.1 Числовой пример
    • 2.2 Эквивалентность формул
    • 2.3 Нулевое разделение
  • 3 См. Также
  • 4 Ссылки
  • 5 Внешние ссылки

Основная формула

Основная формула для индекса несходства:

D = 1 2 ∑ i = 1 N | а я А - б я Б | {\ displaystyle D = {\ frac {1} {2}} \ sum _ {i = 1} ^ {N} \ left | {\ frac {a_ {i}} {A}} - {\ frac {b_ { i}} {B}} \ right |}{\ displaystyle D = {\ frac {1} {2}} \ sum _ {i = 1} ^ {N} \ left | {\ frac {a_ {i}} {A}} - {\ frac {b_ {i}} {B}} \ right |}

где (например, сравнивая черно-белое население):

ai= население группы A в i области, например участок переписи
A = общая численность населения в группе A в крупном географическом объекте, для которого рассчитывается индекс несходства.
bi= население группы B в i-м районе
B = общая популяция в группе B в крупном географическом объекте, для которого рассчитывается индекс несходства.

Индекс несходства применим к любой категориальной переменной (демографической или нет) и потому что Его простых свойств полезны для ввода в программы многомерного масштабирования и кластеризации. Он широко использовался в исследовании социальной мобильности для сравнения распределения профессиональных категорий происхождения (или назначения).

Перспектива линейной алгебры

Формулу для индекса несходства можно сделать гораздо более компактной и содержательной, если рассматривать ее с точки зрения линейной алгебры. Предположим, мы изучаем распределение богатых и бедных людей в городе (например, Лондон ). Предположим, наш город содержит N {\ displaystyle N}N блоков:

{block 1, block 2,…, block N} {\ displaystyle \ {{\ text {block 1}}, {\ text {block 2}}, \ ldots, {\ text {block N}} \}}{\ displaystyle \ {{\ text {block 1}}, {\ text {block 2}}, \ ldots, {\ text {block N}} \}}

Давайте создадим вектор r {\ displaystyle \ mathbf {r}}\ mathbf {r} который показывает количество богатых людей в каждом квартале нашего города:

r = [r 1, r 2, ⋯, r N] {\ displaystyle \ mathbf {r} = [r_ {1}, r_ {2}, \ cdots, r_ {N}]}{\ displaystyle \ mathbf { r} = [r_ {1}, r_ {2}, \ cdots, r_ {N}]}

Аналогично, давайте создадим вектор p {\ displaystyle \ mathbf {p}}\ mathbf {p} , который показывает количество бедных в каждом квартале нашего города. :

p = [p 1, p 2, ⋯, p N] {\ displaystyle \ mathbf {p} = [p_ {1}, p_ {2}, \ cdots, p_ {N}]}{\ displaystyle \ mathbf {p} = [p_ {1}, p_ {2}, \ cdots, p_ { N}]}

Теперь L 1 {\ displaystyle L ^ {1}}L ^ {1} -норма вектора - это просто сумма (величина) каждой записи в этом векторе. То есть для вектора v = [v 1, v 2, ⋯, v N] {\ displaystyle \ mathbf {v} = [v_ {1}, v_ {2}, \ cdots, v_ {N} ]}{\ displaystyle \ mathbf {v} = [v_ {1}, v_ {2}, \ cdots, v_ {N}]} , у нас есть L 1 {\ displaystyle L ^ {1}}L ^ {1} -norm:

| v | 1 = ∑ i = 1 N | v я | {\ displaystyle | \ mathbf {v} | _ {1} = \ sum _ {i = 1} ^ {N} | v_ {i} |}{\ displaystyle | \ mathbf {v} | _ {1} = \ sum _ {i = 1} ^ {N} | v_ {i} |}

Если мы обозначим R {\ displaystyle R}R как общее количество богатых людей в нашем городе, чем компактный способ вычислить R {\ displaystyle R}R - использовать L 1 {\ displaystyle L ^ {1}}L ^ {1} -норма:

R = | г | 1 = ∑ i = 1 N | г я | {\ displaystyle R = | \ mathbf {r} | _ {1} = \ sum _ {i = 1} ^ {N} | r_ {i} |}{\ displaystyle R = | \ mathbf {r} | _ {1} = \ sum _ {я = 1} ^ {N} | r_ {i} |}

Аналогично, если мы обозначим P {\ displaystyle P}P как общее количество бедных в нашем городе, тогда:

P = | p | 1 = ∑ i = 1 N | p i | {\ displaystyle P = | \ mathbf {p} | _ {1} = \ sum _ {i = 1} ^ {N} | p_ {i} |}{\ displaystyle P = | \ m athbf {p} | _ {1} = \ sum _ {i = 1} ^ {N} | p_ {i} |}

Когда мы делим вектор v {\ displaystyle \ mathbf {v}}\ mathbf {v} по его норме, мы получаем так называемый нормализованный вектор или Единичный вектор v ^ {\ displaystyle {\ hat {\ mathbf {v }}}}{\ hat {{\ mathbf {v}}}} :

v ^ = v | v | 1 {\ displaystyle {\ hat {\ mathbf {v}}} = {\ frac {\ mathbf {v}} {| \ mathbf {v} | _ {1}}}}{ \ Displaystyle {\ шляпа {\ mathbf {v}}} = {\ гидроразрыва {\ mathbf {v}} {| \ mathbf {v} | _ {1}}}}

Давайте нормализуем богатый вектор r {\ displaystyle \ mathbf {r}}\ mathbf {r} и плохой вектор p {\ displaystyle \ mathbf {p}}\ mathbf {p} :

r ^ = r | г | 1 знак равно р р {\ Displaystyle {\ шляпа {\ mathbf {r}}} = {\ гидроразрыва {\ mathbf {r}} {| \ mathbf {r} | _ {1}}} = {\ гидроразрыва {\ mathbf {r}} {R}}}{\ displaystyle {\ hat {\ mathbf {r}}} = {\ frac {\ mathbf {r}} {| \ mathbf {r} | _ {1}}} = {\ frac {\ mathbf {r}} {R}}}

p ^ = p | г | 1 знак равно п п {\ Displaystyle {\ шляпа {\ mathbf {p}}} = {\ гидроразрыва {\ mathbf {p}} {| \ mathbf {r} | _ {1}}} = {\ гидроразрыва {\ mathbf {p}} {P}}}{\ displaystyle {\ hat {\ mathbf {p}}} = {\ frac {\ mathbf {p}} {| \ mathbf {r} | _ {1}}} = {\ frac {\ mathbf {p}} {P}}}

Наконец, мы возвращаемся к формуле для индекса несходства (D {\ displaystyle D}D ); оно просто равно половине L 1 {\ displaystyle L ^ {1}}L ^ {1} -нормы разности векторов r ^ {\ displaystyle {\ hat {\ mathbf {r}}}}{\ hat {\ mathbf {r}}} и p ^ {\ displaystyle {\ hat {\ mathbf {p}}}}{\ шляпа {\ mathbf {p}}} :

Индекс несходства . (в линейной алгебраической обозначение)

D = 1 2 | г ^ - р ^ | 1 {\ displaystyle D = {\ frac {1} {2}} | {\ hat {\ mathbf {r}}} - {\ hat {\ mathbf {p}}} | _ {1}}{\ displaystyle D = {\ frac {1} {2}} | {\ hat {\ mathbf {r}}} - {\ hat {\ mathbf {p}}} | _ {1}}

Числовой пример

Рассмотрим город, состоящий из четырех кварталов по 2 человека в каждом. Один блок состоит из 2 богатых людей. Один блок состоит из 2 бедняков. Два блока состоят из 1 богатого и 1 бедного человека. Каков показатель непохожести этого города?

В нашем вымышленном городе 4 квартала: в одном - 2 богатых человека; в другом 2 бедных человека; и два блока, содержащие 1 богатый и 1 бедный.

Во-первых, давайте найдем богатый вектор r {\ displaystyle \ mathbf {r}}\ mathbf {r} и бедный вектор p {\ displaystyle \ mathbf {p}}\ mathbf {p} :

r = [2, 0, 1, 1] {\ displaystyle \ mathbf {r} = [2,0,1,1]}{ \ Displaystyle \ mathbf {r} = [2,0,1,1]}

p = [0, 2, 1, 1] {\ displaystyle \ mathbf {p} = [0,2,1,1]}{\ displaystyle \ mathbf {p} = [0,2,1,1]}

Затем давайте посчитаем общее количество богатых и бедных людей в нашем городе:

R = 2 + 0 + 1 + 1 = 4 {\ displaystyle R = 2 + 0 + 1 + 1 = 4}{\ displaystyle R = 2 + 0 + 1 + 1 = 4}

P = 0 + 2 + 1 + 1 = 4 {\ displaystyle P = 0 + 2 + 1 + 1 = 4}{\ displaystyle P = 0 + 2 + 1 + 1 = 4}

Затем нормализуем векторы богатых и бедных:

r ^ = r R = 1 4 [2, 0, 1, 1] = [0,5, 0, 0,25, 0,25] {\ displaystyle {\ hat { \ mathbf {r}}} = {\ frac {\ mathbf {r}} {R}} = {\ frac {1} {4}} [2,0,1,1] = [0,5,0,0,25, 0,25]}{\ displaystyle {\ hat {\ mathbf {r}}} = {\ frac {\ mathbf {r}} {R}} = {\ frac {1} {4}} [2,0,1,1] = [0,5,0,0,25,0,25]}

p ^ = p P = 1 4 [0, 2, 1, 1] = [0, 0,5, 0,25, 0,25] {\ displaystyle {\ hat {\ mathbf {p}}} = {\ frac {\ mathbf {p}} {P}} = {\ frac {1} {4}} [0,2,1,1] = [0,0.5,0.25,0.25]}{\ displaystyle {\ hat {\ mathbf {p}}} = {\ frac {\ mathbf {p}} {P}} = {\ frac {1} {4}} [0,2,1,1] = [0,0.5,0.25,0.25]}

Теперь мы можем вычислить разница r ^ - p ^ {\ displaystyle {\ hat {\ m athbf {r}}} - {\ hat {\ mathbf {p}}}}{\ displaystyle {\ hat {\ mathbf {r}}} - {\ hat {\ mathbf {p}}}} :

r ^ - p ^ = [0,5, 0, 0,25, 0,25] - [0, 0,5, 0,25, 0,25] = [0,5, - 0,5, 0, 0] {\ displaystyle {\ hat {\ mathbf {r}}} - {\ hat {\ mathbf {p}}} = [0,5,0,0,25,0,25] - [0,0.5, 0,25,0,25] = [0,5, -0,5,0,0]}{\ displaystyle {\ hat {\ mathbf {r}}} - {\ hat {\ mathbf {p}}} = [0,5,0, 0,25,0,25] - [0,0.5,0,25,0,25] = [0,5, -0,5,0,0]}

Наконец, давайте найдем индекс несходства (D {\ displaystyle D}D ):

D = 1 2 | г ^ - р ^ | 1 = 1 2 (| 0,5 | + | - 0,5 |) = 0,5 {\ displaystyle D = {\ frac {1} {2}} | {\ hat {\ mathbf {r}}} - {\ hat {\ mathbf {p}}} | _ {1} = {\ frac {1} {2}} (| 0,5 | + | -0,5 |) = 0,5}{\ displaystyle D = {\ frac {1} {2}} | {\ hat {\ mathbf {r}}} - {\ hat {\ mathbf {p}}} | _ {1} = {\ frac {1} {2}} (| 0,5 | + | -0,5 |) = 0,5}

Эквивалентность формул

Мы можем доказать, что формула линейной алгебры для D {\ displaystyle D}D идентична базовой формуле для D {\ displaystyle D}D . Начнем с формулы линейной алгебры:

D = 1 2 | г ^ - р ^ | 1 {\ displaystyle D = {\ frac {1} {2}} | {\ hat {\ mathbf {r}}} - {\ hat {\ mathbf {p}}} | _ {1}}{\ displaystyle D = {\ frac {1} {2}} | {\ hat {\ mathbf {r}}} - {\ hat {\ mathbf {p}}} | _ {1}}

Давайте замените нормализованные векторы r {\ displaystyle \ mathbf {r}}\ mathbf {r} и p {\ displaystyle \ mathbf {p}}\ mathbf {p} на:

D = 1 2 | r R - p P | 1 {\ displaystyle D = {\ frac {1} {2}} \ left | {\ frac {\ mathbf {r}} {R}} - {\ frac {\ mathbf {p}} {P}} \ right | _ {1}}{\ displaystyle D = {\ frac {1} {2}} \ left | {\ frac {\ mathbf { r}} {R}} - {\ frac {\ mathbf {p}} {P}} \ right | _ {1}}

Наконец, из определения L 1 {\ displaystyle L ^ {1}}L ^ {1} -нормы мы знаем, что можем заменить ее суммированием:

D = 1 2 ∑ i = 1 N | r i R - p i P | {\ displaystyle D = {\ frac {1} {2}} \ sum _ {i = 1} ^ {N} | {\ frac {r_ {i}} {R}} - {\ frac {p_ {i} } {P}} |}{\ displaystyle D = {\ frac {1} {2}} \ sum _ {i = 1} ^ {N} | {\ frac {r_ {i}} {R}} - {\ frac {p_ {i}} {P}} |}

Таким образом, мы доказываем, что формула линейной алгебры для индекса несходства эквивалентна основной формуле для него:

D = 1 2 | г ^ - р ^ | 1 = 1 2 ∑ i = 1 N | r i R - p i P | {\ displaystyle D = {\ frac {1} {2}} | {\ hat {\ mathbf {r}}} - {\ hat {\ mathbf {p}}} | _ {1} = {\ frac {1 } {2}} \ sum _ {i = 1} ^ {N} | {\ frac {r_ {i}} {R}} - {\ frac {p_ {i}} {P}} |}{\ displaystyle D = {\ frac {1 } {2}} | {\ hat {\ mathbf {r}}} - {\ hat {\ mathbf {p}}} | _ {1} = {\ frac {1} {2}} \ sum _ {i = 1} ^ {N} | {\ frac {r_ {i}} {R}} - {\ frac {p_ {i}} {P}} |}

Нулевая сегрегация

Когда индекс несходства равен нулю, это означает, что в изучаемом нами сообществе отсутствует сегрегация. Например, если мы изучаем разделение богатых и бедных в городе, то если D = 0 {\ displaystyle D = 0}D = 0 , это означает, что:

  • Нет кварталы в городе, которые являются «богатыми кварталами», и в городе нет кварталов, которые являются «бедными кварталами»
  • Существует однородное распределение богатых и бедных людей по всему городу

Если мы установим D = 0 {\ displaystyle D = 0}D = 0 в линейной алгебраической формуле, мы получаем необходимое условие для нулевой сегрегации:

r ^ = p ^ {\ displaystyle \ mathbf {\ hat {r}} = \ mathbf {\ hat {p}}}{\ displaystyle \ mathbf {\ hat {r}} = \ mathbf {\ hat {p}}}

Например, предположим, что у вас есть город с двумя кварталами. В каждом блоке 4 богатых и 100 бедных:

r = [4, 4] {\ displaystyle \ mathbf {r} = [4,4]}{\ displaystyle \ mathbf {r} = [4,4] }

p = [100, 100] {\ displaystyle \ mathbf {p} = [100,100]}{\ displaystyle \ mathbf {p } = [100,100]}

Тогда общее количество богатых людей будет R = 4 + 4 = 8 {\ displaystyle R = 4 + 4 = 8}{\ displaystyle R = 4 + 4 = 8} , и общее количество бедных составляет P = 100 + 100 = 200 {\ displaystyle P = 100 + 100 = 200}{\ displaystyle P = 100 + 100 = 200} . Таким образом:

r ^ = [4/8, 4/8] = [0,5, 0,5] {\ displaystyle \ mathbf {\ hat {r}} = [4 / 8,4 / 8] = [0,5,0,5 ]}{\ displaystyle \ mathbf {\ hat {r}} = [4/8, 4/8] = [0.5,0.5]}

p ^ = [100/200, 100/200] = [0,5, 0,5] {\ displaystyle \ mathbf {\ hat {p}} = [100 / 200,100 / 200] = [0,5,0,5]}{\ displaystyle \ mathbf {\ hat {p}} = [100/200,100/200] = [0,5,0,5]}

Поскольку r ^ = p ^ {\ displaystyle \ mathbf {\ hat {r}} = \ mathbf {\ hat {p}}}{\ displaystyle \ mathbf {\ hat {r}} = \ mathbf {\ hat {p}}} , поэтому в этом городе нет сегрегации.

В качестве другого примера предположим, что у вас есть город из 3 кварталов:

r = [1, 2, 3] {\ displaystyle \ mathbf {r} = [1,2,3]}{\ displaystyle \ mathbf {r} = [1,2,3]}

p = [100, 200, 300] {\ displaystyle \ mathbf {p} = [100,200,300]}{\ displaystyle \ mathbf {p} = [100,200,300]}

Тогда мы имеем R = 1 + 2 + 3 = 6 {\ displaystyle R = 1 + 2 + 3 = 6}{\ displaystyle R = 1 + 2 + 3 = 6} богатые люди в нашем городе и P = 100 + 200 + 300 = 600 {\ displaystyle P = 100 + 200 + 300 = 600}{\ displaystyle P = 100 + 200 + 300 = 600} бедные люди. Таким образом:

r ^ = [1/6, 2/6, 3/6] {\ displaystyle \ mathbf {\ hat {r}} = [1 / 6,2 / 6,3 / 6]}{\ displaystyle \ mathbf {\ hat {r}} = [1 / 6,2 / 6, 3/6]}

p ^ = [100/600, 200/600, 300/600] = [1/6, 2/6, 3/6] {\ displaystyle \ mathbf {\ hat {p}} = [100/600,200 / 600,300 / 600] = [1 / 6,2 / 6,3 / 6]}{\ displaystyle \ mathbf {\ hat {p}} = [100 / 600,200 / 600,300 / 600 ] = [1 / 6,2 / 6,3 / 6]}

Опять же, потому что r ^ = p ^ {\ displaystyle \ mathbf {\ hat {r}} = \ mathbf {\ hat {p}}}{\ displaystyle \ mathbf {\ hat {r}} = \ mathbf {\ hat {p}}} , таким образом, в этом городе также отсутствует сегрегация.

См. Также

Ссылки

Внешние ссылки

Последняя правка сделана 2021-05-23 13:24:35
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте