Связь записи

редактировать

Связь записи (также известная как сопоставление данных, разрешение объекта, и многие другие термины) задача поиска записей в наборе данных, которые относятся к одной и той же сущности в разных источниках данных (например, файлах данных, книгах, веб-сайтах и базах данных). Связь записей необходима, когда объединяет разные наборы данных на основе сущностей, которые могут иметь или не иметь общий идентификатор (например, ключ базы данных, URI, Национальный идентификационный номер ), что может быть связано с различиями в форме записи, месте хранения, а также стилем или предпочтениями хранителя. Набор данных, который прошел согласование с ориентацией на RL, может называться перекрестно связанным. Связывание записей во многих юрисдикциях называется связью данных, но это один и тот же процесс.

Содержание

1 Соглашения об именах
2 История
3 Методы
- 3.1 Предварительная обработка данных
- 3.2 Разрешение объекта
  - 3.2.1 Сопоставление данных
- 3.3 Детерминированная связь записей
- 3.4 Вероятностная связь записей
- 3.5 Машинное обучение
4 Математическая модель
5 Приложения
- 5.1 Управление основными данными
- 5.2 Хранилище данных и бизнес-аналитика
- 5.3 Историческое исследование
- 5.4 Медицинская практика и исследование
6 Критика существующих программных реализаций
7 См. также
8 Примечания и ссылки
9 Внешние ссылки

Соглашения об именах

«Связь записей» - термин, используемый статистиками, эпидемиологи и историки, среди прочих, чтобы описать процесс объединения записей из одного источника данных с другим, которые описывают одну и ту же сущность. Однако для этого процесса используется много других терминов. К сожалению, такое обилие терминологии привело к небольшому количеству перекрестных ссылок между этими исследовательскими сообществами.

Ученые-компьютерщики часто называют это «сопоставлением данных» или «проблемой идентичности объекта». Коммерческие почтовые приложения и приложения баз данных называют это «обработкой слияния / очистки» или «промывкой списка». Другие имена, используемые для описания той же концепции, включают: «сопоставление / сущность / идентичность / имя / разрешение записи», «устранение неоднозначности / связывание сущностей», «нечеткое сопоставление», «обнаружение дубликатов», «дедупликация», «сопоставление записей», » (ссылка) согласование "," идентификация объекта "," интеграция данных / информации "и" объединение ".

Хотя они имеют схожие имена, связь записей и Связанные данные - это два разных подхода к обработка и структурирование данных. Хотя оба включают идентификацию совпадающих сущностей в разных наборах данных, связь записей обычно приравнивает «сущности» к человеческим индивидуумам; Напротив, связанные данные основаны на возможности связывания любого веб-ресурса между наборами данных с использованием, соответственно, более широкой концепции идентификатора, а именно URI.

History

The Первоначальная идея связи записей восходит к Хэлберту Л. Данну в его статье 1946 года под названием «Связь с записями», опубликованной в American Journal of Public Health.

Говард Борден Ньюкомб, затем заложил вероятностные основы современная теория связи записей в статье 1959 года в Science. Они были формализованы в 1969 году Иваном Феллеги и Аланом Сантером в их новаторской работе «Теория связи записей», где они доказали, что описанное ими вероятностное правило принятия решений было оптимальным, когда атрибуты сравнения были условно независимыми. Теория Феллеги-Сунтера и сегодня остается математической основой для многих приложений по связыванию записей.

С конца 1990-х годов были разработаны различные методы машинного обучения, которые при благоприятных условиях могут использоваться для оценки условных вероятностей, требуемых теорией Феллеги-Сантера. Несколько исследователей сообщили, что предположение об условной независимости алгоритма Феллеги-Сантера часто нарушается на практике; однако опубликованные попытки явно смоделировать условные зависимости между атрибутами сравнения не привели к улучшению качества связи записей. С другой стороны, алгоритмы машинного обучения или нейронной сети, которые не полагаются на эти предположения, часто обеспечивают гораздо более высокую точность, когда доступно достаточное количество маркированных обучающих данных.

Связывание записей может быть выполнено полностью без помощи компьютера., но основные причины, по которым компьютеры часто используются для завершения связи записей, состоят в том, чтобы уменьшить или исключить ручную проверку и сделать результаты более легко воспроизводимыми. Компьютерное сопоставление имеет преимущества, позволяющие централизованно контролировать обработку, лучший контроль качества, скорость, согласованность и лучшую воспроизводимость результатов.

Методы

Предварительная обработка данных

Связь записей - это очень чувствительны к качеству связываемых данных, поэтому все рассматриваемые наборы данных (особенно их ключевые поля идентификаторов) в идеале должны пройти оценку качества данных перед связыванием записей. Многие ключевые идентификаторы для одной и той же сущности могут быть представлены совершенно по-разному в наборах данных (и даже внутри), что может значительно усложнить связывание записей, если их не понять заранее. Например, ключевые идентификаторы мужчины по имени Уильям Дж. Смит могут присутствовать в трех разных наборах данных следующим образом:

Набор данных	Имя	Дата рождения	Город проживания
Набор данных 1	Уильям Дж. Смит	1/2/73	Беркли, Калифорния
Набор данных 2	Смит, WJ	1973.1.2	Беркли, Калифорния
Набор данных 3	Билл Смит	2 января 1973 г.	Беркли, Калифорния.

В этом примере разные стили форматирования приводят к тому, что записи выглядят по-разному, но фактически все относятся к одному и тому же объекту с одинаковыми значениями логических идентификаторов. Большинство, если не все, стратегии связывания записей привели бы к более точному связыванию, если бы эти значения были сначала нормализованы или стандартизированы в согласованный формат (например, все имена - «Фамилия, имя», а все даты - «ГГГГ / ММ / ДД. "). Стандартизация может быть достигнута с помощью простых основанных на правилах преобразований данных или более сложных процедур, таких как лексиконная токенизация и вероятностные скрытые марковские модели. Некоторые из пакетов, перечисленных в разделе «Программные реализации», предоставляют некоторые из этих функций для упрощения процесса стандартизации данных.

Разрешение сущности

Разрешение сущности - это оперативный интеллектуальный процесс, обычно работающий на базе механизма разрешения сущностей или промежуточного программного обеспечения, посредством которого организации могут соединять разрозненные данные источники с представлением для понимания возможных совпадений сущностей и неочевидных связей между несколькими разрозненными данными. Он анализирует всю информацию , относящуюся к отдельным лицам и / или организациям, из нескольких источников данных, а затем применяет оценку правдоподобия и вероятности, чтобы определить, какие идентичности совпадают и какие существуют неочевидные взаимосвязи между этими идентичностями.

Механизмы разрешения сущностей обычно используются для выявления рисков, мошенничества и конфликтов интересов, но также являются полезными инструментами для использования в интеграции данных клиентов (CDI) и требования к управлению основными данными (MDM). Типичные варианты использования механизмов разрешения проблем включают выявление террористов, обнаружение страхового мошенничества, соблюдение Закона США о патриотизме, выявление организованной розничной преступности и проверку заявителей.

Например: В разных хранилищах данных - записи о сотрудниках, данные поставщиков, списки наблюдения и т. Д. - организация может иметь несколько вариантов объекта с именем ABC, которые могут быть одним и тем же лицом. Эти записи могут фактически отображаться в этих источниках данных как ABC1, ABC2 или ABC3. Сравнивая сходства между базовыми атрибутами, такими как адрес, дата рождения или номер социального страхования, пользователь может исключить некоторые возможные совпадения и подтвердить другие как наиболее вероятные. совпадения.

Затем механизмы разрешения сущностей применяют правила, основанные на логике здравого смысла, для выявления скрытых взаимосвязей в данных. В приведенном выше примере, возможно, ABC1 и ABC2 не одно и то же лицо, а скорее два разных человека, которые имеют общие атрибуты, такие как адрес или номер телефона.

Сопоставление данных

Хотя решения по разрешению сущностей включают технологию сопоставления данных, многие предложения по сопоставлению данных не подходят под определение разрешения сущностей. По словам Джона Талберта, директора Центра передовых исследований в области разрешения сущностей и качества информации UALR, четыре фактора, которые отличают разрешение сущностей от сопоставления данных:

Работает как со структурированными, так и с неструктурированными записями, и это влечет за собой процесс извлечения ссылок, когда источники неструктурированы или частично структурированы
Использует сложные бизнес-правила и концептуальные модели для работы с отсутствующей, противоречивой или поврежденной информацией
Использует несоответствие, заявленная связывающая (ассоциированная) информация в дополнение к прямому сопоставлению
Выявляет неочевидные взаимосвязи и сети ассоциаций (т.е. кто с кем связан)

В отличие от продуктов для обеспечения качества данных, более мощные механизмы разрешения идентичности также включают механизм правил и рабочий процесс, которые применяют бизнес-аналитику к разрешенным удостоверениям и их отношениям. Эти передовые технологии принимают автоматизированные решения и влияют на бизнес-процессы в режиме реального времени, ограничивая необходимость вмешательства человека.

Детерминированная связь записей

Простейший вид связи записей, называемый детерминированной или основанной на правилах связью записей, генерирует связи на основе количества индивидуальных идентификаторов, которые совпадают среди доступных наборов данных. Считается, что две записи совпадают с помощью процедуры детерминированного связывания записей, если все или некоторые идентификаторы (выше определенного порога) идентичны. Детерминированная привязка записей - хороший вариант, когда объекты в наборах данных идентифицируются общим идентификатором или когда есть несколько репрезентативных идентификаторов (например, имя, дата рождения и пол при идентификации человека), качество данных которых является относительно низким. высоко.

В качестве примера рассмотрим два стандартизованных набора данных, набор A и набор B, которые содержат разные биты информации о пациентах в больничной системе. Два набора данных идентифицируют пациентов с помощью различных идентификаторов: номер социального страхования (SSN), имя, дата рождения (DOB), пол и почтовый индекс (ZIP). Записи в двух наборах данных (обозначенных столбцом «#») показаны ниже:

Набор данных	#	SSN	Имя	Дата рождения	Пол	ZIP
Набор A	1	000956723	Смит, Уильям	1973/01/02	Мужчина	94701
	2	000956723	Смит, Уильям	1973/01/02	мужчина	94703
	3	000005555	Джонс, Роберт	1942/08/14	Мужчина	94701
	4	123001234	Сью, Мэри	1972/11/19	Женщина	94109
Набор B	1	000005555	Джонс, Боб	1942/08/14
Набор B	2		Смит, Билл	02.01.1973	Мужской	94701

Самая простая детерминированная стратегия связывания записей состоит в выборе одного идентификатора, который считается однозначно идентифицирующим, например SSN и заявляют, что записи с одинаковым значением идентифицируют одного и того же человека, в то время как записи с разными значениями идентифицируют разных людей. В этом примере детерминированная связь на основе SSN создаст объекты на основе A1 и A2; A3 и B1; и A4. В то время как A1, A2 и B2 представляют собой одну и ту же сущность, B2 не будет включен в соответствие, поскольку в нем отсутствует значение для SSN.

Обработка исключений, таких как отсутствующие идентификаторы, включает создание дополнительных правил связывания записей. Одним из таких правил в случае отсутствия SSN может быть сравнение имени, даты рождения, пола и почтового индекса с другими записями в надежде найти совпадение. В приведенном выше примере это правило все равно не будет соответствовать A1 / A2 с B2, потому что имена все еще немного отличаются: стандартизация поместила имена в правильный формат (Фамилия, Имя), но не смогла распознать "Bill" как псевдоним для " Уильям ". Обработка имен с помощью фонетического алгоритма , такого как Soundex, NYSIIS или метафон, может помочь решить эти типы проблем (хотя он может все еще споткнуться о смене фамилии в результате брака или развода), но тогда B2 будет соответствовать только с A1, поскольку почтовый индекс в A2 отличается. Таким образом, необходимо создать другое правило, чтобы определить, допустимы ли различия в конкретных идентификаторах (например, почтовый индекс), а какие нет (например, в дате рождения).

Как показывает этот пример, даже небольшое снижение качества данных или небольшое увеличение сложности данных может привести к очень большому увеличению количества правил, необходимых для правильного связывания записей. В конце концов, этих правил связывания станет слишком много и они будут взаимосвязаны, чтобы их можно было создавать без помощи специализированных программных инструментов. Кроме того, правила связывания часто зависят от характера наборов данных, которые они призваны связывать вместе. В одном исследовании удалось связать файл Social Security Death Master File с двумя реестрами больниц из Среднего Запада США с использованием SSN, имени в кодировке NYSIIS, месяца рождения и пола, но эти правила могут не работать с наборами данных из других географических регионов или с данными, собранными по более молодому населению. Таким образом, необходимо непрерывное тестирование этих правил, чтобы гарантировать, что они продолжают функционировать, как ожидалось, по мере поступления новых данных в систему и необходимости их связывания. Новые данные, которые демонстрируют характеристики, отличные от первоначально ожидаемых, могут потребовать полной перестройки набора правил связывания записей, что может потребовать очень много времени и средств.

Вероятностная связь записей

Вероятностная связь записей, иногда называемая нечетким сопоставлением (также вероятностное слияние или нечеткое слияние в контексте слияния баз данных), использует другой подход к проблеме связи записей, принимая учитывать более широкий диапазон потенциальных идентификаторов, вычисляя веса для каждого идентификатора на основе его предполагаемой способности правильно идентифицировать совпадение или несоответствие и используя эти веса для вычисления вероятности того, что две заданные записи относятся к одному и тому же объекту. Пары записей с вероятностями выше определенного порога считаются совпадениями, а пары с вероятностями ниже другого порога считаются несовпадениями; пары, которые попадают между этими двумя пороговыми значениями, считаются «возможными совпадениями» и могут обрабатываться соответствующим образом (например, проверенные человеком, связанные или несвязанные, в зависимости от требований). В то время как для детерминированного связывания записей требуется заранее запрограммировать ряд потенциально сложных правил, вероятностные методы связывания записей можно «обучить», чтобы они работали хорошо при гораздо меньшем вмешательстве человека.

Многие алгоритмы вероятностного связывания записей присваивают идентификаторам веса совпадения / несоответствия с помощью двух вероятностей, называемых u и m. Вероятность u - это вероятность того, что идентификатор в двух несовпадающих записях совпадет чисто случайно. Например, вероятность u для месяца рождения (где есть двенадцать значений, которые приблизительно равномерно распределены) составляет 1/12 ≈ 0,083; идентификаторы со значениями, которые не распределены равномерно, будут иметь разные вероятности u для разных значений (возможно, включая пропущенные значения). Вероятность m - это вероятность того, что идентификатор в совпадающих парах будет согласован (или будет достаточно похож, например, строки с низким расстоянием Яро-Винклера или Левенштейна ). Это значение будет 1,0 в случае точных данных, но, учитывая, что это редко (если вообще когда-либо) верно, его можно оценить. Эта оценка может быть сделана на основе предварительных знаний о наборах данных, путем ручной идентификации большого количества совпадающих и несовпадающих пар для «обучения» вероятностного алгоритма связывания записей или путем итеративного выполнения алгоритма для получения более точных оценок m вероятность. Если для вероятности m необходимо было оценить значение 0,95, то веса совпадения / несоответствия для идентификатора месяца рождения были бы:

Результат	Доля ссылок	Пропорция без звеньев	Соотношение частот	Вес
Соответствие	m = 0,95	u ≈ 0,083	m / u ≈ 11,4	ln (m / u) / ln (2) ≈ 3,51
Несовпадение	1 − m = 0,05	1-u ≈ 0,917	(1-м) / (1-u) ≈ 0,0545	ln ((1-m) / (1-u)) / ln (2) ≈ -4,20

такие же вычисления будут выполнены для всех других рассматриваемых идентификаторов, чтобы найти их веса совпадения / несоответствия. Затем каждый идентификатор одной записи будет сравниваться с соответствующим идентификатором другой записи для вычисления общего веса пары: вес совпадения добавляется к промежуточной сумме всякий раз, когда пара идентификаторов согласуется, в то время как вес несоответствия добавляется (т.е. промежуточная сумма уменьшается) всякий раз, когда пара идентификаторов расходится. Полученный общий вес затем сравнивается с вышеупомянутыми пороговыми значениями, чтобы определить, должна ли пара быть связана, не связана или отложена для особого рассмотрения (например, ручная проверка).

Определение, где установить соответствие / нет -соответствие пороговым значениям - это балансирование между получением приемлемой чувствительности (или напомним, доли действительно совпадающих записей, связанных алгоритмом) и положительного прогнозного значения (или точности, доля действительно совпадающих записей, связанных алгоритмом). Для прогнозирования наилучших пороговых значений доступны различные ручные и автоматизированные методы, а некоторые пакеты программного обеспечения для связывания записей имеют встроенные инструменты, помогающие пользователю найти наиболее приемлемые значения. Поскольку это может быть очень требовательной к вычислениям задачей, особенно для больших наборов данных, для повышения эффективности часто используется метод, известный как блокировка. Блокировка пытается ограничить сравнения только теми записями, для которых совпадают один или несколько особенно различающих идентификаторов, что приводит к увеличению положительной прогностической ценности (точности) за счет чувствительности (отзыва). Например, блокировка на основе фонетически закодированной фамилии и почтового индекса уменьшит общее количество требуемых сравнений и повысит шансы того, что связанные записи будут правильными (поскольку два идентификатора уже согласны), но потенциально может пропустить записи, относящиеся к одному и тому же человеку. чья фамилия или почтовый индекс были другими (например, из-за брака или переезда). Блокировка на основе месяца рождения, более стабильного идентификатора, который, как ожидается, изменится только в случае ошибки данных, обеспечит более скромный выигрыш в положительной прогностической ценности и потере чувствительности, но создаст только двенадцать отдельных групп, которые для чрезвычайно большие наборы данных могут не дать значительного увеличения скорости вычислений. Таким образом, надежные системы связи записей часто используют несколько блокирующих проходов для группировки данных различными способами, чтобы создать группы записей, которые следует сравнивать друг с другом.

Машинное обучение

В последние годы для связывания записей использовались различные методы машинного обучения. Было признано, что классический алгоритм вероятностного связывания записей, описанный выше, эквивалентен алгоритму Наивного Байеса в области машинного обучения и страдает от того же предположения о независимости его функций (предположение, что обычно не соответствует действительности). Более высокая точность часто может быть достигнута за счет использования различных других методов машинного обучения, включая однослойный перцептрон. В сочетании с распределенными технологиями точность и масштаб для связывания записей могут быть дополнительно улучшены.

Математическая модель

В приложении с двумя файлами, A и B, обозначьте строки (записи) как $α (a) {\ displaystyle \ alpha (a)}$ $\ alpha (a)$ в файле A и $β (b) {\ displaystyle \ beta (b)}$ $\ beta (b)$ в файле B. Назначьте $K {\ displaystyle K}$ $K$ характеристики к каждой записи. Набор записей, представляющих идентичные объекты, определяется как

$M = {(a, b); а = б; a ∈ A; b ∈ B} {\ displaystyle M = \ left \ {(a, b); a = b; a \ in A; b \ in B \ right \}}$ $M = \ left \ {(a, б); a = b; a \ in A; b \ in B \ right \}$

и дополнение набора $M { \ displaystyle M}$ $M$ , а именно набор $U {\ displaystyle U}$ $U$ , представляющий различные объекты, определяется как

$U = {(a, b); a ≠ b; a ∈ A; b ∈ B} {\ displaystyle U = \ {(a, b); a \ neq b; a \ in A; b \ in B \}}$ ${\ displaystyle U = \ {(a, b); a \ neq b; a \ in A ; b \ in B \}}$ .

вектор, $γ {\ displaystyle \ gamma}$ $\ gamma$ определен, содержащий закодированные соглашения и разногласия по каждой характеристике:

$γ [α (a), β (b)] = {γ 1 [α (a), β (b)],..., γ К [α (а), β (b)]} {\ Displaystyle \ гамма \ влево [\ альфа (а), \ бета (б) \ вправо] = \ {\ гамма ^ {1} \ влево [\ alpha (a), \ beta (b) \ right],..., \ gamma ^ {K} \ left [\ alpha (a), \ beta (b) \ right] \}}$ ${\ displaystyle \ gamma \ left [\ alpha (a), \ beta (b) \ right] = \ {\ gamma ^ {1} \ left [\ alpha (a), \ beta (b) \ right],..., \ gamma ^ {K} \ left [\ alpha (a), \ beta (b) \ right] \}}$

где $K {\ displaystyle K}$ $K$ - индекс для характеристик (пол, возраст, семейное положение и т. Д.) В файлах. Условные вероятности наблюдения определенного вектора $γ {\ displaystyle \ gamma}$ $\ gamma$ при $(a, b) ∈ M {\ displaystyle (a, b) \ in M}$ $(a, b) \ in M $ , $(a, b) ∈ U {\ displaystyle (a, b) \ in U}$ $(a, b) \ in U$ определяются как

$m (γ) = P {γ [α (a), β (b)] | (a, b) ∈ M} = ∑ (a, b) ∈ M P {γ [α (a), β (b)]} ⋅ P [(a, b) | М] {\ Displaystyle м (\ гамма) = п \ влево \ {\ гамма \ влево [\ альфа (а), \ бета (б) \ вправо] | (а, б) \ в М \ вправо \} = \ сумма _ {(a, b) \ in M} P \ left \ {\ gamma \ left [\ alpha (a), \ beta (b) \ right] \ right \} \ cdot P \ left [(a, b) | M \ right]}$ $m (\ gamma) = P \ left \ {\ gamma \ left [\ alpha (a), \ beta (b) \ right] | (a, b) \ in M \ right \} = \ sum _ {{(a, b) \ in M}} P \ left \ {\ gamma \ left [\ alpha (a), \ beta (b) \ right] \ right \} \ cdot P \ left [(a, b) | M \ right]$

$u (γ) = P {γ [α (a), β (b)] | (a, b) ∈ U} = ∑ (a, b) ∈ U P {γ [α (a), β (b)]} ⋅ P [(a, b) | U], {\ Displaystyle и (\ гамма) = п \ влево \ {\ гамма \ влево [\ альфа (а), \ бета (б) \ вправо] | (а, б) \ в U \ вправо \} = \ sum _ {(a, b) \ in U} P \ left \ {\ gamma \ left [\ alpha (a), \ beta (b) \ right] \ right \} \ cdot P \ left [(a, б) | U \ right],}$ $u (\ gamma) = P \ left \ {\ gamma \ left [\ alpha (a), \ beta (b) \ right] | (a, б) \ in U \ right \} = \ sum _ {{(a, b) \ in U}} P \ left \ {\ gamma \ left [\ alpha (a), \ beta (b) \ right] \ право \} \ cdot P \ left [(a, b) | U \ right],$ соответственно.

Приложения

Управление основными данными

Большинство Управление основными данными ( MDM) используют процесс связывания записей для идентификации записей из разных источников, представляющих одну и ту же сущность реального мира. Эта связь используется для создания «золотой основной записи», содержащей очищенные согласованные данные об объекте. Методы, используемые в MDM, такие же, как и для связывания записей в целом. MDM расширяет это сопоставление не только для создания «золотой основной записи», но и для вывода взаимосвязей. (т. е. у человека одинаковая / похожая фамилия и одинаковый / похожий адрес, это может означать, что они имеют семейные отношения).

Хранилище данных и бизнес-аналитика

Связь записей играет ключевую роль в хранилищах данных и бизнес-аналитике. Хранилища данных служат для объединения данных из множества различных операционных систем в одну логическую модель данных, которая затем может быть загружена в систему бизнес-аналитики для отчетности и аналитики. Каждая операционная исходная система может иметь свой собственный метод идентификации одних и тех же объектов, используемых в логической модели данных, поэтому становится необходимой связь записей между различными источниками, чтобы гарантировать, что информацию о конкретном объекте в одной исходной системе можно легко сравнить с информацией о тот же объект из другой исходной системы. Стандартизация данных и последующее связывание записей часто происходят в части «преобразования» процесса извлечение, преобразование, загрузка (ETL).

Историческое исследование

Связь записей важна для исследования социальной истории, поскольку большинство наборов данных, таких как записи переписи и приходские книги, были записаны задолго до изобретения Национальные идентификационные номера. Когда старые источники оцифровываются, связывание наборов данных является предпосылкой для лонгитюдного исследования. Этот процесс часто еще больше осложняется отсутствием стандартного написания имен, фамилий, которые меняются в зависимости от места проживания, изменения административных границ и проблем с проверкой данных по другим источникам. Связь между записями была одной из самых важных тем в этой области в 1980-х годах, но с тех пор ей уделялось меньше внимания в исследованиях.

Медицинская практика и исследования

Связь записей - важный инструмент в создании данные, необходимые для изучения здоровья населения и самой системы здравоохранения. Его можно использовать для улучшения хранения данных, сбора данных, оценки качества и распространения информации. Источники данных могут быть изучены для устранения дублирующихся записей, выявления случаев неполной отчетности и пропущенных случаев (например, подсчет населения при переписи населения), для создания статистики здоровья, ориентированной на человека, и для создания реестров заболеваний и систем наблюдения за здоровьем. Некоторые онкологические реестры связывают различные источники данных (например, данные о госпитализации, патологии и клинические отчеты, а также регистрации смертей) для создания своих реестров. Связь с записями также используется для создания индикаторов состояния. Например, внутриутробная и младенческая смертность является общим показателем социально-экономического развития страны, общественного здравоохранения, а также услуг по охране здоровья матери и ребенка. Если записи о младенческой смерти сопоставляются с записями о рождении, при анализе данных можно использовать переменные рождения, такие как вес при рождении и гестационный возраст, а также данные о смертности, такие как причина смерти. Связи могут помочь в последующих исследованиях когорт или других групп для определения таких факторов, как жизненный статус, статус проживания или результаты для здоровья. Отслеживание часто требуется для последующего наблюдения за промышленными когортами, клиническими испытаниями и лонгитюдными опросами для выяснения причины смерти и / или рака. Примером успешной и давней системы связи записей, позволяющей проводить медицинские исследования среди населения, является Рочестерский эпидемиологический проект, основанный в Рочестере, Миннесота.

Критика существующих программных реализаций

Приведены следующие основные причины:

Стоимость проекта : затраты обычно измеряются сотнями тысяч долларов
Время : не хватает времени для крупномасштабной очистки данных программное обеспечение
Безопасность : проблемы с обменом информацией, предоставлением доступа приложениям между системами и последствиями для унаследованных систем
Масштабируемость : из-за отсутствия уникальных идентификаторов в записях связывание записей является вычислительным дорого и сложно масштабировать.
Точность : изменение бизнес-данных и сбор всех правил для связывания - сложная и обширная задача

См. Также

Примечания и ссылки

Внешние ссылки