Оценка воздействия

редактировать

Оценка воздействия оценивает изменения, которые можно отнести к конкретному вмешательству, например проекту, программе или политике, и тем и другим как предполагаемые, так и в идеале непредусмотренные. В отличие от мониторинга результатов, который исследует, были ли достигнуты цели, оценка воздействия построена так, чтобы ответить на вопрос: как бы изменились такие результаты, как благополучие участников, если бы вмешательство не было предпринято? Это включает в себя контрфактический анализ, то есть «сравнение между тем, что произошло на самом деле, и тем, что произошло бы в отсутствие вмешательства». Оценка воздействия стремится ответить на вопросы о причинно-следственных связях. Другими словами, они ищут изменения в результатах, которые напрямую связаны с программой.

Оценка воздействия помогает людям ответить на ключевые вопросы для разработки политики на основе фактов: что работает, что нет, где, почему и за сколько? В последние годы ему уделялось все больше внимания при разработке политики как в западных, так и в развивающихся странах. Это важный компонент арсенала инструментов и подходов оценки и неотъемлемая часть глобальных усилий по повышению эффективности оказания помощи и государственных расходов в целом для повышения уровня жизни. Первоначально в большей степени ориентированная на оценку программ социального сектора в развивающихся странах, в частности условных денежных переводов, оценка воздействия теперь все чаще применяется в других областях, таких как сельское хозяйство, энергетика и транспорт.

Содержание

1 Планы контрфактической оценки
2 Экспериментальные подходы
- 2.1 Рандомизированные контрольные испытания (РКИ)
- 2.2 Натуральные эксперименты
3 Неэкспериментальные подходы
- 3.1 Квазиэкспериментальный дизайн
- 3.2 Неэкспериментальный план
4 Ошибки при оценке программных эффектов
- 4.1 Систематическая ошибка отбора
- 4.2 Другие формы систематической ошибки
  - 4.2.1 Вековые тенденции или вековой дрейф
  - 4.2.2 Мешающие события
  - 4.2.3 Созревание
5 Методы оценки
6 Дебаты
- 6.1 Определения
- 6.2 Методологические дебаты
- 6.3 Теоретическая оценка воздействия
7 Примеры
8 Организации, продвигающие оценку воздействия мероприятий по развитию
9 Систематические обзоры доказательств воздействия
10 См. также
11 Источники
12 Источники и внешние ссылки

Планы контрфактической оценки

Контрфактический анализ позволяет оценщикам определять причину и эффект между вмешательствами и результатами. «Контрфактические» меры, что произошло бы с бенефициарами в отсутствие вмешательства, и влияние оценивается путем сравнения контрфактических результатов с результатами, наблюдаемыми в рамках вмешательства. Ключевая проблема при оценке воздействия заключается в том, что контрфакты не могут быть непосредственно обнаружены и должны быть приближены к группе сравнения. Существует ряд принятых подходов к определению подходящей группы сравнения для контрфактического анализа с использованием либо перспективной (ex ante), либо ретроспективной (ex post) схемы оценки. Перспективные оценки начинаются на этапе разработки вмешательства, включая сбор исходных и конечных данных от бенефициаров вмешательства («группа лечения») и лиц, не получающих помощь («группа сравнения»); они могут включать отбор отдельных лиц или сообществ в группы лечения и сравнения. Ретроспективные оценки обычно проводятся после фазы внедрения и могут использовать существующие данные обследований, хотя при наилучших оценках данные будут собираться как можно ближе к исходному уровню, чтобы обеспечить сопоставимость вмешательств и групп сравнения.

Существует пять ключевых принципов, относящихся к внутренней валидности (дизайн исследования) и внешней валидности (обобщаемости), которые должны рассматриваться при тщательной оценке воздействия: мешающие факторы, систематическая ошибка отбора, побочные эффекты, загрязнение и неоднородность воздействия.

Смешение возникает, когда определенные факторы, обычно относящиеся к социально-экономическому статусу, коррелируют с воздействием вмешательства и, независимо от воздействия, причинно связаны с интересующим результатом. Таким образом, смешивающие факторы являются альтернативными объяснениями наблюдаемой (возможно, ложной) взаимосвязи между вмешательством и результатом.
Ошибка отбора, особый случай смешения, возникает, когда участники вмешательства выбираются неслучайно из популяции-бенефициара, и критерии, определяющие выбор, коррелируют с результатами. Ненаблюдаемые факторы, которые связаны с доступом к вмешательству или участием в нем и причинно связаны с интересующим результатом, могут привести к ложной связи между вмешательством и исходом, если они не учтены. Самоотбор происходит там, где, например, более способные или организованные люди или сообщества, которые с большей вероятностью добьются лучших результатов, представляющих интерес, также с большей вероятностью будут участвовать в вмешательстве. Эндогенный выбор программы происходит, когда отдельные лица или сообщества выбираются для участия, потому что, как считается, они с большей вероятностью выиграют от вмешательства. Игнорирование мешающих факторов может привести к проблеме смещения переменной. В особом случае смещения отбора эндогенность переменных выбора может вызвать смещение одновременности.
Распространение (называемое заражением в случае экспериментальных оценок) происходит, когда затрагиваются члены группы сравнения (контрольная)
Загрязнение происходит, когда члены группы лечения и / или сравнения имеют доступ к другому вмешательству, которое также влияет на интересующий результат.
Неоднородность воздействия относится к различиям в воздействии, оказываемом бенефициаром тип и контекст. Высококачественные оценки воздействия позволят оценить степень, в которой различные группы (например, обездоленные) получают выгоду от вмешательства, а также потенциальное влияние контекста на воздействие. Степень обобщения результатов будет определять применимость извлеченных уроков для вмешательств в других контекстах.

Дизайн оценки воздействия определяется типом методов, используемых для создания контрфактических данных, и может быть в целом разделен на три категории - экспериментальные, квази- экспериментальные и неэкспериментальные планы - которые различаются по выполнимости, стоимости, вовлеченности во время разработки или после фазы реализации вмешательства, а также степени систематической ошибки отбора. Уайт (2006) и Раваллион (2008) обсуждают альтернативные подходы к оценке воздействия.

Экспериментальные подходы

При экспериментальной оценке группы лечения и сравнения выбираются случайным образом и изолированы как от вмешательства, так и от любых вмешательств, которые могут повлиять на интересующий результат. Эти планы оценки называются рандомизированными контрольными испытаниями (РКИ). В экспериментальных оценках группа сравнения называется контрольной группой. Когда рандомизация проводится на достаточно большой выборке без заражения от вмешательства, единственное различие между лечебной и контрольной группами в среднем состоит в том, что последняя не получает вмешательства. Обследования со случайной выборкой, в которых выборка для оценки выбирается случайным образом, не следует путать с экспериментальными схемами оценки, которые требуют случайного назначения лечения.

Экспериментальный подход часто называют «золотым стандартом» оценки. Это единственный дизайн оценки, который может окончательно объяснить систематическую ошибку отбора при демонстрации причинно-следственной связи между вмешательством и результатами. Рандомизация и изоляция от вмешательств могут быть неосуществимы в сфере социальной политики и могут быть трудными с этической точки зрения, хотя могут быть возможности для использования естественных экспериментов. Бамбергер и Уайт (2007) подчеркивают некоторые ограничения в применении РКИ к вмешательствам в области развития. Методологическая критика была сделана Скривеном (2008) в связи с введенными предубеждениями, поскольку социальные вмешательства не могут быть полностью слепыми, а Дитон (2009) указал, что на практике анализ РКИ опирается на регрессию - основанные на подходах, которых они стремятся избежать, и поэтому подвержены тем же потенциальным предубеждениям. Другие проблемы включают часто неоднородные и меняющиеся контексты вмешательств, логистические и практические проблемы, трудности с мониторингом предоставления услуг, доступность вмешательства для группы сравнения и изменения критериев отбора и / или вмешательства с течением времени. Таким образом, оценивается, что РКИ применимы только к 5% финансирования развития.

Рандомизированные контрольные испытания (РКИ)

РКИ - это исследования, используемые для измерения эффективности нового вмешательства. Они вряд ли смогут доказать причинно-следственную связь сами по себе, однако рандомизация снижает систематическую ошибку, предоставляя инструмент для изучения причинно-следственных связей. РКИ основаны на случайном распределении, а это означает, что такая оценка почти всегда должна разрабатываться заранее, так как естественное распределение проекта редко бывает случайным. При разработке РКИ необходимо задать пять ключевых вопросов: какое лечение будет тестироваться, сколько групп лечения будет, какова будет единица назначения, какой объем выборки потребуется, как будет проводиться тест быть рандомизированным. Хорошо проведенное рандомизированное контролируемое исследование даст достоверную оценку среднего эффекта лечения в пределах одной конкретной популяции или единицы назначения. Недостатком РКИ является «проблема транспортировки», в которой подчеркивается, что то, что работает в одной популяции, не обязательно работает в другой, а это означает, что средний эффект лечения неприменим для разных единиц назначения.

Естественные эксперименты

Используются естественные эксперименты, потому что эти методы ослабляют внутреннее напряжение неконтролируемого поля и подходы к сбору контролируемых лабораторных данных. В естественных экспериментах используются события, находящиеся вне контроля исследователей и субъектов, для устранения нескольких угроз внутренней достоверности, сводя к минимуму вероятность смешивания элементов, жертвуя при этом некоторыми особенностями полевых данных, такими как более естественные диапазоны лечебных эффектов и наличие органично сформированный контекст. Основная проблема с естественными экспериментами - проблема воспроизводимости. Лабораторная работа, если ее правильно описать и повторить, должна дать аналогичные результаты. Из-за уникальности естественных экспериментов повторение часто ограничивается анализом альтернативных данных из аналогичного события.

Неэкспериментальные подходы

Квазиэкспериментальный план

Квазиэкспериментальный подходы могут устранить предвзятость, возникающую из-за выбора наблюдаемых и, если доступны панельные данные, не зависящих от времени ненаблюдаемых. Квазиэкспериментальные методы включают сопоставление, сравнение, инструментальные переменные и конвейерный подход; они обычно выполняются с помощью многомерного регрессионного анализа.

Если характеристики выбора известны и наблюдаются, ими можно управлять для устранения систематической ошибки. Сопоставление включает сравнение участников программы с неучастниками на основе наблюдаемых характеристик отбора. Сопоставление оценок склонности (PSM) использует статистическую модель для расчета вероятности участия на основе набора наблюдаемых характеристик и сопоставляет участников и неучастников с аналогичными оценками вероятности. Модель прерывности регрессии использует правило принятия решения относительно того, кто получает и не получает вмешательство, чтобы сравнить результаты для тех, кто находится по обе стороны от этого порогового значения.

Разница в различиях или двойные различия, в которых используются данные, собранные на исходном и конечном этапе для групп вмешательства и сравнения, могут использоваться для учета систематической ошибки отбора при предположении, что ненаблюдаемые факторы, определяющие выбор, фиксируются во времени ( инвариант во времени).

Инструментальные переменные оценка учитывает систематическую ошибку отбора путем моделирования участия с использованием факторов («инструментов»), которые коррелируют с выбором, но не с результатом, таким образом выделяя аспекты участия в программе, которые можно рассматривать как экзогенные.

Конвейерный подход (ступенчатый клин ) использует бенефициаров, уже выбранных для участия в проекте на более позднем этапе, в качестве группы сравнения. Предполагается, что, поскольку они были отобраны для получения вмешательства в будущем, они похожи на группу лечения и, следовательно, сопоставимы с точки зрения представляющих интерес переменных результатов. Однако на практике нельзя гарантировать, что группы лечения и сравнения будут сопоставимы, и для проверки сопоставимости необходимо будет применить какой-либо метод сопоставления.

Неэкспериментальный дизайн

Неэкспериментальные оценки воздействия называются так называемыми, потому что они не включают группу сравнения, которая не имеет доступа к вмешательству. Метод, используемый в неэкспериментальной оценке, заключается в сравнении групп вмешательства до и после проведения вмешательства. Вмешательство для оценки прерванного временного ряда (ITS) требуется несколько точек данных по леченным пациентам до и после вмешательства, в то время как до и после (или предварительное тестирование после тестирования) просто требует одной точки данных до и после после. Пост-тестовый анализ включает данные после вмешательства только от группы вмешательства. Неэкспериментальные планы - самый слабый дизайн оценки, потому что, чтобы убедительно показать причинно-следственную связь между вмешательством и результатами, оценка должна продемонстрировать, что любые возможные альтернативные объяснения результатов не имеют значения. Тем не менее, остаются приложения, для которых эта конструкция актуальна, например, для расчета экономии времени от вмешательства, которое улучшает доступ к удобствам. Кроме того, могут быть случаи, когда неэкспериментальные схемы являются единственно возможной схемой оценки воздействия, например, универсально реализуемые программы или реформы национальной политики, в которых вряд ли будет существовать изолированные группы сравнения.

Предвзятость в оценке воздействия программы

Рандомизированные полевые эксперименты - это самые сильные исследовательские проекты для оценки воздействия программы. Говорят, что этот конкретный план исследования обычно является предпочтительным, когда это возможно, поскольку он позволяет получить справедливую и точную оценку фактических результатов программы (Rossi, Lipsey Freeman, 2004).

С учетом сказанного, рандомизированные полевые эксперименты не всегда возможно провести, и в таких ситуациях в распоряжении оценщика есть альтернативные планы исследования. Однако основная проблема заключается в том, что независимо от того, какой дизайн выберет оценщик, они подвержены общей проблеме: независимо от того, насколько хорошо продуман или хорошо реализован план, каждый проект может давать предвзятые оценки результатов программы. Эти предубеждения играют роль преувеличения или уменьшения эффектов программы. Не только это, но и направление смещения обычно не может быть известно заранее (Rossi et al., 2004). Эти предубеждения влияют на интерес заинтересованной стороны. Более того, возможно, что участники программы окажутся в невыгодном положении, если предвзятость такова, что она способствует тому, что неэффективная или вредная программа кажется эффективной. Также существует вероятность того, что предвзятость может сделать эффективную программу неэффективной или даже настолько вредной. Это может сделать достижения программы небольшими или даже незначительными, что вынудит персонал и даже заставит спонсоров программы сократить или отменить финансирование программы (Росси и др., 2004).

Можно с уверенностью сказать, что если неадекватный дизайн приводит к предвзятости, заинтересованные стороны, которые в значительной степени несут ответственность за финансирование программы, будут больше всего обеспокоены; Результаты оценки помогают заинтересованным сторонам решить, продолжать ли финансирование программы, поскольку окончательное решение остается за спонсорами и спонсорами. Не только заинтересованные стороны в наибольшей степени заинтересованы, но и те, кто принимает участие в программе или те, на кого программа предназначена положительно повлиять, будут затронуты выбранным дизайном и результатом, полученным с помощью этого выбранного дизайна. Таким образом, оценщик стремится свести к минимуму степень систематической ошибки при оценке результатов программы (Росси и др., 2004).

Ошибки обычно видны в двух ситуациях: когда измерение результата с использованием программы или оценка того, каким был бы результат без воздействия программы, выше или ниже соответствующего «истинного» значения (p267). К сожалению, не все формы предвзятости, которые могут повлиять на оценку воздействия, очевидны (Rossi et al., 2004).

Наиболее распространенной формой дизайна оценки воздействия является сравнение двух групп лиц или других единиц: группы вмешательства, которая получает программу, и контрольной группы, которая не получает. Оценка эффекта программы затем основывается на разнице между группами по подходящей оценке результатов (Росси и др., 2004). Случайное распределение людей по программным и контрольным группам позволяет сделать предположение о продолжающейся эквивалентности. Групповые сравнения, которые не были сформированы путем рандомизации, известны как неэквивалентные схемы сравнения (Rossi et al., 2004).

Смещение выбора

При отсутствии предположения об эквивалентности разница в результатах между группами, которая могла бы возникнуть независимо, создает некоторую форму смещения в оценке программных эффектов. Это известно как систематическая ошибка отбора (Росси и др., 2004). Это создает угрозу достоверности оценки воздействия программы при любой оценке воздействия с использованием неэквивалентного плана сравнения групп и появляется в ситуациях, когда некий процесс, ответственный за воздействия, которые не полностью известны, выбирает, какие люди будут в какой группе, а не в группе. распределение по группам определяется чистой случайностью (Росси и др., 2004). Это может быть из-за самостоятельного выбора участников или из-за размещения в программе (систематическая ошибка размещения).

Ошибка отбора может возникать в результате естественных или преднамеренных процессов, которые вызывают потерю данных о результатах для участников вмешательства и контрольные группы, которые уже сформированы. Это называется истощением и может происходить двумя способами (Rossi et al., 2004): цели выпадают из интервенции, или контрольная группа не может быть достигнута, или цели отказываются сотрудничать в измерении результатов. Дифференциальное истощение предполагается, когда истощение происходит не в результате явного случайного процесса (Росси и др., 2004). Это означает, что «те люди, которые были из группы вмешательства, чьи данные об исходах отсутствуют, не могут считаться имеющими такие же релевантные для результатов характеристики, как и лица из контрольной группы, данные об исходах которых отсутствуют» (Rossi et al., 2004, p271). Однако планы случайного распределения небезопасны от систематической ошибки отбора, вызванной отсевом (Rossi et al., 2004).

Другие формы систематической ошибки

Существуют и другие факторы, которые могут быть причиной систематической ошибки в результатах оценки воздействия. Как правило, они связаны с другими событиями или переживаниями, а не с программой, которые происходят во время вмешательства. Эти предубеждения включают вековые тенденции, мешающие события и созревание (Росси и др., 2004).

Светские тенденции или вековой дрейф

Светские тенденции можно определить как относительно долгосрочные тенденции в сообществе, регионе или стране. Это также называется вековым дрейфом и может вызывать изменения, которые усиливают или маскируют очевидные эффекты a (Росси и др., 2004). Например, когда уровень рождаемости в сообществе снижается, программа по снижению рождаемости может оказаться эффективной из-за предвзятости, проистекающей из этой тенденции к снижению (Росси и др., 2004, стр. 273).

Мешающие события

Мешающие события аналогичны вековым тенденциям; в этом случае именно краткосрочные события могут вызвать изменения, которые могут внести систематическую ошибку в оценки эффекта программы, например, отключение электроэнергии, нарушающее связь или затрудняющее доставку пищевых добавок, может помешать программе питания (Росси и др., 2004, с. 273).

Созревание

Оценка воздействия должна учитывать тот факт, что естественные процессы созревания и развития могут привести к значительным изменениям независимо от программы. Включение этих изменений в оценки воздействия программы приведет к смещению оценок. Примером такой формы предвзятости может быть программа по улучшению профилактических методов лечения среди взрослых, которая может показаться неэффективной, поскольку состояние здоровья обычно ухудшается с возрастом (Росси и др., 2004, стр. 273).

«Тщательное поддержание сравнимых условий для программных и контрольных групп между случайным назначением и измерением результатов должно предотвратить смещение из-за влияния другого дифференциального опыта или событий на группы. Если любое из этих условий отсутствует в плане, существует вероятность систематической ошибки в оценках эффекта программы »(Росси и др., 2004 г., стр. 274).

Методы оценки

Методы оценки в целом соответствуют планам оценки. Для разных дизайнов требуются разные методы оценки, чтобы измерить изменения в благосостоянии, не соответствующие фактам. При экспериментальной и квазиэкспериментальной оценке предполагаемый эффект вмешательства рассчитывается как разница в средних результатах между группой лечения (те, кто получает вмешательство) и контрольной группой или группой сравнения (те, кто этого не делает). Этот метод также называют рандомизированными контрольными испытаниями (РКИ). Согласно интервью с Джимом Рафом, бывшим представителем Американской ассоциации оценки, в журнале D + C Development and Сотрудничество, этот метод не работает для сложных, многоуровневых вопросов. Оценщик единственной разницы сравнивает средние результаты в конце исследования и действителен, когда экспериментальная и контрольная группы имеют одинаковые значения результатов на исходном уровне. Оценщик разницы в разнице (или двойной разности) вычисляет разницу в изменении результата с течением времени для групп лечения и сравнения, таким образом используя данные, собранные на исходном уровне для обеих групп, и второй раунд данных, собранных в конце, после реализации вмешательства, что может произойти спустя годы.

Оценка воздействия, которая должна сравнивать средние результаты в группе лечения, независимо от участия бенефициара (также называемого «комплаентность» или «приверженность»), на исходы в группе сравнения называются анализом намерения лечиться (ITT). Оценка воздействия, при которой сравниваются результаты среди бенефициаров, которые соблюдают или соблюдают вмешательство в группе лечения, с результатами в контрольной группе, называются анализами «лечение на основе лечения» (TOT). Таким образом, ITT дает более низкую оценку воздействия, но, возможно, имеет большее политическое значение, чем TOT, при анализе добровольных программ.

Дебаты

Хотя существует согласие в отношении важности оценки воздействия, и появляется консенсус в отношении использования контрфактических методов оценки; в последние годы также широко обсуждались как определение оценки воздействия, так и использование соответствующих методов (см. обзор в White 2009).

Определения

Международная инициатива по оценке воздействия (3ie) определяет строгие оценки воздействия как: «анализ, измеряющий чистое изменение результатов для определенной группы людей, которое может быть отнесено к определенному программа с использованием наилучшей доступной методологии, выполнимой и соответствующей исследуемому вопросу оценки и конкретному контексту ".

Согласно Инициативе DIME Всемирного банка," оценки воздействия сравнивают результаты программы с контрфактический пример, показывающий, что случилось бы с бенефициарами без программы. В отличие от других форм оценки, они позволяют отнести наблюдаемые изменения в результатах к оцениваемой программе, следуя экспериментальным и квазиэкспериментальным планам ".

Аналогичным образом, согласно американскому Агентству по охране окружающей среды оценка воздействия - это форма оценки, которая оценивает чистый эффект программы путем сравнения результатов программы с оценкой имитация того, что произошло бы в отсутствие программы.

Согласно Независимой оценочной группе (IEG) Всемирного банка, оценка воздействия - это систематическая идентификация положительных или отрицательных эффектов, предназначалась или не предназначалась для отдельных домохозяйств, учреждений и окружающей среды в результате данной деятельности в области развития, такой как программа или проект.

Оценка воздействия за последние несколько десятилетий определялась по-разному. Другие интерпретации оценки воздействия включают в себя:

оценку, которая рассматривает влияние вмешательства на конечные результаты благосостояния, а не только на результаты проекта, или оценку процесса, которая фокусируется на реализации;
проведенная оценка через некоторое время (от пяти до десяти лет) после завершения вмешательства, чтобы дать время проявиться; и
оценка, учитывающая все вмешательства в пределах данного сектора или географической области.

Другие авторы проводят различие между «оценкой воздействия» и «оценкой воздействия». «Оценка воздействия» использует эмпирические методы для оценки воздействия вмешательств и их статистической значимости, тогда как «оценка воздействия» включает более широкий набор методов, включая структурное моделирование и другие подходы, которые не могут проверить статистическую значимость.

Общие Определения «воздействия», используемые при оценке, обычно относятся к совокупности долгосрочных последствий, связанных с вмешательством, на исходы качества жизни. Например, Комитет содействия развитию Организации экономического сотрудничества и развития (OECD-DAC) определяет воздействие как «положительные и отрицательные, первичные и вторичные долгосрочные эффекты, вызванные вмешательством в области развития, прямо или косвенно, преднамеренно или непреднамеренно». Ряд международных агентств также приняли это определение воздействия. Например, ЮНИСЕФ определяет воздействие как «более долгосрочные результаты программы - технические, экономические, социокультурные, институциональные, экологические или другие - запланированные или непреднамеренные. Предполагаемое воздействие должно соответствовать цели программы». Аналогичным образом Evaluationwiki.org определяет оценку воздействия как оценку, которая выходит за рамки непосредственных результатов политики, инструкций или услуг для выявления долгосрочных, а также непредвиденных эффектов программы.

Технически оценка может проводиться до оценить «воздействие», как определено здесь, без ссылки на контрфакты. Тем не менее, большая часть существующей литературы (например, Руководство NONIE по оценке воздействия принимает определение воздействия OECD-DAC, в то время как методы, используемые для приписывания воздействия вмешательству, обязательно основаны на контрфактическом анализе.

Чего не хватает от термина «оценка воздействия» - это способ «воздействия» проявляется в долгосрочном плане. Например, большинство планов «логической структуры» мониторинга и оценки включают затраты-выходы-результаты и... воздействия. Первые три появляются в продолжительность самого проекта, воздействие занимает гораздо больше времени. Например, в 5-летнем сельскохозяйственном проекте семена - это вводимые ресурсы, фермеры, обученные их использованию, - наши результаты, изменения в урожайности в результате правильного посева семян в результат и более стабильная продовольственная безопасность семей с течением времени - это влияние. Такие оценки воздействия после проекта очень редки. Их также называют оценками постпроектных мероприятий, или мы вводим термин оценки устойчивого воздействия. Хотя их требуют сотни тысяч документов, доноры редко обладают гибкостью финансирования - или интересом - чтобы вернуться, чтобы увидеть, насколько устойчивыми и долговечными остались наши вмешательства после закрытия проекта, после того, как ресурсы были изъяты. Есть много уроков, которые необходимо извлечь для разработки, реализации, МиО и того, как стимулировать ответственность страны.

Методологические дебаты

В академических кругах ведутся интенсивные дебаты по поводу соответствующих методологии оценки воздействия между сторонниками экспериментальных методов, с одной стороны, и сторонниками более общих методологий, с другой. Уильям Истерли назвал это «Гражданская война в экономике развития». Сторонники экспериментальных планов, которых иногда называют «рандомистами», утверждают, что рандомизация является единственным средством обеспечения учета ненаблюдаемой систематической ошибки отбора, и что создание хрупкой экспериментальной базы данных должно быть разработано в приоритетном порядке. Напротив, другие утверждают, что рандомизированное распределение редко уместно для вмешательств в области развития, и даже когда это так, эксперименты предоставляют нам информацию о результатах конкретного вмешательства, примененного к конкретному контексту, и мало имеют внешнего значения. Органы оценки и другие организации критиковали за то, что некоторые доноры и ученые чрезмерно подчеркивают предпочтительные методы оценки воздействия, и что это может фактически препятствовать обучению и подотчетности. Кроме того, ведутся дискуссии о соответствующей роли качественных методов при оценке воздействия.

Оценка воздействия на основе теории

Хотя знание эффективности жизненно важно, также важно понимать причины эффективности и обстоятельства, при которых результаты могут быть воспроизведены. В отличие от подходов к оценке воздействия «черного ящика», которые сообщают только о средних различиях в результатах между группами лечения и сравнения, теоретическая оценка воздействия включает в себя построение причинно-следственной цепочки от исходных данных до результатов и воздействия и проверку основных предположений. Большинство вмешательств в сфере государственной политики носят добровольный, а не принудительный (требуемый законом) характер. Кроме того, вмешательства часто бывают активными, а не пассивными, требуя большей, а не меньшей степени участия бенефициаров, и, следовательно, изменение поведения в качестве предварительного условия для эффективности. Таким образом, государственная политика будет успешной в той степени, в которой люди будут заинтересованы в том, чтобы изменить свое поведение в лучшую сторону. Теоретический подход позволяет лицам, определяющим политику, понять причины различных уровней участия в программе (называемых «соблюдение» или «приверженность») и процессы, определяющие изменение поведения. Теоретические подходы используют как количественный, так и качественный сбор данных, и последний может быть особенно полезен для понимания причин соблюдения и, следовательно, того, может ли вмешательство быть воспроизведено в других условиях и каким образом. Методы сбора качественных данных включают фокус-группы, глубинные интервью, совместную оценку сельских районов (PRA) и полевые поездки, а также чтение антропологической и политической литературы.

Уайт (2009b) выступает за более широкое применение теоретического подхода к оценке воздействия как средства повышения политической значимости оценок воздействия, выделяя шесть ключевых принципов теоретического подхода:

Схема причинно-следственная цепочка (теория программ), которая объясняет, каким образом вмешательство, как ожидается, приведет к намеченным результатам, и собирает данные для проверки основных предположений причинных связей.
Понимание контекста, включая социальный, политический и экономический настройки вмешательства.
Предвидеть неоднородность, чтобы помочь в выявлении подгрупп и корректировке размера выборки с учетом уровней дезагрегирования, которые будут использоваться в анализе.
Строгая оценка воздействия с использованием достоверный контрфактический материал (как обсуждалось выше).
Строгий фактический анализ звеньев причинно-следственной цепи.
Используйте смешанные методы (сочетание количественных и качественных методов).

Примеры

Пока экспериментальная оценка воздействия с 1980-х годов для оценки мероприятий в области питания, водоснабжения и санитарии в развивающихся странах использовались методологии, первым и наиболее известным применением экспериментальных методов в крупномасштабной программе развития является оценка условного денежного перевода (CCT) программа Progresa (теперь называется Oportunidades ) в Мексике, в рамках которой изучался ряд результатов в области развития, включая школьное обучение, уровни иммунизации и детский труд. С тех пор программы ОДТ были реализованы правительствами ряда стран Латинской Америки и других стран, а в отчете, опубликованном Всемирным банком в феврале 2009 г., анализируется влияние ОДТ в двадцати странах.

В последнее время была проведена оценка воздействия. применяется к ряду мероприятий в социальном и производственном секторах. 3ie запустила онлайн-базу данных оценок воздействия, охватывающую исследования, проведенные в странах с низким и средним уровнем доходов. Другие организации, публикующие оценки воздействия, включают Innovations for Poverty Action, DIME Initiative Всемирного банка и NONIE. НГЭ Всемирного банка систематически оценивал и обобщал опыт десяти оценок воздействия программ развития в различных секторах, проведенных за последние 20 лет.

Организации, продвигающие оценку воздействия мероприятий в области развития

В 2006 году Рабочая группа по пробелам в оценке выступила за существенный пробел в данных о мерах в области развития, и в частности, за создание независимого органа, чтобы восполнить пробел путем финансирования и пропаганды строгой оценки воздействия в страны с низким и средним уровнем доходов. Международная инициатива по оценке воздействия (3ie) была создана в ответ на этот отчет. 3ie стремится улучшить жизнь бедных людей в странах с низким и средним уровнем дохода, предоставляя и обобщая доказательства того, что работает, когда, почему и в какой степени. 3ie управляет программой грантов, финансирует исследования воздействия в странах с низким и средним уровнем доходов и синтетические обзоры существующих данных, обновляемые по мере появления новых данных, и поддерживает оценку воздействия на качество посредством своих услуг по обеспечению качества.

Другой инициативой, посвященной оценке воздействия, является Комитет по оценке устойчивости (COSA). COSA - это некоммерческий глобальный консорциум учреждений, поддерживаемый в партнерстве с Международным институтом устойчивого развития (IISD) Sustainable Commodity Initiative, Конференцией Организации Объединенных Наций по торговле и развитию (UNCTAD) и Международный торговый центр Организации Объединенных Наций (ITC). COSA разрабатывает и применяет независимый инструмент измерения для анализа различных социальных, экологических и экономических последствий сельскохозяйственной практики, в частности тех, которые связаны с реализацией конкретных программ устойчивого развития (Organic, Fairtrade и т. Д.). В центре внимания инициативы - установление глобальных показателей. а также инструменты измерения, которые фермеры, политики и промышленность могут использовать для понимания и повышения своей устойчивости с различными культурами или сельскохозяйственными секторами. COSA стремится облегчить это, позволяя им точно рассчитывать относительные затраты и выгоды от участия в любой конкретной инициативе в области устойчивого развития.

Для продвижения оценки воздействия на глобальном уровне был создан ряд дополнительных организаций, в том числе Innovations for Poverty Action, Фонд оценки стратегического воздействия Всемирного банка (SIEF), Инициатива Всемирного банка по оценке воздействия на развитие (DIME), Инициатива институционального обучения и изменений (ILAC) CGIAR и Сеть сетей по оценке воздействия (NONIE).

Систематические обзоры воздействия доказательства

Ряд организаций работают над координацией подготовки систематических обзоров. Систематические обзоры нацелены на устранение разрыва между исследованиями и политикой путем оценки ряда существующих данных по конкретной теме и представления информации в доступном формате. Как и строгие оценки воздействия, они разрабатываются на основе протокола исследования, который априори устанавливает критерии включения в исследование, поиска и методов синтеза. Систематические обзоры включают пять основных шагов: определение вмешательств, групп, результатов и дизайна исследований, которые необходимо включить; поиск для выявления опубликованной и неопубликованной литературы и применение критериев включения в исследование (касающихся вмешательств, популяций, результатов и дизайна исследования), как указано в протоколе исследования; кодирование информации из исследований; представление количественных оценок эффективности вмешательств с использованием лесных участков и, если вмешательства определены как достаточно однородные, расчет объединенной сводной оценки с использованием метаанализа; наконец, систематические обзоры следует периодически обновлять по мере появления новых данных. Систематические обзоры могут также включать синтез качественной информации, например, касающейся препятствий или факторов, способствующих эффективности вмешательства.

См. Также

Литература

^Группа Всемирного банка по оценке воздействия на бедность, по состоянию на 6 января 2008 г.
^Уайт, Х. (2006) Оценка воздействия: опыт группы независимой оценки Всемирного банка, Всемирный банк, Вашингтон, округ Колумбия, п. 3
^«Гертлер, Мартинес, Преманд, Ролингс и Вермерш (2011) Оценка воздействия на практике, Вашингтон, округ Колумбия: Всемирный банк». Архивировано из оригинала 17.07.2011. Проверено 15 декабря 2010 г.
^«Вход» (PDF). Проверено 16 января 2017 г.
^Муаз, Джалил Мохаммад (2013), Практическое руководство по проведению исследования. Обобщение передовой исследовательской практики в соответствии со стандартом DCED
^«Вход в систему» (PDF). Проверено 16 января 2017 г.
^ Уайт, Х. (2006) Оценка воздействия: опыт Независимой оценочной группы Всемирного банка, Всемирный банк, Вашингтон, округ Колумбия
^Раваллион, М. (2008) Оценка борьбы с бедностью Программы
^ Мартин, Равальон (1 января 2009 г.). «Должны ли рандомисты править?». 6(2): 1–5. Получено 16 января 2017 г. - через RePEc - IDEAS. Cite journal требует | journal =()
^ Бамбергер, М. и Уайт, Х. (2007) Использование строгих схем оценки в Развивающиеся страны: опыт и проблемы, Журнал междисциплинарной оценки, Том 4, номер 8, 58-73
^Скривен (2008) Суммативная оценка методологии РКИ: и альтернативный подход к исследованию причинных связей, Журнал мультидисциплинарной оценки, Том 5, Number 9, 11-24
^Дитон, Ангус (1 января 2009 г.). «Инструменты развития: рандомизация в тропиках и поиск неуловимых ключей к экономическому развитию». SSRN 1335715. Cite journal требует | journal =()
^Hariton, Eduardo; Locascio, Joseph J. (декабрь 2018 г.). «Рандомизированные контролируемые испытания - золотой стандарт исследования эффективности ». BJOG: международный журнал по акушерству и гинекологии. 125 (13): 1716. doi : 10.1111 / 1471- 0528.15199. ISSN 1470-0328. PMC 6235704. PMID 29916205.
^ Уайт, Ховард (03.08.2013). «Введение в использование рандомизированных контрольных испытаний для оценки мероприятий по развитию» Отметьте значение | url =(). Журнал эффективности развития. 5 : 30–49 - через Тейлора и Фрэнсиса. Проверьте значения дат в: | date =()
^ Дитон, Ангус; Картрайт, Нэнси ( 2016-11-09). «Ограничения рандомизированных контролируемых испытаний». VoxEU.org. Проверено 2020-10-26.
^ Роу, Брайан Э.; Джаст, Дэвид Р. (декабрь 2009 г.)). «Внутренняя и внешняя обоснованность экономических исследований: компромисс между экспериментами, полевыми экспериментами, естественными экспериментами и полевыми данными». Американский журнал экономики сельского хозяйства. 91 (5): 1266 –1271. doi : 10.1111 / j.1467-8276.2009.01295.x. ISSN 0002-9092.
^ Уайт, Ховард; Райцер, Дэвид (2017). Оценка воздействия вмешательств в целях развития: Практическое руководство (PDF). Манила: Азиатский банк развития. ISBN 978-92-9261-059-3.
^Руг, Джим (22 июня 2012 г.). «Молоток в поисках гвоздей». Развитие и сотрудничество D + C. 2012 (7): 300.
^Блум, Х. (2006) Основная аналитика рандомизированных экспериментов для социальных исследований. рч. Рабочие документы MDRC по методологии исследования. MDRC, Нью-Йорк
^«Уайт, Х. (2009) Некоторые размышления о текущих дебатах по оценке воздействия, Рабочий документ 1, Международная инициатива по оценке воздействия, Нью-Дели». Архивировано с оригинального от 08.01.2013. Проверено 29.10.2012.
^«Войти» (PDF). Проверено 16 января 2017 г.
^Инициатива Всемирного банка (nd) по оценке воздействия на развитие (DIME), Проектный документ, Всемирный банк, Вашингтон, округ Колумбия
^Глоссарий оценки программы Агентства по охране окружающей среды США, доступ осуществлен 6 января, 2008
^Группа независимой оценки Всемирного банка, по состоянию на 6 января 2008 г.
^OECD-DAC (2002) Глоссарий ключевых терминов в оценке и управлении, ориентированном на результаты, Предлагаемая согласованная терминология, ОЭСР, Париж
^ЮНИСЕФ (2004) Стандарты отчетов об оценке ЮНИСЕФ, Управление оценки, ЮНИСЕФ, NYHQ, Нью-Йорк
^«Определение оценки: что такое оценка? - EvaluationWiki». Проверено 16 января 2017 г.
^ «Страница не найдена». Проверено 16 января 2017 г. Cite использует общий заголовок ()
^"Banerjee, AV (2007)" Making Aid Work "Cambridge, Boston Review Book, MIT Press, MA" (PDF). Проверено 16 января 2017 г.
^Бамбергер, М. и Уайт, Х. (2007) Использование надежных схем оценки в развивающихся странах: опыт и проблемы, Журнал многодисциплинарной оценки, Том 4, номер 8, 58-73
^http : //www.europeanevaluation.org/download/? noGzip = 1 id = 1969403 Заявление EES о важности методологически разнообразного подхода к оценке воздействия
^http://www.odi.org.uk/resources/ odi-публикации / мнения / 127-impact-rating.pdf «Золотой стандарт» - не серебряная пуля для оценки
^«Эффективность помощи: роль качественных исследований в оценке воздействия».
^Prowse, Martin ; Camfield, Laura (2013). «Повышение качества помощи в целях развития». Progress in Development Studies. 13 : 51–61. doi : 10.1177 / 146499341201300104.
^ "Уайт, Х. (2009b) оценка воздействия на основе теории: принципы и практика, Рабочий документ 3, Международная инициатива по оценке воздействия, Нью-Дели ". Архивировано с оригинального 06.11.2012. Проверено 29 октября 2012 г.
^Гертлер П. (2000) Заключительный отчет: Влияние PROGRESA на здоровье. Международный исследовательский институт продовольственной политики, Вашингтон, округ Колумбия
^«Документ без названия» (PDF). Проверено 16 января 2017 г.
^Фисбейн А. и Шади Н. (2009) Условные денежные переводы: сокращение нынешней и будущей бедности: Отчет об исследовании политики Всемирного банка, Всемирный банк, Вашингтон, округ Колумбия
^Оценка воздействия: Опыт Группы независимой оценки Всемирного банка, 2006 г.
^«Когда мы когда-нибудь узнаем? Улучшение жизни посредством оценки воздействия». Проверено 16 января 2017 г.

Источники и внешние ссылки

Гертлер, Мартинес, Преманд, Ролингс и Вермерш (2011) Оценка воздействия на практике, Вашингтон, округ Колумбия: Всемирный банк
Группа Всемирного банка по бедности Группа Всемирного банка по бедности
Группа независимой оценки Всемирного банка или в Википедии Группа независимой оценки
Бейкер, Джуди. 2000. Оценка воздействия проектов развития на бедность: руководство для практиков. Направления развития, Всемирный банк, Вашингтон, округ Колумбия
Международная инициатива по оценке воздействия
Инновации для борьбы с бедностью
Комитет по оценке устойчивости (COSA)
Международный институт устойчивого развития (IISD)
Международный торговый центр ООН (ITC)