В статистике и эконометрике, панельных данных и продольных данных являются многомерные данные, включающие измерения с течением времени. Панельные данные - это подмножество продольных данных, в которых каждый раз наблюдаются одни и те же субъекты.
Временные ряды и данные поперечного сечения можно рассматривать как особые случаи панельных данных, которые находятся только в одном измерении (один член панели или отдельное лицо для первого, одна временная точка для последнего).
Исследование, в котором используются панельные данные, называется лонгитюдным исследованием или панельным исследованием.
человек | год | доход | возраст | секс |
---|---|---|---|---|
1 | 2016 г. | 1300 | 27 | 1 |
1 | 2017 г. | 1600 | 28 год | 1 |
1 | 2018 г. | 2000 г. | 29 | 1 |
2 | 2016 г. | 2000 г. | 38 | 2 |
2 | 2017 г. | 2300 | 39 | 2 |
2 | 2018 г. | 2400 | 40 | 2 |
человек | год | доход | возраст | секс |
---|---|---|---|---|
1 | 2016 г. | 1600 | 23 | 1 |
1 | 2017 г. | 1500 | 24 | 1 |
2 | 2016 г. | 1900 г. | 41 год | 2 |
2 | 2017 г. | 2000 г. | 42 | 2 |
2 | 2018 г. | 2100 | 43 год | 2 |
3 | 2017 г. | 3300 | 34 | 1 |
В приведенном выше примере процедуры перестановки множественных ответов ( MRPP) показаны два набора данных с панельной структурой, и цель состоит в том, чтобы проверить, есть ли значительная разница между людьми в выборке данных. Индивидуальные характеристики (доход, возраст, пол) собираются для разных людей и разных лет. В первом наборе данных два человека (1, 2) наблюдаются каждый год в течение трех лет (2016, 2017, 2018). Во втором наборе данных три человека (1, 2, 3) наблюдаются два раза (человек 1), три раза (человек 2) и один раз (человек 3), соответственно, в течение трех лет (2016, 2017, 2018). ; в частности, лицо 1 не наблюдается в 2018 году, а лицо 3 не наблюдается в 2016 или 2018 году.
Сбалансированная панель (например, первый набор данных выше) представляет собой набор данных, в котором каждый наблюдается член группы (т.е. человек) каждый год. Следовательно, если сбалансированная панель содержит N членов панели и Т периоды, число наблюдений ( п) в наборе данных обязательно п = N × T.
Несбалансированная панель (например, второй набор данные выше) представляет собой набор данных, в котором по меньшей мере один член группы не наблюдается каждый период. Поэтому, если несбалансированная панель содержит N членов панели и Т периоды, то следующее строгое неравенство имеет место для числа наблюдений ( п) в наборе данных: п lt; N × T.
Оба набора данных выше структурированы в длинном формате, в котором одна строка содержит одно наблюдение за раз. Другой способ структурировать данные панели - это широкий формат, в котором одна строка представляет одну единицу наблюдения для всех моментов времени (например, широкий формат будет иметь только две (первый пример) или три (второй пример) строки данных с дополнительными столбцы для каждой переменной, изменяющейся во времени (доход, возраст).
Панно имеет вид
где - индивидуальное измерение, а - измерение времени. Общая регрессионная модель панельных данных записывается как Различные предположения могут быть сделаны относительно точной структуры этой общей модели. Два важная моделью является фиксированной моделью эффектов и модель случайных эффектов.
Рассмотрим типичную модель панельных данных:
являются индивидуальными, не зависящими от времени эффектами (например, в группе стран это может включать географию, климат и т. д.), которые фиксируются во времени., тогда как это изменяющийся во времени случайный компонент.
Если не наблюдается и коррелирует хотя бы с одной из независимых переменных, то это вызовет смещение пропущенной переменной в стандартной регрессии OLS. Однако методы панельных данных, такие как оценщик фиксированных эффектов или, альтернативно, оценщик первой разности могут использоваться для управления им.
Если не коррелирует ни с одной из независимых переменных, можно использовать обычные методы линейной регрессии наименьших квадратов для получения несмещенных и согласованных оценок параметров регрессии. Однако, поскольку фиксируется с течением времени, это вызовет последовательную корреляцию в члене ошибки регрессии. Это означает, что доступны более эффективные методы оценки. Случайные эффекты - один из таких методов: это частный случай возможных обобщенных наименьших квадратов, который контролирует структуру последовательной корреляции, вызванной.
Данные динамической панели описывают случай, когда в качестве регрессора используется запаздывание зависимой переменной:
Наличие запаздывающей зависимой переменной нарушает строгую экзогенность, то есть может иметь место эндогенность. Оценка фиксированного эффекта и первая оценка разностей основаны на предположении о строгой экзогенности. Следовательно, если предполагается, что она коррелирует с одной из независимых переменных, необходимо использовать альтернативный метод оценки. В этой ситуации обычно используются инструментальные переменные или методы GMM, такие как оценка Ареллано – Бонда.