Кластерный анализ
Согласно одной из гипотез данной работы, факторы, влияющие на образовательную миграцию, могут различаться в зависимости от расстояния, на которое мигрировал выпускник, и типа населённых пунктов, где жил респондент и где будет жить после поступления.
На основе расстояния между населёнными пунктами (переменная distance) и их типами (переменные reg1_tnp и reg2_tnp) разделим наблюдения на кластеры. используя алгоритм иерархической кластеризации (метод агломерации полной связи). Так как для кластеризации мы использовали и количественную, и категориальные переменные, в качестве меры сходства был использован коэффициент сходства Гоуэра (Gowers similarity coefficient).
Как можно видеть из таблицы 1, было выделено 3 кластера. В первый кластер вошли респонденты, которые вообще не переезжали из родного города, либо переезжали на небольшие расстояния (до 2,5 тысяч километров). Переезжала эта группа респондентов из посёлков и городов, но не из сёл и деревень.
Во вторую группу вошли респонденты, проехавшие среднее расстояние (в среднем около 700 километров) и переехавших из сёл, деревень и посёлков.
В третью группу вошли перемещения на максимальные расстояния, причем исключительно из города в город.
Таблица 2: описательная статистика по кластерам. Источник: расчёты автора.
Регрессионный анализ
Для проверки гипотез была оценена следующая модель:
социоэкономический образовательный миграция
Вероятность{migrationi=1} =?0+ ?1 gender + ?2 religion i+ ?3 marriage i+ ?4 children i + ?5 income i + ?6 EGEav i + ?7 health i + ui
В качестве зависимой переменной выступила миграция, принимающая значение 1, если респондент одновременно с поступлением в ВУЗ сменил место жительства, и значение 0,если этого не произошло. В качестве независимых переменных выступили религия (religion), семейное положение (marriage), наличие детей (children), доход (income), пол (gender), сумма баллов ЕГЭ, делёная на количество экзаменов, которые сдавал респондент (EGEav), субъективная оценка состояния здоровья (health), желание мигрировать (planned_migration). Оценим модель для всех респондентов и отдельно для поступивших на платные и на бюджетные места.
Таблица 3: оценка модели логистической регрессии. Источник: расчеты автора.
(1)(2)(3)VARIABLESМодель для всехМодель для поступивших на бюджетные местаМодель для поступивших на платные местаplanned_migration3.514***36.79***38.52***(0.278)(12.37)(20.24)2.marriage0.682**2.800**0.886(0.345)(1.169)(0.619)2.children1.429**17.23***0.306(0.622)(18.58)(0.413)2.income-0.1061.0610.457(0.232)(0.282)(0.241)3.income-0.2521.0160.350*(0.246)(0.293)(0.188)2.gender0.01511.0770.859(0.179)(0.232)(0.308)EGEav0.0125*1.016**1.008(0.00683)(0.00824)(0.0163)2.religion0.2131.4220.923(0.189)(0.319)(0.350)3.religion-0.07371.5720.380(0.415)(0.845)(0.275)2.health-0.2710.8230.648(0.294)(0.296)(0.361)3.health-0.3400.8030.523(0.300)(0.296)(0.292)4.health-0.958**0.4570.357(0.439)(0.245)(0.320)Constant-5.257***0.000431***0.581(0.900)(0.000596)(1.016)Observations822598223
Standard errors in parentheses
*** p<0.01, ** p<0.05, * p<0.1
Так как зависимая переменная категориальная были оценены модели логит и пробит регрессий. Обе модели правильно классифицировали 76,52% наблюдений для общей всей выборки; 77,93% наблюдений для подвыборки поступивших на бюджетную форму; 77,13% наблюдений для подвыборки поступивших на коммерческую форму обучения. На основе критериев Акаике и Байеса-Шварца была выбрана модель логистической регрессии.
Проведём аналог теста Чоу (тест отношения правдоподобия) для проверки гипотезы о том, что общая модель одинаково хорошо описывает респондентов, поступивших как на платную, так и на бюджетную формы обучения. Данная гипотеза отвергается на любом разумном уровне значимости. Следовательно, необходимо отдельно оценивать модель на подвыборках.
В ходе диагностики модели гетероскедастичности и мультиколлинеарности выявлено не было.
Перейдём к описанию результатов оценки моделей. Желание мигрировать оказалось значимым при любом разумном уровне значимости во всех моделях. На миграцию желание мигрировать, как и ожидалось, влияет положительно. На подвыборке поступивших на места, финансируемые из бюджета, значимое положительное влияние на вероятность мигрировать также оказало отсутствие детей, холостое или незамужнее семейное положение, высокие баллы по ЕГЭ. Значимое отрицательное влияние на вероятность мигрировать оказало плохое здоровье. На подвыборке поступивших на места с оплатой обучения кроме желания мигрировать значимым положительно влияющим фактором оказался высокий доход. Пол и религия оказались незначимыми факторами для всех респондентов.
Так как переопределённость модели нарушает предпосылку теоремы Гаусса-Маркова и ведет к тому, что полученные оценки нельзя считать несмещенными и эффективными, уберем из модели незначимые факторы.
Таблица 4: оценка модели логистической регрессии после устранения переопределённости. Источник: расчёты автора.
- (1)(2)(3)VARIABLESМодель для всехМодель для поступивших на бюджетные местаМодель для поступивших на платные местаplanned_migration3.201***27.05***30.30***(0.242)(7.790)(15.20)2.marriage0.5192.574**0.694(0.319)(0.997)(0.426)2.children0.940*8.551***0.153*(0.542)(6.826)(0.174)2.income-0.2180.9800.357**(0.204)(0.230)(0.165)3.income-0.3310.9510.307**(0.216)(0.242)(0.143)EGEav0.0129**1.017**1.004(0.00572)(0.00680)(0.0133)Constant-4.455***0.00132***1.432(0.724)(0.00134)(1.831)Observations986715270Standard errors in parentheses
- *** p<0.01, ** p<0.05, * p<0.1
После устранения переопределённости модели на подвыборке поступивших на места с оплатой обучения средний доход, как и высокий, оказался значимым положительным фактором, влияющим на вероятность миграции, по сравнению с низким доходом.
Взяв теперь в качестве зависимой переменной вероятность попадания наблюдения в один из кластеров, оценим модель ещё раз. Для этой задачи была выбрана модель множественной логистической регрессии, которая оценивалась отдельно на подвыборках поступивших на на бюджетная и коммерческие места. Переменная желания мигрировать была исключена из анализа из-за проблем с оценкой модели. В качестве базового исхода был взят первый кластер, в который вошли не мигрировавшие респонденты и мигрировавшие на короткие расстояния. Как видно из таблицы 5, на вероятность попадания в разные кластеры значимо влияют разные факторы с разной силой, что согласуется с первоначально выдвинутой гипотезой. Нам не удалось выявить факторы, связанные с большими перемещениями из города в город. На вероятность попадания респондента во второй кластер (перемещения на среднюю дистанцию) значимо отрицательно влияет высокий доход, если респондент поступил на бюджетное место и значимо положительно влияют высокий доход и женский пол, если респондент поступил на коммерческое место. Эти результаты могут быть в каких-то нюансах случайными, так как количество наблюдений в каждой из четырёх подвыборок было недостаточно большим.
Таблица 5: результаты оценки множественной логистической регрессии. Источник: расчёты автора.
(2)(3)(5)(6)VARIABLESФакторы, влияющие на вероятность попадания во второй кластер для поступивших на бюджетные местаФакторы, влияющие на вероятность попадания в третий кластер для поступивших на бюджетные местаФакторы, влияющие на вероятность попадания во второй кластер для поступивших на коммерческие местаФакторы, влияющие на вероятность попадания в третий кластер для поступивших на коммерческие места2.religion0.557-0.09636.489**0.209*(0.342)(0.636)(5.728)(0.186)3.religion0.734-13.2613.05**1.33e-07(0.635)(1,274)(16.16)(0.000418)2.marriage0.266-0.05170.6760.243(0.634)(1.087)(0.806)(0.254)children13.8114.166.871e+066.869e+06(940.2)(2,046)(1.686e+10)(2.838e+10)2.income-0.520*14.260.145**955,411(0.309)(654.7)(0.109)(1.103e+09)3.income-1.110***13.630.160**3.044e+06(0.396)(654.7)(0.126)(3.515e+09)gender-0.09811.0380.0910***3.955(0.282)(0.698)(0.0667)(4.541)EGEav-0.0200**-0.005201.0321.013(0.00983)(0.0235)(0.0244)(0.0412)Constant-28.39-47.0900(1,880)(4,144)(0)(0)Observations597597225225
Далее чтобы проверить гипотезу о различиях во влиянии факторов на внутрирегиональную и межрегиональную миграцию была оценена первоначальная модель после устранения переопределённости отдельно для внутрирегиональной и межрегиональной миграции в качестве зависимых переменных. Из результатов здесь стоит отметить высокую значимость положительного влияния баллов ЕГЭ на межрегиональную образовательную миграцию на подвыборке поступивших на бюджетные места.
Таблица 6: результаты оценки логистической регрессии отдельно для внутрирегиональной и межрегиональной миграции. Источник: расчёты автора.
(1)(2)(3)(4)VARIABLESФакторы, влияющие на внутрирегиональную миграцию для поступивших на бюджетные местаФакторы, влияющие на внутрирегиональную миграцию для поступивших на коммерческие местаФакторы, влияющие на межрегиональную миграцию для поступивших на бюджетные местаФакторы, влияющие на межрегиональную миграцию для поступивших на коммерческие места местаplanned_migration3.756***34.29***9.486***11.47***(0.718)(35.12)(2.910)(6.260)2.marriage0.3414.3272.352*0.368*(0.453)(4.696)(1.116)(0.212)2.income20.04210.361**0.9041.121(0.242)(0.157)(0.214)(0.484)3.income2-0.3260.254***1.2201.196(0.273)(0.117)(0.308)(0.522)EGEav-0.0208***1.0001.043***1.000(0.00693)(0.0142)(0.00848)(0.0130)2.children1.3197.047*0.135*(1.069)(7.535)(0.139)Constant-4.775***0.00736***0.000226***0.773(1.379)(0.0123)(0.000294)(0.912)Observations715263715270