Основные последствия мультиколлинеарности. Причины и последствия мультиколлинеарности

  • 2.3 Самостоятельная работа обучающегося под руководством преподавателя (сроп)
  • 2.4Самостоятельная работа студента (срс)
  • 3. Расписание модульно-рейтинговой проверки знаний обучающихся (график выполнения и сдачи заданий по дисциплине)
  • 3. Карта учебно-методической обеспеченности дисциплины
  • 3.1. Список литературы
  • 3.2 Методическое обеспечение дисциплины
  • 3.3 Перечень специализированных средств
  • 4. Методические рекомендации по дисциплин
  • 5. Лекционный комплекс.
  • Тема 1. «Сведения из теории вероятностей и математической статистики».
  • Вопрос 1. Введение в эконометрику.
  • Вопрос 3. Выборка и генеральная совокупность.
  • Вопрос 4. Проверка (тестирование) статистических гипотез.
  • Вопрос 5. Точечные и интервальные оценки параметров.
  • Тема 2. Метод наименьших квадратов
  • Вопрос 1. Функция регрессии и основные задачи статистического анализа парной регрессии. Причины включения случайного члена в уравнение регрессии.
  • Лз 3. Метод наименьших квадратов
  • Лз 4 Метод наименьших квадратов.
  • Вопрос 2. Метод наименьших квадратов.
  • Тема 3. Модель множественной линейной регрессии
  • Вопрос 1. Множественная линейная регрессия.
  • Вопрос 2. Матричная форма записи модели множественной регрессии.
  • Тема 4. Классическая модель множественной линейной регрессии.
  • Вопрос 1. Классическая модель множественной регрессии.
  • Вопрос 2. Проверка статистической значимости коэффициентов линейной регрессии. T-статистика Стьюдента.
  • Лз 7. Классическая модель множественной линейной регрессии.
  • Тема 5. Коэффициент детерминации.
  • Вопрос 1. Коэффициент детерминации.
  • Вопрос 2. Проверка общего качества уравнения регрессии.
  • Вопрос 3. Проверка значимости коэффициента детерминации.
  • Тема 6. Спецификация переменных. Частная корреляция.
  • Вопрос 1. Спецификация переменных.
  • Вопрос 2. Последствия невключения в модель существенных переменных.
  • Вопрос 3. Включение в модель несущественных переменных.
  • Вопрос 4. Частная корреляция в модели множественной линейной регрессии.
  • Тема 7. Нелинейные эконометрические модели.
  • Вопрос 1. Нелинейные модели регрессии. Нелинейность по переменным и нелинейность по параметрам. Логарифмирование.
  • Вопрос 2. Эластичность и ее моделирование.
  • Тема 8. Мультиколлинеарность.
  • Вопрос 1. Явление мультиколлинеарности.
  • Определение наличия мультиколлинеарности.
  • Вопрос 2. Последствия мультиколлинеарности для оценок коэффициентов регрессии.
  • Вопрос 3. Методы устранения мультиколлинеарности
  • Вопрос 4. Фиктивные переменные.
  • Тема 9. Гетероскедастичность.
  • Вопрос 1. Сущность и причины возникновения гетероскедастичности.
  • Вопрос 2. Способы корректировки гетероскедастичности.
  • Тема 10. Динамический ряд.
  • Вопрос 1. Общие сведения о временных рядах и задачах их анализа.
  • Лз 14. Динамический ряд.
  • Вопрос 2. Автокорреляция.
  • Вопрос 3. Прогнозирование на основе моделей временных рядов.
  • Другую группу методов представляют методы статистического модели­рования, наиболее распространенными из которых являются статические и динамические.
  • Лз 15 Динамический ряд.
  • Вопрос 3. Прогнозирование на основе моделей временных рядов.
  • Вопрос 4. Система одновременных уравнений.
  • 6. План лабораторных занятий
  • 7. Материалы для срс срс №1 Основные аспекты эконометрического моделирования
  • Срс №2 Парный регрессионный анализ
  • Срс № 3 Множественный регрессионный анализ
  • Условие задачи
  • Алгоритм решения задания
  • Срс №4 Временные ряды и прогнозирование.
  • Срс №5 Регрессионные динамические модели.
  • 3) Произвести теоретическое описание модели с распределенным лагом.
  • Срс № 6
  • Срс № 7 Системы одновременных уравнений.
  • 8. Материалы по контролю и оценке учебных достижений обучающихся Вопросы для подготовки к экзамену по дисциплине
  • Определение наличия мультиколлинеарности.

    Существует несколько признаков, по которым может быть установлено наличие мультиколлинеарности.

    1. Совокупный коэффициент множественной детерминации (R 2 ) достаточно вы­сок, но некоторые из коэффициентов регрессии статистически незначимы, то есть они имеют низ­киеt -статистики .

    2. Парная корреляция между малозначимыми объясняющими переменными достаточно высока (в случае двух объясняющих переменных).

    3. Высокие частные коэффициенты корреляции (в случае большего количества малозначимых объясняющих переменных).

    Вопрос 2. Последствия мультиколлинеарности для оценок коэффициентов регрессии.

    1. Большие дисперсии оце­нок (стандартные ошибки). Это затрудняет нахождение истинных зна­чений определяемых величин и расширяет ин­тервальные оценки, ухудшая их точность.

    2. Уменьшаются t -статистики коэффициентов, что может привести к неоправданному выводу о су­щественности влияния соответствующей объяс­няющей переменной на зависимую.

    3. Оценки коэффициентов по МНК и их стандарт­ные ошибки становятся очень чувствительными к малейшим изменениям данных, то есть они ста­новятся неустойчивыми.

    4. Затрудняется определение вклада каждой из объясняющих переменных в объясняемую урав­нением регрессии дисперсию зависимой перемен­ной.

    5. Возможно получение неверного знака у коэффи­циента регрессии.

    Вопрос 3. Методы устранения мультиколлинеарности

    Рассмотрим ос­новные методы.

    1. Исключение переменной(ых) из модели. Простейшим методом устранения мультиколлинеарности является ис­ключение из модели одной или ряда коррелированных переменных.

    Однако в этой ситуации возможны ошибки специфика­ции. Например, при исследовании спроса на некоторое благо в качестве объясняющих переменных можно исполь­зовать цену данного блага и цены заменителей данного блага, которые зачастую коррелируют друг с другом.

    Исключив из модели цены заменителей, скорее всего, будет допущена ошибка спецификации. Вследствие это­го можно получить смещенные оценки и сделать необос­нованные выводы. Поэтому в прикладных эконометрических моделях желательно не исключать объясняющие переменные до тех пор, пока коллинеарность не станет серьезной проблемой.

    2. Получение дополнительных данных или новой вы­борки. Поскольку мультиколлинеарность напрямую за­висит от выборки, то, возможно, при другой выборке мультиколлинеарности не будет, либо она не будет столь серьезной.

    Иногда для уменьшения мультиколлинеарности дос­таточно увеличить объем выборки. Увеличение количе­ства данных сокращает дисперсии коэффициентов рег­рессии и, тем самым, увеличивает их статистическую зна­чимость.

    Однако получение новой выборки или расширение ста­рой не всегда возможно или связано с серьезными издер­жками.

    3. Изменение спецификации модели. В ряде случаев про­блема мультиколлинеарности может быть решена путем изменения спецификации модели: либо изменяется фор­ма модели, либо добавляются объясняющие переменные, не учтенные в первоначальной модели, но существенно влияющие на зависимую переменную.

    Если данный метод имеет основания, то его использо­вание уменьшает сумму квадратов отклонений, тем самым, сокращая стандартную ошибку регрессии. Это приводит к уменьшению стандартных ошибок коэффициентов.

    4. Использование предварительной информации о некото­рых параметрах. Иногда при построении модели множе­ственной регрессии можно воспользоваться предваритель­ной информацией, в частности известными значениями некоторых коэффициентов регрессии. Вполне вероятно, что значения коэффициентов, рассчитанные для каких-либо предварительных (обычно более простых) моделей либо для аналогичной модели по ранее полученной выборке, могут быть использованы для разрабатываемой в данный момент модели.

    Ограниченность использования данного метода обус­ловлена тем, что, во-первых, получение предварительной информации зачастую затруднительно, а, во-вторых, ве­роятность того, что выделенный коэффициент регрессии будет одним и тем же для различных моделей, невысока.

    Преобразование переменных. В ряде случаев миними­зировать либо вообще устранить проблему мультиколли­неарности можно с помощью преобразования переменных.

    Например, пусть эмпирическое уравнение регрессии имеет следующий вид:

    При этом х 1 и х 2 – это коррелированные переменные.

    В этой ситуации можно попытаться определять следующие рег­рессионные зависимости относительных величин:

    (2)

    (3)

    Вполне вероятно, что в этих моделях проблема муль­тиколлинеарности будет отсутствовать. Возможны и дру­гие преобразования, близкие по своей сути к опи­санным выше. Например, если в уравнении рассматриваются взаимосвязи номинальных экономических показателей, то для снижения мультиколлинеарности можно попытать­ся перейти к реальным показателям и т.п.

    Внешним признаком наличия мультиколлинеарности служат слишком большие значения элементов матрицы (Х Т Х)~ 1 . Подробнее определение матрицы (Х Т Х) Х и ее использование см. в гл. 4, параграф 4.2.

    Основной признак мультиколлинеарности: определитель корреляционной матрицы R x x . близок к нулю. Если все объясняющие переменные некорре- лированы между собой, то R XjX . | = 1, в противном случае 0 R x . x . |

    Существует несколько признаков, по которым может быть установлено наличие мультиколлинеарности.

    • 1. Коэффициент детерминации К 2 достаточно высок, высокая f-ста- тистика, но некоторые (иногда все) из коэффициентов уравнения множественной линейной регрессии статистически незначимы (имеют низкие 7-статистики).
    • 2. Высокие парные коэффициенты корреляции и высокие частные коэффициенты корреляции.

    Определение 7.1. Частным коэффициентом корреляции называется коэффициент корреляции между двумя объясняющими переменными, «очищенный» от влияния других переменных.

    Например, при трех объясняющих переменных Х 1у Х 2 , Х 3 частный коэффициент корреляции между Х { и Х 3 , «очищенный» отХ 2 , рассчитывается по формуле

    Замечание 7.2. Частный коэффициент корреляции может существенно отличаться от «обычного» (парного) коэффициента корреляции. Для более обоснованного вывода о корреляции между парами объясняющих переменных необходимо рассчитывать все частные коэффициенты корреляции.

    Общее выражение для определения коэффициента частной корреляции

    где Cjj - элементы матрицы С = R~ x - матрицы, обратной к матрице межфакторной парной корреляции R VjX . (7.1).

    • 3. Сильная регрессия между объясняющими переменными. Какая-либо из объясняющих переменных является комбинацией других объясняющих переменных (линейной или близкой к линейной).
    • 4. Знаки коэффициентов регрессии противоположны ожидаемым из экономических предпосылок.
    • 5. Добавление или удаление наблюдений из выборки сильно изменяет значения оценок.

    Рассмотрим несколько примеров, иллюстрирующих вышесказанное.

    Пример 7.4

    На объем выпуска продукции у оказывают влияние следующие основные факторы: х х - количество сотрудников, работающих па предприятии; х 2 - стоимость основных фондов; х 3 - средняя заработная плата сотрудников. Уравнение линейной множественной регрессии имеет вид у = b 0 + b { x x + b 2 x 2 + b 3 x 3 .

    Матрица коэффициентов парной корреляции для данной модели

    Определитель матрицы |Д | = 0,302. В этой модели факторы и х 2 , а также х { и х 3 связаны слабо, напротив, факторы х 2 и х 3 связаны сильно: г^ з =0,8. Возможно, сильная связь между факторами х 2 и х л объясняется тем, что на дорогом оборудовании работают высококвалифицированные рабочие, имеющие более высокую заработную плату.

    Парные коэффициенты корреляции результирующей переменной с факторами оказались равными: т уГ| =0,7; г ух.^ =0,8; г ухз =0,75. Полная матрица парных коэффициентов корреляции имеет вид

    Все факторы оказывают заметное влияние на результат. Так как в модель регрессии должны быть включены факторы, тесно связанные с результатом и слабо связанные друг с другом, то в данном примере подходят одновременно две модели регрессии: у, = f(x v х 2)и у 2 = f(x v x 3).

    Пример 7.5

    Выясним наличие мультиколлинеарности для выборочных данных, приведенных в табл. 7.2.

    Исходные данные для примера 7.2

    Таблица 7.2

    X,

    Решение. Парные коэффициенты корреляции, рассчитанные по формуле (7.2), приведены в табл. 7.3.

    Таблица 73

    Парные коэффициенты корреляции

    Из данных, приведенных в таблице, ясно, что есть сильная корреляция между переменными.Г[ и х 2 . Коэффициенты парной корреляции можно также определить, используя средство «Пакет анализа» Microsoft Excel (инструмент «Корреляция»),

    Проверим корреляцию между объясняемой и объясняющими переменными, для этого воспользуемся инструментом «Корреляция» Microsoft Excel (можно рассчитать коэффициенты корреляции г Х1/ , используя формулу (7.2)). Результаты представлены на рис. 7.1.


    Рис. 7.1. Результаты расчета корреляции между объясняемой и объясняющими переменными в Microsoft Excel

    Рассчитаем частные коэффициенты корреляции но формуле (7.4), так как в этом примере всего три объясняющие переменные (можно найти частные коэффициенты корреляции и по формуле (7.5), предварительно найдя обратную матрицу С= R {):

    Наибольшим оказался частный коэффициент корреляции между переменными х х их 2 . Частный коэффициент корреляции г ХхХ ^ Х2 самый меньший и противоположный но знаку парному коэффициенту г х х.

    Ответ. В модели присутствует сильная корреляция между переменными х х и х 2 .

    Мультиколлинеарность – это коррелированность двух или нескольких переменных в уравнении регрессии. При наличии мультиколлинеарности МНК-оценки формально существуют, но обладают рядом недостатков:

    1) небольшое изменение исходных данных приводит к существенному изменению оценок регрессии;

    2) оценки имеют большие стандартные ошибки, малую значимость, в то время как модель в целом является значимой (индекс детерминации имеет высокое значение).

    Главной причиной возникновения мультиколлинеарности является наличие в изучаемом объекте процессов, которые одновременно влияют на некоторые входные переменные, но не учтены в модели. Это может быть результатом некачественного исследования предметной области или сложности взаимосвязей параметров изучаемого объекта.

    Различают два вида мультиколлинеарности: полную и частичную.

    Например, если в модели объясняющие переменные связаны линейным соотношением , то исходное уравнение сводится к уравнению простой линейной зависимости .

    Последнее уравнение не позволяет разделить вклады и в объяснение поведения переменной .

    Полная (совершенная) мультиколлинеарность имеет место, когда между переменными имеется линейная функциональная связь.

    Частичная (несовершенная) коллинеарность возникает в случае достаточно тесных линейных статистических связей между объясняющими переменными.

    Несовершенная мультиколлинеарность факторов характеризуется величиной коэффициента корреляции между ними. Чем больше значение коэффициента корреляции, тем труднее разделить влияние объясняющих переменных и тем менее надежными будут оценки коэффициентов регрессии при этих переменных. Поэтому, если при оценке уравнения регрессии несколько объясняющих переменных оказались незначимыми, то нужно выяснить, нет ли среди них сильно коррелированных между собой. Для этого рассчитывается корреляционная матрица (это предусмотрено стандартными статистическими пакетами), и проверяется статистическая значимость коэффициентов парной корреляции. При наличии сильной корреляции (коэффициент корреляции по абсолютной величине больше 0,7) один из пары связанных между собой факторов исключается или в качестве объясняющей переменной берется какая-то их функция. Если незначимой оказалась только одна переменная, то ее можно исключить или заменить другой.

    Для оценки наличия мультиколлинеарности может быть использован определитель матрицы межфакторной корреляции, а значимость мультиколлинеарности факторов может быть оценена с помощью статистики .

    В ряде случаев мультиколлинеарность не является таким уж серьезным злом, чтобы ее выявлять и устранять. Все зависит от целей исследования. Если основная задача моделирования – только прогнозирование значений зависимой переменной, то при достаточно большом коэффициенте детерминации () присутствие мультиколлинеарности не сказывается на прогнозных качествах модели. Если же целью моделирования является и определение вклада каждого фактора в изменение зависимой переменной, то наличие мультиколлинеарности является серьезной проблемой.


    Простейшим методом устранения мультиколлинеарности является исключение из модели одной или ряда коррелированных переменных.

    Поскольку мультиколлинеарность напрямую зависит от выборки, то, возможно, при другой выборке мультиколлинеарности не будет вообще либо она не будет столь серьезной. Поэтому для уменьшения мультиколлинеарности в ряде случаев достаточно увеличить объем выборки.

    В ряде случаев проблема мультиколлинеарности может быть решена путем изменения спецификации модели: либо изменяется форма модели, либо добавляются факторы, не учтенные в первоначальной модели, но существенно влияющие на зависимую переменную.

    Литература:

    1. Елисеева И.И. Эконометрика: учебник. М.: Финансы и статистика, 2008.

    2. Бородич С.А. Эконометрика: учебное пособие. Мн.: Новое знание, 2001.

    3. Кремер Н.Ш. Эконометрика: учебник для студентов вузов. М.: ЮНИТИ-ДАНА, 2008.

    Мультиколлинеарность означает, что в множественной регрессионной модели две или большее число независимых переменных (факторов) связаны между собой тесной линейной зависимостью или, другими словами, имеют высокую степень корреляции ().

    Последствия мультиколлинеарности:

    1. Первым практическим последствием мультиколлинеарности является большая дисперсия и ковариация оценок параметров, вычисленных методом наименьших квадратов.

    2. Вторым практическим последствием мультиколлинеарности является увеличение доверительных интервалов теоретических коэффициентов уравнения линейной регрессии.

    3. Уменьшается статистика коэффициентов, поэтому возможен вывод о статистической незначимости коэффициента.

    4. Коэффициенты уравнения регрессии становятся очень чувствительными к малейшим изменениям данных.

    5. Затрудняется определение вклада каждой из переменных в объясняемую уравнением дисперсию признака.

    К сожалению, нет единого подхода для определения мультиколлинеарности. Приведем несколько методов тестирования наличия мультиколлинеарности.

    1) Высокое значение коэффициента детерминации и низкие статистики некоторых переменных.

    2) Высокие значения частных коэффициентов корреляции. Однако это условие является достаточным, но не является необходимым условием наличия мультиколлинеарности. Она может иметь место даже при относительно небольших значениях коэффициентов корреляции, когда число факторов больше двух.

    3) тест Фаррара–Глобера.

    Этот тест имеет и другое название: построение вспомогательной регрессии.

    Коэффициент детерминации является коэффициентом детерминации в уравнении регрессии, которое связывает фактор с остальными факторами Например, .является коэффициентом детерминации такой регрессии:

    Для каждого коэффициента детерминации рассчитываем отношение:

    Тест проверяет гипотезу

    при конкурирующей гипотезе

    Вычисленное значение сравниваем с критическим значением , найденным по таблицам распределения Фишера с и степеням свободы и заданным уровнем значимости. Если то отвергаем нулевую гипотезу и считаем, что фактор является мультиколлинеарным; если то нулевую гипотезу принимаем и убеждаемся, что фактор не является мультиколлинеарным.

    Для устранения мультиколлинеарности существует несколько способов.

    Первый способ. Если между двумя факторами и существует мультиколлинеарность, то один из факторов исключается из рассмотрения.

    При построении уравнения множественной регрессии может возникнуть проблема мультиколлинеарности факторов. Мультиколлинеарностью называется линейная взаимосвязь двух или нескольких объясняющих переменных, которая может проявляться в функциональной (явной) или стохастической (скрытой) форме.
    Выявление связи между отобранными признаками и количественная оценка тесноты связи осуществляются с использованием методов корреляционного анализа. Для решения этих задач сначала оценивается , затем на ее основе определяются частные и множественные коэффициенты корреляции и детерминации, проверяется их значимость. Конечной целью корреляционного анализа является отбор факторных признаков x 1 , x 2 ,…,x m для дальнейшего построения уравнения регрессии.

    Если факторные переменные связаны строгой функциональной зависимостью, то говорят о полной мультиколлинеарности . В этом случае среди столбцов матрицы факторных переменных Х имеются линейно зависимые столбцы, и, по свойству определителей матрицы , det(X T X) = 0 , т. е. матрица (X T X) вырождена, а значит, не существует обратной матрицы. Матрица (X T X) -1 используется в построении МНК-оценок. Таким образом, полная мультиколлинеарность не позволяет однозначно оценить параметры исходной модели регрессии.

    К каким трудностям приводит мультиколлинеарность факторов, включенных в модель, и как они могут быть разрешены?

    Мультиколлинеарность может привести к нежелательным последствиям:

    1. оценки параметров становятся ненадежными. Они обнаруживают большие стандартные ошибки. С изменением объема наблюдений оценки меняются (не только по величине, но и по знаку), что делает модель непригодной для анализа и прогнозирования.
    2. затрудняется интерпретация параметров множественной регрессии как характеристик действия факторов в «чистом» виде, ибо факторы коррелированны; параметры линейной регрессии теряют экономический смысл;
    3. становится невозможным определить изолированное влияние факторов на результативный показатель.

    Вид мультиколлинеарности, при котором факторные переменные связаны некоторой стохастической зависимостью, называется частичной. Если между факторными переменными имеется высокая степень корреляции, то матрица (X T X) близка к вырожденной, т. е. det(X T X) ≈ 0.
    Матрица (X T X) -1 будет плохо обусловленной, что приводит к неустойчивости МНК-оценок. Частичная мультиколлинеарность приводит к следующим последствиям:

    • увеличение дисперсий оценок параметров расширяет интервальные оценки и ухудшает их точность;
    • уменьшение t -статистик коэффициентов приводит к неверным выводам о значимости факторов;
    • неустойчивость МНК-оценок и их дисперсий.

    Точных количественных критериев для обнаружения частичной мультиколлинеарности не существует. О наличии мультиколлинеарности может свидетельствовать близость к нулю определителя матрицы (X T X). Также исследуют значения парных коэффициентов корреляции. Если же определитель матрицы межфакторной корреляции близок к единице, то мультколлинеарности нет.

    Существуют различные подходы преодоления сильной межфакторной корреляции. Простейший из них – исключение из модели фактора (или факторов), в наибольшей степени ответственных за мультиколлинеарность при условии, что качество модели при этом пострадает несущественно (а именно, теоретический коэффициент детерминации -R 2 y(x1...xm) снизится несущественно).

    С помощью какой меры невозможно избавиться от мультиколлинеарности?
    a) увеличение объема выборки;
    b) исключения переменных высококоррелированных с остальными;
    c) изменение спецификации модели;
    d) преобразование случайной составляющей.

    Парные (линейные) и частные коэффициенты корреляции

    Тесноту связи, например между переменными x и y по выборке значений (x i , y i), i=1,n , (1)
    где x и y – средние значения, S x и S y – стандартные отклонения соответствующих выборок.

    Парный коэффициент корреляции изменяется в пределах от –1 до +1. Чем ближе он по абсолютной величине к единице, тем ближе статистическая зависимость между x и y к линейной функциональной. Положительное значение коэффициента свидетельствует о том, что связь между признаками прямая (с ростом x увеличивается значение y), отрицательное значение – связь обратная (с ростом x значение y уменьшается).
    Можно дать следующую качественную интерпретацию возможных значений коэффициента корреляции: если |r|<0.3 – связь практически отсутствует; 0.3≤ |r| < 0.7 - связь средняя; 0.7≤ |r| < 0.9 – связь сильная; 0.9≤ |r| < 0.99 – связь весьма сильная.
    Для оценки мультиколлинеарности факторов используют матрицу парных коэффициентов корреляции зависимого (результативного) признака y с факторными признаками x 1 , x 2 ,…,x m , которая позволяет оценить степень влияния каждого показателя-фактора x j на зависимую переменную y, а также тесноту взаимосвязей факторов между собой. Корреляционная матрица в общем случае имеет вид
    .
    Матрица симметрична, на ее диагонали стоят единицы. Если в матрице есть межфакторный коэффициент корреляции r xjxi >0.7, то в данной модели множественной регрессии существует мультиколлинеарность.
    Поскольку исходные данные, по которым устанавливается взаимосвязь признаков, являются выборкой из некой генеральной совокупности, вычисленные по этим данным коэффициенты корреляции будут выборочными, т. е. они лишь оценивают связь. Необходима проверка значимости, которая отвечает на вопрос: случайны или нет полученные результаты расчетов.
    Значимость парных коэффициентов корреляции проверяют по t- критерию Стьюдента. Выдвигается гипотеза о равенстве нулю генерального коэффициента корреляции: H 0: ρ = 0. Затем задаются параметры: уровень значимости α и число степеней свободы v = n-2. Используя эти параметры, по таблице критических точек распределения Стьюдента находят t кр, а по имеющимся данным вычисляют наблюдаемое значение критерия:
    , (2)
    где r – парный коэффициент корреляции, рассчитанный по отобранным для исследования данным. Парный коэффициент корреляции считается значимым (гипотеза о равенстве коэффициента нулю отвергается) с доверительной вероятностью γ = 1- α, если t Набл по модулю будет больше, чем t крит.
    Если переменные коррелируют друг с другом, то на значении коэффициента корреляции частично сказывается влияние других переменных.

    Частный коэффициент корреляции характеризует тесноту линейной зависимости между результатом и соответствующим фактором при устранении влияния других факторов. Частный коэффициент корреляции оценивает тесноту связи между двумя переменными при фиксированном значении остальных факторов. Если вычисляется, например, r yx 1| x2 (частный коэффициент корреляции между y и x 1 при фиксированном влиянии x 2), это означает, что определяется количественная мера линейной зависимости между y и x 1 , которая будет иметь место, если устранить влияние x 2 на эти признаки. Если исключают влияние только одного фактора, получают частный коэффициент корреляции первого порядка.
    Сравнение значений парного и частного коэффициентов корреляции показывает направление воздействия фиксируемого фактора. Если частный коэффициент корреляции r yx 1| x2 получится меньше, чем соответствующий парный коэффициент r yx 1 , значит, взаимосвязь признаков y и x 1 в некоторой степени обусловлена воздействием на них фиксируемой переменной x 2 . И наоборот, большее значение частного коэффициента по сравнению с парным свидетельствует о том, что фиксируемая переменная x 2 ослабляет своим воздействием связь y и x 1 .
    Частный коэффициент корреляции между двумя переменными (y и x 2) при исключении влияния одного фактора (x 1) можно вычислить по следующей формуле:
    . (3)
    Для других переменных формулы строятся аналогичным образом. При фиксированном x 2
    ;
    при фиксированном x 3
    .
    Значимость частных коэффициентов корреляции проверяется аналогично случаю парных коэффициентов корреляции. Единственным отличием является число степеней свободы, которое следует брать равным v = n – l -2, где l – число фиксируемых факторов.

    Пошаговая регрессия

    Отбор факторов x 1 , x 2 , …,x m , включаемых в модель множественной регрессии, является одним из важнейших этапов эконометрического моделирования. Метод последовательного (пошагового) включения (или исключения) факторов в модель позволяет выбрать из возможного набора переменных именно те, которые усилят качество модели.
    При реализации метода на первом шаге рассчитывается корреляционная матрица. На основе парных коэффициентов корреляции выявляется наличие коллинеарных факторов. Факторы x i и x j признаются коллинеарными, если r xjxi >0.7. В модель включают лишь один из взаимосвязанных факторов. Если среди факторов отсутствуют коллинеарные, то в модель могут быть включены любые факторы, оказывающие существенное влияние на y .

    На втором шаге строится уравнение регрессии с одной переменной, имеющей максимальный по абсолютной величине парный коэффициент корреляции с результативным признаком.

    На третьем шаге в модель вводится новая переменная, имеющая наибольшее по абсолютной величине значение частного коэффициента корреляции с зависимой переменной при фиксированном влиянии ранее введенной переменной.
    При введении в модель дополнительного фактора коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться. Если этого не происходит, т. е. коэффициент множественной детерминации увеличивается незначительно, то ввод нового фактора признается нецелесообразным.

    Пример №1 . По 20 предприятиям региона изучается зависимость выработки продукции на одного работника y (тыс. руб.) от удельного веса рабочих высокой квалификации в общей численности рабочих x1 (% от стоимости фондов на конец года) и от ввода в действие новых основных фондов x2 (%).

    Y X1 X2
    6 10 3,5
    6 12 3,6
    7 15 3,9
    7 17 4,1
    7 18 4,2
    8 19 4,5
    8 19 5,3
    9 20 5,3
    9 20 5,6
    10 21 6
    10 21 6,3
    11 22 6,4
    11 23 7
    12 25 7,5
    12 28 7,9
    13 30 8,2
    13 31 8,4
    14 31 8,6
    14 35 9,5
    15 36 10

    Требуется:

    1. Построить корреляционное поле между выработкой продукции на одного работника и удельным весом рабочих высокой квалификации. Выдвинуть гипотезу о тесноте и виде зависимости между показателями X1 и Y .
    2. Оценить тесноту линейной связи между выработкой продукции на одного работника и удельным весом рабочих высокой квалификации с надежностью 0,9.
    3. Рассчитать коэффициенты линейного уравнения регрессии для зависимости выработки продукции на одного работника от удельного веса рабочих высокой квалификации.
    4. Проверить статистическую значимость параметров уравнения регрессии с надежностью 0,9 и построить для них доверительные интервалы.
    5. Рассчитать коэффициент детерминации. С помощью F -критерия Фишера оценить статистическую значимость уравнения регрессии с надежностью 0,9.
    6. Дать точечный и интервальный прогноз с надежностью 0,9 выработки продукции на одного работника для предприятия, на котором высокую квалификацию имеют 24% рабочих.
    7. Рассчитать коэффициенты линейного уравнения множественной регрессии и пояснить экономический смысл его параметров.
    8. Проанализировать статистическую значимость коэффициентов множественного уравнения с надежностью 0,9 и построить для них доверительные интервалы.
    9. Найти коэффициенты парной и частной корреляции. Проанализировать их.
    10. Найти скорректированный коэффициент множественной детерминации. Сравнить его с нескорректированным (общим) коэффициентом детерминации.
    11. С помощью F -критерия Фишера оценить адекватность уравнения регрессии с надежностью 0,9.
    12. Дать точечный и интервальный прогноз с надежностью 0,9 выработки продукции на одного работника для предприятия, на котором высокую квалификацию имеют 24% рабочих, а ввод в действие новых основных фондов составляет 5%.
    13. Проверить построенное уравнение на наличие мультиколлинеарности по: критерию Стьюдента; критерию χ2. Сравнить полученные результаты.

    Решение проводим с помощью калькулятора . Далее приводится ход решения п.13.
    Матрица парных коэффициентов корреляции R:

    - y x 1 x 2
    y 1 0.97 0.991
    x 1 0.97 1 0.977
    x 2 0.991 0.977 1

    При наличии мультиколлинеарности определитель корреляционной матрицы близок к нулю. Для нашего примера: det = 0.00081158 , что свидетельствует о наличии сильной мультиколлинеарности.
    Для отбора наиболее значимых факторов x i учитываются следующие условия:
    - связь между результативным признаком и факторным должна быть выше межфакторной связи;
    - связь между факторами должна быть не более 0.7. Если в матрице есть межфакторный коэффициент корреляции r xjxi > 0.7, то в данной модели множественной регрессии существует мультиколлинеарность.;
    - при высокой межфакторной связи признака отбираются факторы с меньшим коэффициентом корреляции между ними.
    В нашем случае r x 1 x 2 имеют |r|>0.7, что говорит о мультиколлинеарности факторов и о необходимости исключения одного из них из дальнейшего анализа.
    Анализ первой строки этой матрицы позволяет произвести отбор факторных признаков, которые могут быть включены в модель множественной корреляционной зависимости. Факторные признаки, у которых |r yxi | 0.3 – связь практически отсутствует; 0.3 ≤ |r| ≤ 0.7 - связь средняя; 0.7 ≤ |r| ≤ 0.9 – связь сильная; |r| > 0.9 – связь весьма сильная.
    Проверим значимость полученных парных коэффициентов корреляции с помощью t-критерия Стьюдента. Коэффициенты, для которых значения t-статистики по модулю больше найденного критического значения, считаются значимыми.
    Рассчитаем наблюдаемые значения t-статистики для r yx 1 по формуле:

    где m = 1 - количество факторов в уравнении регрессии.

    По таблице Стьюдента находим Tтабл
    t крит (n-m-1;α/2) = (18;0.025) = 2.101
    Поскольку t набл > t крит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим
    Рассчитаем наблюдаемые значения t-статистики для r yx 2 по формуле:

    Поскольку t набл > t крит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значимю
    Таким образом, связь между (y и x x 1), (y и x x 2) является существенной.
    Наибольшее влияние на результативный признак оказывает фактор x 2 (r = 0.99), значит, при построении модели он войдет в регрессионное уравнение первым.
    Тестирование и устранение мультиколлинеарности .
    Наиболее полным алгоритмом исследования мультиколлинеарности является алгоритм Фаррара-Глобера. С его помощью тестируют три вида мультиколлинеарности:
    1. Всех факторов (χ 2 - хи-квадрат).
    2. Каждого фактора с остальными (критерий Фишера).
    3. Каждой пары факторов (критерий Стьюдента).
    Проверим переменные на мультиколлинеарность методом Фаррара-Глоубера по первому виду статистических критериев (критерий "хи-квадрат").
    Формула для расчета значения статистики Фаррара-Глоубера:
    χ 2 = -ln(det[R])
    где m = 2 - количество факторов, n = 20 - количество наблюдений, det[R] - определитель матрицы парных коэффициентов корреляции R.
    Сравниваем его с табличным значением при v = m/2(m-1) = 1 степенях свободы и уровне значимости α. Если χ 2 > χ табл 2 , то в векторе факторов есть присутствует мультиколлинеарность.
    χ табл 2 (1;0.05) = 3.84146
    Проверим переменные на мультиколлинеарность по второму виду статистических критериев (критерий Фишера).

    Проверим переменные на мультиколлинеарность по третьему виду статистических критериев (критерий Стьюдента). Для этого найдем частные коэффициенты корреляции.
    Частные коэффициенты корреляции .
    Коэффициент частной корреляции отличается от простого коэффициента линейной парной корреляции тем, что он измеряет парную корреляцию соответствующих признаков (y и x i) при условии, что влияние на них остальных факторов (x j) устранено.
    На основании частных коэффициентов можно сделать вывод об обоснованности включения переменных в регрессионную модель. Если значение коэффициента мало или он незначим, то это означает, что связь между данным фактором и результативной переменной либо очень слаба, либо вовсе отсутствует, поэтому фактор можно исключить из модели.


    Теснота связи низкая.
    Определим значимость коэффициента корреляции r yx 1 /x 2 .Как видим, связь y и x 2 при условии, что x 1 войдет в модель, снизилась. Отсюда можно сделать вывод, что ввод в регрессионное уравнение x 2 остается нецелесообразным.
    Можно сделать вывод, что при построении регрессионного уравнения следует отобрать факторы x 1 , x 2 .

    Пример №2 . По 30 наблюдениям матрица парных коэффициентов корреляции оказалась следующей:

    y x 1 x 2 x 3
    y 1,0
    x 1 0,30 1,0
    x 2 0,60 0,10 1,0
    x 3 0,40 0,15 0,80 1,0
    Оцените мультиколлинеарность факторов. Постройте уравнение регрессии в стандартном масштабе и сделайте выводы.