Коэффициент детерминации и его свойства. Коэффициент вариации и коэффициент детерминации

Для определения статистической значимости коэффициента детерминации R 2 проверяется нулевая гипотеза дляF-статистики, рассчитываемой по формуле:

Соответственно, для парной регрессии

Смысл проверяемой гипотезы заключается в том, что все коэффициенты ли­нейной регрессии, за исключением свободного члена, равны нулю. Если они действительно равны нулю для генеральной совокупности, то уравнение регрессии должно иметь вид
, а коэффициент детерминацииR 2 иF -статистика Фишера также равны нулю. При этом их оценки для случайной выборки, конечно, отличаются от нуля, но чем больше такое отличие, тем менее оно вероятно. Логика проверки нулевой гипотезы заключается в том, что если произошло событие, которое было бы слишком маловероятным в том случае, если данная гипотеза действительно была бы верна, то эта гипотеза отвергается.

Величина F , если предположить, что выполнены предпосылки относительно отклоненийе i , имеет распределение Фишера с(т; п-т-1) степенями свободы, гдет - число объясняющих переменных,п - число наблюдений.

Итак, показатели F и R 2 равны или не равны нулю одновременно, поэтомуF = 0 равнозначно тому, что линия регрессии
является наилучшей по МНК и, следовательно, величинау статистически независима отх. Поэтому проверяется нулевая гипотеза для показателяF , который имеет хорошо известное, табулированное распределение - распределение Фишера. Для проверки этой гипотезы при заданном уровне значимости по таблицам находится критическое значениеF крит , и нулевая гипотеза отвергается, еслиF > F крит .

Пример 4.1

Пусть, например, при оценке парной регрессии по 15 наблюдениям R 2 = 0,7. В этом случаеF = 0,7 13/0,3.По таблицам для распределения Фишера с (1; 13) степенями свободы найдем, что при 5%-ном уровне значимости (доверительная вероятность 95%) критическое значениеF равно 4,67, при 1%-ном - 9,07. ПосколькуF =30,З>F крит ., нулевая гипотеза в обоих случаях отвергается. Если в той же ситуацииR 2 = 0,5, тоF = 13, и предположение о незначимости связи отвергается и здесь.

Конец примера

Таким образом, для того, чтобы отвергнуть гипотезу о равенстве нулю одновременно всех коэффициентов линейной регрессии, коэффициент детерминации не должен быть очень близким к единице; его критическое значение для данного числа степеней свободы уменьшается при росте числа наблюдений и может стать сколь угодно малым. В то же время величина коэффициента R 2 (точнее, рассчитанной по немуF -статистики, поскольку последняя учитывает число наблюдений и число объ­ясняющих переменных) может служить отражением общего качества регрессионной модели.

Отметим, что в случае парной регрессии проверка нулевой гипотезы для t - статистики коэффициента регрессии равносильна проверке нулевой гипотезы дляF -статистики (и, соответственно, показателяR 2 ). В этом случаеF -статистика равна квадратуt -статистики. В случае парной регрессии статистическая значимость величинR 2 иt -статистики коэффициента регрессии определяется коррелированностью переменныхх иу. Самостоятельную важность показательR 2 приобретает в случае множественной линейной регрессии.

Лабораторная работа №4.2.1. Проверка значимости коэффициента детерминации r2

В предыдущей задаче коэффициент детерминации R 2 равен 0,996544 (см. ячейкуG6 в результатах функции ЛИНЕЙН), что указывает на сильную зависимость между независимыми переменными и ценой. Определить, является ли этот результат (с таким высоким значениеR 2 ) случайным, используя F-статистику.

Коэффициент детерминации.  

Анализ проводится, например, по коэффициенту детерминации  

Альтернативным показателем степени зависимости между двумя переменными является коэффициент детерминации, представляющий собой возведенный в квадрат коэффициент корреляции (г2). Коэффициент детерминации выражается в процентах и отражает величину изменения результативного показателя (у) за счет изменения другой переменной - факторного показателя (х).  

По результатам нашего примера, приведенного выше, коэффициент детерминации составил г = 0,471 б2 = 0,2224 = 22,24%. Это означает, что более 22% изменений в выручке от продаж связаны с изменениями в расходах на рекламу.  

Определите коэффициент детерминации по условию теста 1. Интерпретируйте уровень этого коэффициента.  

В случаях, когда трудно обосновать форму зависимости, решение задачи можно провести по разным моделям и сравнить полученные результаты. Адекватность разных моделей фактическим зависимостям проверяется по критерию Фишера , показателю средней ошибки аппроксимации и величине множественного коэффициента детерминации, о которых речь пойдет несколько позже (см. 7.4).  

Коэффициент детерминации модели, равный квадрату приведенного коэффициента множественной корреляции , составил 99,31% стандартная ошибка модели оказалась равна 4415 тыс. руб., / статистика Фишера - 4,415, а уровень значимости гипотезы об отсутствии связи - менее 0,01%.  

Это выражение соответствует выражению т)2 (см. формулу (8.2)). Тождество коэффициента детерминации и квадрата корреляционного отношения служит основанием для интерпретации величины г2л, как доли общей дисперсии результативного признака у, которая объясняется вариацией признака-фактора х (и связью между вариацией обоих признаков). Собственно говоря, основным показателем тесноты связи и следовало бы считать коэффициент детерминации  

Коэффициент детерминации г2 = 71,3%, т. е. вариация возраста супруга или супруги на 71% зависит от вариации возраста второй половины. Связь весьма тесная.  

Поскольку г 2 - аналог коэффициента детерминации, можно сделать вывод, что 42,2% вариации себестоимости молока в совокупности 136 предприятий были связаны с вариацией продуктивности коров (и с факторами, варьирующими согласованно с продуктивностью в соответствии с ранее сделанной оговоркой об интерпретации парных связей).  

Здесь Ry2 - коэффициент детерминации для уравнения со всеми k факторами. Числитель (8.43) и есть дополнительно объясняемая часть вариации у при включении фактора хт в уравнение после всех остальных факторов. В нашем примере, используя ранее рассчитанную величину R2 = 0,5765, при включении в анализ фактора х3 получаем  

Однако крупнейшим недостатком такого способа разложения R2 является зависимость величин р2 от принятого порядка включения факторов в уравнение регрессии . Первый включаемый фактор забирает в свою пользу львиную часть системного эффекта , а на долю последнего фактора остается ничтожная часть. Например, если переставить местами факторы дс, и хэ, а также вычислить по рекуррентной формуле двухфакторный коэффициент детерминации /Z2 x = 0,8035, то получим результаты , отличные от предыдущих  

Признаки-факторы должны находиться в причинной связи с результативным признаком (следствием). Поэтому, недопустимо, например, в модель себестоимости у вводить в качестве одного из факторов Xj коэффициент рентабельности , хотя включение такого фактора значительно повышает коэффициент детерминации.  

Принцип простоты предпочтительнее модель с меньшим числом факторов при том же коэффициенте детерминации или даже при несущественно меньшем коэффициенте.  

Предельно возможный избыток был бы в том случае, если бы не было гетерогенных сочетаний, т. е. Аб и Ба. Он составляет 140 + 80 + 230 = 450. Сам же показатель тесноты связи - отношение фактического излишка к предельному 140 450 = 0,311. Как видим, этот показатель близок к коэффициенту ассоциации, но обладает чрезвычайно логичной и ясной интерпретацией связь составляет 0,311 или 31,1%, от предельно возможной функциональной . Этот показатель - аналог не коэффициента корреляции , а коэффициента детерминации. Поэтому правомерно обозначить его как R2 или г 2. Он имеет вид  

Коэффициент детерминации г2, равен 0,88, или 88% колебаний себестоимости картофеля связаны с колебаниями урожайности. Положительны лишь три произведения отклонения мг иу, притом наименьшие.  

Проведение анализа по отдельным единицам с использованием уравнения регрессии обычно основывается на разложении величины отклонения от общей средней (у, - у) на две составляющие (у, - у) и (у, - у,). Если в уравнение регрессии входят все важные и существенные факторы, от которых- зависит величина результативного признака , и коэффициент детерминации близок к единице, то остальные, не включенные в уравнение факторы, характеризуют индивидуальные, несущественные особенности, зачастую не имеющие количественного выражения. В этом случае разница (у, - у/) образуется за счет несовпадения интенсивности воздействия на у всех учтенных факторов в условиях данной /-и единицы и средней интенсивности их воздействия, выраженной в величинах коэффициентов регрессии, входящих в расчетное значение yf. Это дает право интерпретировать разницу (у, -у,) или отношение у,/у, как показатель того, как эффективность использования учтенных факторов у /-и единицы соотносится со средней эффективностью их использования. Разница (у, - у) возникает за счет различия в значениях учтенных факторов для данной /-и единицы и в среднем по совокупности. Такое разложение дает возможность выявить резервы, имеющиеся у каждой отдельной единицы, в части эффективности ис- пользования факторов и в части их уровня.  

Учитывая сравнительно низкие значения отчетного и базисного коэффициентов детерминации (/ 0 = 0,8] 54, г2, = 0,7974), разница фактической и расчетной величин (V,- V) выражает не только различия в эффективности использования учтенного фактора - мощности пласта - на данной конкретной шахте по сравнению со средней эффективностью по тресту, но и влияние неучтенных в уравнении регрессии факторов.  

I Третий способ построения многомерных средних долей не требует привлечения каких-либо субъективных экспертных оценок - используется только информация, содержащаяся в исходных долях. Более информативным, а следовательно, весомым признается тот признак, который имеет более высокий коэффициент детерминации долей со всеми остающимися признаками. Вычислив попарные и средние коэффициенты детерминации, примем меньший из них за единицу (один балл) и получим баллы для других признаков, как отношения их средних коэффициентов детерминации к меньшему (см. табл. 11.9).  

После выбора типа уравнения и расчета его параметров следует проверка выбранной функции на адекватность. Сущность этогог этапа заключается в том, адекватно ли характеризует выбранная функция развитие исследуемого экономического явления и нет ли среди факторов таких, которые можно исключить из-за незначительности в изучении данного явления. Для исследования используют коэффициент детерминации и критерий Фишера.  

Коэффициент детерминации ( - R-квадрат ) - это доля дисперсии зависимой переменной, объясняемая рассматриваемой моделью. Более точно - это единица минус доля необъяснённой дисперсии (дисперсии случайной ошибки модели, или условной по признакам дисперсии зависимой переменной) в дисперсии зависимой переменной. В случае линейной зависимости является квадратом так называемого множественного коэффициента корреляции между зависимой переменной и объясняющими переменными. В частности, для модели линейной регрессии с одним признаком коэффициент детерминации равен квадрату обычного коэффициента корреляции между и .

Определение и формула

Истинный коэффициент детерминации модели зависимости случайной величины от признаков определяется следующим образом:

где - условная (по признакам ) дисперсия зависимой переменной (дисперсия случайной ошибки модели).

В данном определении используются истинные параметры, характеризующие распределение случайных величин. Если использовать выборочную оценку значений соответствующих дисперсий, то получим формулу для выборочного коэффициента детерминации (который обычно и подразумевается под коэффициентом детерминации):

- сумма квадратов регрессионных остатков, - общая дисперсия, - соответственно, фактические и расчетные значения объясняемой переменной, - выборочное вреднее.

В случае линейной регрессии с константой , где - объяснённая сумма квадратов, поэтому получаем более простое определение в этом случае. Коэффициент детерминации - это доля объяснённой дисперсии в общей :

.

Необходимо подчеркнуть, что эта формула справедлива только для модели с константой, в общем случае необходимо использовать предыдущую формулу.

Интерпретация

Недостатки и альтернативные показатели

Основная проблема применения (выборочного) заключается в том, что его значение увеличивается (не уменьшается) от добавления в модель новых переменных, даже если эти переменные никакого отношения к объясняемой переменной не имеют. Поэтому сравнение моделей с разным количеством признаков с помощью коэффициента детерминации, вообще говоря, некорректно. Для этих целей можно использовать альтернативные показатели.

Скорректированный (adjusted)

Для того, чтобы была возможность сравнивать модели с разным числом признаков так, чтобы число регрессоров (признаков) не влияло на статистику обычно используется скорректированный коэффициент детерминации , в котором используются несмещённые оценки дисперсий:

который даёт штраф за дополнительно включённые признаки, где - количество наблюдений, а - количество параметров.

Данный показатель всегда меньше единицы, но теоретически может быть и меньше нуля (только при очень маленьком значении обычного коэффициента детерминации и большом количестве признаков), поэтому интерпретировать его как долю объясняемой дисперсии уже нельзя. Тем не менее, применение показателя в сравнении вполне обоснованно.

Для моделей с одинаковой зависимой переменной и одинаковым объемом выборки сравнение моделей с помощью скорректированного коэффициента детерминации эквивалентно их сравнению с помощью остаточной дисперсии или стандартной ошибки модели .

Обобщённый (extended)

В случае отсутствия в линейной множественной МНК регрессии константы свойства коэффициента детерминации могут нарушаться для конкретной реализации . Поэтому модели регрессии со свободным членом и без него нельзя сравнивать по критерию . Эта проблема решается с помощью построения обобщённого коэффициента детерминации , который совпадает с исходным для случая МНК регрессии со свободным членом. Суть этого метода заключается рассмотрении проекции единичного вектора на плоскость объясняющих переменных.

Как уж ранее отмечалось, в случае линейной регрессии основными показателями качества построенного уравнения регрессии служат коэффициент детерминации и критерий Фишера. Использование этих показателей обосновывается в теории дисперсионного анализа. Здесь рассматриваются следующие суммы:

· – общая сумма квадратов отклонений зависимой переменной от средней (TSS );

· – сумма квадратов, обусловленная регрессией (RSS );

· – сумма квадратов, характеризующая влияние неучтенных факторов (ESS ).

Напомним, что для моделей, линейных относительно параметров, выполняется следующее равенство

Исходя из этого равенства, вводился коэффициент детерминации

. (6.22)

В силу определения R 2 принимает значения между 0 и 1, . Чем ближе R 2 к единице, тем лучше регрессия аппроксимирует эмпирические данные , тем теснее наблюдения примыкают к линии регрессии. Если R 2 =1, то эмпирические точки (x i ,y i) лежат на линии регрессии и между переменными Y и X существует функциональная зависимость . Если R 2 =0, то вариация зависимой переменной полностью обусловлена воздействием неучтённых в модели переменных . Величина R 2 показывает, какая часть (доля) вариации зависимой переменной обусловлена вариацией объясняющей переменной .

Однако для моделей, нелинейных относительно параметров, равенство (6.21) не выполняется , т.е. . В связи с этим может получиться, что или . Это означает, что коэффициент детерминации, определяемый по формулам (6.22), может быть больше единицы или меньше нуля. Следовательно, R 2 для нелинейных моделей не является вполне адекватной характеристикой качества построенного уравнения регрессии.

На практике обычно в качестве коэффициента детерминации принимается величина

Эта величина имеет тот же самый смысл, что и для линейной модели, но при его использовании нужно учитывать все рассмотренные выше оговорки.

Замечание. Величину R 2 для нелинейных моделей иногда называют индексом детерминации , корень из данной величины R называют индексом корреляции.

Если после преобразования нелинейное уравнение регрессии принимает форму линейного парного уравнения регрессии, то для оценки тесноты связи может быть использован линейный коэффициент корреляции , где z – преобразованная величина независимой переменной, например z =1/x или z =lnx .



Иначе обстоит дело, когда преобразования уравнения в линейную форму связаны с результативным признаком. В этом случае линейный коэффициент корреляции по преобразованным значениям даёт лишь приближённую оценку тесноты связи и численно не совпадает с индексом корреляции.

Вследствие близости результатов и простоты расчётов с использованием компьютерных программ для характеристики тесноты связи по нелинейным функциям широко используется линейный коэффициент корреляции ( или ). Несмотря на близость значений R yx и или R yx и , следует помнить, что эти значения не совпадают. Это связано с тем, что для нелинейной регрессии , в отличие от линейной регрессии .

Коэффициент детерминации можно сравнивать с квадратом коэффициента корреляции для обоснования возможности применения линейной функции. Чем больше кривизна линии регрессии, тем величина меньше . Близость этих показателей означает, что нет необходимости усложнять форму уравнения регрессии и можно использовать линейную функцию. Практически, если величина ( – ) не превышает 0,1, то предположение о линейной форме связи считается оправданным. В противном случае проводится оценка существенности различия этих показателей, вычисленных по одним и тем же исходным данным.

Коэффициент детерминации можно использовать при сравнении двух альтернативных уравнений регрессии. Можно выбрать наилучшую из них по максимальному значению коэффициента детерминации. При рассмотрении альтернативных моделей с одним и тем же определением зависимой переменной предложенный способ выбора достаточно проста и очевидна. Однако нельзя сравнивать, например, линейную и логарифмические модели. Значения lnY значительно меньше соответствующих значений Y , поэтому неудивительно, что остатки также значительно меньше, но это ничего не решает. Величина R 2 безразмерна, однако в двух уравнениях она относится к разным понятиям. В одном уравнении она измеряет объясненную регрессией долю дисперсии Y , а в другом – объясненную регрессией долю дисперсии lnY . Если для одной модели коэффициент R 2 значительно больше, чем для другой, то можно сделать оправданный выбор без особых раздумий, однако, если значения R 2 для двух моделей приблизительно равны, то проблема выбора существенно усложняется.

Более подробно проблемы спецификации рассматриваются в дополнении 3.

Отметим, что критерий Фишера можно применять только для нормальной линейной классической регрессионной модели . Однако в общем случае, в первую для моделей нелинейных по параметрам, критерий Фишера применять нельзя! Иногда критерий Фишера применяют для линеаризованных моделей, однако здесь следует помнить, что исходное и линеаризованное уравнения не одно и то же, т.е. здесь нужны серьезные оговорки.

Более подробно использования критерия Фишера для линеаризированных моделей смотрите в дополнении 2.

ПРИМЕРЫ

Пример 6.1. Вычислить полулогарифмическую функцию регрессии зависимости доли расходов на товары длительного пользования в общих расходах семьи (Y , %) от среднемесячного дохода семьи (X , тыс. $ ):

X
Y 13,4 15,4 16,5 18,6 19,3

Решение. Используем стандартные процедуры линейного регрессионного анализа. Для расчетов воспользуемся данными таблицы 6.1:

Табл. 6.1.

x u= lnx y uy u 2 y 2 A
9,88 0,12 1,241 0,0154
0,693 13,4 9,29 0,48 179,56 13,43 -0,03 0,232 0,0010
1,099 15,4 16,92 1,21 237,16 15,51 -0,11 0,718 0,0122
1,386 16,5 22,87 1,92 272,25 16,99 -0,49 2,946 0,2363
1,609 18,6 29,94 2,59 345,96 18,13 0,47 2,524 0,2203
1,792 19,1 34,22 3,21 364,81 19,07 0,03 0,180 0,0012
Итого 6,579 113,24 9,41 1499,74 7,840 0,4864
Среднее значение 3,5 1,097 15,5 18,87 1,57 249,96 1,307

В соответствии с формулами (6.103) вычисляем

, .

В результате, получим уравнение полулогарифмической регрессии:

Подставляя в уравнение (6.24) фактические значения x i , получаем теоретические значения результата . Используя программу Excel ,

ВЫВОД ИТОГОВ
Регрессионная статистика
Множественный R 0,9958
R -квадрат 0,9916
Нормированный R -квадрат 0,9896
Стандартная ошибка 0,3487
Наблюдения
ДИСПЕРСИОННЫЙ АНАЛИЗ
df SS MS F Значимость F
Регрессия 57,75 57,75 474,93 0,000026
Остаток 0,49 0,12
Итого 58,24
Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95%
Y -пересечение 9,8759 0,2947 33,51 0,0000047 9,0576 10,6942
Переменная lnX 5,1289 0,2353 21,79 0,0000262 4,4755 5,7823

Из этих данных видно, в частности, что все коэффициенты регрессии статистически значимы. Оценим качество уравнения регрессии. Рассчитаем среднюю ошибку аппроксимации

,

т.е. с точки зрения этого показателя уравнение регрессии подобрано очень хорошо.

Вычислим теперь средний коэффициент эластичности

Таким образом, при возрастании среднемесячного дохода семьи на 1% доля расходов на товары длительного пользования в общих расходах семьи возрастет на 0,25% .

Коэффициент детерминации для данной модели совпадает с квадратом коэффициента корреляции . По данным таблицы 6.3 получаем

И .

Коэффициент детерминации показывает, что уравнение регрессии на 99% объясняет вариацию значений признака y , т.е. с точки зрения коэффициента детерминации построенное уравнение регрессии очень хорошо описывает исходные данные.

Для оценки качества данной модели можно использовать критерий Фишера (при предположении, что мы имеем дело с нормальной классической линейной моделью). В этом случае получаем

, .

Поскольку F набл >F крит , то гипотеза о случайной природе оцениваемых параметров отклоняется и признается их статистическая значимость и надежность, т.е. построенное уравнение регрессии признается статистически значимым. â

Пример 6.2. Имеются данные о просроченной задолженности по заработной плате за 9 месяцев 2000 г. по Санкт-Петербургу.

. Оцените качество построенной регрессии. б) Оцените МНК коэффициенты обратной модели , линеаризуя модель. Оцените качество построенной регрессии. в) Оцените МНК коэффициенты обратной модели , используя численные методы (метод Маркуардта)? г) Проанализируйте полученные результаты.

Решение. а) Используя стандартные процедуры линейного регрессионного анализа (считая, как обычно, t =1 для января 2000 г.), получим:

ВЫВОД ИТОГОВ
Регрессионная статистика
Множественный R 0,846
R -квадрат 0,716
Нормированный R -квадрат 0,675
Стандартная ошибка 12,233
Наблюдения
ДИСПЕРСИОННЫЙ АНАЛИЗ
df SS MS F Значимость F
Регрессия 2640,07 2640,07 17,64 0,00403
Остаток 1047,58 149,65
Итого 3687,64
Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95%
Y-пересечение 410,12 8,89 46,15 5,87E-10 389,11 431,14
Переменная X 1 -6,63 1,58 -4,20 4,03E-03 -10,37 -2,90

,



причём все коэффициенты регрессии значимы. Коэффициент детерминации равен , т.е. линейная модель удовлетворительно описывает исходные данные. На графике поле корреляции и линейное уравнение регрессии будут выглядеть следующим образом:

В соответствии с построенным уравнением просроченная задолженность по заработной плате за 9 месяцев 2000 г. ежемесячно снижалась на 6,6 млн. руб. Расчётное значение просроченной задолженности за декабрь 1999 г. составило 410,1 млн. руб. Точечный прогноз за октябрь составила: млн. руб.

Оценим точность прогноза. В соответствии с линейным регрессионным анализом, находим предельную ошибку индивидуального прогноза (на уровне значимости a=0,05):

.

Точность прогноза составила .

б) Линеаризуем модель, полагая v =1/y . Составляем расчётную таблицу.

Месяцы t y v= 1/y tv t 2 v 2
Январь 387,6 0,00258 0,0026 0,0000067 0,00247 0,0001134 0,00000001286
Февраль 399,9 0,00250 0,0050 0,0000063 0,00252 -0,0000145 0,00000000021
Март 404,0 0,00248 0,0074 0,0000061 0,00256 -0,0000885 0,00000000783
Апрель 383,1 0,00261 0,0104 0,0000068 0,00261 -0,0000020 0,00000000000
Май 376,9 0,00265 0,0133 0,0000070 0,00266 -0,0000076 0,00000000006
Июнь 377,7 0,00265 0,0159 0,0000070 0,00271 -0,0000618 0,00000000382
Июль 358,1 0,00279 0,0195 0,0000078 0,00276 0,0000345 0,00000000119
Август 371,9 0,00269 0,0215 0,0000072 0,00281 -0,0001177 0,00000001385
Сентябрь 333,4 0,00300 0,0270 0,0000090 0,00286 0,0001442 0,00000002081
Итого: 3392,6 0,02395 0,1227 0,0000639 0,02395 0,00000006063
Среднее 376,96 0,002661 0,0136 31,67 0,0000071

Вычисляем

В результате, получим уравнение обратной регрессии:

.

Используя программу Excel получим следующие данные (на уровне значимости a=0,05):

ДИСПЕРСИОННЫЙ АНАЛИЗ
df SS MS F Значимость F
Регрессия 1,41557E-07 1,41557E-07 16,34 0,00492
Остаток 6,06323E-08 8,66176E-09
Итого 2,02189E-07
Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95%
Y -пересечение 0,002418 6,76E-05 35,76 3,47E-09 0,00226 0,00258
Переменная lnX 0,0000486 1,20E-05 4,04 0,00492 2,02E-05 7,70E-05

R 2 =0,7). Этот вывод подтверждается и с точки зрения критерия Фишера (отметим, что для линеаризованных моделей, при определённых оговорках, можно применить критерий Фишера). Однако в рассматриваемом случае МНК применялся не к y , а к обратным значениям 1/y

t y A
387,6 405,42 -17,821 317,58 113,30 810,26 4,60
399,9 397,59 2,309 5,33 526,45 425,83 0,58
404,0 390,06 13,942 194,37 731,40 171,68 3,45
383,1 382,81 0,294 0,09 37,75 34,22 0,08
376,9 375,82 1,082 1,17 0,00 1,29 0,29
377,7 369,08 8,620 74,30 0,55 62,02 2,28
358,1 362,58 -4,480 20,07 355,53 206,64 1,25
371,9 356,31 15,595 243,19 25,56 426,43 4,19
333,4 350,24 -16,844 283,71 1897,09 713,52 5,05
3392,6 2,696 1139,81 3687,64 2851,90 21,77
376,96 2,42

.

Отметим, что для нелинейных моделей, оцененных МНК, эта сумма всегда равна нулю. Следовательно, оценки исходной нелинейной модели будут смещёнными .

Отсюда, в частности, следует, что равенство не выполняется. Действительно,

В связи с этим, для коэффициента детерминации можно получить два разных значения:

, или .

Это означает, что коэффициент детерминации для нелинейных моделей не всегда является адекватной характеристикой. Отметим, что в компьютерных программах для вычисления коэффициента детерминации в основном используют второе равенство.

Сделаем прогноз по полученному уравнению обратной модели и оценим его точность. Точечный прогноз за октябрь составит:

Млн. руб.

Оценим точность прогноза. В соответствии с линейным регрессионным анализом, находим предельную ошибку индивидуального прогноза по линеаризированному уравнению (на уровне значимости a=0,05):

В результате, доверительный интервал для прогнозного значения будет иметь вид

Точность прогноза для преобразованной переменной v составляет 9,4%. Однако мы имеем дело нес обратными величинами v =1/y , а с y . Переходя к исходной переменной, получим следующий доверительный интервал

.

Точность прогноза для непреобразованной переменной y составляет уже 18,9%. Этот результат показывает, что исходное и преобразованное уравнения дают, вообще говоря, разный результат.

в) Оценим МНК коэффициенты обратной модели

,

используя численные методы (метод Левенберга-Маркуардта). Для этого воспользуемся программой STATISTIKA. Программа выдаёт следующие результаты.

Уравнение регрессии имеет вид

с коэффициентом детерминации R 2 =0,6947. Для сравнений приведем результаты вычислений.

Видно, что численные методы дают вполне удовлетворительный результат. Более того, они позволяют провести также и некоторый статистический анализ полученной модели (хотя и не такой полный по-сравнению с линейными моделями). Таким образом, как показывает данный пример, линеаризация не всегда даёт более лучший результат по-сравнению с численными методами.

г) Сделаем некоторые выводы. Отметим, что коэффициенты детерминации для обеих моделей (линейной и обратной) практически не отличаются друг от друга: R 2 =0,716 для линейной модели и R 2 =0,691 для обратной модели. Поэтому обе модели с точки зрения коэффициента детерминации равноценны. Однако при оценке точности прогноза лучше использовать, как мы видели, линейную модель. Таким образом, использование обратной модели для интерпретации имеющихся результатов не совсем оправдано. С точки зрения статистических свойств в данном случае лучше использовать линейную модель. â

Пример 6.3. Имеются данные о зависимости расхода топлива (Y , г /на т·км ) от мощности двигателя грузовых автомобилей общего назначения (X , л.с. ):

X
Y

а) Оцените МНК коэффициенты линейной модели . Оцените качество построенной регрессии. б) Оцените МНК коэффициенты степенной модели , линеаризуя модель. Оцените качество построенной регрессии.

Решение. а) Используя стандартные процедуры линейного регрессионного анализа, получим:

ВЫВОД ИТОГОВ
Регрессионная статистика
Множественный R 0,8378
R -квадрат 0,7019
Нормированный R -квадрат 0,6688
Стандартная ошибка 12,8383
Наблюдения
ДИСПЕРСИОННЫЙ АНАЛИЗ
df SS MS F Значимость F
Регрессия 3493,3 3493,3 21,19 0,001284
Остаток 1483,4 164,8
Итого 4976,7
Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95%
Y-пересечение 103,866 9,993 10,39 0,0000 81,261 126,471
Переменная X -0,3388 0,0736 -4,60 0,0013 -0,5053 -0,1723

Таким образом, линейное уравнение регрессии будет иметь вид

,

причём все коэффициенты регрессии значимы. Коэффициент детерминации равен , т.е. линейная модель удовлетворительно описывает исходные данные.

На графике поле корреляции и линейное уравнение регрессии будут выглядеть следующим образом:

4,248 4,477 19,022 18,050 20,047 4,4714 0,0059 0,00003 4,248 4,431 18,824 18,050 19,632 4,4714 -0,0406 0,00165 4,317 4,477 19,331 18,641 20,047 4,4119 0,0655 0,00429 4,443 4,331 19,240 19,737 18,755 4,3038 0,0270 0,00073 4,575 4,263 19,501 20,928 18,170 4,1897 0,0730 0,00533 4,745 3,951 18,748 22,514 15,612 4,0427 -0,0914 0,00836 4,787 3,951 18,917 22,920 15,612 4,0059 -0,0547 0,00299 5,011 3,829 19,184 25,106 14,658 3,8132 0,0154 0,00024 5,165 4,143 21,398 26,675 17,166

Используя программу Excel получим следующие данные (на уровне значимости a=0,05):

ВЫВОД ИТОГОВ
Регрессионная статистика
Множественный R 0,8233
R -квадрат 0,6778
Нормированный R -квадрат 0,6420
Стандартная ошибка 0,2653
Наблюдения
ДИСПЕРСИОННЫЙ АНАЛИЗ
df SS MS F Значимость F
Регрессия 1,3327 1,3327 18,93 0,001847
Остаток 0,6336 0,0704
Итого 1,9663
Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95%
Y -пересечение 8,141 0,946 8,609 0,0000123 6,002 10,280
Переменная lnX -0,864 0,198 -4,351 0,0018473 -1,313 -0,415

Качество линеаризованного уравнения довольно высокое (R 2 =0,678). Этот вывод подтверждается и с точки зрения критерия Фишера (напомним, что для линеаризованных моделей, при определённых оговорках, можно применить критерий Фишера). Однако в рассматриваемом случае МНК применялся не к y , а к их логарифмам lny , а это существенная разница. Проанализируем исходную, нелинеаризированную, модель.

45,295 -0,705 0,50 89,39 261,13 1,56 39,649 -23,351 545,29 89,39 475,50 58,90 38,696 17,696 313,13 1636,57 517,97 45,73 30,182 -4,818 23,21 699,84 977,95 15,96 -12,909 988,03 5038,18 4267,39 157,85 125,18 61,45 14,35

Из таблицы видно, что для данной модели

.

Следовательно, оценки исходной нелинейной модели будут смещёнными.

Для коэффициента детерминации можно получить два разных значения:

, или .

Это означает, что полученное уравнение достаточно хорошо описывает исходные данные и этот коэффициент выше, чем для коэффициента детерминации линейной регрессии. Хотя средний коэффициент аппроксимации не очень низкий .

Сделаем прогноз по полученному уравнению степенной модели и оценим его точность. При мощности двигателя x =70 л.с. расход топлива на 1 т-км составит

Коэффициент детерминации

Для оценки качества подбора линейной функции (близости расположения фактических данных к рассчитанной линии регрессии) рассчитывается квадрат линейного коэффициента корреляции , называемый коэффициентом детерминации.

Проверка осуществляется на основе исследования коэффициента детерминации и проведения дисперсионного анализа.

Регрессионная модель показывает, что вариация Y может быть объяснена вариацией независимой переменной Х и значением возмущения e. Мы хотим знать, насколько вариация Y обусловлена изменением Х и насколько она является следствием случайных причин. Другими словами, нам нужно знать, насколько хорошо рассчитанное уравнение регрессии соответствует фактическим данным, т.е. насколько мала вариация данных вокруг линии регрессии.

Для оценки степени соответствия линии регрессии нужно рассчитать коэффициент детерминации, суть которого можно хорошо уяснить, рассматривая разложение общей суммы квадратов отклонений переменной Y от среднего значения на две части – «объясненную» и «необъясненную» (рис. 4).

Из рис. 4 видно, что .

Возведем обе части этого равенства в квадрат и просуммируем по всем i от 1 до n .

Перепишем сумму произведений в виде:

Здесь использованы следующие свойства:

2) метод наименьших квадратов (МНК)исходит из условия:

необходимым условием существования минимума функции Q является равенство нулю ее первых частных производных по b 0 и b 1 .

.

Или .

Отсюда следует, что .



Y i


Рисунок 4. Структура вариации зависимой переменной Y

Таким образом, в результате будем иметь:

(1)

Общая сумма квадратов отклонений индивидуальных значений зависимой переменной Y от среднего значения вызвана влиянием множества причин, которые мы условно разделили на две группы: фактор Х и прочие факторы (случайные воздействия). Если фактор Х не оказывает влияния на результат (Y), то линия регрессии на графике параллельна оси абсцисс и . Тогда вся дисперсия зависимой переменной Y обусловлена воздействием прочих факторов, и общая сумма квадратов отклонений совпадает с остаточной суммой квадратов. Если же прочие факторы не влияют на результат, то Y связан с Х функционально, и остаточная сумма квадратов равна нулю. В этом случае сумма квадратов отклонений, объясненная регрессией, совпадает с общей суммой квадратов.

Разделим обе части уравнения (1) на левую часть (на общую сумму квадратов), получим:

(2)

Доля дисперсии зависимой переменной, объясненная регрессией, называется коэффициентом детерминации и обозначается R 2 . Из (2) коэффициент детерминации определяется:

. (3)

Величина коэффициента детерминации находится в пределах от 0 до 1 и служит одним из критериев проверки качества линейной модели. Чем больше доля объясненной вариации, тем соответственно меньше роль прочих факторов, следовательно, линейная модель хорошо аппроксимирует исходные данные, и ею можно пользоваться для прогноза значений результативного признака.

коэффициент детерминации принимает значения от нуля, когда х не влияют на У, до единицы, когда изменение У полностью объясняется изменением х . Таким образом, коэффициент детерминации характеризует «полноту» модели.

Преимущества коэффициента детерминации: он легко вычисляется, интуитивно понятен и имеет четкую интерпретацию. Но несмотря на это его использование иногда связано с проблемами:

· нельзя сравнивать величины R 2 для моделей с различными зависимыми переменными;

· R 2 всегда возрастает по мере включения новых переменных в модель. Это свойство R 2 может создавать у исследователя стимул необоснованно включать дополнительные переменные в модель, и в любом случае становится проблематичным определить, улучшает ли дополнительная переменная качество модели;

· R 2 малопригоден для оценки качества моделей временных рядов, т.к. в таких моделях его значение часто достигает величины 0,9 и выше; дифференциация моделей на основании данного коэффициента является трудновыполнимой задачей.

Одна из перечисленных проблем – увеличение R 2 при введении в модель дополнительных переменных – решается путем коррекции коэффициента на уменьшение числа степеней свободы в результате появления в модели дополнительных переменных.

Скорректированный коэффициент детерминации рассчитывается так:

, (4)

Как видно из формулы, при добавлении переменных будет увеличиваться только в том случае, если рост R 2 будет «перевешивать» увеличение количества переменных. Действительно,

т.е. доля остаточной дисперсии с включением новых переменных должна уменьшаться, но, умноженная на она, в то же время, будет расти с ростом числа включенных в модель переменных (р); в итоге, если положительный эффект от включения новых факторов «перевесит» изменение числа степеней свободы, то увеличится; в противном случае – может и уменьшиться.

Оценка качества уравнения (адекватности выбранной модели эмпирическим данным) производится с помощью F-теста. Суть оценки сводится к проверке нулевой гипотезы Н 0 о статистической незначимости уравнения регрессии и коэффициента детерминации. Для этого выполняется сравнение фактического F факт и критического (табличного) F табл значений F-критерия Фишера:

. (5)

В случае справедливости гипотезы

Н 0: b 0 = b 1 = … = b р = 0 (или R 2 истин = 0)

статистика F факт должна подчиняться F – распределению с числом степеней свободы числителя и знаменателя, соответственно равными

n 1 = р и n 2 = n – p – 1.

Табличное значение F-критерия для вероятности 0,95 (или 0,99) и числа степеней свободы n 1 = р, n 2 = n – p – 1 сравнивается с вычисленным; при выполнении неравенства F > F табл отвергается нулевая гипотеза о том, что истинное значение коэффициента детерминации равно нулю; это дает основание считать, что модель адекватна исследуемому процессу.

Для парной модели в критерии проверки для R 2 числителю соответствует одна степень свободы и (n – 2) степеней свободы соответствует знаменателю. Расчет F-критерия для проверки значимости R 2 выполняется следующим образом:



.

Обратившись к F-таблице, видим, что табличное значение при 5%-м уровне значимости для n 1 = 1 и n 2 = 50 составляет примерно 4. Так как расчетное значение F-критерия больше табличного, то при доверительной вероятности 0,95 отвергаем нулевую гипотезу о том, что истинное значение коэффициента детерминации равно нулю.

Таким образом, можно сделать вывод о том, что коэффициент детерминации (а значит, и модель в целом) являются статистически надежным показателем взаимосвязи рассматриваемых фондовых индексов.

Квадратный корень из величины коэффициента детерминации для парной модели является коэффициентом корреляции – показателем тесноты связи.

Третья стадия – проверка выполнимости основных предпосылок классической регрессии – предмет дальнейшего изучения .


Top