Проверка значимости модели с использованием коэффициента детерминации. Проверка значимости модели множественной регрессии и ее параметров

Cтраница 1


Значимость модели для решения конкретных исследовательских задач заключается в том, что она позволяет дать количественную оценку скрытых параметров, отражающих динамику двухпродуктовых систем. При решении таких задач понятия внутреннего (продукта I рода) и внешнего (продукта II рода) могут меняться. Так, в построенной В. М. Глушковым с сотрудниками (1979) модели биосинтеза белка роль продуктов I и II рода играют регуляторные и структурные белки, в модели иммунного ответа - соответственно стволовые клетки и лимфоциты, в модели регуляции сердечных сокращений - вещества, которые доставляются миокардиоцитам соответственно через коронарные сосуды и через аорту.  

Оценка значимости модели дается через / - критерий и / J2 для каждого уравнения в отдельности.  

Предположение о значимости модели основывается на двух положениях.  

Все это не умаляет значимости модели. Естественно, без йот немыслимо сущостжшание музыки.  

Наконец, максимальному ограничению значимости договорной модели как таковой способствовало то, что почти все действовавшие в этой области нормы носили абсолютно обязательный (императивный) характер.  

Применение дисперсионного анализа в дополнение к регрессионному позволяет оценить не только значимость модели в целом, но и значимость частных зависимостей.  

Из приведенных данных также следует, что при разбуривании более твердых пород значимости модели выше. Доказательство значимости полученной модели подтверждает гипотезу о нелинейной зависимости рассматриваемых параметров.  

Несмотря на успехи в развитии теории принятия решений она еще долго, по-видимому, будет находиться на промежуточном месте между искусством - умением принимать решения, присущим данному носителю решений, - и наукой как системой принципов, общих положений, процедур и методов. Однако это не снижает актуальности книги: число систем человек - ЭВМ будет увеличиваться, значение принятий решений в сложных ситуациях будет расти, и человек будет все более затрудняться решать соответствующие задачи старыми (точными и вероятностными) методами. Поэтому значимость моделей, использующих формализованные неопределенности на основе идей, отличных от математики случая, может только увеличиваться.  

При индуктивном подходе, характерном для процесса моделирования в рамках анализа хозяйственной деятельности, модель получается путем обобщения наблюдений по единичным частным фактам, учет которых считается важным для принятия решений. Индуктивным путем разрабатываются модели для решения конкретных проблем управления экономикой. Модели включают в себя учет специфических исторически сформированных свойств моделируемого процесса. Основной проблемой составления индуктивных моделей является выбор из совокупности единичных наблюдений тех, которые определяют сущность принимаемого решения, и представление их структуры и связей в формализованном виде. Значимость индуктивных моделей состоит в том, что путем упрощенного описания взаимосвязей информация, содержащаяся в большой совокупности наблюдений, будет представлена в наглядном и сжатом виде. Качество индуктивных моделей не определяется точностью копирования комплексной реальности путем символических систем, а зависит от того, насколько удается, с одной стороны, так упростить модель, чтобы добиться решения проблемы с приемлемыми затратами, но, с другой стороны, отразить основные свойства реальности.  

Если такого рода трудовые соглашения фиксируют уровень заработной платы, то когда ее рыночный уровень отклоняется от уровня, ожидаемого работниками и работодателями при подписании контракта, тогда и для работников, и для работодателей было бы оптимальным изменить установленную номинальную заработную плату. Следовательно, при том, что условия на рынке труда постоянно изменяются, было бы логичным предположить, что с течением времени подобные трудовые соглашения перестанут существовать. Работники и работодатели придут к тому, что номинальную заработную плату нужно менять каждый день, что приведет к эластичной изменчивости номинальной заработной платы в соответствии с динамикой спроса и предложения на рынке труда. На самом деле подтверждением верности подобной критики служит резкое сокращение деятельности профсоюзов в отраслях США в конце 1970 - х - 1980 - е годы. Конечно же, работники, не состоящие в профсоюзах, часто имеют официальные или неофициальные трудовые соглашения с работодателями, но некоторые экономисты считают, что подобное снижение доли состоящих в профсоюзах является подтверждением снижения значимости модели коллективных договоров для экономики США.  

Оценка качества модели по критериям Стьюдента и Фишера будет проводиться путём сравнения расчетных значений с табличными.

Для оценки качества модели по критерию Стьюдента фактическое значение этого критерия (t набл)

сравнивается с критическим значением t кр которое берется из таблицы значений t с учетом заданного уровня значимости (α = 0.05 ) и числа степеней свободы (n - 2) .

Если t набл > t кр, то полученное значение коэффициента парной корреляции признается значимым.

Критическое значение при и равно .

Проверим значимость коэффициента детерминации, используя F ‑критерий Фишера.

Вычислим статистику F по формуле:

m = 3 – число параметров в уравнении регрессии;

N = 37 – число наблюдений в выборочной совокупности.

Математической моделью статистического распределения F -статистики является распределение Фишера с и степенями свободы. Критическое значение этой статистики при и и степенях свободы равно .

Критерий Фишера
F расч F кр Уравнение регрессии
8916.383 3.276 адекватно

Таким образом, модель объясняет 99.8% общей дисперсии признака Y . Это указывает на то, что подобранная модель является адекватной.


Расчет прогнозных значений и суммы квадратов отклонений.

Введем в ячейку Q2 формулу =$F$54*N2+$E$54*O2 (расчет прогнозных значений), затем скопируем ее в ячейки Q3:Q38 . В ячейку R2 формулу =(P2-Q2)^2 (расчет суммы квадратов отклонений), затем скопируем ее в ячейки R3:R38 , и подсчитаем сумму полученных значений в ячейке R39 .

X 2 X 5 Y y(x) (Y - y(x)) 2
605.1 2063.2 1626.7 1589.7 1367.523
620.1 2143.7 1602.5 1650.5 2303.318
2447.7 1880.7 1914.5 1144.709
862.1 2406.4 1982.7 1876.9 11189.53
958.4 2592.9 2026.7 106.5821
1488.9 2193.9 2180.4 182.342
1231.5 2529.7 2152.1 2020.4 17335.88
1429.6 2644.9 2133.1 8814.026
1679.5 2793.7 2344.4 2277.8 4436.216
1326.2 2669.2 2341.7 2135.8 42415.15
1456.8 2211.9 2282.7 5014.463
2523.6 2990.5 2629.8 2543.9 7377.384
2659.8 2017.5 2059.0 1722.637
923.8 2636.6 2009.4 2053.4 1939.955
1173.3 2943.1 2312.8 2792.24
1156.7 2890.9 2400.1 2272.4 16298.85
1450.2 3051.5 2508.1 2432.0 5784.146
1845.2 2684.1 2633.3 2581.453
1566.4 3052.6 2736.6 2449.8 82275.65
1729.7 3349.7 2824.5 2689.8 18152.31
1987.3 3456.3 2880.2 2804.9 5676.928
1902.7 3731.2 2812.9 2992.6 32297.9
1839.1 3517.8 2704.2 2828.0 15336.69
3953.7 3823.1 3224.2 3358.1 17922.28
1351.2 3482.9 2584.7 2731.6 21584.07
1185.3 3347.6 2466.7 2609.0 20246.66
1715.5 3585.4 2928.3 2859.2 4768.047
1536.4 3678.3 3036.4 2900.8 18389.81
1823.1 3801.6 3021.1 3032.3 124.6986
2452.1 4002.1 3237.6 3269.8 1034.273
2076.6 3990.3 3247.1 3206.5 1647.633
2129.2 3436.9 3375.5 3767.099
2502.7 4154.2 3472.8 3387.8 7220.377
2238.7 4322.7 3504.1 3472.0 1028.291
2417.6 4623.1 3357.1 3716.7 129321.2
3838.4 4817.9 4034.7 4065.3 937.7363
1468.6 3450.4 3585.0 18128.14
532666.2



Форма отчета

Варианты

Тарифы на размещение рекламы и характеристики журналов
Название журнала Y, тариф (одна страница цветной рекламы), дол. X 1 , планируемая аудитория, тыс. человек Х 2 , процент мужчин Х 3 , медиана дохода семьи, дол
Audubon 25 315 51,1 38 787
Better Homes & Gardens 198 000 34 797 22,1
Business Week 68,1 63 667
Cosmopolitan 15 452 17,3 44 237
Elle 55 540 12,5 47 211
Entrepreneur 40 355 2 476 60,4 47 579
Esquire 71,3 44 715
Family Circle 147 500 24 539 38 759
first For Women 28 059 3 856 3,6 43 850
Forbes 59 340 68,8 66 606
Fortune 3 891 68,8 58 402
Glamour 85 080 7,8
Goff Digest 6 250 78,9
Good Housekeeping 166 080 25 306 12,6 38 335
Gourmet 49 640 29,6 57 060
Harper"s Bazaar 52 805 2 621 11,5 44 992
Inc. 70 825 66,9
Kiplinger"s Personal Finance 65,1 63 876
Ladies" Home Journal 127 000 6,8
Life 63 750 14 220 46,9
Mademoiselle 55 910
Martha Stewart"s Living 93 328 4 849 16,6
McCalls 7,6 33 823
Money 98 250 60,6
Motor Trend 79 800 5 281 88,5 48 739
National Geographic 44 326
Natural History
Newsweek 148 800 20 720 53,5 53 025
Parents Magazine 72 820 18,2
PC Computing 40 675 57 916
People 125 000 33 668
Popular Mechanics 86,9
Reader"s Digest 42,4 38 060
Redbook 95 785 13 212 8,9 41 156
Rolling Stone 78 920 8 638 59,8 43 212
Runner"s World 36 850 2 078 62,9 60 222
Scientific American 37 500 2 704
Seventeen 71 115 5 738 37 034
Ski 32 480 2 249 64,5 58 629
Smart Money 42 900 2 224 63,4
Smithsonian 73 075 8 253 47,9
Soap Opera Digest 35 070 7 227 10,3
Sports Illustrated 162 000 78,8 45 897
Sunset 56 000 5 276 38,7 52 524
Teen 53 250 3 057 15,4
The New Yorker 62 435 3 223 48,9
Time 162 000 22 798 52,4
True Story 12,2
TV Guide 42,8 37 396
U.S. News & World Report 98 644 9 825 57,5 52 018
Vanity Fair 67 890 4 307 27,7
Vogue 63 900 12,9 44 242
Woman"s Day 137 000 22 747 6,7
Working Woman 87 500 6,3 44 674
YM 73 270 14,4 43 696
Среднее значение 83 534 39,7 47 710
Среднеквадратическое отклонение 25,9 10 225

Контрольные вопросы

Парная регрессия

1. Что понимается под парной регрессией?

2. Какие задачи решаются при построении уравнения регрессии?

3. Какие методы применяются для выбора вида модели регрессии?

4. Какие функции чаще всего используются для построения уравнения пар-

5. ной регрессии?

6. Какой вид имеет система нормальных уравнений метода наименьших

7. квадратов в случае линейной регрессии?

8. Как вычисляется и что показывает индекс детерминации?

9. Как проверяется значимость уравнения регрессии?

10. Как проверяется значимость коэффициентов уравнения регрессии?

11. Понятие доверительного интервала для коэффициентов регрессии.

12. Понятие точечного и интервального прогноза по уравнению линейной регрессии.

13. Как вычисляются и что показывают коэффициент эластичности Э , средний коэффициент эластичности Ý ?

Множественная регрессия

1. Что понимается под множественной регрессией?

2. Чем отличается модель множественной линейной регрессии от модели парной линейной регрессии? Запишите уравнение множественной линейной регрессии.

3. Какие задачи решаются при построении уравнения регрессии?

4. Какие задачи решаются при спецификации модели?

5. Какие требования предъявляются к факторам, включаемым в уравнение регрессии?

6. Что понимается под коллинеарностью факторов?

7. Как проверяется наличие коллинеарности?

8. Какие подходы применяются для преодоления межфакторной корреляции?

9. Какие функции чаще используются для построения уравнения множественной регрессии?

10. По какой формуле вычисляется индекс множественной корреляции?

11. Как вычисляются индекс множественной детерминации?

12. Что такое коэффициент детерминации? Как с его помощью оценивается адекватность модели?

13. Что означает низкое значение коэффициента множественной корреляции?

14. Как проверяется значимость уравнения регрессии и отдельных коэффициентов?

15. Как строятся гипотезы о проверке значимости параметров модели?

16. Как строятся частные уравнения регрессии?

17. Как вычисляются средние частные коэффициенты эластичности?

18. Как строятся доверительные интервалы для параметров модели?

19. Что понимается под гомоскедастичностью ряда остатков?

20. Как проверяется гипотеза о гомоскедастичности ряда остатков?

21. Как называют зависимую переменную в модели?

22. Как называют независимые переменные в модели?

23. Назовите основной метод построения модели.

24. Запишите модель множественной регрессии в общем виде с 3 незав.переменными

25. Запишите сумму квадратов отклонений модели(формула)

26. Что такое RSS?(определение и формула)

27. Как проверить значимость построенной модели в целом?

28. Как проверить значимость коэффициента при переменной X_3?

29. Сфомулируйте экономический смысл коэффициента например при переменно X_5

30. Что такое "короткая модель"множественной регрессии

Литература

1. Шанченко, Н. И.Эконометрика: лабораторный практикум: учебное пособие /Н. И. Шанченко. – Ульяновск: УлГТУ, 2011. – 117 с.

2. Давнис В.В., Тинякова В.И. Компьютерный практикум по эконометрическому моделированию. Воронеж, 2003. - 63 с.


Исходные данные характеризуют цену продажи некоторого товара в отдельные моменты времени. Необходимо построить регрессионную модель динамики изменения данного показателя. Факторы, предположительно оказывающие влияние на данную величину, включают цену продажи товара-субститута, объем продажи товара, объем затрат на рекламу, средние затраты на рекламу.

Цена продажи – зависимая величина, обозначим ее Y.

Факторы, влияющие (предположительно) на величину Y обозначим X i: X 1 – цена товара-субститута, X­ 2 – объем продаж, X­ 3 – объем затрат на рекламу, X­ 4 - средние затраты на рекламу.

Исходные данные

25.07.16 Ирина Аничина

33095 0

В данной статье мы поговорим о том, как понять, качественную ли модель мы построили. Ведь именно качественная модель даст нам качественные прогнозы.

Prognoz Platform обладает обширным списком моделей для построения и анализа. Каждая модель имеет свою специфику и применяется при различных предпосылках.

Объект «Модель» позволяет построить следующие регрессионные модели:

  • Линейная регрессия (оценка методом наименьших квадратов);
  • Линейная регрессия (оценка методом инструментальных переменных);
  • Модель бинарного выбора (оценка методом максимального правдоподобия);
  • Нелинейная регрессия (оценка нелинейным методом наименьших квадратов).

Начнём с модели линейной регрессии. Многое из сказанного будет распространяться и на другие виды.

Модель линейной регрессии (оценка МНК)

где y – объясняемый ряд, x 1 , …, x k – объясняющие ряды, e – вектор ошибок модели, b 0 , b 1 , …, b k – коэффициенты модели.

Итак, куда смотреть?

Коэффициенты модели

Для каждого коэффициента на панели «Идентифицированное уравнение» вычисляется ряд статистик: стандартная ошибка, t -статистика , вероятность значимости коэффициента . Последняя является наиболее универсальной и показывает, с какой вероятностью удаление из модели фактора, соответствующего данному коэффициенту, не окажется значимым.

Открываем панель и смотрим на последний столбец, ведь он – именно тот, кто сразу же скажет нам о значимости коэффициентов.

Факторов с большой вероятностью незначимости в модели быть не должно.

Как вы видите, при исключении последнего фактора коэффициенты модели практически не изменились.

Возможные проблемы: Что делать, если согласно вашей теоретической модели фактор с большой вероятностью незначимости обязательно должен быть? Существуют и другие способы определения значимости коэффициентов. Например, взгляните на матрицу корреляции факторов.

Матрица корреляции

Панель «Корреляция факторов» содержит матрицу корреляции между всеми переменными модели, а также строит облако наблюдений для выделенной пары значений.

Коэффициент корреляции показывает силу линейной зависимости между двумя переменными. Он изменяется от -1 до 1. Близость к -1 говорит об отрицательной линейной зависимости, близость к 1 – о положительной.

Облако наблюдений позволяет визуально определить, похожа ли зависимость одной переменной от другой на линейную.

Если среди факторов встречаются сильно коррелирующие между собой, исключите один из них. При желании вместо модели обычной линейной регрессии вы можете построить модель с инструментальными переменными, включив в список инструментальных исключённые из-за корреляции факторы.

Матрица корреляции не имеет смысла для модели нелинейной регрессии, поскольку она показывает только силу линейной зависимости.

Критерии качества

Помимо проверки каждого коэффициента модели важно знать, насколько она хороша в целом. Для этого вычисляют статистики, расположенные на панели «Статистические характеристики».

Коэффициент детерминации (R 2 ) – наиболее распространённая статистика для оценки качества модели. R 2 рассчитывается по следующей формуле:

где n – число наблюдений; y i — значения объясняемой переменной; — среднее значение объясняемой переменной; i — модельные значения, построенные по оцененным параметрам.

R 2 принимает значение от 0 до 1 и показывает долю объяснённой дисперсии объясняемого ряда. Чем ближе R 2 к 1, тем лучше модель, тем меньше доля необъяснённого.

Возможные проблемы: Проблемы с использованием R 2 заключаются в том, что его значение не уменьшается при добавлении в уравнение факторов, сколь плохи бы они ни были. Он гарантированно будет равен 1, если мы добавим в модель столько факторов, сколько у нас наблюдений. Поэтому сравнивать модели с разным количеством факторов, используя R 2 , не имеет смысла.

Для более адекватной оценки модели используется скорректированный коэффициент детерминации (Adj R 2 ) . Как видно из названия, этот показатель представляет собой скорректированную версию R 2 , накладывая «штраф» за каждый добавленный фактор:

где k – число факторов, включенных в модель.

Коэффициент Adj R 2 также принимает значения от 0 до 1, но никогда не будет больше, чем значение R 2 .

Аналогом t -статистики коэффициента является статистика Фишера (F -статистика) . Однако если t -статистика проверяет гипотезу о незначимости одного коэффициента, то F -статистика проверяет гипотезу о том, что все факторы (кроме константы) являются незначимыми. Значение F -статистики также сравнивают с критическим, и для него мы также можем получить вероятность незначимости. Стоит понимать, что данный тест проверяет гипотезу о том, что все факторы одновременно являются незначимыми. Поэтому при наличии незначимых факторов модель в целом может быть значима.

Возможные проблемы: Большинство статистик строится для случая, когда модель включает в себя константу. Однако в Prognoz Platform мы имеем возможность убрать константу из списка оцениваемых коэффициентов. Стоит понимать, что такие манипуляции приводят к тому, что некоторые характеристики могут принимать недопустимые значения. Так, R 2 и Adj R 2 при отсутствии константы могут принимать отрицательные значения. В таком случае их уже не получится интерпретировать как долю, принимающую значение от 0 до 1.

Для моделей без константы в Prognoz Platform рассчитываются нецентрированные коэффициенты детерминации (R 2 и Adj R 2 ). Модифицированная формула приводит их значения к диапазону от 0 до 1 даже в модели без константы.

Посмотрим значения описанных критериев для приведённой выше модели:

Как мы видим, коэффициент детерминации достаточно велик, однако есть ещё значительная доля необъяснённой дисперсии. Статистика Фишера говорит о том, что выбранная нами совокупность факторов является значимой.

Сравнительные критерии

Кроме критериев, позволяющих говорить о качестве модели самой по себе, существует ряд характеристик, позволяющих сравнивать модели друг с другом (при условии, что мы объясняем один и тот же ряд на одном и том же периоде).

Большинство моделей регрессии сводятся к задаче минимизации суммы квадратов остатков (sum of squared residuals , SSR ) . Таким образом, сравнивая модели по этому показателю, можно определить, какая из моделей лучше объяснила исследуемый ряд. Такой модели будет соответствовать наименьшее значение суммы квадратов остатков.

Возможные проблемы: Стоит заметить, что с ростом числа факторов данный показатель так же, как и R 2 , будет стремиться к граничному значению (у SSR, очевидно, граничное значение 0).

Некоторые модели сводятся к максимизации логарифма функции максимального правдоподобия (LogL ) . Для модели линейной регрессии эти задачи приводят к одинаковому решению. На основе LogL строятся информационные критерии, часто используемые для решения задачи выбора как регрессионных моделей, так и моделей сглаживания:

  • информационный критерий Акаике (Akaike Information criterion , AIC )
  • критерий Шварца (Schwarz Criterion , SC )
  • критерий Ханнана-Куина (Hannan - Quinn Criterion , HQ )

Все критерии учитывают число наблюдений и число параметров модели и отличаются друг от друга видом «функции штрафа» за число параметров. Для информационных критериев действует правило: наилучшая модель имеет наименьшее значение критерия.

Сравним нашу модель с её первым вариантом (с «лишним» коэффициентом):

Как можно увидеть, данная модель хоть и дала меньшую сумму квадратов остатков, оказалась хуже по информационным критериям и по скорректированному коэффициенту детерминации.

Анализ остатков

Модель считается качественной, если остатки модели не коррелируют между собой. В противном случае имеет место постоянное однонаправленное воздействие на объясняемую переменную не учтённых в модели факторов. Это влияет на качество оценок модели, делая их неэффективными.

Для проверки остатков на автокорреляцию первого порядка (зависимость текущего значения от предыдущих) используется статистика Дарбина-Уотсона (DW ) . Её значение находится в промежутке от 0 до 4. В случае отсутствия автокорреляции DW близка к 2. Близость к 0 говорит о положительной автокорреляции, к 4 — об отрицательной.

Как оказалось, в нашей модели присутствует автокорреляция остатков. От автокорреляции можно избавиться, применив преобразование «Разность» к объясняемой переменной или воспользовавшись другим видом модели – моделью ARIMA или моделью ARMAX.

Возможные проблемы: Статистика Дарбина-Уотсона неприменима к моделям без константы, а также к моделям, которые в качестве факторов используют лагированные значения объясняемой переменной. В этих случаях статистика может показывать отсутствие автокорреляции при её наличии.

Модель линейной регрессии (метод инструментальных переменных)

Модель линейной регрессии с инструментальными переменными имеет вид:

где y – объясняемый ряд, x 1 , …, x k – объясняющие ряды, x ̃ 1 , …, x ̃ k – смоделированные при помощи инструментальных переменных объясняющие ряды, z 1 , …, z l – инструментальные переменные, e , j – вектора ошибок моделей, b 0 , b 1 , …, b k – коэффициенты модели, c 0 j , c 1 j , …, c lj – коэффициенты моделей для объясняющих рядов.

Схема, по которой следует проверять качество модели, является схожей, только к критериям качества добавляется J -статистика – аналог F -статистики, учитывающий инструментальные переменные.

Модель бинарного выбора

Объясняемой переменной в модели бинарного выбора является величина, принимающая только два значения – 0 или 1.

где y – объясняемый ряд, x 1 , …, x k – объясняющие ряды, e – вектор ошибок модели, b 0 , b 1 , …, b k – коэффициенты модели, F – неубывающая функция, возвращающая значения от 0 до 1.

Коэффициенты модели вычисляются методом, максимизирующим значение функции максимального правдоподобия. Для данной модели актуальными будут такие критерии качества, как:

  • Коэффициент детерминации МакФаддена (McFadden R 2 ) – аналог обычного R 2 ;
  • LR -статистика и её вероятность — аналог F -статистики;
  • Сравнительные критерии: LogL , AIC , SC , HQ.

Нелинейная регрессия

Под моделью линейной регрессии будем понимать модель вида:

где y – объясняемый ряд, x 1 , …, x k – объясняющие ряды, e – вектор ошибок модели, b – вектор коэффициентов модели.

Коэффициенты модели вычисляются методом, минимизирующим значение суммы квадратов остатков. Для данной модели будут актуальны те же критерии, что и для линейной регрессии, кроме проверки матрицы корреляций. Отметим ещё, что F-статистика будет проверять, является ли значимой модель в целом по сравнению с моделью y = b 0 + e , даже если в исходной модели у функции f (x 1 , …, x k , b ) нет слагаемого, соответствующего константе.

Итоги

Подведём итоги и представим перечень проверяемых характеристик в виде таблицы:

Надеюсь, данная статья была полезной для читателей! В следующий раз мы поговорим о других видах моделей, а именно ARIMA, ARMAX.

Коэффициент детерминации является статистикой, т.к.егозначения вычисляются по наблюденным данным. На основе коэффициента детерминации строится статистическая процедура, осуществляющая проверку, насколько значима линейная связь между факторами.

Статистика, проверяющая значимость всего уравнения регрессии имеет вид:

Получаем:

Возрастающим значениям статистики соответствуют и возрастающие значения статистики, поэтому гипотеза, не принимаемая при=, не принимается, если выполняется неравенство, где

Вероятность ошибочно отклонить гипотезу равна.

Вычислим критические значения при для разного количества наблюдений.

Рассмотрим простую линейную регрессию, так что

Критические значения, полученные в зависимости от числа наблюдений:

Т.е., при значительном количестве наблюдений даже малые отклонения фактического значения от 0 оказываются существенными для признания статистической значимости коэффициента регрессии, при содержательной объясняющей переменной.

Призначениесовпадает с квадратом коэффициента корреляции между переменными, такой же вывод верен и для коэффициента корреляции:

Рассмотрим теперь коэффициенты детерминации R 2 для полной и редуцированной модели. В полной модели значение R 2 всегда больше, чем в редуцированной, т.к. в полной модели с m объясняющими переменными минимизируем сумму

по всем значениям коэффициентов. При рассмотрении редуцированной модели, например, безm-ой объясняющей переменной, ищется минимум суммы

по всем значениям коэффициентов, Получаемое при этом значение минимума не может быть больше значения, получаемого при минимизации суммы отклонений по всем значениям, включая и значения. Отсюда и вытекает свойство коэффициента.

Для удобства процедуры выбора модели с использованием предлагается вместоиспользовать его скорректированную (adjusted) форму

в которой вводится штраф, связанный с увеличением числа объясняющих переменных. Получаем:

Таким образом, лучшей признается та из конкурирующих моделей, для которой принимает максимально возможное значение.

Если при сравнении конкурирующих моделей оценивание производится с использованием одинакового количества наблюдений, то сравнение моделей по величине эквивалентно сравнению этих моделей по значению или. При этом выбирается альтернативная модель с минимальным значением (или).

Кроме скорректированных коэффициентов детерминации, при выборе одной из нескольких альтернативных моделей используются информационные критерии, такие как критерий Шварца, критерий Акаике, «штрафующие» за увеличение объясняющих переменных, но несколько другими методами.

КритерийАкаике (Akaike"sinformationcriterion-AIC). Используя этот критерий линейная модель с объясняющими факторами, построенная по наблюдениям, сопоставляется сзначением

Остаточная сумма квадратов. Т.к. первое слагаемое с увеличениемчисла объясняющих переменных уменьшается, а второе слагаемое увеличивается, тоиз альтернативных моделей выбираем модель с наименьшим значением.Таким образом, достигается компромисс между остаточной суммой квадратов и числом объясняющих факторов.

КритерийШварца (Schwarz"sinformationcriterion-SC, SIC). Используя этот критерий линейная модель с объясняющими факторами, построенная по наблюдениям, сопоставляется сзначением

И здесь также как при использовании критерия Акаикеувеличение количества объясняющих факторов ведет к уменьшению первого слагаемогов правой части и к увеличению второго. Из полной и редуцированных альтернативных моделей выбирается модель с наименьшим значением.

Задание . По территориям региона приводятся данные за 199Х г.;
Номер региона Среднедушевой прожиточный минимум в день одного трудоспособного, руб., х Среднедневная заработная плата, руб., у
1 78 133
2 82 148
3 87 134
4 79 154
5 89 162
6 106 195
7 67 139
8 88 158
9 73 152
10 87 162
11 76 159
12 115 173
Требуется:
1. Построить линейное уравнение парной регрессии у от х.
2. Рассчитать линейный коэффициент парной корреляции и среднюю ошибку аппроксимации.
3. Оценить статистическую значимость параметров регрессии и корреляции.
4. Выполнить прогноз заработной платы у при прогнозном значении среднедушевого прожиточного минимума х, составляющем 107% от среднего уровня.
5. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал.

Решение находим с помощью калькулятора .
Использование графического метода .
Этот метод применяют для наглядного изображения формы связи между изучаемыми экономическими показателями. Для этого в прямоугольной системе координат строят график, по оси ординат откладывают индивидуальные значения результативного признака Y, а по оси абсцисс - индивидуальные значения факторного признака X.
Совокупность точек результативного и факторного признаков называется полем корреляции .
На основании поля корреляции можно выдвинуть гипотезу (для генеральной совокупности) о том, что связь между всеми возможными значениями X и Y носит линейный характер.
Линейное уравнение регрессии имеет вид y = bx + a + ε
Здесь ε - случайная ошибка (отклонение, возмущение).
Причины существования случайной ошибки:
1. Невключение в регрессионную модель значимых объясняющих переменных;
2. Агрегирование переменных. Например, функция суммарного потребления – это попытка общего выражения совокупности решений отдельных индивидов о расходах. Это лишь аппроксимация отдельных соотношений, которые имеют разные параметры.
3. Неправильное описание структуры модели;
4. Неправильная функциональная спецификация;
5. Ошибки измерения.
Так как отклонения ε i для каждого конкретного наблюдения i – случайны и их значения в выборке неизвестны, то:
1) по наблюдениям x i и y i можно получить только оценки параметров α и β
2) Оценками параметров α и β регрессионной модели являются соответственно величины а и b, которые носят случайный характер, т.к. соответствуют случайной выборке;
Тогда оценочное уравнение регрессии (построенное по выборочным данным) будет иметь вид y = bx + a + ε, где e i – наблюдаемые значения (оценки) ошибок ε i , а и b соответственно оценки параметров α и β регрессионной модели, которые следует найти.
Для оценки параметров α и β - используют МНК (метод наименьших квадратов).
Система нормальных уравнений.
Для наших данных система уравнений имеет вид
Из первого уравнения выражаем а и подставим во второе уравнение
Получаем b = 0.92, a = 76.98
Уравнение регрессии:
y = 0.92 x + 76.98

1. Параметры уравнения регрессии.
Выборочные средние.



Выборочные дисперсии:


Среднеквадратическое отклонение


Коэффициент корреляции
Рассчитываем показатель тесноты связи. Таким показателем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле:

Линейный коэффициент корреляции принимает значения от –1 до +1.
Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока :
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
В нашем примере связь между среднедневной заработной платы и среднедушевым прожиточным минимумом высокая и прямая.
1.2. Уравнение регрессии (оценка уравнения регрессии).

Линейное уравнение регрессии имеет вид y = 0.92 x + 76.98
Коэффициентам уравнения линейной регрессии можно придать экономический смысл.
Коэффициент b = 0.92 показывает среднее изменение результативного показателя (в единицах измерения у) с повышением или понижением величины фактора х на единицу его измерения. В данном примере с увеличением на 1 руб. среднедушевого прожиточного минимума в день среднедневная заработная плата повышается в среднем на 0.92.
Коэффициент a = 76.98 формально показывает прогнозируемый уровень Среднедневная заработная плата, но только в том случае, если х=0 находится близко с выборочными значениями.
Подставив в уравнение регрессии соответствующие значения х, можно определить выровненные (предсказанные) значения результативного показателя y(x) для каждого наблюдения.
Связь между среднедневной заработной платы и среднедушевого прожиточного минимума в день определяет знак коэффициента регрессии b (если > 0 – прямая связь, иначе - обратная). В нашем примере связь прямая.
Коэффициент эластичности.
Коэффициенты регрессии (в примере b) нежелательно использовать для непосредственной оценки влияния факторов на результативный признак в том случае, если существует различие единиц измерения результативного показателя у и факторного признака х.
Для этих целей вычисляются коэффициенты эластичности и бета - коэффициенты. Коэффициент эластичности находится по формуле:


Он показывает, на сколько процентов в среднем изменяется результативный признак у при изменении факторного признака х на 1%. Он не учитывает степень колеблемости факторов.
Коэффициент эластичности меньше 1. Следовательно, при изменении среднедушевого прожиточного минимума в день на 1%, среднедневная заработная плата изменится менее чем на 1%. Другими словами - влияние среднедушевого прожиточного минимума Х на среднедневную заработную плату Y не существенно.
Бета – коэффициент показывает, на какую часть величины своего среднего квадратичного отклонения изменится в среднем значение результативного признака при изменении факторного признака на величину его среднеквадратического отклонения при фиксированном на постоянном уровне значении остальных независимых переменных:

Т.е. увеличение x на величину среднеквадратического отклонения этого показателя приведет к увеличению средней среднедневной заработной платы Y на 0.721 среднеквадратичного отклонения этого показателя.
1.4. Ошибка аппроксимации.
Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации.


Поскольку ошибка меньше 15%, то данное уравнение можно использовать в качестве регрессии.
Коэффициент детерминации.
Квадрат (множественного) коэффициента корреляции называется коэффициентом детерминации, который показывает долю вариации результативного признака, объясненную вариацией факторного признака.
Чаще всего, давая интерпретацию коэффициента детерминации, его выражают в процентах.
R 2 = 0.72 2 = 0.5199
т.е. в 51.99 % случаев изменения среднедушевого прожиточного минимума х приводят к изменению среднедневной заработной платы y. Другими словами - точность подбора уравнения регрессии - средняя. Остальные 48.01% изменения среднедневной заработной платы Y объясняются факторами, не учтенными в модели.

x y x 2 y 2 x o y y(x) (y i -y cp) 2 (y-y(x)) 2 (x i -x cp) 2 |y - y x |:y
78 133 6084 17689 10374 148,77 517,56 248,7 57,51 0,1186
82 148 6724 21904 12136 152,45 60,06 19,82 12,84 0,0301
87 134 7569 17956 11658 157,05 473,06 531,48 2,01 0,172
79 154 6241 23716 12166 149,69 3,06 18,57 43,34 0,028
89 162 7921 26244 14418 158,89 39,06 9,64 11,67 0,0192
106 195 11236 38025 20670 174,54 1540,56 418,52 416,84 0,1049
67 139 4489 19321 9313 138,65 280,56 0,1258 345,34 0,0026
88 158 7744 24964 13904 157,97 5,06 0,0007 5,84 0,0002
73 152 5329 23104 11096 144,17 14,06 61,34 158,34 0,0515
87 162 7569 26244 14094 157,05 39,06 24,46 2,01 0,0305
76 159 5776 25281 12084 146,93 10,56 145,7 91,84 0,0759
115 173 13225 29929 19895 182,83 297,56 96,55 865,34 0,0568
1027 1869 89907 294377 161808 1869 3280,25 1574,92 2012,92 0,6902

2. Оценка параметров уравнения регрессии.
2.1. Значимость коэффициента корреляции.

По таблице Стьюдента с уровнем значимости α=0.05 и степенями свободы k=10 находим t крит:
t крит = (10;0.05) = 1.812
где m = 1 - количество объясняющих переменных.
Если t набл > t критич, то полученное значение коэффициента корреляции признается значимым (нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается).
Поскольку t набл > t крит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим.
В парной линейной регрессии t 2 r = t 2 b и тогда проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.

2.3. Анализ точности определения оценок коэффициентов регрессии.
Несмещенной оценкой дисперсии возмущений является величина:


S 2 y = 157.4922 - необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии).

12.5496 - стандартная ошибка оценки (стандартная ошибка регрессии).
S a - стандартное отклонение случайной величины a.


S b - стандартное отклонение случайной величины b.


2.4. Доверительные интервалы для зависимой переменной.
Экономическое прогнозирование на основе построенной модели предполагает, что сохраняются ранее существовавшие взаимосвязи переменных и на период упреждения.
Для прогнозирования зависимой переменной результативного признака необходимо знать прогнозные значения всех входящих в модель факторов.
Прогнозные значения факторов подставляют в модель и получают точечные прогнозные оценки изучаемого показателя.
(a + bx p ± ε)
где

Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и X p = 94

(76.98 + 0.92*94 ± 7.8288)
(155.67;171.33)
С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.
2.5. Проверка гипотез относительно коэффициентов линейного уравнения регрессии.
1) t-статистика. Критерий Стьюдента.
Проверим гипотезу H 0 о равенстве отдельных коэффициентов регрессии нулю (при альтернативе H 1 не равно) на уровне значимости α=0.05.
t крит = (10;0.05) = 1.812


Поскольку 3.2906 > 1.812, то статистическая значимость коэффициента регрессии b подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).


Поскольку 3.1793 > 1.812, то статистическая значимость коэффициента регрессии a подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).
Доверительный интервал для коэффициентов уравнения регрессии.
Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими:
(b - t крит S b ; b + t крит S b)
(0.9204 - 1.812 0.2797; 0.9204 + 1.812 0.2797)
(0.4136;1.4273)

(a - t lang=SV>a)
(76.9765 - 1.812 24.2116; 76.9765 + 1.812 24.2116)
(33.1051;120.8478)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.
2) F-статистики. Критерий Фишера.
Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели.
Если расчетное значение с k1=(m) и k2=(n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.

где m – число факторов в модели.
Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму:
1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически незначимо: H 0: R 2 =0 на уровне значимости α.
2. Далее определяют фактическое значение F-критерия:


где m=1 для парной регрессии.
3. Табличное значение определяется по таблицам распределения Фишера для заданного уровня значимости, принимая во внимание, что число степеней свободы для общей суммы квадратов (большей дисперсии) равно 1 и число степеней свободы остаточной суммы квадратов (меньшей дисперсии) при линейной регрессии равно n-2.
4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу.
В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-α) принимается альтернативная гипотеза о статистической значимости уравнения в целом.
Табличное значение критерия со степенями свободы k1=1 и k2=10, Fkp = 4.96
Поскольку фактическое значение F > Fkp, то коэффициент детерминации статистически значим (Найденная оценка уравнения регрессии статистически надежна).