30. Какую линейную регрессионную модель называют адекватной?
Действия, выполняемые в данном случае, представляют собой процесс (этап) верификации модели регрессии, т.е. процесс, в ходе которого подвергается анализу качество полученной модели.
Допустим, имеется уравнение регрессии в линейном или нелинейном виде. Значения определяемые уравнением - i , тогда фактические значения можно представить как:
yi = i + ei , |
|
где ei - случайная (остаточная) компонента.
Анализ остаточной компоненты (остаточного ряда) позволяет оценить качество полученнного уравнения регрессии. Качество характеризуется выполнением определенных статистических свойств и точностью, т.е. степенью близости к фактическим данным. Модель считается хорошей со статистической точки зрения, если она адекватна и достаточно точна. Смысл используемых терминов характеризуют рисунки 6.6 и 6.7.
|
|
Рисунок 6.6 – Пример модели регрессии (модель адекватна, но не точна) | Рисунок 6.7 – Пример модели регрессии (модель точна, но не адекватна) |
Оценить адекватность модели позволяет анализ случайной компоненты ei. Модель считается адекватной исследуемому процессу, если:
1) математическое ожидание значений остаточного ряда близко или равно нулю;
2) значения остаточного ряда случайны;
3) независимы;
4) подчинены нормальному закону распределения.
Таким образом, анализ адекватности модели разбивается на несколько этапов.
1. Равенство нулю математического ожидания ряда остатков означает выполнение следующего соотношения:
|
|
Однако в случае применения метода наименьших квадратов такая проверка является излишней, поскольку использование МНК предполагает выполнение равенства , откуда безусловным образом следует равенство нулю математического ожидания значений остаточного ряда.
2. Проверка случайности последовательности ei проводится с помощью критерия пиков (поворотных точек). Каждое значение ряда (ei) сравнивается с двумя, рядом стоящими. Точка считается поворотной, если она либо больше и предыдущего и последующего значения, либо меньше и предыдущего и последующего значения.
В случайном ряду должно выполняться строгое неравенство:
, | (6.14) |
где p - число поворотных точек;
[ ] - целая часть результата вычислений.
3. При проверке независимости значений ei определяется отсутствие в остаточном ряду автокорреляции, под которой понимается корреляция между элементами одного и того же числового ряда. В нашем случае автокорреляция - это корреляция ряда e1, e2, e3 ... с рядом eL+1, eL+2, eL+3 ... Число L характеризует запаздывание (лаг). Корреляция между соседними членами ряда (т.е. когда L = 1) называется автокорреляцией первого порядка. Далее для остаточного ряда будем рассматривать зависимость между соседними элементами ei.
Значительная автокорреляция говорит о том, что спецификация регрессии выполнена неправильно (неправильно определен тип зависимости).
Наличие автокорреляции может быть выявлено при помощи d-критерия Дарбина-Уотсона. Значение критерия вычисляется по формуле:
. | (6.15) |
Эта величина сравнивается с двумя табличными уровнями: нижним - d1 и верхним - d2. Соответствующая статистическая таблица приведена в приложении A. Если полученное значение d больше двух, то перед сопоставлением его нужно преобразовать:
d' = 4 - d. |
|
Если d (или d') находится в интервале от нуля до d1 , то значения остаточного ряда сильно автокоррелированы.
Если значение d-критерия попадает в интервал от d2 до 2, то автокорреляция отсутствует.
Если d1 < d< d2 - однозначного вывода об отсутствии или наличии автокорреляции сделать нельзя и необходимо использовать другой критерий, например, коэффициент автокорреляции первого порядка:
. | (6.16) |
Если |r(1)| окажется меньше табличного (при n<15 rтабл = 0,36), то гипотеза о наличии автокорреляции отвергается.
4. Соответствие остаточного ряда нормальному распределению проще всего проверить при помощи RS-критерия:
, | (6.17) |
где emax - максимальное значение ряда остатков;
emin - минимальное значение ряда остатков;
- среднеквадратическое отклонение значений остаточного ряда.
Если рассчитанное значение попадает между табулированными границами с заданным уровнем вероятности, то гипотеза о нормальном распределении принимается. Соответствующая статистическая таблица приведена в приложении Б.
Для характеристики точности модели наиболее часто вычисляют среднюю относительную ошибку:
. | (6.18) |
В отношении величины средней относительной ошибки, как правило, делают следующие выводы. Величина менее 5% свидетельствует о хорошем уровне точности, ошибка до 15% считается приемлемой.
- Контрольные вопросы по курсу «Математическая статистика»
- Что называют дискретным вариационным рядом? Интервальным вариационным рядом? Что называют частостями вариационного ряда? Что называют накопленной частотой и накопленной частостью?
- Пример:
- 2. Что называют полигоном вариационного ряда? Что называют гистограммой частот (частостей) вариационного ряда? Что называют кумулятой вариационного ряда?
- Медиана
- Коэффициент вариации
- Дайте определения начальных и центральных моментов вариационного ряда. Дайте определение коэффициента асимметрии вариационного ряда. Дайте определение эксцесса вариационного ряда.
- Что понимается под генеральной совокупностью? Что понимается под случайной выборкой из генеральной совокупности?
- 6. Каковы основные задачи математической статистики?
- 7. Дайте определение выборочной функции распределения. Дайте определение выборочной средней арифметической. Дайте определение выборочной дисперсии.
- 8. Дайте определение выборочных начальных и центральных моментов.
- Дайте определение статистического ряда выборки.
- 10. Дайте определение эмпирической функции распределения. Дайте определение эмпирической плотности распределения.
- 20. Какова цель дисперсионного анализа? Запишите модель однофакторного дисперсионного анализа.
- 21. Что понимают под уровнем фактора? (ответ в Вопросе 22)
- 22. Как ставится основная гипотеза в случае однофакторного дисперсионного анализа?
- 23. Что такое вектор входных переменных (факторов), вектор выходных переменных (откликов)?
- 24. Что называют корреляционным полем, корреляционной таблицей?
- 26. Какую функцию называют функцией регрессии? Какие переменные называют входными (факторами), выходными (откликами)? Какую регрессионную модель называют линейной?
- 27. Сформулируйте исходные предположения метода наименьших квадратов.
- В чем состоит анализ регрессионной модели?
- 29. Какую статистику используют для проверки значимости модели регрессии?
- 30. Какую линейную регрессионную модель называют адекватной?