logo
ВОПРОСЫ контр матстат

30. Какую линейную регрессионную модель называют адекватной?

Действия, выполняемые в данном случае, представляют собой процесс (этап) верификации модели регрессии, т.е. процесс, в ходе которого подвергается анализу качество полученной модели.

Допустим, имеется уравнение регрессии в линейном или нелинейном виде. Значения определяемые уравнением - i , тогда фактические значения можно представить как:

yi = i + ei ,

 

где ei - случайная (остаточная) компонента.

Анализ остаточной компоненты (остаточного ряда) позволяет оценить качество полученнного уравнения регрессии. Качество характеризуется выполнением определенных статистических свойств и точностью, т.е. степенью близости к фактическим данным. Модель считается хорошей со статистической точки зрения, если она адекватна и достаточно точна. Смысл используемых терминов характеризуют рисунки 6.6 и 6.7.

Рисунок 6.6 – Пример модели регрессии (модель адекватна, но не точна)

Рисунок 6.7 – Пример модели регрессии (модель точна, но не адекватна)

Оценить адекватность модели позволяет анализ случайной компоненты ei. Модель считается адекватной исследуемому процессу, если:

1) математическое ожидание значений остаточного ряда близко или равно нулю;

2) значения остаточного ряда случайны;

3) независимы;

4) подчинены нормальному закону распределения.

Таким образом, анализ адекватности модели разбивается на несколько этапов.

1. Равенство нулю математического ожидания ряда остатков означает выполнение следующего соотношения:

 

Однако в случае применения метода наименьших квадратов такая проверка является излишней, поскольку использование МНК предполагает выполнение равенства , откуда безусловным образом следует равенство нулю математического ожидания значений остаточного ряда.

2. Проверка случайности последовательности ei проводится с помощью критерия пиков (поворотных точек). Каждое значение ряда (ei) сравнивается с двумя, рядом стоящими. Точка считается поворотной, если она либо больше и предыдущего и последующего значения, либо меньше и предыдущего и последующего значения.

В случайном ряду должно выполняться строгое неравенство:

,

(6.14)

где p - число поворотных точек;

[ ] - целая часть результата вычислений.

3. При проверке независимости значений ei определяется отсутствие в остаточном ряду автокорреляции, под которой понимается корреляция между элементами одного и того же числового ряда. В нашем случае автокорреляция - это корреляция ряда e1, e2, e3 ... с рядом eL+1, eL+2, eL+3 ... Число L характеризует запаздывание (лаг). Корреляция между соседними членами ряда (т.е. когда L = 1) называется автокорреляцией первого порядка. Далее для остаточного ряда будем рассматривать зависимость между соседними элементами ei.

Значительная автокорреляция говорит о том, что спецификация регрессии выполнена неправильно (неправильно определен тип зависимости).

Наличие автокорреляции может быть выявлено при помощи d-критерия Дарбина-Уотсона. Значение критерия вычисляется по формуле:

.

(6.15)

Эта величина сравнивается с двумя табличными уровнями: нижним - d1 и верхним - d2. Соответствующая статистическая таблица приведена в приложении A. Если полученное значение d больше двух, то перед сопоставлением его нужно преобразовать:

d' = 4 - d.

 

Если d (или d') находится в интервале от нуля до d1 , то значения остаточного ряда сильно автокоррелированы.

Если значение d-критерия попадает в интервал от d2 до 2, то автокорреляция отсутствует.

Если d1 < d< d2 - однозначного вывода об отсутствии или наличии автокорреляции сделать нельзя и необходимо использовать другой критерий, например, коэффициент автокорреляции первого порядка:

.

(6.16)

Если |r(1)| окажется меньше табличного (при n<15 rтабл = 0,36), то гипотеза о наличии автокорреляции отвергается.

4. Соответствие остаточного ряда нормальному распределению проще всего проверить при помощи RS-критерия:

,

(6.17)

где emax - максимальное значение ряда остатков;

emin - минимальное значение ряда остатков;

- среднеквадратическое отклонение значений остаточного ряда.

Если рассчитанное значение попадает между табулированными границами с заданным уровнем вероятности, то гипотеза о нормальном распределении принимается. Соответствующая статистическая таблица приведена в приложении Б.

Для характеристики точности модели наиболее часто вычисляют среднюю относительную ошибку:

.

(6.18)

В отношении величины средней относительной ошибки, как правило, делают следующие выводы. Величина менее 5% свидетельствует о хорошем уровне точности, ошибка до 15% считается приемлемой.

39