logo
Статистика Гусаров

9.2.2.2. Двухмерная линейная модель корреляционного и регрессионного анализа (однофакторный линейный корреляционный и регрессионный анализ)

Наиболее разработанной в теории статистики является методология так называемой парной корреляции,рассматривающая влияние вариации факторного признака х на результативный признак у и представляющая собойоднофакторный корреляционный и регрессионный анализ.Овладение теорией и практикой построения и анализа двухмерной модели корреляционного и регрессионного анализа представляет собой исходную основу для изучения многофакторных стохастических связей.

Важнейшим этапом построения регрессионной модели (уравнения регрессии) является установление в анализе исходной информации математической функции. Сложность заключается в том, что из множества функций необходимо найти такую, которая лучшедругих выражает реально существующие связи между анализируемыми признаками. Выбор типа функции может опираться на теоретические знания об изучаемом явлении, опыт предыдущих аналогичных исследований, или осуществляться эмпирически - перебором и оценкой функций разных типов и т.п.

При изучении связи экономических показателей производства (деятельности) используют различного вида уравнения прямолинейной и криволинейной связи. Внимание к линейным связям объясняется ограниченной вариацией переменных и тем, что в большинстве случаев нелинейные формы связи для выполнения расчетов преобразуют (путем логарифмирования или замены переменных) в линейную форму. Уравнение однофакторной (парной) линейной корреляционной связиимеет вид:

ŷ = a0 + a1x

где ŷ - теоретические значения результативного признака, полученные по уравнению регрессии;

a0, a1- коэффициенты (параметры) уравнения регрессии.

Поскольку a0является средним значением у в точке x = 0 экономическая интерпретация часто затруднена или вообще невозможна.

Коэффициент парной линейной регрессии a1имеет смыслпоказателя силы связимежду вариацией факторного признака х и вариацией результативного признака у. Уравнение (9.2)

189

показывает среднее значение изменения результативного признака у при изменении факторного признака х на одну единицу его измерения, т. е. вариацию у , приходящуюся на единицу вариации х . Знак #ALARM-FONT# указывает направление этого изменения.

Параметры уравнения a0, a1находятметодом наименьших квадратов(метод решения систем уравнений, при котором в качестве решения принимается точка минимума суммы квадратов отклонений), т. е. в основу этого метода положено требование минимальности сумм квадратов отклонений эмпирических данныхyiот выровненных ŷ:

Для нахождения минимума данной функции приравняем к нулю ее частные производные и получим систему двух линейных уравнений, которая называется системой нормальных уравнений:

Решим эту систему в общем виде:

Параметры уравнения парной линейной регрессии иногда удобно исчислять по следующим формулам, дающим тот же результат:

Определив значения a0,a1и подставив их в уравнение связи ŷ =a0+a1находим значения ŷ, зависящие только от заданного значения х .

Пример 1.Рассмотрим построение однофакторного уравнения регрессии зависимости производительности труда у от стажа работы х по данным табл. 9.1 (10 рабочих одной бригады заняты производством радиоэлектронных изделий, данные ранжированы по стажу их работы).

190

Исходя из экономических соображений стаж работы выбран в качестве независимой переменной х . Сопоставление данных параллельных рядов признаков х и у (табл. 9.1) показывает, что с возрастанием признака х (стажа работы), растет, хотя и не всегда, результативный признак у (производительность труда). Следовательно, между х и у существует прямая зависимость, пусть неполная, но выраженная достаточно ясно.

Для уточнения формы связи между рассматриваемыми признаками используем графический метод. Нанесем на график точки, соответствующие значениям х, y, получим корреляционное поле, а соединив их отрезками, - ломаную регрессии1(рис. 9.1).

Анализируя ломаную линию, можно предположить, что возрастание выработки у идет равномерно, пропорционально росту стажа работы рабочих х . В основе этой зависимости в данных конкретных условиях лежит прямолинейная связь (см. пунктирную линию на рис. 9.1), которая может быть выражена простым линейным уравнением регрессии:

ŷ = a0+ a1

где ŷ - теоретические расчетные значения результативного признака (выработки одного рабочего, шт.), полученные по уравнению регрессии;

191

a0, a1- неизвестные параметры уравнения регрессии;

x - стаж работы рабочих, годы.

Пользуясь расчетными значениями (см. табл. 9.1), исчислим параметры для данного уравнения регрессии:

Следовательно, регрессионная модель распределения выработки по стажу работы для данного примера может быть записана в виде конкретного простого уравнения регрессии:

ŷ = 4,0 + 0,6

Это уравнение характеризует зависимость среднего уровня выработки рабочими бригады от стажа работы. Расчетные значения у , найденные по данному уравнению, приведены в табл. 9.1. Правильность расчета параметров уравнения регрессии может быть проверена сравнением сумм ∑y = ∑ŷ (при этом возможно некоторое расхождение вследствие округления расчетов).

1 Данный метод эффективен лишь при небольшом объеме совокупности и достаточно тесной связи между признаками. Более наглядную характеристику связи можно получить, построив ломаную регрессии по частным средним.