logo
Корреляционный анализ основных показателей деятельности Сбербанка России

Глава 1. Сущность и назначение корреляционного метода изучения взаимосвязей между явлениями

Формы проявления взаимосвязей в экономике весьма разнообразны. В качестве двух самых общих их видов выделяют функциональную (полную) и корреляционную (неполную) связи. В первом случае величине факторного признака строго соответствует одно или несколько значений функции. Достаточно часто функциональная связь проявляется в физике, химии. В экономике примером может служить прямо пропорциональная зависимость между производительностью труда и увеличением производства продукции.

Корреляционная связь (которую также называют неполной, или статистической) проявляется в среднем, для массовых наблюдений, когда заданным значениям зависимой переменной соответствует некоторый ряд вероятных значений независимой переменной. Объяснение тому - сложность взаимосвязей между анализируемыми факторами, на взаимодействие которых влияют неучтенные случайные величины. Поэтому связь между признаками проявляется лишь в среднем, в массе случаев. При корреляционной связи каждому значению аргумента соответствуют случайно распределенные в некотором интервале значения функции.

Например, некоторое увеличение аргумента повлечет за собой лишь среднее увеличение или уменьшение (в зависимости от направленности) функции, тогда как конкретные значения у отдельных единиц наблюдения будут отличаться от среднего. Такие зависимости встречаются повсеместно. Например, в сельском хозяйстве это может быть связь между урожайностью и количеством внесенных удобрений. Очевидно, что последние участвуют в формировании урожая. Но для каждого конкретного поля, участка одно и то же количество внесенных удобрений вызовет разный прирост урожайности, так как во взаимодействии находится еще целый ряд факторов (погода, состояние почвы и др.), которые и формируют конечный результат. Однако в среднем такая связь наблюдается - увеличение массы внесенных удобрений ведет к росту урожайности.

По направлению связи бывают прямыми, когда зависимая переменная растет с увеличением факторного признака, и обратными, при которых рост последнего сопровождается уменьшением функции. Такие связи также можно назвать соответственно положительными и отрицательными.

Относительно своей аналитической формы связи бывают линейными и нелинейными. В первом случае между признаками в среднем проявляются линейные соотношения. Нелинейная взаимосвязь выражается нелинейной функцией, а переменные связаны между собой в среднем нелинейно.

Существует еще одна достаточно важная характеристика связей с точки зрения взаимодействующих факторов. Если характеризуется связь двух признаков, то ее принято называть парной. Если изучаются более чем две переменные - множественной.

Указанные выше классификационные признаки наиболее часто встречаются в статистическом анализе. Но кроме перечисленных различают также непосредственные, косвенные и ложные связи. Собственно, суть каждой из них очевидна из названия. В первом случае факторы взаимодействуют между собой непосредственно. Для косвенной связи характерно участие какой-то третьей переменной, которая опосредует связь между изучаемыми признаками. Ложная связь - это связь, установленная формально и, как правило, подтвержденная только количественными оценками. Она не имеет под собой качественной основы или же бессмысленна.

По силе различаются слабые и сильные связи. Эта формальная характеристика выражается конкретными величинами и рассматривается в соответствии с общепринятыми критериями силы связи для конкретных показателей.

В наиболее общем виде задача статистики в области изучения взаимосвязей состоит в количественной оценке их наличия и направления, а также характеристике силы и формы влияния одних факторов на другие. Для ее решения применяются две группы методов, одна из которых включает в себя методы корреляционного анализа, а другая - регрессионный анализ. В то же время ряд исследователей объединяет эти методы в корреляционно-регрессионный анализ, что имеет под собой некоторые основания: наличие целого ряда общих вычислительных процедур, взаимодополнения при рассмотрении результатов и др.

Корреляционный анализ, разработанный К. Пирсоном и Дж. Юлом, является одним из методов статистического анализа взаимозависимости нескольких признаков.

Основными задачами корреляционного анализа являются определение наличия связи между отобранными признаками, установление ее направления и количественная оценка тесноты связи. Задачи корреляционного анализа сводятся к измерению тесноты известной связи между варьирующимися признаками, определению неизвестных причинных связей и оценке факторов, оказывающих наибольшее влияние на результативный признак.

Задачами регрессионного анализа являются выбор типа модели (формы связи), установление степени влияния независимых переменных на зависимую и определение расчетных значений зависимой переменной (функции регрессии).

Термин «регрессия» (лат. «regression» -- отступление, возврат к чему-то) введен английским психологом и антропологом Ф. Гальтоном. Так как корреляционный и регрессионный анализ логически связаны и достаточно часто сначала определяют значимые факторы для анализируемого уровня конкретного риска, а потом выявляют меру их взаимосвязи с помощью уравнений регрессии, то часто в литературе и на практике говорят о корреляционно-регрессионном анализе.

Поэтому потоки информации для корреляционно-регрессионного анализа должны отвечать определенным требованиям:

* совокупность данных (число единиц и/или наблюдений) должна быть достаточно большой по объему, чтобы в силу закона больших чисел (ЗБЧ) статистические характеристики, определяемые в процессе КРА, были достаточно типичными и надежными;

* качественная однородность анализируемых показателей, что предполагает близость условий формирования результативных и факторных признаков;

* определение необходимости анализа «выбросов», т.е. единиц наблюдений, которые по своим характеристикам существенно отличаются от основной массы данных. Одни исследователи исключают из анализа случаи с «выбросами», потому что они по определению не относятся к изучаемой популяции, другие аналитики после удаления «выбросов» исследуют их отдельно, потому что во многих случаях они представляют больший интерес, чем вся остальная выборка. Достаточно часто, удалив эти случаи из процесса анализа, мы можем потерять потенциально важную информацию о переменных или о процессах, происходящих в каждой отдельной институциональной единице финансового сектора или в секторе/подсекторе/экономике в целом. Вместо того, чтобы удалять «выбросы», можно использовать процедуры оценки параметров распределения, нечувствительных к структуре данных. Такие процедуры и модели называются робастными

* наблюдения или ряд исходных данных (Y, х1, х2,... xk) должны состоять из статистически независимых показателей, т.е. они не должны быть взаимосвязанными;

* переменные (х1, х2,... xk) должны быть линейно независимыми, т.е. корреляционная зависимость между ними не должна превышать какое-то определенное значение;

* каждому значению факторного признака (х) должно соответствовать нормальное распределение результативного признака (Y) с одинаковой дисперсией.

Исследование связей в условиях массового наблюдения и действия случайных факторов осуществляется, как правило, с помощью экономико - статистических моделей. Выражение модели в виде функциональных уравнений используют для расчета средних значений моделируемого показателя по набору заданных величин и для выявления степени влияния на него отдельных факторов.

По количеству включаемых факторов модели могут быть однофакторными и многофакторными.

В зависимости от познавательной цели статистические модели подразделяются на структурные, динамические и модели связи.

Необходимые условия применения корреляционного анализа.

1. Наличие достаточно большого количества наблюдений о величине исследуемых факторных и результативных показателей (в динамике или за текущий год по совокупности однородных объектов).

2. Исследуемые факторы должны иметь количественное измерение и отражение в тех или иных источниках информации.

Применение корреляционного анализа позволяет решить следующие задачи:

1) определить изменение результативного показателя под воздействием одного или нескольких факторов, т.е. определить, на сколько единиц изменяется величина результативного показателя при изменении факторного на единицу;

2) установить относительную степень зависимости результативного показателя от каждого фактора.

Корреляционный метод анализа взаимосвязи экономических явлений проводят в три этапа. На первом этапе осуществляется выбор формы связи между факторным и результативным признаками, т.е. выбирается тип аналитической функции. На втором этапе аналитическое уравнение связи решается путем нахождения его параметров. На третьем этапе определяется теснота связи между изучаемыми экономическими явлениями. Прежде чем подробно остановиться на каждом из трех этапов корреляционного анализа, обратим внимание на следующее. В том случае, когда определяется влияние одного фактора на результативный признак, строится однофакторная регрессионная модель (парное уравнение корреляции); когда определяется влияние двух и более факторов на результативный признак, строится многофакторная регрессионная модель (уравнение множественной корреляции).

При подборе факторов для регрессионной модели следует помнить, что факторы не должны находиться в функциональной связи с результативным признаком. В противном случае должен применяться индексный метод анализа, а не корреляционный. Следует также знать, что число наблюдений для построения однофакторной регрессионной модели должно быть не менее 10 - 12.

Первый этап корреляционного анализа

Для определения формы связи между факторным и результативным признаками, т.е. для установления типа аналитической функции связи применяют различные статистические методы. Так, характер и направление связи между изучаемыми явлениями можно установить, применяя метод статистических группировок. С помощью данного метода наличие связи между явлениями устанавливается визуально.

Для выявления тенденции изменения результативного признака при изменении факторного могут использоваться такие статистические методы, как метод укрупнения интервалов, метод скользящей средней, метод аналитического выравнивания. Чаще всего для установления формы зависимости между факторным и результативным признаками применяют графический метод. При прямолинейной форме зависимости между факторным и результативным признаками функция связи имеет вид прямой: ; при параболической форме имеет вид параболы:

при гиперболической форме - вид гиперболы:

На втором этапе корреляционного анализа решают аналитическое уравнение связи путем нахождения его параметров а0, а1,…, аn.

Параметр а0 означает влияние на результативный признак не включенных в регрессионную модель факторов. Как правило, экономической интерпретации параметр а0 не подлежит. Параметры а1,.., аn (коэффициенты регрессии) означают величину результативного признака при изменении факторного признака на единицу измерения.

В случае прямолинейной формы зависимости параметры аналитического уравнения связи находятся путем решения следующей системы уравнений:

(1.1)

В случае параболической формы зависимости параметры аналитического уравнения связи находятся путем решения следующей системы уравнений:

(1.2)

В случае гиперболической формы зависимости параметры аналитического уравнения связи находятся путем решения следующей системы уравнений:

(1.3)

Для экономической интерпретации аналитического уравнения связи можно воспользоваться также коэффициентом эластичности, который рассчитывается по формуле:

(1.4)

Коэффициент эластичности показывает, на сколько процентов в среднем изменяется результативный признак при изменении факторного на 1%.

На третьем этапе корреляционного анализа проводят оценку тесноты связи между факторным и результативным признаками с помощью показателей тесноты связи. В случае линейной связи между факторным и результативным признаками производят расчеты линейного коэффициента корреляции по следующей формуле:

(1.5)

Где:

(1.6)

(1.7)

Линейный коэффициент корреляции варьирует в пределах от -1 до +1. Положительное его значение говорит о прямой связи, отрицательное - об обратной. Близость к нулю говорит о слабой связи, близость к ±1 говорит о существенной связи, при r = ± 1 - связь функциональная.

Таблица 1.1

Интерпретация коэффициентов корреляции

Значение

Интерпретация

до 0,2

очень слабая корреляция

до 0,5

слабая корреляция

до 0,7

средняя корреляция

до 0,9

высокая корреляция

свыше 0,9

очень высокая корреляция

Для экономической интерпретации линейного коэффициента корреляции применяется коэффициент детерминации. Он определяется по формуле:

(1.8)

Коэффициент детерминации характеризует долю дисперсии результативного признака, объясняемую влиянием соответствующего факторного признака.

В случае криволинейной зависимости (параболической, гиперболической) тесноту связи между факторным и результативным признаками определяют с помощью корреляционного отношения по формуле:

(1.9)

корреляционный банк доход кредит