logo
Учебник СтатистикаMicrosoft Office Word

7.3. Оцінка щільності та перевірка істотності кореляційного зв’язку

Поряд із визначенням характеру зв’язку та ефектів впливу факторів х на результат у важливе значення має оцінка щільності зв’язку, тобто оцінка узгодженості варіації взаємозв’язаних ознак. Якщо вплив факторної ознаки х на результативну у значний, це виявиться в закономірній зміні значень у зі зміною значень х, тобто фактор х своїм впливом формує варіацію у . За відсутності зв’язку варіація у не залежить від варіації х.

Для оцінювання щільності зв’язку статистика використовує низку коефіцієнтів з такими спільними властивостями:

Серед мір щільності зв’язку найпоширенішим є коефі- цієнт кореляції Пірсона. Позначається цей коефіцієнт сим- волом r. Оскільки сфера його використання обмежується лінійною залежністю, то і в назві фігурує слово «лінійний». Обчислення лінійного коефіцієнта кореляції r ґрунтується на відхиленнях значень взаємозв’язаних ознак x і у від се- редніх.

За наявності прямого кореляційного зв’язку будь-якому значенню хі > відповідає значення , авідповідає. Узгодженість варіації х і у схематично показано на рис. 7.2 у вигляді кореляційного поля зі зміщеною системою координат.

Рис. 7.2. Узгодженість варіації взаємозв’язаних ознак

Точка, координатами якої є середні і, поділяє кореляційне поле на чотири квадранти, в яких по-різному поєднуються знаки відхилень від середніх:

Квадрант

(х – )

(у – )

I

+

+

II

+

III

IV

+

Для точок, розміщених у І та ІІІ квадрантах, добуток додатний, а для точок з квадрантів ІІ і ІV — від’ємний. Чим щільніший зв’язок між ознакамих і у, тим більша алгебраїчна сума добутків відхилень . Гранична сума цих добутків дорівнює.

Коефіцієнт кореляції визначається відношенням зазначе- них сум:

.

Очевидно, що в разі функціонального зв’язку фактична сума відхилень дорівнює граничній, а коефіцієнт кореляції r = ±1; при кореляційному зв’язку абсолютне його значення буде тим більшим, чим щільніший зв’язок.

На практиці застосовують різні модифікації наведеної формули коефіцієнта кореляції. Для оцінювання щільності зв’язку між кількістю внесених добрив та врожайністю зернових скористаємося однією з модифікацій зазначеної формули:

.

За даними табл. 7.3

Згідно з цими значеннями коефіцієнт кореляції становить 0,900, що свідчить про вагомий вплив кількості внесених добрив на врожайність зернових:

.

Коефіцієнт кореляції, оцінюючи щільність зв’язку, указує також на його напрям: коли зв’язок прямий, r — величина додатна, а коли він зворотний — від’ємна. Знаки коефіцієнтів кореляції і регресії однакові, величини їх взаємозв’язані функціонально:

; .

Завдяки цьому один коефіцієнт можна обчислити, знаючи інший. Наприклад:

.

Вимірювання щільності нелінійного зв’язку ґрунтується на співвідношенніваріацій теоретичних та емпіричних (фактичних) значень результативної ознаки у. Як зазначалося в підрозд. 5.6, відхилення індивідуального значення ознаки у від середньоїможна розкласти на дві складові. У регресійному аналізі це відхилення від лінії регресії (у – Y) та відхилення лінії регресії від середньої .

Відхилення є наслідком дії факторах, відхилення  — наслідком дії інших факторів. Взаємозв’язок факторної та залишкової варіацій описується правилом декомпозиції варіації:

,

де — загальна дисперсія ознакиy; — факторна дисперсія; — залишкова дисперсія.

Очевидно, значення факторної дисперсії буде тим більшим, чим сильніший вплив факторах на y. Відношення факторної дисперсії до загальної розглядається як міра щільності кореляційного зв’язку і називається коефіцієнтом детермінації:

.

Якщо за даними табл. 7.3 ,, то .

Аналогічний результат дають такі обчислення:

.

Коефіцієнт детермінації становить ,

тобто 81% варіації врожайності зернових залежить від варіації кількості внесених добрив, а 19% припадає на інші фактори.

Корінь квадратний з коефіцієнта детермінації називають індексом кореляції R. Коли зв’язок лінійний, , що підтверджують обчислення:Тому за відомим лінійним коефіцієнтом кореляціїr можна визначати внесок ознаки x у варіацію ознаки y. Так, при r = 0,6 можна сказати, що 36% варіації y залежить від варіації x.

На таких самих засадах ґрунтується оцінювання щільності зв’язку за даними аналітичного групування. Мірою щільності зв’язку є кореляційне відношення

,

де 2 — міжгрупова дисперсія, яка вимірює варіацію ознаки у під впливом фактора х, а 2 — загальна дисперсія.

Застосуємо кореляційне відношення для оцінювання щільності зв’язку між глибиною розробки вугільних пластів і фондомісткістю видобутку вугілля (див. табл. 7.2). Розрахунки загальної та факторної дисперсій подано в табл. 7.4 та 7.5. Згідно з розрахунками загальна дисперсія становить 5,19, факторна — 3,86:

;

.

Кореляційне відношення

,

тобто 74,5% варіації фондомісткості вугілля на шахтах регіону пояснюється варіацією глибини розробки пластів.

Таблиця 7.4

ДО РОЗРАХУНКУ ЗАГАЛЬНОЇ ДИСПЕРСІЇ ФОНДОМІСТКОСТІ ВУГІЛЛЯ ()

Фондомісткість, грн. / т

18—20

0—22

22—24

24—26

26—28

Разом

Кількість шахт

9

15

34

28

14

100

19

21

23

25

27

– 4,5

–2,5

–0,5

1,5

3,5

182,25

93,75

8,5

63,0

171,5

519

Таблиця 7.5

ДО РОЗРАХУНКУ ФАКТОРНОЇ ДИСПЕРСІЇ ФОНДОМІСТКОСТІ ВУГІЛЛЯ ()

Глибина розробки пластів, м

До 300

17

20,0

–3,5

208,25

300 — 500

40

22,9

–0,6

14,40

500 — 700

25

24,8

1,3

42,25

700 і більше

18

26,1

2,6

121,68

У цілому

100

23,5

386,58

Обчислення та інтерпретація коефіцієнта детермінації R2 і кореляційного відношення 2 показують: ці характеристики щільності зв’язку за змістом ідентичні, вони характеризують внесок фактора x у загальну варіацію результату y.

Перевірка істотності кореляційного зв’язку ґрунтується на порівнянні фактичних значень R2 і 2 з критичними, які могли б виникнути за відсутності зв’язку. Якщо фактичне значення чи2 перевищує критичне, то зв’язок між ознаками не випадковий. Гіпотеза, що перевіряється, формулюється як нульова:

або .

Критичні значення характеристик щільності зв’язку для рівня істотності  = 0,05 і відповідного числа ступенів свободи для факторної дисперсії k1 і залишкової k2 наведено в табл. 7.6. Ступені свободи залежать від обсягу сукупності n та числа груп або параметрів функції m, тобто k1 = m – 1, k2 = nm.

Таблиця 7.6

КРИТИЧНІ ЗНАЧЕННЯ КОЕФІЦІЄНТА ДЕТЕРМІНАЦІЇ R2 І КОРЕЛЯЦІЙНОГО ВІДНОШЕННЯ 2 ДЛЯ РІВНЯ ІСТОТНОСТІ  = 0,05

1

2

3

4

5

5

0,569

699

764

806

835

6

500

632

704

751

785

7

444

575

651

702

739

8

399

527

604

657

697

9

362

488

563

618

659

10

332

451

527

582

624

12

283

394

466

521

564

14

247

348

417

471

514

16

219

312

378

429

477

18

197

283

345

394

435

20

179

259

318

364

404

24

151

221

273

316

353

28

130

193

240

279

314

32

115

171

214

250

282

36

102

153

192

226

256

40

093

139

176

207

234

50

075

113

143

170

194

60

063

095

121

144

165

80

047

072

093

110

127

100

038

058

075

090

103

120

032

049

063

075

087

200

019

030

038

046

053

Так, критичне значення коефіцієнта детермінації для k1 = 2 – 1 = 1 і k2 = 8 – 2 = 6 становить . Обчислений за даними табл. 7.3 коефіцієнт детермінаціїR2 = 0,81 перевищує критичне значення, що з імовірністю 0,95 підтверджує істотність зв’язку між кількістю внесених добрив і врожайністю зернових.

Аналогічно визначимо критичне значення кореляційного відношення для k1 = 4 – 1 = 3 та k2 = 100 – 4 = 96. Оскільки значення k2 = 96 у табл. 7.6 відсутнє, можна використати найближче до нього число k2 = 100. Критичне значення .

Розраховане за даними табл. 7.2 кореляційне відношення 2 = 0,745 значно перевищує критичне, а отже, гіпотеза про випадковий характер відхилень групових середніх відхиляється. Зв’язок між глибиною розробки вугільних пластів і фондомісткістю видобутку вугілля з імовірністю 0,95 визнається істотним.

Розглянута процедура перевірки істотності зв’язку є складовою дисперсійного аналізу, розробленого Р. Фішером. Характеристика критерію Фішера — дисперсійне відношення F — функціонально пов’язана з кореляційним відношенням , а тому результати перевірки будуть ідентичні.