logo search
Книга1 МОНД

3.3.3. Ймовірносно – статистичні методи досліджень

В наукових дослідженнях зустрічаються явища, які багаторазово повторюються в незмінних умовах. Незважаючи на постійність основного комплексу параметрів, результати спостережень завжди в більшому або в меншому ступені є відмінними один від одного, тобто мають випадкове розсіювання. Окремі факти являють собою вихідний матеріал, який потребує глибокої узагальнюючої обробки. Методи, правила і необхідні формули для обробки результатів спостережень дає математична статистика. Це наука про методи кількісного аналізу масових явищ і її основою є теорія імовірностей і теорія помилок.

Нагадаємо основні положення теорії імовірностей.

Випадкові події діляться на:

- достовірні, тобто події, які повинні відбутися невідмінно;

- події несумісні, якщо виникнення однієї з них цілковито виключає можливість виникнення хоча б однієї з інших;

- події єдино можливі, коли при появі умов, необхідних для виникнення подій, одна з них невідмінно здійснюється;

- події неможливі, які не можуть відбутися ні в якому разі;

- події незалежні, коли виникнення однієї або декількох з них не змінює імовірності виникнення кожної з інших;

- події протилежні, якщо число випадків, які сприяють виникненню і однієї, і другої події в підсумку дорівнює загальній кількості всіх можливих подій;

- імовірні події, коли деякі випадки сприяють їх появі, а решта – ні.

Імовірністю сприятливої події називають відношення можливого числа всіх сприятливих подій до повного числа подій, яке вміщує в себе як кількість сприятливих подій п , так і кількість несприятливих m:

Р(n) = .

Імовірність несприятливої події:

Р(m) = .

Очевидно, що сумарна імовірність дорівнює одиниці:

Р(n) + Р(m) = 1

Якщо виконано N спостережень і з цього числа К разів з/являлася сприятлива подія, то частота появи сприятливої події буде . Основним законом теорії імовірностей є закон великих чисел, який стверджує, що при достатньо великої кількості спостережень N з імовірністю, яка наближується до достовірності ( імовірність появи події наближується до 1), частота появи події як завгодно мало відрізняється від імовірності цієї події:

|Р(n) - | < ε,

де ε – як завгодно мале позитивне число, яке є відмінним від нуля.

Це співвідношення дає можливість встановити дослідним шляхом з достатньо добрим наближенням імовірність невідомої випадкової події.

За теорією випадкових помилок ніякий вимір не може бути виконаний абсолютно точно, його результат завжди утримує помилку. Помилка виміру – це різниця між результатом виміру і істинним значенням. Оскільки істинне значення величини, що вимірюється, є невідомим, то і помилка виміру звичайно також невідома.

Розрізняють три основних типи помилок виміру: промахи, випадкові і систематичні помилки.

Грубі помилки або промахи виникають внаслідок порушення основних умов виміру і є недоліком уваги дослідника. Повне виключення грубих помилок і нехарактерних для процесу, що вивчається, дослідних даних є важливою умовою отримання надійних результатів.. Після виявлення грубої помилки результат такого виміру треба відкинути і вимір повторити.

Величина систематичних помилок є однаковою у всіх вимірах, які проведені одним і тим же методом за допомогою одних і тих же приладів. Систематичні помилки намагаються своєчасно виявити, знайти їх величину і усунути або зменшити шляхом введення відповідних поправок в результати виміру, оскільки їх накопичення може значно перекрутити результати досліду.

Систематичні помилки можна розділити на 4 групи:

а) помилки, природа яких відома і величина може бути достатньо надійно визначена. Такі помилки називають поправками. Прикладом може служити вплив температури холодного спаю термопари на результати виміру температури в об’єкті. Величина поправок, які ще має сенс вводити, встановлюється в залежності від значень інших помилок, які супроводжують досліди;

б) помилки відомого походження, але невідомої величини. Прикладом таких помилок є погрішність вимірювання приладів, яка визначається класом точності:

δприладу = ,

де Δmax – максимально припустима похибка приладу;

А – граничне значення шкали приладу.

Похибка приладу складається з методичних похибок через недосконалість прийнятого способу виміру; інструментальної похибки через неточність складання і встановлення приладу, через тертя в його механізмі; помилки спостережень через неточність відліку за шкалою приладу.

Клас точності враховує поріг чутливості, додаткову помилку і варіацію. Поріг чутливості – це найменша зміна значення вимірюваної величини, яка викликає зміну показів приладу, помітну для візуального спостереження. Додаткові помилки викликані впливом зовнішніх умов і виникають при відхиленні цих умов від нормальних (паспортних): зміна температури, вологості повітря, атмосферного тиску, відхилення в установці приладу від стандартного та інше. Варіація – це найбільша різниця між повторними показаннями приладу при сталому значенні вимірюваної величини. Вона є наслідком тертя в механізмах приладу, наявності зазорів та люфтів, гістерезису в елементах. Її визначають вимірами параметру спочатку при його зростанні, а потім при його зменшенні.

За класом точності прилади ділять на робочі та зразкові. Робочі використовують для практичних вимірів; вони можуть бути технічні і лабораторні. Зразкові прилади використовують для перевірки і градуювання робочих.

Технічними приладами величину вимірюють один раз і поправок в результати не вносять. Максимально припустима помилка такого приладу Δmax дорівнює половині вартості поділки його шкали.

Лабораторні прилади мають підвищену точність завдяки виключенню з їх показників систематичних помилок шляхом внесення поправок. Цими приладами виконують багаторазові виміри для усереднення результатів.

В зразкових приладах виключення систематичних похибок здійснено заводом – виробником. В свідоцтві на такий прилад вказана залежність між дійсним значенням величини і показами приладу, а також клас його точності, який звичайно є на порядок вищим, ніж у аналогічного технічного приладу;

в) помилки, про існування яких немає відомостей, хоча величина їх може бути дуже значною. Найчастіше вони виникають при складних вимірах. Найбільш надійним засобом виявлення таких похибок є вимір однієї і той же величини різними методами і в різних умовах. Збіг отриманих результатів служить певною гарантією правильності вимірів.

г) помилки, які обумовлені властивостями об’єкту виміру. Ці помилки звичайно переводять до групи випадкових помилок, що дозволяє поліпшити точність отриманих результатів.

Випадкові помилки є різними навіть для вимірів, які виконані однаковим чином. Вони з/являються в дослідах незакономірно, випадково, а причину і величину їх передбачити неможливо. Випадкові помилки викликані великою кількістю таких факторів, ефекти дії яких настільки незначні, що їх неможливо виділити і врахувати окремо, а в підсумку вони можуть давати досить велику помилку. Оцінкою впливу цієї групи помилок на точність результатів і займається теорія випадкових помилок. В ній передбачається, що виміри є однаково точними і рівноцінними, а повторення події багаторазовим. За цією теорією при неодноразовому вимірюванні величини підпорядковані статистичним закономірностям, які визначаються залежністю між значеннями цих помилок та імовірною частотою їх виникнення. Цю залежність називають законом розподілу помилок. Зауважимо, що найбільш часто для випадкових помилок використовують нормальний закон розподілу Гауса, за яким виникнення однакових за величиною додатних і від’ємних помилок є однаково ймовірним.

Фундаментальний закон зростання точності при збільшенні кількості спостережень стверджує, що помилка середнього з n незалежних спостережень в разів є меншою, ніж помилка поодинокого виміру. Тобто при необхідності підвищення точності виміру в 2 рази, треба провести 4 досліди замість одного; для підвищення точності в 3 рази кількість вимірів треба збільшити в 9 разів. Але при великих значеннях випадкової помилки такий прийом не завжди є ефективним, оскільки може вимагати виконання сотень і тисяч вимірів, що нереально. В таких випадках більш доцільно радикально змінити методику вимірів (дослідів) для зменшення базового рівня випадкової помилки.

Звичайно результати спостережень утримують систематичну і випадкову помилки. Існують наступні практичні рекомендації:

а) якщо систематична помилка є визначальною, тобто її величина суттєво перебільшує величину випадкової помилки, то вимір достатньо виконати один раз;

б) якщо домінує випадкова помилка, то вимір треба виконати декілька разів.

Нагадаємо основні положення математичної статистики. Величина Х, яка в незмінних умовах досліду приймає одне або інше значення, заздалегідь невідоме, називають випадковою величиною. Якщо між будь – якими двома значеннями випадкової величини міститься лише кінцева кількість інших випадкових величин, то вона називається дискретною. Неперервні випадкові величини являють собою сукупність, яка щільно заповнює деякий проміжок.

Сукупність всіх можливих значень випадкової величини для всіх можливих умов досліду називають генеральною сукупністю. Сукупність обмеженого числа значень випадкової величини, яка отримана в конкретному досліді, називають вибіркою з генеральної сукупності.

Будь – яке співвідношення, яке встановлює зв’язок між можливими значеннями випадкової величини і відповідними їм імовірностями, називають законом розподілу. Кількісна оцінка властивостей генеральної сукупності здійснюється за допомогою функції розподілу, яка дорівнює імовірності прийняття випадковою величиною Х значення менш, ніж х :

F(x) = P(X < x).

F(x) є не спадною функцією свого аргументу, тобто F(x2 ) ≥ F(x1 ) при

х2 > х1 . Окрім того F( - ∞) = 0; F( + ∞) = 1.

Похідну цієї функції називають густиною розподілу:

f(x) = .

Вона є невід/ємною функцією і її інтеграл в безкінечних границях дорівнює одиниці:

f(x) ≥ 0; .

Інтеграл густини розподілу в обмежених границях:

.

Центр групування значень випадкової величини називають математичним очікуванням, яке визначається за формулами:

Для математичного очікування можна записати:

M[c] = c; M[cх] = cМ[x]; M[x+y] = M[х] + М[y]; ]; M[a+cx] = a + cМ[x],

де а і с – сталі величини;

х і у – незалежні випадкові величини.

Дисперсія характеризує ступінь розсіювання випадкової величини навколо центру угрупування і визначається за формулами:

Наведемо деякі властивості дисперсії:

D[с] = 0, якщо с = соnst;

D[сx] = с2D[x] ; D[х + у] = D[x] + D[у] , якщо х і у незалежні величини.

Величину, яка дорівнює квадратному кореню з дисперсії, називають середнім квадратичним відхиленням.

Характеристики розподілу, які отримані за даними вибірки, називають вибірковими оцінками. Вибіркові оцінки аN є випадкові величини і залежать від закону розподілу випадкових величин Х і кількості дослідів N. Вибіркова оцінка має практичну цінність, якщо вона характеризується незміщеністю, самостійністю та ефективністю.

Незміщеність означає, що при будь – якому N математичне очікування оцінки аN дорівнює істинному значенню параметра а:

М[aN] = a.

Оцінка аN є самостійною, якщо при необмеженому зростанні N її значення з імовірністю одиниця наближується до істинного значення параметру a:

,

де ε – будь – яке мале число.

Оцінку аN називають ефективною, якщо серед інших оцінок того ж параметра вона володіє найменшою дисперсією:

D[aN] = Dmin .

Розглянемо закони розподілу випадкових величин, які найбільш часто використовуються в дослідженнях з застосуванням апарату математичної статистики. Як вже зазначалося, в дослідженнях оперують з емпіричними розподілами і однією з перших задач статистики є вибір теоретичної кривої, яка відповідає даному емпіричному закону розподілу. Методика такого вибору полягає в обробці результатів п вимірів випадкової величини х1, х2, х3, …, хп . Для цього величини хі групують за інтервалами, встановлюють для кожного з інтервалів частоту gi і будують ступінчасту гістограму gi = f(xi). Потім обчислюють характеристики дослідної кривої розподілу і вибирають вид розподілу шляхом порівняння з теоретичною кривою.

Нормальний закон розподілу Гауса застосовують , якщо значення випадкової величини є результатом дії численних незалежних і приблизно однаково малих факторів. Густина імовірності нормального розподілу:

f(x) = .

Числові значення математичного очікування М[X] та дисперсії D[X] повністю характеризують генеральну сукупність нормального розподілу випадкової величини. Характер зміни густини цього розподілу (рис. 3.28) показує, що функція f(x) досягає максимального значення при х = М[X], тобто:

f(x)max = .

Таким чином, математичне очікування – це таке значення випадкової величини, при якому густина розподілу є максимальною. Функція розподілу являє собою площу під кривою густини розподілу і має перегин при х = М[X]:

F(x) = .

Слід зауважити, що переважна більшість параметрів процесів в техніці і технології мають розподіл, близький до нормального.

Біноміальний розподіл – це розподіл, в якому імовірність появи події залишається однією і тою ж для кожного окремого спостереження. Випадкова величина при ньому приймає цілі позитивні значення 0, 1, 2, …, n з імовірностями:

Рm, n = Cnm qm(1 – q)n – m,

де Рm, n – імовірність того, що випадкова величина прийме значення 0, 1, 2,… , n ;

m = 0, 1, 2, …., n;

Cnm – біноміальний коефіцієнт: Cnm = ;

q – параметр розподілу, який змінюється в межах [ 0; 1] і характеризує імовірність нез’явлення події.

Сутність розподілу полягає в наступному. Якщо поява події має сталу імовірність Р = 1 – q, то частота її появи m = 0, 1, 2, …, n разів при n спостереженнях визначається послідовними членами розкладу бінома Ньютона:

(q + p)n = pn + npn – 1q + + …+ qn = 1.

Приклад. Припустимо, що маємо досить велику кількість виробів, 90% з яких якісні, а 10% дефектні. Очевидно, що імовірність взяти з цих виробів якісний складає Р = 0,9 , а імовірність отримати дефектний q = 0,1.

Рішення. Якщо ми візьмемо 10 виробів (n = 10) , то імовірність того , що всі 10 виявляться якісними, дорівнює: Рn = (0,9)10 = 0,349 , а імовірність того, що всі 10 виявляться дефектними складе: qn = (0,1)10 . Імовірність того, що 9 взятих виробів будуть якісними складе: npn – 1q = 10(0,9)10 – 10,1 = 0,43; що 8 з 10 взятих виробів буде якісними: = і так далі.

За великих значень n біноміальний розподіл наближується до нормального.

Розподіл Пуасона використовують для аналізу рідкісних явищ. Імовірність появи кількості подій х = 1, 2, 3, … в заданий проміжок часу за цім законом складає:

Р(х) = ,

де х – кількість подій за заданий проміжок часу τ;

λ – густина появи подій, тобто середня кількість подій в одиницю часу;

m = λτ – середня кількість подій за час τ .

Розподіл Пуасона можна отримати з біноміального розподілу: (р + q ) = 1,

якщо прийняти для правої частини тотожність:

е – х е х = 1.

Розкладемо е х в ряд:

е х = 1 + х + + + + ……

Тоді маємо:

е – х (1 + х + + + + ……) = 1.

Приклад. Імовірність появи неякісного виробу складає λ = 0,02. Яка імовірність того, що в партії зі 100 виробів будуть 5 неякісних ?

Рішення. Оскільки λτ = 0,02*100 = 2; х = 5, то Р(х) = = = 0,036

Приклад. Інтенсивність відмов обладнання за добу складає λ = 2. Визначити імовірність безвідмовної роботи на протязі тижня (τ = 7).

Рішення. Для даного випадку Р(0) = е –λτ = е –2*7 = 0,831*10 –6.

Відповідно імовірність однієї, двох та 10 відмов на тиждень:

Р(1) = = = 0,116*10 –4;

Р(2) = = = 0,81*10 –4;

Р(10) = = = 0,0663.

Імовірність того, що за час τ виникне 1 або більше відмов обладнання визначається сумою Р(1) + Р(2) + Р(3) + …..

Приклад. За 5 хвилин через перехрестя проїздить в середньому 6 автомобілів. Яка імовірність появи перед перехрестям за той же час 10 автомобілів ?

Рішення. В даному випадку х = 10; m = 6; Р(х) = = 0,041.

Експоненціальний закон розподілу використовують для аналізу надійності обладнання, якщо раптові його відмови виникають внаслідок пікових навантажень. Густина розподілу випадкового часу безвідмовної роботи і функція розподілу мають вигляд:

f(τ) = λe –λτ ; F(τ) = 1 - e –λτ ,

де λ – інтенсивність ( середнє число ) відмов в одиницю часу.

Графічно цей закон розподілу показаний на рис. 3.29

Для раптових відмов обладнання приймають λ = const і його надійність визначають за формулою:

Р(τ) = e –λτ .

Приклад. Для об’єкту зі сталою інтенсивністю λ = 0,0001 відмови на годину треба визначити надійність для періоду 10 і 1000 годин його нормальної експлуатації.

Рішення. За експоненціальним розподілом знаходимо:

Р(10) = e –0,0001*10 = 0,999; Р(1000) = e – 0,0001*1000 = 0,9048 .

Розподіл Вейбула використовується, наприклад, для оцінки надійності обладнання, відмови якого виникають внаслідок руйнування від втоми елементів та деталей агрегату. Густина розподілу і надійність обладнання в цьому випадку визначають за формулами:

f(τ) = ; Р(τ) = ,

де α – параметр розподілу;

с – напрацювання, яке відповідає імовірності безвідмовної роботи.

Параметр α визначає форму розподілу: при α = 1 він перетворюється в експоненціальний; при α > 1 функція надійності описує обладнання зі швидким зношуванням; при α < 1 – при дії на обладнання інтенсивних пікових навантажень. Характер інтенсивності відмов λ(τ), імовірності безвідмовної роботи Р(τ) і густини імовірності f(τ) якісно при різних значеннях α показано на рис. 3.30.

λ(τ)

Гама – розподіл використовується в процесах з поступовим зниженням параметрів – погіршенням властивостей матеріалу в часі, деградацією обладнання, процесами старіння, зношування. Густина імовірності гама – розподілу має вигляд:

f(x) = ,

де λ і α – параметри розподілу.

При α =1 гама – функція перетворюється в показовий закон розподілу:

f(x) = λe –λx .

Використовують і інші види розподілів - Пірсона, Шарльє, Гудрича, бета – розподіл і т. д.

Лише після визначення закону розподілу випадкової величини можна переходити до оцінки впливу її на об’єкт дослідження методами дисперсійного, кореляційного, регресивного аналізу, оскільки математичний апарат залежить від виду розподілу. Не можна, наприклад, до випадкової величини, яка підкорюється нормальному закону розподілу Гауса, застосовувати математичний апарат біноміального або експоненціального розподілу, або навпаки.

Розглянемо основні положення кореляційного аналізу.

Функцією розподілу системи двох випадкових величин (Х, У) називають функцію двох аргументів F(x, y), яка дорівнює імовірності сумісного виконання двох нерівностей:

(Х < х); (У < у) або F(x, y) = P[(Х < х); (У < у)] .

Друга змішана часткова похідна функції F(x, y) за аргументами х та у називається густиною розподілу системи:

f(x, y) = F//xy(x, y) .

Випадкові величини Х та У є незалежними, якщо закон розподілу кожної з них не залежить від того, яке значення приймає інша. В протилежному випадку вони є залежними.

Для характеристики системи випадкових величин, яка описує зв’язок між ними, використовують кореляційний момент. Для дискретних випадкових величин він обчислюється за формулою:

Rxy = (xi – M[X]) (yj – M[Y]) Pij .

Для неперервних випадкових величин:

Rxy = (x – M[X]) (y – M[Y]) f(x, y) dx dy.

Характеристику називають коефіцієнтом кореляції величин Х та У.

Коефіцієнт кореляції характеризує ступінь тісноти лінійного зв’язку між випадковими величинами і може змінюватися в межах [ - 1; + 1], тобто:

Для незалежних величин він дорівнює нулю. Цю обставину завжди треба мати на увазі, бо для нелінійного зв’язку, навіть функціонального, висновки з кореляційного аналізу можна зробити абсурдні. Наприклад, для параболи другого порядку У = ± аХ2 коефіцієнт кореляції дорівнює нулю, але це зовсім не означає, що зв’язку між Х та У не існує.

Коефіцієнт кореляції є симетричним відносно досліджуваних випадкових величин, тобто rxy = rух . Якщо rxy > 0 , то величини Х і У з точністю до випадкових помилок одночасно зменшуються або зростають; якщо rxy < 0 , то ці величини одночасно змінюються в протилежних напрямках.