7. Дайте определение выборочной функции распределения. Дайте определение выборочной средней арифметической. Дайте определение выборочной дисперсии.
Выборочная (эмпирическая) функция распределения в математической статистике - это приближение теоретической функции распределения, построенное с помощью выборки из него.
Кроме эмпирической функции распределения, для описания данных используют и другие статистические характеристики. В качестве выборочных средних величин постоянно используют выборочное среднее арифметическое, т.е. сумму значений рассматриваемой величины, полученных по результатам испытания выборки, деленную на ее объем:
где n – объем выборки, xi – результат измерения (испытания) i-ого элемента выборки.
Другой вид выборочного среднего – выборочная медиана. Она определяется через порядковые статистики. Порядковые статистики – это члены вариационного ряда, который получается, если элементы выборки x1, x2,…, xn расположить в порядке неубывания:
х(1)<x(2)<…<x(k)<…<x(n).
Пример 1. Для выборки x1 = 1, x2 = 7, x3 = 4, x4 = 2, x5 = 8, x6 = 0, x7 =5, x8 = 7 вариационный ряд имеет вид 0, 1, 2, 4, 5, 7, 7, 8, т.е. х(1) = 0 = x6, х(2) = 1 = x1, х(3) = 2 = x4, х(4) = 4 = x3, х(5) = 5 = x7, х(6) = х(7) = 7 = x2 = x8, х(8) = 8 = x5.
В вариационном ряду элемент x(k) называется k-той порядковой статистикой. Порядковые статистики и функции от них широко используются в вероятностно-статистических методах принятия решений, в эконометрике и в других прикладных областях [2].
Выборочная медиана - результат наблюдения, занимающий центральное место в вариационном ряду, построенном по выборке с нечетным числом элементов, или полусумма двух результатов наблюдений, занимающих два центральных места в вариационном ряду, построенном по выборке с четным числом элементов. Таким образом, если объем выборки n – нечетное число, n = 2k+1, то медиана = x(k+1), если же n – четное число, n = 2k, то медиана = [x(k) + x(k+1)]/2, где x(k) и x(k+1) – порядковые статистики.
В статистике в качестве выборочных показателей рассеивания результатов наблюдений чаще всего используют выборочную дисперсию, выборочное среднее квадратическое отклонение и размах выборки.
Выборочной дисперсией (Dв или s2) называют средне арифметическое квадратов отклонений наблюдаемых значений признака от их среднего значения xВ.
,
где
Выборочное среднее квадратическое отклонение или S – неотрицательный квадратный корень из дисперсии, т.е. .
В некоторых литературных источниках выборочной дисперсией называют другую величину:
Она отличается от s2 постоянным множителем:
Соответственно выборочным средним квадратическим отклонением в этих литературных источниках называют величину Тогда, очевидно,
Различие в определениях приводит к различию в алгоритмах расчетов, правилах принятия решений и соответствующих таблицах. Поэтому при использовании тех или иных нормативно-технических и инструктивно-методических материалов, программных продуктов, таблиц необходимо обращать внимание на способ определения выборочных характеристик.
Выбор , а не s2, объясняется тем, что
где Х – случайная величина, имеющая такое же распределение, как и результаты наблюдений. В терминах теории статистического оценивания это означает, что - несмещенная оценка дисперсии (см. ниже). В то же время статистика s2 не является несмещенной оценкой дисперсии результатов наблюдений, поскольку
Однако у s2 есть другое свойство, оправдывающее использование этой статистики в качестве выборочного показателя рассеивания. Для известных результатов наблюдений x1, x2,…, xn рассмотрим случайную величину У с распределением вероятностей
и Р(У = х) = 0 для всех прочих х. Это распределение вероятностей называется эмпирическим. Тогда функция распределения У – это эмпирическая функция распределения, построенная по результатам наблюдений x1, x2,…, xn. Вычислим математическое ожидание и дисперсию случайной величины У:
Второе из этих равенств и является основанием для использования s2 в качестве выборочного показателя рассеивания.
Отметим, что математические ожидания выборочных средних квадратических отклонений М(s) и М(s0), вообще говоря, не равняются теоретическому среднему квадратическому отклонению σ. Например, если Х имеет нормальное распределение, объем выборки n = 3, то
Кроме перечисленных выше статистических характеристик, в качестве выборочного показателя рассеивания используют размах R – разность между n-й и первой порядковыми статистиками в выборке объема n, т.е. разность между наибольшим и наименьшим значениями в выборке: R = x(n) – x(1).
- Контрольные вопросы по курсу «Математическая статистика»
- Что называют дискретным вариационным рядом? Интервальным вариационным рядом? Что называют частостями вариационного ряда? Что называют накопленной частотой и накопленной частостью?
- Пример:
- 2. Что называют полигоном вариационного ряда? Что называют гистограммой частот (частостей) вариационного ряда? Что называют кумулятой вариационного ряда?
- Медиана
- Коэффициент вариации
- Дайте определения начальных и центральных моментов вариационного ряда. Дайте определение коэффициента асимметрии вариационного ряда. Дайте определение эксцесса вариационного ряда.
- Что понимается под генеральной совокупностью? Что понимается под случайной выборкой из генеральной совокупности?
- 6. Каковы основные задачи математической статистики?
- 7. Дайте определение выборочной функции распределения. Дайте определение выборочной средней арифметической. Дайте определение выборочной дисперсии.
- 8. Дайте определение выборочных начальных и центральных моментов.
- Дайте определение статистического ряда выборки.
- 10. Дайте определение эмпирической функции распределения. Дайте определение эмпирической плотности распределения.
- 20. Какова цель дисперсионного анализа? Запишите модель однофакторного дисперсионного анализа.
- 21. Что понимают под уровнем фактора? (ответ в Вопросе 22)
- 22. Как ставится основная гипотеза в случае однофакторного дисперсионного анализа?
- 23. Что такое вектор входных переменных (факторов), вектор выходных переменных (откликов)?
- 24. Что называют корреляционным полем, корреляционной таблицей?
- 26. Какую функцию называют функцией регрессии? Какие переменные называют входными (факторами), выходными (откликами)? Какую регрессионную модель называют линейной?
- 27. Сформулируйте исходные предположения метода наименьших квадратов.
- В чем состоит анализ регрессионной модели?
- 29. Какую статистику используют для проверки значимости модели регрессии?
- 30. Какую линейную регрессионную модель называют адекватной?