ПОСОБИЕ по численным для издания

3.2.2 Второй этап – определение точечных оценок распределения

В вероятностных (стохастических системах) наряду с необходимостью действует случайность. Под случайным событием понимается факт, который в результате испытания (осуществления правил) может произойти или не произойти. Мерой объективной возможности случайного события А является вероятность:

Р{A}(0≤P{A}≤1) (3.26)

Случайной величиной Y называется величина, значения которой подвержены некоторому неконтролируемому разбросу при повторении данного процесса (наблюдения, эксперимента). Поведение случайной величины полностью описывается функцией распределения вероятностей F{Y}, которая показывает вероятность того, что случайная величина Y примет значения меньше Y_а:

F{Y}=P{Y≤Y_a}; (-∞≤Y≤Y_a) (3.27)

Исчерпывающими вероятностными характеристиками случайной величины являются дифференциальная и интегральная функции распределения. Однако некоторые основные свойства случайных величин могут быть описаны более просто с помощью определенных числовых параметров. Наибольшую роль среди них на практике играют два параметра, характеризующие центр рассеяния (центр распределения) случайной величины и степень ее рассеяния вокруг этого центра. Наиболее распространенной характеристикой центра распределения является математическое ожидание М_х случайной величины Х (часто называемое также генеральным средним значением). Математическим ожиданием дискретной случайной величины называют сумму произведений всех ее возможных значений на их вероятности.

Пусть случайная величина Х может принимать только значения Х₁, Х₂,…Х_n, вероятности которых соответственно равны р₁, р₂,…р_n. Тогда математическое ожидание М(х) случайной величины Х определяется равенством:

М(х) = Х₁р₁+ Х₂р₂+…+ Х_nр_n. (3.28)

Если дискретная случайная величина Х принимает счетное множество возможных значений, то М(х)=∑Х_iр_i , (р - вероятность появления значений Х_i). Вероятностный смысл полученного результата таков: математическое ожидание приближенно равно (тем точнее, чем больше число испытаний) среднему арифметическому наблюдаемых значений случайной величины.

Степень рассеяния случайной величины Х относительно М_Х может быть охарактеризована с помощью генеральной дисперсии S²:

(3.29)

где X_i – выборочная совокупность;

X – среднее значение выборочной совокупности;

N – объем выборочной совокупности.

Если же значения признака Х₁, Х₂,…Х_к имеют соответственно частоты N₁, N₂,…N_k, причем N₁+N₂+…+N_k=N_i, то

(3.30)

где N_i – частоты выборочной совокупности.

то есть генеральная дисперсия есть средняя взвешенная квадратов отклонений и весами, равными соответствующим частотам.

Кроме дисперсии для характеристики рассеяния значений признака генеральной совокупности вокруг своего среднего значения пользуются сводной характеристикой – средним квадратическим отклонением. Генеральным средним квадратическим отклонением (стандартом) называют квадратный корень из генеральной дисперсии:

(3.31)

где S² – генеральная дисперсия;

S – среднее квадратическое отклонение.

Кроме того, безразмерная характеристика – υ – коэффициент вариации

υ= (3.32)

Форма кривой распределения характеризуется коэффициентами асимметрии А и коэффициентом островершинности (эксцесс) – Е.

(3.33)

Существует левосторонняя и правосторонняя ассиметрия (рисунок 6).

а б в

Рисунок 6 – Ассиметрия: левосторонняя (а) и правосторонняя (в), б - кривая нормального рапределения

Эксцесс или коэффициент крутости:

(3.34)

Стандартное значение Е = 0; Е < 0 – плосковершинные; Е > 0 – островершинные (рисунок 7).

Две случайные величины называются независимыми, если f(x,y)=f(x)f(y). Как и в одномерном случае, основные свойства двумерной совокупности величин x, y могут быть охарактеризованы с помощью ряда числовых параметров. При этом в качестве наиболее употребительных параметров, описывающих поведение каждой из случайных величин в отдельности, как и выше, применяют математическое ожидание и дисперсия соответствующей случайной величины:

Рисунок 7 – Эксцесс: а – островершинная кривая, б- кривая нормального рапределения, в – плосковершинная кривая

S²_x S²_y, S_x S_y. Кроме подобного рода параметров для двумерной совокупности могут быть построены параметры, характеризующие степень взаимозависимости переменных X и Y. Простейшими из них являются ковариация двух случайных величин (называемая также корреляционным моментом) - cov (x,y),

а также нормированный показатель связи – коэффициент корреляции:

(3.35)

По своему физическому смыслу коэффициент корреляции является далеко не исчерпывающей характеристикой статистической связи, характеризуя лишь степень линейной зависимости между X и Y. Коэффициент корреляции меняется в пределах -1≤ ≤1. Если =1, то случайные величины полностью положительно коррелированны, то есть y=а₀+а₁х₁, где а₀и а₁ – постоянные, причем а₁>0. Если же , то случайные величины некоррелированны а₁=0. В этом случае, когда Х и Y независимые величины, для них , следовательно, они и некоррелированны. Этот коэффициент характеризует наличие или отсутствие линейной функциональной связи. Вычисляется на основе ковариации.

Некоррелированность не следует смешивать с независимостью. Независимые случайные величины всегда некоррелированы. Однако, обратное утверждение неверно: некоррелированные величины могут быть зависимы и даже функционально. Таким образом, коэффициент корреляции характеризует степень приближения зависимости между случайными величинами к линейной функциональной зависимости. Значение коэффициента корреляции определяет насколько зависимость между случайными переменными величинами близка к линейной функциональной зависимости. Коэффициент корреляции часто применяют при определении существования линейной связи между величинами. Если предварительный графический анализ указывает на какую-либо тесноту связи, то полезно вычислить коэффициент корреляции. В том случае, если величина коэффициента корреляции находится в пределах |1….0,75|, то можно с уверенностью считать, что независимо от вида этой связи, она достаточно тесна для того, чтобы исследовать её форму.

Смысл статистических методов заключается в том, чтобы по выборке ограниченного объема N, то есть по некоторой части генеральной совокупности высказать суждение о ее свойствах в целом. Подобное суждение может быть получено путем оценивания параметров генеральной совокупности с помощью некоторых подходящих функций от результатов наблюдений – оценок.

При многократном извлечении выборок одного и того же объема и последующем нахождении множества оценок одного и того же параметра получатся различные числовые значения этих оценок, изменяющиеся от одной выборки к другой случайным образом. Иными словами, любая оценка произвольного параметра есть случайная величина. Сам оцениваемый параметр является неслучайной величиной. Для оценивания одного и того же параметра можно использовать в принципе различные оценки. Чтобы выбрать наилучшую из них, необходимо сформулировать некоторые требования к свойствам оценок, желательные с точки зрения практики.

Основными свойствами оценок являются свойства несмещенности, эффективности и состоятельности. Оценка θ_n параметра θ называется несмещенной, если её математическое ожидание равно оцениваемому параметру θ, то есть

М( ) = θ (3.36)

Если это равенство не выполняется, то оценка может либо завышать значение θ, (то есть М( )> ), либо занижать его (то есть М( )< ). В обоих случаях это приводит к систематическим (одного знака) ошибкам в оценке параметра θ. Требование несмещенности гарантирует отсутствие систематических ошибок при оценке параметров.

Несмещенная оценка , которая имеет наименьшую дисперсию среди всех возможных несмещенных оценок параметра θ, вычисленных по выборкам одного и того же объема, называется эффективной оценкой.

Оценка параметра θ называется состоятельной, если она подчиняется закону больших чисел, то есть выполняется следующее равенство:

{P ε} = 1 (3.37)

Состоятельность оценки означает, что чем больше объем выборки, тем больше вероятность того, что ошибка оценки не превысит сколь угодно малого положительного числа ε.

Точечные оценки – это оценки некоторых неизвестных числовых параметров распределения. Они представляют собой числа, полученные путем подстановки выборочных значений Х₁, Х₂,…Х_N в формулу для оценивания искомого параметра. Математическое ожидание и дисперсию S² обычно оценивают с помощью следующих соотношений:

М_х= = (3.38)

S²= (3.39)

Указанные оценки являются состоятельными и несмещенными. Для выборки из нормальной совокупности оценка Х, кроме того, является эффективной.

Если объем выборки не ограничен (N → ∞), то дисперсия параметра S²_x стремится к эффективной или, как говорят, она асимптотически эффективна. Несмещенность оценки S² достигается использованием в знаменателе формулы величины ν = N-1, вместо очевидного на взгляд значения N. Величину ν называют числом степеней свободы. Она равна разности между числом имеющихся экспериментальных значений N, по которым вычисляют оценку дисперсии, и количеством дополнительных параметров, входящих в формулу для оценки этой дисперсии и вычисляемых в виде линейных комбинаций тех же самых наблюдений.

Недостаток точечной оценки, – неизвестно с какой точностью они дают оцениваемый параметр, если для большого числа наблюдений точность обычно бывает достаточной для практических выводов, то для выборок небольшого объема вопрос о точности оценок очень существенен. Поэтому более информа-тивный способ оценивания неизвестных параметров состоит не в определении единичного точечного значения, а в построении интервала, в котором с задан-ной степенью достоверности окажется оцениваемый параметр θ.

Содержание