logo search
ПОСОБИЕ по численным для издания

3.2.1 Первый этап – сбор и первичная обработка данных

Для того, чтобы сделать вывод о поведении некоторой совокупности объектов, необходимо провести обследование каждого из этих объектов. В теории статистики различают два вида статистического наблюдения по степени полноты охвата: сплошное и несплошное. Сплошным называется такое наблюдение, при котором обследуется вся статистическая совокупность. Такая совокупность получила название генеральной. Статистическая практика показала, что идеально сплошных наблюдений почти не удается получить, так как определенная часть совокупности по различным причинам ускользает от наблюдения. Тем не менее, если степень охвата наблюдением очень велика, то наблюдение считается сплошным.

Несплошным называется такое наблюдение, при котором обследуется определенная часть единиц совокупности. Результатом такого наблюдения является выборочная совокупность. Выборочной совокупностью или просто выборкой называется совокупность случайно отобранных объектов. Объемом совокупности (выборочной или генеральной) называют число объектов этой совокупности, например, если из 1000 деталей отобрано для обследования 100 деталей, то объем генеральной совокупности N=1000, а объем выборки n=100.

Несплошное наблюдение может выполняться различными методами: выборочным, направленного отбора, методом основного массива.

Среди названных методов наиболее распространен выборочный метод наблюдения, сущность которого заключается в случайном отборе некоторого числа единиц статистической совокупности при строго объективном подходе к их отбору. Выборочный метод наблюдения позволяет по отобранной совокупности судить о характеристиках генеральной совокупности. Наиболее важным принципом этого метода является равновозможность отбора, сущность которого заключается в том, что каждой единице обеспечена равная возможность быть отобранной, т. е. ни одна единица при отборе не обладает преимуществом перед другой.

Выборочный метод наблюдения дает возможность получать случайную выборку, для статистической обработки которой используется теория вероятностей.

Одна из важнейших теорем теории вероятностей, сформулированная П. Л. Чебышевым, составляет теоретическую основу выборочного метода наблюдения. Применительно к данному методу она может быть записана в следующем виде:

(3.1)

где Р - символ вероятности;

- средняя для выборочной совокупности;

- средняя для генеральной совокупности;

t - множитель, указывающий на вероятность ошибки;

α - среднее квадратическое отклонение в генеральной совокупности;

n - объем случайной выборки.

При практическом использовании теоремы П. Л. Чебышева дисперсию для генеральной совокупности α2 заменяют выборочной дисперсией α2, так как первую подсчитать невозможно.

Множитель t, связанный с вероятностью Р, называется также нормированным отклонением, или стандартизованной разностью. Отношение (α/√n) часто обозначается через μ и выражает среднюю ошибку выборки.

Теорема П. Л. Чебышева формулируется так: с вероятностью, сколь угодно близкой к единице (достоверности), можно утверждать, что при достаточно большом объеме выборки n и ограниченной дисперсии генеральной совокупности α2 разность между выборочной средней и генеральной средней будет сколь угодно мала.

Генеральная и выборочная совокупности характеризуются рядом статистических показателей. В их числе можно назвать генеральную и выборочную средние, генеральное и выборочное среднее квадратическое отклонения и т. д.

При использовании выборочного метода наблюдения производят отбор единиц из генеральной совокупности. Систему организации отбора называют способом отбора. В зависимости от того, сколько раз отобранная единица участвует в дальнейшей выборке, различают два вида отбора: повторный и бесповторный.

Повторным называется такой вид отбора, при котором отобранная в первый раз единица возвращается обратно в генеральную совокупность и вновь участвует в выборке. Здесь мы наблюдаем постоянную вероятность попадания в выборку всех единиц совокупности.

Бесповторным называется такой вид отбора, при котором отобранная в первый раз единица в генеральную совокупность обратно не возвращается. Здесь мы наблюдаем переменную вероятность попадания в выборку каждой новой единицы.

Повторный и бесповторный отборы могут производиться разными способами. При выполнении статистических исследований различают пять способов отбора: собственно случайный, механический, типический, серийный и комбинированный.

Собственно случайный отбор ориентирован на выборку единиц из генеральной совокупности без какого-либо расчленения ее на части или группы и осуществляется наудачу. Он не зависит от изучаемых признаков и сохраняет принцип равновозможности отбора. Случайный отбор осуществляется при помощи жеребьевки или на основе таблиц случайных чисел и позволяет получать объективную оценку генеральной совокупности. Этот способ дает собственно случайную выборку. При большом объеме генеральной совокупности описанный процесс оказывается очень трудоемким.

При механическом отборе генеральная совокупность делится на число групп, соответствующих объему выборки и из каждой группы в выборку отбирается одна единица. Отбор производится в каком-либо механическом порядке. Например, в выборку попадают каждая пятая, каждая десятая и т. д. единицы при определенном их положении в генеральной совокупности.

При типическом отборе генеральная совокупность делится по некоторому признаку на типические группы и из каждой группы производится случайный отбор единиц. При этом, если отбирают некоторое число единиц, непропорциональное численности типической группы, то такой выбор называют непропорциональным типическим отбором, а в противном случае - пропорциональным. Типическим отбором пользуются тогда, когда обследуемый признак заметно колеблется в различных типических частях генеральной совокупности.

При серийном отборе производится выборка не единиц совокупности, а некоторых групп или серий. Внутри отобранных серий осуществляется сплошное наблюдение. При этом серии могут быть равновеликими и неравновеликими. Серийным отбором пользуются тогда, когда обследуемый признак колеблется в различных сериях незначительно.

При комбинированном отборе предполагается использовать одновременно несколько способов, например, серийный и случайный. В этом случае сначала генеральная совокупность разбивается на серии, а затем по отобранным сериям производится случайный отбор единиц [15].

Выборочный метод наблюдения, как и другие статистические методы, должен учитывать неточности наблюдений, которые называются ошибками наблюдения. Они состоят из ошибок регистрации и ошибок репрезентативности.

Ошибки, возникшие из-за неправильных и неточных сведений, называются ошибками регистрации. Они появляются в результате недостаточного понимания существа вопроса, ошибок регистраторов, пропуска или повторного счета некоторых единиц совокупности. Ошибки регистрации бывают двух видов: преднамеренные и непреднамеренные. Ошибки первого вида сознательно направлены на искажение действительности. К ним можно отнести приписки, скрытие резервов и т. д. В составе непреднамеренных ошибок различают систематические и случайные ошибки. Систематические ошибки обусловлены причинами, действующими в каком-либо одном направлении, которое приводит к искажению статистической информации, например округление цифр, пропуски единиц наблюдения, а также ошибки субъективных впечатлений. Случайные ошибки уравновешивают друг друга и не оказывают заметного влияния на проведение наблюдения.

Ошибки репрезентативности характеризуют разность между размером изучаемых признаков в генеральной и выборочной совокупности. Ошибки репрезентативности присущи только несплошному наблюдению. Они также делятся на два вида: систематические и случайные ошибки репрезентативности. Ошибки первого вида возникают из-за неправильного, тенденциозного отбора единиц наблюдения и приводят к нарушению основного принципа построения научно обоснованной выборки, т. е. нарушается принцип равновозможного отбора единиц. Ошибки второго вида, как правило, зависят от степени однородности статистической совокупности.

Среди задач, которые решаются на основе выборочного метода наблюдений, необходимо выделить изучение и измерение случайных ошибок репрезентативности. Эта задача заключается в определении средней или стандартной ошибки выборки, которая представляет собой среднеквадратическое отклонение возможных значений выборочной средней от генеральной средней, взвешенных по вероятностям их возникновения. Аналитические формулы для расчета средней ошибки выборки μ подбирают исходя из способа отбора:

для случайного повторного отбора

(3.2)

где σ - среднее квадратическое отклонение выборки;

n - численность выборки.

для случайной бесповторной выборки

(3.3)

где N - численность большой совокупности, из которой производится отбор.

для механической выборки - формулы (3.2), (3.3);

для непропорционального типического отбора:

при повторной выборке

(3.4)

где σ2i - выборочная дисперсия i-й типической группы;

N - численность i типической группы;

n - численность выборки из i типической группы.

при бесповторной выборке

(3.5)

для пропорционального типического отбора, который является случаем типической выборки с любыми пропорциями отбора:

(3.6)

где - средняя из выборочных дисперсий i-х типических групп.

для аналогичной бесповторной выборки

(3.7)

Разбивка на типические группы позволяет избежать влияния межгрупповой вариации на точность выборки, так как в типическую выборку обязательно входят представители всех групп. Поэтому в формулах (3.6) и (3.7), в отличие от формул (3.1) и (3.2), ошибка выборки находится в зависимости не от общей дисперсии σ2, а от средней дисперсии типических групп .

При выполнении статистических исследований возможны случаи, когда типический отбор производится пропорционально не численности единиц в типических группах, а пропорционально колеблемости признака. Такой отбор носит название типического отбора, пропорционального дифференциации признака и средняя ошибка выборки для него находится по формулам:

при повторном отборе

(3.8)

при бесповторном отборе

(3.9)

где σi - среднее квадратическре отклонение в выборке из i типической группы.

Типический отбор с учетом дифференциации признака дает наиболее благоприятные результаты. При серийном отборе его точность уже зависит не от величины общей дисперсии, которую мы наблюдаем при случайном отборе, а от межсерийной дисперсии, или дисперсии групповых средних [24].

Средние ошибки выборки при серийном методе отбора с равновеликими сериями получают по формулам:

при повторном отборе

(3.10)

при бесповторном отборе

(3.11)

где - межсерийная или межгрупповая дисперсия средних значений;

r - число отобранных серий;

R - число серий в генеральной совокупности.

В свою очередь межсерийная или межгрупповая дисперсия определяется по формуле

(3.12)

где - средняя величина в i серии;

- общая средняя величина во всех сериях.

Средняя ошибка выборки при различных комбинациях способов отбора исчисляется по-разному. Например, при комбинировании серийного отбора с равными сериями со случайным отбором средняя ошибка выборки определяется по формулам:

при повторном отборе

(3.13)

при бесповторном отборе

(3.14)

где nr - общее число единиц, попавших в выборку при отборе серий;

n - число единиц, попавших в выборку из серий.

При этом

(3.15)

где r - число отобранных серий;

N - численность совокупности, из которой производится отбор;

R - число серий в генеральной совокупности.

Комбинированный отбор может быть многоступенчатым, если выборка осуществляется в несколько этапов. Когда же число ступеней отбора больше двух, то среднюю ошибку выборки при равной численности групп можно определить из выражения

(3.16)

где μ1, μ2, μ3,….μk. - средние ошибки выборки при отдельных ступенях;

n1, n2, n3,….nk - численности выборок на соответствующих ступенях.

При использовании выборочного метода наблюдений возникает вопрос о необходимой численности выборки, которая может быть получена исходя из допустимой ошибки для определенного способа отбора. Кроме того, необходимая численность выборки устанавливается по разным методикам для выборочного наблюдения, в котором находится средний размер признака в совокупности для доли единиц, обладающих данным признаком. Разные методики основываются на разных методах вычисления меры колеблемости для варьирующего и альтернативного признака. Меру колеблемости для варьирующего признака приблизительно можно определить через размах колебаний R либо более точно - на основании результатов предыдущих опытов. В этих условиях среднее квадратическое отклонение рассчитывается по формуле

σ = R / 6 (3.17)

Следовательно, с вероятностью F(t) = 0,997 можно утверждать, что размах вариации R при нормальном распределении признака соответствует 6* σ.

Если необходимая численность выборки определяется для альтернативного признака и неизвестна, хотя бы приблизительно, доля выборки, то необходимая численность соответствует дисперсии σ2 = 0,25, т. е.

n = 0,25 t2 / ∆2 (3.18)

где n - необходимая численность выборки;

t - параметр, связанный с вероятностью Р;

∆ - предельная ошибка выборки.

Рассмотрим определение необходимой численности выборки при собственно случайном способе отбора:

для повторной выборки

n = σ2 t2 / ∆2 (3.19)

для бесповторной выборки

n = σ2 t2 N / (∆2 N + σ2 t2 ) (3.20)

где N — объем генеральной совокупности.

Для механического способа отбора необходимая численность выборки определяется по формуле (3.20).

При типическом отборе различают три способа расчета необходимой численности выборки. Первый способ относится к типическому отбору, который непропорционален объему групп. В этом случае общее число отбираемых единиц делят на число типических групп, и полученное частное характеризует численность отбора из каждой типической группы. Второй способ относится к типическому отбору, который пропорционален объему групп. Необходимая численность выборки в этом случае находится по формуле:

ni = n ( Ni / N ) (3.21)

где ni - необходимая численность выборки для i-й типической группы;

n - общий объем выборки;

Ni - объем 1-й типической группы;

N - объем генеральной совокупности.

Третий способ относится к типическому отбору, который пропорционален дифференциации признака. В этих условиях необходимая численность выборки находится из выражения:

ni = n Ni σi / (∑ Ni σi) (3.22)

где σi – среднеквадратическое отклонение в i типической группе.

При серийном способе отбора с равновеликими сериями необходимая численность выборки определяется по формулам случайного отбора:

для повторной выборки

r = б 2 t2 / ∆2 (3.23)

где r - число отобранных серий;

t - параметр, связанный с вероятностью Р;

б2 - межгрупповая или межсерийная дисперсия;

∆ - предельная ошибка выборки.

для бесповторной выборки

r = б 2 t2 R / (∆2 R + б 2 t2) (3.24)

где R - число серий в генеральной совокупности.

Анализируя различные способы определения необходимой численности выборки, можно сделать вывод, что все они основываются на формуле предельной ошибки выборки для разных способов отбора. Выборочный метод наблюдения находит широкое применение в статистической практике. На его основе проводятся обследования бюджетов семей рабочих, занятых в строительстве, состава их семей, учет посевных площадей и поголовья скота в личных хозяйствах населения, выборочная разработка данных для переписей населения.

Применительно к строительству выборочный метод наблюдения используется для обследования затрат на производство строительно-монтажных работ; заработной платы рабочих по профессиям и тарифным разрядам, инженерно-технических работников и служащих по должностям. Кроме того, широкое распространение получили статистические методы контроля качества строительной продукции и продукции предприятий материально-технической базы строительства, основанные на выборочном методе наблюдения.

При изучении процессов или явлений методами математической статистики необходимо выделять качественную и количественную стороны процесса или явления. Если качественная сторона характеризует их существенные особенности и основные закономерности, то количественная устанавливает тесноту связи между явлениями, выявляет количественные закономерности и тенденции развития. При этом математико-статистические методы опираются на качественную сторону явления.

Для выявления количественной стороны явления или процесса необходимо располагать статистическими данными. Первым этапом статистического исследования является сбор этих данных, который называют статистическим наблюдением. Результатом такого наблюдения является получение статистической совокупности.

Статистическая совокупность представляет собой множество элементов или единиц одного и того же вида. Применительно к строительству это могут быть совокупности строительных управлений с однородной спецификой работ или осуществляющих строительно-монтажные работы по одному виду строительства; совокупности рабочих одной и той же специальности; совокупности материалов, деталей, конструкций и полуфабрикатов, используемых для получения строительной продукции; совокупности основных производственных фондов строительного назначения и т. д. Таким образом, статистическая совокупность состоит из отдельных элементов. Каждый элемент характеризуется рядом свойств или признаков, которые изменяются под влиянием различных причин или условий, образуя их изменчивость, колеблемость, вариацию.

Статистический материал, полученный в результате статистического наблюдения, подвергается соответствующей обработке или систематизации. Для этого используется метод группировок, который позволяет выявить наиболее типичные черты изучаемого процесса или явления.

Метод группировок предполагает не простое распределение элементов статистической совокупности по отдельным группам, а такое, при котором группы образуются из качественно однородных элементов. Метод группировок позволяет подсчитать количество единиц или элементов статистической совокупности, обладающих конкретным значением определенного признака.

Исходная, или статистическая информация, первоначально представляет собой неупорядоченный ряд результатов отдельных наблюдений. Если эти наблюдения расположить в порядке возрастания или убывания значений признака, то получим ранжированный, или упорядоченный ряд. Подразумевается, что указанный ряд наблюдений образован из элементов генеральной совокупности, отобранных случайным образом и независимо друг от друга.

По ранжированному ряду определяют, сколько раз каждый вариант признака встречается в данной статистической совокупности. В этом случае получается ряд распределения, или вариационный ряд. Отдельные значения признака принято называть вариантами ряда распределения. Элементы статистической совокупности группируются по вариантам признака, при этом для каждой группы определяется число элементов или частота повторения признака. Следовательно, ряд распределения представляет собой таблицу, в которой записаны в определенном порядке варианты того или иного признака и указаны частоты их повторения. Ряды распределения используются для изучения различий между единицами однородной группы по величине какого-либо количественного или качественного признака. Если ряды распределения строятся по количественному признаку, то различают дискретную и непрерывную вариации.

Дискретной вариацией признака называют такую вариацию, у которой отдельные значения признака отличаются друг от друга на некоторую конечную величину или целое число.

Непрерывной вариацией признака называют такую вариацию, при которой отдельные значения признака отличаются друг от друга на сколь угодно малую величину. Примером непрерывной вариации признака может служить процент выполнения плана, производительность труда, время и т. д. Если ряд распределения формируется на основе непрерывного признака, то распределение признака задается по интервалам. В этом случае частоты подсчитываются не по отношению к отдельному значению признака, а по отношению к принятому интервалу. Полученные таким путем ряды распределения называются интервальными вариационными рядами. Однако интервальные ряды распределения могут быть получены и на основе дискретной статистической информации.

Если ряды распределения строятся по качественному признаку (профессия рабочих, вид строительства, вид строительно-монтажных работ и т. д.), то различают атрибутивную вариацию.

Для характеристики вариации признака используют не только абсолютные значения частот, но и относительные величины. В этом случае определяется отношение абсолютной частоты к объему статистической совокупности. Такие величины называются частостью. Они могут выражаться и в процентах.

Интервальные ряды распределения могут иметь равные и неравные интервалы.

Интервальными рядами с равными интервалами называются ряды, в которых все интервалы имеют одну и ту же величину. Интервальные ряды с неравными интервалами имеют различную величину интервала.

Рассмотрим основные правила построения интервальных рядов распределения с равными интервалами, которые получили наибольшее распространение при статистической обработке данных, характеризующих результаты производственно-хозяйственной деятельности строительных организаций.

При построении таких рядов распределения используют метод группировок, суть которого заключается в том, что в результате объединения близких значений признака ряд разбивается на отдельные группы. Первоначально выбирают число интервалов. Оно определяется требованиями наглядности и закономерностями наблюдения: при небольшом количестве наблюдений число интервалов в основном зависит от объема совокупности или числа единиц в ней. При выборе числа интервалов необходимо соблюдать следующие правила: количество интервалов не должно быть очень большим, так как тогда в каждом из них может оказаться недостаточное количество единиц совокупности для выражения отчетливой закономерности; оно не должно быть и очень малым, чтобы сохранить основные качественные признаки ряда распределения. Эмпирическим путем установлено, что при малом числе наблюдений (n≤10) вариационный ряд непосредственно используется для дальнейших расчетов.

При большом количестве данных простой вариационный ряд преобразуется в сгруппированный. Данные разбиваются на ряд групп или классов, общее число интервалов k должно быть в пределах 8-25, так как при увеличении k резко возрастает трудоемкость статистических расчетов, а точность результатов не повышается. После выбора числа интервалов приступают к определению его величины. Необходимо стремиться подобрать оптимальную величину интервала, т. е. такую, при которой вариационный ряд не будет слишком громоздким, и будут сохранены особенности данного явления или исследуемого процесса. Для расчета величины интервала используют формулу:

i = R / l (3.25)

где К - размах колебаний признака;

l - число интервалов.

В случае непрерывного признака целесообразно строить гистограмму. Для чего интервал, в котором заключены все наблюдаемые значения признака, разбивают на несколько частичных интервалов длиной h и находят для каждого

частичного интервала ni – сумму частот вариаций, попавших в i-ый интервал.

При графическом изображении интервального ряда распределения по одной из осей координат, а именно по оси абсцисс х, откладывают интервалы значений данного признака, по оси ординат у - абсолютные частоты. Построенная таким образом фигура на осях координат имеет форму прямоугольника и называется гистограммой распределения интервального ряда. Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длиною h, а высоты равны отношению ni/h (плотность частоты). Для построения гистограммы частот на оси абсцисс откладывают частичные интервалы, а над ними проводят отрезки, параллельные оси абсцисс на расстоянии ni/h. Площадь i-го частичного прямоугольника равна (hni/h=ni) сумме частот вариаций i-го интервала; следовательно, площадь гистограммы частот равна сумме всех частот, то есть объему выборки.

Гистограммой относительных частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длиною h, а высоты равны отношению Wi/h (плотность относительной частоты). Площадь гистограммы относительных частот равна сумме всех относительных частот, то есть единице.

Ордината такого графика есть отношение площади прямоугольника к длине основания, и выражает собой частоту, которая приходится на единицу измерения данного признака. Указанная частота носит название плотности частоты. При наличии интервального ряда с равными интервалами плотность количественно совпадает со значениями абсолютных частот.

Графическое изображение интервального ряда распределения в виде гистограммы показано на рисунке 5а. На нем наглядно представлена выявленная закономерность изменения вариантов данного признака: нарастание частот в левой части графика и постепенное уменьшение их в крайних точках, т. е. данный ряд распределения имеет незначительную правостороннюю асимметрию.

Для систематизации статистического материала в аналитической форме интервальный ряд распределения необходимо представить в виде дискретного ряда распределения, в котором вместо интервалов принимаются их центральные значения.

При построении дискретного ряда распределения абсолютные и относительные частоты остаются без изменения. Дискретные ряды распределения, так же как и интервальные, можно представить в виде графиков. Для графического изображения дискретного ряда распределения по одной из осей координат - оси абсцисс х откладывают центральные значения интервалов, а по оси ординат у - абсолютные частоты. В результате построения получается многоугольник, который носит название полигона распределения. Графическое изображение дискретного ряда распределения дано на рисунке 5б.

а б в

Рисунок 5 –Гистограмма частот (а), полигон частот (б), кривая нормального распределения (в)

Полигоном частот называют ломаную, отрезки которой соединяют точки (Xi; n1); (X2; n2)….(Xk; nk). Для построения полигона частот на оси абсцисс откладывают варианты Xi, а на оси ординат – соответствующие им частоты ni. Точки (Xi; ni) соединяют отрезками прямых и получают полигон частот.

Полигоном относительных частот называют ломанную, отрезки которой соединяют точки (Xi; W1); (X2; W2); (Xk; Wk). Полигон частот дает понятие о том, насколько часто встречается каждое значение [7,9].