Как составить дискретный вариационный ряд. Построение рядов распределения

2. Понятие рядов распределения. Дискретные и интервальные ряды распределения

Рядами распределения называются группировки особого вида, при которых по каждому признаку, группе признаков или классу признаков известны численность единиц в группе либо удельный вес этой численности в общем итоге. Т.е. ряд распределения – упорядоченная совокупность значений признака, расположенных в порядке возрастания или убывания с соответствующими им весами. Ряды распределения могут быть построены или по количественному, или по атрибутивному признаку.

Ряды распределения, построенные по количественному признаку, называются вариационными рядами. Они бывают дискретные и интервальные . Ряд распределения может быть построен по не прерывно варьирующему признаку (когда признак может принимать любые значения в рамках какого-либо интервала) и по дискретно варьирующему признаку (принимает строго определенные целочисленные значения).

Дискретным вариационным рядом распределения называется ранжированная совокупность вариантов с соответствующими им частотами или частностями. Варианты дискретного ряда – это дискретно прерывно изменяющиеся значения признак, обычно это результат подсчета.

Дискретные

вариационные ряды строят обычно в том случае, если значения изучаемого признака могут отличаться друг от друга не менее чем на некоторую конечную величину. В дискретных рядах задаются точечные значения признака. Пример : Распределение мужских костюмов, реализованных магазинами за месяц по размерам.

Интервальным

вариационным рядомназывается упорядоченная совокупность интервалов варьирования значений случайной величины с соответствующими частотами или частостями попаданий в каждый из них значений величины. Интервальные ряды предназначены для анализа распределения непрерывно изменяющегося признака, значение которого чаще всего регистрируется путем измерения или взвешивания. Варианты такого ряда – это группировка.

Пример : Распределение покупок в продуктовом магазине по сумме.

Если в дискретных вариационных рядах частотная характеристика относится непосредственно к варианту ряда, то в интервальных к группе вариантов.

Ряды распределения удобно анализировать при помощи их графического изображения, позволяющего судить и о форме распределения, о закономерностях. Дискретный ряд изображается на графике в виде ломаной линии – полигона распределения . Для его построения в прямоугольной системе координат по оси абсцисс в одинаковом масштабе откладываются ранжированные (упорядоченные) значения варьирующего признака, а по оси ординат наносится шкала для выражения частот.

Интервальные ряды изображаются в виде гистограмм распределения (то есть столбиков диаграмм).

При построении гистограммы на оси абсцисс откладываются величины интервалов, а частоты изображаются прямоугольниками, построенными на соответствующих интервалах. Высота столбиков в случае равных интервалов должна быть пропорциональна частотам.

Любая гистограмма может быть преобразована в полигон распределений, для этого необходимо соединить между собой отрезками прямой вершины ее прямоугольников.

2. Индексный метод анализа влияния средней выработки и среднесписочной численности на изменения объема продукции

Индексный метод применяется для анализа динамики и сравнения обобщающих показателей, а так же факторов, влияющих на изменение уровней этих показателей. С помощью индексов можно выявить влияние средней выработки и среднесписочной численности на изменения объема продукции. Эта задача решается путем построения системы аналитических индексов.

Индекс объема продукции с индексом среднесписочной численности работающих и индексом средней выработки связан таким же образом, как объем производства (Q) связан с выработкой (w) и численностью (r) .

Можно заключить, что объем продукции будет равняться произведению средней выработки и среднесписочной численности:

Q = w·r, где Q – объем продукции,

w - средняя выработка,

r – среднесписочная численность.

Как видно, речь идет о взаимосвязи явлений в статике: произведение двух факторов дает общий объем результативного явления. Очевидно также, что эта связь функциональная, следовательно, динамика этой связи изучается с помощью индексов. Для приведенного примера это следующая система:

J w × J r = J wr .

Например, индекс объема продукции Jwr, как индекс результативного явления, можно разложить на два индекса-фактора: индекс средней выработки (Jw), и индекс среднесписочной численности (Jr):

Индекс Индекс Индекс

объема средней среднесписочной

продукции выработки численности

где J w - индекс производительности труда, рассчитываемый по формуле Ласпейреса;

J r - индекс численности работающих, рассчитываемый по формуле Пааше.

Индексные системы используются для определения влияния отдельных факторов на формирование уровня результативного показателя, позволяют по 2-м известным значениям индексов определить значение неизвестного.

На базе приведенной системы индексов можно найти и абсолютный прирост объема продукции, разложенный на влияние факторов.

1. Общий прирост объема продукции:

∆wr = ∑w 1 r 1 - ∑w 0 r 0 .

2. Прирост за счет действия показателя средней выработки:

∆wr/w = ∑w 1 r 1 - ∑w 0 r 1 .

3. Прирост за счет действия показателя среднесписочной численности:

∆wr/r = ∑w 0 r 1 - ∑w 0 r 0

∆wr = ∆wr/w + ∆wr/r.

Пример. Известны следующие данные

Мы можем определить, как изменился объем продукции в относительном и абсолютном выражении и как отдельные факторы повлияли на это изменение.

Объем продукции составил:

в базисном периоде

w 0 * r 0 = 2000 * 90 = 180000,

а в отчетном

w 1 * r 1 = 2100 * 100 = 210000.

Следовательно, объем продукции увеличился на 30000 или на 1,16%.

∆wr=∑w 1 r 1 -∑w 0 r 0= (210000-180000)=30000

или (210000:180000)*100%=1,16%.

Данное изменение объема продукции было обусловлено:

1) увеличением среднесписочной численности на 10 человек или на 111,1%

r 1 /r 0 = 100 / 90 = 1,11 или 111,1%.

В абсолютном выражении за счет этого фактора объем продукции увеличился на 20000:

w 0 r 1 – w 0 r 0 = w 0 (r 1 -r 0) = 2000 (100-90) = 20000.

2) увеличением средней выработки на 105% или на 10000:

w 1 r 1 /w 0 r 1 = 2100*100/2000*100 = 1,05 или 105%.

В абсолютном выражении прирост составляет:

w 1 r 1 – w 0 r 1 = (w 1 -w 0)r 1 = (2100-2000)*100 = 10000.

Отсюда, совместное влияние факторов составило:

1. В абсолютном выражении

10000 + 20000 = 30000

2. В относительном выражении

1,11 * 1,05 = 1,16 (116%)

Следовательно, прирост составляет 1,16%. Оба результата были получены ранее.

Слово «index» в переводе означает указатель, показатель. В статистике индекс трактуется как относительный показатель, характеризующий изменение явления во времени, пространстве или по сравнению с планом. Поскольку индекс относительная величина, наименования индексов созвучны с наименованием относительных величин.

В тех случаях, когда мы анализируем изменение во времени сравниваемой продукции, мы можем поставить вопрос о том, как в различных условиях (на различных участках) меняются составляющие индекса (цена, физический объем, структура производства или реализации отдельных видов продукции). В связи с этим строятся индексы постоянного состава, переменного состава, структурных сдвигов.

Индекс постоянного (фиксированного) состава – это индекс, который характеризует динамику средней величины при одной и той же фиксированной структуре совокупности.

Принцип построения индекса постоянного состава – элиминировать влияние изменений в структуре весов на индексируемую величину путем расчета средневзвешенного уровня индексируемого показателя с одними и теми же весами.

Индекс постоянного состава по своей форме тождественен агрегатному индексу. Агрегатная форма является наиболее распространенной.

Индекс постоянного состава исчисляется с весами, зафиксированными на уровне одного какого-либо периода, и показывает изменение только индексируемой величины. Индекс постоянного состава элиминирует влияние изменений в структуре весов на индексируемую величину путем расчета средневзвешенного уровня индексируемого показателя с одними и теми же весами. В индексах постоянного состава сопоставляются показатели, рассчитанные на базе неизменной структуры явлений.

Группировка – это разбиение совокупности на группы, однородные по какому-либо признаку.

Назначение сервиса . С помощью онлайн-калькулятора Вы сможете:

  • построить вариационный ряд , построить гистограмму и полигон;
  • найти показатели вариации (среднюю, моду (в т.ч. и графическим способом), медиану, размах вариации, квартили, децили, квартильный коэффициент дифференциации, коэффициент вариации и другие показатели);

Инструкция . Для группировки ряда необходимо выбрать вид получаемого вариационного ряда (дискретный или интервальный) и указать количество данных (количество строк). Полученное решение сохраняется в файле Word (см. пример группировки статистических данных).

Количество исходных данных
",0);">

Если группировка уже осуществлена и заданы дискретный вариационный ряд или интервальный ряд , то необходимо воспользоваться онлайн-калькулятором Показатели вариации . Проверка гипотезы о виде распределения производится с помощью сервиса Изучение формы распределения .

Виды статистических группировок

Вариационный ряд . В случае наблюдений дискретной случайной величины одно и то же значение можно встретить несколько раз. Такие значения x i случайной величины записывают с указанием n i числа раз его появления в n наблюдениях, это и есть частота данного значения.
В случае непрерывной случайной величины на практике применяют группировку.
  1. Типологическая группировка – это разделение исследуемой качественно разнородной совокупности на классы, социально–экономические типы, однородные группы единиц. Для построения данной группировки используйте параметр Дискретный вариационный ряд.
  2. Структурной называется группировка , в которой происходит разделение однородной совокупности на группы, характеризующие ее структуру по какому–либо варьирующему признаку. Для построения данной группировки используйте параметр Интервальный ряд.
  3. Группировка, выявляющая взаимосвязи между изучаемыми явлениями и их признаками, называется аналитической группировкой (см. аналитическая группировка ряда).

Принципы построения статистических группировок

Ряд наблюдений, упорядоченных по возрастанию, называется вариационным рядом . Группировочным признаком называется признак, по которому производится разбивка совокупности на отдельные группы. Его называют основанием группировки. В основание группировки могут быть положены как количественные, так и качественные признаки.
После определения основания группировки следует решить вопрос о количестве групп, на которые надо разбить исследуемую совокупность.

При использовании персональных компьютеров для обработки статистических данных группировка единиц объекта производится с помощью стандартных процедур.
Одна из таких процедур основана на использовании формулы Стерджесса для определения оптимального числа групп:

k = 1+3,322*lg(N)

Где k – число групп, N – число единиц совокупности.

Длину частичных интервалов вычисляют как h=(x max -x min)/k

Затем подсчитывают числа попаданий наблюдений в эти интервалы, которые принимают за частоты n i . Малочисленные частоты, значения которых меньше 5 (n i < 5), следует объединить. в этом случае надо объединить и соответствующие интервалы.
В качестве новых значений вариант берут середины интервалов x i =(c i-1 +c i)/2.

Важнейшим этапом исследования социально-экономических явлений и процессов является систематизация первичных данных и получение на этой основе сводной характеристики всего объекта при помощи обобщающих показателей, что достигается путем сводки и группировки первичного статистического материала.

Статистическая сводка - это комплекс последовательных операций по обобщению конкретных единичных фактов, образующих совокупность, для выявления типичных черт и закономерностей, присущих изучаемому явлению в целом. Проведение статистической сводки включает следующие этапы :

  • выбор группировочного признака;
  • определение порядка формирования групп;
  • разработка системы статистических показателей для характеристики групп и объекта в целом;
  • разработка макетов статистических таблиц для представления результатов сводки.

Статистической группировкой называется расчленение единиц изучаемой совокупности на однородные группы по определенным существенным для них признакам. Группировки являются важнейшим статистическим методом обобщения статистических данных, основой для правильного исчисления статистических показателей.

Различают следующие виды группировок: типологические, структурные, аналитические. Все эти группировки объединяет то, что единицы объекта разделены на группы по какому-либо признаку.

Группировочным признаком называется признак, по которому проводится разбиение единиц совокупности на отдельные группы. От правильного выбора группировочного признака зависят выводы статистического исследования. В качестве основания группировки необходимо использовать существенные, теоретически обоснованные признаки (количественные или качественные).

Количественные признаки группировки имеют числовое выражение (объем торгов, возраст человека, доход семьи и т. д.), а качественные признаки группировки отражают состояние единицы совокупности (пол, семейное положение, отраслевая принадлежность предприятия, его форма собственности и т. д.).

После того, как определено основание группировки следует решить вопрос о количестве групп, на которые надо разбить исследуемую совокупность. Число групп зависит от задач исследования и вида показателя, положенного в основание группировки, объема совокупности, степени вариации признака.

Например, группировка предприятий по формам собственности учитывает муниципальную, федеральную и собственность субъектов федерации. Если группировка производится по количественному признаку, то тогда необходимо обратить особое внимание на число единиц исследуемого объекта и степень колеблемости группировочного признака.

Когда определено число групп, то следует определить интервалы группировки. Интервал - это значения варьирующего признака, лежащие в определенных границах. Каждый интервал имеет свою величину, верхнюю и нижнюю границы или хотя бы одну из них.

Нижней границей интервала называется наименьшее значение признака в интервале, а верхней границей - наибольшее значение признака в интервале. Величина интервала представляет собой разность между верхней и нижней границами.

Интервалы группировки в зависимости от их величины бывают: равные и неравные. Если вариация признака проявляется в сравнительно узких границах и распределение носит равномерный характер, то строят группировку с равными интервалами. Величина равного интервала определяется по следующей формуле :

где Хmax, Хmin - максимальное и минимальное значения признака в совокупности; n - число групп.

Простейшая группировка, в которой каждая выделенная группа характеризуется одним показателем представляет собой ряд распределения.

Статистический ряд распределения - это упорядоченное распределение единиц совокупности на группы по определенному признаку. В зависимости от признака, положенного в основу образования ряда распределения, различают атрибутивные и вариационные ряды распределения.

Атрибутивными называют ряды распределения, построенные по качественным признакам, то есть признакам, не имеющим числового выражения (распределение по видам труда, по полу, по профессии и т.д.). Атрибутивные ряды распределения характеризуют состав совокупности по тем или иным существенным признакам. Взятые за несколько периодов, эти данные позволяют исследовать изменение структуры.

Вариационными рядами называют ряды распределения, построенные по количественному признаку. Любой вариационный ряд состоит из двух элементов: вариантов и частот. Вариантами называются отдельные значения признака, которые он принимает в вариационном ряду, то есть конкретное значение варьирующего признака.

Частотами называются численности отдельных вариант или каждой группы вариационного ряда, то есть это числа, которые показывают, как часто встречаются те или иные варианты в ряду распределения. Сумма всех частот определяет численность всей совокупности, ее объем. Частостями называются частоты, выраженные в долях единицы или в процентах к итогу. Соответственно сумма частостей равна 1 или 100%.

В зависимости от характера вариации признака различают три формы вариационного ряда: ранжированный ряд, дискретный ряд и интервальный ряд.

Ранжированный вариационный ряд - это распределение отдельных единиц совокупности в порядке возрастания или убывания исследуемого признака. Ранжирование позволяет легко разделить количественные данные по группам, сразу обнаружить наименьшее и наибольшее значения признака, выделить значения, которые чаще всего повторяются.

Дискретный вариационный ряд характеризует распределение единиц совокупности по дискретному признаку, принимающему только целые значения. Например, тарифный разряд, количество детей в семье, число работников на предприятии и др.

Если признак имеет непрерывное изменение, которые в определенных границах могут принимать любые значения («от - до»), то для этого признака нужно строить интервальный вариационный ряд . Например, размер дохода, стаж работы, стоимость основных фондов предприятия и др.

Примеры решения задач по теме «Статистическая сводка и группировка»

Задача 1 . Имеется информация о количестве книг, полученных студентами по абонементу за прошедший учебный год.

Построить ранжированный и дискретный вариационные ряды распределения, обозначив элементы ряда.

Решение

Данная совокупность представляет собой множество вариантов количества получаемых студентами книг. Подсчитаем число таких вариантов и упорядочим в виде вариационного ранжированного и вариационного дискретного рядов распределения.

Задача 2 . Имеются данные о стоимости основных фондов у 50 предприятий, тыс. руб.

Построить ряд распределения, выделив 5 групп предприятий (с равными интервалами).

Решение

Для решения выберем наибольшее и наименьшее значения стоимости основных фондов предприятий. Это 30,0 и 10,2 тыс. руб.

Найдем размер интервала: h = (30,0-10,2):5= 3,96 тыс. руб.

Тогда в первую группу будут входить предприятия, размер основных фондов которых составляет от 10,2 тыс. руб. до 10,2+3,96=14,16 тыс. руб. Таких предприятий будет 9. Во вторую группу войдут предприятия, размер основных фондов которых составит от 14,16 тыс. руб. до 14,16+3,96=18,12 тыс. руб. Таких предприятий будет 16. Аналогично найдем число предприятий, входящих в третью, четвертую и пятую группы.

Полученный ряд распределения поместим в таблицу.

Задача 3 . По ряду предприятий легкой промышленности получены следующие данные:

Произведите группировку предприятий по числу рабочих, образуя 6 групп с равными интервалами. Подсчитайте по каждой группе:

1. число предприятий
2. число рабочих
3. объем произведенной продукции за год
4. среднюю фактическую выработку одного рабочего
5. объем основных средств
6. средний размер основных средств одного предприятия
7. среднюю величину произведенной продукции одним предприятием

Результаты расчета оформите в таблицы. Сделайте выводы.

Решение

Для решения выберем наибольшее и наименьшее значения среднесписочного числа рабочих на предприятии. Это 43 и 256.

Найдем размер интервала: h = (256-43):6 = 35,5

Тогда в первую группу будут входить предприятия, среднесписочное число рабочих на которых составляет от 43 до 43+35,5=78,5 человек. Таких предприятий будет 5. Во вторую группу войдут предприятия, среднесписочное число рабочих на которых составит от 78,5 до 78,5+35,5=114 человек. Таких предприятий будет 12. Аналогично найдем число предприятий, входящих в третью, четвертую, пятую и шестую группы.

Полученный ряд распределения поместим в таблицу и вычислим необходимые показатели по каждой группе:

Вывод : Как видно из таблицы, вторая группа предприятий является самой многочисленной. В нее входят 12 предприятий. Самыми малочисленными являются пятая и шестая группы (по два предприятия). Это самые крупные предприятия (по числу рабочих).

Поскольку вторая группа самая многочисленная, объем произведенной продукции за год предприятиями этой группы и объем основных средств значительно выше других. Вместе с тем средняя фактическая выработка одного рабочего на предприятиях этой группы наибольшей не является. Здесь лидируют предприятия четвертой группы. На эту группу приходится и довольно большой объем основных средств.

В заключении отметим, что средний размер основных средств и средняя величина произведенной продукции одного предприятия прямо пропорциональны размерам предприятия (по числу рабочих).

Математическая статистика - раздел математики, посвященный математическим методам обработки, систематизации и использования статистических данных для научных и практических выводов.

3.1. ОСНОВНЫЕ ПОНЯТИЯ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

В медико-биологических задачах часто приходится исследовать распределение того или иного признака для очень большого числа индивидуумов. У разных индивидуумов этот признак имеет различное значение, поэтому он является случайной величиной. Например, любой лечебный препарата имеет различную эффективность при его применении к разным пациентам. Однако для того чтобы составить представление об эффективности данного препарата, нет необходимости применять его ко всем больным. Можно проследить результаты применения препарата к сравнительно небольшой группе больных и на основании полученных данных выявить существенные черты (эффективность, противопоказания) процесса лечения.

Генеральная совокупность - подлежащая изучению совокупность однородных элементов, характеризуемых некоторым признаком. Этот признак является непрерывной случайной величиной с плотностью распределения f(x).

Например, если нас интересует распространенность какого-либо заболевания в некотором регионе, то генеральная совокупность - все население региона. Если же мы хотим выяснить подверженность этому заболеванию мужчин и женщин по отдельности, то следует рассматривать две генеральные совокупности.

Для изучения свойств генеральной совокупности отбирают некоторую часть ее элементов.

Выборка - часть генеральной совокупности, выбираемая для обследования (лечения).

Если это не вызывает недоразумений, то выборкой называют как совокупность объектов, отобранных для обследования, так и совокупность

значений исследуемого признака, полученных при обследовании. Эти значения могут быть представлены несколькими способами.

Простой статистический ряд - значения исследуемого признака, записанные в том порядке, в котором они были получены.

Пример простого статистического ряда, полученного при измерении скорости поверхностной волны (м/с) в коже лба у 20 пациентов приведен в табл. 3.1.

Таблица 3.1. Простой статистический ряд

Простой статистический ряд - основной и самый полный способ записи результатов обследования. Он может содержать сотни элементов. Окинуть такую совокупность одним взглядом весьма затруднительно. Поэтому большие выборки обычно подвергают разбиению на группы. Для этого область изменения признака разбивают на несколько (N) интервалов равной ширины и подсчитывают относительные частоты (n/n) попадания признака в эти интервалы. Ширина каждого интервала равна:

Границы интервалов имеют следующие значения:

Если какой-то элемент выборки является границей между двумя соседними интервалами, то его относят к левому интервалу. Сгруппированные таким образом данные называют интервальным статистическим рядом.

- это таблица, в которой приведены интервалы значений признака и относительные частоты попадания признака в эти интервалы.

В нашем случае можно образовать, например, такой интервальный статистический ряд (N = 5, d = 4), табл. 3.2.

Таблица 3.2. Интервальный статистический ряд

Здесь к интервалу 28-32 отнесены два значения равные 28 (табл. 3.1), а к интервалу 32-36 - значения 32, 33, 34 и 35.

Интервальный статистический ряд можно изобразить графически. Для этого по оси абсцисс откладывают интервалы значений признака и на каждом из них, как на основании, строят прямоугольник с высотой, равной относительной частоте. Полученная столбцовая диаграмма называется гистограммой.

Рис. 3.1. Гистограмма

На гистограмме статистические закономерности распределения признака просматриваются достаточно отчетливо.

При большом объеме выборки (несколько тысяч) и малой ширине столбцов форма гистограммы близка к форме графика плотности распределения признака.

Число столбцов гистограммы можно выбрать по следующей формуле:

Построение гистограммы вручную - процесс долгий. Поэтому разработаны компьютерные программы для их автоматического построения.

3.2. ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ СТАТИСТИЧЕСКОГО РЯДА

Многие статистические процедуры используют выборочные оценки для математического ожидания и дисперсии (или СКО) генеральной совокупности.

Выборочное среднее (Х) - это среднее арифметическое всех элементов простого статистического ряда:

Для нашего примера Х = 37,05 (м/с).

Выборочное среднее - это наилучшая оценка генерального среднего М.

Выборочная дисперсия s 2 равна сумме квадратов отклонений элементов от выборочного среднего, поделенной на n - 1:

В нашем примере s 2 = 25,2 (м/с) 2 .

Обратите внимание, что при вычислении выборочной дисперсии в знаменателе формулы стоит не объем выборки n, а n-1. Это связано с тем, что при вычислении отклонений в формуле (3.3) вместо неизвестного математического ожидания используется его оценка - выборочное среднее.

Выборочная дисперсия - это наилучшая оценка генеральной дисперсии (σ 2).

Выборочное среднеквадратическое отклонение (s) - это квадратный корень из выборочной дисперсии:

Для нашего примера s = 5,02 (м/с).

Выборочное среднеквадратическое отклонение - это наилучшая оценка генерального СКО (σ).

При неограниченном увеличении объема выборки все выборочные характеристики стремятся к соответствующим характеристикам генеральной совокупности.

Для вычисления выборочных характеристик используют компьютерные формулы. В приложении Excel эти вычисления выполняют статистические функции СРЗНАЧ, ДИСП. СТАНДОТКЛОН.

3.3. ИНТЕРВАЛЬНАЯ ОЦЕНКА

Все выборочные характеристики являются случайными величинами. Это означает, что для другой выборки того же объема значения выборочных характеристик получатся другими. Таким образом, выборочные

характеристики являются лишь оценками соответствующих характеристик генеральной совокупности.

Недостатки выборочного оценивания компенсирует интервальная оценка, представляющая числовой интервал, внутри которого с заданной вероятностью Р д находится истинное значение оцениваемого параметра.

Пусть U r - некоторый параметр генеральной совокупности (генеральное среднее, генеральная дисперсия и т.д.).

Интервальной оценкой параметра U r называется интервал (U 1 , U 2), удовлетворяющий условию:

P(U < Ur < U2) = Рд. (3.5)

Вероятность Р д называется доверительной вероятностью.

Доверительная вероятность Р д - вероятность того, что истинное значение оцениваемой величины находится внутри указанного интервала.

При этом интервал (U 1 , U 2) называется доверительным интервалом для оцениваемого параметра.

Часто вместо доверительной вероятности используют связанную с ней величину α = 1 - Р д, которая называется уровнем значимости.

Уровень значимости - это вероятность того, что истинное значение оцениваемого параметра находится за пределами доверительного интервала.

Иногда α и Р д выражают в процентах, например, 5% вместо 0,05 и 95% вместо 0,95.

При интервальном оценивании сначала выбирают соответствующую доверительную вероятность (обычно 0,95 или 0,99), а затем находят соответствующий интервал значений оцениваемого параметра.

Отметим некоторые общие свойства интервальных оценок.

1. Чем ниже уровень значимости (чем больше Р д), тем шире интервальная оценка. Так, если при уровне значимости 0,05 интервальная оценка генерального среднего есть 34,7 < М < 39,4, то для уровня 0,01 она будет гораздо шире: 33,85 < М < 40,25.

2. Чем больше объем выборки n, тем уже интервальная оценка с выбранным уровнем значимости. Пусть, например, 5 - процентная оценка генеральной средней (β=0,05), полученная по выборке из 20 элементов, тогда 34,7 < М < 39,4.

Увеличив объем выборки до 80, мы при том же уровне значимости получим более точную оценку: 35,5 < М < 38,6.

В общем случае построение надежных доверительных оценок требует знания закона, по которому оцениваемый случайный признак распределен в генеральной совокупности. Рассмотрим, как строится интервальная оценка генерального среднего признака, который распределен в генеральной совокупности по нормальному закону.

3.4. ИНТЕРВАЛЬНАЯ ОЦЕНКА ГЕНЕРАЛЬНОГО СРЕДНЕГО ДЛЯ НОРМАЛЬНОГО ЗАКОНА РАСПРЕДЕЛЕНИЯ

Построение интервальной оценки генерального среднего М для генеральной совокупности с нормальным законом распределения основано на следующем свойстве. Для выборки объема n отношение

подчиняется распределению Стьюдента с числом степеней свободы ν = n - 1.

Здесь Х - выборочное среднее, а s - выборочное СКО.

Используя таблицы распределения Стьюдента или их компьютерный аналог, можно найти такое граничное значение что c заданной доверительной вероятностью выполняется неравенство:

Этому неравенству соответствует неравенство для М:

где ε - полуширина доверительного интервала.

Таким образом, построение доверительного интервала для М проводится в следующей последовательности.

1. Выбирают доверительную вероятность Р д (обычно 0,95 или 0,99) и для нее по таблице распределения Стьюдента находят параметр t

2. Рассчитывают полуширину доверительного интервала ε:

3. Получают интервальную оценку генерального среднего с выбранной доверительной вероятностью:

Кратко это записывается так:

Для нахождения интервальных оценок разработаны компьютерные процедуры.

Поясним, как пользоваться таблицей распределения Стьюдента. Эта таблица имеет два «входа»: левый столбец, называемый числом степеней свободы ν = n - 1, и верхняя строка - уровень значимости α. На пересечении соответствующей строки и столбца находят коэффициент Стьюдента t.

Применим этот метод к нашей выборке. Фрагмент таблицы распределения Стьюдента представлен ниже.

Таблица 3.3. Фрагмент таблицы распределения Стьюдента

Простой статистический ряд для выборки из 20 человек (n = 20, ν =19) представлен в табл. 3.1. Для этого ряда расчеты по формулам (3.1-3.3) дают: Х = 37,05; s = 5,02.

Выберем α = 0,05 (Р д = 0,95). На пересечении строки «19» и столбца «0,05» найдем t = 2,09.

Вычислим точность оценки по формуле (3.6): ε = 2,09?5,02/λ /20 = 2,34.

Построим интервальную оценку: с вероятностью 95% неизвестное генеральное среднее удовлетворяет неравенству:

37,05 - 2,34 < М < 37,05 + 2,34, или М = 37,05 ± 2,34 (м/с), Р д = 0,95.

3.5. МЕТОДЫ ПРОВЕРКИ СТАТИСТИЧЕСКИХ ГИПОТЕЗ

Статистические гипотезы

Прежде чем сформулировать, что такое статистическая гипотеза, рассмотрим следующий пример.

Для сравнения двух методик лечения некоторого заболевания были отобраны две группы пациентов по 20 человек, лечение которых проводилось по этим методикам. Для каждого пациента фиксировалось количество процедур, после которого достигался положительный эффект. По этим данным для каждой группы находились выборочные средние (Х), выборочные дисперсии (s 2) и выборочные СКО (s).

Результаты представлены в табл. 3.4.

Таблица 3.4

Количество процедур, необходимое для получения положительного эффекта, - случайная величина, вся информация о которой на данный момент содержится в приведенной выборке.

Из табл. 3.4 видно, что выборочное среднее в первой группе меньше, чем во второй. Означает ли это, что и для генеральных средних имеет место такое же соотношение: М 1 < М 2 ? Достаточно ли статистических данных для такого вывода? Ответы на эти вопросы и дает статистическая проверка гипотез.

Статистическая гипотеза - это предположение относительно свойств генеральных совокупностей.

Мы будем рассматривать гипотезы о свойствах двух генеральных совокупностей.

Если генеральные совокупности имеют известные, одинаковые распределения оцениваемой величины, а предположения касаются величин некоторого параметра этого распределения, то гипотезы называются параметрическими. Например, выборки извлечены из генеральных совокупностей с нормальным законом распределения и одинаковой дисперсией. Требуется выяснить, одинаковы ли генеральные средние этих совокупностей.

Если о законах распределения генеральных совокупностей ничего не известно, то гипотезы об их свойствах называют непараметрическими. Например, одинаковы ли законы распределения генеральных совокупностей, из которых извлечены выборки.

Нулевая и альтернативная гипотезы.

Задача проверки гипотез. Уровень значимости

Познакомимся с терминологией, применяемой при проверке гипотез.

Н 0 - нулевая гипотеза (гипотеза скептика) - это гипотеза об отсутствии различий между сравниваемыми выборками. Скептик считает, что различия между выборочными оценками, полученными по результатам исследований, - случайны;

Н 1 - альтернативная гипотеза (гипотеза оптимиста) - это гипотеза о наличии различий между сравниваемыми выборками. Оптимист считает, что различия между выборочными оценками вызваны объективными причинами и соответствуют различиям генеральных совокупностей.

Проверка статистических гипотез осуществима только тогда, когда из элементов сравниваемых выборок можно составить некоторую величину (критерий), закон распределения которой в случае справедливости Н 0 известен. Тогда для этой величины можно указать доверительный интервал, в который с заданной вероятностью Р д попадает ее значение. Этот интервал называют критической областью. Если значение критерия попадает в критическую область, то принимается гипотеза Н 0 . В противном случае принимается гипотеза Н 1 .

В медицинских исследованиях используют Р д = 0,95 или Р д = 0,99. Этим значениям соответствуют уровни значимости α = 0,05 или α = 0,01.

При проверке статистических гипотез уровнем значимости (α) называется вероятность отклонения нулевой гипотезы, когда она верна.

Обратите внимание на то, что по своей сути процедура проверки гипотез направлена на обнаружение различий, а не на подтверждение их отсутствия. При выходе значения критерия за пределы критической области мы можем с чистым сердцем сказать «скептику» - ну что, Вы еще хотите?! Если бы различия отсутствовали, то с вероятностью 95% (или 99%) расчетное значение было бы в указанных пределах. Так ведь нет!..

Ну а если значение критерия попадает в критическую область, то нет никаких оснований считать что гипотеза Н 0 верна. Это, скорее всего, указывает на одну из двух возможных причин.

1. Объемы выборок недостаточно велики, чтобы обнаружить имеющиеся различия. Вполне вероятно, что продолжение экспериментов принесет успех.

2. Различия есть. Но они настолько малы, что не имеют практического значения. В этом случае продолжение экспериментов не имеет смысла.

Перейдем к рассмотрению некоторых статистических гипотез, используемых в медицинских исследованиях.

3.6. ПРОВЕРКА ГИПОТЕЗ О РАВЕНСТВЕ ДИСПЕРСИЙ, F-КРИТЕРИЙ ФИШЕРА

В некоторых клинических исследованиях о положительном эффекте свидетельствует не столько величина исследуемого параметра, сколько его стабилизация, уменьшение его колебаний. В этом случае возникает вопрос о сравнении двух генеральных дисперсий по результатам выборочного обследования. Эта задача может быть решена с помощью критерия Фишера.

Постановка задачи

нормальным законом распределения. Объемы выборок -

n 1 и n 2 , а выборочные дисперсии равны s 1 и s 2 2 генеральные дисперсии.

Проверяемые гипотезы:

Н 0 - генеральные дисперсии одинаковы;

Н 1 - генеральные дисперсии различны.

Показано, если выборки извлечены из генеральных совокупностей с нормальным законом распределения, то при справедливости гипотезы Н 0 отношение выборочных дисперсий подчиняется распределению Фишера. Поэтому в качестве критерия для проверки справедливости Н 0 берется величина F, вычисляемая по формуле:

где s 1 и s 2 - выборочные дисперсии.

Это отношение подчиняется распределению Фишера с числом степеней свободы числителя ν 1 = n 1 - 1 и числом степеней свободы знаменателя ν 2 = n 2 - 1. Границы критической области находятся по таблицам распределения Фишера или с помощью компьютерной функции БРАСПОБР.

Для примера, представленного в табл. 3.4, получим: ν 1 = ν 2 = 20 - 1 = 19; F = 2,16/4,05 = 0,53. При α = 0,05 границы критической области равны соответственно: = 0,40, = 2,53.

Значение критерия попало в критическую область, поэтому принимается гипотеза Н 0: генеральные дисперсии выборок одинаковы.

3.7. ПРОВЕРКА ГИПОТЕЗ ОТНОСИТЕЛЬНО РАВЕНСТВА СРЕДНИХ, t-КРИТЕРИЙ СТЬЮДЕНТА

Задача сравнения средних двух генеральных совокупностей возникает, когда практическое значение имеет именно величина исследуемого признака. Например, когда сравниваются сроки лечения двумя различными методами или количества осложнений, возникающих при их применении. В этом случае можно использовать t-критерий Стьюдента.

Постановка задачи

Получены две выборки {Х 1 } и {Х 2 }, извлеченные из генеральных совокупностей с нормальным законом распределения и одинаковыми дисперсиями. Объемы выборок - n 1 и n 2 , выборочные средние равны Х 1 и Х 2, а выборочные дисперсии - s 1 2 и s 2 2 соответственно. Требуется сравнить между собой генеральные средние.

Проверяемые гипотезы:

Н 0 - генеральные средние одинаковы;

Н 1 - генеральные средние различны.

Показано, что в случае справедливости гипотезы Н 0 величина t, вычисляемая по формуле:

распределена по закону Стьюдента с числом степеней свободы ν = ν 1 + + ν2 - 2.

Здесь где ν 1 = n 1 - 1 - число степеней свободы для первой выборки; ν 2 = n 2 - 1 - число степеней свободы для второй выборки.

Границы критической области находят по таблицам t-распределения или с помощью компьютерной функции СТЬЮДРАСПОБР. Распределение Стьюдента симметрично относительно нуля, поэтому левая и правая границы критической области одинаковы по модулю и противоположны по знаку: -и

Для примера, представленного в табл. 3.4, получим:

ν 1 = ν 2 = 20 - 1 = 19; ν = 38, t = -2,51. При α = 0,05 = 2,02.

Значения критерия выходит за левую границу критической области, поэтому принимаем гипотезу Н 1: генеральные средние различны. При этом среднее генеральной совокупности первой выборки МЕНЬШЕ.

Применимость t-критерия Стьюдента

Критерий Стьюдента применим только к выборкам из нормальных совокупностей с одинаковыми генеральными дисперсиями. Если хотя бы одно из условий нарушено, то применимость критерия сомнительна. Требование нормальности генеральной совокупности обычно игнорируют, ссылаясь на центральную предельную теорему. Действительно, разность выборочных средних, стоящая в числителе (3.10), может считаться нормально распределенной при ν > 30. Но вопрос о равенстве дисперсий проверке не подлежит, и ссылки на то, что критерий Фишера не обнаружил различий, принимать во внимание нельзя. Тем не менее t-критерий достаточно широко применяется для обнаружения различий в средних значениях генеральных совокупностей, хотя и без достаточных оснований.

Ниже рассматривается непараметрический критерий, который с успехом используют для этих же целей и который не требует ни нормальности, ни равенства дисперсий.

3.8. НЕПАРАМЕТРИЧЕСКОЕ СРАВНЕНИЕ ДВУХ ВЫБОРОК: КРИТЕРИЙ МАННА-УИТНИ

Непараметрические критерии предназначены для обнаружения различий в законах распределения двух генеральных совокупностей. Критерии, которые чувствительны к различиям генеральных средних, называют критериями сдвига. Критерии, которые чувствительны к различиям генеральных дисперсий, называют критериями масштаба. Критерий Манна-Уитни относится к критериям сдвига и используется для обнаружения различий в средних значениях двух генеральных совокупностей, выборки из которых представлены в ранговой шкале. Измеренные признаки распологаются на этой шкале в порядке возрастания, а затем нумеруются целыми числами 1, 2... Эти числа и называются рангами. Равным величинам присваивают одинаковые ранги. Значение имеет не сама величина признака, а лишь порядковое место, который она занимает среди других величин.

В табл. 3.5. первая группа из таблицы 3.4 представлена в развернутом виде (строка 1), подвергнута ранжированию (стока 2), а затем ранги одинаковых величин заменены среднеарифметическими значениями. Например, элементы 4 и 4, стоящие в первой строке, получили ранги 2 и 3, которые затем заменены на одинаковые значения 2,5.

Таблица 3.5

Постановка задачи

Независимые выборки {Х 1 } и {Х 2 } извлечены из генеральных совокупностей с неизвестными законами распределения. Объемы выборок n 1 и n 2 соответственно. Значения элементов выборок представлены в ранговой шкале. Требуется проверить, различаются ли эти генеральные совокупности между собой?

Проверяемые гипотезы:

Н 0 - выборки принадлежат к одной генеральной совокупности; Н 1 - выборки принадлежат к различным генеральным совокупностям.

Для проверки таких гипотез применяется {/-критерий Манна-Уитни.

Сначала из двух выборок составляется объединенная выборка {X}, элементы которой ранжируются. Затем находится сумма рангов, соответствующих элементам первой выборки. Эта сумма и является критерием для проверки гипотез.

U = Сумме рангов первой выборки. (3.11)

Для независимых выборок, объемы которых больше 20, величина U подчиняется нормальному распределению, математическое ожидание и СКО которого равны:

Поэтому границы критической области находятся по таблицам нормального распределения.

Для примера, представленного в табл. 3.4, получим: ν 1 = ν 2 = 20 - 1 = 19, U = 339, μ = 410, σ = 37. Для α = 0,05 получим: и лев = 338, и прав = 482.

Значение критерия выходит за левую границу критической области, поэтому принимается гипотеза Н 1: генеральные совокупности имеют различные законы распределения. При этом среднее генеральной совокупности первой выборки МЕНЬШЕ.

Представляются в виде рядов распределения и оформляются в виде .

Ряд распределния является одним из видов группировок.

Ряд распределения — представляет собой упорядоченное распределение единиц изучаемой совокупности на группы по определенному варьирующему признаку.

В зависимости от признака, положенного в основу образования ряда распределения различают атрибутивные и вариационные ряды распределения:

  • Атрибутивными — называют ряды распределения, построенные по качественными признакам.
  • Ряды распределения, построенные в порядке возрастания или убывания значений количественного признака называются вариационными .
Вариационный ряд распределения состоит из двух столбцов:

В первом столбце приводятся количественные значения варьирующегося признака, которые называются вариантами и обозначаются . Дискретная варианта — выражается целым числом. Интервальная варианта находится в пределах от и до. В зависимости от типа варианты можно построить дискретный или интервальный вариационный ряд.
Во втором столбце содержится количество конкретных вариант , выраженное через частоты или частости:

Частоты — это абсолютные числа, показывающие столько раз в совокупности встречается данное значение признака, которые обозначают . Сумма всех частот равна должна быть равна численности единиц всей совокупности.

Частости () — это частоты выраженные в процентах к итогу. Сумма всех частостей выраженных в процентах должна быть равна 100% в долях единице.

Графическое изображение рядов распределения

Наглядно ряды распределения представляются при помощи графических изображений.

Ряды распределения изображаются в виде:
  • Полигона
  • Гистограммы
  • Кумуляты
  • Огивы

Полигон

При построении полигона на горизонтальной оси (ось абсцисс) откладывают значения варьирующего признака, а на вертикальной оси (ось ординат) — частоты или частости.

Полигон на рис. 6.1 построен по данным микропереписи населения России в 1994 г.

6.1. Распределение домохозяйств по размеру

Условие : Приводятся данные о распределении 25 работников одного из предприятий по тарифным разрядам:
4; 2; 4; 6; 5; 6; 4; 1; 3; 1; 2; 5; 2; 6; 3; 1; 2; 3; 4; 5; 4; 6; 2; 3; 4
Задача : Построить дискретный вариационный ряд и изобразить его графически в виде полигона распределения.
Решение :
В данном примере вариантами является тарифный разряд работника. Для определения частот необходимо рассчитать число работников, имеющих соответствующий тарифный разряд.

Полигон используется для дискретных вариационных рядов.

Для построения полигона распределения (рис 1) по оси абсцисс (X) откладываем количественные значения варьирующего признака — варианты, а по оси ординат — частоты или частости.

Если значения признака выражены в виде интервалов, то такой ряд называется интервальным.
Интервальные ряды распределения изображают графически в виде гистограммы, кумуляты или огивы.

Статистическая таблица

Условие : Приведены данные о размерах вкладов 20 физических лиц в одном банке (тыс.руб) 60; 25; 12; 10; 68; 35; 2; 17; 51; 9; 3; 130; 24; 85; 100; 152; 6; 18; 7; 42.
Задача : Построить интервальный вариационный ряд с равными интервалами.
Решение :

  1. Исходная совокупность состоит из 20 единиц (N = 20).
  2. По формуле Стерджесса определим необходимое количество используемых групп: n=1+3,322*lg20=5
  3. Вычислим величину равного интервала: i=(152 — 2) /5 = 30 тыс.руб
  4. Расчленим исходную совокупность на 5 групп с величиной интервала в 30 тыс.руб.
  5. Результаты группировки представим в таблице:

При такой записи непрерывного признака, когда одна и та же величина встречается дважды (как верхняя граница одного интервала и нижняя граница другого интервала), то эта величина относится к той группе, где эта величина выступает в роли верхней границы.

Гистограмма

Для построения гистограммы по оси абсцисс указывают значения границ интервалов и на их основании строят прямоугольники, высота которых пропорциональна частотам (или частостям).

На рис. 6.2. изображена гистограмма распределения населения России в 1997 г. по возрастным группам.

Рис. 6.2. Распределение населения России по возрастным группам

Условие : Приводится распределение 30 работников фирмы по размеру месячной заработной платы

Задача : Изобразить интервальный вариационный ряд графически в виде гистограммы и кумуляты.
Решение :

  1. Неизвестная граница открытого (первого) интервала определяется по величине второго интервала: 7000 — 5000 = 2000 руб. С той же величиной находим нижнюю границу первого интервала: 5000 — 2000 = 3000 руб.
  2. Для построения гистограммы в прямоугольной системе координат по оси абсцисс откладываем отрезки, величины которых соответствуют интервалам варицонного ряда.
    Эти отрезки служат нижним основанием, а соответствующая частота (частость) — высотой образуемых прямоугольников.
  3. Построим гистограмму:

Для построения кумуляты необходимо рассчитать накопленные частоты (частости). Они определяются путем последовательного суммирования частот (частостей) предшествующих интервалов и обозначаются S. Накопленные частоты показывают, сколько единиц совокупности имеют значение признака не больше, чем рассматриваемое.

Кумулята

Распределение признака в вариационном ряду по накопленным частотам (частостям) изображается с помощью кумуляты.

Кумулята или кумулятивная кривая в отличие от полигона строится по накопленным частотам или частостям. При этом на оси абсцисс помещают значения признака, а на оси ординат — накопленные частоты или частости (рис. 6.3).

Рис. 6.3. Кумулята распределения домохозяйств по размеру

4. Рассчитаем накопленные частоты:
Наколенная частота первого интервала рассчитывается следующим образом: 0 + 4 = 4, для второго: 4 + 12 = 16; для третьего: 4 + 12 + 8 = 24 и т.д.

При построении кумуляты накопленная частота (частость) соответствующего интервала присваивается его верхней границе:

Огива

Огива строится аналогично кумуляте с той лишь разницей, что накопленные частоты помещают на оси абсцисс, а значения признака — на оси ординат.

Разновидностью кумуляты является кривая концентрации или график Лоренца. Для построения кривой концентрации на обе оси прямоугольной системы координат наносится масштабная шкала в процентах от 0 до 100. При этом на оси абсцисс указывают накопленные частости, а на оси ординат — накопленные значения доли (в процентах) по объему признака.

Равномерному распределению признака соответствует на графике диагональ квадрата (рис. 6.4). При неравномерном распределении график представляет собой вогнутую кривую в зависимости от уровня концентрации признака.

6.4. Кривая концентрации