2. Группировка статистических данных
В результате проведения статистического наблюдения получают данные о признаках каждой обследованной единицы статистической совокупности. Однако эти массивы данных собирают не для того, чтобы получить характеристики каждого отдельного элемента совокупности, а для того, чтобы получить характеристики совокупности в целом.
Для этого необходимо обобщить и систематизировать сведения, полученные в ходе статистического наблюдения. В статистической практике этот этап статистического исследования называют группировкой.
Группировка представляет собой разбиение совокупности на группы, однородные по какому-либо признаку. Группировка основывается на группировочном признаке и интервале, который представляет собой промежуток между минимальным и максимальным значением признака в группе.
Интервалы могут быть равными и неравными, открытыми и закрытыми. Под закрытым интервалом понимают интервал, имеющий как нижнюю, так и верхнюю границу, например (100;200)). Под открытым интервалом понимают интервал, одна из границ которого равна (например, свыше 500).
При определении числа групп и величины интервалов следует иметь в виду, что число объектов в выделенных группах должно быть достаточным, чтобы характеристики, рассчитанные для отдельных групп, были статистически достоверными.
Существуют рекомендации по выбору числа групп k:
Число наблюдений (n) | Число групп (k) |
25−40 | 5−6 |
40−60 | 6−8 |
60−200 | 8−12 |
> 200 | 10−15 |
Число групп также можно определить по формуле
Наличие равных интервалов облегчает вычисление различных статистических характеристик.
Величина интервала вычисляется по формуле
,
где xmax − максимальное значение признака в исследуемой
совокупности;
xmin − минимальное значение признака в исследуемой
совокупности.
Затем определяются границы каждого интервала:
для первого интервала: от xmin до xmin + ;
для второго интервала: от xmin+ до xmin +2 ;
………….
для k-го интервала: от xmin+(k-1) до xmax.
Существуют 4 типа группировок: типологическая, структурная, аналитическая и комбинационная.
Типологическая группировка служит для исследования распределения совокупности по какому-либо одному качественному признаку (цвет, тип упаковки товара и т.п.).
Структурная группировка служит для исследования распределения совокупности по одному количественному признаку. Ее результаты представляются в виде таблицы
Значение группировочного признака | Количество элементов совокупности в отдельной группе |
От ……. до …. От …… до ….. |
|
Итого | Общее число элементов совокупности |
Аналитическая группировка служит для выявления зависимости между признаками. При этом выделяют признак-фактор и признак-результат. Группировка осуществляется по признаку-фактору. В каждой группе рассчитывается среднее значение признака-результата. Анализируя изменение средних значений признака-результата от группы к группе, можно сделать вывод о наличии или отсутствии взаимосвязи между признаками.
Различие групповых средних позволяет утверждать, что признаки взаимозависимы. Если изменение величины признака-фактора в определенном направлении вызывает изменение признака-результата в том же направлении, то говорят, что связь положительная, а в противном случае − отрицательная. Результаты аналитической группировки представляются в виде таблицы
Значение признака-фактора | Количество элементов совокупности в отдельной группе | Среднее значение признака-результата |
От ……. до …. От …… до ….. |
|
|
Итого | Общее число элементов совокупности |
|
Проследить зависимость между признаками можно также на основе комбинационной группировки, которая осуществляется одновременно по двум признакам.
Группировка по признаку- фактору | Группировка | по | признаку- | результату |
|
От … до … | От … до … | ………… | От … до … | Всего | |
От … до … | n11 | n12 | ………… | n1m | |
От … до … | n21 | n22 | ………. | n2m | |
…………. | ……………... | …………… | ………… | ……………. |
|
От … до … | nk1 | nk2 | ………. | nkm | |
Всего | ………… | n |
Здесь ni j− количество случаев совместного появления i-й градации признака-фактора (i = 1,…,k) и j-й градации признака-результата (j = 1,…,m).
Если наибольшие числа каждой строки и каждого столбца располагаются вдоль "главной диагонали" таблицы, то можно сделать вывод, что связь положительная и близкая к линейной.
Если наибольшие числа располагаются вдоль другой диагонали таблицы, то можно сделать вывод, что связь отрицательная и близкая к линейной.
Если числа во всех клетках примерно одинаковые, то связи между признаками нет.
Пример 1. Собраны данные о численности работников на 30 предприятиях сферы торговли.
Номер предпр. | Число работников | Номер предпр. | Число работников | Номер предпр. | Число работников |
1 | 12 | 11 | 11 | 21 | 11 |
2 | 10 | 12 | 12 | 22 | 13 |
3 | 14 | 13 | 12 | 23 | 14 |
4 | 14 | 14 | 14 | 24 | 12 |
5 | 13 | 15 | 12 | 25 | 13 |
6 | 12 | 16 | 11 | 26 | 12 |
7 | 12 | 17 | 13 | 27 | 12 |
8 | 12 | 18 | 12 | 28 | 14 |
9 | 15 | 19 | 13 | 29 | 12 |
10 | 13 | 20 | 14 | 30 | 14 |
Провести структурную группировку этих предприятий по признаку численности работников.
В данной ситуации признак принимает ограниченное число целых значений. Поэтому нет необходимости вводить интервалы, а просто подсчитать количество предприятий, где число работников равно 10, 11, 12 и т.д.
Например, только одно предприятие имеет 10 работников, а 11 работников имеется на 3-х предприятиях.
Результаты таких расчетов приведены в таблице
Число работников | Число предприятий |
10 | 1 |
11 | 3 |
12 | 12 |
13 | 6 |
14 | 7 |
15 | 1 |
Всего | 30 |
Пример 2. Имеются данные о средней недельной заработной плате на 30 предприятиях (тыс. руб.)
Номер предпр. | Зараб. плата | Номер предпр. | Зараб. плата | Номер предпр. | Зараб. плата |
1 | 8,2 | 11 | 9,0 | 21 | 7,2 |
2 | 9,7 | 12 | 6,0 | 22 | 6,4 |
3 | 5,6 | 13 | 7,6 | 23 | 7,7 |
4 | 7,4 | 14 | 8,1 | 24 | 9,0 |
5 | 8,0 | 15 | 11,8 | 25 | 8,1 |
6 | 6,4 | 16 | 5,8 | 26 | 7,1 |
7 | 6,6 | 17 | 9,3 | 27 | 7,1 |
8 | 6,8 | 18 | 7,3 | 28 | 8,8 |
9 | 8,4 | 19 | 8,2 | 29 | 7,5 |
10 | 7,1 | 20 | 7,2 | 30 | 9,2 |
Заметим, что максимальная заработная плата (xmax) равна 11,8 т.р., а минимальная (xmin) равна 5,6 т.р. В соответствии с приведенными выше рекомендациями выберем число групп (k) равным 5.
Тогда
Рассчитаем границы всех интервалов.
Для первого интервала: от 5,6 до 5,6+1,24=6,84
Для второго интервала: от 6,84 до 6,84+1,24=8,08
Для третьего интервала: от 8,08 до 8,08+1,24=9,32
Для четвертого интервала: от 9,32 до 9,32+1,24=10,56
Для пятого интервала: от 10,56 до 10,56+1,24=11,8
В первый интервал (от 5,6 до 6,84) попадают предприятия с номерами 3, 6, 7, 8, 12, 16, 22 (всего 7 предприятий). Проделывая аналогичные расчеты для других интервалов, окончательно получим результаты, приведенные в таблице.
Заработная плата, т.р. | Количество предприятий |
от 5,6 до 6,84 | 7 |
от 6,84 до 8,08 | 11 |
от 8,08 до 9,32 | 10 |
от 9,32 до 10,56 | 1 |
от 10,56 до 11,8 | 1 |
Всего | 30 |
Пример 3. В таблице приведены данные о численности работников и объемах выпуска продукции на 1 человека по 16 предприятиям.
№ предпр. | Число работников | Объем выпуска, т.р. | № предпр. | Число работников | Объем выпуска, т.р. |
1 | 456 | 33,4 | 9 | 478 | 35,4 |
2 | 375 | 31,8 | 10 | 783 | 42,8 |
3 | 484 | 38,0 | 11 | 365 | 36,0 |
4 | 456 | 33,4 | 12 | 1300 | 50,5 |
5 | 788 | 42,5 | 13 | 1998 | 53,4 |
6 | 7900 | 90,0 | 14 | 2320 | 62,0 |
7 | 9581 | 98,0 | 15 | 3650 | 64,0 |
8 | 3550 | 67,0 | 16 | 3450 | 71,0 |
Выполним аналитическую группировку, считая число работников признаком - фактором, а объем выпуска продукции – признаком - результатом.
Зададим число групп (k), равным 3. Заметим, что
Тогда
Рассчитаем границы интервалов.
Для первого интервала: от 365 до 365+3072=3437
Для второго интервала: от 3437 до 3437+3072=6509
Для третьего интервала: от 6509 до 6509+3072=9581
Заметим, что в первый интервал попадут предприятия с номерами 1, 2, 3, 4, 5, 9, 10, 11, 12, 13, 14 (всего 11 предприятий).
Рассчитаем по этим предприятиям среднее значение признака - результата
Во второй интервал попадут предприятия с номерами 8, 15, 16 (всего 3 предприятия). Среднее значение признака – результата для этих предприятий составит
В третий интервал попадут предприятия с номерами 6 и 7. Среднее значение признака – результата для этих предприятий составит
Полученные результаты расчетов сведены в таблицу аналитической группировки
Число работников | Количество предприятий | Среднее значение признака - результата |
365 - 3437 | 11 | 41,7 |
3437 - 6509 | 3 | 67,3 |
6509 - 9581 | 2 | 94,0 |
Всего | 16 |
|
Анализ полученных результатов показывает, что среднее значение объема выпуска продукции на 1 человека устойчиво растет от группы к группе, а следовательно между количеством работников и объемом выпуска продукции на 1 человека имеется положительная связь.
Для проведения комбинационной группировки рассчитаем интервалы для признака – результата.
Зададим число групп (m), равным 3. Заметим, что
.
Тогда
Рассчитаем границы интервалов.
Для первого интервала: от 31,8 до 31,8+22,1=53,9
Для второго интервала: от 53,9 до 53,9+22,1=76,0
Для третьего интервала: от 76,0 до 98,0
Результаты комбинационной группировки представлены в таблице
| 31,8 – 53,9 | 53,9 – 76,0 | 76,0 – 98,0 | Итого |
365 - 3437 | 10 | 1 | - | 11 |
3437 - 6509 | - | 3 | - | 3 |
6509 - 9581 | - | - | 2 | 2 |
Итого | 10 | 4 | 2 | 16 |
Из данной таблицы видно, что наибольшие значения каждого столбца и каждой строки лежат на главной диагонали. Поэтому можно сделать вывод о положительной связи между численностью работников предприятия и объемом выпуска продукции на 1 работника.
Задание 1
В табл. 1 приведены 5 показателей деятельности торговых предприятий. В соответствии с таблицей выберите номера 2-х показателей
Номер варианта | Номер 1-го показателя
| Номер 2-го показателя |
1 | 1 | 2 |
2 | 1 | 3 |
3 | 1 | 4 |
4 | 1 | 5 |
5 | 2 | 3 |
6 | 2 | 4 |
7 | 2 | 5 |
8 | 3 | 4 |
9 | 3 | 5 |
10 | 4 | 5 |
На основании имеющихся данных выполнить:
Структурную группировку по первому и второму показателям, приняв число групп, равным 5.
Аналитическую группировку, считая первый показатель признаком-фактором, а второй – признаком-результатом.
Комбинационную группировку при числе групп по обоим признакам, равным 3.
Т а б л и ц а 1 Показатели деятельности торговых предприятий за год
-
Номер предпри-ятия
Численность работников
Средняя зарплата, тыс. р.
Дебиторская задолженность на конец года, тыс. р.
Балансовая прибыль, тыс. р.
Собственные оборотные средства, тыс. р.
1
20
17,3
7,0
80
320
2
50
20,2
5,1
105
611
3
80
19,1
1,2
100
840
4
35
17,0
7,1
94
482
5
115
20,3
2,2
112
1050
6
40
19,1
5,3
108
499
7
40
19,2
4,0
100
505
8
50
19,2
4,1
88
521
9
30
17,0
7,8
92
412
10
35
17,1
7,3
90
405
11
70
19,3
2,2
92
788
12
120
21,0
1,0
101
1280
13
100
20,0
2,3
98
990
14
70
19,7
7,4
95
810
15
65
19,2
5,6
90
750
16
80
19,1
2,0
95
924
17
150
21,3
1,5
109
1950
18
50
18,0
5,3
90
590
19
60
20,0
3,2
97
722
20
50
19,1
5,8
90
540
21
60
19,0
5,0
87
700
22
90
20,7
5,6
100
980
23
40
19,6
6,5
98
490
24
25
20,5
5,3
89
375
25
85
18,3
3,7
90
910
26
75
19,2
4,8
97
845
27
175
21,8
4,9
108
2400
28
100
20,9
2,1
102
1100
29
40
18,2
7,0
88
470
30
50
18,0
6,8
96
588
- Общие требования к выполнению контрольной работы
- Введение
- 1. Организация и виды статистического наблюдения
- 2. Группировка статистических данных
- Вариационный ряд, полигон и гистограмма
- Анализ временных рядов
- Формулы для расчета показателей представлены в табл.
- Показатели динамики
- Предположим, что имеет место линейная зависимость т. Е.
- Первое уравнение системы (3) можно преобразовать к виду
- Парная линейная регрессия