logo
Анализ исходов хоккейных матчей на предмет случайности

Проверка статистической гипотезы:

Пусть имеются два текста, при написании которых были использованы разные стили речи русского языка. К примеру, для первого текста был использован публицистический, а для второго художественный стиль.

"Проблем с договорными матчами в мировом хоккее нет" - так сказал Рене Фаззель, глава IIHF.И в правду, тяжело вспомнить крупный скандал связанные с нечестной игрой в хоккее.

О договорных матчах в Европе и говорить не приходится, а вот на постсоветском пространстве проблема нечестной игры существует, включая и КХЛ. Давайте обратимся в прошлое. Вспомним 2010 год.

Матч КХЛ между Трактором и Металлургом из Магнитогорска комментировал Алексей Дементьев. И в конце второго периода комментатор сказал в прямом эфире, что матч закончится предсказуемой победой Трактора.

Однако это вызвало большой скандал, потому что форма, в которой высказался Дементьев дала пищу для размышлений, а честный ли матч идет в Екатеринбурге? На самом деле в том матче было много странных ситуаций, и уже после слов Дементьева все стали внимательно смотреть, как действуют хоккеисты на площадке. Трактору в итоге нужна была победа в этом матче, а Металлурга устроил бы и овертайм. В ключевой момент для Трактора, когда Трактор получил шанс сыграть в большинстве и на вбрасывание в зоне Металлиста выходит 3 тройка Трактора, не самая сильная, которая не реализовала ни одного большинства. Дальше еще интереснее, игрок Металлурга из-за сломавшейся клюшки быстро убежал на скамейку, когда была атака на его ворота. В итоге тогда Трактор и забил победную шайбу.

После этого матча сразу же пошли разговоры о том, что матч был договорным и все стали рьяно смотреть на все матчи КХЛ и искать в них договорной характер. Но руководство КХЛ быстро оборвало все разговоры о том, что в КХЛ могут быть договорные матчи и оштрафовала комментатора Дементьева на 500 тысяч рублей.

Еще до конца сезона вспоминали этот матч, но так ни одного договорного в КХЛ так и не нашли, хотя были разговоры еще и о том что Магнитка часто катает договорные матчи в КХЛ, но до фактов дело не дошло. В Европе с договорными матчами куда проще, в Европе хоккей как бизнес поставлен на большую ногу и "договорняк" там, в принципе сыграть не выгодно. Команды в Европе, а под Европой я имею ввиду Швецию, Финляндию, Чехию, Швейцарию, зарабатывают на спонсорских контрактах, атрибутике, билетах и телеправах и т.д.

Проиграв, какой либо матч, ты не зарабатываешь, а тот, кто выигрывает не честно, смысла нет подкупать другую команду, так как смысл победы, если ты в итоге по финансам будешь в минусе (от взятки). Схема очень простая, но в России она не работает, потому что хоккейные команды в основном сидят на государственных бюджетах. То, что в КХЛ нет договорных матчей, верится с трудом. Финальная серия в 2012 КХЛ между Авангардом и Металлургом из Новокузнецка. Наверно мало кто вспомнит открытое письмо болельщиков Авангарда Третьяку. Но в том письме было написано много очевидных вещей, о том, что финальная серия была договорной, но на него мало кто обратил свое внимание.

Хотя в Омске все тогда говорили, что Авангард при своих болельщиках проиграет 5 игру, об этом говорили в каждом дворе, в итоге так оно и произошло. Скандалы с допингом у хоккеистов Металлурга, интервью молодых ребят из Авангарда, которые лишнее взболтнули о том, что помимо опыта, им выиграть помешали и кабинетные интриги. Если даже Финальная серия КХЛ была договорной, то, что говорить о молодежной лиге? Что говорить о низших лигах?

Там расписать матч ничего не стоит. Внимания со стороны прессы мало, а в букмекерских конторах принимают ставки на такие игры. В Волжске не раз ставили на то, что будет Овертайм в матче их любимой команды Ариада-Акпарс. В общем, то эта команда побила своеобразный рекорд на эту ставку в букмекерских конторах и по суммам, которые ставили на такое событие.

В конце сезона и вовсе некоторые букмекерские конторы убрали возможность поставить на то, что будет овертайм в матчах Ариада-Акпарс.

Договорные матчи, увы, не искоренить, но их можно свести к минимуму. А как это сделать, это уже пусть решают верха, а мы и дальше будем ходить на стадионы, платить за кабельное, чтобы смотреть этот цирк, под названием отечественный спорт!

Никогда не разговаривайте с неизвестными

Однажды весною, в час небывало жаркого заката, в Москве, на Патриарших прудах, появились два гражданина. Первый из них, одетый в летнюю серенькую пару, был маленького роста, упитан, лыс, свою приличную шляпу пирожком нес в руке, а на хорошо выбритом лице его помещались сверхъестественных размеров очки в черной роговой оправе. Второй - плечистый, рыжеватый, вихрастый молодой человек в заломленной на затылок клетчатой кепке - был в ковбойке, жеваных белых брюках и в черных тапочках.

Первый был не кто иной, как Михаил Александрович Берлиоз, председатель правления одной из крупнейших московских литературных ассоциаций, сокращенно именуемой МАССОЛИТ, и редактор толстого художественного журнала, а молодой спутник его - поэт Иван Николаевич Понырев, пишущий под псевдонимом Бездомный.

Попав в тень чуть зеленеющих лип, писатели первым долгом бросились к пестро раскрашенной будочке с надписью «Пиво и воды».

Да, следует отметить первую странность этого страшного майского вечера. Не только у будочки, но и во всей аллее, параллельной Малой Бронной улице, не оказалось ни одного человека. В тот час, когда уж, кажется, и сил не было дышать, когда солнце, раскалив Москву, в сухом тумане валилось куда-то за Садовое кольцо, - никто не пришел под липы, никто не сел на скамейку, пуста была аллея.

Необходимо выяснить влияет ли использование разных стилей речи, при написании статьи, на среднюю длину слова. В общем, употреблено 113348 слова, из которых 630 взяты из новостей спорта и 112718 из художественного произведения Михаила Булгакова «Мастер и Маргарита». Так как длина слова измеряется количеством букв, а для проверки статистической гипотезы в дальнейшем будет использован непараметрический тест Колмогорова-Смирнова [2], то необходимо перейти от количественной шкалы к шкале наименований. Использование шкалы наименований позволяет наделять объекты или их свойства (признаки) именами. Также необходимо отметить, что с каждой из шкал связан определенный набор допустимых математико-статистических операций. Поскольку в шкале наименований числа - не более чем ярлыки, «наклеиваемые» на объекты, с этими числами нельзя производить никаких действий. Их нельзя складывать или вычитать, делить или умножать. Возможен только подсчет числа объектов с одинаковыми именами или с одинаковыми свойствами.

Статистическая обработка данных, представленных в шкале наименований, чаще всего начинается с построения таблицы сопряженности, показывающей распределение «имен» в соответствии с числом типов объектов или их свойств. Для данного примера определенной длине слова соответствует «имя», необходимые данные представлены в таблице 1.

Таблица 1

Таблица сопряженности

Шкала наименований

1

2

3

4

5

6

7

Количественная шкала

1

2 и 3

4

5

6

7

>7

После перехода к шкале наименований, подсчитано количество слов в обеих статьях определенной длины. Результаты продемонстрированы в таблице 2.

Таблица 2

Количество слов в тексте

Количество слов заданной длины

Итого

1

2

3

4

5

6

7

Спортивная

84

117

51

74

79

71

154

630

Художественная

12538

20148

8301

12163

13934

14429

31205

112718

Итого

12622

20265

8352

12237

14013

14500

31359

113348

Можно ли на основании полученных данных сделать вывод о том, что между художественном стилем и официально-публицистическим существуют различия в использовании слов одинаковой длины?

В данном случае рассматриваются две эмпирические кумулятивные функции распределения (значения накопленных к данному разряду таблицы относительных частот): для первой выборки и для второй выборки. Вычисляются величины расхождений между ними, и находится значение D - максимальное (по модулю) значение различий между эмпирическими кумулятивными функциями распределения для первой (n1) и второй (n2) выборки, по формуле (1).

(1)

Далее для применения непараметрического теста Колмогорова-Смирнова необходимо вычислить накопленную относительную частоту, расчеты показаны в таблице 3.

Таблица 3

Накопленная относительная частота

Количество слов заданной длины

Итого

1

2

3

4

5

Спортивная

84

117

51

74

79

71

154

630

Относительная частота

0,13

0,19

0.08

0.12

0,13

0,11

0,24

Накопленная относительная частота

0,13

0,32

0,4

0,52

0,65

0,76

1

Художественная

12538

20148

8301

12163

13934

14429

31205

112718

Относительная частота

0,11

0,18

0,07

0,11

0,12

0,13

0,28

Накопленная относительная частота

0,11

0,29

0,36

0,47

0,59

0,72

1

0,02

0,03

0,04

0,05

0,06

0,04

0

Далее необходимо выбрать уровень значимости и сформулировать соответствующие гипотезы.

H0: Нет различий в длине среднего слова при использовании публицистического и художественного стилей.

H1: Существует различия в длине среднего слова при использовании публицистического и художественного стилей.

На основании последней строки таблицы 1 находим значение

Это эмпирическое значение сравнивается с критическим, которое определяется на основе таблицы критических значений для теста Колмогорова-Смирнова для двух независимых выборок (см. табл. 1, Приложение 1, случай большой выборки и двусторонней критической области). Если эмпирическое значение D меньше критического, то нет оснований отвергнуть нулевую гипотезу. Если эмпирическое значение D больше критического или равно ему, то нулевая гипотеза отвергается и принимается альтернативная.

Из таблицы 1 следует, что для уровня значимости критическое значение D находится по формуле (2):

(2)

Результат для данного примера продемонстрирован на рисунке 1:

Рисунок 1. Вычисление критического значения

Поскольку эмпирическое значение D(0,06) больше критического (0,054), нулевая гипотеза отвергается и принимается альтернативная. Следовательно, имеются различия в длине среднего слова в текстах написанных публицистическим и художественным стилем.