5 мин.

Препарация статистики Ковальчука. Часть 1

Предисловие: Современный хоккей  в результате функционирования генерирует огромные объёмы данных отслеживать которые не под силу никому. Возникает необходимость в  инструментах анализа обеспечивающих сравнительные величины и методы автоматизации или полуавтоматизации рутинных задач.

К своему стыду обнаружил огромное количество белых пятен в НХЛ, на борьбу с которыми и посвятил свободное время. Результативность нападающих — один из важнейших критериев, естественно ему было уделено достаточно внимания с моей стороны. Относительно быстро удавалось формировать недостающие  компоненты пока не столкнулся со статистикой Ковальчука...

 Развитие его карьеры, как следствие статистика, не совсем типичны, что в свою очередь поставило передо мной несколько задач. Пожалуй, более всего меня заинтересовали тенденции, и, может быть, попытки прогнозирования результативности.

 Подготовка: Первым делом понадобилась таблица с данными. Беглый осмотр выявил целый ряд проблем, масштабы которых понятны при некотором опыте.

G/GP - Kovalchuk

Первые проблемы: Не существует методов сравнения данных между лигами. Не полные сезоны потребуют получения расчётных значений относительно предыдущих и номинальных значений для последующих аналитических проверок.

С помощью описательной статистики были получены первичные  данные. На следующей таблице остановлюсь подробнее.

Описательная статистика

Данные по статистике за 11  сезонов в НХЛ.  Предварительные выводы. AVG,MED Высокий средний уровень на протяжении всей карьеры. За последние 3 сезона НХЛ Рубикон в 40 шайб преодолели 14 игроков и только Овечкин сделал это дважды. То есть средний уровень Ковальчука соответствует элитным показателям, которые демонстрируются не каждый сезон. Ещё один  очень удобный и информативный показатель процент вариации - k%.  Естественно, результативность игроков варьируется по сезонам, k% позволяет быстро получать информацию об однородности(стабильности) данных. В случае Ковальчука стабильность достаточно высока, а это, признак сами знаете чего.

Локаутный сезон 2012-2013 вносит погрешности и искажение данных, поэтому я дублировал таблицу для наглядности. Следующим шагом стала подобная таблица  для кол-ва игр в сезоне.

GP-NHL

Несмотря на высокую однородность данных и "среднюю" игр относительно максимума в сезоне, возможно сделать вывод о том что Ковальчук не из тех кого называют — железный человек. Наблюдение позволяет говорить о способности проводить большое кол-во игр, но не их максимум. Понадобится так же получить расчётное значение GP 2012-2013гг. 

Напоследок для сбора первичной информации осталось сделать диаграмму результативности для первичной визуальной оценки "тренда".

G-NHL-Graphics

Результативность последовательно росла с началом карьеры, на 4, 6 сезоны(2006,2008) пришлись экстремумы, после чего начался плавный спад... Сезон 2011-12 года в NJ несколько выбивается из тенденции, последующий, как упоминалось ранее был проведён не полностью. Меня заинтересовал вопрос насколько актуален тренд спада результатов к моменту перехода Ковальчука в СКА.

Нострадалус Пришло время заняться предсказаниями. Итак, первичные данные получены, контуры проблем очерчены, представления сформированы, а воз и ныне там... Для начала необходимо получить каким-либо методом значение кол-ва игр сезона 2012-13, если бы не было локаута.

Благодаря данным описательной статистики и первичным выводам задача подсчета GP не выглядит сложной. Экспоненциальное сглаживание позволяет корректировать каждое последующее значение в зависимости от предыдущих. В свою очередь, предыдущие значения используются в виде "интервала сглаживания" и как "средняя". Процент вариации, а так же отклонения данных от средней стабильны и без "выбросов", что позволяет делать выводы о приемлемости выбранного метода. 

На самом деле не всё так сложно как кажется из-за терминологии, да и ваш покорный слуга заботливо собрал всё необходимое в таблицу и предоставил результат. Осталось посмотреть что же получилось.

GP-2013-?

А что если попробовать так же экстраполировать значение G(заброшенные шайбы)? 

G-2013-?

Полученный результат - 38 шайб. AVG  интервала сглаживания, и что более важно результативность сезона 2012, та самая, которая выбивалась из предположение о "тренде спада"  сказались на полученном значении. Относительно AVG 11 реально забитых шайб и AVG  полученного расчётного значения GP из предыдущей таблицы, возможно говорить о ~23 шайбах. Слишком большое расхождение. Тот самый случай когда необходимо искать более точные модели для тенденции. Так же реальная результативность 2012 говорит о невероятном для уровня Ковальчука спаде. Фактически он из игрока элитного уровня скатывался к 23 шайбам за сезон, для многих такой результат будет успехом, но не в этом случае. Уже на данном этапе следует вывод, о возвращении Ковальчука в КХЛ на регрессе, осталось только попытаться  дать ответ насколько серьёзен был спад и по данных выступлений в КХЛ, сделать заключение были ли преодолены проблемы и как развивались  события.

Суммируя результат проделанной работы на этом моменте я решил остановиться. Название абзаца как нельзя лучше отражает его суть. Пошаговое последовательное изложение, "срезание углов" и более-менее "кошерное" форматирование -  не такая уж простая задача, а компиляция из гораздо больших объёмов. В дальнейшем же было много интересного и не совсем удачного... Не принял решение стоит ли публиковать продолжение,  развитие событий будет зависеть от реакции прочитавших, а возможно  и её отсутствии.