9 мин.

Выявление моделей в билдапах путем кластеризации

Снова на повестке дня тема последнего OptaPro Analytics Forum. Куба Михалчик, будучи одним из спикеров форума, выступил с презентацией, основанной на техниках кластеризации. Его целью было визуализировать билдапы каждой команды Английской Премьер Лиги в сезоне 2017/2018. В материале, перевод которого вы сейчас читаете, описаны методологии, стоящие за этой презентацией и ее ключевые находки. Ссылка на оригинал как обычно в конце. Погнали!

Кликните сюда для просмотра его презентации.

Введение

Много лет назад пионер футбольной аналитики Чарльз Рип пришел к умозаключению, что короткая последовательность действий является более успешной.  Это ошибочное суждение соответствовало с похожими подходами, которые использовались многими командами, в том числе английскими.

Однако, последнее время от этого отходят все больше и больше команд, которые пытаются строить свою игру из глубины. Это требует от защитников и вратаре более развитых навыков передач и постоянной вовлеченности на ранних стадиях атак команды. Но это приводит к дополнительным рискам, так как потеря мяча возле своих ворот делает команду очень уязвимой. Идентифицируя основополагающие модели того, как соперник выходит из обороны в нападение, тренеры могут быстро получить справку о том, какие их предпочитаемые локации передач и каков их стиль игры. Эти находки могут стать основой тактического анализа, помогая команде разрабатывать стратегии остановки атак оппонента в зарождении. Также это может помочь выбирать позиции так, что оппоненту придется двигать мяч неэффективным/неподготовленным способом.

 

Для своего проекта на Форуме Куба использовал данные о событиях сезона АПЛ 2017/18, чтобы подготовить алгоритм, позволяющий ему очертить базовые модели выхода каждой команды из обороны. Этот был двухфазный анализ, использующий кластеризацию в обеих частях.

Анализ кластеров – это подход к добыче данных, который классифицирует наблюдения в неконтролируемых условиях, например, без любых лейблов. Сформированные группы данных, как результат кластеризации, должны содержать наблюдения, похожие друг на друга. При этом находки из разных групп не должны быть похожи.

Часть 1 – Кластеризация первоначальных передач

Для первой части автор наблюдал за первоначальными передачами, под которыми он подразумевал следующее:

– значительно продвинули мяч по полю в направлении ворот соперника (передачи под углом менее 15 градусов по отношению к линии ворот были исключены);

– начальная точка этих передач была в пределах защитной трети поля команды;

– были сделаны вратарем или защитником;

– не были передачами головой или введением мяча рукой вратарем.

Автор подчеркивает, что его определение имеет несколько ограничений. Прежде всего, передачи, сделанные опорными полузащитниками, которые часто участвуют в зарождении атак, не взяты в учет. Это в связи с тем, что в выборке данных отсутствовали описания позиций.

Потенциальным решением могла бы стать оценка средних позиций событий по игрокам, но этот подход мог бы быть искажен недостатком усреднений  – так как игроки иногда меняют позиции во время игры, их финальные усредненные позиции могут быть обманчивыми. Следовательно, для целей этого анализа передачи полузащитников были исключены. Тем не менее, анализируя конкретную команду, аналитик может решать, кто из игроков оппонента играет роль разыгрывающего полузащитника, чтобы в дальнейшем учитывать эти данные.

Другим ограничением является тот факт, что этот анализ основан на данных по всему сезону и, таким образом, не учитывает перестановки тренеров и их игроков, которые влияют на стиль игры команды. Тем не менее, наличие данных по полному сезону позволяет аналитику быть последовательным и сравнивать разные размеры информации.

Так как выбранный алгоритм, который будет описан ниже, позволяет специфицировать минимальное количество похожих передач, необходимое для классификации передачи в кластер, этот параметр может быть уменьшен и вы сможете провести анализ намного меньшего количества встреч. Это может позволить проводить анализ последних игр оппонентов, учитывая любые изменения.

Результатом этого подхода стал набор данных о пространственных координатах передач (в среднем 1527 передач на команды), который составляет исходные данные для первого этапа.

Перед тем, как закинуть данные в алгоритмы кластеризации, стоит раскрыть то, как они разрозненны. Здесь мы вспоминаем об Анализе Основных Компонентов (АОК) – технике уменьшения размерности, которая позволяет нам отображать передачу отдельной точкой в двухмерном пространстве, предоставляя максимальную видоизменяемость, в зависимости от стартовых (х,у) и конечных (х,у) координат.

Реклама 18+

Примером результата АОК является это описание первоначальных передач «Манчестер Юнайтед»:

 

Чем светлее цвет, тем больше передач в этой локации.

 

Из этого анализа мы можем подчеркнуть семь распространенных локаций: шесть маленьких круглых по краям, одна большая в центре, все связаны множеством «мостовых» точек. Эти «мосты» усложняют разделение данных и их кластеризацию, особенно используя методы кластеризации, основанные на оптимизации, широко известные как «алгоритм К-средних».

 

Однако, интуиция Кубы отличалась от предположений К-средних. Так как он хотел определить шаблоны, его целью было отловить популярные локации, игнорируя «точки мостов» и любые другие шума. Поэтому он применил DBSCAN                        ( density-based spatial clustering on applications with noise) алгоритм. Здесь шума могут быть интерпретированы, как передачи, НЕ сделанные в привычных условиях билдапа (например, сделанные под прессингом, на случайных позициях итд.) В зависимости от команды, 53-80% передач были отмечены как шумы, оставляя в модели только значительные уплотнения.

 

Другим важным выбором, который нужно было сделать, была форма измерения различий. Так как основной целью автора было установить направление игры команды, он решил дать больше веса оси у. Причиной стало то, что он больше думал о направлении передач относительно ширины поля, а не длины.

Медоиды (представители кластера) для каждой из команд АПЛ. Размер кончика стрелки отображает количество передач внутри кластера.

 

Эта визуализация показывать медоиды передач для каждой команды АПЛ того сезона. Медоиды – это представители кластера, которые наиболее похожи на все другие передачи внутри отдельного кластера. Мы видим, что некоторые команды избегали передачи через центр полузащиты и предпочитали доставлять мяч широко (такие как «Борнмут») или длинно («ВесБром»). В то же время «МанСити» делал много коротких передач по центру. Другим ярким примером является «Лестер» с его диагональными передачами на линию центра поля, которыми больше не отметилась ни одна другая команда.

Что мы еще можем заметить, так это схожести между «Хаддерсфилдом» и «Ливерпулем». Несмотря на то, что «Терьеры» не играли коротко, у команд похожие кластеры длинных передач.

Показанная графика также может быть использована, чтобы проанализировать позиции, использованные в выходе из обороны. Например, вполне вероятно, что левый защитник «Кристал Пэлас» гораздо больше вовлечен в их билдапе, нежели их правый защитник. Однако, такое умозаключение должно быть проверено кластерной однородностью

Теперь переключим наше внимание на «Арсенал». Глядя на ту самую таблицу, можно сделать заманчивый вывод о том, что они намного чаще делали первоначальные передачи через правую нижнюю часть.

Следующая графика предоставляет полноценную структуру кластеров «Арсенала» с отмеченными темно синим медоидами. Реальная разница не столь очевидна, так как есть два однородных кластера слева а справа только один кластер с однородной структурой. Таким образом графкиа помогает принимать к рассмотрению внутрикластерные вариации, одновременно обозначая предпочтительное направление билдапа «Арсенала».

Кластеры начальных передач «Арсенала». Все передачи внутри каждого кластера помечены темно синим.

Часть 2 – Модальные последовательные действия

Во второй части анализа Куба хотел ответить на этот вопрос: как выглядят самые распространенные билдапы, когда они начинают в конкретном кластере начальных передач?

С этой целью он взял все последовательности игровых моментов, которые начинались в конкретном кластере и кластеризировал, используя для этого распространение сродства, соединенное с измерениями сходства в данных временных рядов -  динамическое искажение времени (dynamic time warping, DTW). Эта мера позволяет идентифицировать маршруты самой похожей формы.

Перед высчитыванием дистанции между двумя последовательностями, DWM пытается выстраивать в линию одну последовательность, чтобы сделать ее похожей на пример настолько, насколько это возможно. Никакие различия в скорости и количестве передач внутри одной последовательности не игнорируются, пока общие маршруты похожи.

Одна последовательность, однако, может содержать несколько первоначальных передач. Следовательно, чтобы предотвратить рассмотрение некоторых последовательностей дважды, одна последовательность делится на две подпоследовательности, если мяч повторно вошел в защитную треть. Как результат, значительная доля подпоследовательностей были просто двухпередачные перепасовки, когда мяч пасовался защитником и сразу же возвращался обратно. Это недостаточно информативно. Однако, двухпередачные последовательности все еще могут быть интересны, если мяч игрался длинно.

Реклама 18+

Поэтому все подпоследовательности, которые не перешли центр, были удалены. Так как основной фокус автора был на том, как команды выходят из обороны а не как они атакуют, подпоследовательности были обрезаны в случаях попадания мяча в финальную треть. Это было сделано, чтобы избежать соответствующих последовательностей, используя информацию, которая нерелевантна в этом контексте.

В конце концов и все подпоследовательности, составленные из неудачных ударов, тоже были удалены.

Эта графика является примером результата второго этапа - топ три модели билдапа, начинающихся с передач в Кластере 1. Пунктирная линия показывает передвижение мяча ведением. Жирная линия обозначает передачу. Цветная отвечает за порядок последовательности, переходя с темного в светло синий. Ширина измеряется по максимальной горизонтальной разнице в метрах внутри последовательности. Абсолютная ширина измеряется по максимальной дистанции в метрах от центральной вертикальной линии внутри последовательности. Прямота измеряется по чистой разнице в дистанции до линии ворот соперника, поделенной на общую дистанцию, которую мяч прошел во время текущей последовательности.

Последняя графика отображает три самые частые модели выхода «Арсенала» из обороны для передач, начинающихся в первом кластере. Хоть эти результаты должны восприниматься с долей иронии из-за небольшого размера выборки, предоставленные кластеры иногда могут дать нам информацию о том, например, какие первоначальные передачи могут начинать прямые атаки на фланге, или о выходе из обороны через центр.

Заключение

Общий фидбек, который Куба Михалчик получил на форуме, был чрезвычайно позитивным. Аналитики клубов высоко оценили возможность отбирать отличия между командами и находить потенциально слабые места. Определение этих точек стало возможны благодаря анализу данных на уровне клубов, а не по всей лиге.

 

Вещь, которая в дальнейшем может быть разработана – это статистическая метрика, которая позволила бы формально оценить качество кластеризации. Куба потратил немного времени на изучение разных техник валидации кластеров и ни одна из них не кажется ему подходящей в разрезе футбола.

Реклама 18+

 

Поэтому все кластеры были валидированы визуально и по параметрам DBSCAN были отобраны так, чтобы кластеры были стабильны среди всех соседствующих значения. Наличие статистики по валидации кластеров не только уменьшило бы человеческий фактор, но еще и помогло бы автоматизировать процесс.

Приложение

Если вам интересно посмотреть на результаты по отдельным командам, можете взглянуть на сопутствующую ShinyApp.

Также, пожалуйста, не стесняйтесь делиться своими мысли с автором в Twitter, как в комментариях, так и дайректе.

 

Ссылка на оригинал: https://www.optasportspro.com/news-analysis/guest-blog-identifying-patterns-in-build-up-play-using-clustering/

 

Подписывайтесь, чтобы не пропустить следующий эпизод!

____________________________________________________________________

Телеграм

Твиттер

Фейсбук