Push the tempo. Анализ темпа игры в сезоне 2017/2018
В НБА нет мелочей, в любом аспекте игры команды пытаются создать себе преимущество и темп игры здесь не исключение. Можно часто прочитать мнения экспертов, в которых говорится "Команде А чтобы победить надо навязать медленный темп игры, иначе у них нет шансов" или "Команде Б удалось затащить соперника в "перестрелку", поэтому они победили". Сам по себе высокий/низкий темп игры не является целью, но через его изменения команды пытаются воздействовать на показатель PPP (points per possessions - очки за владения) и попросту количество набранных очков. Цель простая - твой PPP должен быть выше чем у соперника, а очков больше.
Приведу простейший и очень упрощенный пример как изменение темпа влияет на игру и результат:
Представим Команду А и Команду Б. Они имеют следующие показатели темпа игры, количества быстрых (transition) и позиционных (half-court) атак и очков, которые каждое владение приносит:
Team A Pace 35 Tran 5 (1 PPP) HC 30 (0.8 PPP)
Team B Pace 45 Tran 20 (1.3 PPP) HC 25 (0.6 PPP)
А теперь посчитаем как закончатся игры если одна из них будет проходить по сценарию Команды А (35 владений у каждой команды, 5 из них быстрые атаки, 30 позиционные), а вторая по сценарию Команды Б. В первом случае Команда А победит 29-25 (такой баскетбол из прошлой эры), а во втором победит Команда Б, 41-40.
Если кратко резюмировать смысл игры с темпом то это заставить соперника играть в неудобных для него условиях, которые будут максимально благоприятны для вашей команды.
------
В реальной жизни такого разрыва темпа, как указан в примере, нет. В прошедшем сезоне команда с самым низким темпом игры, Сакраменто, имела Pace - 97,06, а самым высоким, Пеликанс, 102,73. Как видно, разница составила 5,67 или менее 6%. Если исходить из абсолютных величин это не так уж много.
Также следует сказать как собственно этот темп считается. Главную роль в расчёте темпа играет количество владений в игре. Например, в случае обычной 48-минутной игры значение Pace совпадает со значением Possessions. Формула для расчёта владений следующая:
,
FGA - попытки броска
FG - точные броски
FTA - штрафные попытки
OffReb - подборы в нападении
DefReb - подборы в защите
TOV - потери
Opp впереди показателя означает, что это показатель соперника.
При таком расчёте, обе участвующие в игре команды, имеют одинаковый Pace. Стоит отметить, что представленная формула взята с basketball-reference. Показатели по темпу на stats.nba, которые используются в исследовании, немного отличаются. Скорее всего это связано с тем, что на stats.nba другие значения коэффициентов перед FTA и подборами, но эти жадины опять не показывают формулу в общем доступе. В принципе, нам главное чтобы соблюдалось единообразие расчётов, а не сама формула, и с этим проблем нет.
----------
Как я говорил выше, задача команды в общем случае заставить соперника играть в неудобном темпе. Как это измерить? Вот какой метод я придумал. Мы знаем значение темпа по сезону для обеих участвующих в матче команд. Также нам известен темп самой игры. Я рассчитал средний темп, который должен был получиться в игре этих команд (простое сложение темпов команд в сезоне, делённых на два). Ну а далее мы сравниваем реальный темп игры со средним и к кому он получается ближе, тот получает разницу реального и среднего темпа себе в актив, (т.е. со знаком плюс), а кто дальше в пассив со знаком минус. Это разница темпа, Net Pace. Для наглядности я нарисовал два графика, которые представляют этот абзац графически:
А вот часть файла для расчёта Мемфиса:
PACE - реальный темп данной игры.
Pace Team, Pace Opp - сезонный темп Мемфиса и его соперника
Avg. Pace - среднее значение темпа, (Pace Team + Pace Opp)/2
Net T, Net Opp - разница темпа. Формула в ячейках Net T:
------
Теперь перейдём непосредственно к расчётам и результатам. Я посчитал Net Pace для всех 1230 игр регулярного сезона (1226, если быть точным: 2 игры между Нью-Йорком и Оклахомой имеют нулевой Net Pace, т.к. сезонный темп у Никс и Тандерс одинаков, ещё две игры где-то потерялись при переносе с листа каждой команды в один общий), а также для каждой команды в отдельности. Вот гистограмма темпа всех игр сезона:
Темп имеет нормальное распределение (среднее значение 99,66) и абсолютно логично, что чаще всего команды играют в темпе, находящемся в диапазоне разброса значений сезонного темпа команд: от 97 до 102. На график не попал матч Юта-Клипперс с сумасшедшим темпом 133,8, что на 34 владения выше среднего и на 14 больше, чем у матча со вторым темпом в сезоне.
А вот таблица результатов и график с фильтрами на показатель Net Pace команды:
(Пояснение:
1. Значение меньше нуля включает в себя все игры, в которых команда проиграла по Net Pace сопернику, меньше -1 - все игры в которых команда проиграла по Net Pace, за исключением где она проиграла меньше 1 и т.д., т.е. чем дальше от нулевого значения, тем меньше становиться выборка игр, удовлетворяющих значению Net Pace, установленного в фильтре.
2. Процент побед в таблице не 50 из-за способа создания общего списка игр. Сначала я создал 30 отдельных файлов для каждой команды, а оттуда уже переносил в общий файл следующим методом:
1 Команда - все 82 игры
2 Команда - 82 игры - игры с 1 командой
3 Команда - 82 игры - игры с 1 командой - игры со 2 командой
и т.д.
Команды у меня были расположены по дивизионам и позициям в них, поэтому сильные команды чаще попадали в графу Team (например, во всех 82 играх с участием Торонто, Рэпторз находятся в графе Team) в то время как слабые в графу Opp (во всех 82 играх с участием Мемфиса, Гриззлис находятся в графе Opp).
При первом взгляде кажется, что связь между Net Pace и победами есть: на графике видно, что процент побед у команд с отрицательным Net Pace падает с увеличением этого минуса, в то время как при увеличении Net Pace в положительную сторону этот процент растёт.
На самом деле это не так: коэффициент корреляции между Net Pace и W/L равен 0,006347, т.е. связи нет никакой. Он возрастает до 0,03 при использовании скорректированного Net Pace, Adj. Net 4, но это всё равно означает, что в каждом конкретном матче сдвиг темпа игры в благоприятную для себя сторону эффекта на результат не даёт (ну или он минимален). Например, если продлить табличку и посчитать как сыграли команды с показателем Net Pace в игре +/- 7, окажется, что команды с Net Pace -7 выиграли на 5% больше игр, чем команды с Net Pace +7 (правда на небольшой выборке).
------
При подсчёте Net Pace для каждой команды вскрылась проблема моего метода: большое количество экстремальных значений темпа в отдельных играх, которые приводят к искажению общекомандных результатов и нелогичности. Яркий пример игра Лейкерс-Финикс вначале сезона: Pace ЛАЛ - 102,62; Pace Финикса - 102,64, PACE игры - 119,12. При подсчёте Net Pace Лейкерс получают -16,49, Санс +16,49. Это выглядит явно нелогично: команды по сезону играют в почти одинаковом темпе и так сильно ускорять игру Финиксу, чтобы воспользоваться своим бешеным преимуществом в две сотых, смысла нет.
Я внёс два изменения в Net Рace чтобы уменьшить эту явную алогичность:
1. Домножил Net Pace на показатель NetDiff, который является взятой по модулю разницей между темпами команд в сезоне. Т.е. для игры Лейкерс и Финикса Adj. Net Pace получился 16,49*0,02=0,33. Это гораздо больше похоже на правду.
2. Но введение NetDiff не убирает проблему экстремальных значений PACE в отдельно взятой игре полностью. Более того, если NetDiff>1, а это довольно частый случай, экстремальный Net Pace увеличивается ещё больше. Поэтому я решил извлекать корень квадратный из значения Adj. Net Pace, чтобы сократить разницу в значениях.
Так у меня получился Adj. Net Pace4 (или проще Adj. Net 4):
------
Показатель Adj. Net 4 имеет нормальное распределение, большинство значений находятся в диапазоне от -2 до 2.
А вот собственно таблица значений Net Pace и Adj. Net 4 для всех команд. Тройки лучших/худших для обоих показателей неизменны: лидируют Пеликаны, 76-ые и Сакраменто (4 и 5 идут ещё две суперкоманды - Финикс и Мемфис), худшими являются Торонто (победитель Восточной конференции), Юта (самая горячая команда второй половины сезона) и Денвер (боровшийся до последнего за ПО на Западе). Стоит отметить, что верхние десятки у двух показателей почти не отличается, а вот ниже 15 места начинается серьёзная турбулентность с максимумом изменений в 7 позиций у Портленда (ещё одна топовая команда внизу данного рейтинга).
-------
Ну а теперь перейдём к главной части. Начальная идея была такая: хорошие команды хороши во всём. Они могут управлять темпом игры в выгодную для себя сторону и тем самым создавать себе преимущество. Я предполагал увидеть положительную корреляцию между количеством побед в сезоне и значением Adj. Net 4. Сразу стоит отметить, что 30 наблюдений (по количеству команд) мало для безоговорочных выводов (p~0,1 что у пары W-Net Pace, что у W-Adj.Net 4), но результаты меня удивили: на деле получилась отрицательная корреляция на уровне -0,315 между значениями побед и Adj. Net 4. Это означает, что плохие команды чаще играли в более выгодном для себя темпе. Это хорошо видно при сравнении командных показателей побед и Adj. Net 4. Из пяти лучших команд Лиги по победам только 76-ые входят в такую же пятёрку по Adj. Net 4, а из пяти худших команд по победам, в рейтинге Adj. Net 4 ни одна не занимает место ниже 18. Можно заметить, что самая большая разница между позициями в рейтинге наблюдается на полюсах таблицы: 5 из 6 самых больших разниц у двух лучших и трёх худших команд Лиги (Хьюстон, Торонто, Финикс, Мемфис, Даллас).
------
По итогам всех изысканий можно сказать, что гипотеза о том, что хорошие команды управляют темпом себе на пользу в данном исследовании оказалась неверна. Более того, результат получился противоположный. Почему в данном исследовании? Небольшое количество наблюдений и специфичность подсчёта Net Pace и Adj. Net 4 (и связанные с этим логические проблемы) не дают право безоговорочно говорить о том, что темп не влияет на игру или влияет негативно. Стоит отметить, как говорилось ранее, и небольшой диапазон разброса значений сезонных темпов команд, что тоже не способствует упорядоченности. Также весьма вероятным кажется предположение, что важность управления темпом приобретает большее значение в стадии ПО, где одни и те же команды играют минимум 4 игры и целенаправленно готовятся к определённому сопернику, досконально изучая его сильные и слабые стороны в попытке их использовать. Однако результаты исследования, показывающие, что темп почти не влияет на результат отдельного матча (команды, играющие в удобном темпе не выигрывают чаще), а плане количества побед в сезоне влияет даже негативно (хорошие команды чаще играют в неудобном темпе) даёт возможность говорить о том, что управление темпом не входит в первую очередь матч-апов на которые надо обращать внимание в игре. Но для более цельного мнения по этому вопросу нужно получить информацию по большему количеству сезонов, а также улучшить метод подсчёта, ещё больше устранив влияние игр с неестественным темпом игры. Как говориться, будет чем заняться.
Надеюсь, данный анализ был Вам интересен. Спасибо за внимание и feedback в виде комментариев и оценок.
Что касается лучшего/худшего темпа команды в категориях позволяет выигрывать, то их просто нет: показатели темпа в победных/проигрышных матчах просто накладываются друг на друга. Вот пример Клипперс:
https://a.radikal.ru/a04/1809/16/e4d30c7d8725.png
Есть идея по убиранию экстремальных показателей путем добавления вероятности данного темпа. Распределение темпа в матчах нормальное, поэтому экстремальные показатели будут иметь низкую вероятность, которая будет "убивать" большое значение NetPace, даже при NetDiff>1. Но для этого надо сделать не один сезон и не два.
Т.е. необходимо брать не средний темп по лиге, а средний медианный(половина игр быстрее, половина медленнее); не средний темп команды, а средний медианный; не отклонение от среднего арифметического темпа, а от среднего медианного; и т.д..
Вообще же необходимо для каждой команды сперва определить её лучший темп, т.е. тот, который позволяет выигрывать. Так же темпы, которые приводят к поражениям.В итоге будет несколько кучностей со знаком + и несколько со знаком -. Дальше анализируем картину для двух команд. Должно быть интересно. Получатся своебразные "поля" владений для каждой команды, а рез-т встречи будет определяться их взаимным наложением.
Очередная гора цифр, люблю я в межсезонье закопаться в подобном, респект автору!
Теперь по поводу полей. Если брать весь диапазон значений темпа при победах/поражениях, то у примерно одинаковых команд, он будет практически полностью накладываться друг на друга, а у команд с разным количеством побед/поражений наложения не будет только из-за разности в этом самом количестве. Если же откинуть у диаграммы "усы" и взять только разницу между третьим и первым квартилем, то показатели "удобного" темпа у команд уже больше расходятся и с добавлением значения темпа конкретной игры можно смотреть в чей диапазон он попадает (хотя диапазоны всё равно будут довольно сильно пересекаться). Вариант подсчёта имеет право за жизнь, но сходу сложно сказать точнее ли он.
Теперь надо просуммировать победы(+1) и поражения(-1) в зависимости от числа владений для Клипперс. Получим "поле" A. Берём другую команду, для неё проделываем аналогичные манипуляции, получаем "поле" B. Смотрим на рез-ты их встречи: итог, ч-ло владений. Теперь можно анализировать: есть корреляция или её нет. Команды к Клипперс лучше брать примерно равные по силам, тогда влияние числа владений должно проявиться.
ИМХО. "Число владений" имеет фактор влияния на рез-т не выше второго-третьего порядка малости.
Так, если команда противника на голову сильнее по составу, то вне зависимости от "числа владений" она вынесет противника - 1-ый порядок палости.2-ой порядок малости - это влияние на рез-т игры тренера.(тактика, стратегия, настрой и т.д.)
ИМХО, разумно искать "коэффициент корреляции Пирсона" между условным "коэффициентом темпа" и "вер-тью победы" с учётом вышесказанного. Возможно удастся нащупать значения "ККП" для ряда команд отличные от нуля, что будет строго математически свидетельствовать о чувствительности команды к темпу и отражать её степень.
P.S. ККП = Sum((X-X')(Y-Y'))/ Sqrt(Sum((X-X')**2)Sum((X-X')**2)), где X - вер-ть победы при данном темпе, X' - средняя арифм вер-ть побед команды, Y - условный "коэф темпа", Y' - его среднее значение. Суммирования ведутся по всем значениям темпа для данной команды.
Положим за "коэффициент темпа" разность между текущим темпом команды и "Идеальным Темпом". Тогда тот темп, при котором ККП будет наибольшим будет являться Идеальным. Тот темп при котором ККП будет максимально ниже нуля будет "Идеально Худшим Темпом". Темп, при котором ККП максимально близок к нулю, будет оказывать минимальное влияние на исход поединка.
P.S. ИМХО, математически наиболее логичный поиск "идеального темпа" для команды и определения степени корреляции между темпом и рез-татом игры. Метод в духе "Вариационного Исчисления", но только для дискретных величин.