Рейтинг на сайте 410  Место 64569
Трибуна Пользователь
Комментарии5
Статусы0

Иван Ивашковский: комментарии

Дата регистрации 7 марта 2015
Аккаунт игрок основы
Настоящее имя Иван Ивашковский
Пол мужчина
Возраст 28
Любит
Основатель блогов
Читает блоги
О себе Студент МФТИ, разработчик в Яндексе, болельщик ФК Локомотив и любитель баскетбола

Я не сильно заморачивался и брал все вместе. Отбрасывал только статистики, которые можно вычислить по другим, например FGM=FGA * %FG Percentage
А также разные +/-, общее число очков - про эти я написал в статье. В общем то, что сразу захотелось отбросить, было отброшено, остальное никак не было тронуто.

Процент очков от общего количества, набранных из краски.
Конкретно в моем случае выходит:
%PTS PITP - Percent of Points (Points in the Paint):
Желтые - 39.95 %
Черные - 42.3571428571%
Красные - 38.1888888889 %
Синие - 44.32 %
Зеленые - 41.1 %

Изначально я не ставил перед собой цель анализировать игру команд. Цель - анализировать их статистику.
Все описания - вольная интерпретация факта "в такой-то статистике видно сильное различие". Список конечно не ограничивается только приведенными характеристиками, просто я привел наиболее различающиеся. Иначе текст стал бы нечитабелен. В конце концов, мы же с вами на спортивном, а не на аналитическом сайте :)

Клубов всего 30, это очень мало - при таком количестве выбор алгоритма не важен :)
Я использовал k-means - самый простой.
Весь код на питоне - думаю, что для таких задач это самый оптимальный язык, можно написать все буквально "на коленке" + к нему есть куча библиотек. Для скрэпинга сайта я использовал selenium (так как надо было исполнять javascript при загрузке сайта), для кластеризации - sklearn, numpy, для картинки - matplotlib

Конечно. Тема предсказания окраски отзыва сейчас довольно популярна, называется сентиментный анализ, у меня половина одногруппников делала дипломы по этой теме.
Сейчас эту задачу решают с помощью нейронных сетей. Про них можно долго рассказывать, но в целом достаточно знать, что саму модель подсмотрели в биологии - есть много клеток (нейронов) и связей между ними. Такая сеть пропускает через себя входящий набор чисел и выдает какой-то другой выходящий - конкретно в нашем примере на выходе число от 0 до 100. Задача обучения сводится к подбору параметров связей, чтобы на выходе получалось то, что нам нужно.
Напрямую со словами в таком подходе мало кто работает, каждое слово обычно заменяют набором чисел таким, что чем более близки по смыслу слова, тем более похожи эти наборы чисел (это тоже делается нейронной сетью). В общем вся модель оперирует числами, причем очень большим набором (связей в сети может быть 100 000, и каждое слово само по себе представляется набором из 1000 чисел)
Можно самому попробовать веб интерфейс, туда вводишь текст н аанглийском и он предсказывает окраску - transcranial.github.io/keras-js/