Рейтинг на сайте 410 Место 64569

Трибуна Пользователь

Комментарии	5
Статусы	0

Иван Ивашковский: комментарии

Дата регистрации	7 марта 2015
Аккаунт	игрок основы
Настоящее имя	Иван Ивашковский
Пол	мужчина
Возраст	28
Любит	Локомотив НБА
Основатель блогов	Кросс валидация
Читает блоги	Лаборатория Спортса Кросс валидация Трибуна Daily
О себе	Студент МФТИ, разработчик в Яндексе, болельщик ФК Локомотив и любитель баскетбола

| К записи в блоге Кросс валидация

Я не сильно заморачивался и брал все вместе. Отбрасывал только статистики, которые можно вычислить по другим, например FGM=FGA * %FG Percentage
А также разные +/-, общее число очков - про эти я написал в статье. В общем то, что сразу захотелось отбросить, было отброшено, остальное никак не было тронуто.

| К записи в блоге Кросс валидация

Процент очков от общего количества, набранных из краски.
Конкретно в моем случае выходит:
%PTS PITP - Percent of Points (Points in the Paint):
Желтые - 39.95 %
Черные - 42.3571428571%
Красные - 38.1888888889 %
Синие - 44.32 %
Зеленые - 41.1 %

| К записи в блоге Кросс валидация

Изначально я не ставил перед собой цель анализировать игру команд. Цель - анализировать их статистику.
Все описания - вольная интерпретация факта "в такой-то статистике видно сильное различие". Список конечно не ограничивается только приведенными характеристиками, просто я привел наиболее различающиеся. Иначе текст стал бы нечитабелен. В конце концов, мы же с вами на спортивном, а не на аналитическом сайте :)

| К записи в блоге Кросс валидация

Клубов всего 30, это очень мало - при таком количестве выбор алгоритма не важен :)
Я использовал k-means - самый простой.
Весь код на питоне - думаю, что для таких задач это самый оптимальный язык, можно написать все буквально "на коленке" + к нему есть куча библиотек. Для скрэпинга сайта я использовал selenium (так как надо было исполнять javascript при загрузке сайта), для кластеризации - sklearn, numpy, для картинки - matplotlib

| К записи в блоге Кросс валидация

Конечно. Тема предсказания окраски отзыва сейчас довольно популярна, называется сентиментный анализ, у меня половина одногруппников делала дипломы по этой теме.
Сейчас эту задачу решают с помощью нейронных сетей. Про них можно долго рассказывать, но в целом достаточно знать, что саму модель подсмотрели в биологии - есть много клеток (нейронов) и связей между ними. Такая сеть пропускает через себя входящий набор чисел и выдает какой-то другой выходящий - конкретно в нашем примере на выходе число от 0 до 100. Задача обучения сводится к подбору параметров связей, чтобы на выходе получалось то, что нам нужно.
Напрямую со словами в таком подходе мало кто работает, каждое слово обычно заменяют набором чисел таким, что чем более близки по смыслу слова, тем более похожи эти наборы чисел (это тоже делается нейронной сетью). В общем вся модель оперирует числами, причем очень большим набором (связей в сети может быть 100 000, и каждое слово само по себе представляется набором из 1000 чисел)
Можно самому попробовать веб интерфейс, туда вводишь текст н аанглийском и он предсказывает окраску - transcranial.github.io/keras-js/