前回のデータドリブンで選手の評価をおこなうという論文に引き続き、スポーツ論文第二弾。
タイトル
Effective injury forecasting in soccer with GPS training data and machine learning
https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0201264
GPSや選手のフィジカルデータを利用して、怪我の予測をおこなうというもの。
使用データ
・26名のイタリアのプロ選手(男性)のGPSのデータ23週分
age = 26±4 years
height = 179±5 cm
body mass = 78±8 kg
検証方法
データマート
説明変数:選手の特徴、トレーニングデータ
目的変数:怪我したかどうかの0/1
手法
以下3手法を検証し比較
・決定木
・ランダムフォレスト
・Logit classifier(参考:ロジットとロジスティック)
Point!!!
正解データが少なすぎたためADASYNを使って正負データのバランスを整えてる
https://imbalanced-learn.readthedocs.io/en/stable/api.html
https://aotamasaki.hatenablog.com/entry/2018/05/02/144742
結論
・最初の精度はかなり低いが、WEEK14以降は決定木が一番よい
・怪我の全体の約80%を検知することができprecision(モデルが怪我すると予測したうち実際にどれくらいが怪我だったか)は50%
・正確性と解釈のバランスがとれている
・決定木で分析することで予測結果に解釈性をもたせた
今後、、、
・試合中のどこで、フィジカル的/精神的に一番選手にストレスがかかってるかといった内容を考慮できる
・他のチームへの転用
・複数シーズンのデータがあれば選手それぞれに対して、個別の予測が可能
最後に
決定木というシンプルな手法である程度の精度がでているのは意外でした。
でもそれもtrainデータの工夫があってこそだろうな、と思うと改めてデータ処理は大事です。ADASYN勉強になった!
ある程度データを取得してるチームならこの手法効果あると思うのでお試しあれ!
※間違いあったらご指摘ください。