kaggleにこんなデータがあったので、こちらのデータで遊んでみました。
https://www.kaggle.com/karangadiya/fifa19?utm_medium=social&utm_campaign=kaggle-dataset-share&utm_source=twitter
※スクレイピング元はこちら:https://sofifa.com/
FIFA19というゲームのデータ!?なのかな。
ゲーム全然やらないから分からない・・・。
正直このデータがどれくらい実態に近しいのかはわかりませんが、
まあ傾向くらいはつかめるでしょ、ということで見てみることに。
また、いくつかわからない変数があったので、その変数は除外して使いました。
まずデータの項目はこちら。
データ項目
'ID', 'Name', 'Age', 'Photo', 'Nationality', 'Flag',
'Overall', 'Potential', 'Club', 'Club Logo', 'Value', 'Wage', 'Special',
'Preferred Foot', 'International Reputation', 'Weak Foot',
'Skill Moves', 'Work Rate', 'Body Type', 'Real Face', 'Position',
'Jersey Number', 'Joined', 'Loaned From', 'Contract Valid Until',
'Height', 'Weight', 'LS', 'ST', 'RS', 'LW', 'LF', 'CF', 'RF', 'RW',
'LAM', 'CAM', 'RAM', 'LM', 'LCM', 'CM', 'RCM', 'RM', 'LWB', 'LDM',
'CDM', 'RDM', 'RWB', 'LB', 'LCB', 'CB', 'RCB', 'RB', 'Crossing',
'Finishing', 'HeadingAccuracy', 'ShortPassing', 'Volleys', 'Dribbling',
'Curve', 'FKAccuracy', 'LongPassing', 'BallControl', 'Acceleration',
'SprintSpeed', 'Agility', 'Reactions', 'Balance', 'ShotPower',
'Jumping', 'Stamina', 'Strength', 'LongShots', 'Aggression',
'Interceptions', 'Positioning', 'Vision', 'Penalties', 'Composure',
'Marking', 'StandingTackle', 'SlidingTackle', 'GKDiving', 'GKHandling',
'GKKicking', 'GKPositioning', 'GKReflexes', 'Release Clause'
みてみると、どうやらこの「Overall」という項目は選手の総合評価らしい。
この中盤にでてくる、略語は何を表しているんだろう・・・。
これらはわからないのでとりあえず除外しました。
また、1選手、1レコードで、18207選手分あります。
ではまず、どんな国の選手がどれくらい登録されているのか。
(※プレーをしてる国ではなく、本籍です。)
国別選手数TOP10
圧倒的イングランド。さすが、サッカー発祥の地。
しかし、調べてみると「2014年にFIFAのゼップ・ブラッター会長が「中国はサッカー発祥の地」とするという発言は物議を醸した」とニュースをみつけ、
サッカーの起源については諸説あるようです。
ではじゃあその10カ国、年代別だとどうなのよ。
国別選手数TOP10(年代別)
ということでこちら。
30代が圧倒的なタレントぞろい。
国別にみると、フランスは比較的若手の割合が多く、若手が順調に育っているのかなという印象。
一方ブラジルは、圧倒的に若手の割合が少ないので、逆に育成がうまく行ってないのかも。
というかFIFAランクの割には日本多くない!?日本でサッカーゲーム人気だから!?
ちなみにここでちょっと日本について。
日本選手はどんな選手が登録されてるの、ってことでこちら。
Overallの日本人TOP10
長友選手が入ってないのが以外だけど、まあ妥当なメンバーですかね。
では次は、Overallの上位選手とその他選手ではどういった項目が要因になっているのかな、ということで、決定木を使って「Overallの上位選手とその他選手」を分類してみることに。
いきなり決定木つくる前にちょっと各変数の相関関係みてみます。
変数間ヒートマップ
なるほど。Overallと相関が強いのは、「Reactions,Composure」なのか。
この2変数ってどうやって算出されているんだ・・・。
と本格的にみようとすると分からないことだらけなので、一旦おいといて先にすすみます。
余談ですが、「Height,Weight」はGKの変数とは多少相関あるものの、プレーの相関はあまりないみたい。
ポジションによって違うと思うけど。
では決定木。
うん、出てきました。「Reactions」最初の分岐で「"Reactions <= 83.5」となりました。
じゃあ、Reactions除外したらどうなるの?
BallControlとComposureが変数として効く結果に。
※pythonでうまく、決定木表示できず掲載できませんでした・・・
最後に・・・
サッカーのデータってなかなかないんですよね。
なのでこうやって色々みれるのは面白かったです。
もうちょっと色々見てみると面白そうなので時間ある時にでもやってみようと思います。