今年のJリーグも終了し、あとは天皇杯を残すのみとなりました。

平日は深夜までデータ解析を仕事とするマリノスファンの私にとって、
Jリーグのシーズンオフは、週末の数少ない外出機会の消失を意味し、
部屋の中という狭いフィールドは人間性の消失につながっていき、
苦し紛れに送るLINEは、スルーパス(既読スルー)に苦しめられる日々の始まり、を意味します。


一方、近年、サッカーデータのトラッキングが進み、
毎試合の各種データがファン向けに公開されております。

そこで、横浜F・マリノスに全く関係のない私が、
趣味で今年のマリノスをデータ解析で振り返ろうと思います。

※足繁く日産スタジアムに通うマリノスファンではあります。


| (1) サッカーデータの取得
横浜F・マリノス公式サイト
横浜Fマリノスの公式サイトでは、2012年以降の試合結果、レポートを閲覧することができます。
各試合の基本的なスタッツのほか、
スタジアムの入場者数、試合のレポート、監督・選手コメント、
ダイジェスト動画、を閲覧することができます。

%e3%82%b9%e3%82%af%e3%83%aa%e3%83%bc%e3%83%b3%e3%82%b7%e3%83%a7%e3%83%83%e3%83%88-2016-12-03-18-13-36

Jリーグ公式サイト
Jリーグの公式サイトでは、1993年の開幕以来の各年度の様々な集計データを閲覧することができます。
各チームの「出場記録」や「天候別勝敗」「時間帯別得失点」などのほか、
「年度別入場者数推移」「記念ゴール」などを閲覧することができます。

%e3%82%b9%e3%82%af%e3%83%aa%e3%83%bc%e3%83%b3%e3%82%b7%e3%83%a7%e3%83%83%e3%83%88-2016-12-03-18-17-35

FootballLAB
スポーツデータのトラッキング、解析を行うデータスタジアム社の運営するサイトとなります。
各チームの試合ごと、出場選手ごとの、独自に集計された詳細なデータを閲覧することができます。
たとえば、各選手ごとの「シュート力」「決定力」「ビルドアップ力」などの指標や、
各試合ごとの「ドリブル」「総走行距離」「30mライン進入回数」などを取得することができます。

%e3%82%b9%e3%82%af%e3%83%aa%e3%83%bc%e3%83%b3%e3%82%b7%e3%83%a7%e3%83%83%e3%83%88-2016-12-03-18-29-14


そこで今回は、特に詳細なブレイクダウンが可能なFootballLABで公開されているデータを用いて分析してみます。
※以降は、すべてFootballLABの公開データをもとに独自集計・解析したものとなります。


| (2) 得失点パターン概要
まずは詳細なデータ解析を始める前に、昨年度までと今年度の得失点パターンの推移を見てみます。

下記はマリノスの2012年度以降のパターン別の得点数、および年間順位の推移となります。
%e3%82%b9%e3%82%af%e3%83%aa%e3%83%bc%e3%83%b3%e3%82%b7%e3%83%a7%e3%83%83%e3%83%88-2016-12-03-18-36-08

マリノスにとって、2016年度は過去5年で、もっとも得点数が伸びたシーズンでした。
例年、セットプレー(上記赤色のブロック)からが、もっとも得点数の多いパターンとなります。

他のチームと比較するとその傾向はより顕著です。
2016年度の得点数上位3チームの得点パターンと比較してみます。
※左から、マリノス、川崎、浦和、広島

%e3%82%b9%e3%82%af%e3%83%aa%e3%83%bc%e3%83%b3%e3%82%b7%e3%83%a7%e3%83%83%e3%83%88-2016-12-03-19-15-05

得点上位3チームと比較してもマリノスのセットプレーからの得点は秀でているようです。
ただ、ショートパス(上記オレンジのブロック)からの得点、は少ないようですし、
2016年はこの5年で一番得点が伸びた、といっても上位得点チームとは開きがあります。

一方、2016年度の順位(1枚目の図、赤線)は過去5年で最低の10位でのフィニッシュとなりました。なぜでしょうか。

下記はマリノスのパターン別の失点数の推移となります。

%e3%82%b9%e3%82%af%e3%83%aa%e3%83%bc%e3%83%b3%e3%82%b7%e3%83%a7%e3%83%83%e3%83%88-2016-12-03-18-42-00

実はマリノスにとって、2016年度は、過去5年でもっとも得点が多いシーズンであると同時に、
失点も、もっとも多いシーズンでした。
これまでマリノスといえば堅守のチームで、各シーズンで1、2位の失点数の少なさでしたが、
2016年シーズンは、浦和、鹿島、大宮、鳥栖に次いでの、リーグ5位の失点数となりました。
特に、セットプレーからの失点(上記赤色のブロック)の多さが気になります。
思えば、1stシーズンは序盤でセットプレーから失点してリズムが崩れる、というシーンが多くありました。

さて、しかし、サッカーはどのチームもセットプレーからの失点がマリノスに限らず多い、という可能性もあります。
その場合は、マリノスはセットプレーからの失点が多い、というのはフェアではありません。
そこで失点の少ない上位3チームと比較してみます。
※左から、マリノス、浦和、鹿島、大宮

%e3%82%b9%e3%82%af%e3%83%aa%e3%83%bc%e3%83%b3%e3%82%b7%e3%83%a7%e3%83%83%e3%83%88-2016-12-03-19-17-43

やはり、セットプレーからの失点の多さは、失点の少ない上位2チームと比較すると顕著です。
ここは是非来季に向けて改善してほしい点となります。(2ndでいくらか改善されたとはいえ)

さて、まずは得点・失点を見てみました。
しかし得点・失点パターンだけでは、具体的な勝敗につながる過程はまだ見えてきません。
たとえば、セットプレーが重要とわかっても、
その前にセットプレーにつながるようなプレーをしなければなりません。
逆に、相手にセットプレーを与えないような試合展開にするための要因は何でしょうか。
そもそも得点・失点(につながるプレー)がどのように勝敗に影響するか、を分析する必要があります。
※特にマリノスのような、多くの得点をとって勝つというよりは、堅守で1-0で勝つようなチームの場合

そこで、次に、試合中のパス数やスプリント回数、総走行距離などが、
勝敗について、様々な要因をデータ解析しながらみてみます。
ここからいよいよデータ解析の本領発揮となります。


| (3) 勝敗につながる要因を機械学習で解析

FootballLABでは、
各試合の自チーム、対戦チームの下記パラメータを閲覧することができます。

シュート
枠内シュート
PKによるシュート
パス
クロス
直接FK
間接FK
CK
スローイン
ドリブル
タックル
クリア
インターセプト
オフサイド
警告
退場
30mライン進入
総走行距離
スプリント数

そこで、まず2016年シーズンの全試合の上記データを下記のように、表にまとめます。(※クリックで拡大)

%e3%82%b9%e3%82%af%e3%83%aa%e3%83%bc%e3%83%b3%e3%82%b7%e3%83%a7%e3%83%83%e3%83%88-2016-12-03-19-36-15

明らかにしたいことは、「勝敗」が、その他のパラメータとどのように関係しているか、ということになります。

まずは、単純に「勝敗」とその他のパラメータの相関を見てみます。

※ちなみに相関を見る際に、マリノスの2016年度の試合データだけだとデータ数が少ないため、
 2015、2016年の2シーズンのデータを集計しました。

勝敗との相関係数が高い項目は下記となります。
パラメータ相関係数
パス-0.35
枠内シュート0.33
(対戦相手)クリア-0.31
(対戦相手)CK0.30
クリア0.27
(対戦相手)直接FK0.25

「枠内シュート」の数が多いことが勝敗との相関がある、というのは当たり前ですが納得できます。
意外なのは「パス」で負の相関があり、パスが多いときの試合はあまり勝てていないことがわかります。
その他の項目はいかがでしょうか。
たとえば、「対戦相手のCK」の数が多いほど、勝てる、というのはよくわかりません。

ちなみに、マリノス以外も含めた、全チームの2016年度試合データを用いた、
勝敗との上位相関係数項目は下記の通りとなります。
パラメータ相関係数
枠内シュート0.35
(対戦相手)クリア0.30
(対戦相手)枠内シュート数-0.28
スローイン-0.21

同じく「枠内シュート数」に正の相関があるほか、「対戦相手の枠内シュート数」に負の相関があります。
その他の項目もある程度納得ができます。

「相関」は概要を見るにはよく用いられますが、
上記のような、勝敗と各パラメータとの1対1の関係の把握、にとどまります。
そこで、次に、各パラメータがどのように「組み合わされて」勝敗につながるのか、を見てみましょう。

それには決定木、ランダムフォレストといった機械学習を用います。

ランダムフォレストは決定木の応用となりますので、まずは簡単に決定木について述べます。

決定木は、(ジニ係数などの)分岐基準を用いて、
“もっとも良くデータが分かれる”パラメータを選択し続けていくものです。
決定木は一般的に下記のようなアウトプットが得られるため、解釈が容易というメリットがあります。
※下記は今回のデータではない、別の解析で用いたサンプル

desicion_tree2

一方で、決定木はパラメータが多い場合、必ずしも最適なパラメータが選択されるとは限らない、という欠点があります。
たとえば、異常値や影響の大きいパラメータの存在などによって、
最初の分岐が(最適なものではなく)誤って決まると、以降の分岐は、その前提で進んでいくことになります。

そこで、全てのパラメータを用いるのではなく、任意のパラメータを部分的にランダムに選択して、
そこから決定木を作る、ということを多数行うことで、
一部のパラメータのみに引っ張られることが無いようにし、
その複数の決定木の結果を多数決(ないしは平均値)で予測するという考えが
ランダムフォレスト、となります。

%e3%82%b9%e3%82%af%e3%83%aa%e3%83%bc%e3%83%b3%e3%82%b7%e3%83%a7%e3%83%83%e3%83%88-2016-12-03-20-17-03

マリノス、および全チームの2016年度シーズンの
勝敗結果および各パラメータをランダムフォレストで解析した結果が下記の通りとなります。

ランダムフォレストによるマリノスの勝敗結果
勝敗推計精度:0.57
ジニ係数上位一覧(勝敗予測に重要なパラメータ)
パラメータジニ係数
パス0.155
(対戦相手)クリア0.075
30mライン進入0.046
スプリント0.045
枠内シュート0.044
(対戦相手)クロス0.039
CK0.038
ドリブル0.034
(対戦相手)30mライン進入0.033
クロス0.030
(対戦相手)シュート0.029
直接FK0.029
※ジニ係数は、分類上重要だったかどうかの指標のため、
 勝つことに正の相関があったことを意味するわけではないことに留意。
 つまり、「負けることを推測するために重要だったパラメータ」も値が大きくなる。

上記パラメータを用いた決定木の結果

%e3%82%b9%e3%82%af%e3%83%aa%e3%83%bc%e3%83%b3%e3%82%b7%e3%83%a7%e3%83%83%e3%83%88-2016-12-03-20-49-18

「パス数445未満だった場合」は、大体勝てております。
一方、「パス数が445以上のときも、枠内シュート数が5.5以上で、対戦相手のクリア数が26.5以下だった場合」、
も大体勝てている、ことなどがわかります。
つまり、マリノスは堅守をベースにした後方からのビルドアップ型のチームではあるのですが、
できるだけコンパクトに前線にボール運びをしてシュートにつなげる、ことが重要となります。
※逆に、なかなか前線につなげられず、後方でボール回しをさせられている展開の場合は、
 引き分け、ないしは負けになりがち。


ちなみにご参考までに、全チームの2016年度シーズンの
ランダムフォレストの結果は下記となります。

ランダムフォレストによる2016年度全チームの勝敗結果
勝敗推計精度:0.78
ジニ係数上位一覧(勝敗予測に重要なパラメータ)
パラメータジニ係数
枠内シュート0.100
(対戦相手)クリア0.081
クロス0.062
(対戦相手)枠内シュート0.053
パス0.050
(対戦相手)スプリント0.049
スローイン0.040
(対戦相手)スローイン0.038
(対戦相手)クロス0.037
ドリブル0.034
スプリント0.033
総走行距離0.032


さて、マリノスにとって、ランダムフォレストの重要度により、
「パスでのチャンスメイク」、「ビルドアップ」、あるいは、
「30mライン進入」「スプリント」「ドリブル」といった要因が、重要であることがわかりました。
そこで各選手の「Player Style指標」※が上位だった選手を抽出してみます。
「Player Style指標」とは、 各種データを、
 偏差値化、規格化し、20段階で評価したFootballLAB上の独自指標。
 (例:選手のある指標の偏差値が56だった場合、Rateは9、など)
※下記の各項目の説明は、FootballLAB内ページから抜粋・追記

パスチャンス力:パスからのシュートチャンス、アシストなどを総合したもの
playerパスチャンス力
齋藤学20
中村俊輔17
下平匠13
喜田拓也9
中町公祐8

ビルドアップ力:「キープ総数」と「20m以上のキープ数」を偏相関係数を用いて合成関数としたもの
playerビルドアップ力
齋藤学19
中村俊輔16
小林祐三14
中町公祐13
喜田拓也12

ドリブルチャンス力:ドリブルがシュートチャンスに結びついたかどうかを偏差値化したもの
playerドリブルチャンス力
齋藤学20
前田直輝14
中村俊輔12
マルティノス12
遠藤渓太10

どの項目でも、学が1位ですね。
また各項目で上位にランキングする、俊輔が負傷などで離脱したときの
オプションとなる選手が重要であることがわかります。
※天野選手はまだプレー時間が短く、数値には現れていませんが、今年の後半の成長は素晴らしいものでした。

ドリブルチャンス力のランキングが、今年加入の選手が多いことは
新しいチームスタイルとしての可能性を感じます。

一方、マリノス含む全チームのランダムフォレストの結果では、
勝敗に影響する要因として、「枠内シュート」がもっとも重要度が高くなりました。
そこで、「シュート力」「決定力」のマリノス内のランキングを見てみます。

シュート力:シュートそのものの数を偏差値化したもの
決定力:シュートにつながるようなプレー、およびシュート成功率からゴール指標との偏相関係数を合成関数としたもの
playerシュート力決定力
齋藤学195
遠藤渓太111
中村俊輔107
伊藤翔103
中町公祐1010

全体的にシュート力(シュート数)自体、もうすこし欲しいところですが、
決定力、がどの選手も低いことがわかります。
(リーグ全体の偏差値により1〜20で指数化ですので。)
特に1stステージ、遠藤選手は非常にポテンシャルを感じさせるプレーが多くてワクワクしましたが、
決定力が低い、というデータとなりました。来年は得点、得点につながるプレーを期待したいところです。
また、伊藤翔選手は前線の起点になっていることと、大事なところでスーパーなゴールを決めてくれる選手ですが、
やはりもう少しシュート力、決定力が欲しいところです。

そこで、最後は、現在のマリノスのチームに足りないのは、
どのようなタイプの選手か、をデータから考察してみます。


| (4) 全選手のプレー特徴の関係を機械学習で解析

さきほどは、マリノスの中での個々の選手データを見てみました。
一方で、他のチームの選手はどのようなデータになっているのでしょうか。

シンプルに、各指標のランキングなどで確認することも考えられますが、
知りたいことは、マリノスのチームに足りないタイプはどのような選手か、だったとしたときに、
各指標個々ではなく、全指標を総合的に考慮して、全選手のポジショニングマップを記述する方法があります。

それが、自己組織化マップ(Self Organizing Map:SOM)という機械学習手法です。

自己組織化マップとは、多次元の情報をもとに、
前情報なしに、類似しているものを自動的に近くにマッピングする手法となります。

まずは、分類したい、任意のユニット数(全選手をどの程度の粒度で分類したいか)を決めます。

%e3%82%b9%e3%82%af%e3%83%aa%e3%83%bc%e3%83%b3%e3%82%b7%e3%83%a7%e3%83%83%e3%83%88-2016-12-04-10-25-51

次にランダムに初期値を決めます。
※下記では、ユニット中の波は、多次元のパラメータを表す。
 わかりやすいように擬似的に色で表現。
 (似ているパラメータは、似ている色)

%e3%82%b9%e3%82%af%e3%83%aa%e3%83%bc%e3%83%b3%e3%82%b7%e3%83%a7%e3%83%83%e3%83%88-2016-12-04-10-26-30

各選手を、各ユニットの値(最初はランダムに決められている)が、
もっとも近いものを探して、マッピングする。

%e3%82%b9%e3%82%af%e3%83%aa%e3%83%bc%e3%83%b3%e3%82%b7%e3%83%a7%e3%83%83%e3%83%88-2016-12-04-10-30-10

マッピングした際に周辺値を入力値で上書きするとともに、
周辺も薄く上書きします。(距離に応じて上書きが決まる関数を定義)

%e3%82%b9%e3%82%af%e3%83%aa%e3%83%bc%e3%83%b3%e3%82%b7%e3%83%a7%e3%83%83%e3%83%88-2016-12-04-10-32-11

同様の作業を全選手分の入力値で繰り返します。

%e3%82%b9%e3%82%af%e3%83%aa%e3%83%bc%e3%83%b3%e3%82%b7%e3%83%a7%e3%83%83%e3%83%88-2016-12-04-10-34-39

すべての入力値をマッピングし終えたら、
それを初期値として、再度上記フローを任意の回数学習し直します。
すると、前情報を知らなくても、似たパラメータの情報(似た能力の選手)は
自ずと組織化(近くにマッピング)されていきます。

%e3%82%b9%e3%82%af%e3%83%aa%e3%83%bc%e3%83%b3%e3%82%b7%e3%83%a7%e3%83%83%e3%83%88-2016-12-04-10-37-07


本手法を適用するにあたり、まずは、全選手のデータを下記のような表(一部)にまとめます。
※ちなみに出場時間が短い選手は、データが取得できませんでした。
 そのため、ある程度の出場時間があった選手のデータ、となります。
※キーパーは上記パラメータで表現できないためか、データがなかったため、除外しております。

%e3%82%b9%e3%82%af%e3%83%aa%e3%83%bc%e3%83%b3%e3%82%b7%e3%83%a7%e3%83%83%e3%83%88-2016-12-04-10-49-00

上記のデータを自己組織化マップで解析した結果、
つまり、似たパラメータの選手が自動的に近く配置されたマップ、が下記となります。
※わかりやすいように、マリノスの選手名のみ赤字
※クリックで拡大

player_som

左のほうにディフェンスの選手が固まっております。
ディフェンス寄りの選手の中でも、左下はセンターバックタイプ、
左上はサイドバックタイプ、とうまく分離できております。
また、中央上に、司令塔タイプ、
右側がオフェンスタイプの選手が固まっているようです。


さて、今年のマリノスは右下にプロットされている、ドリブラータイプの選手は充実しているようです。
面白いのは、データ的には、伊藤翔選手は、マップの右上の方に固まっているセンターフォワードタイプではなく、
マップ右下にプロットされており、ウイングタイプの選手と分類されているようです。
マリノスではセンタフォワードとしての起用が多いですが、一度、ウイングとして起用してみると面白いかもしれません。

一方、右上のセンターフォワードタイプの選手がプロットされているゾーン、
分析前から、薄々感じてはいましたが、マリノスの選手は、いませんでした。
なんなら、学が一番センターフォワードとしての能力は近い、というデータです。

比較のために、浦和レッズ、川崎フロンターレの選手を赤字でハイライトしたものと比較してみましょう。
(1枚目が浦和レッズ、2枚目が川崎フロンターレ)

player_som2

player_som3

浦和レッズは興梠、李選手など全体的に右上の方のポジションが充実しているようです。
また、学と近いタイプ(つまりマップ上、近くにプロットされている)として、駒井選手が、
俊輔と近いタイプとして、柏木選手がプロットされております。
※もちろん賛否あるでしょうが、あくまでデータ上。

一方、川崎フロンターレでは、
マップ右上には、小林悠、大久保選手がプロットされております。
また、マップ全体に選手がプロットされており、非常にバランスが良いように見えます。
俊輔に似たタイプ(マップ中央上)として、中村憲剛がプロットされております。


以上、マリノスの自己組織化マップを見ると、
まずはマップ右上、つまりセンターフォワードタイプ、
次にマップ中央、つまり展開力のあるボランチタイプが集まるゾーンの空白、をいかに埋めるか、が重要そうです。
※マップ中央は喜田選手がプロットされているものの。
※感覚的には、中町選手が、もうちょっと右寄りにプロットされるかと思いましたが、あくまでデータ上、ということで。



以上、データで今年のマリノスを振り返ってまいりました。

今シーズンは順位的には振るわず、フラストレーションの溜まる試合展開が多かったことは事実です。
それでも、データでは、現れていないこと含めて、
印象に残ったことがいくつかありました。

・今季は怪我で出場が限られた中で、魅せてくれた俊輔選手のFK
・学選手のキャリアハイの2桁得点および日本代表復帰
・富樫、喜田、前田、天野、遠藤選手といった、若手の台頭。

特に天皇杯の対新潟戦の天野選手の直接FKゴールは、
サポーターの素晴らしいコールも含めて、感極まりました。

来年の横浜Fマリノスは、どのようなデータを生成してくれるでしょうか。



[マリノスに関する過去記事]
マリノスのゴールをポワソン分布でモデリングしAICで評価
横浜F・マリノスの2014年全ゴールをアトリビューション分析