VARで本当にPKが多くなっているのか

MikuHatsune2018-07-03

ロシアW杯でVAR が導入されたことにより、PK の数が多いような印象である。実際、予選リーグの時点で過去最高だとか、いろいろ言われている。毎日新聞によると
https://mainichi.jp/articles/20180703/ddm/035/050/161000c

VARは、得点▽PK▽レッドカード▽警告などの選手間違い−−の4項目に関わるものに適用されるが、1次リーグではPKに関わるものが最も多かった。VARによりPKが認められたケースは7件で、PK回数は24件。逆に、VARによってPKが取り消されたケースは2件あった。

 1大会で実施されたPKの最多記録18(1990年イタリア、98年フランス、2002年日韓大会)を既に更新している。このほか、レッドカードの扱いが覆ったケースが2件あった。

ということである。
しかし、PK というのは1試合中にそうそう起こることではないので、単純にポアソン分布に従うと考えられる。とすると、ポアソン分布の平均は\lambda で、分散も\lambda であるので、いままでの平均を超えたからと言ってそんなに簡単に分布の裾にならないのである。
というわけでデータを取ってみる。RSSSF というサイトに2014から1930年大会の試合記録があって、そこにはPKでの得点だけではなく、PKの失敗(外した、セーブした)まで残っている。これを一生懸命見てみると、こんな感じのデータになる(ポアソン分布での解析をしたかったので、1試合中に複数回PKがあった場合も調べた)。
836試合で218回のPK があったようである。

year goal nogoal match pk2 pk3
2014 12 1 64 0 0
2010 9 6 64 1 0
2006 16 0 64 0 0
2002 13 5 64 1 0
1998 17 1 64 0 0
1994 15 0 52 0 0
1990 13 5 52 2 0
1986 12 4 52 1 0
1982 8 3 52 0 0
1978 12 2 38 0 0
1974 6 2 38 0 0
1970 5 0 32 0 0
1966 8 0 32 0 0
1962 8 1 32 0 0
1958 7 3 35 0 0
1954 7 1 26 0 0
1950 3 0 22 0 0
1938 3 2 18 0 0
1934 3 1 17 1 0
1930 1 3 18 0 1

 
さて、単純に、予選リーグ48試合で24回のPKがあったようなので、

poisson.test(c(24, sum(s1)), c(48, sum(s2)), alternative="greater")
	Comparison of Poisson rates

data:  c(24, sum(s1)) time base: c(48, sum(s2))
count1 = 24, expected count1 = 13.14, p-value = 0.003486
alternative hypothesis: true rate ratio is greater than 1
95 percent confidence interval:
 1.297443      Inf
sample estimates:
rate ratio 
  1.917431 

確かにPK は多いようである。
64試合すべて消化するまでに、何回PKがあれば有意に多そうだ、と言えるかというと、25回あると0.05 を下回る。
VAR によりPK が認められたのは予選リーグ48試合までで7回あるので、7回の上乗せ効果はやはりPK の回数増加に寄与してそうな感じはある。

g <- 0:40
pv <- mapply(function(z) poisson.test(c(z, sum(s1)), c(64, sum(s2)), alternative="greater")$p.value, g)

plot(g, pv, type="o", pch=15, xlab="1大会64試合中のPK回数", ylab="p value", lwd=3)
abline(h=0.05, lty=3)