さて9月も半ばですが皆様いかがお過ごしでしょうか。
どうしても夏の繁盛期直後となると、大会などが行われていないわけでもないのにどうしても物寂しい感じになってしまってテンションが下がり気味な日々です。
いやまぁそれ以外にいろいろこの年でエビアレルギーを発症したり色々なゲームのイベントに勤しんだりして忙しかったのもあるんですが。
まぁそれ以外にもちょっとスクレイピングで色々集計してみたもののちょっと難アリな結果が出たりしたのでそこで勝手にテンションが下がっていたというのもあります。
しかしそこは「まぁいいや」の精神で今回は新日本プロレスの観客動員・大会数についてです。
(スクレイピング集計について、はほぼ苦労話なので飛ばしてもらっても構いません)
スクレイピングによる集計について
新日本の観客動員・大会数についてはこれまでに何度かどころか毎月集計して報告していたのですが、そちらの場合は新日本プロレス公式サイトの試合結果に記載してある数値を集計していました。
そもそもこういった数値の集計を始めたのは大会の動員数・大会数は団体そのものの好調度合いを示す指標として各所で注目されている数値だからなんですけど、これまで用いてきたのは2012年以降のデータのみでした。
というのも公式サイトが今の形式になったのは2016年11月のことで、それ以降の試合結果とその当時の直近の試合結果については試合結果ページのフォーマットなどもかなり統一されています。
しかし調べていると年代をさかのぼるに連れて現在のフォーマットに合っていない、旧形式のデータを無理やり現形式に変換したページも出てくるんですよね。
簡単に言うと観客動員の欄に「~~人」となっているはずが「~~」になっていたりとかそういう。
自分の場合は現形式に合わせてスクレイピングを行っているためそういった例外が多発すると集計のプログラムもうまく動かないわけです。
その結果例外がほとんどなく集計することができる、自分の記憶にある期間という区切りもあって、2012年以降のデータのみを集計し、解析に用いている感じです。
それにデータとしても公式サイトには2006年の途中以降のデータしかなく、より長期間の解析を行いたくともできないのが現状だったんですよね。
そこで目を付けたのが、弊ブログでもたびたびお世話になっているCagematch。
Cagematchはドイツのプロレスファンが中心となって作成されたプロレスデータベースサイトで、世界各国のプロレス団体の大会日程、試合結果、レスラーの各種データなどもまとめられている、調べものをするには非常に便利なサイトなのです。
もちろんこのサイトには各大会の日程、場所、試合そして観客動員も載っているんですよね。
しかもこのサイトの場合、新日本以外にも多くの団体についてかなり昔のデータまでまとめられており、これによって多角的に解析ができる可能性があるわけです、
Cagematchと新日本公式サイト、集計結果比較
しかしながら、集計してみるとたまげたのはCagematchでの集計結果と新日本プロレスでの公式結果が結構食い違っていたこと。
上の二つの図は上がCagematchで調べたデータに基づく2012年~2017年の観客動員と大会数の推移、下の図が新日本プロレス公式サイトで調べたデータに基づく同推移です。
まぁ見てわかるように数値としても推移としてもかなり違っています。
大会数 | 2012 | 2013 | 2014 | 2015 | 2016 | 2017 |
公式 | 119 | 112 | 116 | 145 | 156 | 157 |
Cagematch | 78 | 84 | 114 | 155 | 132 | 151 |
動員 | 2012 | 2013 | 2014 | 2015 | 2016 | 2017 |
公式 | 281393 | 280797 | 331780 | 335626 | 317335 | 360333 |
Cagematch | 258757 | 214427 | 318665 | 454420 | 283775 | 330742 |
実際の数値が上の表、細かく見てみると2015年はなぜか本来の試合数よりもCagematchでのデータの方が10大会も多くなっているので何か集計ミスが起きている気がするんですが、そのほかの年については本来行われている大会よりも少ない大会数になっている、つまりCagematchがすべてのデータを網羅できているわけではない、ということが伺えます。
ここがある意味で今回の集計の一番の問題点で、有志によるデータベースである以上世界中のすべてのデータを網羅することが不可能であり、どうしても不正確なデータが得られてしまうということが起こりうるというか起きているという。
というわけでCagematchのデータに関しては公式による発表からそこそこのズレがある、ということを頭の隅に入れてみていかないといけないですね。
まぁそもそも2015年以前の公式の発表していた観衆も「実際に会場に来た人数」とのズレがあったわけで、いずれにしたって時代をさかのぼるほどにデータが不正確になるのはしょうがないんですけども。
2000-2017年の観客動員・大会数推移
そういうことを踏まえた上で見ていただくとして、上に示したのが現在集計できている新日本プロレスの2000年から2017年までの大会動員数及び大会数の推移になっています。
こうしてみると、2015年のピークがエラーのようなものだと仮定すると、観客動員としては2006-2008年に一度底の時代を迎え、その後徐々に動員数は上昇傾向にあるということが見えますね。
またそれに伴って大会数も2008年を底にして上昇傾向にあるのが見えます。
こういった傾向は以前調べた新日本プロレスの売り上げにも似たような傾向が見られましたね(2000年代後半が底で2012年以降上昇傾向に)。
必ずしも売り上げデータとぴったり一致していないのはCagematchのデータベースの問題と主催者発表の実態によるものと両方ありそうですが。
また、2000年代初頭の売り上げ的にもまだまだよかった頃でも結構データがばらついているのはやっぱり観衆のデータをすべて網羅できていないせいですかねぇ。
所感雑感
ということでいつもお世話になっているCagematchで調べてみたら案外あてにならなさそうだったゾ・・・という結果でした。
スクレイピングって本当にページのフォーマットに合わせたコードを書かないとなのでほぼ1から書いたんですけどそれで頑張った挙句にこういう結果とか嫌んなる。
まぁ一つの参考程度にということでこの記事でデータとプログラムの供養になればいいなぁと思ってます。
ちなみに、Cagematchでの集計で得られる恩恵として新日本でなく全日本やノアなどのデータも同様にして集計できるので今後他の団体について集計結果を紹介していこうと思います。
実際、上でも述べたように公式サイトのデータが一番信用できるんですけど、各団体のサイトがとてもじゃないけどスクレイピングできそうになかったための代替案だったんですけどね、その苦労話についてはまた次回。
きょうはこれまで、それでは。