各種数値で見るネットプロレス大賞2019：複合解析編

ネットプロレス大賞2019について、各部門ごとに解析を続けてきたわけですが前回の興行部門の解析についてまさかDDTの高木大社長が反応する*1とは思わずビックリした昨今です。
実際に長年興行を企画している側の人でも「興行は難しい」という話なのでなんとも信ぴょう性がある情報だったんですが、そうであるが故に「良い興行」の条件についてなんらかの推測を出すことは数字系ブログの使命なのではと思った次第です。

そういうこともあって今回は主に最優秀興行部門についてこれまで紹介したネットプロレス大賞に関するデータに限らず私が持っているデータも活用して「良い興行」の条件を探索していきたいと思います。

ネットプロレス大賞2019その他の解析：
各種数値で見るネットプロレス大賞2019：最優秀団体編
 各種数値で見るネットプロレス大賞2019：MVP編
 各種数値で見るネットプロレス大賞2019：最優秀試合編

過去解析
ネット・プロレス大賞2018各部門で振り返る2018年の日本プロレス界
 ネットプロレス大賞・団体部門で振り返る2017年のプロレス界

集計したもの
単回帰分析
重回帰分析
所感雑感

集計したもの

集計したものは勿論ネットプロレス大賞の結果、なんですが詳しい解析を行うために各年の全投票者リスト*2を自前でスクレイピングで集計して、そのデータをもとに解析しています。
その際に各年でフォーマットが違うこともあったり、スクレイピングにミスもあるのかして弊ブログでの集計結果とブラックアイさんでの集計結果に誤差(数%ぐらいのはず)がある場合がありますのであくまで参考までにお願いします。

今回はここに加えて、2019年中に集計してきた各団体のハッシュタグにおけるツイッターの数値(ツイート数、リツイート数、ユーザー数)及び、Webスクレイピングで収集した各興行の動員データも用いて複合的に解析を行います。

以下で用いるデータは興行部門の得点(Event_point)、同興行で行われた試合の試合部門での総得点(Bout_total)とノミネート数(Bout_count)、同興行を行った団体の団体部門でのポイント(prom_point)、その興行の動員(Attendance)、同日の団体ハッシュタグでのツイート数(nonRT)リツイート数(RT)ユーザー数(user)になります。
また集計して用いたハッシュタグ#njpw、#ajpw、#noah_ghc、#bjw、#ddtpro、#dragongate、#w_1の７つになっています。
なので必然的にこれらの団体以外のデータは以下のTwitterデータを絡めた解析で除外されてしまっているのでご注意ください。

単回帰分析

まず初めに上述したデータについて単回帰分析を行いました。
回帰分析は説明関数(興行の動員やツイート数、試合部門での総得点など)が被説明関数(ここでは興行部門でのポイント数)にどのくらい影響を与えているのかを調べるものですね。
単回帰分析では被説明関数を一つ選び、そのデータに関して(被説明関数)＝A×(説明関数)＋Bの式に当てはめた時に最も近いAとBの値を求めます。
Aが＋なら二つの関数には正の相関が、-なら負の相関が存在することになり、Bは説明関数が0だった時にも存在する説明関数に全く関係ない数値ですね。

またその近似による予測値と実際のデータの間の誤差を示す数値として決定係数R2(以下ではRと記載)があります。
Rは1に近いほど誤差が少なく、0に近づくほど誤差が大きいことになりますが、目安としてRが0.6以下では誤差が大きすぎで予測には使えない、0.6~0.8ではある程度の精度での予測・予想が可能、0.8以上ではかなり良い予測ができる、といったような判断ができるようです*3。

以下では各データのプロットと近似直線をそれぞれの組み合わせで示していきます。

f:id:Rodyonsw:20200126170938p:plain

各説明関数に関しての単回帰分析の結果のまとめが上の7つの図になります。
各図では縦軸を興行部門の数値・横軸を各説明変数の数値にとって各興行のデータをプロット(〇)し、単回帰分析で求めたy=Ax+Bの近似線を点線で示しています。
まず初めにどの結果についても、その度合いこそ違えど推測されたAの値は＋で、各パラメータが増加すれば興行部門での数値も増加する関係が推測されていることが分かります。
とはいえその精度を表すRはパラメータによってばらばらで、ものによっては全くモデルとして成立しないものからなんとか成立いているものまでありますね。

最も低かったのが団体部門のポイント(prom_point)でR=0.2321、つまりは「団体部門の評価からは興行部門の評価は予測できない」ということになります。
まぁどんな団体においても興行に当たり外れがあると考えればこれは道理ですかね。

次いで低かったのが試合部門でのノミネート数(Bout_count)でR=0.4694、これに関しては前回「良い試合の量よりも質が影響してるんでは？」としていましたね。

次は興行日にハッシュタグでツイートしたユーザー数(user)でR=0.5616。
これに関しては個人的には少し意外で、「Twitter上で多くの人が話題にしている＝多くの人の記憶に残る＝いい興行」ではないかと考えていたんですよね。
投票が”ネット”プロレス大賞で投票者の多くもTwitterユーザーというのもあってそう考えていたんですけど、そうでもないのが現状のようです。

ここまではRの数値が0.6以下であり、そのパラメータからは興行の評価を予想できていないといえますね。
そしてここ以降のパラメータはRが0.6以上、つまり興行の評価の予想にある程度役立つパラメータと言えます。

まず初めが興行の動員(Attendance)でR=0.6283。
これに関しては「動員が多い＝観た人が多い＝票が集まる」という仮定から導入しましたが、またここ数年の興行部門の1位が年間でも最多動員になる1.4東京ドームが連続受賞していた辺り、動員が結構影響を及ぼしているんではないかと思った次第です。
実際私も今年の興行部門では自分が見に行った興行(1.4ドームと関本エルガン戦のあった大日本)に投票してたので、やはり現地観戦の印象は強く残るんじゃないかなぁと。
また「Twitterでのユーザー数」～「ネット観戦者数」と考えるとネットでの観戦はあまり興行部門での数値に直結しない一方で現地観戦は影響しうる、というネットと現地の観戦の影響の違いがうかがえますね。

続いてはTwitter上のリツイート数でR=0.6475、同じくツイート数もR=0.6645となりました。
先日記事に関しての感想でブラックアイさんが「興行部門に関しては試合以外のイベントも影響してるんでは？」ということ*4をおっしゃってて、確かになぁと思ってたんですが、
リツイート数やツイート数は、試合は勿論それ以外に関する場面でも数値が伸びる事象があることはこれまでのツイート解析から判明しているので、この数値はこれを反映している可能性が有りますね。

そして最も決定係数が高かったのは試合部門での総得点(Bout_total)でR=0.7778。
「必ずしもいい試合＝いい興行ではない」とは言いますが単回帰分析的にはいろんなパラメータの中でも最もよく興行部門の数値を説明しているようですね。
またツイートや動員といった別の集計から引っ張ってきた数値と違い、同じネットプロレス大賞の投票結果から得られた数字のため相関が良いという可能性もあるかもしれません。

というわけで単体のパラメータからの予測でいうと最も性能が良いのは試合部門での得点の合計、次いでTwitter上でのツイート・リツイート数ということのようです。
とはいえ流石に一つのパラメータによる単回帰分析では「よく予想できている」の指標であるR＞0.8は達成できていないのでやはり一つのパラメータではうまく説明できない、というのが実情のようですね。

重回帰分析

これを踏まえて、上に挙げたパラメータをすべて使った回帰分析、重回帰分析もしてみます。
単回帰分析がy=Ax+Bの形だとしたら重回帰分析はy=Ax+Bz+Cw+・・・という多項式として近似するものですね。

重回帰分析の場合は、各パラメータの数値の桁が異なるとうまくいかない場合が多いので正規化が必要になるのですが、
今回は各説明関数の数値について「最も大きい数値を100とした場合の割合」を(パラメータ)％として改めて計算し重回帰分析を行いました。
また被説明関数は「各年の票占有率」を用いて解析しています。

f:id:Rodyonsw:20200126170946p:plain

重回帰分析を行った結果得られた各パラメータの係数をまとめたのが上の表で、これらの係数を用いた場合のRは0.8216とかなりモデルとして精度が良いようです。

その詳しい内訳をみると、大きく正の影響を与えるのは動員(Attendance)と試合部門の総得点(Bout_total)の二つ、そしてそれに準ずるのがTwitterでのリツイート数(RT)となりました。
つまりは「動員が多く」、「ベストバウトとしての評価が高い試合が含まれている」さらに「多くリツイートされるような出来事が起きた」ことが良い興行として評価されるということですね。
よく考えてみれば当たり前じゃんという感じもしますけどそれを数値的に証明できたということでもあります。

一方で逆に係数が負、つまりネガティブな影響を与える要素とみられるのが団体部門の得点(prom_point)、ツイート数(nonRT)、そしてTwitterでのユーザー数(user)の3つ。
特にTwitter関係の数値二つについては興行の盛り上がりを意味する数値だと認識していたので意外ではありますが、逆に「Twitter上で盛り上がった興行は評価が低い」ということかもしれません、”ネット”プロレス大賞なのになぜ・・・
まぁTwitterで実況している(試合中にツイートしている)層とネットプロレス大賞に投票している層が全く異なるということかもしれませんが。
そして団体部門での評価もネガティブな結果になっているようですが、「所謂良い団体の良い興行」よりも「ちょっと落ち目の団体の良い興行」の方が評価に良いバイアスがかかるということでもあり、その辺は判官びいきが働いているかもしれません。
団体部門の評価では新日本がダントツで他の団体が結構団子状態なのを考えると「新日本に関してデバフが掛かっている」というだけかもしれませんが。

所感雑感

というわけで久々の重回帰分析でした、2018年のBOSJとかG1での優勝者予想で使って以来ですね、その時と比べると多少使い方が分かった感がある。
とはいえ一般のファンにはマニアックに過ぎ、一方で統計を専門にしてる人には雑に過ぎる結果だとは思うんですが、まぁ参考までにっていうことで許してほしい。
まぁ今回は数値的に「良い興行」の条件を探ってみたわけですが、今回「良い興行」の指標として使ったネットプロレス大賞の興行部門の数値も果たしてどういう理由と条件で選ばれたのかわからないんですけどね、勿論今回見つけた条件と全く違う条件が世間一般の「良い興行」の条件である可能性もあるわけで。
とはいえこれで一つの可能性は示したのではないか、と思うと私は満足です。

とりあえず本解析でネットプロレス大賞2019の解析はひとまず終了の予定ですが、改めて毎年ファン主催では最大級と言える投票を開催し、集計し、公表してくださるブラックアイさんはじめ実行委員会(？)の方々に感謝します。
高木大社長に関してはマジでたまげましたけど、それ以外にも多くの反響をもらえて解析屋冥利に尽きます。
また次回も楽しみにしています、また次回の解析も楽しみにしていてください(ブロガー引退してなければ多分やります)

きょうはこれまで、それでは