読者です 読者をやめる 読者になる 読者になる

予測方法について

概要

本記事は、『アイドルマスターシンデレラガールズ スターライトステージ』(以下デレステとする)のイベントの順位ボーダーを、ベイズ統計を用いて推測する方法について述べたものです。

ベイズ推定の詳細については省きます。近年では松浦健太郎『StanとRでベイズ統計モデリング』のような優れた手引きによって学習・実装が容易になりました。なお、筆者はベイズ統計を学び始めたばかりで、下記のモデルもきわめて素朴なものですので、よりよいモデリングができる方からの助言を歓迎いたします。

さて、デレステのイベントボーダーの予測については、ボーダー予報士の楓さんデレステイベントボーダー予想(手動)など、すでにいくつかのアカウントにおいて、ユーザーによる高い精度での予想が行われています。にもかかわらず、なぜ新たに別の手法によるボーダー予想が提案されるのでしょうか。

ベイズ統計の利点

ベイズ統計をもちいてイベントのボーダーを推測することには、以下のような利点があります。

過去のイベントのデータを体系的に利用できる

上に挙げたアカウントに代表される既存のボーダー予測も、過去のイベントの傾向を踏まえて予測を行っていると思われます。 イベント期間が長ければボーダーは高くなるのは当然として、たとえば報酬がクール属性のアイドルだと激戦になるといったことは、多くのプロデューサーが経験知としてもっている知識だと思われます。 統計学をもちいることによって、過去のイベントデータを経験知の水準を越えて体系的に扱うことができるようになります。

イベント開始時点で推定が完了する

既存のボーダー予測は、リアルタイムにボーダーの推移を確認し、ボーダー予想に反映させているものと思われます。 こうした方法は、実際のイベントの動向を逐一観察しながらおこなわれるので、自ずと精確な予想が可能になる反面、中の人の副業が炎上したり、中の人の担当が報酬になったりといった場合、ボーダーの予測が難しくなるリスクを抱えています。

これに対し、既存のデータからモデルを構築し、新しいイベントのデータを当てはめて予測するという方法では、イベントの開始時点で最終的な予測をすることができます。もちろん、この手法では実際にイベントが始まってからの勢いは予測に反映されません。そのため、あくまで統計学による予測はイベント開始時点の目安として利用されることをおすすめします。

以上の統計学自体の有用性に加えて、とりわけベイズ統計を用いることには、以下のような利点があります(ここでは、とくにデレステのイベントボーダーを予測するに当たっての利点のみを述べます)。

ボーダーと共に安全圏の推定が可能になる

たとえば、2000位ボーダーが90000ポイントと予想されたとき、91000ポイントは安全圏でしょうか、それとも危険域でしょうか。もし91000ポイントが危ないとしたら、92000ポイントではどうでしょうか。 ベイズ推定では、MCMCサンプルを用いることにより、予測されたボーダーの平均値のみならず、パーセンタイル点を算出することができます。これにより、「80%の確率で2000位以上に入れるポイント」などを算出することができます。

分析

ここでは例として、2000位ボーダーの推測方法を述べます。

従属変数

  • {Y}:これまでのイベントの2000位のポイント。

独立変数

  • {v_1}:イベント期間(単位:時間)
  • {v_2}:イベント期間中の休祝日数*1(単位:日)
  • {v_3}:ログインボーナスの合計*2
  • {v_4}:2016年12月以降ダミー*3
  • {v_5}:順位報酬アイドルの属性(パッションを参照カテゴリとするダミー変数)
  • {v_6}:直近の総選挙における順位報酬アイドルの順位*4(対数化)

モデリング

 \displaystyle {μ = a + \sum_{i=1}^{6} b_iv_i }としたとき、{Y}正規分布{N(μ, σ)}に従うとします。定数 {a}および係数 {b_i}は無情報一様分布、母標準偏差 {σ}は非負の一様分布に従うとします。分析には rstan(ver.2.10)を用いました。長さ 2000(うちウォームアップ期間は 1000)のチェインを 4 本発生させ、HMC 法によって得られた4000個の乱数で事後分布を近似させます。

得られたMCMCサンプルに予想したいイベントの{v_i}を代入し、{Y}の分布を得ます。点推定にはMCMCサンプルの平均値、80パーセンタイル点、95パーセンタイル点を用います。これらはそれぞれ、ボーダーの予測値、80%の確率でボーダーを越えるポイント、95%の確率でボーダーを越えるポイントを意味します。

同様の計算を、10000位、20000万位、2枚取り(50000位→60000位)、1枚取り(100000位→120000位)のポイントのそれぞれについて行います*5

免責事項

ここで予測するボーダーを利用することによって生じるいかなる不利益に対しても責任を持ちません。余裕をもって走りましょう。

*1:12月30日〜1月3日はカレンダー上で平日でも休日扱い。

*2:アタポン形式の場合は配布アイテム数の合計、Groove形式の場合は配布ドリンクで回復するスタミナ値の合計。

*3:この時期以降、ポイントにより上位報酬が獲得可能になるとともに、2000位以上でスターランク15が達成可能になりました。また同時期にマニーショップが実装されました。これらの効果をダミー変数に吸収させます。

*4:圏外は51位として計算。独立変数に天井効果がある場合の推定方法についてご存じの方はご教示ください。

*5:おそらくはユーザー数の増加によって、「咲いてJewel」以降のイベントでは報酬枠が緩和されました。異なる順位のボーダーをひとつの変数として扱うことの妥当性には議論の余地がありますが、順位報酬の2枚取り・1枚取り可能枠という意味での質的な一貫性、またサンプルサイズの確保の観点に鑑み、ここではひとつの変数として扱っています。