ブログを用いた女性声優の結婚時期予測問題

@y_benjo
2012年は声優の結婚ラッシュだった。この記事が書かれている間にも伊藤静が結婚した。
伊藤静と言えばTo heart2タマ姉である。タマ姉たまんねえは伊藤静だったが故に生まれたと思っている。
話がそれたが、著者も述べている通りこんな下衆な研究は無い
着眼点としては、「女性声優のブログ記事には、何らかの形で結婚の予兆が現れる」と仮説を立てている。あるときまでに、いろいろな影響を受け、それがブログに文言として現れる。これを定量化し、モデル化した。
 
ある声優V_iが時刻t_jに書いたブログ記事をX_{i,j}とする。声優V_iが結婚を発表した時刻をt_mとして、X_{i,j}を入力として時刻t_jからどれくらい時間が経てば結婚を発表するのか、その期間y_{i,j}=t_m-t_jを予測する関数y_{i,j}=f(X_{i,j})を推定することを目指している。
つまり「声優V_iが時刻t_jから時刻y_{i,j}=t_m-t_j後に結婚する」予測をする。
 
今回行わなかった解析として、2つ挙げてある。
時刻t_jの記事X_{i,j}と時刻t_{j+1}の記事X_{i,j+1}を用いて、この間に結婚したかしていないかのステータスが変化するかを考える。
しかし、このアプローチでは、現時点で結婚していない声優が「将来いつ結婚するのか」が予測できないために断念したらしい。(何言ってんだこいつ…)的で私にはまだ理解が及んでいないが、未婚声優が書いた直近最後の記事X_{i, latest}から結婚までの期間、上で言うところのy_{i,j}=t_m-t_jが求まらないのだろうか。よくわからん。
もうひとつは共演関係を用いたネットワークである。筆者はかつてアニメにおける共演関係を用いた声優のブレイク推定を行った経験を活かそうと考えていたが、結婚声優が少なかったため今回は見送った(解析111人中11人が既婚)。
 
予測に用いた手法としては、線形回帰、LASSO、決定木、Random ForestGradient Boosting TreesSport Vector RegressionSingular Value Decompositionなどを使用している。
疎行列というのも初めて聞いた。
 
結果としては12.3ヶ月の誤差で結婚予測を行うことに成功した。学習誤差について述べてあるが、20ヶ月以前では予測値は実際の値を上回っており、結婚1年以内の予測は難しいと述べている。直感的にもまだまだ難しいと思う。
声優の年齢についての言及だが、年齢が結婚に及ぼす影響はそれはそれはとてもとても大きいだろう。例えば木戸衣吹(14歳)(解析には入っていないようだが)が、仮に本解析の最大値35ヶ月で結婚とかもうオレは発狂しそうだ。そもそも結婚しないというパターンはどうなのだろうか。
個人的には茅野愛衣が入っていなかったのでほっとしたものの、内田真礼が17.45ヶ月(2014年4月予測)、堀江由衣が16.06ヶ月(2014年3月予測)という記述を目にしたときは爆発寸前のユピーのごとく発狂した。
豊崎愛生が12.43ヶ月(2013年11月予測)、戸松遥が15.67ヶ月(2014年2月予測)とかはありそうでなんか怖い。