Wikipediaの声優PVデータ特性とブレイク判定手法

@kkobayashi
元ネタはこちら解析に用いたデータとスクリプトもある。
ブレイク判定として低PV数(定常状態だろう)から高PV数への変化として考える。しかし、同じ2000PV増加という値でも、もともと知名度が低かった声優が0→2000とPVを増やすのと、知名度が高かった声優が6000→8000とPVを増やすのとでは意味が違うとし、パーセンタイルでの推移を考えている。月次で見たPV数は2000以下が95%以上を占めているようで、元が小さいPVから増えるほうが若干ブレイク判定されやすい感じ。なので後で重み付けを行なっている。
(x,y)は推移を表している。ブレイク判定手法としては、
 
1. 基準線y=xからの距離の総和
2. 存在確率
3. 原点からの距離の分散
 
を考えている。
結果としては1と3で茅野愛衣が1位にきたのでもうこれでいいよ。
ブレイク判定は異常点検出に通じるから、PVデータみたいな定点観測データを用いた臨床的になんか嫌なイベントを検出するなんかを作りたいと思いながら保留。