個のサンプルがある教育用データセット
があって、これらはすべて正常のクラスをもつとする(半教師有り学習)。
各は決まった長さ個の特徴量を持っていて、名義変数か連続変数の属性があって、混合していてもいい。
やりたいことは、引数ベクトルをひとつの実数値に対応させる関数を作ることである。
いま、を、番目のターゲットを予測する予測セットとする。つまり、
(が抜けている)
個のモデルがある。回帰またはクラス分けをする予測モデルを学習する。つまり、
モデルの特徴量を結合させるらしい。テストデータのすべてのエラーは
(距離は尺度か連続かに応じて計算する)
となる。
ここで、surprisalなるものを導入するらしい。
を計算するために、を交差検証を用いて評価する。
番目の特徴量が尺度なら
連続なら
最後に、ひたすら surprisal anomaly scoreを計算する。
しかし、このsurprisal anomaly scoreいうのは、エントロピーが大きいような分布(様々な値をとりうるような)で大きくなる傾向があるらしい。なので、
で補正する。
結局、が欠損値のときは0扱いする、とすれば、anomaly scoreは
となる。