Entry

多項ロジットモデルと k-NN の合わせ技メモ

2012年04月23日

多項ロジットモデル(Multinomial Logit model)と k-NN で手書き文字認識をしている論文をぼちぼちと読んでいたのでメモ(参照:多項ロジットモデルとK-最近傍法によるパターン認識[PDF])。論文では,多項ロジットモデルを MLM と略しているようだけれども,一般的には MNL と略すのが普通みたい。

一応読んでみて,実装に移ろうかと思ったんだけれども,ちょっと補完する必要があるみたい。

まず,本稿では文字の幾何特徴として4方向特徴を採用しているんだけれども,これは一般的にいわゆるものとは違うようで,なぜか縦横方向の特徴が2枚ずつ使われています。通常,4方向特徴というと,Gabor フィルタを簡易的に実現したもので,縦横方向と斜め方向の2つを合わせて使われます。これはどういう意図があったんだろう。同じ特徴なら,いくらあっても同じだと直感的には思うんだけれども。

あと,式(1)(2)なんだけれども,分母の exp(ηk) は exp(ηm) なんだろうな,きっと。

多項ロジットモデルは,ロジスティック回帰モデルの一種です。ロジスティック回帰では,ベルヌーイ試行がお題になることが多いけれども,それを多項版に拡張したもの。連続値から離散値の確率分布(正確には対数オッズ)を推定することになります。なんで対数オッズにするのかというと,それは単に確率だと0.0から1.0の間しか値を取れなくて不都合だから,というだけなんだけれども。

MNL はちょうどニューラルネットワークの構造を取っていて,学習結果を反映した出力は,そのまま MNL の確率分布として利用できます。もっとも,本稿で面白いのは,この確率分布をそのまま特徴ベクトルとして捉えなおして,k-NN で分類しているところ。k-NN の分類性能は,ベイズエラーの高々2倍なので,精度も期待できます。

もっとも,実際の実装となると,k-NN ならではの困りどころがある。

まず,分類するクラスの数だけれども,これはそのまま k-NN における次元数に相当するので,場合によってはかなりシビアな制限になる。例えば JIS 第二水準までの手書き文字を分類する場合,これは 6000文字以上あるので,6000次元以上の特徴ベクトルになる。使いどころを結構選びそう。

あとはご存知の通り,k-NN は分類結果を全て使うので,あまり大きな規模の分類器には使えない。数字や英文字の認識くらいなら,手頃に実装できるのかも。

ともあれ,MNL を特徴ベクトルとして考えるアイデアは面白いと思う。教師ありでなく,これを元に SOM とかにかけてみたらどうだろう,とかとか。

Trackback
Trackback URL:
Ads
About
Search This Site
Ads
Categories
Recent Entries
Log Archive
Syndicate This Site
Info.
クリエイティブ・コモンズ・ライセンス
Movable Type 3.36
Valid XHTML 1.1!
Valid CSS!
ブログタイムズ

© 2003-2012 AIAN