Entry

今読んでる本 - 『統計的パターン認識入門』

2009年12月07日

まだ,「入門」の域を抜き出きれないベイズ識別系なんですが。これはいい感じです。

統計的パターン認識入門
浜本 義彦
森北出版
売り上げランキング: 225478

近頃,統計的なパターン認識と機械学習(pattern recognition and machine learning)の分野が,随分とよく使われるようになりました。例えば,迷惑メールフィルタや,画像/音声解析,病理診断なんかにも使われています。この分野は歴史が浅いものの,すでに情報処理工学の中で,ひとつのジャンルを形成していると言ってもいいんだと思います。

で,そういうこともあって,巷にはいろいろと解説書があります。例えば,あたしがいまだに手を焼いている,『パターン認識と機械学習』とか。

パターン認識と機械学習 上 - ベイズ理論による統計的予測
C. M. ビショップ
シュプリンガー・ジャパン株式会社
売り上げランキング: 10924
おすすめ度の平均: 3.5
2 オリジナルに劣る...
5 機械学習の新・定番教科書,待望の邦訳!

しかし,これは正直難しい。また,基本的に理論の説明なので,識別器の設計/実装を踏まえた記述になっていません。これはこれでそういうもんなんだけれども,あくまでモノを作れるようになるためには,他書で補う必要があります。

ということで,読み始めているのが『統計的パターン認識入門』です。

パターン認識は一般に,サンプルから特徴量を抜き出して,その統計量を元にサンプルを特定のパターン(クラス)に振り分ける一連の処理のことを言います。その中でも特に重要な処理が,特徴抽出系と識別系。

本書は,識別系と特徴抽出系をそれぞれ詳しく説明しています。例えば,識別系については,ベイズ識別則をあくまでも基本に置きながら,必ずこの規則に戻る形で説明されます。少し詳しい書籍になると,詳しすぎて,どこを議論した話をしているのか分からなくなることもあるけれども,本書でそういうことはありません。また,ベイズ識別器は,説明するに当たって未知のパラメータと既知のパラメータがコロコロと変わることがあります。本当は μ や Σ は未知なんだけれど,ここでは既知として扱うとかいった具合に。本書では,この点を明示しているので,何を求めることが目標なのかが分かりやすい。

また,実データを扱う際に問題となる諸点について配慮されているところもいい。特に,高次元の特徴ベクトルを扱う識別器について,サンプル数が少ないのは,どのような場面でも直面する問題なわけですけれど,実際的で効果的な手法を紹介している点は,特筆すべきだと思います。

全体の分量は100ページに満たないものなので,読む分にはさっと読めてしまいます。その代わり,p(x|C) の分布はガウス分布で決め打ちだし,ノンパラメトリックな推定も軽く触れられているだけです。また,μ や Σ の推定手法のバリエーションも少ない。けど,ベイズ識別系の全体像をつかむには,必要にして十分な内容と分量だと思います。難しい本はいくらでもあるので,その先の議論に困ることはないはず。参考文献も豊富です。

前掲『パターン認識と機械学習』では,第4章「線形識別モデル」あたりに相当する内容。本書を通じて『パターン認識……』の見通しもかなり良くなった感じがします。おすすめ。

Trackback
Trackback URL:
Ads
About
Search This Site
Ads
Categories
Recent Entries
Log Archive
Syndicate This Site
Info.
クリエイティブ・コモンズ・ライセンス
Movable Type 3.36
Valid XHTML 1.1!
Valid CSS!
ブログタイムズ

© 2003-2012 AIAN