Entry

TPAMI とか読んでて最近の認識技術関連の話とか

2010年04月26日

IEEE にはパタン認識と人工知能関連の分科会(というのか?)があって,加入すると毎月 TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE(IEEE TPAMI とか略されてる)という論文誌が届きます。で,この頃は,仕事で否応なくこの手の話題についていかなくちゃいけないのと,論文それ自体が面白いこともあって,毎月まじめにシコシコ読んでいたりする。

ま,そんなこともあって,この頃の認識関連技術の傾向というか,みんなの目が向いている方向を,個人的なまとめがてらザックリと書き出してみます。多分,こんな感じになるんだと思う。

  • なにかっつーと顔認識や動画解析(移動体検出とか)の話。
  • OCR のような文字認識関連はやや下火。
  • OCR 周りは,スキャナで撮った二値画像を対象にするものもまだあるが,デジカメで撮影した文書画像を前提にするものも多い。
  • パタン認識では,全般的に画素を逐一追っかけて云々するような古典的な方法は,ほとんどまったく行われていない。主流の手法は統計的な処理を施すもの。

要するに,「統計的」に「動画」を解析するもんが(それなりに)主要な位置にありそうだ,と。ま,TPAMI に限らず,OpenCV の関数なんかを見ても,そこら辺にみんなの目先が向いているのは分かるんじゃないかと思います。この頃は,地味に AR(Artificial Reality; 人工現実感)の分野も盛り上がっているし,おそらくこの分野は今後認識関連分野のスタンダードになるんだろうな,とも。

一方,あたしゃ動画はあまり興味がない(というか,手に負えないところがある)もんで敬遠してるんですけれど,静止画(特に文書画像)に限っても統計的な手法はよく使われています。OCR では,前処理に必ずノイズを除去したり,裏写りした文字を除去したりする過程があったりします。これ,これまでの方法は,膨張処理と収縮処理を使ったり,メディアンフィルタやガウシアンフィルタを使って,取り除く方法が主流でした。多分,現在市販されている OCR ソフトも,この手のノイズ対策が入っているはず。簡単で分かりやすいし,実装も楽。

他方で,最近読んだ話の中では,HMM(Hidden Markov Model; 隠れマルコフモデル)を適用して,当該ピクセルがノイズ成分にあたるのか文書の要素を構成するピクセルに当たるのか当てちゃおう,みたいな試みもあるみたい。それなりに結果も出ているようで,単純にすげえなと思う(論文の experimental result は,大抵底上げなので,何割か差っぴいて読むもんなんだろうけど)。HMM のような時系列解析は,音声認識のような1次元のデータで実用化されているけれども,2次元以上のデータで適用する場面は,あまり見つかっていないような印象があります。てなことで,こゆ分野もそれなりに開けている分野なんだけれども,あまりみんな目を向けてはいないみたい。

ま,向けてなかったらなんだって話でもないんですけどね。ただそれだけ。

Trackback
Trackback URL:
Ads
About
Search This Site
Ads
Categories
Recent Entries
Log Archive
Syndicate This Site
Info.
クリエイティブ・コモンズ・ライセンス
Movable Type 3.36
Valid XHTML 1.1!
Valid CSS!
ブログタイムズ

© 2003-2012 AIAN