Entry

プログラミングメモ - 認識処理関連の基本的なアプローチについて

2010年06月25日

画像中にあるオブジェクトを認識する場合,例えば,OCR だったら文字やレイアウト要素を認識するわけだけれども,人間がこゆコトをやる場合,実際にどのような過程を踏んでいるのか考えることは,それなりに有益だったりします。

もちろん,人間の頭の作りは,器質的にそもそも現在のコンピュータと異なるそうなので,人間のアタマの作りをそのままコンピュータでエミュレートしても,あまり意味がないのだとは思います。ただ,「認識」という作用についてのみ注目するならば,人間がやっていることをヒントにするのは,いいのかもしれない。こゆのは,ナチュラルコンピュテーションとかいう分野で研究されているようで,あたしゃ以下の本をちと読んでいました。

視覚の生物計算理論 (ナチュラルコンピュテーション)
視覚の生物計算理論
posted with amazlet at 10.06.25

パーソナルメディア
売り上げランキング: 766242

ま,上の本は「読んだよ」という以上の話はできないわけですが(難しくて)。

ともあれ,なんつか,感覚的に認識の問題というのは,y = Ax のような写像(※線形・非線形を問わず)の問題に解消できるような気がしています。ここでAは,SVM におけるそれのような特徴空間への写像も含んでいるんだけれども,つまるところ言いたいのは,人間にとって「この線分」とか「この文字領域」とか「この図領域」とかいった,意味とデータの混合物の存在形式は,ピクセル形式で表現される輝度の集合としてではないんではねいか,と。ピクセルの集合から,何かしらの変換を通じて得られる当のベクトルなんだろうな,と。人間は,この変換を一瞬で行って,そのベクトルから必要な「意味」とそれに伴うデータ(具体的な位置や色のような情報)を取り出している……ような気がする。これを特徴ベクトルと呼ぶのは自由なんだけれども,SVM のようにクラス分類や回帰のためだけに使われるものではない,という意味でもう少し広い意味を想定しています。

OCR なんかでは,もちろん文字の認識も行うわけだけれども,それに付随するレイアウトの情報も認識する必要があります。このとき,ベタなやり方だと,ちまちまとピクセルの数を数えて,微妙な閾値を設定して,認識処理を行うことになります。しかし,あたしゃ人間のアタマで,ちまちまとそんなことをやっているとは思えない。モノを識別する場合,見方を次々と変えていると思うんです。つまり,フィルタとなるAそのものも変換して,適切なフィルタに適合させているような気がするわけ。例えば,今見ている対象が文字領域なのか,ただのノイズなのかは,個々の文字を見なくても分かることが多かったりする。大雑把に「ここら辺に読むべきものがある」と認識していると思うんですね。一方,個々の文字を認識する場合は,また別のフィルタを使うことになる。

で,なんというか,あたしゃ思うわけですけれど,このクルクル変わるAに対して,これに変換される元のマトリックスがあると思うんです。人間の場合,その元のマトリックスが器質的なものになるのかは分かりません。ともあれ,そうしたもんを想定した場合,どういうシステムが可能になるのだろう。

ちと話が抽象的になりすぎているけれども,最近思っているのはそんなコト。

Trackback
Trackback URL:
Ads
About
Search This Site
Ads
Categories
Recent Entries
Log Archive
Syndicate This Site
Info.
クリエイティブ・コモンズ・ライセンス
Movable Type 3.36
Valid XHTML 1.1!
Valid CSS!
ブログタイムズ

© 2003-2012 AIAN