Entry

あまり知られていないけど OCR の精度は文字認識の精度よりレイアウト解析の精度だったりする

2009年03月16日

ちとこちらを読ませていただいて。あまり引用と関連ないんですけれど。

さて、ここからが本題。上記の通り2つの読取革命を使って10ページほど試してみましたが、満足のいく結果が得られなかったので、他のソフトも試してみました。ネットの評価では「読んde!!ココ」という製品の評価が高いようなので、さっそく 読んde!!ココ 体験版 をダウンロードしてインストール。

最近の OCR の認識率に驚きました!(読んde!!ココ vs 読取革命) :: Drk7jp

OCR の認識精度って,文字認識の精度だと思ってる方がまだ結構いるようなんですけれど,これは数年前の話で,文字認識の精度自体は頭打ちだったりします。ちゃんとした入力があれば,つぶれててもかすれてても割と認識します。しかも,大手 OCR ベンダ以外の OCR モジュールは,OEM で供給されているので,文字の認識精度そのものはどれも大して変わらなかったりする(レイアウト認識機能があるものもあるが)。問題は,ちゃんとした入力を作るまでの前処理で,ひずみを取ったり,傾きを補正したり,文字や図のありそうな場所(座標)を正確に取得したりする処理(レイアウト認識処理)です。これが大変。

文書の画像を解析して,文字のありそうな場所を探す方法は古くから様々な手法が考えられていて,かつては縦横方向の周辺分布ヒストグラムを使う方法なんかが主流でした(周辺分布の参照:AS3 でヒストグラムを作る (4) - 周辺分布 - てっく煮ブログ)。これをもう少し応用すると,ヒストグラムの分散から文書の傾きを検出することもできる(例えば,ScanSnap の方法とか)。

じゃ,今はどんな方法が主流かというと,これは企業の秘密がいろいろと絡んでいるので,あたしもよく知りません。結構前にあたしも試してみたんですけど,これ難しいんです。ほんと。ただこの分野,割と簡単に工学的な手法を応用できる分野なので,やってて楽しいというのはあります。今は信号処理一辺倒だけど,またやりたいな,こゆの。

Trackback
Trackback URL:
Ads
About
Search This Site
Ads
Categories
Recent Entries
Log Archive
Syndicate This Site
Info.
クリエイティブ・コモンズ・ライセンス
Movable Type 3.36
Valid XHTML 1.1!
Valid CSS!
ブログタイムズ

© 2003-2012 AIAN