Entry

OCR の製品スペックと研究論文の読み方とか

2010年03月25日

今年の初めくらいから,またもや OCR 関係のソフトウェアに首を突っ込んでいるもんで,関連する論文を読んだり,関連する製品の性能を検証したりしています。もちろん,プログラムも書いている。それにしても,まぁー……この分野は面白い。前処理から領域の抽出,レイアウトの論理構造解析から文字認識まで,それぞれがそれぞれ大きな懸案を抱えていて,しかも今のところ,これといった技術が確立していない。

で,ですね。ともかくも,OCR 製品の性能や論文を読んでるわけです。これ,自分で作ってみて,初めてその性能が「高い」のか「低い」のかが分かったりする。

例えば,これは以前書いたかもしれないけれど,「文字認識率99.9%」とかいったキャッチフレーズがあったりしますよね。これ,高いと思うでしょうか,低いと思うでしょうか。ま,用途にもよるんだろうけども,あたしんとこのお客さんからすると,低い部類に入るんだと思う。

言うまでもなく,99.9%の認識率ということは,1000文字に1文字は間違える,ということです。実際その通り,かなり頑張ってきれいなスキャン画像を作っても,1ページで2つ3つ間違える。あるところでは,数千ページにわたるマニュアルを電子化したい,とかいった話があるわけだけれども,1ページあたり2つ3つ間違えると修正する回数は……まぁそゆこと。

もうひとつ,文書画像の前処理のひとつに,傾き補正処理というのがあります。スキャンすると,多かれ少なかれ画像は傾くわけで,こいつがかなりの悪さをして認識率に影響したりする(そのほかにもフィーダを使ったスキャンでは,ゆがみも起きる)。傾き補正処理では,この傾きを補正するわけです。

で,某論文を読んでいたところですね,「誤差±2.0°の精度で傾きを補正できた」とか書いてあるわけです。この精度は高いでしょうか,低いでしょうか。これは,かなり低い。

文書画像は,たった0.2°程度傾いているだけでも,人目で見て「傾いている」と分かります。そして,ある程度傾きに対してロバストな認識方式を使った OCR でも,0.2°程度の傾きだと,あっけなく認識精度が落ちる。2.0°も誤差があるようじゃ,何の役にも立ちません(何も補正したことにならない)。人目で見ても,「スキャン失敗」の部類に入る画像です。認識方式にもよるけれど,精度はせいぜい±0.05°程度が許容範囲,できれば±0.02°程度は欲しい。この程度の精度があれば,かなり認識結果が良くなります。実は,そゆ方法はあるんだけれど,ここでは教えない。

製品スペックの見方って難しいんだけれども,特に OCR の精度はある程度誇張が入っている気がします。かなり頑張ってこの数字出しました!みたいな。ま,大変な分野なので,一方的に責める類のもんじゃないんですけどね。ともかくそんな感じ。

Trackback
Trackback URL:
Ads
About
Search This Site
Ads
Categories
Recent Entries
Log Archive
Syndicate This Site
Info.
クリエイティブ・コモンズ・ライセンス
Movable Type 3.36
Valid XHTML 1.1!
Valid CSS!
ブログタイムズ

© 2003-2012 AIAN