最近の OCR の認識率に驚きました!(読んde!!ココ vs 読取革命)
ちょっと前に PIXUS MP980 を買いました。複合機プリンターって超便利! というエントリを書きましたが、読取革命 Lite って OCR ソフトが同梱されています。
セットアップ時に何気なくインストールしてしまったので、デスクトップ上にアイコンが設置されてしまいました。今日、ふと読取革命 Lite のアイコンを見て、10年以上前に大学の輪講の英文を訳すのが嫌でたまらなく、スキャナーで読み込んで OCR で文字認識させて翻訳ソフトで翻訳させて授業にでていたのを思い出しました。
今となっては OCR なんて使わないので削除しようと思いましたが、削除する前に一度くらい使っておくか・・・と図書館で借りてきた本で試してみたところ・・・
う〜ん・・・これはひどい・・・ 最新の OCR の認識精度もこの程度か・・・ ヤダ┐(´д`)┌ ヤレヤレ
いろいろ試してみたのですが、どうにも認識率が悪いので、「ヘルプ」>「アップグレードのお知らせ」からアップグレードのお知らせページを見てみたところ・・・驚愕の事実。
工エェェ(´д`)ェェエ工 Lite は ver8 の時の OCR エンジンだとな。今が ver13 だから5世代も前のエンジン。正直アフォかっ!と思った。機能制限にも程がある。こんな認識率じゃぁ〜誰も使わねぇーっつーの。
せっかくなので、読取革命Ver.13 体験版もインストールして試してみた。5世代もエンジンが進化していれば、そりゃぁ〜もう、すごい事になっているだろうと思って。
おっ・・・だいぶマシになったけど、まだまだコレでは手修正が多すぎて使えるレベルじゃないというのが正直なところ。ちなみに、下の画像の左が読取革命 Lite で右が読取革命Ver.13 の認識結果の1例。
ここまでのはある意味ネタです。
さて、ここからが本題。上記の通り2つの読取革命を使って10ページほど試してみましたが、満足のいく結果が得られなかったので、他のソフトも試してみました。ネットの評価では「読んde!!ココ」という製品の評価が高いようなので、さっそく 読んde!!ココ 体験版 をダウンロードしてインストール。
早速、同じ10ページほどをテスト的にOCRで文字認識させてみたところ、先ほどとは比べものにならないくらいの認識率!何と言っても特徴的なのが、?などの機種依存文字もなんなく認識している点が素晴らしい。その御陰で全体としてのご認識が減っています。
ちなみに、英語部分のOCRエンジンは、世界中で評価が高い ABBYY 社製の英語OCRエンジンを搭載しているようなので、独自に作り込んでいる日本語認識や記号認識やレイアウト解析で、圧倒的な差が付いたという印象です。
ちなみに、スキャナの設定をあえて、OCR用(300dpi)から半分の 150dpi で読み込んだ画像で文字認識させてみたら、ガクッっと認識率が下がりました。右が 300dpi で左が 150dpi の結果です。
せっかくなので、認識したテキストも貼り付けておきます。ソフトによって随分と認識が違うものです。
読んde!!ココ Ver13 での認識結果
10章 花粉症の治療と治療薬 表10−1アレルギー性鼻炎に用いられる治療薬 1.ケミカルメティエーター遊離抑制薬 クロモグリク酸ナトリウム(インタール?)*,トラニラスト(リザベン?),アンレ キサノクス(ソルフア?)**,ペミロラストカリウム(アレギサール?,ペミラスト ン?) 2.ケミカルメティエーター受容体括抗薬 ?ヒスタミン受容体括抗薬(抗ヒスタミン薬) 第1世代:かマレイン酸クロルフェニラミン(ポララミン?),フマル酸クレマス チン(夕べジール?)メキタジン(ニポラジン?,ゼスラン?)など 第2世代:フマル酸ケトチフェン(ザジテン?)**,塩酸アゼラスチン(アゼプチ ン?),オキサトミド(セルテクト?),フマル酸エメダスチン(ダレン?,レミカッ ト?),塩酸エビナスチン(アレジオン?),エバスチン(エパステル?),塩酸セチ リジン(ジルテック?),ベシル酸ベポタスチン(タリオン?),塩酸フェキソフェ ナジン(アレグラ?),塩酸オロバタジン(アレロック?)・ロラタジン(クラリチン?), 塩酸レポカバスチン(リボスチン?)* ?トロンポキサンA2受容体桔抗薬(抗トロンポキサンA2薬) ラマトロバン(バイナス?) ?ロイコトリエン受容体浩抗薬(抗ロイコトリエン薬) プランルカスト水和物(オノン?) 3.Th2サイトカイン阻害薬 トシル酸スプラタスト(アイピーデイ?) 4.ステロイド薬 ?局所用 プロピオン酸ベクロメタゾン(アルデシン?,リノコート?)*,プロピオン酸フル チカゾン(フルナーゼ?)* ?経口用 べタメタゾン・d−クロルフェニラミン合剤(セレスタミン?) 5.自律神経作用薬 ?α交感神経刺激薬 硝酸ナフアゾリン(プリビナ?)*,塩酸テトラヒドロゾリン・プレドニゾロン合 剤(コ∵ルタイジン?)*,硝酸テトラヒドロゾリン(ナーベル?)*,塩酸オキシメ タゾリン(ナシビン?)*,塩酸トラマゾリン(トク?)* 6.その他 生物製剤,漢方薬 ()内はおもな商品名・*鼻噴霧用,**内服および鼻噴霧用,無印は内服用・ 1.ケミカルメデイ工一夕ー遊離抑制薬 肥満細胞からアレルギー症状のひき金になるヒスタミン,ロイコトリ工ンな どのケミカルメディエーター(化学伝達物質)の遊離を抑制する薬物である・世 界で最初にクロモグリク酸ナトリウムが局所薬として開発され,その後の一連 1花粉症の治療薬 将軍
読取革命Ver.13 体験版での認識結果
124 八0章 花粉症の治療と治療薬 表10-1 アレルギー性鼻炎に用いられる治療薬 ヘケミカルメテトエ一ター遊離抑制薬 クロモグリ夕酸ナトリウム(インタール勺*,トラニラスト(リザベン勺,アンレ キサノクス(ソルフア勺**,ペミロラストカリウム(アレギサールダ,ペミラスト ン勺 2.ケミカルメデ'イエーター受容体措抗薬 ?ヒスタミン受容体格抗薬(抗ヒスタミン薬) 第∩計い衣マレイン酸クロルフェニラミン(ポララミン丿,フマル酸グレマス チン(.タベジール勺メキタジン(ニボラジンヘゼスラン勺など 第2世代:フマル顔ケトチフェン(サンデン勺**,塩酸アゼラスチン(アゼプチ ン勺,オキサトミド(セルテクト勺,フマル酸エメダスチン(ダレンぢ,レミカッ ドI),塩酸エピナスチン(アレジオン勺,エバスチン(エバステル勺,塩酸七千 リジン(ジルテック勺,ペシル酸ベポタスチン(タリオン勺,塩酸フェキソフェ ナジン(アレグプ几塩酸オロパタジンけレロック勺,ロラタジン(クラリチン勺, 塩酸レボカバスチン(リボス千ン1丿 ?トロンボキサンAバ受容体措抗薬(抗トロンボキサンA,薬) ラマトロバン(バイナス勺 ?ロイコトリエン受容体格抗薬(抗ロイコトリエン薬) プランルカスト水和物(オノン勺 3. Th2サイトカイン阻害薬 トシル酸スプラタスト(アイピーディ勺 4.ステロイド薬 半局所用 プロピオン顔ベクロメタゾン(アルデシンo,リノコード勺*,プロピオン酸フル チカゾン(フルナーゼ勺* ?経口川 ベタメタゾン・yクロルフェニラミン合剤(セレスタミン勺 5.自律神経作用薬 ?a交感神経則激薬 硝酸ナファゾリン(プリビナ勺*,塩酸テトラヒドロゾリン・ブレドニゾロン合 剤(コールダイダン勺*,硝酸テトラヒドロゾリン(ナーベル勺*,塩酸オキシメ ダブリン(ナシビン勺へ塩酸ドラマプリン(トーク⊃* 6,その他 生物製剤,漢方薬 ( )「帽よおもな商品礼 *弘噴霧用,**内服および鼻噴霧用,無印は内服用. 1,ケミカルメディエーター遊離抑制薬 肥満細胞からアレルギー症状のひき金になるヒスタミン,ロイコトリエンな どのケミカルメディエーター(化学伝達物質)の遊離を抑制する薬物である.世 界で最初にクロモグリク酸ナトリウムが局所薬として開発され,その後の一往
読取革命Liteでの認識結果
y24 司章 花粉往の治療と治療薬 凸ダ ス アレルギー性鼻炎に用いられる治療薬 ‘ 尚ミサナノ千ィエ一ケー遊瀧]制▽ クロモグリク顔ナトリウムレインタール∩ヘ トラニラスト川サベゾ几アンレ キサノクスレハレファハ*ヘペミロラス1ヽカリウム(アレギサ一ルヘペミラスト ン∩ T上二言.十二ゾテご・エーケー受容詐鋲抗千 ?・ヒスタミン受容体払拭薬(抗ヒスタミン薬) 第∩厨口j-マレイン酸クロルフェニラミン(ポララミンづ、フマル酸クレマス チン(タベジール○メキタジン(ニポラジンヘゼスラン○など 第nlJJ代:フマル酸ケト千フェン(サジテレ勺*ヘル酸アゼラス千ン(アゼプチ ン勺,寸キ廿トミド(セルテクドケ),フマル酸エメダスチン(ブレンヘレミカッ ド……),塩酸エビナスチンツレゾオン0,エバスチン(エバステル八,塩酸セチ リジン(ジルテック八,ベシル酸ベボタスチン(タリオン勺,塩酸フェキソフェ ナジン∩'レグプ勺、塩酸オロバタジン(アレロック勺,ロラタジン(クラリ千ン勺, 塩酸レボカバスチン(リボスチンバ* ?トロンボキサンAバ貪吝体払拭薬(拭トロンボキサンA。薬) ラマトロバンレくイナス勺 ?ロイコトリエン受容体払拭薬(拭ロイコトリエン薬) プランルカス1ヽ水和物(オノン勺 二丁|尨サィトカイン阻害薬 トシル酸スブラタスドプイピーディ勺 几ステロでド薬 ?筒所用 プロピオン酸ベクロメタゾンツルデシン≒リノコード勺*,プロビオン酸フル チカゾン(フルナーゼ勺* ?経口用 ベタメタゾンリ一クロルフェニラミン合剤(セレスタミン八 ]・.回章排経作用薬 ?α交感神経刺激薬 硝酸ナファブリン(プリビナ勺≒塩酸テトラヒドロゾリン・ブレドニゾロン會 剤(コールタイジン八≒硝酸テトラヒドロゾリン(ナーベル勺*,塩酸才キシメ タプリン(ナシビン?パ、塩酸トラマゾリン(トーク八* 千千の侑 生物製剤,漢方薬 ( )内はおもな商品拡 *外項谷川,**内服および外項谷川,無印は内服用. レケミカルメディエーター遊離抑制薬 既済細胞からアレルギー症状のひき全になるヒスタミン,ロイコトリエンな どのケミカルメディエーター(化学伝達物質)の遊離を抑制する薬物である.叶 界で最初にクロモグリク飲ナトリウムが局所薬として開発され,その後の……l士
まだ若かった頃にやったレポート作成の際に、図書館から借りてきた本をOCRでテキスト化して、使える部分を一生懸命切り貼りしていた記憶も蘇ってきましたが、あのときにこの精度のOCRがあれば、随分と仕事量が減ったのに・・・と思いましたが、今となってはその仕事も大阪時代の懐かしい思い出です。
まぁ〜半分ネタっぽくなってしまいましたが、最後に結論。
読んde!!ココ の最新版の認識精度はスゴイです。しかも表形式の原稿なども Excel/Word/PowerPoint などへ解析したテキストと画像をレイアウト付きで落とし込むことができます。テキスト認識エンジン以外の改善余地がまだまだ随分あるように感じるものの実用レベルに達していると思います。
→楽天で 読んde!!ココVer.13 for Windows を探してみたい方は、こちらをどうぞ。
コメントやシェアをお願いします!
さう
いまさらですが。。。
読取革命で傾き補正されてないようなので
その認識率だと思われます。。。