AI-OCRとは?

近年、「AI-OCR」という言葉をよく聞くようになりました。

「AI-OCR」とは何でしょうか?「AI」が付かないOCRと何が違うのでしょうか?

今回は、「AI-OCR」とは何なのかについて、ご紹介したいと思います。

なぜ今「AI-OCR」?

近年、AI-OCRという言葉をよく聞くようになりました。何故でしょうか?

それは、ここ数年盛り上がりをみせているRPAによって、これまでシステム化されてこなかった様々な作業の効率化が検討されるようになり、紙文書にまつわる作業も効率化対象としてクローズアップされるようになってきた事が大きいかと思われます。

例えば、請求書に書かれている品名や請求金額が正しいかどうかを確認したり、書類の記載事項をExcelファイルに転記したりといった作業を人が行っているのですが、RPA化検討による業務見直しの中で、こういった作業もどうにか効率化したいとなってきた訳です。

その流れで近年再び「OCR」が注目されるようになり、その需要にこたえるかのように「AI-OCR」をうたう製品やサービスが次々と現れはじめました。

そもそもOCRとは?

OCRとは、Optical Character Recognitionの略で、日本語にすると「光学文字認識」になります。つまり、書かれている文字を読み取って、テキスト情報にする技術のことです。

メモ:OCRは、光学式文字読取装置 (Optical Character Reader)の略でもあります。また、正確には、活字を読み取るのが「OCR」、手書き文字を読み取るのが「ICR」(Intelligent Character Recognition)となりますが、手書き文字の読み取りもひっくるめて「OCR」と呼ばれていることが多いです。このコラムでも簡単のため、特にコメントがない限り、ICRもひっくるめて「OCR」と呼びます。

昔からOCRは様々なところで活用されてきました。
ハガキに書かれている郵便番号を読み取って自動的に行き先別にハガキを仕分けたり、マークシートを読み取って自動採点をおこなったり、といったことも、OCRの活用例です。高速道路を走っている車両のナンバーをカメラで読み取っているNシステムなんていうものもあります。

メモ:紙文書を、スキャナーでスキャンしたり、スマホのカメラで撮影したりすると、JPEGファイルなどのイメージファイルになり、パソコン等でファイルとして扱える状態になりますが、これだけではOCRしたことにはなりません。というのも、この状態は、単純に画像として、つまり点々の集まりとして、どの位置にどんな色の点があるか、という情報がデータ化されているに過ぎず、文字を文字として扱えているわけではないからです。この点々の集まりとしての情報から、どのような文字が書かれているのかを解析し、テキストデータを生成するのが、OCRになります。

AI-OCRとは?

昔は、専用の機械によってOCRが行われておりましたが、コンピュータの性能が上がると、大量のイメージファイルをパソコンで扱えるようになるとともに、OCR用の機械の助けを借りる事なく、パソコン上のソフトウェアのみでも、OCRができるようになってきました。

そして、2000年初頭の頃だったかと思いますが、OCRブームが起こり始めました。

OCRにより効率化が実現されたケースもあったかと思いますが、OCRの精度、特に日本語手書き文字の精度が悪く、思い描いていたような効率化にはつながらないケースも多く見られ、ブームは過ぎ去っていきました。

その後、近年になるとAIブームが起こりました。そして、このブームの火付け役となった機械学習のディープラーニング(深層学習)技術等が、RPAの影響で注目され始めていたOCRにも応用され、以前からネックとなっていた日本語手書き文字の認識精度を大きく改善したものが「AI-OCR」という謳い文句で登場してくるようになってきた次第です。

「AI」というと人工知能的なものを想像します。 例えばAI-OCRというと、機械が請求書を見て、書かれていることを人間のように常識に基づいて理解して読み取ってくれる、と想像する人もいるかと思いますが、現在「AI-OCR」と銘打っているサービスや製品は、そこまでの能力は全くありません。文字の形や並びのパターンから一番該当していると思われる文字を数学的に算出しているだけあり、その算出方法の調整が、ディープラーニングという技術により高精度にできるようになっただけです。

そもそもOCRの世界は、昔からニューラルネットワークなどの機械学習技術を応用してきており、ディープラーニングも、その機械学習の技術のうちの1つに過ぎません。

そういう意味では、昔からのOCRと違いはなく、言ってしまえば従来のOCRも「AI-OCR」であり、以前よりOCR製品に携わってきた人たちは『何をいまさら「AI-OCR」って言って騒いでいるんだ?』という感じに思った人が多いのではないかと思います。

結局、AI-OCRとは、明確な定義があるわけではなく、「AI-OCR」という言葉が世に広まるにつれ各社が各々の判断で「AI-OCR」と宣伝し始めている状況になります。

そのため「AI-OCR」であっても、その性能や特徴は各社様々です。

結局のところ

「AI-OCR」とは、大まかには、最近の機械学習技術の進歩により、従来のOCRでは困難だった文字や帳票のOCRができるようになった/認識精度が改善された、と各社が自称しているものだと捉えていただければいいかと思います。

前述の通り明確な定義があるわけではありませんので、その性能や特徴は各社様々です。

次回のコラムでは、同じように見える各社の「AI-OCR」サービス/製品の違いが見えてくるように、OCR処理にとって見逃してはいけない、OCR処理の前処理、後処理等についてお話したいと思います。

商社の立場から、メーカーにとらわれることなく、海外製品も含め色々な商品を見て比較してきた弊社が、様々なAI-OCR製品がある中で、何故取り扱い製品として、ABBYY社のFlexiCaptureを選んだのかがお分かりになると思います。

この記事をシェアする

前の記事

【対談動画】RPAの運用管理について

次の記事

はじめてのBlue Prism―「プロセス」と「オブジェクト」って何?