PR

国立国会図書館が無料公開した OCR アプリ「NDLOCR-Lite」〜 手書き・縦書きもテキスト化できる 〜

thumbnail_ndl-lab_1920 NDL Lab

要旨

国立国会図書館が、画像から文字を自動で読み取る OCR ソフト「NDLOCR-Lite」を無料で公開しました。Windows・Mac・Linux に対応しており、日本語の縦書きや手書き文字、さらには英文まで幅広く文字起こしができます。従来版と違って高価な GPU(グラフィック処理用の部品)が不要なため、一般的なパソコンでそのまま動かせるのが大きな特徴です。

NDLOCR-Lite とはどんなソフト?

「OCR」とは、写真や画像の中に写っている文字を、コンピューターが読めるテキストデータに変換する技術のことです。スマートフォンで撮影した書類や、スキャンした古い文書などから文字をそのまま取り出せるので、デジタル化作業に欠かせない便利な機能として知られています。

今回公開された「NDLOCR-Lite」は、国立国会図書館が運営する研究開発チーム「NDL ラボ」が作成したソフトで、もともとは図書館の資料をデジタル化する目的で開発されたものです。それが今回、一般向けに無料公開されました。GitHub(ソフトウェアを公開・共有するサービス)から誰でも無料でダウンロードできます。

使い方はシンプル、難しい設定は不要

ZIP ファイルをダウンロードして展開し、「ndlocr_lite_gui.exe」(Windows の場合)を起動するだけで使い始められます。難しいコマンド操作は不要で、画面の指示に沿って画像を選ぶだけで文字起こしが完了します。

主な使い方は次の 3 通りです。

1 枚の画像を処理する 「画像ファイルを処理する」から画像を選び、出力先を指定して「OCR」ボタンを押すだけです。処理はわずか数秒で完了し、結果は TXT・JSON・XML など複数の形式で保存されます。

画像の一部だけを取り出す「Crop&OCR」 読み込んだ画像の上をドラッグして範囲を選択し、「切り抜き OCR」を実行すると、選択した部分だけのテキストを即座に確認できます。

フォルダごとまとめて処理する 複数の画像が入ったフォルダを指定すれば、一括で文字起こしができます。大量の書類をまとめてデジタル化したい場面で重宝します。

さらに、「キャプチャモード」を使えば、パソコン画面に表示されているテキストをドラッグして囲むだけで文字起こしができます。ただし、文字が途切れていたり向きがずれていたりすると正確に読み取れない場合もありますので、その点は注意が必要です。

手書き・英文にも実験的に対応

従来の NDLOCR は日本語の印刷物に特化しており、手書き文字や英文は苦手としていました。NDLOCR-Lite ではこれらにも実験的に対応しており、アメリカの税務書類(英文)の写真からも問題なくテキストを抽出できたことが GIGAZINE の記事で確認されています。

「実験的」という言葉が付いている通り、完璧な精度ではない場合もありますが、縦書き・横書き・手書き・英文と幅広い文書に対応できるのは実用面で大きなメリットです。

また、従来の NDLOCR は GPU(画像処理専用のハードウェア)がないと動かせませんでしたが、NDLOCR-Lite は GPU なしで動作するよう軽量化されています。特別な機材を用意しなくても、普通のパソコンで利用できる点が一般ユーザーにとってのうれしいポイントです。

ライセンスと入手先

NDLOCR-Lite は「CC BY 4.0」というライセンスで公開されています。これは、出典(国立国会図書館)を明記すれば、個人・商用を問わず自由に利用・改変・再配布できるという条件です。無料で使えるうえに、ビジネス用途にも活用できる太っ腹な公開形態といえます。

ダウンロードは GitHub のリポジトリ(https://github.com/ndl-lab/ndlocr-lite)から行えます。GPU を必要とする従来版の NDLOCR も引き続き利用可能です。

おわりに

NDLOCR-Lite の登場によって、これまでテキスト化に手間がかかっていた場面が大きく変わりそうです。たとえば、古い紙の書類や手書きのメモをスキャンしてデジタルデータにしたい方、大量の画像ファイルから文字情報を一括抽出したい方、英文書類を手軽にテキスト化したい方など、さまざまなシーンで活躍してくれるでしょう。

インストールの手間も少なく、操作画面もシンプルなので、パソコンに詳しくない方でも気軽に試せるツールです。国立国会図書館という信頼できる機関が無料で提供している点も安心感につながります。紙とデジタルの橋渡しをしてくれるこのソフト、ぜひ一度試してみてください。

※ ここに掲載されている情報は、発表日現在の情報です。最新の情報と異なる場合がございますので、あらかじめご了承ください。

出典: GIGAZINE

コメント