国立国会図書館のOCRライブラリが凄くよかった件(Windows向け) - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに日本語OCR, 有料の業務用ソフトには色々と高性能なものがあるんですが、無料の場合の選択肢は意外に限られてます。最近ではGeminiなどにOCRさせることも試みてますが、縦...

記事へジャンプ

Twitterで共有

みんなの反応

はてなブックマークでの反応

1 ： itotto@hatena2025/3/26 09:30

へー、知らなかった

2 ： k-takahashi@hatena2025/3/26 09:48

“国立国会図書館が公開しているOCRライブラリ、NDLOCR"　"現在ver2.1がGithubに公開"　"古い本が多い国会図書館の資料向けに作られているだけあって、旧字体でも高い精度で認識”

3 ： roshi@hatena2025/3/26 10:00

これは便利そう。

4 ： l_etranger@hatena2025/3/26 11:18

へー。国会図書館がGitHubにOCRのプログラムコードをあげているの、知らなかった。旧字体や縦書きにも強い、と。今度、和古書で試してみよう。

5 ： circled@hatena2025/3/26 12:30

ちなみに普通の縦書き日本語のOCRだと、何故かiOSアプリの一太郎Padがちょっと意味不明に強い https://apps.apple.com/jp/app/%E4%B8%80%E5%A4%AA%E9%83%8Epad/id1490522571

6 ： jintrick@hatena2025/3/26 13:27

yomitokuとの比較記事待機案件

7 ： FreeCatWork@hatena2025/3/26 14:21

OCR？すごい技術にゃ！ボク、字が読めないから助かるにゃ！

8 ： kyukyunyorituryo@hatena2025/3/26 14:42

bunkoOCRがオススメされてたな。　https://99nyorituryo.hatenablog.com/entry/2023/09/24/020328

9 ： filinion@hatena2025/3/26 14:51

国会図書館の話なのに「ライブラリ」が図書館の意味でなく混乱したのだが、ブコメを見る限り他の人はすんなり読めたらしい。さすがはてな。

10 ： kagehiens@hatena2025/3/26 14:58

お、これは税金を使う意味がある機能と開発成果公開

11 ： Rouble@hatena2025/3/26 15:26

デジタルコレクションの全文検索すごいもんなあ。

12 ： ryudenx@hatena2025/3/26 15:48

すごい、これは自分でもダブルチェックしてみる

13 ： Anonymous2000@hatena2025/3/26 16:34

日本の近代以前の文字は全く読めないのだけど、史学科の友達に教えてあげよう。

14 ： tekitou-manga@hatena2025/3/26 17:20

おれも「そこそこ」のマシンが欲しいなと思いました

15 ： Imamu@hatena2025/3/26 21:15

「日本語OCR, 有料の業務用ソフトには色々と高性能なものがあるんですが、無料の場合の選択肢は意外に限られてます」「国立国会図書館が公開しているOCRライブラリ、NDLOCR」一太郎PadやbunkoOCRもきになる

16 ： stabucky@hatena2025/3/26 22:24

「猿飛佐助」のOCRにチャレンジしたことがあるが全くダメだった。とうとうできるようになったか。

17 ： ardarim@hatena2025/3/26 22:53

試してみたいけどそこそこのスペックのマシンがない…。性能がいいのか分からんけど取り敢えずGUIフロントエンドがないと普及はしなさそうではある

18 ： at_yasu@hatena2025/3/26 23:47

yomitoku とは別？へー。

19 ： kwbtsts@hatena2025/3/26 23:53

廃刊になった地元紙のアーカイブを画像で持っているので試してみたい

20 ： softantenna@hatena2025/3/27 00:08

国立国会図書館が提供するOCRライブラリ「NDLOCR」をWindows環境で使用する方法についての解説。古い書籍や旧字体に対しても高い認識精度を持っているらしい。

21 ： uchiten@hatena2025/3/27 00:41

そっちの「ライブラリ」か。図書館のライブラリって「力こそパワー」っぽさがあるのに完全に正しい使い方だった。

22 ： kaorun@hatena2025/3/27 02:26

その点Copilotのphi3、今の所縦書きとか手書きの日本語にめっちゃ弱いのが残念なんだよなぁ。Windows Recallで板書がうまく拾って貰えないんよ

23 ： prograti@hatena2025/3/27 03:36

今はどうか分からないけど一太郎PadのOCRエンジンはGoogle Cloud Visionを使っているらしい https://internet.watch.impress.co.jp/docs/news/1222537.html

24 ： yarumato@hatena2025/3/27 03:58

“無料OCRはGeminiは縦書きに弱い。Github公開の国立国会図書館OCRライブラリは旧字体でも高い精度で認識。NVIDIAのグラボ必要。Dockerコンテナの起動。VSCodeのDocker拡張機能を使うと、作業がかなり楽に”

25 ： ka-ka_xyz@hatena2025/3/27 03:58

ScanSnapのデフォルトOCRであんま不自由してない（pdftotextでOCR透明テキストを抜いてローカルのelasticsearchに突っ込んで全文検索してる）けど、どうなのかなこれ。

26 ： raitu@hatena2025/3/27 06:01

“NDLOCRは、現在ver2.1がGithubに公開されています。古い本が多い国会図書館の資料向けに作られているだけあって、旧字体でも高い精度で認識してくれます”

27 ： NLPer@hatena2025/3/27 07:53

どの程度のOCR精度なのかが書いていないけど、自分が試した時には求める品質には及んでいなかった。Macでは…の件はコンテナを使えばいいだけ。

28 ： misshiki@hatena2025/3/27 08:07

“国立国会図書館が公開しているOCRライブラリ、NDLOCR...このライブラリを試してみました。基本、Githubサイトに書いてある通りなんですが、いくつか注意すべき点をメモ”

29 ： tmatsuu@hatena2025/3/30 12:55

GitHubに公開されてるのすばらしい。

30 ： ya--mada@hatena2025/3/31 23:25

Githubサイトにある通り、NVIDIA Driverが、Linuxの場合: 450.36.06以上、Windowsの場合:520.06以上である必要があります。Macでは動かないです。私はWindowsをつかってますので、以下はWindowsだけの情報になります。

コメント内容の著作権は、投稿者に帰属します。

削除依頼、不適切コメントのご連絡はこちらにお願いいたします。

はてなブックマークのコメントをもっと見る

Twitterで共有

※メールアドレスは公開されません。

国立国会図書館のOCRライブラリが凄くよかった件(Windows向け) - Qiita

みんなの反応

人気の反応

ニュース