ubuntuでocrmypdfを使ってPDFをOCRする

PyMuPDFをインストール

ocrmypdfが使う。

tesseractの日本語をインストール

ocrmypdfをインストール

tesseractの言語がインストールされているかを確認

OCRを実行

まずPDFの言語と縦書きか横書きかを確認する。日本語の縦書きの場合は以下を実行。

複数言語で実行

英語とドイツ語で実行。まずはドイツ語のtesseract-ocrをインストール

エラーのとき

pdfを書き換える。以下のどれか1つ。

エラーは以下のコマンドで起こる

このエラーはmalloc関連らしくgsのソースを見ないとわからないと思う。

Leave a Reply

Your email address will not be published. Required fields are marked *

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)