スキャンされたPDFを画像にして（pdf2image）、Tesseractで読み取る

あなたのライブラリーから、点数で見たマナ・コストがＸ以下のアーティファクト・カードを１枚探し、それを場に出す。¹ nikkieです。

異常系への対応という文脈になりますが、PDFにもOCRを適用できるんです！

extract_text()関数にPDFのパスを渡すだけで読み取れました！

しかしながら、スキャンされたPDFを読めない²ことも分かっています。
例：https://www.city.fujiyoshida.yamanashi.jp/div/shoko/pdf/toukei04/syougyou.pdf³

これを読む方法（の1つ）をアウトプットです。

macOSでは、PDF rendering libraryのpopplerのインストールも必要でした。

READMEを参照すると、使い方はこちらもとっても簡単。
https://github.com/Belval/pdf2image/tree/v1.17.0?tab=readme-ov-file#how-does-it-work
convert_from_path()関数にPDFのパスを渡すだけです！

>>> from pdf2image import convert_from_path
>>> images = convert_from_path("syougyou.pdf")
>>> images[0].save("page0.png")

Tesseractの環境構築はこちら

pdf2imageを使って保存した画像を渡します。

% tesseract page0.png tmp -l jpn txt

（出力されるtmp.txtがOCR結果です）

>>> import pytesseract
>>> result = pytesseract.image_to_string(images[1], lang='jpn')

pdf2imageがPillowのImageを返すので、それをそのままpytesseractに渡せます⁴

スキャンされたPDFはpdfminer.sixで読み取れませんが、pdf2image と OCR (Tesseract) の合わせ技で読み取れます！

これは私のアイデアではなく、Unstructured⁵のソースコードを読んでいて知りました。
Unstructuredのpartition_pdfの仕組みはどこかでアウトプットできたらいいな〜と思っています。

nikkie-ftnextの日記