PDFから表の画像を取り出してDataFrameにする
Published:
By nobCategory: Posts
前提
software | version |
---|---|
Ubuntu | 22.04.4 LTS |
PyMuPDF | 1.24.9 |
Tesseract | 5.4.1 |
tesserocr | 2.7.0 |
OpenCV | 4.10.0 |
pandas | 2.2.2 |
Python | 3.11.9 |
ライブラリのインストール
PyMuPDFのインストール
$ cd [poetryで初期化したプロジェクトディレクトリ]
$ poetry add …