PDFから表の画像を取り出してDataFrameにする
Published:
By nobCategory: Posts
前提
| software | version |
|---|---|
| Ubuntu | 22.04.4 LTS |
| PyMuPDF | 1.24.9 |
| Tesseract | 5.4.1 |
| tesserocr | 2.7.0 |
| OpenCV | 4.10.0 |
| pandas | 2.2.2 |
| Python | 3.11.9 |
ライブラリのインストール
PyMuPDFのインストール
$ cd [poetryで初期化したプロジェクトディレクトリ]
$ poetry add …