PDFから表の画像を取り出してDataFrameにする(2)
Published:
By nobCategory: Posts
Tags: 文字認識 OCR Intel-Extension-for-PyTorch PyTorch CNN OpenCV Pillow Python
前回:「PDFから表の画像を取り出してDataFrameにする」 では文字認識にOCRライブラリである Tesseract を使った。
今回は PyTorch を使う。
前回Tesseractを使ったのだが文字ごとに個別の前処理(フィルタ)を実装するのが面倒だった。
tesstrain を使ってTesseractをTrainingするというアイデアもあったのだが、PyTorchに興味があるので使ってみる。
私 …