PDF Reading

katit · Пт дек 08, 2023 12:29 pm

Есть тут кто-то кто сталкивался с такого рода задачами?

Типа есть PDF Invoice, надо его распарсить и получить данные.

self · Пт дек 08, 2023 12:34 pm

katit писал(а): ↑Пт дек 08, 2023 12:29 pm Есть тут кто-то кто сталкивался с такого рода задачами?

Типа есть PDF Invoice, надо его распарсить и получить данные.

Сочувствую. Читайте

https://nanonets.com/blog/pdf-parser/

katit · Пт дек 08, 2023 12:45 pm

Да читал я уже ето.. Больше интересует если кто-то владеет инфой с "первых рук" так сказать, кто делал чтоб проконсультироваться.

Работяга · Пт дек 08, 2023 2:33 pm

katit писал(а): ↑Пт дек 08, 2023 12:29 pm Есть тут кто-то кто сталкивался с такого рода задачами?

Типа есть PDF Invoice, надо его распарсить и получить данные.

Код: Выделить всё

# Install PyMuPDF
# pip install PyMuPDF

import fitz  # PyMuPDF

# string path to the PDF file
# file_path

def extract_text_from_pdf(file_path):
    with fitz.open(file_path) as doc:
        text = ""
        for page in doc:
            text += page.get_text()
        return text

pdf_text = extract_text_from_pdf('example.pdf')
print(pdf_text)

katit · Пт дек 08, 2023 2:35 pm

Работяга писал(а): ↑Пт дек 08, 2023 2:33 pm
katit писал(а): ↑Пт дек 08, 2023 12:29 pm Есть тут кто-то кто сталкивался с такого рода задачами?

Типа есть PDF Invoice, надо его распарсить и получить данные.
Код: Выделить всё
# Install PyMuPDF
# pip install PyMuPDF

import fitz  # PyMuPDF

# string path to the PDF file
# file_path

def extract_text_from_pdf(file_path):
    with fitz.open(file_path) as doc:
        text = ""
        for page in doc:
            text += page.get_text()
        return text

pdf_text = extract_text_from_pdf('example.pdf')
print(pdf_text)

Супер! Проблема решена!

katit · Пт дек 08, 2023 3:38 pm

Если что это сарказм был.

Те товарищи по ссылке сверху те документы что я им скормил тоже на 2+ справились

Работяга · Пт дек 08, 2023 3:45 pm

katit писал(а): ↑Пт дек 08, 2023 3:38 pm Если что это сарказм был.

Те товарищи по ссылке сверху те документы что я им скормил тоже на 2+ справились

А вы хотеле, что бы вам эпп забабахали с PyTorch или TensorFlow, еще подогнали UI с Zoning for free

Это тоже был сарказм.

katit · Пт дек 08, 2023 3:59 pm

Я хотел чтобы тот кто это делал хотя бы в трех строчках описал суть проблемы

А если есть те кто этим занимается и может сделать так я и заплатить могу с удовольствием

Работяга · Пт дек 08, 2023 4:09 pm

katit писал(а): ↑Пт дек 08, 2023 3:59 pm Я хотел чтобы тот кто это делал хотя бы в трех строчках описал суть проблемы

А если есть те кто этим занимается и может сделать так я и заплатить могу с удовольствием

Если цена вопроса нет проблем, то давайте в личке пообщаемся

self · Сообщение **self** » Пт дек 08, 2023 4:56 pm

katit писал(а): ↑Пт дек 08, 2023 3:59 pm Я хотел чтобы тот кто это делал хотя бы в трех строчках описал суть проблемы

А если есть те кто этим занимается и может сделать так я и заплатить могу с удовольствием

Проблема очень проста. PDF - изначально очень плохо структурированный формат. В худшем случае - это одна картинка в формате TIFF (обычно из сканера такое выходит).
Чтоб разoбрать, что изображено на картинке нужен хороший AI, да и тот не гарантирует.

Так что в общем случае хорошего ответа на ваш вопрос нет. Нужно смотреть конкретно на именно ваши входящие файлы и подбирать под них софт методом проб и ошибок.

Mad Hatter · Сб дек 09, 2023 8:21 am

Когда-то на такой задаче Abby поднялся

alex_127 · Сб дек 09, 2023 9:12 am

Mad Hatter писал(а): ↑Сб дек 09, 2023 8:21 am Когда-то на такой задаче Abby поднялся

Это по принципу - есть ли хороший Парсер Для ворда - А То У Микросовта Такого Нет...

self · Сб дек 09, 2023 12:25 pm

Mad Hatter писал(а): ↑Сб дек 09, 2023 8:21 am Когда-то на такой задаче Abby поднялся

Ну с тех пор OCR далеко продвинулся. Даже мой дешевый сканер имеет опцию Save as Searchable PDF, когда вместе с изображением сохраняет индекс из распознанных слов.

Mad Hatter · Сб дек 09, 2023 1:24 pm

self писал(а): ↑Сб дек 09, 2023 12:25 pm
Mad Hatter писал(а): ↑Сб дек 09, 2023 8:21 am Когда-то на такой задаче Abby поднялся
Ну с тех пор OCR далеко продвинулся. Даже мой дешевый сканер имеет опцию Save as Searchable PDF, когда вместе с изображением сохраняет индекс из распознанных слов.

Конечно. В то время не было ML OCR как сейчас.

Работяга · Сб дек 09, 2023 3:46 pm

self писал(а): ↑Сб дек 09, 2023 12:25 pm
Mad Hatter писал(а): ↑Сб дек 09, 2023 8:21 am Когда-то на такой задаче Abby поднялся
Ну с тех пор OCR далеко продвинулся. Даже мой дешевый сканер имеет опцию Save as Searchable PDF, когда вместе с изображением сохраняет индекс из распознанных слов.

Ну если бы всё так было просто и легко, то моя компания не тратила бы по 150-200 миллионов в год на разработку OCR, а AWS вообще придлагал бесплатную опцию в пакете услуг и не чарджил чуть ли за каждое слово, плюс это стоимость будет капать на тренировке, а не в риальной жизне.

katit · Сб дек 09, 2023 8:51 pm

self писал(а): ↑Сб дек 09, 2023 12:25 pm
Mad Hatter писал(а): ↑Сб дек 09, 2023 8:21 am Когда-то на такой задаче Abby поднялся
Ну с тех пор OCR далеко продвинулся. Даже мой дешевый сканер имеет опцию Save as Searchable PDF, когда вместе с изображением сохраняет индекс из распознанных слов.

У меня нет проблем сохранить PDF в текст. Задача другого плана, но в общем ситуацию я понял, keywords выучил попробуем покопать в сторону aws

Форум Привет

PDF Reading

PDF Reading

Re: PDF Reading

Re: PDF Reading

Re: PDF Reading

Re: PDF Reading

Re: PDF Reading

Re: PDF Reading

Re: PDF Reading

Re: PDF Reading

Re: PDF Reading

Re: PDF Reading

Re: PDF Reading

Re: PDF Reading

Re: PDF Reading

Re: PDF Reading

Re: PDF Reading