PDF Reading
-
- Reactions: 56
- Сообщения: 387
- Зарегистрирован: Ср авг 10, 2022 9:37 am
- Откуда: St Louis, USA
- Интересы: All
PDF Reading
Есть тут кто-то кто сталкивался с такого рода задачами?
Типа есть PDF Invoice, надо его распарсить и получить данные.
Типа есть PDF Invoice, надо его распарсить и получить данные.
Re: PDF Reading
«Либерал — это человек, слишком широко мыслящий, чтобы принять свою сторону в споре»
-
- Reactions: 56
- Сообщения: 387
- Зарегистрирован: Ср авг 10, 2022 9:37 am
- Откуда: St Louis, USA
- Интересы: All
Re: PDF Reading
Да читал я уже ето.. Больше интересует если кто-то владеет инфой с "первых рук" так сказать, кто делал чтоб проконсультироваться.
Re: PDF Reading
Код: Выделить всё
# Install PyMuPDF
# pip install PyMuPDF
import fitz # PyMuPDF
# string path to the PDF file
# file_path
def extract_text_from_pdf(file_path):
with fitz.open(file_path) as doc:
text = ""
for page in doc:
text += page.get_text()
return text
pdf_text = extract_text_from_pdf('example.pdf')
print(pdf_text)
-
- Reactions: 56
- Сообщения: 387
- Зарегистрирован: Ср авг 10, 2022 9:37 am
- Откуда: St Louis, USA
- Интересы: All
Re: PDF Reading
Супер! Проблема решена!Работяга писал(а): ↑Пт дек 08, 2023 2:33 pmКод: Выделить всё
# Install PyMuPDF # pip install PyMuPDF import fitz # PyMuPDF # string path to the PDF file # file_path def extract_text_from_pdf(file_path): with fitz.open(file_path) as doc: text = "" for page in doc: text += page.get_text() return text pdf_text = extract_text_from_pdf('example.pdf') print(pdf_text)
-
- Reactions: 56
- Сообщения: 387
- Зарегистрирован: Ср авг 10, 2022 9:37 am
- Откуда: St Louis, USA
- Интересы: All
Re: PDF Reading
Если что это сарказм был.
Те товарищи по ссылке сверху те документы что я им скормил тоже на 2+ справились
Те товарищи по ссылке сверху те документы что я им скормил тоже на 2+ справились
Re: PDF Reading
А вы хотеле, что бы вам эпп забабахали с PyTorch или TensorFlow, еще подогнали UI с Zoning for free Это тоже был сарказм.
-
- Reactions: 56
- Сообщения: 387
- Зарегистрирован: Ср авг 10, 2022 9:37 am
- Откуда: St Louis, USA
- Интересы: All
Re: PDF Reading
Я хотел чтобы тот кто это делал хотя бы в трех строчках описал суть проблемы
А если есть те кто этим занимается и может сделать так я и заплатить могу с удовольствием
А если есть те кто этим занимается и может сделать так я и заплатить могу с удовольствием
Re: PDF Reading
Проблема очень проста. PDF - изначально очень плохо структурированный формат. В худшем случае - это одна картинка в формате TIFF (обычно из сканера такое выходит).
Чтоб разoбрать, что изображено на картинке нужен хороший AI, да и тот не гарантирует.
Так что в общем случае хорошего ответа на ваш вопрос нет. Нужно смотреть конкретно на именно ваши входящие файлы и подбирать под них софт методом проб и ошибок.
«Либерал — это человек, слишком широко мыслящий, чтобы принять свою сторону в споре»
- Mad Hatter
- ⭐ Top 5 most interesting users
- Reactions: 2019
- Сообщения: 10267
- Зарегистрирован: Пн июн 13, 2022 7:22 am
Re: PDF Reading
Это по принципу - есть ли хороший Парсер Для ворда - А То У Микросовта Такого Нет...
К маю в распоряжении команды было 38,5 URL-адресов, ведущих на различные видео
Re: PDF Reading
Ну с тех пор OCR далеко продвинулся. Даже мой дешевый сканер имеет опцию Save as Searchable PDF, когда вместе с изображением сохраняет индекс из распознанных слов.
«Либерал — это человек, слишком широко мыслящий, чтобы принять свою сторону в споре»
- Mad Hatter
- ⭐ Top 5 most interesting users
- Reactions: 2019
- Сообщения: 10267
- Зарегистрирован: Пн июн 13, 2022 7:22 am
Re: PDF Reading
Конечно. В то время не было ML OCR как сейчас.
Re: PDF Reading
Ну если бы всё так было просто и легко, то моя компания не тратила бы по 150-200 миллионов в год на разработку OCR, а AWS вообще придлагал бесплатную опцию в пакете услуг и не чарджил чуть ли за каждое слово, плюс это стоимость будет капать на тренировке, а не в риальной жизне.
-
- Reactions: 56
- Сообщения: 387
- Зарегистрирован: Ср авг 10, 2022 9:37 am
- Откуда: St Louis, USA
- Интересы: All
Re: PDF Reading
У меня нет проблем сохранить PDF в текст. Задача другого плана, но в общем ситуацию я понял, keywords выучил попробуем покопать в сторону aws