Size: a a a

Сообщество Python Программистов

2021 June 24

<Юрий> 👨‍🔬 Чеб... in Сообщество Python Программистов
хотя в code with me не переключиться на браузер к сожалению
источник

Д

Дима™ in Сообщество Python Программистов
я все еще жду, когда боты смогут в гс говорить ты о чем
источник

<Юрий> 👨‍🔬 Чеб... in Сообщество Python Программистов
не думаю, что дождёмся
источник

<Юрий> 👨‍🔬 Чеб... in Сообщество Python Программистов
юзерботы разве что
источник

Д

Дима™ in Сообщество Python Программистов
((
источник

Д

Дима™ in Сообщество Python Программистов
а было бы классно
источник

T

Tamirlan in Сообщество Python Программистов
Всем привет. Цель такая: хочу спарсить текст из пдф, но если парсить весь текст, то там много мусора получается. Решил обрезать пдф следующим кодом:
from PyPDF2 import PdfFileWriter, PdfFileReader

with open("/home/backhub/PycharmProjects/PDFParser/fol/e084_1.pdf", "rb") as in_f:
   input1 = PdfFileReader(in_f)
   output = PdfFileWriter()

   numPages = input1.getNumPages()
   print("document has %s pages." % numPages)

   for i in range(numPages):
       page = input1.getPage(i)
       print(page.mediaBox.getUpperRight_x(), page.mediaBox.getUpperRight_y())
       page.trimBox.lowerLeft = (250, 250)
       page.trimBox.upperRight = (225, 225)
       page.cropBox.lowerLeft = (10, 270)
       page.cropBox.upperRight = (1000, 775)
       output.addPage(page)

   with open("out.pdf", "wb") as out_f:
       output.write(out_f)


Пдф обрезал, но при парсинге все равно выскакивает текст такой же как на оригинале файла.
Может у кого-нибудь есть мысли на этот счет?
(Парсил с помощью pdfminer и PyPDF2)
источник

in Сообщество Python Программистов
Это Бенз
источник

in Сообщество Python Программистов
источник

l

let45fc in Сообщество Python Программистов
Сколько тестов написал еще спроси)
источник

¯

¯\_(ツ)_/¯  in Сообщество Python Программистов
0 )
источник

ЖК

ЖЕНЯ КАРПЕНКО... in Сообщество Python Программистов
у меня вопрос а разве можно парсить текст в пдф и зачем?
источник

¯

¯\_(ツ)_/¯  in Сообщество Python Программистов
парсить текст в пдф, это как ?
источник

ЖК

ЖЕНЯ КАРПЕНКО... in Сообщество Python Программистов
Переслано от Tamirlan
Всем привет. Цель такая: хочу спарсить текст из пдф, но если парсить весь текст, то там много мусора получается. Решил обрезать пдф следующим кодом:
from PyPDF2 import PdfFileWriter, PdfFileReader

with open("/home/backhub/PycharmProjects/PDFParser/fol/e084_1.pdf", "rb") as in_f:
   input1 = PdfFileReader(in_f)
   output = PdfFileWriter()

   numPages = input1.getNumPages()
   print("document has %s pages." % numPages)

   for i in range(numPages):
       page = input1.getPage(i)
       print(page.mediaBox.getUpperRight_x(), page.mediaBox.getUpperRight_y())
       page.trimBox.lowerLeft = (250, 250)
       page.trimBox.upperRight = (225, 225)
       page.cropBox.lowerLeft = (10, 270)
       page.cropBox.upperRight = (1000, 775)
       output.addPage(page)

   with open("out.pdf", "wb") as out_f:
       output.write(out_f)


Пдф обрезал, но при парсинге все равно выскакивает текст такой же как на оригинале файла.
Может у кого-нибудь есть мысли на этот счет?
(Парсил с помощью pdfminer и PyPDF2)
источник

¯

¯\_(ツ)_/¯  in Сообщество Python Программистов
Если у тебя есть пдф файл, есть библиотеки позоляющие с ним работать, с их помощью получи нужный текст и парсь его как тебе нужно
источник

ЖК

ЖЕНЯ КАРПЕНКО... in Сообщество Python Программистов
понятно
источник

<Юрий> 👨‍🔬 Чеб... in Сообщество Python Программистов
не хочу созвон
источник

<Юрий> 👨‍🔬 Чеб... in Сообщество Python Программистов
источник

AM

Alexander Morozov in Сообщество Python Программистов
При обработке поступивших извне документов часто нужно. Но не всегда нормально получается. Слишком развесистый это формат - pdf.
источник

in Сообщество Python Программистов
У меня был созвон на 6 часов.
Дебажили старый бэк на джаве
источник