Телеграмм чат группы python_scripts страница 30843

from PyPDF2 import PdfFileWriter, PdfFileReader

with open("/home/backhub/PycharmProjects/PDFParser/fol/e084_1.pdf", "rb") as in_f:
    input1 = PdfFileReader(in_f)
    output = PdfFileWriter()

    numPages = input1.getNumPages()
    print("document has %s pages." % numPages)

    for i in range(numPages):
        page = input1.getPage(i)
        print(page.mediaBox.getUpperRight_x(), page.mediaBox.getUpperRight_y())
        page.trimBox.lowerLeft = (250, 250)
        page.trimBox.upperRight = (225, 225)
        page.cropBox.lowerLeft = (10, 270)
        page.cropBox.upperRight = (1000, 775)
        output.addPage(page)

    with open("out.pdf", "wb") as out_f:
        output.write(out_f)

Пдф обрезал, но при парсинге все равно выскакивает текст такой же как на оригинале файла.
Может у кого-нибудь есть мысли на этот счет?
(Парсил с помощью pdfminer и PyPDF2)

источник

14:59пожаловаться #7

ᅠ

ᅠ in Сообщество Python Программистов

Это Бенз

источник

16:30пожаловаться #8

ᅠ

ᅠ in Сообщество Python Программистов

источник

16:30пожаловаться #9

let45fc in Сообщество Python Программистов

Сколько тестов написал еще спроси)

источник

16:31пожаловаться #10

¯\_(ツ)_/¯ in Сообщество Python Программистов

0 )

источник

16:36пожаловаться #11

ЖК

ЖЕНЯ КАРПЕНКО... in Сообщество Python Программистов

у меня вопрос а разве можно парсить текст в пдф и зачем?

источник

16:38пожаловаться #12

¯\_(ツ)_/¯ in Сообщество Python Программистов

парсить текст в пдф, это как ?

источник

16:39пожаловаться #13

ЖК

ЖЕНЯ КАРПЕНКО... in Сообщество Python Программистов

Переслано от Tamirlan

from PyPDF2 import PdfFileWriter, PdfFileReader

with open("/home/backhub/PycharmProjects/PDFParser/fol/e084_1.pdf", "rb") as in_f:
    input1 = PdfFileReader(in_f)
    output = PdfFileWriter()

    numPages = input1.getNumPages()
    print("document has %s pages." % numPages)

    for i in range(numPages):
        page = input1.getPage(i)
        print(page.mediaBox.getUpperRight_x(), page.mediaBox.getUpperRight_y())
        page.trimBox.lowerLeft = (250, 250)
        page.trimBox.upperRight = (225, 225)
        page.cropBox.lowerLeft = (10, 270)
        page.cropBox.upperRight = (1000, 775)
        output.addPage(page)

    with open("out.pdf", "wb") as out_f:
        output.write(out_f)