Телеграмм чат группы scrapy

Но Андрей обломал мне всю малину 😊

13:54пожаловаться #1

🎱

ребят, мне нужно спарсить c этого сайта : http://www.tauntondeeds.com/Searches/ImageSearch.aspx
но после клика на Search Land Court ссылка остается неизменной. Там как то через ajax запрос подгружаются данные.

Так вот, мне нужно использовать selenium чтоб заполнить поля или есть другой способ получения данных?

13:56пожаловаться #2

AR

https://docs.scrapy.org/en/latest/topics/dynamic-content.html

13:56пожаловаться #3

🎱

спс

К

вот, я когда-то тоже хотел неизведанного...

90% что когда хочешь непонятного, то человек пытается закрутить гвоздь молотком

13:57пожаловаться #5

i

Vladyslav Babych

Я так предполагаю

вобщем, у тебя взлетит, если ты сначала все пауки проинициализируешь своими настройками а потом их уже начнешь запускать.
типа
runner_ed = CrawlerRunner(settings_ed)
runner_non_ed = CrawlerRunner(settings_non_ed)
а потом через
@defer.inlineCallbacks
def crawl():
yield runner_ed.crawl(blabla.spiders.blaspider.BlaSpiderSpider)
yield runner_non_ed.crawl(blabla.spiders.bla_spider_non_ed.BlaSpiderSpiderNonEd)
reactor.stop()

14:01пожаловаться #6

i

в данном случае мне нужен был последовательный запуск

14:01пожаловаться #7

i

инициализируешь как-то так:
settings_non_ed = get_project_settings()
settings_ed['FEED_URI'] = 'file:///' + my.base_dir + bla.settings.BOT_NAME + '/out_ed.csv'
settings_non_ed['FEED_URI'] = 'file:///' + out_csv_non_ed

14:03пожаловаться #8

i

блин, надо бы переписать это дело на os.path.join, вопрос только как туда добавить file:/// если просто впихать туда сработает интересно...

14:04пожаловаться #9

🎱

🎱

ребят, мне нужно спарсить c этого сайта : http://www.tauntondeeds.com/Searches/ImageSearch.aspx
но после клика на Search Land Court ссылка остается неизменной. Там как то через ajax запрос подгружаются данные.

Так вот, мне нужно использовать selenium чтоб заполнить поля или есть другой способ получения данных?

там еще даты надо проставить, и выбрать тип документа скрапи в это умеет?

14:05пожаловаться #10

AR

это некорректный вопрос

14:05пожаловаться #11

AR

скрапи на таком уровне не работает

14:05пожаловаться #12

i

мда, file:/// отбрасывает гад:

14:06пожаловаться #13

🎱

Andrey Rahmatullin

это некорректный вопрос

понял, прошу прощения, тогда для этих целей связку scrapy + selenium использовать ?

14:06пожаловаться #14

AR

нет, надо читать ссылку выше и понимать, что смотреть

14:06пожаловаться #15

AR

чтобы понять, что вопрос выше некорректен

14:07пожаловаться #16

i

во валит!)

14:07пожаловаться #17

VB

Vladyslav Babych in Scrapy

ildar

инициализируешь как-то так:
settings_non_ed = get_project_settings()
settings_ed['FEED_URI'] = 'file:///' + my.base_dir + bla.settings.BOT_NAME + '/out_ed.csv'
settings_non_ed['FEED_URI'] = 'file:///' + out_csv_non_ed

Бомба, спасибо

14:07пожаловаться #18

AR

если надо отправить запрос, скрапи может отправить запрос, скрапи не надо для этого "даты проставить"

14:07пожаловаться #19

К

Кирилл in Scrapy

ildar

мда, file:/// отбрасывает гад:

path и так работает с fs, ему не нужна схема