Телеграмм чат группы scrapy

Size: a a a

Scrapy

2020 April 02

Well, it not needed in your code(maybe), cause you calling callback by name, but in most cases it should be overrided and you even don't have to callback for parse() method, cause start_requests by design will firstly call parse()

источник

06:23пожаловаться #1

ildar in Scrapy

camilo

I can't change for parse, because parse overrides Crawlspider

Anyway, that not the point, the error is here:

источник

06:23пожаловаться #2

ildar in Scrapy

Переслано от ildar

Oh, I've found your error

источник

06:24пожаловаться #3

ildar in Scrapy

Переслано от ildar

You iterating by num, not by urls))

источник

06:24пожаловаться #4

ildar in Scrapy

Переслано от ildar

See "for url in num" )

источник

06:24пожаловаться #5

camilo in Scrapy

I am converting urls to a list of tuples and then iterate on this

источник

06:26пожаловаться #6

ildar in Scrapy

camilo

I am converting urls to a list of tuples and then iterate on this

are you sure? when I'm trying you code, I'm getting error

ildar in Scrapy

ildar in Scrapy

and why do you need this? You can write just
urls=tuple(urls)
or
urls=tuple(set(urls)) in case you need to eliminate dublicates. but actually you don't need this, cause scrapy has built in dupefilter

источник

06:38пожаловаться #9

camilo in Scrapy

ildar

and why do you need this? You can write just
urls=tuple(urls)
or
urls=tuple(set(urls)) in case you need to eliminate dublicates. but actually you don't need this, cause scrapy has built in dupefilter

I turn 1 into 2

источник

06:48пожаловаться #10

ildar in Scrapy

maybe you need to extract them somehow from here: "Each produced link will be used to generate a Request object, which will contain the link’s text in its meta dictionary (under the link_text key)"?

источник

07:13пожаловаться #11

ildar in Scrapy

I'm just reading the docs, never worked with crawlspider before and want to begin use it

источник

07:14пожаловаться #12

ildar in Scrapy

hmm, ahaaa: the received Response object will contain the text of the link that produced the Request in its meta dictionary (under the link_text key)

источник

07:15пожаловаться #13

ildar in Scrapy

so, https://scrapy.readthedocs.io/en/latest/topics/spiders.html#crawlspider-example

источник

07:17пожаловаться #14

ildar in Scrapy

item['link_text'] = response.meta['link_text']

источник

07:17пожаловаться #15

AБ

Asen Баал in Scrapy

ребят, мне нужно две вещи. Запись нажатых ссылок и вводимых данных. Как это можно сделать?

источник

07:40пожаловаться #16

AБ

Asen Баал in Scrapy

В дальнейшем аналогичные действия будут повторяться в селениуме, только с другими вводимыми данными.
Видел iMacros. В целом как бы и вариант, но несколько более замороченный, придётся приеобразовывать тэги, потом искать их. Хотелось бы просто ссылки сразу получать

источник

07:46пожаловаться #17

AБ

Asen Баал in Scrapy

хотя щяс полазил, у iMacros несколько способов записи, так что можно выбрать нужный

источник

08:02пожаловаться #18

rtme in Scrapy

Подскажите, есть сеты табличных данных в консоли показано количество td в сете. (название ячейки и значение)

Таких сетов почти 15к. Есть решение лучше чем на ходу создавать колонки под название ячейки чтобы сохранить в нормальном виде ?

(проверять наличие колонки, сохранять значение)

источник

08:16пожаловаться #19

rtme in Scrapy

источник

08:16пожаловаться #20