Size: a a a

2020 November 07

S

SoHard 🎄 in Scrapy
85345
requests_html поддерживает js
ток там хромдрайвер под капотом
источник

8

85345 in Scrapy
SoHard 🎄
ток там хромдрайвер под капотом
не буду спорить
источник

И

Илья in Scrapy
Ок, что нибудь попробую, спасибо
источник

S

SoHard 🎄 in Scrapy
85345
не буду спорить
источник

S

SoHard 🎄 in Scrapy
почти тот же селениум
источник

8

85345 in Scrapy
SoHard 🎄
почти тот же селениум
безголовый только
источник

S

SoHard 🎄 in Scrapy
85345
безголовый только
это и в обычном можно сделать
источник

8

85345 in Scrapy
Хелп плиз. При скачивании таблици в CSV заголовки идут не по порядку начиная с 4 позиции и начинаются путаться при сохранении правильности описания. Так вот не могу выровнять заголовки никак чтобы шли по порядку. Мне тут дали инфу что рыть нужно в этом https://docs.scrapy.org/en/latest/topics/feed-exports.html#feed-export-fields направлении.
Но я никак не могу понять куда пихать это FEED_EXPORT_FIELDS = ["foo", "bar", "baz"]
источник

AR

Andrey Rahmatullin in Scrapy
это настройка.
источник

AR

Andrey Rahmatullin in Scrapy
впрочем "заголовки идут не по порядку" это не про то
источник

D

Dmitrij in Scrapy
Скажите, пожалуйста, правильно ли я понимаю смысл параметра CONCURRENT_REQUESTS. Если, например, мне нужно соскрапить данные со 128 линков, и я установлю этот параметр равным 128, то скрапи в первую же секунду работы отправит запросы на все 128 страницы? Или это как-то по-другому работает?
источник

AR

Andrey Rahmatullin in Scrapy
плюс-минус да
источник

8

85345 in Scrapy
Andrey Rahmatullin
это настройка.
над чем настройка? Обясни детальнее плз
вот кодь:
источник

8

85345 in Scrapy
class NhlSpider(scrapy.Spider):
   name = 'nhl'
   start_urls = [
       'https://www.nfl.com/players/marcus-allen-2/stats/logs/'
   ]

   def parse(self, response):
       items = {}
       for name in response.xpath('//section[3]/div/div[1]/div/div[2]'):
           if name:
               for i in range(len(name.xpath('//*[@id="main-content"]/section[3]/div/div[1]/div/div[2]/table/tbody/tr/td[1]/text()').getall())):
                   opp = name.xpath('//tr/td[3]/text()')[i].get()
                   reqex = re.compile('(@\w+|\w+)', re.M)
                   items['namber'] = re.findall('\d+', str(name.xpath('//tr/td[1]/text()')[i].get()))
                   items['names'] = response.xpath('//*[@id="main-content"]/div[1]/div/section/div/div/div/h1/text()').get()
                   items['year'] = re.findall('\d+/\d+/\d+', str(name.xpath('//tr/td[2]/text()')[i].get()))
                   items['opp'] = reqex.findall(opp)
                   items['result'] = re.findall('\w* \d+ - \d+', str(name.xpath('//tr/td[4]/text()')[i].get()))
                   items['namber'] = 'None'
                   try:
                       items['rec'] = re.findall('\d', str(name.xpath('//tr/td[5]/text()')[i].get()))
                   except Exception:
                       items['rec'] = None
                   yield items
источник

S

SoHard 🎄 in Scrapy
85345
над чем настройка? Обясни детальнее плз
вот кодь:
источник

AR

Andrey Rahmatullin in Scrapy
85345
над чем настройка? Обясни детальнее плз
вот кодь:
вопрос был куда писать - ответ писать туда, куда пишутся другие настройки
источник

AR

Andrey Rahmatullin in Scrapy
85345
class NhlSpider(scrapy.Spider):
   name = 'nhl'
   start_urls = [
       'https://www.nfl.com/players/marcus-allen-2/stats/logs/'
   ]

   def parse(self, response):
       items = {}
       for name in response.xpath('//section[3]/div/div[1]/div/div[2]'):
           if name:
               for i in range(len(name.xpath('//*[@id="main-content"]/section[3]/div/div[1]/div/div[2]/table/tbody/tr/td[1]/text()').getall())):
                   opp = name.xpath('//tr/td[3]/text()')[i].get()
                   reqex = re.compile('(@\w+|\w+)', re.M)
                   items['namber'] = re.findall('\d+', str(name.xpath('//tr/td[1]/text()')[i].get()))
                   items['names'] = response.xpath('//*[@id="main-content"]/div[1]/div/section/div/div/div/h1/text()').get()
                   items['year'] = re.findall('\d+/\d+/\d+', str(name.xpath('//tr/td[2]/text()')[i].get()))
                   items['opp'] = reqex.findall(opp)
                   items['result'] = re.findall('\w* \d+ - \d+', str(name.xpath('//tr/td[4]/text()')[i].get()))
                   items['namber'] = 'None'
                   try:
                       items['rec'] = re.findall('\d', str(name.xpath('//tr/td[5]/text()')[i].get()))
                   except Exception:
                       items['rec'] = None
                   yield items
код говно, а что именно там объяснять?
источник

S

SoHard 🎄 in Scrapy
85345
class NhlSpider(scrapy.Spider):
   name = 'nhl'
   start_urls = [
       'https://www.nfl.com/players/marcus-allen-2/stats/logs/'
   ]

   def parse(self, response):
       items = {}
       for name in response.xpath('//section[3]/div/div[1]/div/div[2]'):
           if name:
               for i in range(len(name.xpath('//*[@id="main-content"]/section[3]/div/div[1]/div/div[2]/table/tbody/tr/td[1]/text()').getall())):
                   opp = name.xpath('//tr/td[3]/text()')[i].get()
                   reqex = re.compile('(@\w+|\w+)', re.M)
                   items['namber'] = re.findall('\d+', str(name.xpath('//tr/td[1]/text()')[i].get()))
                   items['names'] = response.xpath('//*[@id="main-content"]/div[1]/div/section/div/div/div/h1/text()').get()
                   items['year'] = re.findall('\d+/\d+/\d+', str(name.xpath('//tr/td[2]/text()')[i].get()))
                   items['opp'] = reqex.findall(opp)
                   items['result'] = re.findall('\w* \d+ - \d+', str(name.xpath('//tr/td[4]/text()')[i].get()))
                   items['namber'] = 'None'
                   try:
                       items['rec'] = re.findall('\d', str(name.xpath('//tr/td[5]/text()')[i].get()))
                   except Exception:
                       items['rec'] = None
                   yield items
в скрапи есть метод re() re_first()
источник

S

SoHard 🎄 in Scrapy
reqex.findall(opp)
источник

S

SoHard 🎄 in Scrapy
это чтоблядьтакое
источник