Телеграмм чат группы scrapy

Хелп плиз. При скачивании таблици в CSV заголовки идут не по порядку начиная с 4 позиции и начинаются путаться при сохранении правильности описания. Так вот не могу выровнять заголовки никак чтобы шли по порядку. Мне тут дали инфу что рыть нужно в этом https://docs.scrapy.org/en/latest/topics/feed-exports.html#feed-export-fields направлении.
Но я никак не могу понять куда пихать это FEED_EXPORT_FIELDS = ["foo", "bar", "baz"]

источник

21:30пожаловаться #8

AR

Andrey Rahmatullin in Scrapy

это настройка.

источник

21:34пожаловаться #9

AR

Andrey Rahmatullin in Scrapy

впрочем "заголовки идут не по порядку" это не про то

источник

21:34пожаловаться #10

D

Dmitrij in Scrapy

Скажите, пожалуйста, правильно ли я понимаю смысл параметра CONCURRENT_REQUESTS. Если, например, мне нужно соскрапить данные со 128 линков, и я установлю этот параметр равным 128, то скрапи в первую же секунду работы отправит запросы на все 128 страницы? Или это как-то по-другому работает?

источник

21:44пожаловаться #11

AR

Andrey Rahmatullin in Scrapy

плюс-минус да

источник

21:50пожаловаться #12

8

85345 in Scrapy

Andrey Rahmatullin

это настройка.

над чем настройка? Обясни детальнее плз
вот кодь:

источник

22:02пожаловаться #13

8

85345 in Scrapy

class NhlSpider(scrapy.Spider):
name = 'nhl'
start_urls = [
'https://www.nfl.com/players/marcus-allen-2/stats/logs/'
]

def parse(self, response):
items = {}
for name in response.xpath('//section[3]/div/div[1]/div/div[2]'):
if name:
for i in range(len(name.xpath('//*[@id="main-content"]/section[3]/div/div[1]/div/div[2]/table/tbody/tr/td[1]/text()').getall())):
opp = name.xpath('//tr/td[3]/text()')[i].get()
reqex = re.compile('(@\w+|\w+)', re.M)
items['namber'] = re.findall('\d+', str(name.xpath('//tr/td[1]/text()')[i].get()))
items['names'] = response.xpath('//*[@id="main-content"]/div[1]/div/section/div/div/div/h1/text()').get()
items['year'] = re.findall('\d+/\d+/\d+', str(name.xpath('//tr/td[2]/text()')[i].get()))
items['opp'] = reqex.findall(opp)
items['result'] = re.findall('\w* \d+ - \d+', str(name.xpath('//tr/td[4]/text()')[i].get()))
items['namber'] = 'None'
try:
items['rec'] = re.findall('\d', str(name.xpath('//tr/td[5]/text()')[i].get()))
except Exception:
items['rec'] = None
yield items

NFL.com

Marcus Allen Game Stats | NFL.com

The official source for NFL news, video highlights, fantasy football, game-day coverage, schedules, stats, scores and more.

источник

22:02пожаловаться #14

S

SoHard 🎄 in Scrapy

85345

над чем настройка? Обясни детальнее плз
вот кодь:

settings.py

источник

22:02пожаловаться #15

AR

Andrey Rahmatullin in Scrapy

85345

над чем настройка? Обясни детальнее плз
вот кодь:

вопрос был куда писать - ответ писать туда, куда пишутся другие настройки

источник

22:02пожаловаться #16

AR

Andrey Rahmatullin in Scrapy

85345

class NhlSpider(scrapy.Spider):
name = 'nhl'
start_urls = [
'https://www.nfl.com/players/marcus-allen-2/stats/logs/'
]

def parse(self, response):
items = {}
for name in response.xpath('//section[3]/div/div[1]/div/div[2]'):
if name:
for i in range(len(name.xpath('//*[@id="main-content"]/section[3]/div/div[1]/div/div[2]/table/tbody/tr/td[1]/text()').getall())):
opp = name.xpath('//tr/td[3]/text()')[i].get()
reqex = re.compile('(@\w+|\w+)', re.M)
items['namber'] = re.findall('\d+', str(name.xpath('//tr/td[1]/text()')[i].get()))
items['names'] = response.xpath('//*[@id="main-content"]/div[1]/div/section/div/div/div/h1/text()').get()
items['year'] = re.findall('\d+/\d+/\d+', str(name.xpath('//tr/td[2]/text()')[i].get()))
items['opp'] = reqex.findall(opp)
items['result'] = re.findall('\w* \d+ - \d+', str(name.xpath('//tr/td[4]/text()')[i].get()))
items['namber'] = 'None'
try:
items['rec'] = re.findall('\d', str(name.xpath('//tr/td[5]/text()')[i].get()))
except Exception:
items['rec'] = None
yield items

NFL.com

Marcus Allen Game Stats | NFL.com

The official source for NFL news, video highlights, fantasy football, game-day coverage, schedules, stats, scores and more.

код говно, а что именно там объяснять?

источник

22:03пожаловаться #17

S

SoHard 🎄 in Scrapy

85345

class NhlSpider(scrapy.Spider):
name = 'nhl'
start_urls = [
'https://www.nfl.com/players/marcus-allen-2/stats/logs/'
]

def parse(self, response):
items = {}
for name in response.xpath('//section[3]/div/div[1]/div/div[2]'):
if name:
for i in range(len(name.xpath('//*[@id="main-content"]/section[3]/div/div[1]/div/div[2]/table/tbody/tr/td[1]/text()').getall())):
opp = name.xpath('//tr/td[3]/text()')[i].get()
reqex = re.compile('(@\w+|\w+)', re.M)
items['namber'] = re.findall('\d+', str(name.xpath('//tr/td[1]/text()')[i].get()))
items['names'] = response.xpath('//*[@id="main-content"]/div[1]/div/section/div/div/div/h1/text()').get()
items['year'] = re.findall('\d+/\d+/\d+', str(name.xpath('//tr/td[2]/text()')[i].get()))
items['opp'] = reqex.findall(opp)
items['result'] = re.findall('\w* \d+ - \d+', str(name.xpath('//tr/td[4]/text()')[i].get()))
items['namber'] = 'None'
try:
items['rec'] = re.findall('\d', str(name.xpath('//tr/td[5]/text()')[i].get()))
except Exception:
items['rec'] = None
yield items

NFL.com

Marcus Allen Game Stats | NFL.com

The official source for NFL news, video highlights, fantasy football, game-day coverage, schedules, stats, scores and more.

в скрапи есть метод re() re_first()

источник

22:06пожаловаться #18

S

SoHard 🎄 in Scrapy

reqex.findall(opp)

источник

22:07пожаловаться #19

S

SoHard 🎄 in Scrapy

это чтоблядьтакое

источник

22:07пожаловаться #20