Телеграмм чат группы scrapy

10:21пожаловаться #3

S

почему ты второй раз его трогаешь в цикле

10:21пожаловаться #4

AR

Andrey Rahmatullin in Scrapy

один урл со страницы или одну страницу?

10:21пожаловаться #5

ПА

Мне нужны все ссылки.

10:22пожаловаться #6

AR

Andrey Rahmatullin in Scrapy

а, ну да, селекторы кривые

10:22пожаловаться #7

ПА

SoHard 🎄

почему ты второй раз его трогаешь в цикле

Да хз, почему 🙂 Экспериментирую )

10:22пожаловаться #8

S

for link in body.xpath('//loc/text()').getall():
    yield {'url': link}

S

Так собирает только 1 URL. Примерно сделал вот так https://prnt.sc/vf1csu Но в файле стоки пустые, подскажите что тут не так?

Lightshot

Screenshot

Captured with Lightshot

удали Lightshot, он тебя к плохим действиям толкает

10:24пожаловаться #10

ПА

Почему?)

10:25пожаловаться #11

S

Павел Асеев

Почему?)

потому что вместо того чтобы скопировать твой код и помочь, все или забьют хер или будут писать всё с начала

10:27пожаловаться #12

ПА

Понял ) Спасибо огромное ) Всё работает.

The official source for NFL news, video highlights, fantasy football, game-day coverage, schedules, stats, scores and more.

10:27пожаловаться #13

8

85345 in Scrapy

Всем привет. При записывании даных в CSV файл нарушаеться порядок записи, а имено я указывал первым столбцом имя, вторым номер таблици и т.д. Но первым записываеться четвертая позиция. Никак не могу понят в чем дело.
Вот код:
# -*- coding: utf-8 -*-
import scrapy
from ..items import NhlItem
import re

class NhlSpider(scrapy.Spider):
name = 'nhl'
start_urls = [
'https://www.nfl.com/players/damiere-byrd/stats/logs/'
]

def parse(self, response):
items = {}
reqex = re.compile('(@\w+|\w+)', re.M)
for name in response.css('tbody'):
if name:
for i in range(len(name.xpath('//tr/td[1]/text()').getall())):
items['name'] = response.xpath('//*[@id="main-content"]/div[1]/div/section/div/div/div/h1/text()').get()
items['namber'] = re.findall('\d+', str(name.xpath('//tr/td[1]/text()').getall()))[i]
items['year'] = re.findall('\d+/\d+/\d+', str(name.xpath('//tr/td[2]/text()').getall()))[i]
opp = name.xpath('//tr/td[3]/text()').getall()[i]
items['opp'] = reqex.findall(opp)
items['result'] = re.findall('\w* \d+ - \d+', str(name.xpath('//tr/td[4]/text()').getall()))[i]
items['rec'] = re.findall('\d*', str(name.xpath('//tr/td[5]/text()').getall()))[i]
yield items

NFL.com

Damiere Byrd Game Stats | NFL.com

14:52пожаловаться #14

S

The official source for NFL news, video highlights, fantasy football, game-day coverage, schedules, stats, scores and more.

85345

Всем привет. При записывании даных в CSV файл нарушаеться порядок записи, а имено я указывал первым столбцом имя, вторым номер таблици и т.д. Но первым записываеться четвертая позиция. Никак не могу понят в чем дело.
Вот код:
# -*- coding: utf-8 -*-
import scrapy
from ..items import NhlItem
import re

class NhlSpider(scrapy.Spider):
name = 'nhl'
start_urls = [
'https://www.nfl.com/players/damiere-byrd/stats/logs/'
]

def parse(self, response):
items = {}
reqex = re.compile('(@\w+|\w+)', re.M)
for name in response.css('tbody'):
if name:
for i in range(len(name.xpath('//tr/td[1]/text()').getall())):
items['name'] = response.xpath('//*[@id="main-content"]/div[1]/div/section/div/div/div/h1/text()').get()
items['namber'] = re.findall('\d+', str(name.xpath('//tr/td[1]/text()').getall()))[i]
items['year'] = re.findall('\d+/\d+/\d+', str(name.xpath('//tr/td[2]/text()').getall()))[i]
opp = name.xpath('//tr/td[3]/text()').getall()[i]
items['opp'] = reqex.findall(opp)
items['result'] = re.findall('\w* \d+ - \d+', str(name.xpath('//tr/td[4]/text()').getall()))[i]
items['rec'] = re.findall('\d*', str(name.xpath('//tr/td[5]/text()').getall()))[i]
yield items

NFL.com

Damiere Byrd Game Stats | NFL.com

а какая разница? читай файл согласно подписей колонок

14:55пожаловаться #15

8

85345 in Scrapy

SoHard 🎄

а какая разница? читай файл согласно подписей колонок

Да интересно почему так происходит, раньше такого не было. Да и случаи разные бывают

14:56пожаловаться #16

8

85345 in Scrapy

И собственно говоря там я должен составлять условия что и как формируеться, а не фреймворк.

The official source for NFL news, video highlights, fantasy football, game-day coverage, schedules, stats, scores and more.

14:57пожаловаться #17

К

Кирилл in Scrapy

85345

Всем привет. При записывании даных в CSV файл нарушаеться порядок записи, а имено я указывал первым столбцом имя, вторым номер таблици и т.д. Но первым записываеться четвертая позиция. Никак не могу понят в чем дело.
Вот код:
# -*- coding: utf-8 -*-
import scrapy
from ..items import NhlItem
import re

class NhlSpider(scrapy.Spider):
name = 'nhl'
start_urls = [
'https://www.nfl.com/players/damiere-byrd/stats/logs/'
]

def parse(self, response):
items = {}
reqex = re.compile('(@\w+|\w+)', re.M)
for name in response.css('tbody'):
if name:
for i in range(len(name.xpath('//tr/td[1]/text()').getall())):
items['name'] = response.xpath('//*[@id="main-content"]/div[1]/div/section/div/div/div/h1/text()').get()
items['namber'] = re.findall('\d+', str(name.xpath('//tr/td[1]/text()').getall()))[i]
items['year'] = re.findall('\d+/\d+/\d+', str(name.xpath('//tr/td[2]/text()').getall()))[i]
opp = name.xpath('//tr/td[3]/text()').getall()[i]
items['opp'] = reqex.findall(opp)
items['result'] = re.findall('\w* \d+ - \d+', str(name.xpath('//tr/td[4]/text()').getall()))[i]
items['rec'] = re.findall('\d*', str(name.xpath('//tr/td[5]/text()').getall()))[i]
yield items

NFL.com

Damiere Byrd Game Stats | NFL.com

А где ты тут указал порядок?

15:47пожаловаться #18

8

85345 in Scrapy

Кирилл

А где ты тут указал порядок?

Поочередно записал в items.py

15:48пожаловаться #19

8

85345 in Scrapy

class NhlItem(scrapy.Item):
# define the fields for your item here like:
name = scrapy.Field()
namber = scrapy.Field()
year = scrapy.Field()
opp = scrapy.Field()
result = scrapy.Field()
rec = scrapy.Field7