Телеграмм чат группы scrapy_python страница 2176

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Scrapy

684 membersпожаловаться на группу

2020 November 06

A

Anton in Scrapy

Ребят привет! Пытаюсь через apscheduler запустить паука через CrawlerProcess , использую TwistedSchaduler(), но как бы без разницы все перепробовал - виснет на telnet console listening on port . Никаких багов , ничего. Запускал в ручную паука все собирает и везде рассовывает как надо. Идеи закончились, что полезно показать? Или может кто то сталкивался?

источник

21:00пожаловаться #1

МС

Михаил Синегубов... in Scrapy

Ребят привет! Пытаюсь через apscheduler запустить паука через CrawlerProcess , использую TwistedSchaduler(), но как бы без разницы все перепробовал - виснет на telnet console listening on port . Никаких багов , ничего. Запускал в ручную паука все собирает и везде рассовывает как надо. Идеи закончились, что полезно показать? Или может кто то сталкивался?

никогда не работал с apscheduler, но, вангую, что быстрее помогут, если напишешь как делал

источник

21:36пожаловаться #2

8

85345 in Scrapy

Проблемный код.png

источник

21:38пожаловаться #3

8

85345 in Scrapy

Всем привет народ нужна помощь в разборе роботы парсера. При запуске паучка он соскребает с первой страници и переходит на вторую. Соскребав вторую (там только 2 страници) он возвращается на первую и опять соскребает её. В итоги я получаю две первых страници и одну вторую что не хорошо, по идеи на второй страници он должен остановиться.
Скрин прикладываю, заранее благодарен.

источник

21:38пожаловаться #4

A

Anton in Scrapy

Михаил Синегубов

никогда не работал с apscheduler, но, вангую, что быстрее помогут, если напишешь как делал

Сейчас попробую ещё через CrawlerRunner, если застряну опишу, спасибо!

источник

21:39пожаловаться #5

МС

Михаил Синегубов... in Scrapy

85345

Всем привет народ нужна помощь в разборе роботы парсера. При запуске паучка он соскребает с первой страници и переходит на вторую. Соскребав вторую (там только 2 страници) он возвращается на первую и опять соскребает её. В итоги я получаю две первых страници и одну вторую что не хорошо, по идеи на второй страници он должен остановиться.
Скрин прикладываю, заранее благодарен.

1. нахрен скрины
2. первый раз ты заходишь так, как старт_урлс, втрой раз в окончании ?page=1 или как то так

источник

21:42пожаловаться #6

МС

Михаил Синегубов... in Scrapy

от я щас даже не полезу на сайт, что бы ткнуть в ошибку, ибо лениво адрес набирать

источник

21:43пожаловаться #7

8

85345 in Scrapy

Михаил Синегубов

1. нахрен скрины
2. первый раз ты заходишь так, как старт_урлс, втрой раз в окончании ?page=1 или как то так

1. Ну как зачем скрин?) Свой чудо код показать и нагляднее к томуже
2. Правильно он старт урл собирает и переходит на другую страничку. Но какого он после другой страници возвращаеться на старт урл?

источник

21:47пожаловаться #8

МС

Михаил Синегубов... in Scrapy

class PositionSpider(scrapy.Spider):
    name = 'position'
    allowed_domains = ['wildberries.ru']
    start_urls = [
        'https://www.wildberries.ru/catalog/zhenshchinam',
        'https://www.wildberries.ru/catalog/muzhchinam',
        'https://www.wildberries.ru/catalog/detyam',
        'https://www.wildberries.ru/catalog/sport',
        'https://www.wildberries.ru/promotions'
    ]

    def parse(self, response, **kwargs):
        pass

источник

21:47пожаловаться #9

МС

Михаил Синегубов... in Scrapy

а так совсем низзя, или на пастебин какой если простынь здоровая

источник

21:48пожаловаться #10

МС

Михаил Синегубов... in Scrapy

если он вернулся на ту же страницу, значит ссыль другая, он по умолчанию фильтрует отдинаковые ссылки

источник

21:48пожаловаться #11

A

Andrii in Scrapy

а еще лучше кидать весь код паука, что б просто вставить и запустить😐

источник

21:50пожаловаться #12

8

85345 in Scrapy

Михаил Синегубов

class PositionSpider(scrapy.Spider):
    name = 'position'
    allowed_domains = ['wildberries.ru']
    start_urls = [
        'https://www.wildberries.ru/catalog/zhenshchinam',
        'https://www.wildberries.ru/catalog/muzhchinam',
        'https://www.wildberries.ru/catalog/detyam',
        'https://www.wildberries.ru/catalog/sport',
        'https://www.wildberries.ru/promotions'
    ]

    def parse(self, response, **kwargs):
        pass

Можно и так, не думал что комуто скрин глаза будет резать..

источник

21:50пожаловаться #13

8

85345 in Scrapy

85345

Можно и так, не думал что комуто скрин глаза будет резать..

да и кода там ничего

источник

21:51пожаловаться #14

МС

Михаил Синегубов... in Scrapy

85345

да и кода там ничего

угу, Андрей, вон, уже запустил бы и посмотрел ошибку. А так - нахреннахрен, перенабирать со скрина...

источник

21:52пожаловаться #15

8

85345 in Scrapy

import scrapy
from ..items import NhlItem

class NhlSpider(scrapy.Spider):
name = 'nhl'
start_urls = [
'https://www.nfl.com/players/active/a?query=a&after='
]

def parse(self, response):
items = NhlItem()
next_page_url = response.xpath('//div[@class="nfl-o-table-pagination__buttons"]/a/@href').extract_first()
part_href = response.xpath('//div[@class="d3-o-media-object"]/a[@class="d3-o-player-fullname nfl-o-cta--link"]/@href').extract()

href = []
for href_str in part_href:
hr = href.append('https://www.nfl.com%sstats/logs/' % href_str)
hr2 = 'https://www.nfl.com%sstats/logs/' % href_str
items['href'] = href
yield items

if next_page_url is not None:
yield scrapy.Request(response.urljoin(next_page_url))

NFL Players | Past & Current NFL Players | NFL.com

The official source for NFL news, video highlights, fantasy football, game-day coverage, schedules, stats, scores and more.

источник

21:53пожаловаться #16

8

85345 in Scrapy

Посмотрел детальнее с учетом новой инфы, там рили переходы интересные

источник

21:55пожаловаться #17

8

85345 in Scrapy

https://www.nfl.com/players/active/a?query=a&after= Это первая как и эта https://www.nfl.com/players/active/a

а вот это уже вторая https://www.nfl.com/players/active/a?query=a&after=c2ltcGxlLWN1cnNvcjk5

NFL Players | Past & Current NFL Players | NFL.com

The official source for NFL news, video highlights, fantasy football, game-day coverage, schedules, stats, scores and more.

источник

21:57пожаловаться #18

8

85345 in Scrapy

По этому scrapy и путался

источник

21:57пожаловаться #19

A

Andrii in Scrapy

почему скрапи? логика парсера

источник

21:59пожаловаться #20