Телеграмм чат группы scrapy

цикл - там просто перебор списка пауков проверка, можно их запускать или нет

17:29пожаловаться #1

В принципе, я так и делаю.

17:31пожаловаться #2

class Parse:
def init(self, limit):
self.output = {}
self.limit = limit
self.runner = CrawlerRunner(settings={'LOG_ENABLED': False})

def store_data(self, data):
self.output[data[0]['from_site']] = data

@defer.inlineCallbacks
def run_spiders(self):
print(self.limit.str())

runner = CrawlerRunner()
for spider in spiders_list:
yield runner.crawl(spider, callback=self.store_data, limit_published_date=self.limit)
self.limit = datetime.datetime.now()
reactor.stop()

# reactor.stop()

class Matching:
def init(self, data):
self.output = []
self.runner = CrawlerRunner()
self.data = data

def yield_output(self, data):
self.output.append(data)

@defer.inlineCallbacks
def crawl(self):
for site in self.data:
if site == 'TatarInform':
continue
for other_news in self.data[site]:
news_lst = []
for ti_news in self.data['TatarInform']:
news_lst.append([other_news, ti_news])

yield self.runner.crawl(MatchSpider, news_lst)
reactor.stop()

if name == 'main':

parser = Parse(limit=datetime.datetime.now() - datetime.timedelta(minutes=20))
parser.run_spiders()
reactor.run()

match = Matching(parser.output)
match.crawl()

17:31пожаловаться #3

Просто мне нужно запускать Crawl() c class Parse и crawl() c class Match

17:32пожаловаться #4

17:32пожаловаться #5

Чего-то я намудрил. Всё разобрался. Извиняюсь за такой глупый вопрос. Осталось только в def crawl засунуть цикл While True. Благодарю.

18:15пожаловаться #6

МС

🤣, ты обращайся, мы любим "уточками" работать :)

18:18пожаловаться #7

Semyon Krutolevich in Scrapy

😂😂

20:25пожаловаться #8

2021 June 02

Здравствуйте.По BeautifulSoup вопрос можно задать?На стаковерфлоу вопрос

10:59пожаловаться #9

МС

попытайся, сильно бить не будем :), хоть большинство тут его не любят :)

11:00пожаловаться #10

ru.stackoverflow.com/questions/1288879/Вопрос-по-python-beautifulsoup-Достает-другую-ссылку

Stack Overflow на русском

Вопрос по Python + BeautifulSoup. Достает другую ссылку

Вот код :
import requests
from bs4 import BeautifulSoup as BS
def get_html(url):
session = requests.session()
session.headers = {'User-Agent':
'Mozilla/5.0 (Windows NT 6.1;

11:04пожаловаться #11

Вот, но тут наверное не конкретно по BS вопрос

11:05пожаловаться #12

А так Scrapy лучше BS?

11:06пожаловаться #13

11:06пожаловаться #14

МС

скрапи фремворк, в котором есть парсер страниц, BS только парсер старниц

11:06пожаловаться #15

Даа, я знаю 😅

11:07пожаловаться #16

Понял,спасибо

11:07пожаловаться #17

МС

угу, вопрос вообще не по BS.
Вообще, если правильного UA подставить, то ссылка должна открываться.
Другой вопрос, что по твоему коду из вопроса вообще 403 надо постараться получить

11:15пожаловаться #18

А что такое UA и куда надо подставить?😅 И в конце не совсем понял

11:20пожаловаться #19

МС

session.headers = {'User-Agent': 
               'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36'}

он подставляется в твоем коде
другое дело, что единственный запрос - это запрос самой страницы, с которой ты берешь ссылку, потом, ее показываешь в консоли и все