Телеграмм чат группы scrapy_python страница 743

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Scrapy

380 membersпожаловаться на группу

2019 July 24

РТ

Ренат Турсунбаев in Scrapy

Михаил Синегубов

с бесплатными можно намутить, есть на гитхабе парсер череком в одном лице, постоянно парсит и чекает. Есть мысль по свободному времени намутить связь с скапи. Но это тысяч, ну, может, десятков тысяч запросов.
если нужня сотни тысяч, а то и миллионы запросов - забудь про бесплатные.

Миллионов 50 😄

источник

17:46пожаловаться #1

МС

Михаил Синегубов in Scrapy

Ренат Турсунбаев

Миллионов 50 😄

пробуй файнпрокси для начала.
эсли это не очень извесный/популярный сайт в RU зоне.

источник

17:46пожаловаться #2

МС

Михаил Синегубов in Scrapy

если что то проде яндекса/инстаграмма, про файнпрокси забудь.
сучше пару десятков приватных прокси купить, дешевле будет

источник

17:47пожаловаться #3

Y

Yurii in Scrapy

Михаил Синегубов

пробуй файнпрокси для начала.
эсли это не очень извесный/популярный сайт в RU зоне.

Соответственно большинство прокси будет в бане.

источник

17:48пожаловаться #4

МС

Михаил Синегубов in Scrapy

Yurii

Соответственно большинство прокси будет в бане.

так я и сказал, "если не популярный сайт"

источник

17:49пожаловаться #5

МС

Михаил Синегубов in Scrapy

ради справки
rusprofile - 3000 файнрокси, несколько сот тыс запросов, порядка 60% в бане, в 50 потоко успешно все собрал
яндек - покупал приватные прокси. 20 шт, примерно 3,5 млн запросов, потратил на каптчу ~500-1000 руб парсил в 15 потоков, все не так быстрр как хотелось, но скорость примелемая была

надо под оценивать прокси по задаче

источник

17:52пожаловаться #6

МС

Михаил Синегубов in Scrapy

а, еще, инстаграмм - 20 ipv6 (они дешевле), несколько суток парсинг в 15 потоков нонстоп, спарсил успешно несколько млн запросов.

так что я не голословно советую смотреть по сайту какие прокси брать

источник

17:54пожаловаться #7

АН

Алексей Нагорский in Scrapy

Danil Denysenko

и в последнем методе использовать их

Что значит в последнем методе? Они мне нужны собственно все одновременно, а в parse же, например, приходит по одному запросу, не пойму как мне поможет мета(

источник

18:02пожаловаться #8

АН

Алексей Нагорский in Scrapy

Я не шарю, можно как для грудничка расписать чуть

источник

18:02пожаловаться #9

DD

Danil Denysenko in Scrapy

Ну смотри, ты в каждом методе собираешь какую-то инфу, верно?

источник

18:03пожаловаться #10

АН

Алексей Нагорский in Scrapy

Не, в одном циклом елжу

источник

18:03пожаловаться #11

DD

Danil Denysenko in Scrapy

Код можешь скинуть?) Хотя бы скрином. Можем в лс пойти

источник

18:04пожаловаться #12

АН

Алексей Нагорский in Scrapy

def start_requests(self):
        fromdate = date.fromisoformat(getattr(self, 'fromdate', date.today().isoformat()))
        todate = date.fromisoformat(getattr(self, 'todate', date.today().isoformat()))
        url = "https://ipnew.rbp.eu/Fgsz.Tso.Data.Web/mvc/TsoData/GetFactDailySetList"
        day_count = (todate - fromdate).days + 1
        for single_date in (fromdate + timedelta(n) for n in range(day_count)):
            body = {
тут немного длинный боди с single_date} 
            body = dumps(body)
            filename = self.download_path + 'FactDailySet.Export.{}.xlsx'.format(single_date.isoformat())
            yield Request(url=url, body=body, method='POST', callback=self.parse, meta={'filename': filename})

источник

18:05пожаловаться #13

АН

Алексей Нагорский in Scrapy

источник

18:06пожаловаться #14

АН

Алексей Нагорский in Scrapy

О, думал будет шакально

источник

18:06пожаловаться #15

АН

Алексей Нагорский in Scrapy

Ну и в parse соответственно мне приезжают жсоны, которые я хочу очень тупо пандасом сложить в xlsx (простите)

источник

18:08пожаловаться #16

АН

Алексей Нагорский in Scrapy

В стиле

def parse(self, response):
        filename = response.meta['filename']
        j_data = loads(response.body)['data']
        df = pd.DataFrame.from_dict(j_data)
        df.to_excel(filename, sheet_name='FactDailySetExport', index=False)

источник

18:08пожаловаться #17

2019 July 25

JW

John Wayne in Scrapy

Возник такой вопрос, копирую гет запрос как curl, там много значений в cookies = {}, а в скрапи response.headers.getlist('Set-Cookie') нет доброй половины того что есть в curl, вопрос как взять куки по полной? Из за чего эта частичность?

источник

00:03пожаловаться #18

МС

Михаил Синегубов in Scrapy

Возник такой вопрос, копирую гет запрос как curl, там много значений в cookies = {}, а в скрапи response.headers.getlist('Set-Cookie') нет доброй половины того что есть в curl, вопрос как взять куки по полной? Из за чего эта частичность?

JS куки ставит, а скрапи сам по себе не рендерит JS
ну, вообще то, в 99% случаев эти куки и не нужны. Часто бывает что нужны пара куков и все, если вообще нужны

источник

00:58пожаловаться #19

JW

John Wayne in Scrapy

Михаил Синегубов

JS куки ставит, а скрапи сам по себе не рендерит JS
ну, вообще то, в 99% случаев эти куки и не нужны. Часто бывает что нужны пара куков и все, если вообще нужны

SplasRequest`ом return {cookies = splash:get_cookies()} увидел недостающие куки. Вопрос как их без сплеша красиво достать? Это тот случай когда без фулл кук, не дает значение по запросу.

источник

01:56пожаловаться #20