Size: a a a

2019 July 24

РТ

Ренат Турсунбаев in Scrapy
Михаил Синегубов
с бесплатными можно намутить, есть на гитхабе парсер череком в одном лице, постоянно парсит и чекает. Есть мысль по свободному времени намутить связь с скапи. Но это тысяч, ну, может, десятков тысяч запросов.
если нужня сотни тысяч, а то и миллионы запросов - забудь про бесплатные.
Миллионов 50 😄
источник

МС

Михаил Синегубов in Scrapy
Ренат Турсунбаев
Миллионов 50 😄
пробуй файнпрокси для начала.
эсли это не очень извесный/популярный сайт в RU зоне.
источник

МС

Михаил Синегубов in Scrapy
если что то проде яндекса/инстаграмма, про файнпрокси забудь.
сучше пару десятков приватных прокси купить, дешевле будет
источник

Y

Yurii in Scrapy
Михаил Синегубов
пробуй файнпрокси для начала.
эсли это не очень извесный/популярный сайт в RU зоне.
Соответственно большинство прокси будет в бане.
источник

МС

Михаил Синегубов in Scrapy
Yurii
Соответственно большинство прокси будет в бане.
так я и сказал, "если не популярный сайт"
источник

МС

Михаил Синегубов in Scrapy
ради справки
rusprofile - 3000 файнрокси, несколько сот тыс запросов, порядка 60% в бане,  в 50 потоко успешно все собрал
яндек - покупал приватные прокси. 20 шт, примерно 3,5 млн запросов, потратил на каптчу ~500-1000 руб парсил в 15 потоков, все не так быстрр как хотелось, но скорость примелемая была

надо под оценивать прокси по задаче
источник

МС

Михаил Синегубов in Scrapy
а, еще, инстаграмм - 20 ipv6 (они дешевле), несколько суток парсинг в 15 потоков нонстоп, спарсил успешно несколько  млн запросов.

так что я не голословно советую смотреть по сайту какие прокси брать
источник

АН

Алексей Нагорский in Scrapy
Danil Denysenko
и в последнем методе использовать их
Что значит в последнем методе? Они мне нужны собственно все одновременно, а в parse же, например, приходит по одному запросу, не пойму как мне поможет мета(
источник

АН

Алексей Нагорский in Scrapy
Я не шарю, можно как для грудничка расписать чуть
источник

DD

Danil Denysenko in Scrapy
Ну смотри, ты в каждом методе собираешь какую-то инфу, верно?
источник

АН

Алексей Нагорский in Scrapy
Не, в одном циклом елжу
источник

DD

Danil Denysenko in Scrapy
Код можешь скинуть?) Хотя бы скрином. Можем в лс пойти
источник

АН

Алексей Нагорский in Scrapy
def start_requests(self):
       fromdate = date.fromisoformat(getattr(self, 'fromdate', date.today().isoformat()))
       todate = date.fromisoformat(getattr(self, 'todate', date.today().isoformat()))
       url = "https://ipnew.rbp.eu/Fgsz.Tso.Data.Web/mvc/TsoData/GetFactDailySetList"
       day_count = (todate - fromdate).days + 1
       for single_date in (fromdate + timedelta(n) for n in range(day_count)):
           body = {
тут немного длинный боди с single_date}
           body = dumps(body)
           filename = self.download_path + 'FactDailySet.Export.{}.xlsx'.format(single_date.isoformat())
           yield Request(url=url, body=body, method='POST', callback=self.parse, meta={'filename': filename})
источник

АН

Алексей Нагорский in Scrapy
источник

АН

Алексей Нагорский in Scrapy
О, думал будет шакально
источник

АН

Алексей Нагорский in Scrapy
Ну и в parse соответственно мне приезжают жсоны, которые я хочу очень тупо пандасом сложить в xlsx (простите)
источник

АН

Алексей Нагорский in Scrapy
В стиле
def parse(self, response):
       filename = response.meta['filename']
       j_data = loads(response.body)['data']
       df = pd.DataFrame.from_dict(j_data)
       df.to_excel(filename, sheet_name='FactDailySetExport', index=False)
источник
2019 July 25

JW

John Wayne in Scrapy
Возник такой вопрос, копирую гет запрос как curl, там много значений в cookies = {}, а в скрапи response.headers.getlist('Set-Cookie') нет доброй половины того что есть в curl, вопрос как взять куки по полной? Из за чего эта частичность?
источник

МС

Михаил Синегубов in Scrapy
John Wayne
Возник такой вопрос, копирую гет запрос как curl, там много значений в cookies = {}, а в скрапи response.headers.getlist('Set-Cookie') нет доброй половины того что есть в curl, вопрос как взять куки по полной? Из за чего эта частичность?
JS куки ставит, а скрапи сам по себе не рендерит JS
ну, вообще то, в 99% случаев эти куки и не нужны. Часто бывает что нужны пара куков и все, если вообще нужны
источник

JW

John Wayne in Scrapy
Михаил Синегубов
JS куки ставит, а скрапи сам по себе не рендерит JS
ну, вообще то, в 99% случаев эти куки и не нужны. Часто бывает что нужны пара куков и все, если вообще нужны
SplasRequest`ом return {cookies = splash:get_cookies()} увидел недостающие куки. Вопрос как их без сплеша красиво достать? Это тот случай когда без фулл кук, не дает значение по запросу.
источник