Size: a a a

2019 August 01

s

serhii in Scrapy
Михаил Синегубов
хм, мысль толковая, но, большая часть кода пока в виде "вот эти три строчки" и "вот эту процедурку" :)))
ну все пакеты начинались с нескольких строк.
рандом юзер агент. казалось бы.
список юзер-агентов, модуль рандом и все.
а сейчас многие проекты разрослись. и платформу можно выбирать - мобила, комп.
и операционку и так далее.
ну если и правда три строки. то в гист класть и все.
источник

МС

Михаил Синегубов in Scrapy
вооо, как раз рандом юзерагент у меня хренново пашет. Если онлайн не особо работает. На работе, похоже, кто-то хост блокирует. Либо керио, либо провайдер.
И клиенты жаловались 😄
источник

МС

Михаил Синегубов in Scrapy
кстати, что посоветуете насчет In Memory DB. Приоритет - простота установки (или без установки).
Объемы данных пара таблиц по несколько десятков тыс. записей, скорее всего, даже меньше.

Хранить на диске не надо.

Про базу подумал - мне надо "флаги" использовать. По типу "количество успешных запросов" по записям, ну и выборка с сортировкой.

Может и не база данных, просто у меня только такая терминалогия в голове.
Сам только про SQLite знаю, но вдруг есть более "правильное" решение :)))
источник

s

serhii in Scrapy
raise CloseSpider работает как-то странно, выкидывает раньше, чем можно.
видимо асинхронные запросы шлются ибо то ноль со 10 то 15 с одной и той же страницы данных он сохраняет
источник

К

Кирилл in Scrapy
Вроде если еще есть запросы в очереди, он их доделает
источник

s

serhii in Scrapy
все. джейсон местами мусор отдает, логику исправил. тестирую
источник
2019 August 02

М

Мак in Scrapy
народ, если кто сталкивался, как Cloudflare обходили?
источник

B

Bulatbulat48 in Scrapy
как-то тут пробовали отреверсить
источник

B

Bulatbulat48 in Scrapy
а так, если лень реверсить, то сплеш можно попробовать или хеадлесс хром
источник

М

Мак in Scrapy
думал может кто какой еще выход нашел... Да я, сам селениум прикрутил для этого. Но это медленно
источник

Y

Yurii in Scrapy
Мак
народ, если кто сталкивался, как Cloudflare обходили?
Ну прокси и хедер
источник

М

Мак in Scrapy
Yurii
Ну прокси и хедер
какой прокси хедер.... там яваскрипт исполняется на входе...
источник

Y

Yurii in Scrapy
Мак
какой прокси хедер.... там яваскрипт исполняется на входе...
Это если спросят
источник

B

Bulatbulat48 in Scrapy
вот JS попробуй обработать например через https://github.com/PiotrDabkowski/Js2Py
источник

М

Мак in Scrapy
Yurii
Это если спросят
столкнулся с таким, который в любом случае при входе запускает
источник

Y

Yurii in Scrapy
Мак
столкнулся с таким, который в любом случае при входе запускает
Скорее всего айпишники уже в чс
источник

М

Мак in Scrapy
Yurii
Скорее всего айпишники уже в чс
ну это уже другой вопрос
источник

Y

Yurii in Scrapy
У меня пока все апишники на ошибку 403 не ушли и так парсило норм
источник

Y

Yurii in Scrapy
С куками наверное можно юзать как-то с привязкой к ip. Что якобы ты уже подтверждал что не робот.
источник

Y

Yurii in Scrapy
Я немного с этим не силен
источник