Size: a a a

2020 March 28

МС

Михаил Синегубов in Scrapy
Мак
Парни, вопрос про скачивание файлов. Чем будет хуже использование модуля wget например, по ссылке файла, в теле одного из методов паука, и включение imagepipeline, который откровенно менее понятен в настройке
1. wget будет работать в основном потоке. т.е. медленнее
2. Пайп контролирует ссылки, если ты дернеш уже скачанную, он просто отдаст ранее скачанный файл

Ну, это то, что на поверхности
источник

МС

Михаил Синегубов in Scrapy
Насчёт повторов, не помню точно, но, вроде, в пайпе полный фарш, с повторами и контролем кодов ответа сервера
источник

К

Кирилл in Scrapy
Подожди, какой основной поток?
источник

М

Мак in Scrapy
Н-да... Что за чудесный основной поток? Твистед же на евент луп работает
источник

М

Мак in Scrapy
На моё нубское понимание - это карусель, из которой обработчик состояний выдергивает нужные условия...
источник

К

Кирилл in Scrapy
Эвент лупы тоже в основном потоке работают
источник

МС

Михаил Синегубов in Scrapy
Кирилл
Подожди, какой основной поток?
Десктопная привычка.
Суть такая (по крайней мере мое понимание архитектуры):
1. Весь код паука выполняется в одном потоке.
2. Запросы асинхрон. Но вгет то не асинхрон...

Сугубо мое понимание, поправьте где я не прав
источник

К

Кирилл in Scrapy
wget подпроцесс же, если вы про пайтоновский пакет wget 2015 года то даже вопрос не стоит тогда
источник

A

Aleksandr in Scrapy
Привет ребят, почему  ничего не выводит респонс именно на этом сайте?
import scrapy



class Spider(scrapy.Spider):
   name = 'spider'
   start_urls = ['https://freelancehunt.com/'
   ]

   def parse(self, response):
       
       print(response)
источник

К

Кирилл in Scrapy
Защита какая-то
источник

A

Aleksandr in Scrapy
А как ее можно обойти?
источник

К

Кирилл in Scrapy
Вариантов куча
источник

К

Кирилл in Scrapy
Покажи логи запуска
источник

М

Мак in Scrapy
Фриласнхант... Ещё б апворк до кучи)))
источник

М

Мак in Scrapy
И заголовок в газете как поимели все биржи фриланса..
источник

A

Aleksandr in Scrapy
2020-03-28 16:58:26 [scrapy.spidermiddlewares.httperror] INFO: Ignoring response <403 https://freelancehunt.com/>: HTTP status code is not handled or 
not allowed
источник

A

Aleksandr in Scrapy
оно?
источник

RG

Roman Gangal in Scrapy
Парни подскажите по https://github.com/xiaowangwindow/scrapy-rotated-proxy Беру прокси с файла. Но прокси в файле должны быть в формате json. Скиньте пожалуйста рабочий пример списка проксей в формате json под эту мидлвару. А то у меня чет не пашет. Пробую так
{"proxy": "admin:pass@55.133.47.1:5000",
"proxy": "admin:pass@458.155.46.0:3000"}

и даже так

{"admin:pass@55.133.47.1:5000",
"admin:pass@458.155.46.0:3000"}

не берет прокси и все
источник

К

Кирилл in Scrapy
Roman Gangal
Парни подскажите по https://github.com/xiaowangwindow/scrapy-rotated-proxy Беру прокси с файла. Но прокси в файле должны быть в формате json. Скиньте пожалуйста рабочий пример списка проксей в формате json под эту мидлвару. А то у меня чет не пашет. Пробую так
{"proxy": "admin:pass@55.133.47.1:5000",
"proxy": "admin:pass@458.155.46.0:3000"}

и даже так

{"admin:pass@55.133.47.1:5000",
"admin:pass@458.155.46.0:3000"}

не берет прокси и все
а протоколы где?
источник

RG

Roman Gangal in Scrapy
Кирилл
а протоколы где?
а куда их в ключи класть?
источник