Size: a a a

2019 October 08

АП

Агент Печенька in Scrapy
Elisei Badanin
проверка сайта на ошибки, нужно битые ссылки(img src) на картинки проверить, а грузить их не вариант
Должно работать.
источник

C

Cyberdine Engineering🐤 in Scrapy
Агент Печенька
Как запускаешь в селери.
@task(queue='background')
@skip_if_maintenance
def get_futwatch_players_updates():
   process = CrawlerProcess(get_project_settings())
   process.crawl(PlayerSpider)
   process.start()
источник

C

Cyberdine Engineering🐤 in Scrapy
селери битом запускаю таск
источник

МС

Михаил Синегубов in Scrapy
насчет HEAD, это на конкретных сайтах надо тестить. Ибо, теортечески, могут запретрить

# vi /etc/nginx/nginx.conf

if ($request_method !~ ^(GET|HEAD|POST)$ ) {
return 444;
}
источник

МС

Михаил Синегубов in Scrapy
я бы, сначала прошелся HEAD, а потом, по ошибкам еще и GET
источник

EB

Elisei Badanin in Scrapy
а можно как-то запретить скрапи качать тело?
источник

МС

Михаил Синегубов in Scrapy
Elisei Badanin
а можно как-то запретить скрапи качать тело?
нет, это противоречит логике запросов. Ну, насколько я понимаю.
можно попытаться рвать коннект, через ХХХ скачаных байт, но это, по моему, уже не скрапи

а что мешает сделать так, как  я предложил?
тем более, здесб можут сработать граничные условия
1. если не проходит HEAD на индекс - значит он запрещен
2. если не проходит HEAD на все картинки - значит он запрещен на каринки
3. если не проходит HEAD на часть картинок - значит картинки косячные
источник

АП

Агент Печенька in Scrapy
Elisei Badanin
а можно как-то запретить скрапи качать тело?
Нет.
источник

EB

Elisei Badanin in Scrapy
>можно попытаться рвать коннект, через ХХХ скачаных байт
на да, я так и думаю, можно после \r\n\r\n, а что переопределять, это же в twisted лесть нужно?
источник

B

Bulatbulat48 in Scrapy
Elisei Badanin
>можно попытаться рвать коннект, через ХХХ скачаных байт
на да, я так и думаю, можно после \r\n\r\n, а что переопределять, это же в twisted лесть нужно?
источник

МС

Михаил Синегубов in Scrapy
можно, если сайт позволяет качать по частям "документ" :)
источник

EB

Elisei Badanin in Scrapy
это к чему?
источник

МС

Михаил Синегубов in Scrapy
но это если отдается этот заголовок, а его можно получить методом HEAD, а если его можно получить методом HEAD, то нахрена качать кусочек 😂
источник

МС

Михаил Синегубов in Scrapy
Elisei Badanin
это к чему?
это к тому, что можно скачать 1 байт тела
источник

МС

Михаил Синегубов in Scrapy
короче, принимаем за аксиому что качать "чуть чуть" картинки низзя, а то такой дур дом в коде будет... :)
источник

EB

Elisei Badanin in Scrapy
Михаил Синегубов
это к тому, что можно скачать 1 байт тела
понял в чем заключается идея)
источник

МС

Михаил Синегубов in Scrapy
Elisei Badanin
понял в чем заключается идея)
ты универсальную проверялку пытаешся написать?
источник

EB

Elisei Badanin in Scrapy
ну да, думаю может и правда слать head, потом get если ошибка
источник

EB

Elisei Badanin in Scrapy
ага
источник

B

Bulatbulat48 in Scrapy
Elisei Badanin
это к чему?
по идеи можно Range слать
источник