Size: a a a

2021 April 11

N

Nelson in Scrapy
а ведь как-то они определяют, что это именно бот. Если не юзер-агент, то как? По сути тоже, что и в браузере, только нет вывода html на дисплей. По сути принцип один, а как-то чекает
источник

SS

Stepan Smirnov in Scrapy
Доброй ночи.
Задача: из sitemap создать список ключевых слов для дальнейшего поиска в search engine.
Сейчас генерация списка выполнена в отдельном пауке.
Приемлемо ли генерацию этого списка перенести в mixin spider?
источник

AR

Andrey Rahmatullin in Scrapy
много как.
источник

AR

Andrey Rahmatullin in Scrapy
не знаю что такое mixin spider, но если сайтмэп меняется редко то имеет смысл два паука
источник
2021 April 12

i

i in Scrapy
Я юзал вот это, пашет довольно бодро "из коробки", единственный минус - под виндой оно не заработает, тока юникс, ну или из-под wsl2 запускать тоже можно.
https://pypi.org/project/scrapy-playwright/
источник

TM

Thiago Muller in Scrapy
Hey guys
Can I run several operations on splash in scrapy-splash for the same spider?
I mean, supose that the process of extracting the data involves taking several screenshots that will then be passed to pyteressact, opening a modal from which I'll get some data, and so on
Is that possible, something like having several lua scripts for splash, then calling it multiple times with those scripts?
источник

i

i in Scrapy
not sure about scrapy-splash, but just read scrapy-playwright docs and it allow to do things like this (also see below examples), if you have not get deep down with splash yet, maybe try this out: https://github.com/scrapy-plugins/scrapy-playwright#page-coroutines
источник

TM

Thiago Muller in Scrapy
No, I haven't got deep down with splash yet, I'll sure take a look at it!!
Thank you!
источник

i

i in Scrapy
In case you work in Windows, it does not work under it, yet it available to start up under WSL2
источник

TM

Thiago Muller in Scrapy
I see
источник

TM

Thiago Muller in Scrapy
I'm on linux, lucky me
источник

TM

Thiago Muller in Scrapy
I was doing this scraping on selenium you see
But it was very slow
источник

TM

Thiago Muller in Scrapy
So I moved to scrapy in the hopes of bettering that performance, that's why I got here
источник

i

i in Scrapy
well, at least it will speed up by concurrency/async and headless
источник

TM

Thiago Muller in Scrapy
yeah, I was using headless already on selenium, but it was slower either way
источник

i

i in Scrapy
the other method without inspecting deep on ajax queries and looking how's site api works to exclude usage of selenium/splash at all is to use same headless selenium with disabled images and forbidding download from other domains, but also use multiprocessing pool, yet it require that function for url(s) was written in way, that it would be possible to feed it to multiprocessing Pools map(). But I would not recommend it, been there, scrapy-playwright way better.
источник

TM

Thiago Muller in Scrapy
I see
источник

A

Alex in Scrapy
https://bot.sannysoft.com/ - на этом сайте можно чекнуть инструменты типа Selenium на принадлежность к ботам, т.е. по сути то, как видят всякие анти-бот системы. Помог мне для обхода CloudFlare.
источник

N

Nelson in Scrapy
Получается  я провалил в этой части?
источник

A

Alex in Scrapy
Hairline - признак "безголовости". Т.е. явно не браузер. Не браузер - бот. Скорей всего, именно такая логика.
источник