Телеграмм чат группы scrapy_python страница 2671

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Scrapy

828 membersпожаловаться на группу

2021 April 11

N

Nelson in Scrapy

а ведь как-то они определяют, что это именно бот. Если не юзер-агент, то как? По сути тоже, что и в браузере, только нет вывода html на дисплей. По сути принцип один, а как-то чекает

источник

22:43пожаловаться #1

SS

Stepan Smirnov in Scrapy

Доброй ночи.
Задача: из sitemap создать список ключевых слов для дальнейшего поиска в search engine.
Сейчас генерация списка выполнена в отдельном пауке.
Приемлемо ли генерацию этого списка перенести в mixin spider?

источник

22:51пожаловаться #2

AR

Andrey Rahmatullin in Scrapy

много как.

источник

23:39пожаловаться #3

AR

Andrey Rahmatullin in Scrapy

не знаю что такое mixin spider, но если сайтмэп меняется редко то имеет смысл два паука

источник

23:40пожаловаться #4

2021 April 12

i

Я юзал вот это, пашет довольно бодро "из коробки", единственный минус - под виндой оно не заработает, тока юникс, ну или из-под wsl2 запускать тоже можно.
https://pypi.org/project/scrapy-playwright/

scrapy-playwright

Playwright integration for Scrapy

источник

01:33пожаловаться #5

TM

Thiago Muller in Scrapy

Hey guys
Can I run several operations on splash in scrapy-splash for the same spider?
I mean, supose that the process of extracting the data involves taking several screenshots that will then be passed to pyteressact, opening a modal from which I'll get some data, and so on
Is that possible, something like having several lua scripts for splash, then calling it multiple times with those scripts?

источник

02:46пожаловаться #6

i

not sure about scrapy-splash, but just read scrapy-playwright docs and it allow to do things like this (also see below examples), if you have not get deep down with splash yet, maybe try this out: https://github.com/scrapy-plugins/scrapy-playwright#page-coroutines

scrapy-plugins/scrapy-playwright

🎭 Playwright integration for Scrapy. Contribute to scrapy-plugins/scrapy-playwright development by creating an account on GitHub.

источник

02:59пожаловаться #7

TM

Thiago Muller in Scrapy

No, I haven't got deep down with splash yet, I'll sure take a look at it!!
Thank you!

источник

03:01пожаловаться #8

i

In case you work in Windows, it does not work under it, yet it available to start up under WSL2

источник

03:16пожаловаться #9

TM

Thiago Muller in Scrapy

I see

источник

03:16пожаловаться #10

TM

Thiago Muller in Scrapy

I'm on linux, lucky me

источник

03:16пожаловаться #11

TM

Thiago Muller in Scrapy

I was doing this scraping on selenium you see
But it was very slow

источник

03:16пожаловаться #12

TM

Thiago Muller in Scrapy

So I moved to scrapy in the hopes of bettering that performance, that's why I got here

источник

03:17пожаловаться #13

i

well, at least it will speed up by concurrency/async and headless

источник

03:19пожаловаться #14

TM

Thiago Muller in Scrapy

yeah, I was using headless already on selenium, but it was slower either way

источник

03:20пожаловаться #15

i

the other method without inspecting deep on ajax queries and looking how's site api works to exclude usage of selenium/splash at all is to use same headless selenium with disabled images and forbidding download from other domains, but also use multiprocessing pool, yet it require that function for url(s) was written in way, that it would be possible to feed it to multiprocessing Pools map(). But I would not recommend it, been there, scrapy-playwright way better.

источник

03:30пожаловаться #16

TM

Thiago Muller in Scrapy

I see

источник

03:32пожаловаться #17

A

https://bot.sannysoft.com/ - на этом сайте можно чекнуть инструменты типа Selenium на принадлежность к ботам, т.е. по сути то, как видят всякие анти-бот системы. Помог мне для обхода CloudFlare.

источник

08:36пожаловаться #18

N

Nelson in Scrapy

Получается я провалил в этой части?

источник

08:42пожаловаться #19

A

Hairline - признак "безголовости". Т.е. явно не браузер. Не браузер - бот. Скорей всего, именно такая логика.

источник

08:47пожаловаться #20