Телеграмм чат группы scrapy_python страница 2218

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Scrapy

705 membersпожаловаться на группу

2020 November 16

Юd

Юра de jure in Scrapy

Кто то в последнее время парсил Linkedin? Есть ли какая-то защита? А то в robots.txt написано что парсеры они не любят.

Раскопал AJAX запрос по выводу вакансий, но он выводит только первую 1000, а потом падает в 400 код ошибки.

источник

13:07пожаловаться #1

AR

Andrey Rahmatullin in Scrapy

understatement of the year

источник

13:08пожаловаться #2

Юd

Юра de jure in Scrapy

Andrey Rahmatullin

understatement of the year

Это мне?)

источник

13:09пожаловаться #3

AR

Andrey Rahmatullin in Scrapy

да

источник

13:09пожаловаться #4

МС

Михаил Синегубов... in Scrapy

Кто то в последнее время парсил Linkedin? Есть ли какая-то защита? А то в robots.txt написано что парсеры они не любят.

Раскопал AJAX запрос по выводу вакансий, но он выводит только первую 1000, а потом падает в 400 код ошибки.

по моему, его только ленивый не парсил (и, да, это я и есть).
то что их все кому не лень парсят - защита там наверняка есть. Самое меньшее - запасайся проксями :)

источник

13:10пожаловаться #5

Юd

Юра de jure in Scrapy

Михаил Синегубов

по моему, его только ленивый не парсил (и, да, это я и есть).
то что их все кому не лень парсят - защита там наверняка есть. Самое меньшее - запасайся проксями :)

Понял, спасибо.

источник

13:11пожаловаться #6

AL

Alexey Lemeshevski in Scrapy

Михаил Синегубов

на такие объемы - только база. Даже, если работаешь одним пауком.
И, кстати, да - скорее всего, надо писать свои мидлвари/пайпы. Помнится, у меня кэш дико тормозил на большом количестве страниц. Такое ощущение, что он кэширует что то при старте.

Михаил, а на чем бы вы посоветовали делать бд под очередь? Возьмем за исходные данные: 200к сайтов, в среднем загружаем по 1к УРЛов с каждого. Итого, около 200м УРЛов на итерацию обхода. 200м УРЛов со служебными данными (возьмем - 1килобайт на УРЛ) - около 200 Гб данных. Для эффективного обхода, класть/извлекать нужно с учетом приоритетов (ссылки "пагинации" каталогов в приоритете, например) и возможность извлекать УРЛы в рандомном порядке. Простая БД "ключ-значение" не подойдет - из неё не взять рандомно и не сделать выборку по приоритету.

источник

15:06пожаловаться #7

S

Всем привет !

источник

16:01пожаловаться #8

S

такой вопрос : есть ли аналогget().strip() но только для getall() ?

источник

16:03пожаловаться #9

МС

Михаил Синегубов... in Scrapy

[item.strip() for item in items if item.strip()]

источник

16:04пожаловаться #10

S

спасибо большое человеческое 👍👍👍

источник

16:05пожаловаться #11

МС

Михаил Синегубов... in Scrapy

Alexey Lemeshevski

Михаил, а на чем бы вы посоветовали делать бд под очередь? Возьмем за исходные данные: 200к сайтов, в среднем загружаем по 1к УРЛов с каждого. Итого, около 200м УРЛов на итерацию обхода. 200м УРЛов со служебными данными (возьмем - 1килобайт на УРЛ) - около 200 Гб данных. Для эффективного обхода, класть/извлекать нужно с учетом приоритетов (ссылки "пагинации" каталогов в приоритете, например) и возможность извлекать УРЛы в рандомном порядке. Простая БД "ключ-значение" не подойдет - из неё не взять рандомно и не сделать выборку по приоритету.

мне постгрес нравится, но, на вкус и цвет фломастеры разные :)

источник

16:05пожаловаться #12

ЛГ

Лев Гареев in Scrapy

Михаил Синегубов

мне постгрес нравится, но, на вкус и цвет фломастеры разные :)

+

источник

16:06пожаловаться #13

МС

Михаил Синегубов... in Scrapy

и откуда один килобайт служебки?
1. сам урл, обычно, не более 512 символов
2. несколько флажков, тип Byte
3. приоритет, скорее всего, не больше SmallInt.

поможет я и ошибаюсь, но, это, меньше чем 1024.

кстати, на таких объемах, по аккуратнее с индексами

источник

16:07пожаловаться #14

AL

Alexey Lemeshevski in Scrapy

Михаил Синегубов

мне постгрес нравится, но, на вкус и цвет фломастеры разные :)

Михаил, спасибо! ) Ок, подумаю )

Если интересно,

про архитектуру таких решений в целом:
https://michaelnielsen.org/ddi/how-to-crawl-a-quarter-billion-webpages-in-40-hours/
https://www.semantics3.com/blog/how-we-built-our-almost-distributed-web-crawler/
https://developers.bloomreach.com/blog/2015/crawling-billions-of-pages-building-large-scale-crawling-cluster-part-2.html

message queue:
https://stackoverflow.com/questions/29446544/how-to-use-message-queue-in-web-crawler
Celery где-то упоминали https://docs.celeryproject.org/en/stable/index.html

про Redis пишут... мол, разделять задачу на 2 части: 1) новые УРЛы для обхода в одной БД, 2) проверка "обойден или нет" - на redis
. В scrapy кстати на диске так и сделано - есть request.seen - где, похоже, хэши обойденных УРЛов, и сама очередь (сериализованные реквесты) по приоритетам в папках.

и тут прикольный пример на Postgres - просто таблица более миллиарда строк с индексами, извлекает за 40мс:
https://dba.stackexchange.com/questions/188667/best-database-and-table-design-for-billions-of-rows-of-data

источник

16:09пожаловаться #15

m

meehalkoff✪ in Scrapy

Приветствую.
Подскажите пожалуйста качественый платный сервис с прокси.

источник

16:09пожаловаться #16

AR

Andrey Rahmatullin in Scrapy

был где-то отчёт как скрейпингхаб собрал весь интернет испании

источник

16:11пожаловаться #17

AR

Andrey Rahmatullin in Scrapy

но я даже не помню в каком виде

источник

16:11пожаловаться #18

МС

Михаил Синегубов... in Scrapy

Приветствую.
Подскажите пожалуйста качественый платный сервис с прокси.

finedroxy.org
proxys.io
proxy6.net
crawlera (https://www.scrapinghub.com/crawlera/)
luminati.io

их 100500, вопрос - подойдут ли они тебе

источник

16:12пожаловаться #19

i

Alexey Lemeshevski

обходить десятки и сотни тысяч сайтов ) при этом, мне нужен download_delay на каждый домен. Попутно выяснил ещё, что и из списка start_urls (или из start_process, который возвращает генератор) scrapy берет первые N урлов (по кол-ву concurrent_requests) и, пока parse генерирует новые запросы, scrapy не берет следующий из генератора start_process. Другими словами, на входе даем 3000 сайтов, он взял 50, пошел обходить... и пока есть хотя бы 1 request в очереди для любого из этих 50 сайтов (а request'ы создаются вновь и вновь, по мере сбора ссылок), он не берет следующие 50 сайтов ))) в итоге, если, например, ограничить обход сайтов всего 100 УРЛами, то в первые 10 минут он работает нормально, а потом производительность падает до десятков УРЛов в минуту )))

а зачем стока данных? если нужны сами данные, то такая задача уже сделана: https://commoncrawl.org/the-data/get-started/

источник

16:12пожаловаться #20