Size: a a a

2020 April 18

AR

Andrey Rahmatullin in Scrapy
Download NLP related corpora:

$ curl https://raw.githubusercontent.com/codelucas
источник

AR

Andrey Rahmatullin in Scrapy
В первом
источник

AR

Andrey Rahmatullin in Scrapy
Дальше неинтересно смотреть
источник

AR

Andrey Rahmatullin in Scrapy
Thomas Shelby
хз ваще
Учи питон
источник

i

ildar in Scrapy
Thomas Shelby
В чем трабл?
навскидку shortstorytitle не переменная и без кавычек, потом какой-то items откуда-то приехал. и еще в get(href) - href опять похоже без кавычек
источник

💵

💵 РАБОТАЮ [ШАНТАЖ] 💵 in Scrapy
Здравствуйте
источник

🎅B

🎅 Austin Bluethy in Scrapy
Привет
источник

D

D in Scrapy
Всем доброго вечера! Помогите пожалуйста со сплешем (я уже задавал этот вопрос, но собрал немного больше информации)

Когда я запускают скрапинг , например, ресторанов в гугл карте, скрапи делает кучу SplashRequest запросов, виртуалка в докере не справляется и зависает. Ram показывает загруженность более 90%.

Если я ограничиваю количество запросов, то все ок.

В ситуации помогла отключение подгрузки изображения и увеличение памяти, но это только увеличило потолок запросов.

Еще я обратил внимание, что ram загруженна и после завершения работы паука. Если я не перезагружаю контейнер, второй запрос его тоже положит?

Как можно убить ненужные сессии ? Где копать? Может кешируется не удачно ?
источник

К

Кирилл in Scrapy
Вроде для гугл карт не нужен сплэш
источник

D

D in Scrapy
Кирилл
Вроде для гугл карт не нужен сплэш
Без JavaScript не загружается контент, или вы имеете ввиду через апи ?
источник

К

Кирилл in Scrapy
Нет, в запросах и html данные посмотри
источник

D

D in Scrapy
Спасибо, посмотрю !
источник

A

Andrii in Scrapy
А гугл апи под такое не сделал?
источник

i

ildar in Scrapy
D
Всем доброго вечера! Помогите пожалуйста со сплешем (я уже задавал этот вопрос, но собрал немного больше информации)

Когда я запускают скрапинг , например, ресторанов в гугл карте, скрапи делает кучу SplashRequest запросов, виртуалка в докере не справляется и зависает. Ram показывает загруженность более 90%.

Если я ограничиваю количество запросов, то все ок.

В ситуации помогла отключение подгрузки изображения и увеличение памяти, но это только увеличило потолок запросов.

Еще я обратил внимание, что ram загруженна и после завершения работы паука. Если я не перезагружаю контейнер, второй запрос его тоже положит?

Как можно убить ненужные сессии ? Где копать? Может кешируется не удачно ?
Можешь еще попробовать  selenium scrapy или puppeteer scrapy или как там его на гитхабе. У меня тоже был подобный сайт, тупо с одного запроса рам в стратосферу улетал а потом приходил oom. Ну я issues на гитхаб добавил с тем, как воспроизвести и логами, через год мне надоело за ним следить
источник

i

ildar in Scrapy
источник

i

ildar in Scrapy
источник

К

Кирилл in Scrapy
А сколько ram на компьютере?  Может оно по естественным причинам занимается
источник

i

ildar in Scrapy
Не, там что-то нехорошее происходило, 100% загрузка проца и дикий рост. Я ей и 2 и 10 чтоли гигов давал для теста. И запрос то один урл всего, его все остальные браузеры секунд за5 чтоли открывали. Надо будет глянуть, вдруг исправили уже)
источник

i

ildar in Scrapy
Ха, я помню там рядом был про wired.com - висит родимый) https://github.com/scrapinghub/splash/issues/891
источник
2020 April 19

O

Orekhov Web Dev. in Scrapy
пишу парсер мвидео, столкнулся с проблемой
страница динамическая
данные которые мне нудны приходят через запрос rest/graphql, как могу до него добраться?)
источник