Size: a a a

2021 August 30

VS

Victor Stepankov in ctodailychat
https://github.com/lorien/awesome-web-scraping
есть ещё замечательная репа, но из своего опыта рекомендую выше названных
источник

VS

Victor Stepankov in ctodailychat
+ на руби в свое время юзал Anemone, но когда последний раз его видел, было ощущение, что проект помер.
А так, приятненький был
источник

AM

Aga Mahmudov in ctodailychat
А для nodejs какой из вариантов хороший?

https://github.com/lorien/awesome-web-scraping/blob/master/javascript.md#web-scraping-frameworks
источник

VS

Victor Stepankov in ctodailychat
затрудняюсь с ответом, этот стек до недавних времен обходил меня
источник

Y

Yaroslav in ctodailychat
тут про баланс между задротством и скоростью. пупитер можно выжать и на побыстрее, но если нужно скрапить много свего - то придется писать нативное приложение или обертку над существующими либами
источник

AM

Aga Mahmudov in ctodailychat
У нас проблема как раз в объемах, пытаюсь понять как это потом масштабировать, ибо магазины стараются детектить и блокировать скрапперы.
источник

Y

Yaroslav in ctodailychat
ну обычно этим занимается полноценная команда из 2-5 человек у которых только и стоит задача херачить скрапер так чтоб он обходил блокировки. Но тут тоже проблема, потому что есть хонейбаджи и прочие прелести, например авиасейлс любит таким попромышлять
источник

VS

Victor Stepankov in ctodailychat
потому что любой запрос в GDS стоит для авиасала денег
источник

И

Илья in ctodailychat
Всем привет, сейчас стоим перед выбором db для аналитики, пользуемся AWS. Кейс такой, от фронта прилетает запрос на лямбду, которая ложит в очередь это события. Потом это событие по тригеру записывается в каую-то бд. После чего по джобе подсчитывать кол-во этих запросов по различным таймфреймам. Вопрос какую бд по эту задачу лучше всего выбрать.
источник

IV

Igor V in ctodailychat
если у вас aws, лямбды, очереди , таймфреймы то смотрите в сторону Kinesis. там все выше перечисленное уже в коробке

https://docs.aws.amazon.com/kinesisanalytics/latest/dev/sliding-window-concepts.html
источник

IV

Igor V in ctodailychat
но с такой постановкой задачи подойдет любая бд
источник

И

Илья in ctodailychat
Вот как раз накопал про связку Kinesis и Timestream под подобного рода задачи
источник

И

Илья in ctodailychat
Ну вначале мы подсчитывать будем ток по кол-ву записей, но потом хотелось бы еще кол-во в подкатегориях считать, да и поток расти будет)
источник

A

Andrey in ctodailychat
https://scrapy.org , выше уже все написали
источник

T

Toвapищ Maйop in ctodailychat
А вот чего вспомнил. Что это про клабхаус ничего не слышно в последнее время? Помнится приложение гремело на весь мир, а сейчас тишина. Что это было вообще?
источник

VJ

Valer Jan in ctodailychat
Собрали со всех сеть контактов, слили ее и сами слились.
источник

D

Dmitry in ctodailychat
Куда слились?) Приложение на месте, обновления прилетают. Просто хайп прошёл
источник

T

Toвapищ Maйop in ctodailychat
Как со спиннерами и попытами?
источник

AM

Aga Mahmudov in ctodailychat
Для ноды такое найти, многое заброшено
источник

AI

Artificial Iv in ctodailychat
Осознаю, что это не совсем то, но вдруг кому будет интересно
https://github.com/scanfactory/scrapy-selenium-seleniumwire
Мы поженили скрапи + селениум. Еще туда впилили модуль, который из фона собирает все забросы. Типа по шрифтам, xmlhttp etc
источник