Ребята, привет 👋🏼 Нужен совет, с какой стороны подойти к задаче и является ли scrapy здесь наиболее подходящим инструментом.
Задача: нужно посчитать как часто ключевые слова встречаются на сайте. Сайтов около 2000 штук. Ключевых слов 150 штук. Считаю, как часто упоминаются продукты на сайтах продавцов.
Как сейчас делаю: делаю реквесты к каждому url сайта, ищу ключевые слова в тексте страницы, извлекаю новые url. и так пока не перейду по всем ссылкам на сайте.
Что хочется улучшить: Главная проблема — скорость, текущее решение работает довольно медленно. Среди сайтов есть маркетплейсы, где бывает до нескольких тысяч разных товаров.
Я полный нуб в scrapy (запускал уже готовые спайдеры, но до разработки своих так и не дошёл), но насколько я понимаю scrapy отправляет запросы ассинхронно, поэтому для решения моей задачи это наиболее подходящий инструмент, как мне кажется.
Разумеется, кто-то уже делал что-то подобное, хочется посмотреть какие тут есть best practices.
И ещё, на случай если у меня ума не хватит сделать всё самому, сколько такое решение могло бы стоить? Спасибо!