Size: a a a

2020 October 21

ЛГ

Лев Гареев in Scrapy
Михаил Синегубов
отучайся, это я еще вчера не бухтел насчет твоих простынок с кодом 🤬
вооо, исправляешься

собтвенно по сабжу - там после start_urls идет дичайшая каша из приоритетов, времени ответа сервера, новых реквестов и прочей хрени.

но, если подходить в общих чертах, то да. К примеру. если у тебя 100 стартовых запросов и настройка в 20 конкурирующих, то возьмутся первые 20, полностью обработаются, и только потом возьмутся следующие. По крайней мере у меня такая ситуация была. Но там был идеал, пара доп реквестов и сайт шустрый был
Просто у меня должен парситься сайт, по нему он забирает вложенные ссылки, парсит их, идет на след страницу и так далее до скончания страниц. И вот таких вот категорий для парсинга 10-15, если там начнется каша и десинхрон, будет ад на выходе.
источник

МС

Михаил Синегубов... in Scrapy
Лев Гареев
Просто у меня должен парситься сайт, по нему он забирает вложенные ссылки, парсит их, идет на след страницу и так далее до скончания страниц. И вот таких вот категорий для парсинга 10-15, если там начнется каша и десинхрон, будет ад на выходе.
ага, будет дикая каша.
если ты хочешь упорядоченный вывод, делай постобработку данных. Это единственный приемлемый вариант
источник

МС

Михаил Синегубов... in Scrapy
шаг 1 - спарсить в какую базу (к примеру, в ту же монгу)
шаг 2 - обработать полученные данные
источник

ЛГ

Лев Гареев in Scrapy
Михаил Синегубов
ага, будет дикая каша.
если ты хочешь упорядоченный вывод, делай постобработку данных. Это единственный приемлемый вариант
я с пандасом дружу, в нем буду. Но я могу быть уверен, что он не пропустит ни одной ссылки? Тут скорее опасения в этом
источник

МС

Михаил Синегубов... in Scrapy
Лев Гареев
я с пандасом дружу, в нем буду. Но я могу быть уверен, что он не пропустит ни одной ссылки? Тут скорее опасения в этом
ну, это уж насколько у тебя прямые руки :)))
как ты напишешь - так он и спарсит
источник

МС

Михаил Синегубов... in Scrapy
я тебе, наверное, открою страшную тайну, но, некоторые косяки вылезают дааалеко не сразу, тем более, на больших сайтах :)
источник

ЛГ

Лев Гареев in Scrapy
Михаил Синегубов
я тебе, наверное, открою страшную тайну, но, некоторые косяки вылезают дааалеко не сразу, тем более, на больших сайтах :)
да вот я чет вижу у себя 1000 элементов, хотя на сайте числится 1500 :D
источник

ЛГ

Лев Гареев in Scrapy
ладно, буду копаться
источник

МС

Михаил Синегубов... in Scrapy
Лев Гареев
да вот я чет вижу у себя 1000 элементов, хотя на сайте числится 1500 :D
от про это я и говорю.😂
кстати, не забывай про дубли, такое бывает часто на сайтах
источник

ЛГ

Лев Гареев in Scrapy
Михаил Синегубов
от про это я и говорю.😂
кстати, не забывай про дубли, такое бывает часто на сайтах
я вычищаю их на пандасе
источник

ЛГ

Лев Гареев in Scrapy
дубли и прочее + некоторые проверки по значениям и разделение на подгруппы
источник

ЛГ

Лев Гареев in Scrapy
с обработкой данных у меня все на высоте, это мое
источник

МС

Михаил Синегубов... in Scrapy
не, я про другое - на сайте один и тот же элемент может быть в разных разделах. Если говорим о магазине
источник

МС

Михаил Синегубов... in Scrapy
или каталоге организаций
источник

S

SoHard 🎄 in Scrapy
Михаил Синегубов
отучайся, это я еще вчера не бухтел насчет твоих простынок с кодом 🤬
вооо, исправляешься

собтвенно по сабжу - там после start_urls идет дичайшая каша из приоритетов, времени ответа сервера, новых реквестов и прочей хрени.

но, если подходить в общих чертах, то да. К примеру. если у тебя 100 стартовых запросов и настройка в 20 конкурирующих, то возьмутся первые 20, полностью обработаются, и только потом возьмутся следующие. По крайней мере у меня такая ситуация была. Но там был идеал, пара доп реквестов и сайт шустрый был
оу, я думал 20 одновременных
источник

S

SoHard 🎄 in Scrapy
те если 10 закончили то 10 взяли вместо
источник

МС

Михаил Синегубов... in Scrapy
так я, вроде, так и сказал
источник

S

SoHard 🎄 in Scrapy
то возьмутся первые 20, полностью обработаются, и только потом возьмутся следующие.
источник

S

SoHard 🎄 in Scrapy
я думал что если 1 из 20 закончили то вместо него взяли еще 1, ты описал пачками
источник

S

SoHard 🎄 in Scrapy
если 1 не закончили то 19 ждут
источник