Size: a a a

2021 June 16

S

SoHard 🎄 in Scrapy
настало время тупых вопросов.

как правильно писать айтемы в бд/файл/глиняные таблички пачками?

делать глобальную переменную куда писать айтемы и проверять не набралась ли пачка нужным количеством айтемов?
источник

МС

Михаил Синегубов... in Scrapy
я, примерно так и делаю, в пайпе
источник

O

OxYgEn in Scrapy
На время разгадывания капчи, паука лучше на паузу ставить?
источник

М

Максим in Scrapy
Как вырезал?
Раньше я менял кавычки просто открыв два файла и построчно заменял с одного файла в другой. А сейчас такая фигня уже не работает(
источник

S

SoHard 🎄 in Scrapy
Что-то типо такого
источник

М

Максим in Scrapy
Не работает почему-то😕
Будто бы file_from пустой
источник

O

OxYgEn in Scrapy
Капча зависит от количества запросов в день? Или как?
источник

AR

Andrey Rahmatullin in Scrapy
никак не узнать как настроена защита
источник

AR

Andrey Rahmatullin in Scrapy
вряд ли в день, скорее в час или чаще
источник

AR

Andrey Rahmatullin in Scrapy
ну и не только от количества запросов может быть
источник

O

OxYgEn in Scrapy
Например?
источник

AR

Andrey Rahmatullin in Scrapy
детект небраузерных клиентов
источник

A

Alex in Scrapy
Так работает:

input_file = r'in.xml'
output_file = r'out.xml'

replacements = {'"': '"',}

with open(input_file, 'r') as in_file, open(output_file, 'w') as out_file:
   for line in in_file:
       for search_for in replacements:
           replace_with = replacements[search_for]
           line = line.replace(search_for, replace_with)
       out_file.write(line)
источник

A

Alex in Scrapy
А и кодировку входного/выходного файлов указать encoding='cp1251'
источник

IP

Ivan Pushin in Scrapy
Продолжаю рубрику тупых вопросов. Делаю ротацию прокси, всё как указано в документации scrapy-rotating-proxies. Оправляю тестовые запросы к checkip.dyndns.org, на выходе получаю один и тот же IP. С чем может быть связано, что прокси не включаются в работу?
источник

МС

Михаил Синегубов... in Scrapy
лог что говорит? прокси, вообще, используются?
источник

IP

Ivan Pushin in Scrapy
Спасибо, уже разобрался. На стороне прокси была проблема.
источник

М

Мур in Scrapy
У сайта интерфакс кодировка стоит Windows-1251, я чуть не упал)
источник

O

OxYgEn in Scrapy
Профи, можете скинуть сайты на которых можно практиковаться и наращивать свои навыки. Заранее спасибо
источник

МС

Михаил Синегубов... in Scrapy
какого рода сайты? с защитой - попробуй инсту распарсить, или линкед
источник