Size: a a a

2018 July 22

EB

Elisei Badanin in Scrapy
Али вроде как в Китае где-то должен находится, не знаю что выше тос или закон там
источник

EB

Elisei Badanin in Scrapy
В рф скорее на 3 хакерских статьи смотреть + авторские права
источник
2018 July 23

DD

Danil Denysenko in Scrapy
Здравствуйте. Немного освежу беседу)
был у меня скрипт, который парсил теги с сайта(их там около 26к выходит). Решил переделать, к каждому тегу добивить словарь(сделать по труктуре {'tag': {...}, ...} и это все Json. Так вот, на такое, видимо не хватает оперативной памяти у компа, залагивает и перестает парсить. Загуглил scrapy Items - ситуация аналогичная, но может я что-то не так делаю?Есть вариант распределять все по разным json файлам, а потом из них все в кучу вбивать, но это халтура)

https://gist.github.com/D-Denysenko/7c22c1db7039a0adc5e98316f9ba68e5
источник

EB

Elisei Badanin in Scrapy
скрапи?
источник

DD

Danil Denysenko in Scrapy
да
источник

EB

Elisei Badanin in Scrapy
если ничего там не накостылил, то можно включить в конфиге джобдир
источник

EB

Elisei Badanin in Scrapy
по идее тогда все временное будет на диск писаться
источник

EB

Elisei Badanin in Scrapy
ну а так только смотреть куда память девается или подключать свап
источник

DD

Danil Denysenko in Scrapy
item[main_tag] = {'Alterate Forms': [tag for tag in html['alt_forms']],
                                                      'Related Topics': [tag for tag in
                                                                         html['facets'['related_topics']]}
оно, видимо, эту конструкцию в памяти держит, для каждого тега
источник

B

Bulatbulat48 in Scrapy
еще хештаблица +30% дополнительно съедает
источник

EB

Elisei Badanin in Scrapy
мерил?)
источник

B

Bulatbulat48 in Scrapy
да, линейкой)
источник

EB

Elisei Badanin in Scrapy
вообще как ни странно но она эффективнее просто листа))
источник
2018 July 25

B

Bulatbulat48 in Scrapy
освежим нашу беседу новым пакетом, только для python 3.6:
https://html.python-requests.org/
по факту тот же requests только умеет генерировать JS
прислано нашим анонимным читателем :)
источник

EB

Elisei Badanin in Scrapy
анонимным админом?)
источник

B

Bulatbulat48 in Scrapy
Elisei Badanin
анонимным админом?)
ну или так)))
источник

EB

Elisei Badanin in Scrapy
что как оно кстати? пробывал?
источник

B

Bulatbulat48 in Scrapy
пробовал, что-то не сгенерировало, но может косякнул где. Повисло на большом сайте
источник

NK

ID:200200555 in Scrapy
А зачем?
источник

А

Алексей in Scrapy
источник