Size: a a a

2019 August 15

s

serhii in Scrapy
Нужно было по быстрому данные дикта сохранить куда и время от времени расширять. Я быстро пикл прикрутил. Но это решение не очень, так как все будет это в ОЗУ.
Среди простых аналогов, что порекомендовать можете? Сиквеллайт
?
источник

B

Bulatbulat48 in Scrapy
serhii
Нужно было по быстрому данные дикта сохранить куда и время от времени расширять. Я быстро пикл прикрутил. Но это решение не очень, так как все будет это в ОЗУ.
Среди простых аналогов, что порекомендовать можете? Сиквеллайт
?
Postgres
источник

s

serhii in Scrapy
Среди простых вариантов
источник

B

Bulatbulat48 in Scrapy
serhii
Среди простых вариантов
Вплане? Чтобы одним файлом?
источник

АП

Агент Печенька in Scrapy
serhii
Среди простых вариантов
источник

i

ildar in Scrapy
а ты читал про scrapy.FormRequest.from_response?
если нет глянь тут: https://blog.scrapinghub.com/2016/04/20/scrapy-tips-from-the-pros-april-2016-edition
источник

i

ildar in Scrapy
John Wayne
Люди подскажите, есть такой луа скрипт для scrapy\splash на логин на редите, итог которого:
{"dest": "https://www.reddit.com"}
Как все таки залогинится на редите?
https://www.reddit.com/login
function main(splash, args)
 splash:set_user_agent('Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3770.142 Safari/537.36')
 assert(splash:go(args.url))
 splash:set_viewport_size(1920, 1080)
 assert(splash:wait(1.5))
 local login = splash:select('#loginUsername')
 login:mouse_click()
 assert(splash:wait(0.5))
 login:send_keys('Login')
 assert(splash:wait(0.5))
 local pass = splash:select('#loginPassword')
 pass:mouse_click()
 assert(splash:wait(0.5))
 pass:send_keys('Pass')
 assert(splash:wait(0.5))
 local submit = splash:select('button')
 assert(splash:wait(0.5))
 submit:mouse_click()
 assert(splash:runjs('document.querySelector("body > div > div > div.PageColumn.PageColumn__right > div > form > fieldset:nth-child(10) > button").click()'))
 assert(splash:wait(1.5))
 return {
   url = splash:url(),
   html = splash:html(),
   png = splash:png(),
 }
end
ты уверен что тебе это надо делать? у реддита есть прекрасное API, в котором можно в принципе все получить без геморроя
источник

АН

Алексей Нагорский in Scrapy
Им и пользуюсь
источник

i

ildar in Scrapy
Grigory
Есть такие сайты которые без селениума никак?
есть сайты которые и с селениумом никак. например, upwork - выдаст тебе кучу сразу капчи которую ты будешь бесконечно решать. хотя там конечно API есть, но если ты вдруг решишь чето замутить с селениумом, то просто так это не взлетит
источник

i

ildar in Scrapy
serhii
Нужно было по быстрому данные дикта сохранить куда и время от времени расширять. Я быстро пикл прикрутил. Но это решение не очень, так как все будет это в ОЗУ.
Среди простых аналогов, что порекомендовать можете? Сиквеллайт
?
я вот тоже думаю между dataset и какой-нибудь базой, leveldb или редисом. надо хранить html-страничку и пару полей
источник

i

ildar in Scrapy
маленький дьяволенок на левом плече убеждает заюзать pickle+gzip
источник

АП

Агент Печенька in Scrapy
Чем мой вариант не подошёл?
источник

i

ildar in Scrapy
его тоже можно попробовать
источник

i

ildar in Scrapy
кто-нибудь сталкивался с таким - если в сайте просто сохранить страницу - нужные данные не сохраняются. А если делать сохраниние "вебстраница полностью", то они есть?
пытаюсь тут уже сайт с селениумом парсить - так page_source работает как простое сохранение страницы и ничего полезного не сохраняет(
источник

i

ildar in Scrapy
может можно заставить селениум сохранять всю страницу? я еще пробовал селениумными селекторами работать, к примеру
b.find_element_by_class_name('no-results') и он даже находит элемент, но потом сразу выдает
https://i.imgur.com/BwxSnRU.png
источник

i

ildar in Scrapy
пытаюсь получить результат отсюда:
https://www.softchoice.com/search/index/#/?q=asdfasdf
либо вот это "no results"
либо в найденном получить mfg/sku и ссылку: https://www.softchoice.com/search/index/#/?q=17522
источник

i

ildar in Scrapy
пойду pyppeteer что-ли попробую
источник

s

serhii in Scrapy
import dbm - прекрасная тулза, то что надо. Спасибо!!!
источник

i

ildar in Scrapy
надо только понять, какую из вариаций использовать, а то по-умолчанию оно использует dumb, и написано, что это медленно
источник

АП

Агент Печенька in Scrapy
serhii
import dbm - прекрасная тулза, то что надо. Спасибо!!!
Пожалуйста.
источник