Телеграмм чат группы scrapy_python страница 796

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Scrapy

380 membersпожаловаться на группу

2019 August 15

s

serhii in Scrapy

Нужно было по быстрому данные дикта сохранить куда и время от времени расширять. Я быстро пикл прикрутил. Но это решение не очень, так как все будет это в ОЗУ.
Среди простых аналогов, что порекомендовать можете? Сиквеллайт
?

источник

16:29пожаловаться #1

B

Bulatbulat48 in Scrapy

Нужно было по быстрому данные дикта сохранить куда и время от времени расширять. Я быстро пикл прикрутил. Но это решение не очень, так как все будет это в ОЗУ.
Среди простых аналогов, что порекомендовать можете? Сиквеллайт
?

Postgres

источник

17:01пожаловаться #2

s

serhii in Scrapy

Среди простых вариантов

источник

17:07пожаловаться #3

B

Bulatbulat48 in Scrapy

Среди простых вариантов

Вплане? Чтобы одним файлом?

источник

17:13пожаловаться #4

АП

Агент Печенька in Scrapy

Среди простых вариантов

https://docs.python.org/3/library/dbm.html

источник

17:22пожаловаться #5

i

ildar in Scrapy

Алексей Нагорский

aspx мать его

а ты читал про scrapy.FormRequest.from_response?
если нет глянь тут: https://blog.scrapinghub.com/2016/04/20/scrapy-tips-from-the-pros-april-2016-edition

Scraping Websites Based on ViewStates with Scrapy

источник

18:40пожаловаться #6

i

ildar in Scrapy

Люди подскажите, есть такой луа скрипт для scrapy\splash на логин на редите, итог которого:
{"dest": "https://www.reddit.com"}
Как все таки залогинится на редите?
https://www.reddit.com/login
function main(splash, args)
splash:set_user_agent('Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3770.142 Safari/537.36')
assert(splash:go(args.url))
splash:set_viewport_size(1920, 1080)
assert(splash:wait(1.5))
local login = splash:select('#loginUsername')
login:mouse_click()
assert(splash:wait(0.5))
login:send_keys('Login')
assert(splash:wait(0.5))
local pass = splash:select('#loginPassword')
pass:mouse_click()
assert(splash:wait(0.5))
pass:send_keys('Pass')
assert(splash:wait(0.5))
local submit = splash:select('button')
assert(splash:wait(0.5))
submit:mouse_click()
assert(splash:runjs('document.querySelector("body > div > div > div.PageColumn.PageColumn__right > div > form > fieldset:nth-child(10) > button").click()'))
assert(splash:wait(1.5))
return {
url = splash:url(),
html = splash:html(),
png = splash:png(),
}
end

reddit: the front page of the internet

Reddit gives you the best of the internet in one place. Get a constantly updating feed of breaking news, fun stories, pics, memes, and videos just for you. Passionate about something niche? Reddit has thousands of vibrant communities with people that share your interests. Alternatively, find out what’s trending across all of Reddit on r/popular. Reddit is also anonymous so you can be yourself, with your Reddit profile and persona disconnected from your real-world identity.

ты уверен что тебе это надо делать? у реддита есть прекрасное API, в котором можно в принципе все получить без геморроя

источник

18:40пожаловаться #7

АН

Алексей Нагорский in Scrapy

а ты читал про scrapy.FormRequest.from_response?
если нет глянь тут: https://blog.scrapinghub.com/2016/04/20/scrapy-tips-from-the-pros-april-2016-edition

Scraping Websites Based on ViewStates with Scrapy

Им и пользуюсь

источник

18:43пожаловаться #8

i

ildar in Scrapy

Есть такие сайты которые без селениума никак?

есть сайты которые и с селениумом никак. например, upwork - выдаст тебе кучу сразу капчи которую ты будешь бесконечно решать. хотя там конечно API есть, но если ты вдруг решишь чето замутить с селениумом, то просто так это не взлетит

источник

18:45пожаловаться #9

i

ildar in Scrapy

Нужно было по быстрому данные дикта сохранить куда и время от времени расширять. Я быстро пикл прикрутил. Но это решение не очень, так как все будет это в ОЗУ.
Среди простых аналогов, что порекомендовать можете? Сиквеллайт
?

я вот тоже думаю между dataset и какой-нибудь базой, leveldb или редисом. надо хранить html-страничку и пару полей

источник

18:50пожаловаться #10

i

ildar in Scrapy

маленький дьяволенок на левом плече убеждает заюзать pickle+gzip

источник

18:51пожаловаться #11

АП

Агент Печенька in Scrapy

Чем мой вариант не подошёл?

источник

18:54пожаловаться #12

i

ildar in Scrapy

его тоже можно попробовать

источник

18:59пожаловаться #13

i

ildar in Scrapy

кто-нибудь сталкивался с таким - если в сайте просто сохранить страницу - нужные данные не сохраняются. А если делать сохраниние "вебстраница полностью", то они есть?
пытаюсь тут уже сайт с селениумом парсить - так page_source работает как простое сохранение страницы и ничего полезного не сохраняет(

источник

19:39пожаловаться #14

i

ildar in Scrapy

может можно заставить селениум сохранять всю страницу? я еще пробовал селениумными селекторами работать, к примеру
b.find_element_by_class_name('no-results') и он даже находит элемент, но потом сразу выдает
https://i.imgur.com/BwxSnRU.png

источник

19:39пожаловаться #15

i

ildar in Scrapy

пытаюсь получить результат отсюда:
https://www.softchoice.com/search/index/#/?q=asdfasdf
либо вот это "no results"
либо в найденном получить mfg/sku и ссылку: https://www.softchoice.com/search/index/#/?q=17522

Search | Softchoice

источник

19:44пожаловаться #16

i

ildar in Scrapy

пойду pyppeteer что-ли попробую

источник

20:05пожаловаться #17

s

serhii in Scrapy

import dbm - прекрасная тулза, то что надо. Спасибо!!!

источник

20:30пожаловаться #18

i

ildar in Scrapy

надо только понять, какую из вариаций использовать, а то по-умолчанию оно использует dumb, и написано, что это медленно

источник

20:31пожаловаться #19

АП

Агент Печенька in Scrapy

import dbm - прекрасная тулза, то что надо. Спасибо!!!

Пожалуйста.

источник

20:35пожаловаться #20