Size: a a a

2019 July 27

MV

Maxim Vynogradov in Scrapy
тогда ещё два вопрос - пока тут есть кто-то)
как вы запускаете кравлеры в "продакшен моде" - грубо говоря где и как хостите?
вот мне нужно хотлайн для диплома скрапить - цены от туда собирать, ну допустим каждый день в течении месяца - двух
как и где мне его лучше по крону записать. Желательно фрии
и второй вопрос - как мне сделать скрапи мене палевным =)? допустим таймауты выставлять, хедеры подменять? что почитать? как самии делаете?
источник

s

serhii in Scrapy
Maxim Vynogradov
тогда ещё два вопрос - пока тут есть кто-то)
как вы запускаете кравлеры в "продакшен моде" - грубо говоря где и как хостите?
вот мне нужно хотлайн для диплома скрапить - цены от туда собирать, ну допустим каждый день в течении месяца - двух
как и где мне его лучше по крону записать. Желательно фрии
и второй вопрос - как мне сделать скрапи мене палевным =)? допустим таймауты выставлять, хедеры подменять? что почитать? как самии делаете?
много инфі? сколько паук будет работать?
источник

К

Кирилл in Scrapy
Yurii
Пока народ активный
Напомните пожалуйста. Слышал что item ошибку отсутствия пути в поиске обрабатывает.
При таком написании в пауке ошибки не будет?
item['image_url'] = response.css('#screenshot-image::attr(src)').get()
смотря конечно о какой ошибке ты говоришь, если скинешь будет точнее ответ. Твой вариант может присвоить None, это самый плохой исход
источник

s

serhii in Scrapy
Maxim Vynogradov
тогда ещё два вопрос - пока тут есть кто-то)
как вы запускаете кравлеры в "продакшен моде" - грубо говоря где и как хостите?
вот мне нужно хотлайн для диплома скрапить - цены от туда собирать, ну допустим каждый день в течении месяца - двух
как и где мне его лучше по крону записать. Желательно фрии
и второй вопрос - как мне сделать скрапи мене палевным =)? допустим таймауты выставлять, хедеры подменять? что почитать? как самии делаете?
скрапи клауд или сам запусти на дигитал оушене. тебе ж ,как студенту купонов ДО дал?))
источник

s

serhii in Scrapy
Yurii
Пока народ активный
Напомните пожалуйста. Слышал что item ошибку отсутствия пути в поиске обрабатывает.
При таком написании в пауке ошибки не будет?
item['image_url'] = response.css('#screenshot-image::attr(src)').get()
не очень понятно, что нужно.
источник

К

Кирилл in Scrapy
плюсую за digital ocean, + можно хероку
источник

MV

Maxim Vynogradov in Scrapy
serhii
скрапи клауд или сам запусти на дигитал оушене. тебе ж ,как студенту купонов ДО дал?))
да я терперть не могу ДО - я просто уже на работе работаю с AWS, после него ДО стрёмным кажется)
источник

Y

Yurii in Scrapy
Кирилл
смотря конечно о какой ошибке ты говоришь, если скинешь будет точнее ответ. Твой вариант может присвоить None, это самый плохой исход
Интересует самый плохой исход, когда не находит даже путь. Главное чтобы весь item из за этого не навернулся и вернул нужные значения, а по данному значению можно и None.
источник

MV

Maxim Vynogradov in Scrapy
serhii
много инфі? сколько паук будет работать?
ну проще тебе самому взглянуть - https://hotline.ua/mobile/mobilnye-telefony-i-smartfony/ - каждый товар на всех ссылках пагинации
ну и так 3-5 категорий
источник

MV

Maxim Vynogradov in Scrapy
думаю разбить по краулеру на категорию
думаю что не долго
источник

s

serhii in Scrapy
ну попробуй скрапи клауд. не хватит, то как студент бесплатно на дижитал оушене сделаешь
источник

s

serhii in Scrapy
Maxim Vynogradov
да я терперть не могу ДО - я просто уже на работе работаю с AWS, после него ДО стрёмным кажется)
ну на авс сервере запили
источник

К

Кирилл in Scrapy
Yurii
Интересует самый плохой исход, когда не находит даже путь. Главное чтобы весь item из за этого не навернулся и вернул нужные значения, а по данному значению можно и None.
значит норм, просто помни что там может быть None, если не будет элемента на старнице
источник

s

serhii in Scrapy
Yurii
Интересует самый плохой исход, когда не находит даже путь. Главное чтобы весь item из за этого не навернулся и вернул нужные значения, а по данному значению можно и None.
i.add_xpath('name', "//h1/text()") - так будет все ок.
а так обработай сам ошибку в трае и ексепте если нужно.
источник

Y

Yurii in Scrapy
serhii
i.add_xpath('name', "//h1/text()") - так будет все ок.
а так обработай сам ошибку в трае и ексепте если нужно.
Itemloader обязательно юзать?
источник

s

serhii in Scrapy
Maxim Vynogradov
думаю разбить по краулеру на категорию
думаю что не долго
для диплома надо парсер написать? а то я без образования, раз парсер напишу, то можно легко вух окончить?
источник

s

serhii in Scrapy
Yurii
Itemloader обязательно юзать?
та нет конечно. можно елдом словарь возвращать. значения перед этим траем и ексептом обработай
источник

MV

Maxim Vynogradov in Scrapy
serhii
для диплома надо парсер написать? а то я без образования, раз парсер напишу, то можно легко вух окончить?
Мне данные для анализа нужны) готовых датасетов нету
источник

MV

Maxim Vynogradov in Scrapy
Соберу вот
источник

MV

Maxim Vynogradov in Scrapy
Поищу
источник