Size: a a a

2020 November 22

AC

A C in Scrapy
Привет! Ты знаешь, как заставить скрапацию ждать между start_urls?
Я поставил DOWNLOAD_DELAY = 5, но в какой-то момент у меня все еще была ошибка 403 для сайта, чей robots.txt:
источник

AC

A C in Scrapy
'''
User-agent: *
Disallow: /member/post
Disallow: /member/login
Disallow: /member/index_do
Disallow: /member/pm
Disallow: /report.php
Disallow: /ajax
Disallow: /item.php
'''
источник

A

Andrii in Scrapy
Скрапацию?)
источник

AR

Andrey Rahmatullin in Scrapy
A C
Привет! Ты знаешь, как заставить скрапацию ждать между start_urls?
Я поставил DOWNLOAD_DELAY = 5, но в какой-то момент у меня все еще была ошибка 403 для сайта, чей robots.txt:
да, DOWNLOAD_DELAY
источник

AC

A C in Scrapy
Andrii
Скрапацию?)
да
источник

AC

A C in Scrapy
Andrey Rahmatullin
да, DOWNLOAD_DELAY
да, Ты советуешь мне поднять его?
источник

AR

Andrey Rahmatullin in Scrapy
ничего не советую, что спросили то и ответил
источник

AR

Andrey Rahmatullin in Scrapy
с 403 это помочь не обязано
источник

AC

A C in Scrapy
Да?
источник

S

SoHard 🎄 in Scrapy
Andrey Rahmatullin
что такое CMD не знаю
Консоль
источник

AC

A C in Scrapy
S
Всем доброго вечера !
Методом проб и ошибок установил scrapy splash и вродебы всё работает , но не тут то было (((
ТАКОЙ ВОПРОС : spider переходит по ссылкам , но не по всем а только максимум 4 страницы . Как это можно исправить и в чем может быть причина ?
И как сделать так чтобы я мог тестировать response запросы через CMD но уже с поддержкой splash то есть чтобы подгружался весь код с JavaScript ?
Вы всегда можете использовать запрос внутри паука.
источник

К

Кирилл in Scrapy
Похоже пришло время ставить бота капчу
источник

B

Bulatbulat48 in Scrapy
может он хотел спросить как парсить твиттер?
источник

К

Кирилл in Scrapy
Я на этой неделе уже штуки 3 таких удалил
источник
2020 November 23

A

Andrii in Scrapy
Не могу подвязать splash к scrapyd(web) в докере
scrapyd_node_3:
   build: ./scrapyd_node_3
   environment:
     RESULT_DIR: "/app/results"
    SPLASH_SERVER: "splash:8050"
   ports:
     - "6802:6800"
   links:
     - splash
   volumes:
     - ./data:/var/lib/scrapyd
     - ./data/results:/app/results
   restart: unless-stopped

 splash:
   image: scrapinghub/splash
   ports:
     - "8050:8050"
источник

A

Andrii in Scrapy
settings:
SPLASH_URL = os.environ.get('SPLASH_SERVER', 'http://127.0.0.1:8050')

DOWNLOADER_MIDDLEWARES = {
   'scrapy_splash.SplashCookiesMiddleware': 723,
   'scrapy_splash.SplashMiddleware': 725,
   'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
}
источник

A

Andrii in Scrapy
кто подскажет что не так
источник

И

Илья in Scrapy
{"text": "\u201cA day without sunshine is like, you know, night.\u201d", "author": "Steve Martin"},
u201c  Это же символ юникода какой-то? Насколько я помню надо где то кодировку сменить, чтобы таких символов не было.
источник

МС

Михаил Синегубов... in Scrapy
Илья
{"text": "\u201cA day without sunshine is like, you know, night.\u201d", "author": "Steve Martin"},
u201c  Это же символ юникода какой-то? Насколько я помню надо где то кодировку сменить, чтобы таких символов не было.
json.loads
источник

AR

Andrey Rahmatullin in Scrapy
Илья
{"text": "\u201cA day without sunshine is like, you know, night.\u201d", "author": "Steve Martin"},
u201c  Это же символ юникода какой-то? Насколько я помню надо где то кодировку сменить, чтобы таких символов не было.
не надо ничего нигде, так и должно быть
источник