Size: a a a

2019 July 19

IB

Ivan Baturin in Scrapy
?
источник

АП

Агент Печенька in Scrapy
Да.
источник

Y

Yurii in Scrapy
😄
источник

Y

Yurii in Scrapy
Ivan Baturin
нужна помощь, паршу данные с сайта, использую скрапи и селениеум, все данные записываються в csv файл, как мне не записывать дубликат в этот файл, возможно у скраппи есть такая функция
источник

IB

Ivan Baturin in Scrapy
Спасибо, буду разбираться
источник
2019 July 21

JW

John Wayne in Scrapy
Подскажите, Olx.ua похоже использует эту штуку
https://security.stackexchange.com/questions/182895/anti-bot-javascript-library-identification
Anti-bot library Akamai и она же(вроди бы) не пускает Scrapy-Splash браузер на страницу объяв. Это как бы финиш, эту штуку не обмануть(особенно новичку)?
источник

G

Grigory in Scrapy
John Wayne
Подскажите, Olx.ua похоже использует эту штуку
https://security.stackexchange.com/questions/182895/anti-bot-javascript-library-identification
Anti-bot library Akamai и она же(вроди бы) не пускает Scrapy-Splash браузер на страницу объяв. Это как бы финиш, эту штуку не обмануть(особенно новичку)?
Обмануть
источник

G

Grigory in Scrapy
Запрос нормально сделав
источник

JW

John Wayne in Scrapy
Grigory
Запрос нормально сделав
А нормально, это более круто, чем
Chrome -> devtools -> network -> клик на страницу -> copy as curl, и в params, в pt=из хедера сайта с скрипта берем var phoneToken. Ну и делаем Форм реквест https://www.olx.ua/ajax/misc/contact/phone/tNG1o/?pt=+ varPhoneToken.
Пробовал запросами логинится на сайты, если сайт простой copy as curl+токен и заходит. А вот на реддит или мамбу уже не прокатило.
источник

G

Grigory in Scrapy
Можно и без хромиумов обойтись, если почитать про ссл, абсолютно одинаковые заголовки и делать запрос прямо на адрес сайта
источник

G

Grigory in Scrapy
Но это надо свой sslcontext
источник

G

Grigory in Scrapy
И ебенится с pyopenssl
источник

G

Grigory in Scrapy
Тк там акамай стоит
источник

G

Grigory in Scrapy
И + у олха есть приложуха скорее всего, с неё попробуй зайти
источник

JW

John Wayne in Scrapy
Вау. подкинули мне гуглежа спасибо.
А еще такой вот кейс... сайт https://event-order.ru/anketa/aleksandr-rishar
На нем кнопка контакты, повторяю пост запрос, а в форм дате уже все данные которые нужны, т.е отправляешь то что пытаешься узнать. Глянул в боди, а там скрипт js функция со всей нужной датой. Я так понимаю, такое уже не запросами, а регуляркой взять данные из js функции, Верно?
источник
2019 July 23

РТ

Ренат Турсунбаев in Scrapy
Может кто подскажет: складываю данные в табличку sqlite3, в ней всего 3 поля: 1 текстовое и 2 numeric. Так вот, в таблице 13 млн записей, а бд весит уже за 5 гигов - это нормально?
источник

РТ

Ренат Турсунбаев in Scrapy
В каждой строке только url'ы
источник

РТ

Ренат Турсунбаев in Scrapy
Длиной максимум 50-70
источник

АН

Алексей Нагорский in Scrapy
Ренат Турсунбаев
Может кто подскажет: складываю данные в табличку sqlite3, в ней всего 3 поля: 1 текстовое и 2 numeric. Так вот, в таблице 13 млн записей, а бд весит уже за 5 гигов - это нормально?
vacuum её меньше не делает?
источник

РТ

Ренат Турсунбаев in Scrapy
Уменьшилась на 300мб
источник