Size: a a a

Python для анализа данных

2019 June 04

АМ

Алексей Макаров... in Python для анализа данных
С хедлесс надо попробовать. Нашёл туториал, попробую по нему https://duo.com/decipher/driving-headless-chrome-with-python
источник

DS

Dmitriy Shashkin in Python для анализа данных
Настоящий браузер всё-равно несколько не то, интеграция сложнее, работает, кмк медленнее.  А вот scrapy + splash просто огонь! Супер удобное апи, установка через докер и тп. Из минусов: на редких сайтах может скрэшиться внезапно + рендеринг не всегда аккуратен
источник

DS

Dmitriy Shashkin in Python для анализа данных
Я разные варианты пробовал и остановился на этом
источник

A

Andrei in Python для анализа данных
Dmitriy Shashkin
Настоящий браузер всё-равно несколько не то, интеграция сложнее, работает, кмк медленнее.  А вот scrapy + splash просто огонь! Супер удобное апи, установка через докер и тп. Из минусов: на редких сайтах может скрэшиться внезапно + рендеринг не всегда аккуратен
не понял, что медленнее чего работает?
источник

DS

Dmitriy Shashkin in Python для анализа данных
Andrei
не понял, что медленнее чего работает?
headless chrome медленнее чем splash, по крайней мере по ощущениям, я не замерял
источник

A

Andrei in Python для анализа данных
в хедлесе как раз можно отключить какуие-то загрузки если не нужны, например сказать не грузить картинки
источник

DS

Dmitriy Shashkin in Python для анализа данных
"Process multiple pages in parallel, turn OFF images or use Adblock Plus rules to make rendering faster."
Сплэш тоже всякое умеет
источник

A

Andrei in Python для анализа данных
тогда круто бы сравнить, да

хедлесс это не комбайн, в параллель сам не умеет, но самому запустить его в параллель легко
источник

DS

Dmitriy Shashkin in Python для анализа данных
У меня ещё пару пожеланий было необычных, типа перехвата всех http запросов, чтение лога консоли разработчика и ещё что. И с headless chrome я вроде даже смог всё сделать, но это было как-то сложно, а splash всё это сам делает.
источник

АМ

Алексей Макаров... in Python для анализа данных
Во, перехват логов запросов - это прям то, что мне сейчас нужно
источник

A

Andrei in Python для анализа данных
а через тор сплэш легко проксировать?
источник

АМ

Алексей Макаров... in Python для анализа данных
Нет какого-то готового решения?
источник

DS

Dmitriy Shashkin in Python для анализа данных
Ну вот с headless chrome я использовал прокси сервер на яве, который всё логировал, а сплэш в одном из форматов ответа просто отдаёт HAR со всеми запросами
источник

DS

Dmitriy Shashkin in Python для анализа данных
Andrei
а через тор сплэш легко проксировать?
Не пробовал)
источник

DS

Dmitriy Shashkin in Python для анализа данных
Алексей Макаров
Нет какого-то готового решения?
источник

К

Константин in Python для анализа данных
как быть если надо запустить обход по 2-ум столбцам dataframe и сравнивать их в функции между собой?
пробую так, но что в map закинуть тогда не понимаю
источник

АМ

Алексей Макаров... in Python для анализа данных
Это можно сделать через df.apply(f, axis=1)
источник

АМ

Алексей Макаров... in Python для анализа данных
источник

АМ

Алексей Макаров... in Python для анализа данных
Вот хороший пример
источник

АМ

Алексей Макаров... in Python для анализа данных
источник