Телеграмм чат группы pydata

Oleg Omelchenko

Если запросы не ложат базу — стараюсь предварительно все что можно делать в sql

Спасибо!

Артем Гилетич... in Python для анализа данных

00:22пожаловаться #1

АГ

Добрый вечер, коллеги. Помогите с нубским вопросом: пытаюсь "играться" с анализом данных скорее в виде хобби, и столкнулся, что массивы, которые удается получить, весьма неудобны для анализа. Например, если в поле содержится id элемента из другой таблицы, или таблица представляет список событий, а анализировать нужно интервалы и т.п. делать это на питоне получается ужасно неудобно.
Подскажите, я что-то не так делаю или предварительная склейка и предобработка данных в том же sql - это нормально?

Поясню о чем речь: предположим, у меня есть таблица поступлений по клиент-банку, таблица контрагентов и таблица обращений в crm и я хочу анализировать интервал времени от первого контакта до поступления денег: лучше эти интервалы в sql посчитать и сразу с названиями контрагентов склеить или в python это тоже можно так же просто и удобно сделать?

Несмотря на простоту, в SQL довольно проблематично оптимизировать повторяющиеся куски кода. Невозможно логать потери при разных джоинах таблиц (особенно если в одном запросе их больше 5-10). Трудно заполнять недостающие индексы и прочее. Нужно хорошо поиграться и с sql, и с python/pandas, чтобы понимать, каким инструментом и на каких этапах получится решить задачу быстрее.

Артем Гилетич... in Python для анализа данных

01:15пожаловаться #2

АГ

Oleg Omelchenko

Если запросы не ложат базу — стараюсь предварительно все что можно делать в sql

Вот постоянно удивляюсь.
Есть какие-то причины или привычка / личная производительность?

01:18пожаловаться #3

AD

Артем Гилетич

Несмотря на простоту, в SQL довольно проблематично оптимизировать повторяющиеся куски кода. Невозможно логать потери при разных джоинах таблиц (особенно если в одном запросе их больше 5-10). Трудно заполнять недостающие индексы и прочее. Нужно хорошо поиграться и с sql, и с python/pandas, чтобы понимать, каким инструментом и на каких этапах получится решить задачу быстрее.

Это то понятно, что некоторую обработку проще в коде сделать. Просто я думал, что каких-то фич пандаса не знаю, которые позволяют так же удобно, как в sql оперировать.

Артем Гилетич... in Python для анализа данных

01:23пожаловаться #4

АГ

Это то понятно, что некоторую обработку проще в коде сделать. Просто я думал, что каких-то фич пандаса не знаю, которые позволяют так же удобно, как в sql оперировать.

Вышлите запрос. Уверен, коллеги найдут лаконичные способы сделать это в pandas.

Oleg Omelchenko in Python для анализа данных

01:47пожаловаться #5

OO

Артем Гилетич

Вот постоянно удивляюсь.
Есть какие-то причины или привычка / личная производительность?

Агрегация, фильтры и джойны в большом количестве мне куда проще прописать при помощи sql.
К тому же, обработка происходит не на моей машине - в случае с большим количеством строк это иногда критично.

Но у меня специфика задач такая, что этот подход работает. Анализ данных он разный бывает, может для каких-то задач это и не самый лучший вариант

01:48пожаловаться #6

AD

Артем Гилетич

Вышлите запрос. Уверен, коллеги найдут лаконичные способы сделать это в pandas.

Благодарю за предложение, Олег!

Алексей Макаров... in Python для анализа данных

09:14пожаловаться #7

АМ

Это то понятно, что некоторую обработку проще в коде сделать. Просто я думал, что каких-то фич пандаса не знаю, которые позволяют так же удобно, как в sql оперировать.

Скиньте пример какой-то функции в SQL, аналога которой не получилось найти в Pandas. Мне кажется, что дело просто в навыках, а не в том, что у Pandas не хватает функционала

09:46пожаловаться #8

AD

Алексей Макаров

Скиньте пример какой-то функции в SQL, аналога которой не получилось найти в Pandas. Мне кажется, что дело просто в навыках, а не в том, что у Pandas не хватает функционала

Спасибо за предложение, Алексей! В основном речь о джойнах, подстановке данных из другой таблицы по ключу, вычислении интервалов между событиями, записанными в виде таблицы логов.

09:54пожаловаться #9

AD

Это, конечно, решается многократными проходами циклов обработки по всему массиву, но как-то неаккуратно.

Алексей Макаров... in Python для анализа данных

09:57пожаловаться #10

АМ

Спасибо за предложение, Алексей! В основном речь о джойнах, подстановке данных из другой таблицы по ключу, вычислении интервалов между событиями, записанными в виде таблицы логов.

join можно реализовать с помощью функции merge. Посмотрите документацию, там довольно много примеров. Вычисление интервалов между рядом стоящиими событиями можно сделать через функцию diff. Diff также можно делать по группам с помощью groupby, если например нужно вычислить интервал между событиями одного типа

Алексей Макаров... in Python для анализа данных

10:01пожаловаться #11

АМ

Это, конечно, решается многократными проходами циклов обработки по всему массиву, но как-то неаккуратно.

Чаще всего циклы при использовании Pandas говорят о том, что что-то делается не по канонам)

10:02пожаловаться #12

AD

Алексей Макаров

Чаще всего циклы при использовании Pandas говорят о том, что что-то делается не по канонам)

Вот это и беспокоит. Интуитивно это понимаю :) спасибо за совет. Попробую :)

Oleg Basmanov in Python для анализа данных

10:02пожаловаться #13

OB

есть нескколько скриптов, там идут коннекты к разным базам, яндекс маркету и прочее. Ну работает нормально впринципе, но иногда приходят отбивка об ошибках типа

('Connection aborted.', RemoteDisconnected('Remote end closed connection without response',))

фиг его знает что именно там пошло не так. вручную скрипт запустишь тут же - все норм прошло. Вобщем как бы так отследить в каком именно месте падает?

Andrey Denisov in Python для анализа данных

10:05пожаловаться #14

A

Oleg Basmanov

есть нескколько скриптов, там идут коннекты к разным базам, яндекс маркету и прочее. Ну работает нормально впринципе, но иногда приходят отбивка об ошибках типа

('Connection aborted.', RemoteDisconnected('Remote end closed connection without response',))

фиг его знает что именно там пошло не так. вручную скрипт запустишь тут же - все норм прошло. Вобщем как бы так отследить в каком именно месте падает?

Условная Метрика подскажет что за ошибка

elif req.status_code == 201:
print("Отчет успешно поставлен в очередь в режиме офлайн")
elif req.status_code == 502:
print("Время формирования отчета превысило серверное ограничение.")
и проч.

Алексей in Python для анализа данных

10:11пожаловаться #15

А

Oleg Basmanov

есть нескколько скриптов, там идут коннекты к разным базам, яндекс маркету и прочее. Ну работает нормально впринципе, но иногда приходят отбивка об ошибках типа

('Connection aborted.', RemoteDisconnected('Remote end closed connection without response',))

фиг его знает что именно там пошло не так. вручную скрипт запустишь тут же - все норм прошло. Вобщем как бы так отследить в каком именно месте падает?

по логам? https://python-scripts.com/logging-python У меня мои скрипты написаны с логгером, в который передается место формирование ошибки (если оно в поле моих интересов) и саму ошибку

Python 3

Логирование в Python

Модуль logging очень полезен в решении возникших проблем в работе вашего приложения. Создание простого логгера.

10:14пожаловаться #16

V

Vlad in Python для анализа данных

Ребятки, добрый день) В этом году пишу дипломную работу. Хочу взять тему "прогнозирование цен на нефть" используя новости как один из критерий прогноза. Сам я только начинаю изучать питон и машинное обучение. Может посоветуйте какие-нибудь книги, статьи с пошаговыми действиями? А то проблема в том, что я нашел пару статей и кодов к этой теме для прогнозирования, но это все расписано на пару страниц, а в работе требуется около 80 страниц. Заранее спасибо)

Vanya Slobodchikov in Python для анализа данных

12:21пожаловаться #17

VS

кажется, что вопрос не в тот чят

Алексей in Python для анализа данных

12:32пожаловаться #18

А

Vlad

Ребятки, добрый день) В этом году пишу дипломную работу. Хочу взять тему "прогнозирование цен на нефть" используя новости как один из критерий прогноза. Сам я только начинаю изучать питон и машинное обучение. Может посоветуйте какие-нибудь книги, статьи с пошаговыми действиями? А то проблема в том, что я нашел пару статей и кодов к этой теме для прогнозирования, но это все расписано на пару страниц, а в работе требуется около 80 страниц. Заранее спасибо)

погружайтесь далее и описывайте алгоритмы прогнозирования. Распишите что происход в коде и почему именно так. Выйдет не 80 страниц, а 160)

12:38пожаловаться #19

V

Vlad in Python для анализа данных

Вот только к сожалению это необычная статья в журнал) Тут нужно 3 главы: Теоретическая, теорио-практическая и сама практика. И если к последним 2 это подойдёт, то 1, самое тупое, и как раз для него мне не хватает материала