Size: a a a

Python для анализа данных

2019 February 01

АМ

Алексей Макаров... in Python для анализа данных
Переслано от Dmitry Rodin
тогда зайдя в папку модуля (в верхний уровень) можно сделать python setyp.py develop и на него будет установлена ссылка прямо в системном хранилище пакетов, соот-но можно править и изменения сразу будут везде доступны
источник

DR

Dmitry Rodin in Python для анализа данных
Я нашел ваш секретный чат )
источник

DR

Dmitry Rodin in Python для анализа данных
Переслано от Dmitry Rodin
name > name > __init__.py
name > setyp.py

и в setyp.py
источник

DR

Dmitry Rodin in Python для анализа данных
в примере выше, подчеркивания обработались как markdown )
источник

OA

Oleg Agapov in Python для анализа данных
ок, вроде направление понятно. по шагам:

1. сделать папку /mymodule, в ней setup.py и подпапку /mymodule с самим модулем
2. в setup.py добавляю код выше
3. захожу в папку с модулем и пишу python setyp.py develop

а вот дальше не понятно. как импортировать в анаконду? нужно ли пункт 3 выполнять из под окружения анаконды?
источник

DR

Dmitry Rodin in Python для анализа данных
import mymodule
источник

DR

Dmitry Rodin in Python для анализа данных
или from mymodule import some_func, OR_CONST
источник

OA

Oleg Agapov in Python для анализа данных
@dmitryrodin ок, спасибо. буду пробовать, потом отпишусь
источник

OA

Oleg Agapov in Python для анализа данных
работает, спасибо за помощь

(совет: в случае с анакондой при каждом изменении сорца нужно делать restart kernel чтобы изменения подтянулись)
источник
2019 February 06

AK

Alex Koletvin in Python для анализа данных
Как решить с максимальной производительностью такую задачку:
Есть датафрейм, где индексы - айди пользователей, а по столбцам - их дни жизни, значения в столбцах - количество входов в приложение в данный день жизни.
Нужно: добавить в датафрейм столько же столбцов, значения в которых - количество дней перед этим днем, в которых пользователь не заходил в приложение. То есть надо для каждого дня найти первое СЛЕВА ненулевое значение.
Есть мысль как это сделать через .cumsum().searchsorted(0,side='right'),
но производительность тут оставляет желать лучшего, есть ли метод побыстрее?
источник

АМ

Алексей Макаров... in Python для анализа данных
А можете кусочек dataframe, есть предположение, что это можно сделать сначала сделав stack, но пока не вижу данных, тяжело сориентироваться
источник

АМ

Алексей Макаров... in Python для анализа данных
stack тут может помочь в том плане, что вы pivot, где у вас дни жизни в столбцах, приведете к структуре, где дни жизни будут признаком в строке. И дальше уже сделать cumcount по нулям, с группировкой по id юзера. Я бы как-то так решал эту задачу
источник

AK

Alex Koletvin in Python для анализа данных
Показать просто?
Вот так это выглядит
источник

AK

Alex Koletvin in Python для анализа данных
нужно такие же столбцы получить, но со значением - сколько нулей слева от этого числа
источник

AK

Alex Koletvin in Python для анализа данных
Понял, пока у меня идея только написать функцию, которая будет принимать series от 0 дня до дня N и через .cumsum().searchsorted(0,side='right') искать ответ, но я нечто похожее уже делал и это как то долго
источник

АМ

Алексей Макаров... in Python для анализа данных
А можете прислать в csv кусочек df? Попробую повертеть
источник

AK

Alex Koletvin in Python для анализа данных
источник

D

Dmitriy Klimakov in Python для анализа данных
Привет народ, подскажите ,а есть на питоне чтото удобное и хорошо работающее для выделения ключевых слов в коротких текстах ?
источник

AK

Alex Koletvin in Python для анализа данных
Из питоновского чата идеи насчёт этой задачки
источник

AK

Alex Koletvin in Python для анализа данных
Переслано от Doker
Я бы создал строчку с нужными параметрами
источник