Size: a a a

Python для анализа данных

2019 May 12

AR

Artem Razgonov in Python для анализа данных
Oleg Agapov
Две цели. Во-первых, чтобы видеть месячную динамику, во-вторых сравнивать с бенчмарками по нише. Я изначально придумал формулу для ретеншена кастомеров (не визитов и не целевых действий), но потом понял, что моя формула это annual repurchase rate, а не ретеншен
И у вас же есть некие бенчмарки, по ним разве формула непонятна?
источник
2019 May 13

AF

Anastasia Fatykhova in Python для анализа данных
Привет! Сорри, за беспокойство. Можно вам сюда забросить вакансию от яндекс.практикума? не нашла инфу
источник

M

M 🌗🌘🌑🌒🌓... in Python для анализа данных
Алексей Макаров
Int64 с большой буквы I (а то с маленькой другой тип)
огромное спасибо за последний пост, кстати. Если вдруг есть ещё что-то по связке матплотлиб и сиборн, то будет мне очень полезно.
источник

АМ

Алексей Макаров... in Python для анализа данных
Anastasia Fatykhova
Привет! Сорри, за беспокойство. Можно вам сюда забросить вакансию от яндекс.практикума? не нашла инфу
Привет! Да, конечно
источник

AF

Anastasia Fatykhova in Python для анализа данных
спасибо)))
источник

AF

Anastasia Fatykhova in Python для анализа данных
#преподавание #частичная #вакансия #python #datascience #удаленно  
Яндекс.Практикум в поиске наставников на дата-факультет!

Компания: Яндекс.Практикум
Сайт: https://praktikum.yandex.ru
График: частичная удаленная работа, 5-6 часов в неделю
З/п: 25 000 в месяц за ведение 1 группы студентов

▪️Что делает наставник?
Наставник курирует группу/группы из 10 студентов на протяжении всего процесса обучения (примерно 6 месяцев). Он проверяет работы своих студентов, отвечает на их вопросы, проводит групповые консультации.

▪️Вам подойдет роль, если у вас есть:
Для курса по аналитике данных => опыт работы на Python от 2 лет (и более), владение SQL и программными библиотеками Pandas, NumPy, Matplotlib, Seaborn, желательно — Plotly, вы владеете статистикой в применении к a/b-тестам, и у вас есть опыт их проведения
Для курса по машинному обучению=> опыт работы data science на Python от 2 лет, опыт работы с машинным обучением от 1 года, владение основами математического анализа, линейной алгебры, теории вероятностей и статистикой и библиотеками Pandas, NumPy, Matplotlib, Sklearn

А также желаение прокачать скиллы наставничества (например, для построения карьеры тимлидера или для развития в преподавании)

▪️Каждый наставник проходит бесплатно обучение в школе наставничества Яндекс.Пратикума

Контакты: @anastasiafat anastasiafaty@yandex-team.ru
источник
2019 May 15

A

Andrei in Python для анализа данных
какой есть способ нарезать датафрейм на несколько по заданному соотношению числа строк

то есть на входе датафрейм и например fracs=[0.5, 0.25, 0.25], на выходе хочу три датафрейма: в первом первые 50% строк, во втором и третьем по 25%
источник

R

Roman in Python для анализа данных
Iloc чем плох?
источник

P

Peter in Python для анализа данных
В цикле получить из .shape кол-во строк, перемножить на параметры из списка и iloc нарезать, как вариант
источник

АМ

Алексей Макаров... in Python для анализа данных
Andrei
какой есть способ нарезать датафрейм на несколько по заданному соотношению числа строк

то есть на входе датафрейм и например fracs=[0.5, 0.25, 0.25], на выходе хочу три датафрейма: в первом первые 50% строк, во втором и третьем по 25%
fracs = [0.5,0.25,0.25]

len_of_df = all_df.shape[0]
slice_list = [0] + list(np.cumsum([int(np.ceil(len_of_df*x)) for x in fracs]))

sub_dfs = []
for i,index in enumerate(slice_list[:-1]):
   sub_df = all_df[index:slice_list[i+1]]
   sub_dfs.append(sub_df)
источник

АМ

Алексей Макаров... in Python для анализа данных
Что-то вот такое можно сделать
источник

АМ

Алексей Макаров... in Python для анализа данных
Но из-за ceil беда получается
источник

АМ

Алексей Макаров... in Python для анализа данных
источник

АМ

Алексей Макаров... in Python для анализа данных
Два последних куска не равняются по размеру
источник

АМ

Алексей Макаров... in Python для анализа данных
Вот я что-то не придумал внятного алгоритма как сделать так, чтобы нормально выбирать определенный процент из данных, тут нужно какое-то условие: np.ceil или np.floor в зависимости от значения len_of_df * x
источник

АМ

Алексей Макаров... in Python для анализа данных
Во, как вариант - делать sorted(fracs), тогда самый большой кусок будет обрезаться, а с остальными все ок будет
источник

АМ

Алексей Макаров... in Python для анализа данных
источник

A

Andrei in Python для анализа данных
крутяк! вроде рабочие варианты, но думал что проще дело
источник

АМ

Алексей Макаров... in Python для анализа данных
Да я тоже думал, что должно быть что-то готовое. Ожидал, что в numpy есть какой-нибудь метод, который позволяет возвратить n процентов из array, но такого не оказалось, а это ключевая проблема в этой задаче
источник

A

Andrei in Python для анализа данных
мб из sklearn.model_selection.train_test_split можно состряпать?
источник