Телеграмм чат группы pydata

Спасибо за ответы, очень редко можно нормально продуктовому аналитику позадавать нубские вопросы). Как думаете, норм связка будет для джуна/стажера, чтобы найти работу: gopractice + sql + python (чисто для расчета аб тестов) + немнож мат.стат?)

источник

16:00пожаловаться #4

ВЛ

Владислав Литвинюк... in Python для анализа данных

Евгений

Спасибо за ответы, очень редко можно нормально продуктовому аналитику позадавать нубские вопросы). Как думаете, норм связка будет для джуна/стажера, чтобы найти работу: gopractice + sql + python (чисто для расчета аб тестов) + немнож мат.стат?)

статистику продуктовому оч нужно + bi

источник

16:02пожаловаться #5

OB

Oleg Basmanov in Python для анализа данных

Vlad

Ну вот типа так, обработка данных в питоне, а потом сделать из данных такое : https://app.powerbi.com/view?r=eyJrIjoiNjM2NDUyOTUtNTc5OC00YTk3LWE1ODUtNzM1NmFlMDk1ZjJkIiwidCI6ImM4YzY5YWFlLTMyYmEtNDNkMS05ZjU5LWY5OGM5NWZiMjI3YiIsImMiOjl9

вот реальный пример. в базе три таблицы - продажи, источники продаж, клиенты. все это нужно всяко разно сджойнить, сгруппировать. потом вывести в PBI. Где это делать? можно в самой базе написать вьюшку, можно в power query или python/R сделать. Разница во времени обработки - когда в базе - все обработается в разы быстрее

источник

16:02пожаловаться #6

К

Константин in Python для анализа данных

df['URL'].str.split('/', expand = True)

а как применить так, чтобы дозаписывал в df новые столбцы, а не создавла новый dataframe?

источник

16:03пожаловаться #7

E

Elenka in Python для анализа данных

Евгений

Спасибо за ответы, очень редко можно нормально продуктовому аналитику позадавать нубские вопросы). Как думаете, норм связка будет для джуна/стажера, чтобы найти работу: gopractice + sql + python (чисто для расчета аб тестов) + немнож мат.стат?)

Я просто в матане шарила и на питоне писала когда нашла работу первую.
Мне кажется если норм база, то облепить знания инструментарием вообще не проблема.
Не понимаю, почему все так зациклены на конкретных инструментах. Есть конечно некоторые обязательные вещи.
Стек меняется от времени/места работы)

источник

16:04пожаловаться #8

E

Elenka in Python для анализа данных

Константин

df['URL'].str.split('/', expand = True)

а как применить так, чтобы дозаписывал в df новые столбцы, а не создавла новый dataframe?

Можете замержить потом
Или сразу обозначьте названия столбцов новых в этом датафрейме перед этими действиями)

источник

16:08пожаловаться #9

АМ

Алексей Макаров... in Python для анализа данных

Евгений

Спасибо за ответы, очень редко можно нормально продуктовому аналитику позадавать нубские вопросы). Как думаете, норм связка будет для джуна/стажера, чтобы найти работу: gopractice + sql + python (чисто для расчета аб тестов) + немнож мат.стат?)

Python можно и не только для расчета AB-тестов использовать, кучу продуктовых гипотез можно валидировать на Python, например, когда мы говорим про какие-то сложные штуки с нетривиальной логикой а ля behavioral cohorts, также различного рода Exploratory Data Analysis для генерации новых гипотез.

SQL это 100% нужно (тут даже нет смысла обсуждать, хотя бы на уровне JOIN и вложенных запросов надо понимать).

GoPractice может дать хорошее знание аналитических фреймворков, понимание метрик + тренирует общий скилл аналитического мышления и как делать выводы.

Статистика нужна, но я бы не сказал, что это прямо критический важный скилл, здравый смысл важнее. Знать основные статистики, например, медиана, среднее, квартили, нужно точно. В продуктовой аналитике не такой гигантский статистический аппарат. Но опять же, это у меня на работе статистика не нужна в большом объеме, а есть те кто много работает с A/B-тестированиями (например, послушайте выступления Вита Черемисинова).

В общем, всё что вы перечислили - хороший фундамент для устройства на работу.

источник

16:09пожаловаться #10

ВЛ

Владислав Литвинюк... in Python для анализа данных

Алексей Макаров

Python можно и не только для расчета AB-тестов использовать, кучу продуктовых гипотез можно валидировать на Python, например, когда мы говорим про какие-то сложные штуки с нетривиальной логикой а ля behavioral cohorts, также различного рода Exploratory Data Analysis для генерации новых гипотез.

SQL это 100% нужно (тут даже нет смысла обсуждать, хотя бы на уровне JOIN и вложенных запросов надо понимать).

GoPractice может дать хорошее знание аналитических фреймворков, понимание метрик + тренирует общий скилл аналитического мышления и как делать выводы.

Статистика нужна, но я бы не сказал, что это прямо критический важный скилл, здравый смысл важнее. Знать основные статистики, например, медиана, среднее, квартили, нужно точно. В продуктовой аналитике не такой гигантский статистический аппарат. Но опять же, это у меня на работе статистика не нужна в большом объеме, а есть те кто много работает с A/B-тестированиями (например, послушайте выступления Вита Черемисинова).

В общем, всё что вы перечислили - хороший фундамент для устройства на работу.

А как загулить "Вита Черемисинова" ?

источник

16:11пожаловаться #11

АМ

Алексей Макаров... in Python для анализа данных

Константин

df['URL'].str.split('/', expand = True)

а как применить так, чтобы дозаписывал в df новые столбцы, а не создавла новый dataframe?

http://datalytics.ru/all/kak-v-pandas-razbit-kolonku-na-neskolko-kolonok/

datalytics.ru

Как в Pandas разбить одну колонку на несколько

Решил начать рассматривать нетривиальные кейсы в Pandas, с которыми иногда сталкиваюсь при работе с данными

источник

16:11пожаловаться #12

OB

Oleg Basmanov in Python для анализа данных

Владислав Литвинюк

А как загулить "Вита Черемисинова" ?

В фб

источник

16:11пожаловаться #13

E

Elenka in Python для анализа данных

Владислав Литвинюк

А как загулить "Вита Черемисинова" ?

https://www.facebook.com/vit.cheremisinov

Facebook

Log in to Facebook | Facebook

Log in to Facebook to start sharing and connecting with your friends, family and people you know.

источник

16:12пожаловаться #14

E

Elenka in Python для анализа данных

Надеюсь он не будет против

источник

16:12пожаловаться #15

E

Elenka in Python для анализа данных

AnimatedSticker.tgs

(13.73 Кб)

источник

16:12пожаловаться #16

Е

Евгений in Python для анализа данных

Спасибосы. Виталия слушаю до того момента, когда он в статистику ударяется, это для меня сверхуровень)

источник

16:12пожаловаться #17

К

Константин in Python для анализа данных

Алексей Макаров

http://datalytics.ru/all/kak-v-pandas-razbit-kolonku-na-neskolko-kolonok/

datalytics.ru

Как в Pandas разбить одну колонку на несколько

Решил начать рассматривать нетривиальные кейсы в Pandas, с которыми иногда сталкиваюсь при работе с данными

👍

источник

16:12пожаловаться #18

sn

serg n. in Python для анализа данных

Может быть кто-то мог бы подсказать как мне решить одну задачку?
Условие такое: всего есть 400 уникальных значений.
У каждого значения, есть частота повтора (плотность).
И также есть рейтинг от 1 до 3.
Вопрос, как гарантированно отобрать 2000 записей, чтобы туда попали все уникальные, и при этом, тем у кого рейтинг больше отдавался больший приоритет при распределении последующего балла.
К примеру статистика по 10000 записям:

Name;        Count;   Priority
Position1,   46,      3
Position2,   121,     1
Position3,   85,      3
Position4,   90,      2
..
Position400, 12,      3
--------------------------
total count:10000

и надо из них отобрать репрезентацию в 2000 позиций, чтобы примерно результат выглядел так:

Name;        Count;
Position1,   2  
Position2,   2  
Position3,   3  
Position4,   2  
..
Position400, 1  
---------------------
total count:2000

источник

19:56пожаловаться #19

2019 July 31

VD

Viktoriya Demchuk in Python для анализа данных

Каталог запчастей MAZDA
http://japancars.ru/index.php?route=catalog/mazda

источник

07:29пожаловаться #20