Size: a a a

Python для анализа данных

2019 July 30

ip

ilya pkh in Python для анализа данных
Спокуха, все в теме))
источник

E

Elenka in Python для анализа данных
Не вчитывалась пока,но разве несколько миллионов строк вообще проблема для pbi?)
источник

ВЛ

Владислав Литвинюк... in Python для анализа данных
Elenka
Не вчитывалась пока,но разве несколько миллионов строк вообще проблема для pbi?)
у меня было 230 млн + каждый день новые
источник

Е

Евгений in Python для анализа данных
Спасибо за ответы, очень редко можно нормально продуктовому аналитику позадавать нубские вопросы). Как думаете, норм связка будет для джуна/стажера, чтобы найти работу: gopractice + sql + python (чисто для расчета аб тестов) + немнож мат.стат?)
источник

ВЛ

Владислав Литвинюк... in Python для анализа данных
Евгений
Спасибо за ответы, очень редко можно нормально продуктовому аналитику позадавать нубские вопросы). Как думаете, норм связка будет для джуна/стажера, чтобы найти работу: gopractice + sql + python (чисто для расчета аб тестов) + немнож мат.стат?)
статистику продуктовому оч нужно + bi
источник

OB

Oleg Basmanov in Python для анализа данных
Vlad
Ну вот типа так, обработка данных в питоне, а потом сделать из данных такое : https://app.powerbi.com/view?r=eyJrIjoiNjM2NDUyOTUtNTc5OC00YTk3LWE1ODUtNzM1NmFlMDk1ZjJkIiwidCI6ImM4YzY5YWFlLTMyYmEtNDNkMS05ZjU5LWY5OGM5NWZiMjI3YiIsImMiOjl9
вот реальный пример. в базе три таблицы - продажи, источники продаж, клиенты. все это нужно всяко разно сджойнить, сгруппировать. потом вывести в PBI. Где это делать? можно в самой базе написать вьюшку, можно в power query или python/R сделать. Разница во времени обработки - когда в базе  - все обработается в разы быстрее
источник

К

Константин in Python для анализа данных
df['URL'].str.split('/', expand = True)

а как применить так, чтобы дозаписывал в df новые столбцы, а не создавла новый dataframe?
источник

E

Elenka in Python для анализа данных
Евгений
Спасибо за ответы, очень редко можно нормально продуктовому аналитику позадавать нубские вопросы). Как думаете, норм связка будет для джуна/стажера, чтобы найти работу: gopractice + sql + python (чисто для расчета аб тестов) + немнож мат.стат?)
Я просто в матане шарила и на питоне писала когда нашла работу первую.
Мне кажется если норм база, то облепить знания инструментарием вообще не проблема.
Не понимаю, почему все так зациклены на конкретных инструментах. Есть конечно некоторые обязательные вещи.
Стек меняется от времени/места работы)
источник

E

Elenka in Python для анализа данных
Константин
df['URL'].str.split('/', expand = True)

а как применить так, чтобы дозаписывал в df новые столбцы, а не создавла новый dataframe?
Можете замержить потом
Или сразу обозначьте названия столбцов новых в этом датафрейме  перед этими действиями)
источник

АМ

Алексей Макаров... in Python для анализа данных
Евгений
Спасибо за ответы, очень редко можно нормально продуктовому аналитику позадавать нубские вопросы). Как думаете, норм связка будет для джуна/стажера, чтобы найти работу: gopractice + sql + python (чисто для расчета аб тестов) + немнож мат.стат?)
Python можно и не только для расчета AB-тестов использовать, кучу продуктовых гипотез можно валидировать на Python, например, когда мы говорим про какие-то сложные штуки с нетривиальной логикой а ля behavioral cohorts, также различного рода Exploratory Data Analysis для генерации новых гипотез.

SQL это 100% нужно (тут даже нет смысла обсуждать, хотя бы на уровне JOIN и вложенных запросов надо понимать).

GoPractice может дать хорошее знание аналитических фреймворков, понимание метрик + тренирует общий скилл аналитического мышления и как делать выводы.

Статистика нужна, но я бы не сказал, что это прямо критический важный скилл, здравый смысл важнее. Знать основные статистики, например, медиана, среднее, квартили, нужно точно. В продуктовой аналитике не такой гигантский статистический аппарат. Но опять же, это у меня на работе статистика не нужна в большом объеме, а есть те кто много работает с A/B-тестированиями (например, послушайте выступления Вита Черемисинова).

В общем, всё что вы перечислили - хороший фундамент для устройства на работу.
источник

ВЛ

Владислав Литвинюк... in Python для анализа данных
Алексей Макаров
Python можно и не только для расчета AB-тестов использовать, кучу продуктовых гипотез можно валидировать на Python, например, когда мы говорим про какие-то сложные штуки с нетривиальной логикой а ля behavioral cohorts, также различного рода Exploratory Data Analysis для генерации новых гипотез.

SQL это 100% нужно (тут даже нет смысла обсуждать, хотя бы на уровне JOIN и вложенных запросов надо понимать).

GoPractice может дать хорошее знание аналитических фреймворков, понимание метрик + тренирует общий скилл аналитического мышления и как делать выводы.

Статистика нужна, но я бы не сказал, что это прямо критический важный скилл, здравый смысл важнее. Знать основные статистики, например, медиана, среднее, квартили, нужно точно. В продуктовой аналитике не такой гигантский статистический аппарат. Но опять же, это у меня на работе статистика не нужна в большом объеме, а есть те кто много работает с A/B-тестированиями (например, послушайте выступления Вита Черемисинова).

В общем, всё что вы перечислили - хороший фундамент для устройства на работу.
А как загулить "Вита Черемисинова" ?
источник

АМ

Алексей Макаров... in Python для анализа данных
Константин
df['URL'].str.split('/', expand = True)

а как применить так, чтобы дозаписывал в df новые столбцы, а не создавла новый dataframe?
источник

OB

Oleg Basmanov in Python для анализа данных
Владислав Литвинюк
А как загулить "Вита Черемисинова" ?
В фб
источник

E

Elenka in Python для анализа данных
Владислав Литвинюк
А как загулить "Вита Черемисинова" ?
источник

E

Elenka in Python для анализа данных
Надеюсь он не будет против
источник

E

Elenka in Python для анализа данных
источник

Е

Евгений in Python для анализа данных
Спасибосы. Виталия слушаю до того момента, когда он в статистику ударяется, это для меня сверхуровень)
источник

К

Константин in Python для анализа данных
👍
источник

sn

serg n. in Python для анализа данных
Может быть кто-то мог бы подсказать как мне решить одну задачку?
Условие такое: всего есть 400 уникальных значений.
У каждого значения, есть частота повтора (плотность).
И также есть рейтинг от 1 до 3.
Вопрос, как гарантированно отобрать 2000 записей, чтобы туда попали все уникальные, и при этом, тем у кого рейтинг больше отдавался больший приоритет при распределении последующего балла.
К примеру статистика по 10000 записям:
Name;        Count;   Priority
Position1,   46,      3
Position2,   121,     1
Position3,   85,      3
Position4,   90,      2
..
Position400, 12,      3
--------------------------
total count:10000


и надо из них отобрать репрезентацию в 2000 позиций, чтобы примерно результат выглядел так:
Name;        Count;
Position1,   2  
Position2,   2  
Position3,   3  
Position4,   2  
..
Position400, 1  
---------------------
total count:2000
источник
2019 July 31

VD

Viktoriya Demchuk in Python для анализа данных
Каталог запчастей MAZDA
http://japancars.ru/index.php?route=catalog/mazda
источник