Size: a a a

Python для анализа данных

2019 July 09

dd

dgj dfsh in Python для анализа данных
Panel: A high-level app and dashboarding solution for the PyData ecosystem

In this article, you will learn about Panel, a new open-source Python library that lets you create custom interactive web apps and dashboards by connecting user-defined widgets to plots, images, tables, or text.

http://bit.ly/2YJnc8L
источник

ВЛ

Владислав Литвинюк... in Python для анализа данных
Ребята, а почему не могу переименовать колонку?
источник

АМ

Алексей Макаров... in Python для анализа данных
А попробуйте 0 сделать int'ом
источник

ВЛ

Владислав Литвинюк... in Python для анализа данных
)
источник

АМ

Алексей Макаров... in Python для анализа данных
Ну и посмотрите fullDf.columns
источник

ВЛ

Владислав Литвинюк... in Python для анализа данных
странно, думал колонки только стрингом
спасибо
источник

АМ

Алексей Макаров... in Python для анализа данных
Не, по умолчанию, если df создать новый, например из list of lists, то будут колонки int
источник

ВЛ

Владислав Литвинюк... in Python для анализа данных
прикольно
источник
2019 July 10

AY

Aleksey Yaroshenko in Python для анализа данных
Alex Koletvin
Господа, какой метод применить для следующей задачи:

Есть датафрейм с параметрами уровней мобильной игры,
10 булевых столбцов, указывающих есть ли на уровне конкретная механика, столбец с винрейтом и столбцы с определенными показателями (трата виртуальной валюты на человека и тд).

Как провести стат тест, который покажет есть ли зависимость этих показателей от наличии какой то механики, при условии, что самый сильный фактор, который влияет на показатели - винрейт
Сравнить E(win_rate|bool=0) и E(win_rate|bool=1) просто, без корреляций и регрессий. Ибо регрессия/корреляция Пирсона больше для непрерывных значений. Оно, конечно, отработает, но как интерпретировать такую корреляцию/регрессию, ХЗ. Поэтому, я бы просто сравнил условные матожидания.
источник

AY

Aleksey Yaroshenko in Python для анализа данных
В общем, довольно нелогично пользоваться линейными методами там, где нет линейной зависимости, а только 2 параллельных полоски из точек :)
источник

ВЛ

Владислав Литвинюк... in Python для анализа данных
Как можно получить номер шага в for? Попробовал так сделать, но длинна цикла умножилась
run = range(0, len(df_sum.Value))
for i in df_sum.Value:
   for  r in run:
       print (i)
источник

АМ

Алексей Макаров... in Python для анализа данных
Enumerate
источник

AK

Alex Koletvin in Python для анализа данных
Aleksey Yaroshenko
В общем, довольно нелогично пользоваться линейными методами там, где нет линейной зависимости, а только 2 параллельных полоски из точек :)
Да я бы так и сделал если бы не было одного количественного фактора, который влияет на результат сильнее остальных (винрейт).
Вот как учесть его при сравнении механик?
источник

AV

Alexey Vyskrebentsev in Python для анализа данных
Alex Koletvin
Да я бы так и сделал если бы не было одного количественного фактора, который влияет на результат сильнее остальных (винрейт).
Вот как учесть его при сравнении механик?
А дискретизировать нельзя нумерический фактор, разбить на диапазоны и проставить 1/0 если попадает в конкретный, тогда все будут одного типа
источник

AY

Aleksey Yaroshenko in Python для анализа данных
Alex Koletvin
Да я бы так и сделал если бы не было одного количественного фактора, который влияет на результат сильнее остальных (винрейт).
Вот как учесть его при сравнении механик?
Можно сделать забавную штуку попробовать: обучать случайный лес для каждого столбца дважды: сначала просто все колонки, потом - вместо какой-то колонки просто шум сгенерить. И отношение качества на тесте - значимость параметра. Если единица, то параметр незначим, ибо замена его на шум не влияет на качество модели. Я так не делал, только в теории про такой метод читал, но вдруг подойдёт?
источник

AK

Alex Koletvin in Python для анализа данных
Да, крутые идеи, спасибо, сейчас правда придумал вообще простую штуку - выбрать для каждой механики одинаковое количество людей, которым понадобилось 1,2,3,4...  попыток, таким образом распределение сложностей будет одинаковое для всех механик и можно будет использовать классические стат. тесты
источник

OB

Oleg Basmanov in Python для анализа данных
есть такой датафрейм. хочу nan значения в parent_good_id заменить на значения из столбца id feed['parent_good_id'] = feed['parent_good_id'].fillna(feed['id'])
и не срабатывает. ЧЯДНТ
источник

SS

Sergey Shmakov in Python для анализа данных
Вроде бы это для None работает

general_df['Тип клуба'][(general_df['Тип клуба'].isna() == True)] = 'Значение'


я так делаю: фильтрую где нет значений и заполняю ячейки нужным
источник

А

Алексей in Python для анализа данных
fillna разве не работает только с единым значением?
источник

OB

Oleg Basmanov in Python для анализа данных
Sergey Shmakov
Вроде бы это для None работает

general_df['Тип клуба'][(general_df['Тип клуба'].isna() == True)] = 'Значение'


я так делаю: фильтрую где нет значений и заполняю ячейки нужным
ну мне не фиксированное значение нужно передать а из соседнего столбца
источник