Size: a a a

Python для анализа данных

2021 December 22

PZ

Pavel Zheltouhov in Python для анализа данных
некоторым нравится обвешивать рабочее место краткими бумажками, т.н. cheat sheet.  sql cheat sheet гуглится легко.
может быть полезно, что уж там.
источник

V

Vitaly in Python для анализа данных
Привет всем. подскажите, пожалуйста, каким образом можно представить подобный датафрейм в виде иерархии. Дайте совет в какую сторону смотреть. Спасибо.
источник

M

Mikhail in Python для анализа данных
вообще непонятно в чём задача. что такое иерархия? технически он и так в виде иерархии
источник

PZ

Pavel Zheltouhov in Python для анализа данных
Во-первых, это не датафрейм, а крашеный эксель. Неупорядоченная табличная форма.
Даже без дополнительных объяснений не понятно что это.

Во вторых зависит от задач.
источник

V

Vitaly in Python для анализа данных
хочу представить данные как в таблице ниже. то есть сделать плоскую таблицу, где значения по городам давали возможность агрегации по округу и России
источник

V

Vitaly in Python для анализа данных
хочется упорядочить
источник

V

Vitaly in Python для анализа данных
по вышестоящему ID выстроить иерархию
источник

PZ

Pavel Zheltouhov in Python для анализа данных
так и все же для каких задач упорядочить?
В машинном обучении скорее тяготеют к ABT (https://en.wikipedia.org/wiki/Analytical_base_table), что на первый взгляд выглядит странно и неоптимально.
В SQL-хранилище наверное выбрали бы натурально связанные по ID списки
источник

M

Mikhail in Python для анализа данных
уровней заранее известное количество?
источник

V

Vitaly in Python для анализа данных
8
источник

M

Mikhail in Python для анализа данных
если да, делаете следующее (пример для 3 уровней)

джойните фрейм сам на себя 3 раза:
- айди родителя к айди — получаете айди 2 уровня
- айди родителя 2 уровня к айди — получаете айди 3 уровня
- айди родителя 3 уровня к айди — получаете айди 4 уровня

дальше отфильтровываете только те записи, в которых есть все уровни — получаете фактически только нижний уровень
а в колонках — разные уровни вашей иерархии
источник

M

Mikhail in Python для анализа данных
но это только если железно у каждой конечной записи одинаковое количество родетелей
источник

V

Vitaly in Python для анализа данных
Спасибо, попробую
источник

V

Vitaly in Python для анализа данных
единственное, у меня нет понимания какие айди родители) есть только общий столбец с вышестоящими
источник

M

Mikhail in Python для анализа данных
а вообще если делать иннер джойны, то в конце и фильтровать не надо
источник

M

Mikhail in Python для анализа данных
в смысле? у вас на каждый узел по строке, и у каждого узла указан (опционально) айди родителя
источник

V

Vitaly in Python для анализа данных
все, сообразил. спасибо
источник

АС

Алексей Сафонов... in Python для анализа данных
Всех приветствую. Для уменьшения сложности, постоянно делаю одну и туже операцию, предыдущий опыт подсказывает, что должно быть +/- стандартное средство. Чтобы постоянно не обегать обекты в которых осуществляю поиск, выстраиваю интересующие объекты по идексу. Вот один из примеров такой функции:

def make_index(df, index_name, column_name):
   result = pd.DataFrame(columns=['value'])

   for i, row in df[df[index_name].notnull()].iterrows():
       indexes = row[index_name].split(', ')

       for index in indexes:
           if index not in result.index:
               result.loc[index, 'value'] = row[column_name]

   return result

Может есть что-то стандартное на этот счёт?
источник

МК

Максим Коротченков... in Python для анализа данных
Ребят привет, я ходил бы спросить:
Если у меня задача классификации мультикласс, и мне важна точность хотя бы по одному единственному классу (На recall вообще пофиг)
какую метрику нужно оптимизировать в гридсерче:
микро или макро precision?

Или это не влияет?
А если не влияет, то что тогда?
Спасибо за помощь!
источник

I

Inkalika in Python для анализа данных
Как я помню у них есть отличия, лучше почитать про них с примерами
источник