Телеграмм чат группы pydata

Size: a a a

Python для анализа данных

2021 December 22

Pavel Zheltouhov in Python для анализа данных

некоторым нравится обвешивать рабочее место краткими бумажками, т.н. cheat sheet. sql cheat sheet гуглится легко.
может быть полезно, что уж там.

источник

12:31пожаловаться #1

Vitaly in Python для анализа данных

Привет всем. подскажите, пожалуйста, каким образом можно представить подобный датафрейм в виде иерархии. Дайте совет в какую сторону смотреть. Спасибо.

источник

13:54пожаловаться #2

Mikhail in Python для анализа данных

вообще непонятно в чём задача. что такое иерархия? технически он и так в виде иерархии

источник

14:04пожаловаться #3

Pavel Zheltouhov in Python для анализа данных

Во-первых, это не датафрейм, а крашеный эксель. Неупорядоченная табличная форма.
Даже без дополнительных объяснений не понятно что это.

Во вторых зависит от задач.

источник

14:06пожаловаться #4

Vitaly in Python для анализа данных

хочу представить данные как в таблице ниже. то есть сделать плоскую таблицу, где значения по городам давали возможность агрегации по округу и России

источник

14:06пожаловаться #5

Vitaly in Python для анализа данных

хочется упорядочить

источник

14:07пожаловаться #6

Vitaly in Python для анализа данных

по вышестоящему ID выстроить иерархию

источник

14:08пожаловаться #7

Pavel Zheltouhov in Python для анализа данных

так и все же для каких задач упорядочить?
В машинном обучении скорее тяготеют к ABT (https://en.wikipedia.org/wiki/Analytical_base_table), что на первый взгляд выглядит странно и неоптимально.
В SQL-хранилище наверное выбрали бы натурально связанные по ID списки

Wikipedia

Analytical base table

In database theory, the Analytical Base Table (ABT) is a flat table that is used for building analytical models and scoring (predicting) the future behavior of a subject.

источник

14:08пожаловаться #8

Mikhail in Python для анализа данных

уровней заранее известное количество?

источник

14:08пожаловаться #9

Vitaly in Python для анализа данных

источник

14:10пожаловаться #10

Mikhail in Python для анализа данных

если да, делаете следующее (пример для 3 уровней)

джойните фрейм сам на себя 3 раза:
- айди родителя к айди — получаете айди 2 уровня
- айди родителя 2 уровня к айди — получаете айди 3 уровня
- айди родителя 3 уровня к айди — получаете айди 4 уровня

дальше отфильтровываете только те записи, в которых есть все уровни — получаете фактически только нижний уровень
а в колонках — разные уровни вашей иерархии

источник

14:12пожаловаться #11

Mikhail in Python для анализа данных

но это только если железно у каждой конечной записи одинаковое количество родетелей

источник

14:14пожаловаться #12

Vitaly in Python для анализа данных

Спасибо, попробую

источник

14:15пожаловаться #13

Vitaly in Python для анализа данных

единственное, у меня нет понимания какие айди родители) есть только общий столбец с вышестоящими

источник

14:16пожаловаться #14

Mikhail in Python для анализа данных

а вообще если делать иннер джойны, то в конце и фильтровать не надо

источник

14:16пожаловаться #15

Mikhail in Python для анализа данных

в смысле? у вас на каждый узел по строке, и у каждого узла указан (опционально) айди родителя

источник

14:16пожаловаться #16

Vitaly in Python для анализа данных

все, сообразил. спасибо

источник

14:17пожаловаться #17

АС

Алексей Сафонов... in Python для анализа данных

Всех приветствую. Для уменьшения сложности, постоянно делаю одну и туже операцию, предыдущий опыт подсказывает, что должно быть +/- стандартное средство. Чтобы постоянно не обегать обекты в которых осуществляю поиск, выстраиваю интересующие объекты по идексу. Вот один из примеров такой функции:

def make_index(df, index_name, column_name):
    result = pd.DataFrame(columns=['value'])

    for i, row in df[df[index_name].notnull()].iterrows():
        indexes = row[index_name].split(', ')

        for index in indexes:
            if index not in result.index:
                result.loc[index, 'value'] = row[column_name]

    return result

Может есть что-то стандартное на этот счёт?

источник

14:37пожаловаться #18

МК

Максим Коротченков... in Python для анализа данных

Ребят привет, я ходил бы спросить:
Если у меня задача классификации мультикласс, и мне важна точность хотя бы по одному единственному классу (На recall вообще пофиг)
какую метрику нужно оптимизировать в гридсерче:
микро или макро precision?

Или это не влияет?
А если не влияет, то что тогда?
Спасибо за помощь!

источник

16:07пожаловаться #19

Inkalika in Python для анализа данных

Как я помню у них есть отличия, лучше почитать про них с примерами

источник

16:10пожаловаться #20