Телеграмм чат группы hadoopusers страница 3702

Добрый день.
1. есть большой фрейм. нужно создать текстовый столбик, куда будут внесены в тестовом виде данные по заданной строке, который будет представлять для каждой строки "название столбца: содержимое данного столбца". т.е. к примеру фрейм имеет столбцы - a, b, c, d. нужен отдельный столбец text для текстового представления столбиков c, d. к примеру для строки с индексом i: df.loc[i, "text"] == "c: text1, d: text2". где text1 == df.loc[i, "c"], text2 == df.loc[i, "d"].
если использовать простую итерацию по индексам, а затем по столбикам, то время будет измеряться часами. нужно сделать как можно быстрее?
я вот такой код использую

        for index, row in df.iterrows():
            text = ""
            for col in target_cols:
                text += dict_name[col]
                text += ": "
                text += str(row[col])
                text += "."
            # row["text"] = text
            df.loc[index, "text"] = text

2. возникает проблема в размере файла. т.к. он большой то в память не влазит. возможно конечно считвание по частям и дозапись, но может есть другие способы?

источник

10:42пожаловаться #11

Galaydyuk Alexander in Data Engineers

Коллег привет! Есть какие-нибудь решения, что бы из большого sql-кода truncate,insert’ов генерировало несложную визуализацию потока преобразований, содержащую название таблиц и списка полей, используемых в коде. Что погуглить на этот счёт?

источник

11:37пожаловаться #12

Galaydyuk Alexander in Data Engineers

Кажется, что ничего сложного, может в python библиотека уже есть. Но гугл выдает курсы визуализации данных с помощью питон

источник

11:43пожаловаться #13

Anton Zadorozhniy in Data Engineers

https://www.wsj.com/articles/kkr-cd-r-near-deal-to-buy-cloudera-11622510459

WSJ

KKR, CD&R Strike $5.3 Billion Deal to Buy Cloudera

Private-equity firms KKR and Clayton Dubilier & Rice agreed to buy Cloudera for roughly $5.3 billion in a deal that would take the software company private.

источник

12:07пожаловаться #14

МК

Михаил Королев... in Data Engineers

да, и имя ему - apache spark...

источник

12:25пожаловаться #15

Maxim Grankin in Data Engineers

Всем привет, может кто-то дать ссылку на тематический чат по кафке?

источник

12:53пожаловаться #16

Jane Frankenstein in Data Engineers

привет, https://t.me/proKafka

pro.kafka

Чат для добросовестных господ и дам, посвящённый Apache Kafka.

Без флуда, оскорблений, оффтопа и токсичного поведения.

Спам? Зови @gamussa или @dmitvitalii

Канал по Kafka: @AwesomeKafka_ru
Вакансии с Kafka: @kafka_jobs
Соседи: @jvmchat, @bigdata_ru

источник

13:08пожаловаться #17

Maxim Grankin in Data Engineers

Спасибо!

источник

13:31пожаловаться #18

KrivdaTheTriewe in Data Engineers

коллеги, кто трино разворачивал, у меня добрались руки наконец, как вы делали POC для ононодового кластера)

источник

13:57пожаловаться #19

KrivdaTheTriewe in Data Engineers

есть ли какие-нибудь доп тулзы(BI) , которые позвуолят это продать как красивую он премиз историю, и еще вопрос, в кубе или не в кубе прод делать, если делать

источник

13:58пожаловаться #20