Телеграмм чат группы hadoopusers страница 3903

если вы оптимизируете ваш процесс на питоне (а не производительность на базе) - наверное имеет смысл по одной доставать откуда-то и кидать в базу (и то я бы посмотрел на маленький батчинг), но с датафреймом вы можете использовать COPY для записи в таблицу, это будет намного быстрее для самой базы https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#io-sql-method

источник

11:09пожаловаться #6

dimka ztheshek in Data Engineers

я вот что находил, https://naysan.ca/2020/05/09/pandas-to-postgresql-using-psycopg2-bulk-insert-performance-benchmark/

источник

11:11пожаловаться #7

dimka ztheshek in Data Engineers

из stringio copy_from я не могу указать схему. Даже если ставить источники поиска, все равно не работало

источник

11:12пожаловаться #8

dimka ztheshek in Data Engineers

хотя тут есть схема. надо будет чекнуть, спасибо

источник

11:13пожаловаться #9

Anton Zadorozhniy in Data Engineers

видите насколько copy_from быстрее? вот этого можно добиться через кастомный method in df.to_sql

источник

11:13пожаловаться #10

РП

Роман Пашкевич... in Data Engineers

А можно же партиционированную таблицу, еще и бакетировать? Будет ли в этом случае прирост чтения\записи?

источник

11:27пожаловаться #11

No Name in Data Engineers

Запись пойдет медленнее, потому что данные нужно будет правильно раскидать.
Чтение само по себе тоже вряд ли ускорится, а вот различные джойны между одинаково бакетированными таблицами - да, ускорятся.

источник

11:29пожаловаться #12

Алексей in Data Engineers

тогда чтото другое, не связано с партицированием/бакетированием. Может тасок мало

источник

12:26пожаловаться #13

РП

Роман Пашкевич... in Data Engineers

А то что таблица транзакционная может влиять?

источник

12:33пожаловаться #14

Алексей in Data Engineers

тут хз, у меня таких нет

источник

12:37пожаловаться #15

Nikita Blagodarnyy in Data Engineers

очень сильно. они принципиально по разному работают. асид таблицы накапливают векторы изменений в отдельных маленьких файлах и потом бог знает как компактятся, если вообще компактятся.

источник

12:55пожаловаться #16

Nikita Blagodarnyy in Data Engineers

нужны транзакции-используйте то, что под них заточено. а не жалкую попытку натянуть сову на глобус.

источник

12:56пожаловаться #17

РП

Роман Пашкевич... in Data Engineers

Почему ETL упорото использует транзакционную таблицу не понимаю. На источнике, по факту запуска джоба, результат сохраняется в таблицу. Только append, никаких изменений уже сохраненных строк. У строк есть дата создания

Раз в сутки, ETL должны забрать все новые строки и положить в HIVE. Тут же вообще не имеет смысла транзакционная таблица ?

источник

13:02пожаловаться #18

ЕГ

Евгений Глотов... in Data Engineers

Возможно просто кто-то играл в hive 2/3 и проиграл

источник

13:12пожаловаться #19

ЕГ

Евгений Глотов... in Data Engineers

Hive 3 по-моему только external таблицы не асид

источник

13:13пожаловаться #20