Size: a a a

2021 February 24

K

KrivdaTheTriewe in Data Engineers
) инсерты тож вроде работали )
источник

K

KrivdaTheTriewe in Data Engineers
Nikita Blagodarnyy
он вроде только читать умел
но  мы же про только селект говорили
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikita Blagodarnyy
Никак. Как можно в key-value бд быстро делать произвольные батчевые агрегации с фильтрами? Она про другое. Отструивайте входящий поток данных и наваливайте его куда-то в эластик/кликхаус/ходуп/лучшую_в_мире_MPP_СУБД_Teradata/whatever.
лайк!
источник

AZ

Anton Zadorozhniy in Data Engineers
(теперь она еще и лучшая клауд СУБД)
источник

N

Nikita Blagodarnyy in Data Engineers
Anton Zadorozhniy
(теперь она еще и лучшая клауд СУБД)
магические квадранты?
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikita Blagodarnyy
магические квадранты?
источник

СЛ

Сергей Лекарев... in Data Engineers
привет.
spark - version 2.3.0.2.6.5.0-292
hive - 1.2.1000.2.6.5.0-292

В партишены external таблицы доезжают данные в маленьких файлах, и по итогу в table-data внешней таблицы на hdfs появляется много маленьких файлов, я не люблю много маленьких файлов.

Хочется, чтобы когда доезжали эти файлы, они как-то коллапсились-мёржились-что-угодно с уже существующими файлами.

Я нагуглил следующие конфигурационные параметры:  hive.merge.sparkfiles, hive.merge.smallfiles.avgsize. В моём понимании, если они выставлены, то по окончании спарк джобы данные должны дописываться в существующие файлы, а не просто создавать новые.

Этого не происходит. Я не уверен, что правильно выставляю эти конфиги, пробовал через SparkConf, через --conf, и просто втупую sparkSession.sql("SET x=y").

Как быть?

Если не тот чат для таких вопросов - прощу прощения, и прошу подсказать, где тот.
источник

N

Nikita Blagodarnyy in Data Engineers
а в каком формате-то? далеко не все поддерживают аппенд.
источник

СЛ

Сергей Лекарев... in Data Engineers
orc
источник

СЛ

Сергей Лекарев... in Data Engineers
Это формат таблицы в хайве, а энтри в table-data - part-00006-7b584c96-6d47-4db8-8871-2cfd7828e8db.c000, не уверен, считается ли c000 форматом
источник

А

Алексей in Data Engineers
В хайв есть команда concatenate
источник

A

Aleksey in Data Engineers
как вы в облако все особенности своего проприетарного железа запихнули? или уже она какое-то время на "обычном" железе научилась работать?
источник

AZ

Anton Zadorozhniy in Data Engineers
Aleksey
как вы в облако все особенности своего проприетарного железа запихнули? или уже она какое-то время на "обычном" железе научилась работать?
ну теперь у нас лучшие люди отвечают за продукт (хе-хе), научили
источник

A

Aleksey in Data Engineers
Anton Zadorozhniy
ну теперь у нас лучшие люди отвечают за продукт (хе-хе), научили
Поздравляю, что вас лихорадить судя по всему прекращает и новые высоты берете!
источник

AZ

Anton Zadorozhniy in Data Engineers
Aleksey
Поздравляю, что вас лихорадить судя по всему прекращает и новые высоты берете!
спасибо Леша, могу сказать что от этого выигрывают даже не очень облачные заказчики, вот например ;) https://min.io/solutions/native-object-store-for-teradata
источник

V

Vasiliy in Data Engineers
Aleksey
как вы в облако все особенности своего проприетарного железа запихнули? или уже она какое-то время на "обычном" железе научилась работать?
Не скажу что прям каждый сервер разбирал из доступных 4 поколений, но ничего вроде особо проприетарного Intel, IBM... "Ивсетакое"
Дизайн+прошивки
источник

AZ

Anton Zadorozhniy in Data Engineers
Vasiliy
Не скажу что прям каждый сервер разбирал из доступных 4 поколений, но ничего вроде особо проприетарного Intel, IBM... "Ивсетакое"
Дизайн+прошивки
ну я когда начинал работать, у нас был собственный кремний, BYNET; но давно уже на ИБ перешли, да
источник

AZ

Anton Zadorozhniy in Data Engineers
сама платформа - референс интел дизайн обычно
источник

V

Vasiliy in Data Engineers
Anton Zadorozhniy
ну теперь у нас лучшие люди отвечают за продукт (хе-хе), научили
А лучшие люди, это Макмиллан, смазавший лыжи из IBM)?
источник

AZ

Anton Zadorozhniy in Data Engineers
Vasiliy
А лучшие люди, это Макмиллан, смазавший лыжи из IBM)?
конечно, СЕО же все решает, а не скромные инженеры :)
источник