Size: a a a

2019 June 28

GG

George Gaál in Data Engineers
Nikita Blagodarnyy
Дисковая активность будет низкая, gpu загружен целиком.
Если нейронка, то всё-таки ОЗУ будет шевелиться. Но, в целом, согласен
источник

S

Stanislav in Data Engineers
Nikolay
Как с локального Юпитера конектится на кластер хадупа ?
webhdfs, pyhive
источник

R

Roman in Data Engineers
Oleg
какие сейчас последние тренды забора данных из rdbms в olap|hadoop с апдейтами, есть что-то помимо goldengate?
Sqoop, spark
источник

R

Roman in Data Engineers
Не заметил слово апдейты сначала (
Тогда все сложнее.
Всё сложно с апдейтами и hadoop.
Есть hive с orc форматом для апдейтов. Но сам я не тыкал это.
источник

UD

Uncel Duk in Data Engineers
Старый Хрыч
там вопрос не только в гомогенности, а ещё в том что кх по сути клал болт на данные
нук пруфы
источник

UD

Uncel Duk in Data Engineers
inb4 где мое cap между океанами и бесплатно
источник

K

KrivdaTheTriewe in Data Engineers
Oleg
какие сейчас последние тренды забора данных из rdbms в olap|hadoop с апдейтами, есть что-то помимо goldengate?
реветь
источник

N

Nikita Blagodarnyy in Data Engineers
Если нужны апдейты, возможно, лучше посмотреть в сторону реляционок. Hive transactional orc это больно. Уважаемые архитекторы тут периодически рассказывают про immutable.
источник

N

Nikita Blagodarnyy in Data Engineers
Ну или hbase с её особенностями
источник

N

Nikita Blagodarnyy in Data Engineers
Ну и вообще не сказать, чтобы olap и hadoop это прям похожие вещи
источник

O

Oleg in Data Engineers
Roman
Не заметил слово апдейты сначала (
Тогда все сложнее.
Всё сложно с апдейтами и hadoop.
Есть hive с orc форматом для апдейтов. Но сам я не тыкал это.
Там они имплементированы ужасно, в hbase естб апдейты, но вопрос не только как хранить, но и как эффективно забирать данные из бд, нагруженной, с частыми апдейтами
источник

K

KrivdaTheTriewe in Data Engineers
нужно эксперементировать с хайв транзакшонал имхо, если есть ресурсы
источник

K

KrivdaTheTriewe in Data Engineers
может подойти
источник

O

Oleg in Data Engineers
KrivdaTheTriewe
реветь
Классный способ, начинаю пробовать
источник

K

KrivdaTheTriewe in Data Engineers
апдейты делают жить сложнее
источник

K

KrivdaTheTriewe in Data Engineers
а еще ситуация когда , в хранилище нужно хранить удаленные с источника поля, колонки
источник

N

Nikita Blagodarnyy in Data Engineers
Oleg
Там они имплементированы ужасно, в hbase естб апдейты, но вопрос не только как хранить, но и как эффективно забирать данные из бд, нагруженной, с частыми апдейтами
Вопрос про инструменты cdc?
источник

O

Oleg in Data Engineers
Nikita Blagodarnyy
Ну и вообще не сказать, чтобы olap и hadoop это прям похожие вещи
Понятно что этр не одно и тоже, но выборка данных, думаю, будет осуществляться одинаково
источник

O

Oleg in Data Engineers
Nikita Blagodarnyy
Вопрос про инструменты cdc?
Да
источник

O

Oleg in Data Engineers
KrivdaTheTriewe
а еще ситуация когда , в хранилище нужно хранить удаленные с источника поля, колонки
Хранить одно, как быть с ddl в хайве, avro и т.п Отдельная боль
источник