Size: a a a

2021 February 12

DT

Dmitry Titov in Data Engineers
Roman
Когда у вас вторая табдичка маленькая и копируется в память всем обработчикам. Я же даже уточнил broadcastHashJoin)
Если у вас обе таблицы отшардированы по одному ключу, то можно просто не использовать GLOBAL JOIN, тогда по сети не будут передаваться куски правой таблицы.
источник

AZ

Anton Zadorozhniy in Data Engineers
Dmitry Titov
Если у вас обе таблицы отшардированы по одному ключу, то можно просто не использовать GLOBAL JOIN, тогда по сети не будут передаваться куски правой таблицы.
кто там говорил про ANSI совместимость :)
источник

DT

Dmitry Titov in Data Engineers
Anton Zadorozhniy
кто там говорил про ANSI совместимость :)
Можно не использовать GLOBAL а установить такое поведение через настройки :)
источник

AZ

Anton Zadorozhniy in Data Engineers
Dmitry Titov
Можно не использовать GLOBAL а установить такое поведение через настройки :)
удобно!
источник

ПБ

Повелитель Бури... in Data Engineers
Добрый день, коллеги! А то то сталкивался с такой задачей
1. Создаю acid таблицу

CREATE TABLE merge_data.merge_source(
ID int,
TranValue string,
tran_date string)
STORED AS ORC TBLPROPERTIES ('transactional'='true');

и чтобы не прописывать STORED AS ORC TBLPROPERTIES ('transactional'='true');
А эта настройка была по умолчанию?
источник

AZ

Anton Zadorozhniy in Data Engineers
Повелитель Бури
Добрый день, коллеги! А то то сталкивался с такой задачей
1. Создаю acid таблицу

CREATE TABLE merge_data.merge_source(
ID int,
TranValue string,
tran_date string)
STORED AS ORC TBLPROPERTIES ('transactional'='true');

и чтобы не прописывать STORED AS ORC TBLPROPERTIES ('transactional'='true');
А эта настройка была по умолчанию?
с Hive 3 по крайней мере на HDP  вроде по-умолчанию таблицы были transactional, если ACID включен
источник

ПБ

Повелитель Бури... in Data Engineers
Anton Zadorozhniy
с Hive 3 по крайней мере на HDP  вроде по-умолчанию таблицы были transactional, если ACID включен
Connected to: Apache Hive (version 3.1.1)
Driver: Hive JDBC (version 3.1.1)
Transaction isolation: TRANSACTION_REPEATABLE_READ
Beeline version 3.1.1 by Apache Hive
источник

AZ

Anton Zadorozhniy in Data Engineers
Повелитель Бури
Connected to: Apache Hive (version 3.1.1)
Driver: Hive JDBC (version 3.1.1)
Transaction isolation: TRANSACTION_REPEATABLE_READ
Beeline version 3.1.1 by Apache Hive
¯\_(ツ)_/¯ спросить саппорт?
источник

AZ

Anton Zadorozhniy in Data Engineers
из документации:
> In Hive 3, you can perform ACID (atomicity, consistency, isolation, and durability) v2 transactions at the row level without any configuration. By default, managed tables are ACID tables. You cannot disable transactions.
источник

ПФ

Паша Финкельштейн... in Data Engineers
источник

DN

Dmitriy Novikov in Data Engineers
ой бля
источник

DN

Dmitriy Novikov in Data Engineers
не нужно
источник

DN

Dmitriy Novikov in Data Engineers
ужасный курс
источник

ET

E T in Data Engineers
Dmitriy Novikov
ужасный курс
а что из хорошего можно пройти ?
источник

DN

Dmitriy Novikov in Data Engineers
E T
а что из хорошего можно пройти ?
на степике от mail есть неплохой курс по введению в хадупы
источник

AS

Andrey Smirnov in Data Engineers
Dmitriy Novikov
ужасный курс
Да, как-то старые книжки, авторы хорошие, но Спарк там похоже ещё 1 версии
источник

DN

Dmitriy Novikov in Data Engineers
Andrey Smirnov
Да, как-то старые книжки, авторы хорошие, но Спарк там похоже ещё 1 версии
Ну там никакой практики норм нет
источник

DN

Dmitriy Novikov in Data Engineers
ток теория теория теория
источник

DN

Dmitriy Novikov in Data Engineers
кароче не стоит тарить время
источник
2021 February 13

VS

Vadim Shatalov in Data Engineers
Всем привет, есть кто в БД шарит?
Вопрос: есть один запрос - 3 таблицы связаны лефт джойнами
можно же его разбить на два - сначала 2 связать. потом третью к результату?
источник