Size: a a a

2019 July 31

AZ

Anton Zadorozhniy in Data Engineers
Тэг темплейт это тип тэга, который привязан к иаму, это не тип записи в каталоге (entry)
источник

DZ

Dmitry Zuev in Data Engineers
Хм, значит я невнимательно читал
источник

AZ

Anton Zadorozhniy in Data Engineers
Tag Template это по сути роль, что уже лучше чем Атлас+Ranger, но это совсем не про расширяемость
источник

AZ

Anton Zadorozhniy in Data Engineers
У них там где-то было написано что Cloud Store бакеты не поддерживаются, зачем было писать так если бы оно было расширяемо?
источник

C

Combot in Data Engineers
Annisa Lo℡©咀爆你個頭™ has been banned! Reason: CAS ban.
источник

DZ

Dmitry Zuev in Data Engineers
Anton Zadorozhniy
У них там где-то было написано что Cloud Store бакеты не поддерживаются, зачем было писать так если бы оно было расширяемо?
Не понимаю про что ты
источник

DZ

Dmitry Zuev in Data Engineers
Про акл?
источник

AZ

Anton Zadorozhniy in Data Engineers
Dmitry Zuev
Не понимаю про что ты
Note: Tagging Cloud Storage assets (for example, buckets and objects) is unavailable in the Data Catalog beta release.
источник

C

Combot in Data Engineers
Alif MÍÇHÀÊL has been banned! Reason: CAS ban.
источник

DZ

Dmitry Zuev in Data Engineers
Anton Zadorozhniy
Note: Tagging Cloud Storage assets (for example, buckets and objects) is unavailable in the Data Catalog beta release.
Ааа, ну печаль совсем
источник

AZ

Anton Zadorozhniy in Data Engineers
Если у меня данные в клауд сторадже то я не вижу их в дата каталоге, не могут добавить тэг
источник

AZ

Anton Zadorozhniy in Data Engineers
И свой тип сделать нельзя
источник

AZ

Anton Zadorozhniy in Data Engineers
Так что не знаю где он там может все тоже что атлас, он даже глу и дата фактори проигрывает
источник

DZ

Dmitry Zuev in Data Engineers
Anton Zadorozhniy
Так что не знаю где он там может все тоже что атлас, он даже глу и дата фактори проигрывает
Согласен, не разобрался.
источник

EP

Easycore Programming in Data Engineers
Коллеги, а кто нибудь юзает Apache Flink на HDP 3.1 в проде?
источник

DY

Dan Y in Data Engineers
Pavel Klemenkov
Всем привет! Пришло время планировать Moscow Spark #8, в связи с чем объявляется call for talks. Если у вас есть, что поведать про ваши кейсы использования Apache Spark сообществу, милости прошу в личку!
когда, где, куда слать, и вообще, если есть сайт то было бы здорово ссылку
источник

PK

Pavel Klemenkov in Data Engineers
Dan Y
когда, где, куда слать, и вообще, если есть сайт то было бы здорово ссылку
Привет. Когда и где объявим буквально на этой неделе. Слать мне в личку, но лайн-ап на ближайший митап уже укомплектован. Но ты шли обязательно, в в этом году у нас еще один митап планируется )
источник

DY

Dan Y in Data Engineers
Я хотел нашим сбросить, есть сотрудники в России, могут заинтересоваться
источник

p

panda in Data Engineers
Подскажите в чем разница Hive и Sparkа ? Или для каких задач что эффективнее работает ?
источник

R

Renarde in Data Engineers
всем привет. я все еще мучаюсь с выбором хранилища под юзкейс.
Смысл такой - у нас есть несколько потоков событий:
- платежи
- заказы
- еще чего-нибудь
Они льются из кафки и читаются спарком.
Дальше их нужно положить в структуру по айдишнику клиента, и апдейтить если прилетают новые значения.
Пример структуры данных:

{
 “some_user_id”:
   payments: [
      {“payment_id”: 100, “payment_value”: 120}
   ],
   orders: [
      {“order_id”: 200, “order_item”: [“something”]}
   ]
}


Прилетающий апдейт может, например, обновить данные вот так:

{“order_id”:200, “order_item”: [“something”, ”something_else”]}



А вот реквестить эти данные снаружи уже будут с агрегацией до клиента, например как-то так:

select count(orders) from data where user_id=“some_user_id”


Получается что нужно kv-хранилище со вложенными индексами, причем хорошо масштабируемое (данных прибывает много, уже >>1TB и прирост около 0.5TB в год).
Я смотрю в сторону HBase, но кажется что у него с nested index все прямо не очень. Какое хранилище подойдет под такой кейс?
источник