Size: a a a

2020 January 24

AS

Adlet Sarsembaev in Data Engineers
Всем привет, если у меня таблица в hive использует формат ORC, и при удалении колонки, у меня же не будет пересчета таблицы, я все правильно понимаю? Так как ORC для метаинформации использует protobuf, у которого поля могут храниться в любом порядке.
источник

AS

Adlet Sarsembaev in Data Engineers
Или я что-то неправильно понимаю
источник

DG

Denis Gabaydulin in Data Engineers
Если речь идет про удаление из схемы то не будет. А физически данные останутся, они же иммутабельны.
источник

DM

David Manukian in Data Engineers
нашел у clickhouse https://clickhouse.yandex/docs/ru/operations/table_engines/hdfs/, возник вопрос, а не могу ли я вычитать из clickhous'a которая расположена на обычной FS и заинсертить создавая таблицы в hdfs? Был бы неплохой воркэрунд, потом я как понимаю можно просто будет спарком пройтись по директориям. Кто-нибудь пробовал?
источник

A

Ako in Data Engineers
А может кто-то помочь с чтением информации topic kafka в формате json через spark streaming используя pyspark? К сожалению, с помощью примеров из интернета не получилось распарсить.
источник

N

Nikita Blagodarnyy in Data Engineers
Кто-нибудь знает, как можно феникс-клиенту уровень логирования поднять до WARN хотя бы? Что-то не гуглится особо.
источник

N

Nikita Blagodarnyy in Data Engineers
Он вот этим шлаком все логи приложений засрал
источник

N

Nikita Blagodarnyy in Data Engineers
источник

N

Nikita Blagodarnyy in Data Engineers
@lol_dog не фиксил такое?
источник

В

Вадим in Data Engineers
Nikita Blagodarnyy
Кто-нибудь знает, как можно феникс-клиенту уровень логирования поднять до WARN хотя бы? Что-то не гуглится особо.
Там в bin должен быть log4j файлик
источник

AI

Andrei Iatsuk in Data Engineers
Всем привет!
источник

AI

Andrei Iatsuk in Data Engineers
Кто-нибудь может рассказать про паттерны использования Apache Atlas? Он выступает только в роли документации датасетов или через него можно получить к ним доступ?
источник

DZ

Dmitry Zuev in Data Engineers
Atlas это linage, meta
источник

AI

Andrei Iatsuk in Data Engineers
Т.е. только описание данных?
источник

DZ

Dmitry Zuev in Data Engineers
еще linage
источник

DZ

Dmitry Zuev in Data Engineers
и если  ranger прикрутить то еще и контроль доступа
источник

Ik

Ilia ksen in Data Engineers
Атлас это сбор и описание метаинформации
источник

AI

Andrei Iatsuk in Data Engineers
Получается он нужен только как документирование процессов?
источник

Ik

Ilia ksen in Data Engineers
Смотря кто и как его внедряет
источник

Ik

Ilia ksen in Data Engineers
Есть тут ребята которые внедряли DG?
источник