Size: a a a

2021 July 15

AS

Andrey Smirnov in Data Engineers
плюсую, зачастую в конце больших заливок запускают вручную этот компакт
источник

N

Nikita Blagodarnyy in Data Engineers
ну как вы не понимаете, вы же разработчик, вы пишете DDL таблицы. не делайте ее транзакционной
источник

N

Nikita Blagodarnyy in Data Engineers
или отключите вообще поддержку асид на уровне всего hive
источник

РП

Роман Пашкевич... in Data Engineers
Я не разработчик. Я аналитик) А решать приходится проблему за отдел ETL.
источник

RK

Ruslan Krivoshein in Data Engineers
Есть паркет-файлы с однотипными записями, и так получилось, что таймштамп у всех записей там один. По заданию необходимо положить это в elasticsearch и построить там дашборд в разрезе этих таймштампов. Как можно при отправке этих записей потоком из спарка изменять таймштамп, чтобы какое-то подобие продолжительности было? То бишь читать по сколько-то записей и править в потоке
источник

N

Nikita Blagodarnyy in Data Engineers
Дебильный вопрос, но может кто-то знает как по имени локального файла на датаноге понять к какой папке/файлу HDFS он относится?
источник

АЖ

Андрей Жуков... in Data Engineers
это ж блок, тебе только неймнода скажет, что она в блок положила
источник

AZ

Anton Zadorozhniy in Data Engineers
в fsimage написано
источник

A

AE in Data Engineers
Помогите советом
Занимаюсь pet-проектом, сейчас накидываю архитектуру DWH (в учебных целях)

Дело нехитрое:
1) несколько скраперов по api качают json-ы
2) сохраняют это в Mongo или Cassandra (primary data layer)
3) затем batch-джобы(раз в час, например, данных не терабайты) берут актуальное, проверяют, нормализуют и складывают в базу Postgres (Core layer)

Вопрос: все ли ок в моих рассуждениях?
источник

АБ

Артемий Богданов... in Data Engineers
Заменить постгрес на гринплам и норм
источник

V

Vasiliy in Data Engineers
Стало обидно за пг(
источник

АБ

Артемий Богданов... in Data Engineers
Так пг все равно в основе
источник

N

Nikita Blagodarnyy in Data Engineers
а зачем монга-то?
источник

АЖ

Андрей Жуков... in Data Engineers
для чего?
источник

A

AE in Data Engineers
вот думаю что в качестве этого слоя
hdfs или s3 как-то жирно для pet-проекта
есть предложения?
источник

N

Nikita Blagodarnyy in Data Engineers
тоже непонятно зачем. если данных 3 копейки. разве что сливу освоить.
источник

GP

Grigory Pomadchin in Data Engineers
учебные цели
источник

АБ

Артемий Богданов... in Data Engineers
В учебных целях пощупать
источник

N

Nikita Blagodarnyy in Data Engineers
ну камон, все зависит от того, какие цели ты перед собой ставишь. хочешь освоить s3 апи-ну поставь тогда минио, пихай в него. чтобы просто работало-да хоть на диск вали.
источник

N

Nikita Blagodarnyy in Data Engineers
научиться страдать
источник