Size: a a a

2020 January 29

DM

Daniel Matveev in Data Engineers
должны быть, по крайней мере не могу причин почему нет

а логи гц вообще нужно включать всегда опциями на жвм
источник

А

Алексей in Data Engineers
работу делают ограниченное число постоянно работающих воркеров, если параметрами запуска им прописать verbosegc, то влияние будет на все запуске , а нужно только на некоторые. Боюсь, что это скажется на общую производительность
источник

Ik

Ilia ksen in Data Engineers
Ребята, как мне проверить работу чекпоинта при сбое драйвера в yarn?
источник

VS

Vasily Shabanov in Data Engineers
Всем привет!
Есть проект с хадупом/постгрессом и постргрессом в качестве некоего dwh, в который смотрит BI.
На постгрессе выполнялись всякие агрегации/расчёты, но постгресса стало не хватать. Компания, которая разрабатывала «общее» решение, предлагает постгресс заменить на гринплам и переписать агрегации/расчёты под гринплам же.
Мы же хотим расчёты перенести на scala/spark (опыт есть).

Может кто помочь с аргументами против GP?
источник

VS

Vasily Shabanov in Data Engineers
Или GP — очень даже кошерное решение?
источник

DZ

Dmitry Zuev in Data Engineers
какие объемы?
источник

DZ

Dmitry Zuev in Data Engineers
как организовано двх? Нормализованное хранилище?
источник

VS

Vasily Shabanov in Data Engineers
Dmitry Zuev
как организовано двх? Нормализованное хранилище?
Звезда. Скажем так, по большей части нормализованное.
источник

DZ

Dmitry Zuev in Data Engineers
чем льёте туда?
источник

DZ

Dmitry Zuev in Data Engineers
что за BI? у ваше bi какой движок: свой или пушдаун в пг?
источник

VS

Vasily Shabanov in Data Engineers
BI — сторонняя компания занимается, со своим продуктом импортозамещённым. Они из пг забирают сами.
источник

DZ

Dmitry Zuev in Data Engineers
У вас уже есть подрядчик который все это делает?
Вы хотите  у них забрать и переписать на спарк?
источник

VS

Vasily Shabanov in Data Engineers
По объёмам и как конкретно из хадупа переливается — чуть позже скажу
источник

DZ

Dmitry Zuev in Data Engineers
Vasily Shabanov
BI — сторонняя компания занимается, со своим продуктом импортозамещённым. Они из пг забирают сами.
забираю то ладно, а варят у себя внутри или на пг?
источник

VS

Vasily Shabanov in Data Engineers
Dmitry Zuev
У вас уже есть подрядчик который все это делает?
Вы хотите  у них забрать и переписать на спарк?
Подрядчик есть, но они тоже колеблются как именно они хотят свой инструмент делать.
источник

VS

Vasily Shabanov in Data Engineers
Dmitry Zuev
забираю то ладно, а варят у себя внутри или на пг?
Сейчас из хадупа всё переливается в PG и самое заковыристо-расчётное проводится там.
источник

VS

Vasily Shabanov in Data Engineers
Vasily Shabanov
Подрядчик есть, но они тоже колеблются как именно они хотят свой инструмент делать.
От их решения зависит то, где именно свою часть будем делать мы. В GP или Spark’е. Нам хочется в спарке
источник

DZ

Dmitry Zuev in Data Engineers
Vasily Shabanov
От их решения зависит то, где именно свою часть будем делать мы. В GP или Spark’е. Нам хочется в спарке
но если у вас уже звезда то я б GP выбрал
источник

DZ

Dmitry Zuev in Data Engineers
ибо зачем тогда мучатся и ее строить
источник

VS

Vasily Shabanov in Data Engineers
Dmitry Zuev
какие объемы?
Прирост ≈5kk записей в день, но проблема в том, что приходится делать пересчёт минимум за год. Обновился день, обсчитывается полностью весь год.
источник