Size: a a a

2021 June 15

МК

Михаил Королев... in Data Engineers
точно кто-то сказал (здесь в этом чате) - экзамен от клаудеры = мечта (просто преобразуй данные и все)
источник

AZ

Anton Zadorozhniy in Data Engineers
Если вы R знаете - не забрасывайте, язык и экосистема хорошие, в некоторых очень хороших местах берут на работу за приличное умение и понимание R
источник

AG

Arsen Gumin in Data Engineers
Реально? Про экосистему не знал, обычно некоторые вещи на нем быстрее и проще сделать чем на змее, плюс в power bi с ним как-то проще, чем со змеей, но учту, спасибо
источник

AG

Arsen Gumin in Data Engineers
CCA?  Или CCP?
источник

AZ

Anton Zadorozhniy in Data Engineers
Понятие full stack data scientist я видел только в R командах)
источник

МК

Михаил Королев... in Data Engineers
а они одинаковы (по сути), различаются сложностю задач (на CCP сложнее, поэтому времени меньше)
источник

AG

Arsen Gumin in Data Engineers
Как иногда бывает полезно пообщается с профессионалами) всем спасибо!
источник

e

er@essbase.ru in Data Engineers
Я так и понял что брешут 😜 ради ms
источник

AZ

Anton Zadorozhniy in Data Engineers
Для кого-то это мб актуальный бенчмарк, так что я бы не списывал его; просто я их видел десятки и сотни, и этот довольно скучный)
источник

DT

Dmitry Titov in Data Engineers
Это вопрос о цене поддержки?
источник

SS

Sergey Sheremeta in Data Engineers
это вопрос о стоимости managed clickhouse ... или у вас нужно отдельно платить за AWS-сервисы?
источник
2021 June 16

R

Roman in Data Engineers
Подскажите пожалуйста, есть ли смысл дробить etl таск на цепочку минимально логически-связанных тасков ?

например есть luigi таск, который пересчитывает и укладывает прогнозы в redshift за 365 дней

какие могут быть бенифиты если переписать таск так, чтобы он считал только за 1 день

я пока вижу следующие
* легко будет перезагрузить определенный день/период а не год
* если таск сфейлился для определенного дня , то можно пересчитать этот день, а не опять считать целый год
* можно будет сразу увидеть дырки в дне/периоде
источник

e

er@essbase.ru in Data Engineers
Не факт что мелкий таск будет работать в 1/365 раз быстрее .
источник

e

er@essbase.ru in Data Engineers
Поиск наличия  пробелов в прогнозе это функциональное тестирование (. Нули машина тоже обмолотить и со стороны техники все будет ОК)
источник

СХ

Старый Хрыч... in Data Engineers
Народ, а как указать спарку каким размеров файлы писать в hdfs после обработки данных?
источник

N

Nikita Blagodarnyy in Data Engineers
репартишоном. число подбирать под нужный размер файла исходя из размера датасета.
источник

N

Nikita Blagodarnyy in Data Engineers
изкоробочный конфигов вроде как не бывает
источник

СХ

Старый Хрыч... in Data Engineers
ну вот у нас датасет, если я правильно понимаю 12 тб
источник

AZ

Anton Zadorozhniy in Data Engineers
coalesce еще, если не хочется еще сортировочку делать
источник

СХ

Старый Хрыч... in Data Engineers
но спарк их записыввает файлами по 0,14 гб
источник