Size: a a a

2020 February 06

V

Vasiliy in Data Engineers
Ну и свое они тоже перетряхивали... С тем же результатом примерно
источник

AZ

Anton Zadorozhniy in Data Engineers
Такое везде может быть, не кажется каким-то специфично российским головотяпством
источник

NL

Nikolay Lebedev in Data Engineers
Подскажите, как можно узнать в хадуп к какой группе относится хост. Экспорт blueprint сделал через api. А мапинг хвостов не могу сделать.
источник

DG

Denis Gabaydulin in Data Engineers
Почти пятница и надо бы вбросить. Есть у меня предположение, что вообще говоря, data engineer - это явление временное. Почему? На заре бигдаты, нужны были специальные люди, которые могли эту инфру построить из говна и палок. Сейчас, в эпоху клаудов, спарков и mpp, это может сделать даже менеджер. Ну понятно, я приувеличиваю, но смысл в том, что экспертиза потихоньку отмирает. Уже никто не хочет разбираться с lambda/kappa, "поставил CH и анализируй" (есть примеры). Второе, была еще светлая мечта сделать как-то нормально. Ну там каталог данных, схемы, дата говернанс, дата кволити, дата тесты, нормализация и прочие вещи на уровне организации, но опять таки кажется, что бизнесу часто на это наплевать и он не готов за это платить. Ему подавай результаты любой ценой (костыли кругом). То есть, мой прогноз такой: профессия data engineer будет потихоньку помирать. В смысле того, что узкоспециальные люди, которые умеют только в инфру данных не будут сильно нужны. Devops, software engineer, ml engineer (но их надо мало), analyst (bi). И да, я старый, и помню прекрасно времена, когда мы (обычные software engineers), делали "статистику" (интернет счетчики, статистику для баннеро крутилок) и это были обычные задачи, никакой выделенной роли не было. Стек был самописный + реляционные базы для репортов.
источник
2020 February 07

DG

Denis Gabaydulin in Data Engineers
Вот еще один пример хороший. Чтобы раньше писать на хадупе надо было обладать спец знаниями. Ну может кто-то помнит еще как на MR делать всякие хитрые джоины или хотя бы терасорт. Сейчас всем пофиг (кроме разработчиков платформ), фреймворки типа спарка все делают за нас.
источник

I

I Апрельский in Data Engineers
Интересные мысли. Но у меня нет ответов, зато накину вопросов)

Я люблю чиселки)) поэтому: а сколько сейчас DE в РФ? Сколько их будет через 5 лет? Меньше или больше? А сколько через 10?
Отмирает профессия -- это она поделится на части (чисто спец по AWS) или наоборот вернётся под бренд другой роли?

Можно попробовать поделить роль на процессы и скиллы -- и посмотреть откуда они пришли... Скиллы отражают софт, мне кажется. Софт все съедает. Коммодизация как ещё говорят. Коммодизация поглотит какие-то процессы... Исчезнут ли скиллы?

Но кажется не смотря на коммодизацию какие-то компромиссы софт не может решить. Условно CAP никуда не девается... А инженер -- это про компромиссы.

Если прогресс спрячет компромиссы, которые сейчас приходится разрешать DE, то и роль рассосётся.

Очень сумбурно. Простите! Просто сыроватые мысли вслух на интересную тему.
источник

M

Mi in Data Engineers
Denis Gabaydulin
Вот еще один пример хороший. Чтобы раньше писать на хадупе надо было обладать спец знаниями. Ну может кто-то помнит еще как на MR делать всякие хитрые джоины или хотя бы терасорт. Сейчас всем пофиг (кроме разработчиков платформ), фреймворки типа спарка все делают за нас.
Ну тот же Спарк нужно уметь готовить, а то накинут инстансов побольше без желания фиксить очевидные проблемы
источник

M

Mi in Data Engineers
То что появилось больше абстракций не говорит о том что экспертиза не нужна
источник

I

I Апрельский in Data Engineers
Какие вообще профессии отмерли в айти?
источник

K

KrivdaTheTriewe in Data Engineers
оператор пк
источник

GP

Grigory Pomadchin in Data Engineers
KrivdaTheTriewe
оператор пк
ЭВМ* ?
источник

K

KrivdaTheTriewe in Data Engineers
да, давайте в жобс, тут техническое
источник

N

Nikolay in Data Engineers
Если профессии , которые не отмерли , но сильно потеряли и теряют в количестве вакансий . Например - администратор oracle . Это уже почти как кузнец )
источник

N

Nikolay in Data Engineers
Но сами-то данные никуда не денутся и дата инженеры , как специализация конечно останутся.
источник

РП

Роман Пашкевич in Data Engineers
Коллеги.  Всем доброго утра. При попытке инсерта данных в hive spark'ом, получаю ошибку.

" Number of dynamic partitions created is 1346, which is more than 1000. To solve this try to set hive.exec.max.dynamic.partitions to at least 1346."

Это же в spark config можно прописать? 1000 видимо "по-умолчанию" идет?
Судя по похожим там записям:
    .config('hive.exec.dynamic.partition', 'true')
    .config('hive.exec.dynamic.partition.mode', 'nonstrict')
источник

AK

Alena Korogodova in Data Engineers
Роман Пашкевич
Коллеги.  Всем доброго утра. При попытке инсерта данных в hive spark'ом, получаю ошибку.

" Number of dynamic partitions created is 1346, which is more than 1000. To solve this try to set hive.exec.max.dynamic.partitions to at least 1346."

Это же в spark config можно прописать? 1000 видимо "по-умолчанию" идет?
Судя по похожим там записям:
    .config('hive.exec.dynamic.partition', 'true')
    .config('hive.exec.dynamic.partition.mode', 'nonstrict')
По умолчанию, да. Если админами изменение не залочено - поменяй)
источник

N

Nikolay in Data Engineers
Роман Пашкевич
Коллеги.  Всем доброго утра. При попытке инсерта данных в hive spark'ом, получаю ошибку.

" Number of dynamic partitions created is 1346, which is more than 1000. To solve this try to set hive.exec.max.dynamic.partitions to at least 1346."

Это же в spark config можно прописать? 1000 видимо "по-умолчанию" идет?
Судя по похожим там записям:
    .config('hive.exec.dynamic.partition', 'true')
    .config('hive.exec.dynamic.partition.mode', 'nonstrict')
Надо разобраться почему создаётся так много партий .
источник

РП

Роман Пашкевич in Data Engineers
Nikolay
Надо разобраться почему создаётся так много партий .
Это норма. Разовая перезагрузка данных за 3,5 года. Партиция по дате. Вот и выходит 1300+.
источник

AK

Alena Korogodova in Data Engineers
Крамольную вещь скажу. Если разовая, мож в два захода просто загрузить?)
источник

РП

Роман Пашкевич in Data Engineers
Только хотел написать что прописал в config и все работает. Как оно упало с той же ошибкой. Видимо админами залочено)
источник