Size: a a a

2020 November 11

SS

Sergey Sheremeta in Data Engineers
а теперь перейдем к основному блюду? так что же лучше изучать дата-инженеру (помимо SQL): Scala , Java, Python, Kotlin?
источник

AZ

Anton Zadorozhniy in Data Engineers
external DSL это да, надо прям обосновать зачем, проще сделать internal DSL, но эти самые internal DSL живут везде, на них все современное айти построено
источник

AT

Al T in Data Engineers
дата инженеру нужны коммуникативные навыки - чтобы мирить скалистов джавистов и питонистов. ну и кофе пить с дата сайнтестами.
источник

AZ

Anton Zadorozhniy in Data Engineers
Sergey Sheremeta
а теперь перейдем к основному блюду? так что же лучше изучать дата-инженеру (помимо SQL): Scala , Java, Python, Kotlin?
питон точно, а дальше зависит от бэкграунда и прошлого человека, ну и стэка в конторе; если в универе покусали хаскелисты то скала будет приятным упражнением, энтерпрайзные разрабы знают java часто по-умолчанию.. а потом оно все выравнивается.. я вообще на кложе писал много и кишки JVM я знаю больше оттуда, чем от своего опыта с java/scala
источник

AZ

Anton Zadorozhniy in Data Engineers
(меня лисперы покусали в универе, хаскел у нас тогда еще не преподавали)
источник

AZ

Anton Zadorozhniy in Data Engineers
вот кстати, DSLи на кложе писать это сплошное удоволствие, это так просто и приятно.. но это и губит кложу, каждый норовит на все свой DSL написать (и не один)
источник

PA

Panchenko Andrey in Data Engineers
Sergey Sheremeta
а теперь перейдем к основному блюду? так что же лучше изучать дата-инженеру (помимо SQL): Scala , Java, Python, Kotlin?
Статистику методы валидации данных
источник

SS

Sergey Sheremeta in Data Engineers
Panchenko Andrey
Статистику методы валидации данных
каким инструментом валидировать данные? SQL? Excel?
источник

PA

Panchenko Andrey in Data Engineers
Sergey Sheremeta
каким инструментом валидировать данные? SQL? Excel?
Хм, питон. Любой яп как мне кажется. Ну банально если приезжает массив а там переменная тип поменяла или бэкендеры поменяли схему. Это же неконсистентность. Или нет таких проблем?
источник

PA

Panchenko Andrey in Data Engineers
У меня просто есть такое. Я вот борюсь с ними
источник

PA

Panchenko Andrey in Data Engineers
А какие у вас есть практики?
источник

PA

Panchenko Andrey in Data Engineers
Или например данные начали заезжать в аномально низком объеме? Или наоборот высоком это может быть фрод а может продукт начал получать дохрена пользователей? То как тогда быть?
источник

PA

Panchenko Andrey in Data Engineers
Я на пайтоне работаю не то чтобы я за него топлю просто так по стеку текущей компании.
источник

SS

Sergey Sheremeta in Data Engineers
вы ведь сейчас про PySpark говорите? ну, то бишь валидация больших данных в кластере?
источник

SS

Sergey Sheremeta in Data Engineers
(все работают что ли? почему срачъ не разгорается?)
источник

PA

Panchenko Andrey in Data Engineers
Sergey Sheremeta
вы ведь сейчас про PySpark говорите? ну, то бишь валидация больших данных в кластере?
Не. Не спарк у меня Клауд инфраструктура. Лямбды и вот это вот всё
источник

PA

Panchenko Andrey in Data Engineers
Не трушный я видать DE
источник

PA

Panchenko Andrey in Data Engineers
Я Apache Beam использую
источник

T

T in Data Engineers
А зачем их противопосталять если они обычно везде в месте используются. Что я наблюдаю в своей деревне то что питух используется для склейки: деплоймент, лямбды ит тд. + Он для ad-hoc отлично подходит нафигачил чего нить в ipython проверил и забыл. А скала больше в паплайнах , spark, flink, Akka. Ну и у нас в команде точно такой же сценарий и спользования их.
P.s.
На вопрос что учить из них двоих первым. Я бы советовал начинать с питона.
источник

NN

No Name in Data Engineers
T
А зачем их противопосталять если они обычно везде в месте используются. Что я наблюдаю в своей деревне то что питух используется для склейки: деплоймент, лямбды ит тд. + Он для ad-hoc отлично подходит нафигачил чего нить в ipython проверил и забыл. А скала больше в паплайнах , spark, flink, Akka. Ну и у нас в команде точно такой же сценарий и спользования их.
P.s.
На вопрос что учить из них двоих первым. Я бы советовал начинать с питона.
А для нубья, которое только в питон умеет, с чего разумнее начать, с джабы или скалы?
источник