Size: a a a

2020 January 29

R

Renarde in Data Engineers
это как в ведьмаке - silver for monsters, steel for humans.
Scala API - для всяких продакшен-стриминг задачек,Python API - когда саентисты модельку принесли
источник

IK

Ilya Kozyrev in Data Engineers
Холивар =) Чаще всего нужно использовать и Python и Scala для разных задач. Есть ml в котором недостаточно или просто не хочется spark ml использовать - используй python. Нужно оптимизацию - scala, если что то быстро сваять - sql
источник

GP

Grigory Pomadchin in Data Engineers
я склоняюсь к тому, чтобы потереть опрос; язык под нужды выбирайте
источник

λ

λoλdog in Data Engineers
Хотел ответить что не юзаю спарк, но ответил что юзаю скалу
источник

R

Renarde in Data Engineers
Grigory Pomadchin
я склоняюсь к тому, чтобы потереть опрос; язык под нужды выбирайте
не надо, вообще интересно же
источник

GP

Grigory Pomadchin in Data Engineers
ну часто все сразу используют; инжирный удел
и нету R langа
источник

TY

Taras Yaroshchuk in Data Engineers
сори, я даже про R и не вспомнил сразу)
да, золотая истина что “язык под нужды выбирайте”, но на практике многие проекты используют один язык для всего и продвинуть эту идею довольно сложно. Что-то вроде “у нас уже много либ написанных на python, зачем их переносить на scala если можно продолжать использовать pyspark
источник

λ

λoλdog in Data Engineers
Тут одна нужда у всех, как тут выбирать?
источник

T

T in Data Engineers
Taras Yaroshchuk
сори, я даже про R и не вспомнил сразу)
да, золотая истина что “язык под нужды выбирайте”, но на практике многие проекты используют один язык для всего и продвинуть эту идею довольно сложно. Что-то вроде “у нас уже много либ написанных на python, зачем их переносить на scala если можно продолжать использовать pyspark
еще зависит от отдела, часто сталкиваюсь что у DE все на скале а DS только на питоне пишут
источник

AZ

Anton Zadorozhniy in Data Engineers
Taras Yaroshchuk
сори, я даже про R и не вспомнил сразу)
да, золотая истина что “язык под нужды выбирайте”, но на практике многие проекты используют один язык для всего и продвинуть эту идею довольно сложно. Что-то вроде “у нас уже много либ написанных на python, зачем их переносить на scala если можно продолжать использовать pyspark
это, извините, какой-то странный минимализм; у вас какие-то проблемы с текущим кодом? с разработчиками? переносить или не переносить (также как и писать или не писать, и на чем писать) это решение которое надо принимать для чего-то все таки
источник

GP

Grigory Pomadchin in Data Engineers
Taras Yaroshchuk
сори, я даже про R и не вспомнил сразу)
да, золотая истина что “язык под нужды выбирайте”, но на практике многие проекты используют один язык для всего и продвинуть эту идею довольно сложно. Что-то вроде “у нас уже много либ написанных на python, зачем их переносить на scala если можно продолжать использовать pyspark
много мл либ на питоне; переписывать все на скалу?
источник

ME

Max Efremov in Data Engineers
я с пандас на пайспарк переписывал 😂
источник

ME

Max Efremov in Data Engineers
а то панды немного много памяти хотели
источник

AZ

Anton Zadorozhniy in Data Engineers
мы с одной из моих команд выработали принцип pain driven development - вкладываться в доработку только того что доставляет боль, и только в объеме чтобы уменьшить боль до терпимой)
источник

AZ

Anton Zadorozhniy in Data Engineers
вопрос "а давайте перепишем" просто так не вставал
источник

AS

Anton Shelin in Data Engineers
у нас было 15 к строк на питоне пайплайн. перенесли это в спарк. благодаря pyspark стало возможным перенести кучу кода as is . так что иногда pyspark по необходимости
источник

SK

Sergej Khakhulin in Data Engineers
Всем привет, такой вопрос в yarn-site.xml вставил такую строчку
${env.YARN_RESOURCE_MANAGER_URL}
 и при старте resourse и node manager спокойно забирает url из env, но при
spark-submit --master yarn --deploy-mode cluster --driver-memory 1g --executor-memory 1g --executor-cores 1 /opt/spark/examples/src/main/python/pi.py 1
с мастер ноды, оно падает с ошибкой
Uncaught exception: java.lang.IllegalArgumentException: Does not contain a valid host:port authority: ${env.YARN_RESOURCE_MANAGER_URL}:8088 (configuration property 'yarn.resourcemanager.webapp.address')
может кто то встречал такое?
источник

SK

Sergej Khakhulin in Data Engineers
Sergej Khakhulin
Всем привет, такой вопрос в yarn-site.xml вставил такую строчку
${env.YARN_RESOURCE_MANAGER_URL}
 и при старте resourse и node manager спокойно забирает url из env, но при
spark-submit --master yarn --deploy-mode cluster --driver-memory 1g --executor-memory 1g --executor-cores 1 /opt/spark/examples/src/main/python/pi.py 1
с мастер ноды, оно падает с ошибкой
Uncaught exception: java.lang.IllegalArgumentException: Does not contain a valid host:port authority: ${env.YARN_RESOURCE_MANAGER_URL}:8088 (configuration property 'yarn.resourcemanager.webapp.address')
может кто то встречал такое?
это очень узкий момент но может кому пригодиться
--conf spark.driver.extraJavaOptions="-Denv.YARN_RESOURCE_MANAGER_URL=resource-manager" \
   --conf spark.executor.extraJavaOptions="-Denv.YARN_RESOURCE_MANAGER_URL=resource-manager" \
источник

АК

Алина Карпенко in Data Engineers
Добрый вечер. Меня зовут Алина, я представляю кадровый холдинг АНКОР, занимаюсь подбором персонала. Есть предложение:
Разработчик ETL/ESB:
Необходим опыт разработки на Java
Может есть рекомендации?
Писать на почту a.karpenko@ancor.ru
источник

GP

Grigory Pomadchin in Data Engineers
Алина Карпенко
Добрый вечер. Меня зовут Алина, я представляю кадровый холдинг АНКОР, занимаюсь подбором персонала. Есть предложение:
Разработчик ETL/ESB:
Необходим опыт разработки на Java
Может есть рекомендации?
Писать на почту a.karpenko@ancor.ru
О работах обычно говорим тут @datajobs; можете туда перепостить а отсюда убрать?
источник