Size: a a a

2021 March 18

GP

Grigory Pomadchin in Data Engineers
это ж петон просто нашмякайте чтонить
источник

GP

Grigory Pomadchin in Data Engineers
источник

GP

Grigory Pomadchin in Data Engineers
но если серьезно я не понял вопрос)
источник

KS

K S in Data Engineers
Grigory Pomadchin
это ж петон просто нашмякайте чтонить
Ну я так и делаю, просто пишу инлайн, а он думает, что надо по всем правилам как я выше вбросил
источник

GP

Grigory Pomadchin in Data Engineers
я давно ковырялся в кишках петоно спарка не смогу сейчас пояснить за то как конкретно там сериализация случается
надо подождать ребят расскажут

но в крадце там абсолютно пофигу как писать

коллега наверное у вас хочет культуру кода устроить что не так то и плохо особенно для петоно проекта
источник

KS

K S in Data Engineers
Grigory Pomadchin
я давно ковырялся в кишках петоно спарка не смогу сейчас пояснить за то как конкретно там сериализация случается
надо подождать ребят расскажут

но в крадце там абсолютно пофигу как писать

коллега наверное у вас хочет культуру кода устроить что не так то и плохо особенно для петоно проекта
Да я и сам за культуру кода, но только времени на красоту очень мало. Со всех сторон требуют результаты как можно скорее, а тут ещё и шашечки требуют.
источник

GP

Grigory Pomadchin in Data Engineers
🙌🏻 Друзья, всем привет!

Мы планируем запуск курса «DWH Analyst» и нам очень нужна ваша помощь с фидбеком!

Посмотрите, пожалуйста, может вам что-то хотелось бы изменить, добавить, убрать. Будем очень рады вашей обратной связи!
Пройдите, пожалуйста, анонимный опрос.
👉 По ссылке можно найти подробную программу курса.

Заранее спасибо каждому участнику!
источник

AE

Alexey Evdokimov in Data Engineers
KrivdaTheTriewe
Поддержка докера с работой из студии есть ?
не понял формулировку вопроса. если имеется в виду «умеет ли студия работать с контейнерами», то да конечно умеет, причём с прошлого года нативно, а не через плагин
источник

GP

Grigory Pomadchin in Data Engineers
источник

s

skatromb in Data Engineers
Grigory Pomadchin
на каждой ноде дейсвительно выполняется пейтоноинтерпретатор
через пу4ж (грустно очень) гоняются партиции из петона в жвм
партиции вроде гоняются, только если выйти за пределы спарковых методов. И то есть лайфхак, как этого избежать, то ли используя пандовые структуры, то арроу, не помню уже — в орейлевской книге было.
источник

s

skatromb in Data Engineers
K S
Да я и сам за культуру кода, но только времени на красоту очень мало. Со всех сторон требуют результаты как можно скорее, а тут ещё и шашечки требуют.
Насколько я знаю, писать def main() — не питонично, скорее жавой отдает.

Но в любом случае, вроде написать такой бойлерплейт — одна минута, в чём проблема?
источник

KS

K S in Data Engineers
skatromb
Насколько я знаю, писать def main() — не питонично, скорее жавой отдает.

Но в любом случае, вроде написать такой бойлерплейт — одна минута, в чём проблема?
Да там целая простыня требований, в pre-commit hook
источник

KS

K S in Data Engineers
skatromb
партиции вроде гоняются, только если выйти за пределы спарковых методов. И то есть лайфхак, как этого избежать, то ли используя пандовые структуры, то арроу, не помню уже — в орейлевской книге было.
То есть на ноде обычный питон процесс, а данные сериализуются в спарковский формат (вроде бы arrow)?
источник

s

skatromb in Data Engineers
K S
То есть на ноде обычный питон процесс, а данные сериализуются в спарковский формат (вроде бы arrow)?
Кажется, так. И если нужны кастомные преобразования данных, то можно избежать перегона данных между питоном и спарком, если заюзать что-то из панды
источник

s

skatromb in Data Engineers
Но я забыл, что
источник

DM

Dmitry Moscow in Data Engineers
Господа, доброе утро! А можете подсказать, пожалуйста. Во втором спарке HiveContext стал deprecated. Внутри него теперь вызов SparkSession. Есть ли для меня способ запускать sql через второй Спарк на Хайв кластере принудительно?
источник

P

PallivalloO in Data Engineers
Добрый день, кто нибудь сталкивался с ошибкой org.apache.spark.shuffle.FetchFailedException Read error or truncated source ? Spark 2.4.0
источник

VS

Vladislav 👻 Shishkov... in Data Engineers
K S
Кто-нибудь может рассказать как в pyspark происходит магия исполнения питон кода? Мой коллега думает, что на каждом ноде выполняется питон интерпретатор и настаивает на

def main():
   blah

if __name__ == "__main__":
   main()
Давайте начнем с того, а вы понимаете отличие запуска через main?
источник

ЕГ

Евгений Глотов... in Data Engineers
K S
Кто-нибудь может рассказать как в pyspark происходит магия исполнения питон кода? Мой коллега думает, что на каждом ноде выполняется питон интерпретатор и настаивает на

def main():
   blah

if __name__ == "__main__":
   main()
Это уже написано в пайспарк-коде запуска UDF, писать это в пользовательском коде неправильно, там должна быть только непосредственно функция, зарегистрированная как UDF, она передаётся в качестве коллбэка
источник

VP

Vitaly Pismarev in Data Engineers
Привет

А есть те кто работал с Argo worlflows ? Можете подсказать почему его выбирают а не используют тот же Airflow ?
источник