Телеграмм чат группы hadoopusers страница 3386

я давно ковырялся в кишках петоно спарка не смогу сейчас пояснить за то как конкретно там сериализация случается
надо подождать ребят расскажут

но в крадце там абсолютно пофигу как писать

коллега наверное у вас хочет культуру кода устроить что не так то и плохо особенно для петоно проекта

источник

01:50пожаловаться #5

KS

K S in Data Engineers

Grigory Pomadchin

я давно ковырялся в кишках петоно спарка не смогу сейчас пояснить за то как конкретно там сериализация случается
надо подождать ребят расскажут

но в крадце там абсолютно пофигу как писать

коллега наверное у вас хочет культуру кода устроить что не так то и плохо особенно для петоно проекта

Да я и сам за культуру кода, но только времени на красоту очень мало. Со всех сторон требуют результаты как можно скорее, а тут ещё и шашечки требуют.

источник

01:51пожаловаться #6

GP

Grigory Pomadchin in Data Engineers

🙌🏻 Друзья, всем привет!

Мы планируем запуск курса «DWH Analyst» и нам очень нужна ваша помощь с фидбеком!

Посмотрите, пожалуйста, может вам что-то хотелось бы изменить, добавить, убрать. Будем очень рады вашей обратной связи!
Пройдите, пожалуйста, анонимный опрос.
👉 По ссылке можно найти подробную программу курса.

Заранее спасибо каждому участнику!

источник

02:00пожаловаться #7

AE

Alexey Evdokimov in Data Engineers

KrivdaTheTriewe

Поддержка докера с работой из студии есть ?

не понял формулировку вопроса. если имеется в виду «умеет ли студия работать с контейнерами», то да конечно умеет, причём с прошлого года нативно, а не через плагин

источник

05:27пожаловаться #8

GP

Grigory Pomadchin in Data Engineers

https://twitter.com/SethTisue/status/1372340143529467905?s=20

Twitter

Seth Tisue

In case you haven't been keeping up: * Spark 3.2 snapshots for Scala 2.13 are available for use now, today: https://t.co/9ir5OpjRre * With any luck, Spark 3.2 final will ship this summer: https://t.co/k5sTM3D130 (Thanks to Guillaume Martres for the links.)

источник

05:35пожаловаться #9

s

skatromb in Data Engineers

Grigory Pomadchin

на каждой ноде дейсвительно выполняется пейтоноинтерпретатор
через пу4ж (грустно очень) гоняются партиции из петона в жвм

партиции вроде гоняются, только если выйти за пределы спарковых методов. И то есть лайфхак, как этого избежать, то ли используя пандовые структуры, то арроу, не помню уже — в орейлевской книге было.

источник

07:11пожаловаться #10

s

skatromb in Data Engineers

K S

Да я и сам за культуру кода, но только времени на красоту очень мало. Со всех сторон требуют результаты как можно скорее, а тут ещё и шашечки требуют.

Насколько я знаю, писать def main() — не питонично, скорее жавой отдает.

Но в любом случае, вроде написать такой бойлерплейт — одна минута, в чём проблема?

источник

07:13пожаловаться #11

KS

K S in Data Engineers

skatromb

Насколько я знаю, писать def main() — не питонично, скорее жавой отдает.

Но в любом случае, вроде написать такой бойлерплейт — одна минута, в чём проблема?

Да там целая простыня требований, в pre-commit hook

источник

08:10пожаловаться #12

KS

K S in Data Engineers

skatromb

партиции вроде гоняются, только если выйти за пределы спарковых методов. И то есть лайфхак, как этого избежать, то ли используя пандовые структуры, то арроу, не помню уже — в орейлевской книге было.

То есть на ноде обычный питон процесс, а данные сериализуются в спарковский формат (вроде бы arrow)?

источник

08:12пожаловаться #13

s

skatromb in Data Engineers

K S

То есть на ноде обычный питон процесс, а данные сериализуются в спарковский формат (вроде бы arrow)?

Кажется, так. И если нужны кастомные преобразования данных, то можно избежать перегона данных между питоном и спарком, если заюзать что-то из панды

источник

08:50пожаловаться #14

s

skatromb in Data Engineers

Но я забыл, что

источник

08:50пожаловаться #15

DM

Dmitry Moscow in Data Engineers

Господа, доброе утро! А можете подсказать, пожалуйста. Во втором спарке HiveContext стал deprecated. Внутри него теперь вызов SparkSession. Есть ли для меня способ запускать sql через второй Спарк на Хайв кластере принудительно?

источник

09:51пожаловаться #16

P

PallivalloO in Data Engineers

Добрый день, кто нибудь сталкивался с ошибкой org.apache.spark.shuffle.FetchFailedException Read error or truncated source ? Spark 2.4.0

источник

10:00пожаловаться #17

VS

Vladislav 👻 Shishkov... in Data Engineers

K S

Кто-нибудь может рассказать как в pyspark происходит магия исполнения питон кода? Мой коллега думает, что на каждом ноде выполняется питон интерпретатор и настаивает на

def main():
blah

if __name__ == "__main__":
main()

Давайте начнем с того, а вы понимаете отличие запуска через main?

источник

10:11пожаловаться #18

ЕГ

Евгений Глотов... in Data Engineers

K S

Кто-нибудь может рассказать как в pyspark происходит магия исполнения питон кода? Мой коллега думает, что на каждом ноде выполняется питон интерпретатор и настаивает на

def main():
blah

if __name__ == "__main__":
main()

Это уже написано в пайспарк-коде запуска UDF, писать это в пользовательском коде неправильно, там должна быть только непосредственно функция, зарегистрированная как UDF, она передаётся в качестве коллбэка

источник

10:40пожаловаться #19

VP

Vitaly Pismarev in Data Engineers

Привет

А есть те кто работал с Argo worlflows ? Можете подсказать почему его выбирают а не используют тот же Airflow ?

источник

10:56пожаловаться #20