Кто-нибудь может рассказать как в pyspark происходит магия исполнения питон кода? Мой коллега думает, что на каждом ноде выполняется питон интерпретатор и настаивает на
def main(): blah
if __name__ == "__main__": main()
в общем случае да
воркер запускает питон интерпретатор и общается с ним через сокеты поэтому питон udf такие медленные
воркер запускает питон интерпретатор и общается с ним через сокеты поэтому питон udf такие медленные
Скорость зависит от соотношения вычислений к данным. Чаще всего питон юдфки используются для таких задач, которые считаются овер9000 секунд, поэтому перегнать данные в питон и потом обратно в джаву не сильно большая проблема
Кто-нибудь может рассказать как в pyspark происходит магия исполнения питон кода? Мой коллега думает, что на каждом ноде выполняется питон интерпретатор и настаивает на
def main(): blah
if __name__ == "__main__": main()
я тут недавно давал ссылку на выступление Холден, она в красках все описала (когда обсуждали использование arrow в спарк)
Скорость зависит от соотношения вычислений к данным. Чаще всего питон юдфки используются для таких задач, которые считаются овер9000 секунд, поэтому перегнать данные в питон и потом обратно в джаву не сильно большая проблема
именно поэтому после перехода на датафреймы их гонять стало быстрее а с эрроу ещё интересней, просто датафрейм сверху натягивают 😉
но тут действительно всё зависит от соотношения и что за юдф и код гоняется
Сколько людей, столько и фреймворков для любой задачи)
Ну фреймворк же не выбирается и не пишется просто так ) Есть ariflow который, кмк, лучше и проще заходит DE и умеет всё тоже что и Argo. Хочу понять в каких случаях Argo может быть более хорошим выбором по сравнению с Airflow, поэтому и вопрошаю у кого такой опыт выбора был )
Используют, еще и как. Кубфлоу на нем пайплайны запускает
я думаю, речь про то что сам Argo CD не есть замена оркестратору джобов. Он под капотом кубфлоу и скорее всего Worlflow, но последние позиционируют себя как отдельные продукты...