Даже будучи очень крутым и опытным, если приходишь на проект, где концептуально все тоже самое, но немного другой стек, то некоторое время ты не допусксаешь глупые ошибочки
то есть: 1) мы игнорируем стоимость копирования из памяти jvm в питоновскую память и обратно 2) что даже в пандас люди любят подавать питоновскую лямбду и производительность падает ниже дна
то есть: 1) мы игнорируем стоимость копирования из памяти jvm в питоновскую память и обратно 2) что даже в пандас люди любят подавать питоновскую лямбду и производительность падает ниже дна
я же написал, pandas udf, данные спарк держит в pyarrow, пандас тоже - где здесь jvm?