Честно, мне просто привычнее делать навигацию когда мне говорят "можешь поправить код где добавляются такие-то id" и я делаю в IDE команду "перейти к функции add_ids"
Функция rank тоже существует и не эквивалентна row_number, так что во избежание недоразумений, и просто из соображений лени, рекомендую называть колонку rn)
А, теперь понятно. df = df.select([first(col(colname)).over(window) for colname in df.columns]) Это будет эффективнее, чем конструкция с df = df.withColumn('rn', row_number().over(window)).filter(col('rn') == 1).drop('rn')?
Народ. Приветствую всех. Есть возможно простой но для меня не очевидный вопрос. Как организовать автотестирование приложения со spark процессами. Проблема мне видется в том, что при тестировании требуется доступ к данным для покрытия различных кейсов а если на этапе CI доступа к этим данным нет или их некуда разместить поскольку их много.