Привет всем!
Мы рады представить Spark API для Kotlin, над которым мы долгое время работали:
https://github.com/JetBrains/kotlin-spark-api.
Сейчас API находится на стадии beta-тестирования, но мы планируем сделать PR в официальный репозиторий Apache Spark, поэтому нам
очень нужен фидбек, чтобы PR отражал не только наше понимание того, что нужно, но также учитывал пожелания конечных пользователей.
Чем хорош Kotlin Spark API? Хотя вы уже давно можете использовать Java API из Kotlin, Kotlin Spark API даёт вам доступ к API, более напоминающий Scala, чем Java, а также даёт вам использовать удобные штуки типа дата классов и лямбд.
Кроме того, Kotlin Spark API добавляет несколько удобных extension функций вроде
withCached
, которая даёт вам возможность вызывать произвольные конвейеры обработки на датасете без необходимости несколько раз пересчитывать данные, а также без страха забыть вызвать на этих данных
unpersist
.
Kotlin Spark API добавляет возможность работать с неименованными кортжами с помощью функции
c()
. Более того, их даже можно складывать как в Python!
Посмотреть quick start с использованием Maven или Gradle можно тут:
https://github.com/JetBrains/kotlin-spark-api/blob/master/docs/quick-start-guide.mdА несколько разнообразных примеров использования тут:
https://github.com/JetBrains/kotlin-spark-api/tree/master/examples/src/main/kotlin/org/jetbrains/spark/api/examplesПопробуйте и поделитесь своим мнением с нами в канале
#kotlin-spark, или в GitHub Issues:
https://github.com/JetBrains/kotlin-spark-api/issues.