мы используем PrestoSQL 344 (Java 11), Hadoop 3.1.1, вроде все ок в престо используется клиент хадупа 3.2.0 есть только проблема с данными в erasure coding, но это баг hdfs client https://github.com/prestosql/presto/issues/6413
Скажите что вызывает такие чувства боли в моем вопросе ? )) Может есть грабли которые не замечаю ? Почему отказываются от такого подхода?
Не то чтобы отказываются, скорее проходят путь заново, но с использованием открытых фреймворков; графических DSL и единых метаданных в этих фреймворка ещё нет (хотя конкретные команды часто реализуют хороший сбор метаданных), но в остальном получается неплохо
Скажите что вызывает такие чувства боли в моем вопросе ? )) Может есть грабли которые не замечаю ? Почему отказываются от такого подхода?
По поводу Информатики- очень часто на больших базах она сама выступает лишь как оркестратор и дергает хранимки или делает pushdown. Так, что она становиться дорогим оркестратор и тогда возникает вопрос - зачем переплачивать
По моему в цеппелине %interpretor(prefix) используется того чтобы обращаться к разным конфигурациям интерпретатора, вроде %hive(prod) и %hive(dr); но для спарка не помню такой фичи
Кто нибудь расширял класс SparkSession добавляя туда собственные функции (методы), взаимодействующие с созданным контекстом, чтобы можно было делать spark.my_func() ?
Кто нибудь расширял класс SparkSession добавляя туда собственные функции (методы), взаимодействующие с созданным контекстом, чтобы можно было делать spark.my_func() ?
В общем, есть паттерн pimp my library в scala, можно так делать, если интересует какое-то расширение, не затрагивающее внутреннюю реализацию класса
Может я уже тут спрашивал, но может есть какая-то тула которая может ковертировать скрипт на Presto SQL в Spark SQL?
Помню, был похожий вопрос в инженерском чате, я советовал толковых джунов в качестве такой тулы))
Другого варианта у меня не появилось, довольно специфичная проблема, обычно, если кто пользуется Spark/Presto, то сами портируют, если возникает необходимость
Помню, был похожий вопрос в инженерском чате, я советовал толковых джунов в качестве такой тулы))
Другого варианта у меня не появилось, довольно специфичная проблема, обычно, если кто пользуется Spark/Presto, то сами портируют, если возникает необходимость
Это возможно я и был, потому что я помню похожий ответ)
Я на питоне, например я хочу добавить некий метод qwe, который бы внутри себя делал spark.sql(describe formatted таблица)+ вытащить поле location, где spark - это уже созданный контекст и вернуть строку с полным hdfs путем таблицы