Size: a a a

2020 December 23

ДА

Денис Ананьев... in Data Engineers
мы используем PrestoSQL 344 (Java 11), Hadoop 3.1.1, вроде все ок
в престо используется клиент хадупа 3.2.0
есть только проблема с данными в erasure coding, но это баг hdfs client
https://github.com/prestosql/presto/issues/6413
источник

AZ

Anton Zadorozhniy in Data Engineers
er@essbase.ru
Скажите что вызывает такие чувства боли в моем вопросе ? ))  Может есть грабли которые не замечаю ? Почему отказываются от такого подхода?
Не то чтобы отказываются, скорее проходят путь заново, но с использованием открытых фреймворков; графических DSL и единых метаданных в этих фреймворка ещё нет (хотя конкретные команды часто реализуют хороший сбор метаданных), но в остальном получается неплохо
источник

A

Aleksey in Data Engineers
er@essbase.ru
Скажите что вызывает такие чувства боли в моем вопросе ? ))  Может есть грабли которые не замечаю ? Почему отказываются от такого подхода?
По поводу Информатики- очень часто на больших базах она сама выступает лишь как оркестратор и дергает хранимки или делает pushdown. Так, что она становиться дорогим оркестратор и тогда возникает вопрос - зачем переплачивать
источник

АА

Алексей Артамонов... in Data Engineers
а подскажите плиз
источник

АА

Алексей Артамонов... in Data Engineers
в зеппелине %spark(hive)
источник

АА

Алексей Артамонов... in Data Engineers
что есть hive?
источник

M

Mi in Data Engineers
Алексей Артамонов
в зеппелине %spark(hive)
возможно это спарк sql который работает с hive метастором
источник

АА

Алексей Артамонов... in Data Engineers
хотелось бы понять как оно работает)
источник

AZ

Anton Zadorozhniy in Data Engineers
Алексей Артамонов
в зеппелине %spark(hive)
По моему в цеппелине %interpretor(prefix) используется того чтобы обращаться к разным конфигурациям интерпретатора, вроде %hive(prod) и %hive(dr); но для спарка не помню такой фичи
источник

N

Nikita Blagodarnyy in Data Engineers
Андрей Жуков
можно хакнуть оператор и билдить жарники в рантайме
А можно не хакать и скармливать ливи оператору скала код прямо из дага. Решение днищенское, но рабочее.
источник

ME

Max Efremov in Data Engineers
Можно вообще по рест апи с ливи работать из питон оператора)
источник

АС

Артур Семенов... in Data Engineers
Кто нибудь расширял класс SparkSession добавляя туда собственные функции (методы), взаимодействующие с созданным контекстом, чтобы можно было делать
spark.my_func()
?
источник

АЖ

Андрей Жуков... in Data Engineers
Nikita Blagodarnyy
А можно не хакать и скармливать ливи оператору скала код прямо из дага. Решение днищенское, но рабочее.
жоска
источник

M

Mi in Data Engineers
Может я уже тут спрашивал, но может есть какая-то тула которая может ковертировать скрипт на Presto SQL в Spark SQL?
источник

M

Mi in Data Engineers
именно синтаксически
источник

ИК

Иван Калининский... in Data Engineers
Артур Семенов
Кто нибудь расширял класс SparkSession добавляя туда собственные функции (методы), взаимодействующие с созданным контекстом, чтобы можно было делать
spark.my_func()
?
В общем, есть паттерн pimp my library в scala, можно так делать, если интересует какое-то расширение, не затрагивающее внутреннюю реализацию класса

Если хочется вмешаться в парсер/план/выполнение, то надо пользоваться расширениями сессии (SparkSessionExtensions)
https://spark.apache.org/docs/2.3.0/api/java/org/apache/spark/sql/SparkSessionExtensions.html

Что из этого надо?
источник

ИК

Иван Калининский... in Data Engineers
Mi
Может я уже тут спрашивал, но может есть какая-то тула которая может ковертировать скрипт на Presto SQL в Spark SQL?
Помню, был похожий вопрос в инженерском чате, я советовал толковых джунов в качестве такой тулы))

Другого варианта у меня не появилось, довольно специфичная проблема, обычно, если кто пользуется Spark/Presto, то сами портируют, если возникает необходимость
источник

M

Mi in Data Engineers
Иван Калининский
Помню, был похожий вопрос в инженерском чате, я советовал толковых джунов в качестве такой тулы))

Другого варианта у меня не появилось, довольно специфичная проблема, обычно, если кто пользуется Spark/Presto, то сами портируют, если возникает необходимость
Это возможно я и был, потому что я помню похожий ответ)
источник

АС

Артур Семенов... in Data Engineers
Иван Калининский
В общем, есть паттерн pimp my library в scala, можно так делать, если интересует какое-то расширение, не затрагивающее внутреннюю реализацию класса

Если хочется вмешаться в парсер/план/выполнение, то надо пользоваться расширениями сессии (SparkSessionExtensions)
https://spark.apache.org/docs/2.3.0/api/java/org/apache/spark/sql/SparkSessionExtensions.html

Что из этого надо?
Я на питоне, например я хочу добавить некий метод qwe, который бы внутри себя делал spark.sql(describe formatted таблица)+ вытащить поле location, где spark - это уже созданный контекст и вернуть строку с полным hdfs путем таблицы
источник

M

Mi in Data Engineers
Тут просто самописная тула которая использует престо запросы, и хочется запилить дополнительный Спарк движок под капотом
источник