Телеграмм чат группы hadoopusers страница 3090

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

2172 membersпожаловаться на группу

2020 December 23

ДА

Денис Ананьев... in Data Engineers

мы используем PrestoSQL 344 (Java 11), Hadoop 3.1.1, вроде все ок
в престо используется клиент хадупа 3.2.0
есть только проблема с данными в erasure coding, но это баг hdfs client
https://github.com/prestosql/presto/issues/6413

"HadoopIllegalArgumentException: Invalid buffer, not of length X" when querying Hive erasure coding tables · Issue #6413 · prestosql/presto

Hello! Our current Presto version is 344 but possibly it should be relevant to the latest version too. We have Hive tables with HDFS erasure coding enabled. If some datanode with EC blocks is unava...

источник

11:15пожаловаться #1

AZ

Anton Zadorozhniy in Data Engineers

Скажите что вызывает такие чувства боли в моем вопросе ? )) Может есть грабли которые не замечаю ? Почему отказываются от такого подхода?

Не то чтобы отказываются, скорее проходят путь заново, но с использованием открытых фреймворков; графических DSL и единых метаданных в этих фреймворка ещё нет (хотя конкретные команды часто реализуют хороший сбор метаданных), но в остальном получается неплохо

источник

12:11пожаловаться #2

A

Aleksey in Data Engineers

Скажите что вызывает такие чувства боли в моем вопросе ? )) Может есть грабли которые не замечаю ? Почему отказываются от такого подхода?

По поводу Информатики- очень часто на больших базах она сама выступает лишь как оркестратор и дергает хранимки или делает pushdown. Так, что она становиться дорогим оркестратор и тогда возникает вопрос - зачем переплачивать

источник

12:18пожаловаться #3

АА

Алексей Артамонов... in Data Engineers

а подскажите плиз

источник

12:24пожаловаться #4

АА

Алексей Артамонов... in Data Engineers

в зеппелине %spark(hive)

источник

12:24пожаловаться #5

АА

Алексей Артамонов... in Data Engineers

что есть hive?

источник

12:25пожаловаться #6

M

Mi in Data Engineers

Алексей Артамонов

в зеппелине %spark(hive)

возможно это спарк sql который работает с hive метастором

источник

12:25пожаловаться #7

АА

Алексей Артамонов... in Data Engineers

хотелось бы понять как оно работает)

источник

12:39пожаловаться #8

AZ

Anton Zadorozhniy in Data Engineers

Алексей Артамонов

в зеппелине %spark(hive)

По моему в цеппелине %interpretor(prefix) используется того чтобы обращаться к разным конфигурациям интерпретатора, вроде %hive(prod) и %hive(dr); но для спарка не помню такой фичи

источник

12:48пожаловаться #9

N

Nikita Blagodarnyy in Data Engineers

Андрей Жуков

можно хакнуть оператор и билдить жарники в рантайме

А можно не хакать и скармливать ливи оператору скала код прямо из дага. Решение днищенское, но рабочее.

источник

13:45пожаловаться #10

ME

Max Efremov in Data Engineers

Можно вообще по рест апи с ливи работать из питон оператора)

источник

13:47пожаловаться #11

АС

Артур Семенов... in Data Engineers

Кто нибудь расширял класс SparkSession добавляя туда собственные функции (методы), взаимодействующие с созданным контекстом, чтобы можно было делать
spark.my_func()
?

источник

13:59пожаловаться #12

АЖ

Андрей Жуков... in Data Engineers

Nikita Blagodarnyy

А можно не хакать и скармливать ливи оператору скала код прямо из дага. Решение днищенское, но рабочее.

жоска

источник

14:00пожаловаться #13

M

Mi in Data Engineers

Может я уже тут спрашивал, но может есть какая-то тула которая может ковертировать скрипт на Presto SQL в Spark SQL?

источник

14:02пожаловаться #14

M

Mi in Data Engineers

именно синтаксически

источник

14:02пожаловаться #15

ИК

Иван Калининский... in Data Engineers

Артур Семенов

Кто нибудь расширял класс SparkSession добавляя туда собственные функции (методы), взаимодействующие с созданным контекстом, чтобы можно было делать
spark.my_func()
?

В общем, есть паттерн pimp my library в scala, можно так делать, если интересует какое-то расширение, не затрагивающее внутреннюю реализацию класса

Если хочется вмешаться в парсер/план/выполнение, то надо пользоваться расширениями сессии (SparkSessionExtensions)
https://spark.apache.org/docs/2.3.0/api/java/org/apache/spark/sql/SparkSessionExtensions.html

Что из этого надо?

источник

14:04пожаловаться #16

ИК

Иван Калининский... in Data Engineers

Может я уже тут спрашивал, но может есть какая-то тула которая может ковертировать скрипт на Presto SQL в Spark SQL?

Помню, был похожий вопрос в инженерском чате, я советовал толковых джунов в качестве такой тулы))

Другого варианта у меня не появилось, довольно специфичная проблема, обычно, если кто пользуется Spark/Presto, то сами портируют, если возникает необходимость

источник

14:07пожаловаться #17

M

Mi in Data Engineers

Иван Калининский

Помню, был похожий вопрос в инженерском чате, я советовал толковых джунов в качестве такой тулы))

Другого варианта у меня не появилось, довольно специфичная проблема, обычно, если кто пользуется Spark/Presto, то сами портируют, если возникает необходимость

Это возможно я и был, потому что я помню похожий ответ)

источник

14:08пожаловаться #18

АС

Артур Семенов... in Data Engineers

Иван Калининский

В общем, есть паттерн pimp my library в scala, можно так делать, если интересует какое-то расширение, не затрагивающее внутреннюю реализацию класса

Если хочется вмешаться в парсер/план/выполнение, то надо пользоваться расширениями сессии (SparkSessionExtensions)
https://spark.apache.org/docs/2.3.0/api/java/org/apache/spark/sql/SparkSessionExtensions.html

Что из этого надо?

Я на питоне, например я хочу добавить некий метод qwe, который бы внутри себя делал spark.sql(describe formatted таблица)+ вытащить поле location, где spark - это уже созданный контекст и вернуть строку с полным hdfs путем таблицы

источник

14:08пожаловаться #19

M

Mi in Data Engineers

Тут просто самописная тула которая использует престо запросы, и хочется запилить дополнительный Спарк движок под капотом

источник

14:08пожаловаться #20