Size: a a a

2019 September 11

РА

Рамиль Ахмадеев in Data Engineers
а так это спарк в кубике
источник

РА

Рамиль Ахмадеев in Data Engineers
тогда ясно
источник

РА

Рамиль Ахмадеев in Data Engineers
у меня такое было когда куб днс не работал корректно
источник

В

Влад in Data Engineers
Grigory Pomadchin
у меня такое ощущение, что @vladkarasyov год назад тоже самое спрашивал
Да, потом все заработало и было нормально.

Но теперь воркеры не видят мастера
источник

VE

Vladimir Elfimov in Data Engineers
Ребят а у кого то был опыт работы с pyarrow? Сейчас пытался загрузить с помощью с неё файл в hdfs, в итоге файл просто пустой. Если просто hdfs dfs put тот же файл - все нормально.
Загружаю вот так:
import pyarrow as pa
fs = pa.hdfs.connect()
with open(‘settings.xml’) as f:
pa.hdfs.HadoopFileSystem.upload(fs, ‘/datalake/settings.xml’, f)
источник

ЕГ

Евгений Глотов in Data Engineers
Можно вроде просто fs.upload
источник

ЕГ

Евгений Глотов in Data Engineers
Опен в режиме rb
источник

ЕГ

Евгений Глотов in Data Engineers
Может поможет, у меня тоже что-то такое было, по-моему
источник

VE

Vladimir Elfimov in Data Engineers
Евгений Глотов
Может поможет, у меня тоже что-то такое было, по-моему
Помогло, спасибо!)
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikolay Troshnev
Ок. А куда в основном?
ну для загрузки данных у некоторых остался нафаня, для кейса «файлопомойка в даталейк», а так для загрузки какие-нибудь кафка коннекты или адаптеры, для пайплайнов все обычное - узи, эйрфлоу, или энтерпрайзный ETL
источник

AZ

Anton Zadorozhniy in Data Engineers
родовая травма кайла была завязка на нафаню, который что угодно только не удачный инструмент оркестрации джобов, а спонсора для развязки движка метаданных с нафаней нам найти не удалось
источник

AZ

Anton Zadorozhniy in Data Engineers
в этом смысле ниша «акселератора» когда есть простенький движок метаданных для генерации сквозной связки (загрузка, базовое профилирование, курирование) и она работает на подходящих компонентах - остается пустой, дерзайте))
источник

IG

Ivan Gagarkin in Data Engineers
Ребят, кто-нибудь сталкивался парсингом жсона через Spark SQL? Необходимо распарсить жсон, который хранит внутри себя массив. Распарсить надо именно через SQL, без кода на жаве/скале. В интернетах нашел только через костыль в виде сплита по "},{", ну а дальше в массив и explode.
источник

ЕГ

Евгений Глотов in Data Engineers
А эксплоуд это типа чистый эскуэль?
источник

ПФ

Паша Финкельштейн in Data Engineers
Ivan Gagarkin
Ребят, кто-нибудь сталкивался парсингом жсона через Spark SQL? Необходимо распарсить жсон, который хранит внутри себя массив. Распарсить надо именно через SQL, без кода на жаве/скале. В интернетах нашел только через костыль в виде сплита по "},{", ну а дальше в массив и explode.
А свои udf можно?
источник

IG

Ivan Gagarkin in Data Engineers
если бы было можно, то было бы неинтересно )
источник

IG

Ivan Gagarkin in Data Engineers
LATERAL VIEW explode(from_json(concat('{"jsons":',get_json_object(value, '$.array'), '}'), 'jsons array<string>').jsons) t AS json
источник

DZ

Dmitry Zuev in Data Engineers
from_json?
источник

IG

Ivan Gagarkin in Data Engineers
ага, сделаль
источник

GP

Grigory Pomadchin in Data Engineers
Ivan Gagarkin
LATERAL VIEW explode(from_json(concat('{"jsons":',get_json_object(value, '$.array'), '}'), 'jsons array<string>').jsons) t AS json
ты можешь врапать код как маркдаун в \``` \n тут код \```
источник