Size: a a a

2020 January 26

AS

Andrey Smirnov in Data Engineers
про профилирование, интересно увидеть пример когда это может быть полезно при работе со спарком, он же выполняет >95% работы, надо постараться так замедлить его работу своим кодом, чтобы к профилированию прибегать.
источник

A

Alex in Data Engineers
95% это если у вас простейших пару вызовов датафреймов

когда вагон библиотек то все равно основная часть будет сидеть в вашем коде
конечно многие не парятся и дают x2 экзекуторов, но не всегда это спасёт, да и не всегда этих x2 можно дать
источник

AE

Alexey Evdokimov in Data Engineers
ну вот вы сами всё выяснили :)
источник

GP

Grigory Pomadchin in Data Engineers
Alexey Evdokimov
ну вот вы сами всё выяснили :)
чем профилировать жаву лучше не выяснили))
источник

AE

Alexey Evdokimov in Data Engineers
да, это открытый вопрос. я тоже не знаю. частенько получается методом такой-то матери на тестовом датасете на тестовом кластере
источник

AE

Alexey Evdokimov in Data Engineers
вообще, есть такая противная проблема сейчас. амазон со своим спарком начиная с емр 5.24 начал делать какую-то фигню. как они пишут, "оптимизацию". некоторые из наших модулей стали работать нестабильно. на ваниле и всех версиях до 5.23 включительно всё ок, а с более новыми тот же код может свалиться на ровном месте. сидим на 5.23 сейчас в итоге. как раскопать, что там творится — не совсем понятно.
источник

AS

Andrey Smirnov in Data Engineers
Alex
95% это если у вас простейших пару вызовов датафреймов

когда вагон библиотек то все равно основная часть будет сидеть в вашем коде
конечно многие не парятся и дают x2 экзекуторов, но не всегда это спасёт, да и не всегда этих x2 можно дать
а где вы вызываете этот вагон библиотек, и чем профилируете код?
источник

A

Alex in Data Engineers
всего хватает, начиная обычной логики, заканчивая хуками на datalineage

в данный момент этим не занимаюсь, но когда привлекают то обычный треддамп на воркере превращается в $1$2$zdf$map
и без того чтобы не посидеть порядочно в попытках это размепить на код нельзя ничего сказать
источник

A

Alex in Data Engineers
Alexey Evdokimov
вообще, есть такая противная проблема сейчас. амазон со своим спарком начиная с емр 5.24 начал делать какую-то фигню. как они пишут, "оптимизацию". некоторые из наших модулей стали работать нестабильно. на ваниле и всех версиях до 5.23 включительно всё ок, а с более новыми тот же код может свалиться на ровном месте. сидим на 5.23 сейчас в итоге. как раскопать, что там творится — не совсем понятно.
они же код не предоставляют, поэтому “что творится” теперь сложно сказать
источник

A

Alex in Data Engineers
можно выкачать их jar и в декомпайлер скормить, но опять же, джава декомпайлеры ещё более-менее, а скала это ад…
источник

AE

Alexey Evdokimov in Data Engineers
именно.

насчёт своего кода я могу быть уверен. локально его погонять с любой инструментовкой, но его поведение получается сильно зависит от окружения
источник

AE

Alexey Evdokimov in Data Engineers
над которым никакого контроля нет, и инструментовать его почти невозможно
источник

ДД

Дмитрий Демитов in Data Engineers
Люди добрые подскажите неучу, как лучше сделать вэб форму что бы файлы в хдфс грузить на защищённом керберос кластере HDP?
источник

RI

Rustam Iksanov in Data Engineers
Дмитрий Демитов
Люди добрые подскажите неучу, как лучше сделать вэб форму что бы файлы в хдфс грузить на защищённом керберос кластере HDP?
Hue вам в помощь
источник

A

Andrey in Data Engineers
Сразу на hue послали
источник

S

Stanislav in Data Engineers
Дмитрий Демитов
Люди добрые подскажите неучу, как лучше сделать вэб форму что бы файлы в хдфс грузить на защищённом керберос кластере HDP?
Так Knox же
источник

DM

David Manukian in Data Engineers
Не могу понять как такое вообще возможно, значит есть у меня простой csv файлик, хочу его загрузить через "load data inpath..." в таблицу которая создана как "ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE", после загрузки файла делаю селект таблицы и вижу что все ок кроме 1ой колонки, самой последней, причем частично, последняя колонка это дата в виде строки. Никто не сталкивался с таким розыгрышем?))
источник

S

Sergey in Data Engineers
В кто-нибудь из Flink работал с HBase? Не разберусь как конфиг подсовывать..
источник

S

Stanislav in Data Engineers
David Manukian
Не могу понять как такое вообще возможно, значит есть у меня простой csv файлик, хочу его загрузить через "load data inpath..." в таблицу которая создана как "ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE", после загрузки файла делаю селект таблицы и вижу что все ок кроме 1ой колонки, самой последней, причем частично, последняя колонка это дата в виде строки. Никто не сталкивался с таким розыгрышем?))
Цсв - это всегда боль с разделителя и эскейпами
источник

DM

David Manukian in Data Engineers
@barloc да в целом то все ок, кроме последней колонки, интересно, такое вообще бывало у кого-то?)
источник