Телеграмм чат группы hadoopusers страница 1535

23:37пожаловаться #1

ЕГ

Евгений Глотов in Data Engineers

Renarde

такое не сработало, создало отдельную колонку рядом с названием “col.subcol”(

обидно😐

23:37пожаловаться #2

R

в моем случае коробка именно из этого и состоит)

23:37пожаловаться #3

R

но там тоже это удобно не сделать(

23:37пожаловаться #4

R

а вотт в самом спарке можно вот так, кстати - и положит результат куда надо на глубину:

df
.withColumn("udfResult",myUDF($"foo.baz"))
.withColumn("foo",struct($"foo.*",$"udfResult"))
.drop($"udfResult")

23:40пожаловаться #5

ЕГ

Евгений Глотов in Data Engineers

ну только udfresult должен каким-то образом назваться baz

23:42пожаловаться #6

R

а там не принципиально, я приблизительно так сделал - делаю дважды эксплоуд (у меня дважды вложенная структура), по вытащенному полю применяю функцию и потом обратно его в структуру запихиваю

23:58пожаловаться #7

R

выглядит конечно жутко, но для разовой задачки хватает

circe: Traversing and modifying JSON

23:59пожаловаться #8

2019 August 09

DM

Daniel Matveev in Data Engineers

Renarde

Cап чатик. вопрос по работе с вложенными структурами в спарке (Scala / SQL). Что хочется сделать - применить функцию к полю в глубине вложенной структуры, не меняя самой структуры. Скажем у меня есть поле transactions, внутри него массив со словарями, и вот к одному из параметров у элементов этого массива я хочу применить функцию (скажем, возведение в квадрат). Как такое делается?

Вообще такое решается оптиками, для кейс классов полно либ (самый популярный монокль).

Но так там джсон и структуры наверняка физически не нащупать, то либо десериализовать сначала, либо курсор (https://circe.github.io/circe/cursors.html)

circe

A JSON library for Scala powered by Cats

06:42пожаловаться #9

C

Combot in Data Engineers

Yabsruti756 Mahsil has been banned! Reason: CAS ban.

08:10пожаловаться #10

C

Combot in Data Engineers

Telegram has been banned! Reason: CAS ban.

09:03пожаловаться #11

t

Renarde

Cап чатик. вопрос по работе с вложенными структурами в спарке (Scala / SQL). Что хочется сделать - применить функцию к полю в глубине вложенной структуры, не меняя самой структуры. Скажем у меня есть поле transactions, внутри него массив со словарями, и вот к одному из параметров у элементов этого массива я хочу применить функцию (скажем, возведение в квадрат). Как такое делается?

бггггггг

09:18пожаловаться #12

t

sticker.webp

(13.5 Кб)

09:18пожаловаться #13

t

вселенская боль с этими вложенностями в спарке

09:18пожаловаться #14

C

Combot in Data Engineers

Telegram has been banned! Reason: CAS ban.

09:41пожаловаться #15

t

Вообще, единого способа удобно работать с вложенностями нет. Но есть ряд механизмов, которые можно удобно совмещать:
1) До любого вложенного поля (включая элемент массива) можно добраться с помощью конструкции типа $"foo.bar.zoo".getItem(2).getField("moo").getField("boo")
2) Если речь не идет о массивах, то вложенное поле можно изменить вышеуказанным методом и затем пересобрать всю структуру с помощью struct() и col()
3) в последних версиях spark появилось достаточно много функций для работы с массивами. Например, можно прямо на датафреймах зипнуть два массивных поля и получить массив структур из этого
4) конечно же UDF. Тут важно помнить, что: а) массив в UDF - это Seq, а структура - это Row. То есть чтобы работать в UDF с массивом структур мы используем Seq[Row] б) Row может быть быть null, ее для удобство можно завернуть в Option(row), тогда не так больно и также Row может не иметь тех полей, на которые ты расчитываешь - это все стоит предусмотеть

10:15пожаловаться #16

R

ну я в итоге скомбириновал спарковский struct и transform от датабрикса - получилось то что нужно

10:19пожаловаться #17

EN

Eldar Nezametdinov in Data Engineers

Инженеры!
Подскажите, вкратце,
есть потребность запустить spark2 (2.3.2+) джобы через spark-submit
на hdp 2.6.5 (где сейчас spark2.2)
Еще требования: hive, hbase коннекторы должны работать...
Какие действия надо проделать? Плохо как-то гуглится(

13:20пожаловаться #18

AZ

Anton Zadorozhniy in Data Engineers

Eldar Nezametdinov

Инженеры!
Подскажите, вкратце,
есть потребность запустить spark2 (2.3.2+) джобы через spark-submit
на hdp 2.6.5 (где сейчас spark2.2)
Еще требования: hive, hbase коннекторы должны работать...
Какие действия надо проделать? Плохо как-то гуглится(

1) принести дистрибутив на клиентскую машину
2) указать на директории с конфигурациями вашего кластера
3) запустить спарк сабмит из нужной версии

Андрей Жуков in Data Engineers

13:23пожаловаться #19

АЖ

(еще надо бы поднять 2.3.2)