Телеграмм чат группы hadoopusers страница 2956

Коллеги, подскажите как в spark 2.2+ избавиться от варнинга
The configuration key 'spark.yarn.access.namenodes' has been deprecated as of Spark 2.2 and may be removed in the future...
Все логи зафлудил

источник

15:06пожаловаться #5

No Name in Data Engineers

Иван Калининский

Заменить на spark.yarn.access.hadoopFileSystems

источник

15:27пожаловаться #6

ИК

Иван Калининский... in Data Engineers

No Name

Заменить на spark.yarn.access.hadoopFileSystems

Но я не указываю ни один из этих ключей в явном виде, где же можно заменить?

источник

15:29пожаловаться #7

Сюткин in Data Engineers

@pomadchin bot must die?

источник

15:30пожаловаться #8

Grigory Pomadchin in Data Engineers

da!

источник

15:30пожаловаться #9

Aleksandr in Data Engineers

Всем привет. Есть два датасета, например:

A    B   C 
A1  B1   C1
A2  B2   C2
A3  B3   C3

A  D
A1 D1
A4 D4

я делаю по ним full outer join спарком по колонке "A":

first.join(second, Seq("A"), "full_outer")

Результат, очевидно, получаю вот такой:

+---+----+----+----+
|  A|   B|   C|   D|
+---+----+----+----+
| A1|  B1|  C1|  D1|
| A2|  B2|  C2|null|
| A3|  B3|  C3|null|
| A4|null|null|  D4|
+---+----+----+----+

Теперь вопрос - как спарком поизящнее сделать такой же джойн, но для каждого конкретного значения в колонке A? Или без select distinct и затем fold не получится? Пример результата:

+---+----+----+----+
|  A|   B|   C|   D|
+---+----+----+----+
| A1|  B1|  C1|  D1|
| A4|null|null|  D4|  <- full outer join A1 values with second dataset

| A1|null|null|  D1|
| A2|  B2|  C2|null|
| A4|null|null|  D4|   <- full outer join A2 values with second dataset

| A1|null|null|  D1|
| A3|  B3|  C3|null|   <- full outer join A3 values with second dataset
| A4|null|null|  D4|
+---+----+----+----+

источник

16:20пожаловаться #10

KrivdaTheTriewe in Data Engineers

самый красиво оформленный вопрос, который я видел в этом чате

источник

16:21пожаловаться #11

No Name in Data Engineers

KrivdaTheTriewe

самый красиво оформленный вопрос, который я видел в этом чате

Будет награда в этой номинации?

источник

16:33пожаловаться #12

ИК

Иван Калининский... in Data Engineers

Aleksandr

Всем привет. Есть два датасета, например:

A    B   C 
A1  B1   C1
A2  B2   C2
A3  B3   C3

A  D
A1 D1
A4 D4

я делаю по ним full outer join спарком по колонке "A":

first.join(second, Seq("A"), "full_outer")

Результат, очевидно, получаю вот такой:

+---+----+----+----+
|  A|   B|   C|   D|
+---+----+----+----+
| A1|  B1|  C1|  D1|
| A2|  B2|  C2|null|
| A3|  B3|  C3|null|
| A4|null|null|  D4|
+---+----+----+----+

+---+----+----+----+
|  A|   B|   C|   D|
+---+----+----+----+
| A1|  B1|  C1|  D1|
| A4|null|null|  D4|  <- full outer join A1 values with second dataset

| A1|null|null|  D1|
| A2|  B2|  C2|null|
| A4|null|null|  D4|   <- full outer join A2 values with second dataset

| A1|null|null|  D1|
| A3|  B3|  C3|null|   <- full outer join A3 values with second dataset
| A4|null|null|  D4|
+---+----+----+----+

На первый взгляд это .crossJoin и coalesce на полях ключа соединения

источник

16:34пожаловаться #13

Serg Slipushenko in Data Engineers

Anton Zadorozhniy

Нужно бы на GPU шел инференм ) мы в GCP пробуем приспособить CloudRun, но пока лыжи едут плохо

источник

16:36пожаловаться #14

Anton Zadorozhniy in Data Engineers

KrivdaTheTriewe

самый красиво оформленный вопрос, который я видел в этом чате

еще нужно именовать таблицы и строки в них

источник

16:36пожаловаться #15

Anton Zadorozhniy in Data Engineers

Aleksandr

Всем привет. Есть два датасета, например:

A    B   C 
A1  B1   C1
A2  B2   C2
A3  B3   C3

A  D
A1 D1
A4 D4

я делаю по ним full outer join спарком по колонке "A":

first.join(second, Seq("A"), "full_outer")

Результат, очевидно, получаю вот такой:

+---+----+----+----+
|  A|   B|   C|   D|
+---+----+----+----+
| A1|  B1|  C1|  D1|
| A2|  B2|  C2|null|
| A3|  B3|  C3|null|
| A4|null|null|  D4|
+---+----+----+----+

+---+----+----+----+
|  A|   B|   C|   D|
+---+----+----+----+
| A1|  B1|  C1|  D1|
| A4|null|null|  D4|  <- full outer join A1 values with second dataset

| A1|null|null|  D1|
| A2|  B2|  C2|null|
| A4|null|null|  D4|   <- full outer join A2 values with second dataset

| A1|null|null|  D1|
| A3|  B3|  C3|null|   <- full outer join A3 values with second dataset
| A4|null|null|  D4|
+---+----+----+----+

источник

16:37пожаловаться #16

Aleksandr in Data Engineers

Anton Zadorozhniy

их две, потому что мы делаем full_outer по A2(из левого датасета), а затем A3 (из левого датасета). В этих двух случаях первая строка из левого датасета ни с чем не сджойнилась.

источник

16:40пожаловаться #17

ИК

Иван Калининский... in Data Engineers

Anton Zadorozhniy

Во-первых, их три, во-вторых это строка из второго датасета, которая нашла себе пару только в одном случае

источник

16:41пожаловаться #18

Aleksandr in Data Engineers

Иван Калининский

Во-первых, их три, во-вторых это строка из второго датасета, которая нашла себе пару только в одном случае

источник

16:41пожаловаться #19

Anton Zadorozhniy in Data Engineers

Serg Slipushenko

Нужно бы на GPU шел инференм ) мы в GCP пробуем приспособить CloudRun, но пока лыжи едут плохо

first party serverless GPU насколько мне известно нет, но в известном смысле serverless это просто финансовая модель, думаю CloudRun ваш лучший выбор сейчас

источник

16:41пожаловаться #20