Size: a a a

2020 November 12

NN

No Name in Data Engineers
KrivdaTheTriewe
Полно контор сча консалтеров, правда большинство что я видел под питон
Ну те же люксофт в скалу умеют, но я не то чтоб рекомендую.
источник
2020 November 13

S

Serg Slipushenko in Data Engineers
А подскажите, кто какие использует сервисы для serverless inference ML моделек?
источник

AZ

Anton Zadorozhniy in Data Engineers
зависит от размера/сложности от лямбд до нормального кубфлоу (на фаргейте, относительно но все-таки серверлесс)
источник

AT

Al T in Data Engineers
есть еще managed inference в sagemaker -не серверлесс правда ))
источник

ИК

Иван Калининский... in Data Engineers
Коллеги, подскажите как в spark 2.2+ избавиться от варнинга
The configuration key 'spark.yarn.access.namenodes' has been deprecated as of Spark 2.2 and may be removed in the future...
Все логи зафлудил
источник

NN

No Name in Data Engineers
Иван Калининский
Коллеги, подскажите как в spark 2.2+ избавиться от варнинга
The configuration key 'spark.yarn.access.namenodes' has been deprecated as of Spark 2.2 and may be removed in the future...
Все логи зафлудил
Заменить на spark.yarn.access.hadoopFileSystems
источник

ИК

Иван Калининский... in Data Engineers
No Name
Заменить на spark.yarn.access.hadoopFileSystems
Но я не указываю ни один из этих ключей в явном виде, где же можно заменить?
источник

С

Сюткин in Data Engineers
@pomadchin bot must die?
источник

GP

Grigory Pomadchin in Data Engineers
da!
источник

A

Aleksandr in Data Engineers
Всем привет. Есть два датасета, например:
A    B   C 
A1  B1   C1
A2  B2   C2
A3  B3   C3

A  D
A1 D1
A4 D4

я делаю по ним full outer join спарком по колонке "A":
first.join(second, Seq("A"), "full_outer")
Результат, очевидно, получаю вот такой:
+---+----+----+----+
|  A|   B|   C|   D|
+---+----+----+----+
| A1|  B1|  C1|  D1|
| A2|  B2|  C2|null|
| A3|  B3|  C3|null|
| A4|null|null|  D4|
+---+----+----+----+
Теперь вопрос - как спарком поизящнее сделать такой же джойн, но для каждого конкретного значения в колонке A? Или без select distinct и затем fold не получится? Пример результата:
+---+----+----+----+
|  A|   B|   C|   D|
+---+----+----+----+
| A1|  B1|  C1|  D1|
| A4|null|null|  D4|  <- full outer join A1 values with second dataset

| A1|null|null|  D1|
| A2|  B2|  C2|null|
| A4|null|null|  D4|   <- full outer join A2 values with second dataset

| A1|null|null|  D1|
| A3|  B3|  C3|null|   <- full outer join A3 values with second dataset
| A4|null|null|  D4|
+---+----+----+----+
источник

K

KrivdaTheTriewe in Data Engineers
самый красиво оформленный вопрос, который я видел в этом чате
источник

NN

No Name in Data Engineers
KrivdaTheTriewe
самый красиво оформленный вопрос, который я видел в этом чате
Будет награда в этой номинации?
источник

ИК

Иван Калининский... in Data Engineers
Aleksandr
Всем привет. Есть два датасета, например:
A    B   C 
A1  B1   C1
A2  B2   C2
A3  B3   C3

A  D
A1 D1
A4 D4

я делаю по ним full outer join спарком по колонке "A":
first.join(second, Seq("A"), "full_outer")
Результат, очевидно, получаю вот такой:
+---+----+----+----+
|  A|   B|   C|   D|
+---+----+----+----+
| A1|  B1|  C1|  D1|
| A2|  B2|  C2|null|
| A3|  B3|  C3|null|
| A4|null|null|  D4|
+---+----+----+----+
Теперь вопрос - как спарком поизящнее сделать такой же джойн, но для каждого конкретного значения в колонке A? Или без select distinct и затем fold не получится? Пример результата:
+---+----+----+----+
|  A|   B|   C|   D|
+---+----+----+----+
| A1|  B1|  C1|  D1|
| A4|null|null|  D4|  <- full outer join A1 values with second dataset

| A1|null|null|  D1|
| A2|  B2|  C2|null|
| A4|null|null|  D4|   <- full outer join A2 values with second dataset

| A1|null|null|  D1|
| A3|  B3|  C3|null|   <- full outer join A3 values with second dataset
| A4|null|null|  D4|
+---+----+----+----+
На первый взгляд это .crossJoin и coalesce на полях ключа соединения
источник

S

Serg Slipushenko in Data Engineers
Anton Zadorozhniy
зависит от размера/сложности от лямбд до нормального кубфлоу (на фаргейте, относительно но все-таки серверлесс)
Нужно бы на GPU шел инференм ) мы в GCP пробуем приспособить CloudRun, но пока лыжи едут плохо
источник

AZ

Anton Zadorozhniy in Data Engineers
KrivdaTheTriewe
самый красиво оформленный вопрос, который я видел в этом чате
еще нужно именовать таблицы и строки в них
источник

AZ

Anton Zadorozhniy in Data Engineers
Aleksandr
Всем привет. Есть два датасета, например:
A    B   C 
A1  B1   C1
A2  B2   C2
A3  B3   C3

A  D
A1 D1
A4 D4

я делаю по ним full outer join спарком по колонке "A":
first.join(second, Seq("A"), "full_outer")
Результат, очевидно, получаю вот такой:
+---+----+----+----+
|  A|   B|   C|   D|
+---+----+----+----+
| A1|  B1|  C1|  D1|
| A2|  B2|  C2|null|
| A3|  B3|  C3|null|
| A4|null|null|  D4|
+---+----+----+----+
Теперь вопрос - как спарком поизящнее сделать такой же джойн, но для каждого конкретного значения в колонке A? Или без select distinct и затем fold не получится? Пример результата:
+---+----+----+----+
|  A|   B|   C|   D|
+---+----+----+----+
| A1|  B1|  C1|  D1|
| A4|null|null|  D4|  <- full outer join A1 values with second dataset

| A1|null|null|  D1|
| A2|  B2|  C2|null|
| A4|null|null|  D4|   <- full outer join A2 values with second dataset

| A1|null|null|  D1|
| A3|  B3|  C3|null|   <- full outer join A3 values with second dataset
| A4|null|null|  D4|
+---+----+----+----+
а вот эта строка по какой логике получается, и почему их две?
| A1|null|null|  D1|
источник

A

Aleksandr in Data Engineers
Anton Zadorozhniy
а вот эта строка по какой логике получается, и почему их две?
| A1|null|null|  D1|
их две, потому что мы делаем full_outer по A2(из левого датасета), а затем A3 (из левого датасета). В этих двух случаях первая строка из левого датасета ни с чем не сджойнилась.
источник

ИК

Иван Калининский... in Data Engineers
Anton Zadorozhniy
а вот эта строка по какой логике получается, и почему их две?
| A1|null|null|  D1|
Во-первых, их три, во-вторых это строка из второго датасета, которая нашла себе пару только в одном случае
источник

A

Aleksandr in Data Engineers
Иван Калининский
Во-первых, их три, во-вторых это строка из второго датасета, которая нашла себе пару только в одном случае
+
источник

AZ

Anton Zadorozhniy in Data Engineers
Serg Slipushenko
Нужно бы на GPU шел инференм ) мы в GCP пробуем приспособить CloudRun, но пока лыжи едут плохо
first party serverless GPU насколько мне известно нет, но в известном смысле serverless это просто финансовая модель, думаю CloudRun ваш лучший выбор сейчас
источник