Телеграмм чат группы hadoopusers страница 1510

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

1724 membersпожаловаться на группу

2019 August 06

K

KrivdaTheTriewe in Data Engineers

case class Person(id: Long, name: String, cityId: Long)
case class City(id: Long, name: String)
val family = Seq(
  Person(0, "Agata", 0),
  Person(1, "Iweta", 0),
  Person(2, "Patryk", 2),
  Person(3, "Maksym", 0)).toDS
val cities = Seq(
  City(0, "Warsaw"),
  City(1, "Washington"),
  City(2, "Sopot")).toDS

val joined = family.joinWith(cities, family("cityId") === cities("id"))
scala> joined.printSchema
root
 |-- _1: struct (nullable = false)
 |    |-- id: long (nullable = false)
 |    |-- name: string (nullable = true)
 |    |-- cityId: long (nullable = false)
 |-- _2: struct (nullable = false)
 |    |-- id: long (nullable = false)
 |    |-- name: string (nullable = true)
scala> joined.show

источник

11:43пожаловаться #1

ПФ

Паша Финкельштейн in Data Engineers

KrivdaTheTriewe

def joinWith[U](other: Dataset[U], condition: Column, joinType: String): Dataset[(T, U)] = {

Принято. Даже тут у нас нетипизированный джойн и нетипизированный тип джойна

источник

11:44пожаловаться #2

ПФ

Паша Финкельштейн in Data Engineers

Но что дальше с этим делать?

источник

11:44пожаловаться #3

ПФ

Паша Финкельштейн in Data Engineers

Ещё раз, map - не операция за которой мне нужен датасет

источник

11:44пожаловаться #4

В

Вадим in Data Engineers

KrivdaTheTriewe

где dataframe.as[Case classs].map(x=>) не типизированный то

каст мне больше нравился. Топово же

источник

11:44пожаловаться #5

ПФ

Паша Финкельштейн in Data Engineers

Потому что вот что скала всегда умела - это apply сделать

источник

11:45пожаловаться #6

K

KrivdaTheTriewe in Data Engineers

Паша Финкельштейн

Ещё раз, map - не операция за которой мне нужен датасет

а какая же

источник

11:45пожаловаться #7

K

KrivdaTheTriewe in Data Engineers

если там весь etl происходит

источник

11:45пожаловаться #8

K

KrivdaTheTriewe in Data Engineers

def groupByKey[K](func: MapFunction[T, K], encoder: Encoder[K]): KeyValueGroupedDataset[K, T] =

источник

11:45пожаловаться #9

ПФ

Паша Финкельштейн in Data Engineers

А вот что при лефтджойне справа может быть null - это важно

источник

11:45пожаловаться #10

K

KrivdaTheTriewe in Data Engineers

map как раз таки самая основная и базовая операция

источник

11:46пожаловаться #11

ПФ

Паша Финкельштейн in Data Engineers

KrivdaTheTriewe

def groupByKey[K](func: MapFunction[T, K], encoder: Encoder[K]): KeyValueGroupedDataset[K, T] =

Правда тут нам придётся заводить энкодер для каждой отдельной группировки

источник

11:46пожаловаться #12

K

KrivdaTheTriewe in Data Engineers

он уже есть

источник

11:47пожаловаться #13

ПФ

Паша Финкельштейн in Data Engineers

Это если ты по одной колонке группируешь

источник

11:47пожаловаться #14

ПФ

Паша Финкельштейн in Data Engineers

Тебе часто надо про нескольким

источник

11:47пожаловаться #15

K

KrivdaTheTriewe in Data Engineers

ты группируешь по ключу

источник

11:48пожаловаться #16

K

KrivdaTheTriewe in Data Engineers

и прочие штуки делаешь

источник

11:48пожаловаться #17

ПФ

Паша Финкельштейн in Data Engineers

Ключ бывает композитным

источник

11:48пожаловаться #18

ПФ

Паша Финкельштейн in Data Engineers

Вот прям у нас с тобой в коде такое есть

источник

11:48пожаловаться #19

K

KrivdaTheTriewe in Data Engineers

этого я предлагаю не касаться

источник

11:48пожаловаться #20