Size: a a a

2019 August 06

ПФ

Паша Финкельштейн in Data Engineers
Отлично сейчас было )))
источник

ПФ

Паша Финкельштейн in Data Engineers
А вот тут мы забываем про то что иногда надо что-то, что не предусмотрено апи и апи становится идеальным
источник

ПФ

Паша Финкельштейн in Data Engineers
Эксплоуд тоже нетипизированный
источник

ПФ

Паша Финкельштейн in Data Engineers
Хотя мог бы!
источник

ПФ

Паша Финкельштейн in Data Engineers
Если идти таким путём - энкодер придётся реально заводить на каждый шаг преобразований
источник

ПФ

Паша Финкельштейн in Data Engineers
А вот в spark sql этого как-то не надо
источник

ПФ

Паша Финкельштейн in Data Engineers
И, блин, на каждом шагу надо работать с нетипизированными колонками
источник

ПФ

Паша Финкельштейн in Data Engineers
Как мы с этим боремся? Заводим object с названием полей!
источник

AZ

Anton Zadorozhniy in Data Engineers
Dataset API?
источник

K

KrivdaTheTriewe in Data Engineers
Паша Финкельштейн
И, блин, на каждом шагу надо работать с нетипизированными колонками
Да не нужно с ними работать , нужно описать только case class и в корнер кейсах поставить имена колонок при джойнах, все основное преобразование делается в map
источник

ПФ

Паша Финкельштейн in Data Engineers
KrivdaTheTriewe
Да не нужно с ними работать , нужно описать только case class и в корнер кейсах поставить имена колонок при джойнах, все основное преобразование делается в map
А в agg надо имена колонок использовать?
источник

ПФ

Паша Финкельштейн in Data Engineers
А в sortby?
источник

K

KrivdaTheTriewe in Data Engineers
Паша Финкельштейн
А в agg надо имена колонок использовать?
Я не знаю какие агрегации нужны
источник

K

KrivdaTheTriewe in Data Engineers
Возможно можно и групбайкей обойтись
источник

ПФ

Паша Финкельштейн in Data Engineers
KrivdaTheTriewe
Я не знаю какие агрегации нужны
Так вопрос в том, какие он аргумента принимает же
источник

K

KrivdaTheTriewe in Data Engineers
А он типизированный
источник

ПФ

Паша Финкельштейн in Data Engineers
По идее когда мы делаем группировку нам некоего три вещи: select, agg и groupBy
источник

ПФ

Паша Финкельштейн in Data Engineers
Если я всё правильно понимаю
источник

K

KrivdaTheTriewe in Data Engineers
Или reducebyKey
источник

ПФ

Паша Финкельштейн in Data Engineers
Но может быть можно без select
источник