Телеграмм чат группы hadoopusers страница 1530

да; просто что бы ты понимал, не очень связанно выглядит то что ты написал; больше как поток мыслей
после истории с анкодерами для таплов и продактов, я бы рекоммендовал более цельно излагать проблему

потому что она и сейчас выглядит размазанно

источник

19:51пожаловаться #6

ПФ

Паша Финкельштейн in Data Engineers

Grigory Pomadchin

Хых, понимаю. Ну завтра я глядишь синтетику напишу

источник

19:52пожаловаться #7

Anton Zadorozhniy in Data Engineers

Паша Финкельштейн

ага

пардон, с повторами или без?

источник

19:52пожаловаться #8

ПФ

Паша Финкельштейн in Data Engineers

Anton Zadorozhniy

пардон, с повторами или без?

Ну в тестах точно без, а в реальности может быть с

источник

19:53пожаловаться #9

Anton Zadorozhniy in Data Engineers

Паша Финкельштейн

Ну в тестах точно без, а в реальности может быть с

ну без повторов (надо только функцию бинарь починить) в лоб вот как-то так

источник

19:55пожаловаться #10

Anton Zadorozhniy in Data Engineers

case class Customer(custID: Int, segment: String, value: Long)

val ds = Seq(Customer(1, "regular", 1),Customer(2, "regular", 2),Customer(3, "ninja", 1)).toDS()

ds.show()

def topValue(a: Customer, b: Customer): Customer = { if (a.value > b.value) a else b }

val topCustomers = ds.groupByKey(_.segment).reduceGroups(topValue _).map(_._2)

topCustomers.show()

источник

19:55пожаловаться #11

Grigory Pomadchin in Data Engineers

Anton Zadorozhniy

topValue может и строки сравнивать; завтра нам синтетику подгонит он; может пока синтетику будет делать разберется в чем дело

источник

19:56пожаловаться #12

Anton Zadorozhniy in Data Engineers

ну надо явной функцией написать что вам нужно сравнивать и какие критерии, но в этом и прелесть Dataset API - это будет явная функция, которую можно будет нормально протестировать

источник

19:59пожаловаться #13

Grigory Pomadchin in Data Engineers

+ поэтому @optician_owl упомянул типы конкретные

источник

20:01пожаловаться #14

Anton Zadorozhniy in Data Engineers

и хороший пример typesafe агрегации есть в документации https://spark.apache.org/docs/latest/sql-getting-started.html#type-safe-user-defined-aggregate-functions

источник

20:26пожаловаться #15

Oleg Kovalov in Data Engineers

всем привет

источник

22:48пожаловаться #16

ПФ

Паша Финкельштейн in Data Engineers

Спрашивали? Отвечаем. mapGroups работает с итератором. КОторый по определению можно пройти только один раз. Превращаем его в итерэбл и всё работает

источник

23:32пожаловаться #17

2019 August 07

Grigory Pomadchin in Data Engineers

Паша Финкельштейн

Если итератор превращать в лист — то работает всё

Вроде это тут ясно; сложно было догадаться о том что ты в коде делал не смотря в код

источник

02:51пожаловаться #18

ПФ

Паша Финкельштейн in Data Engineers

Grigory Pomadchin

Вроде это тут ясно; сложно было догадаться о том что ты в коде делал не смотря в код

ну да, видишь, я не понимал какая часть важна. А важна часть с внимательным рассматриванием сигнатуры

Ну и заодно использовать mapGroups вообще плохая идея: он требует шаффла, так что если мжно избежать — лучше избежать. Так что я всё еределал на reduceGroups

источник

08:42пожаловаться #19

Rustam Iksanov in Data Engineers

Инженеры. Продолжаю свои мучения с spark-phoenix. спарк джоба просто встает на этапе записи в феникс. На другом кластере джоба работает без проблем. Через spark-shell запись в феникс происходит. куда копать?

источник

10:18пожаловаться #20