Телеграмм чат группы hadoopusers страница 1520

    val zlogMaxed = zl
      .groupByKey(z => Grouping(z.cc, z.p, z.u))
      .reduceGroups((a, b) => if (a.ci - b.ci >= 0) a else b)
      .map {
        case (grouping, flat) =>
          N(
            grouping.cc,
            grouping.p,
            grouping.u,
            flat.ci,
            flat.di,
            flat.a
          )
      }

Вот для этого пришлось приделать два кейс-класса с энкодерами

источник

14:09пожаловаться #12

ПФ

Паша Финкельштейн in Data Engineers

Grouping и N

источник

14:10пожаловаться #13

ПФ

Паша Финкельштейн in Data Engineers

и это один крошечный запрос без джойнов, без всего

источник

14:11пожаловаться #14

Anton Zadorozhniy in Data Engineers

Паша Финкельштейн

    val zlogMaxed = zl
      .groupByKey(z => Grouping(z.cc, z.p, z.u))
      .reduceGroups((a, b) => if (a.ci - b.ci >= 0) a else b)
      .map {
        case (grouping, flat) =>
          N(
            grouping.cc,
            grouping.p,
            grouping.u,
            flat.ci,
            flat.di,
            flat.a
          )
      }

Вот для этого пришлось приделать два кейс-класса с энкодерами

А у вас точно функция в reduceGroups коммутативная?

источник

14:31пожаловаться #15

Grigory Pomadchin in Data Engineers

Паша Финкельштейн

    val zlogMaxed = zl
      .groupByKey(z => Grouping(z.cc, z.p, z.u))
      .reduceGroups((a, b) => if (a.ci - b.ci >= 0) a else b)
      .map {
        case (grouping, flat) =>
          N(
            grouping.cc,
            grouping.p,
            grouping.u,
            flat.ci,
            flat.di,
            flat.a
          )
      }

Вот для этого пришлось приделать два кейс-класса с энкодерами

послушай а точно с таплами проблема есть?

источник

14:32пожаловаться #16

Grigory Pomadchin in Data Engineers

все автоматически выводится для таплов я посмотрел код

источник

14:32пожаловаться #17

Grigory Pomadchin in Data Engineers

// это прям в спарк шелл

scala> val data = Array(("a", 1, 2d), ("a", 2, 3d), ("b", 3, 4d), ("b", 4, 5d), ("c", 5, 6d), ("c", 6, 7d), ("e", 0, 0d))
data: Array[(String, Int, Double)] = Array((a,1,2.0), (a,2,3.0), (b,3,4.0), (b,4,5.0), (c,5,6.0), (c,6,7.0), (e,0,0.0))

scala> val rdd = sc.parallelize(data)
rdd: org.apache.spark.rdd.RDD[(String, Int, Double)] = ParallelCollectionRDD[1] at parallelize at <console>:29

scala> val dataset = rdd.toDS()
dataset: org.apache.spark.sql.Dataset[(String, Int, Double)] = [_1: string, _2: int ... 1 more field]

scala> dataset.groupByKey(value => value._1 -> value._2)
res11: org.apache.spark.sql.KeyValueGroupedDataset[(String, Int),(String, Int, Double)] = KeyValueGroupedDataset: [key: [_1: string, _2: int], value: [_1: string, _2: int ... 1 more field(s)]]

источник

14:33пожаловаться #18

Grigory Pomadchin in Data Engineers

умеет все работать с таплами само
думаю сатанисты иначе бы в гробу вращались

источник

14:33пожаловаться #19

KrivdaTheTriewe in Data Engineers

@dartov что сейчас из книжек почитать , подскажите)

источник

14:34пожаловаться #20