Size: a a a

2019 August 06

ПФ

Паша Финкельштейн in Data Engineers
KrivdaTheTriewe
Ну вот все и делают на датафреймах и принимают его динамическую природу
ну и вот это только до тех пор пока не сделали нормальную обёртку
источник

ПФ

Паша Финкельштейн in Data Engineers
то что я не могу её сделать и то что её нет — говорит только о неготовности
источник

K

KrivdaTheTriewe in Data Engineers
Паша Финкельштейн
ну и вот это только до тех пор пока не сделали нормальную обёртку
Ее уже сделали и в планах другой не придвится
источник

GP

Grigory Pomadchin in Data Engineers
Паша Финкельштейн
думается мне это значит что я онлайн )
источник

AZ

Anton Zadorozhniy in Data Engineers
Паша Финкельштейн
С БД надо работать с помощью SQL
Только не это
источник

GP

Grigory Pomadchin in Data Engineers
я к тому, что не присылай видео
источник

ПФ

Паша Финкельштейн in Data Engineers
KrivdaTheTriewe
Ее уже сделали и в планах другой не придвится
Ещё раз — она достаточно убогая. Надеюсь что через время какой-нить из инструментов добьют до рабочего состояния
источник

ПФ

Паша Финкельштейн in Data Engineers
Grigory Pomadchin
я к тому, что не присылай видео
Я не умею писать видео в телеграме на десктопе под линуксом…
источник

K

KrivdaTheTriewe in Data Engineers
Паша Финкельштейн
Ещё раз — она достаточно убогая. Надеюсь что через время какой-нить из инструментов добьют до рабочего состояния
Да нормальная она
источник

ПФ

Паша Финкельштейн in Data Engineers
KrivdaTheTriewe
Да нормальная она
нет
источник

ПФ

Паша Финкельштейн in Data Engineers
Ща пришлю пример
источник

ПФ

Паша Финкельштейн in Data Engineers
    val zlogMaxed = zl
     .groupByKey(z => Grouping(z.cc, z.p, z.u))
     .reduceGroups((a, b) => if (a.ci - b.ci >= 0) a else b)
     .map {
       case (grouping, flat) =>
         N(
           grouping.cc,
           grouping.p,
           grouping.u,
           flat.ci,
           flat.di,
           flat.a
         )
     }
Вот для этого пришлось приделать два кейс-класса с энкодерами
источник

ПФ

Паша Финкельштейн in Data Engineers
Grouping и N
источник

ПФ

Паша Финкельштейн in Data Engineers
и это один крошечный запрос без джойнов, без всего
источник

AZ

Anton Zadorozhniy in Data Engineers
Паша Финкельштейн
    val zlogMaxed = zl
     .groupByKey(z => Grouping(z.cc, z.p, z.u))
     .reduceGroups((a, b) => if (a.ci - b.ci >= 0) a else b)
     .map {
       case (grouping, flat) =>
         N(
           grouping.cc,
           grouping.p,
           grouping.u,
           flat.ci,
           flat.di,
           flat.a
         )
     }
Вот для этого пришлось приделать два кейс-класса с энкодерами
А у вас точно функция в reduceGroups коммутативная?
источник

GP

Grigory Pomadchin in Data Engineers
Паша Финкельштейн
    val zlogMaxed = zl
     .groupByKey(z => Grouping(z.cc, z.p, z.u))
     .reduceGroups((a, b) => if (a.ci - b.ci >= 0) a else b)
     .map {
       case (grouping, flat) =>
         N(
           grouping.cc,
           grouping.p,
           grouping.u,
           flat.ci,
           flat.di,
           flat.a
         )
     }
Вот для этого пришлось приделать два кейс-класса с энкодерами
послушай а точно с таплами проблема есть?
источник

GP

Grigory Pomadchin in Data Engineers
все автоматически выводится для таплов я посмотрел код
источник

GP

Grigory Pomadchin in Data Engineers
// это прям в спарк шелл

scala> val data = Array(("a", 1, 2d), ("a", 2, 3d), ("b", 3, 4d), ("b", 4, 5d), ("c", 5, 6d), ("c", 6, 7d), ("e", 0, 0d))
data: Array[(String, Int, Double)] = Array((a,1,2.0), (a,2,3.0), (b,3,4.0), (b,4,5.0), (c,5,6.0), (c,6,7.0), (e,0,0.0))

scala> val rdd = sc.parallelize(data)
rdd: org.apache.spark.rdd.RDD[(String, Int, Double)] = ParallelCollectionRDD[1] at parallelize at <console>:29

scala> val dataset = rdd.toDS()
dataset: org.apache.spark.sql.Dataset[(String, Int, Double)] = [_1: string, _2: int ... 1 more field]

scala> dataset.groupByKey(value => value._1 -> value._2)
res11: org.apache.spark.sql.KeyValueGroupedDataset[(String, Int),(String, Int, Double)] = KeyValueGroupedDataset: [key: [_1: string, _2: int], value: [_1: string, _2: int ... 1 more field(s)]]
источник

GP

Grigory Pomadchin in Data Engineers
умеет все работать с таплами само
думаю сатанисты иначе бы в гробу вращались
источник

K

KrivdaTheTriewe in Data Engineers
@dartov что сейчас из книжек почитать , подскажите)
источник