Телеграмм чат группы hadoopusers страница 1362

case class TransactionTest(id: Long, time: String, value: String)

val transactionDS = spark.sparkContext.parallelize(Seq(
  (1,"t1","v1","av1"),
  (2,"t1","v1","av2"),
  (3,"t3","v1","av1")
)).toDF("id","time","value","another_value").as[TransactionTest]

Но на выходе последнее поле все равно сохраняется:

transactionDS.show

Дает:

+---+----+-----+-------------+
| id|time|value|another_value|
+---+----+-----+-------------+
|  1|  t1|   v1|          av1|
|  2|  t1|   v1|          av2|
|  3|  t3|   v1|          av1|
+---+----+-----+-------------+

Хотелось бы чтобы .as каст отсекал ненужные поля - как это правильно сделать?

источник

15:55пожаловаться #17

Alexander Piminov in Data Engineers

Renarde

Сап чат. Вопрос - как при касте DataFrame -> Dataset делать подвыборку полей?
Скажем, я делаю:

case class TransactionTest(id: Long, time: String, value: String)

val transactionDS = spark.sparkContext.parallelize(Seq(
  (1,"t1","v1","av1"),
  (2,"t1","v1","av2"),
  (3,"t3","v1","av1")
)).toDF("id","time","value","another_value").as[TransactionTest]

Но на выходе последнее поле все равно сохраняется:

transactionDS.show

Дает:

+---+----+-----+-------------+
| id|time|value|another_value|
+---+----+-----+-------------+
|  1|  t1|   v1|          av1|
|  2|  t1|   v1|          av2|
|  3|  t3|   v1|          av1|
+---+----+-----+-------------+

Хотелось бы чтобы .as каст отсекал ненужные поля - как это правильно сделать?

Note that as[] only changes the view of the data that is passed into typed operations, such as map(), and does not eagerly project away any columns that are not present in the specified class.
Сначала явно выбрать поля придется. Альтернатива приводить явно в map() , но это же не то, что нужно.

источник

16:07пожаловаться #18

Anton in Data Engineers

а если через энкодеры попробовать? https://spark.apache.org/docs/2.1.2/api/java/org/apache/spark/sql/Encoders.html#product(scala.reflect.api.TypeTags.TypeTag)

val encoder =Encoders.product[TransactionTest]
......
toDF("id","time","value","another_value").as(encoder)

источник

16:10пожаловаться #19

Renarde in Data Engineers

Anton

а если через энкодеры попробовать? https://spark.apache.org/docs/2.1.2/api/java/org/apache/spark/sql/Encoders.html#product(scala.reflect.api.TypeTags.TypeTag)

val encoder =Encoders.product[TransactionTest]
......
toDF("id","time","value","another_value").as(encoder)

Пробовал, эффект то же - поля остаются

источник

16:45пожаловаться #20