Size: a a a

2019 June 10

СХ

Старый Хрыч in Data Engineers
странный метод тестирования
источник

СХ

Старый Хрыч in Data Engineers
тестить надо сразу на базе которую будете потом брать
источник
2019 June 11

А♻

Алексей ♻️ in Data Engineers
Вечер в хату, два дня назад "стал" инженегром в бигдата проекте  :) посоветуйте книги-видео, где галопом по Европам о стеке поглядеть?
источник

DZ

Dmitry Zuev in Data Engineers
Яндекс
источник

IV

Ilia V in Data Engineers
Алексей ♻️
Вечер в хату, два дня назад "стал" инженегром в бигдата проекте  :) посоветуйте книги-видео, где галопом по Европам о стеке поглядеть?
Без приколов. А как ты "стал" инженером в бигдата не зная даже о стеке?
источник

А♻

Алексей ♻️ in Data Engineers
перешёл на проект, в саппорт
источник

А♻

Алексей ♻️ in Data Engineers
на пороге только то, знаю ли я линукс спросили
источник

DZ

Dmitry Zuev in Data Engineers
Сбербанк что-ли?
источник

TT

Tsh Tsh in Data Engineers
Упоительно
источник

TT

Tsh Tsh in Data Engineers
источник

РА

Рамиль Ахмадеев in Data Engineers
Алексей ♻️
на пороге только то, знаю ли я линукс спросили
этого достаточно 🙂
источник

А♻

Алексей ♻️ in Data Engineers
Dmitry Zuev
Сбербанк что-ли?
хуже/лучше
источник

A

Alex in Data Engineers
Так говорите будто это что-то плохое. Если есть голова, то любой стек раскурить можно
источник

P

Pavel in Data Engineers
Dmitry Zuev
Сбербанк что-ли?
В Сбере такой низкий порог входа, или я не вкурил шутки?
источник

Oleg П in Data Engineers
Pavel
В Сбере такой низкий порог входа, или я не вкурил шутки?
пандус
источник

А♻

Алексей ♻️ in Data Engineers
ямка
источник

R

Renarde in Data Engineers
Сап чат. Вопрос - как при касте DataFrame ->  Dataset делать подвыборку полей?
Скажем, я делаю:
case class TransactionTest(id: Long, time: String, value: String)

val transactionDS = spark.sparkContext.parallelize(Seq(
 (1,"t1","v1","av1"),
 (2,"t1","v1","av2"),
 (3,"t3","v1","av1")
)).toDF("id","time","value","another_value").as[TransactionTest]

Но на выходе последнее поле все равно сохраняется:
transactionDS.show
Дает:
+---+----+-----+-------------+
| id|time|value|another_value|
+---+----+-----+-------------+
|  1|  t1|   v1|          av1|
|  2|  t1|   v1|          av2|
|  3|  t3|   v1|          av1|
+---+----+-----+-------------+
Хотелось бы чтобы .as каст отсекал ненужные поля - как это правильно сделать?
источник

AP

Alexander Piminov in Data Engineers
Renarde
Сап чат. Вопрос - как при касте DataFrame ->  Dataset делать подвыборку полей?
Скажем, я делаю:
case class TransactionTest(id: Long, time: String, value: String)

val transactionDS = spark.sparkContext.parallelize(Seq(
 (1,"t1","v1","av1"),
 (2,"t1","v1","av2"),
 (3,"t3","v1","av1")
)).toDF("id","time","value","another_value").as[TransactionTest]

Но на выходе последнее поле все равно сохраняется:
transactionDS.show
Дает:
+---+----+-----+-------------+
| id|time|value|another_value|
+---+----+-----+-------------+
|  1|  t1|   v1|          av1|
|  2|  t1|   v1|          av2|
|  3|  t3|   v1|          av1|
+---+----+-----+-------------+
Хотелось бы чтобы .as каст отсекал ненужные поля - как это правильно сделать?
Note that as[] only changes the view of the data that is passed into typed operations, such as map(), and does not eagerly project away any columns that are not present in the specified class.
Сначала явно выбрать поля придется. Альтернатива приводить явно в map() , но это же не то, что нужно.
источник

A

Anton in Data Engineers
а если через  энкодеры попробовать? https://spark.apache.org/docs/2.1.2/api/java/org/apache/spark/sql/Encoders.html#product(scala.reflect.api.TypeTags.TypeTag)
val encoder =Encoders.product[TransactionTest]
......
toDF("id","time","value","another_value").as(encoder)
источник

R

Renarde in Data Engineers
Anton
а если через  энкодеры попробовать? https://spark.apache.org/docs/2.1.2/api/java/org/apache/spark/sql/Encoders.html#product(scala.reflect.api.TypeTags.TypeTag)
val encoder =Encoders.product[TransactionTest]
......
toDF("id","time","value","another_value").as(encoder)
Пробовал, эффект то же - поля остаются
источник