Size: a a a

2019 June 11

R

Renarde in Data Engineers
Скажем в исходном паркетном файле 30 полей, я хочу прочесть 5 в датасет (чтобы был column subset optimization и не надо было весь паркет читать, а только нужные колонки. Видимо мне нужно будет сначала селект прогнать, а потом каст в датасет?
источник

R

Renarde in Data Engineers
Тут ещё вопрос - достаточно ли умный оптимизатор в Спарке чтобы увидеть что на входе у меня два источника с 30 и 20 колонками, а на выходе я пишу 3 колонки из одного и 2 из другого и не читать все остальное с диска - как бы это проверить?
источник

IK

Ilya Karpov in Data Engineers
может взять источники прочитать все(или много) колонок и тригернуть расчет датасета сказав .count(); потом взять мало колонок и тоже сказать .count(). посмотреть резницу метрик в ui. Норм?
источник

R

Renarde in Data Engineers
Ilya Karpov
может взять источники прочитать все(или много) колонок и тригернуть расчет датасета сказав .count(); потом взять мало колонок и тоже сказать .count(). посмотреть резницу метрик в ui. Норм?
ага, вот такой тест сейчас как раз гоняю - хочу посмотреть
источник

GP

Grigory Pomadchin in Data Engineers
Renarde
Сап чат. Вопрос - как при касте DataFrame ->  Dataset делать подвыборку полей?
Скажем, я делаю:
case class TransactionTest(id: Long, time: String, value: String)

val transactionDS = spark.sparkContext.parallelize(Seq(
 (1,"t1","v1","av1"),
 (2,"t1","v1","av2"),
 (3,"t3","v1","av1")
)).toDF("id","time","value","another_value").as[TransactionTest]

Но на выходе последнее поле все равно сохраняется:
transactionDS.show
Дает:
+---+----+-----+-------------+
| id|time|value|another_value|
+---+----+-----+-------------+
|  1|  t1|   v1|          av1|
|  2|  t1|   v1|          av2|
|  3|  t3|   v1|          av1|
+---+----+-----+-------------+
Хотелось бы чтобы .as каст отсекал ненужные поля - как это правильно сделать?
Похоже только селект конкретных полей
источник

AB

Alexey Belov in Data Engineers
Oleg П
пандус
Очень сильное утверждение. Мы из примерно 100 кандидатов за год предложение сделали только пятерым.
источник

DZ

Dmitry Zuev in Data Engineers
Вы большие молодцы. Разумно отнеслись к найму потратив 100 кандидато часов на найм 5 человек
источник

Oleg П in Data Engineers
Alexey Belov
Очень сильное утверждение. Мы из примерно 100 кандидатов за год предложение сделали только пятерым.
без обид, просто шутка)
источник

GG

George Gaál in Data Engineers
Dmitry Zuev
Вы большие молодцы. Разумно отнеслись к найму потратив 100 кандидато часов на найм 5 человек
возможно, что и больше
источник

GG

George Gaál in Data Engineers
не включены - длинные собесы (по 2 часа) и время на доставку кандидата (вряд ли прям всех по скайпу опрашивали)
источник

AB

Alexey Belov in Data Engineers
Dmitry Zuev
Вы большие молодцы. Разумно отнеслись к найму потратив 100 кандидато часов на найм 5 человек
Спасибо, стараемся :) Пандус - это про какую-то абстрактную команду в вакууме, Сбер все-таки очень большой.
источник

DZ

Dmitry Zuev in Data Engineers
Ну сбер теперь кузница ии всея Руси
источник

ВН

Влад Никандров in Data Engineers
Dmitry Zuev
Ну сбер теперь кузница ии всея Руси
как и блокчейна?))))
источник

DZ

Dmitry Zuev in Data Engineers
Да не, вроде Герман Оскарович сказал что это была ошибка
источник

DZ

Dmitry Zuev in Data Engineers
Alexey Belov
Спасибо, стараемся :) Пандус - это про какую-то абстрактную команду в вакууме, Сбер все-таки очень большой.
Ну я думаю, что в Сбере есть норм тимы. Но 5/100 это провал найма
источник

A

Alex in Data Engineers
Смеюсь в голос :)
источник

A

Alex in Data Engineers
Из тех кто пришёл на первое интервью до офера доходит 1 из 50
источник

GG

George Gaál in Data Engineers
они убегают раньше, ога
источник

A

Alex in Data Engineers
Первых пару интервью по скайпу, потом на face to face поездка в Бангкок, по результатам делаем или нет офер
источник

A

Alex in Data Engineers
Но нужно учесть что много индусов на первом отсеивается
источник