Телеграмм чат группы hadoopusers страница 1363

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

1724 membersпожаловаться на группу

2019 June 11

R

Renarde in Data Engineers

Скажем в исходном паркетном файле 30 полей, я хочу прочесть 5 в датасет (чтобы был column subset optimization и не надо было весь паркет читать, а только нужные колонки. Видимо мне нужно будет сначала селект прогнать, а потом каст в датасет?

источник

16:47пожаловаться #1

R

Renarde in Data Engineers

Тут ещё вопрос - достаточно ли умный оптимизатор в Спарке чтобы увидеть что на входе у меня два источника с 30 и 20 колонками, а на выходе я пишу 3 колонки из одного и 2 из другого и не читать все остальное с диска - как бы это проверить?

источник

16:50пожаловаться #2

IK

Ilya Karpov in Data Engineers

может взять источники прочитать все(или много) колонок и тригернуть расчет датасета сказав .count(); потом взять мало колонок и тоже сказать .count(). посмотреть резницу метрик в ui. Норм?

источник

16:58пожаловаться #3

R

Renarde in Data Engineers

может взять источники прочитать все(или много) колонок и тригернуть расчет датасета сказав .count(); потом взять мало колонок и тоже сказать .count(). посмотреть резницу метрик в ui. Норм?

ага, вот такой тест сейчас как раз гоняю - хочу посмотреть

источник

17:00пожаловаться #4

GP

Grigory Pomadchin in Data Engineers

Сап чат. Вопрос - как при касте DataFrame -> Dataset делать подвыборку полей?
Скажем, я делаю:

case class TransactionTest(id: Long, time: String, value: String)

val transactionDS = spark.sparkContext.parallelize(Seq(
  (1,"t1","v1","av1"),
  (2,"t1","v1","av2"),
  (3,"t3","v1","av1")
)).toDF("id","time","value","another_value").as[TransactionTest]

Но на выходе последнее поле все равно сохраняется:

transactionDS.show

Дает:

+---+----+-----+-------------+
| id|time|value|another_value|
+---+----+-----+-------------+
|  1|  t1|   v1|          av1|
|  2|  t1|   v1|          av2|
|  3|  t3|   v1|          av1|
+---+----+-----+-------------+

Хотелось бы чтобы .as каст отсекал ненужные поля - как это правильно сделать?

Похоже только селект конкретных полей

источник

17:13пожаловаться #5

AB

Alexey Belov in Data Engineers

пандус

Очень сильное утверждение. Мы из примерно 100 кандидатов за год предложение сделали только пятерым.

источник

17:13пожаловаться #6

DZ

Dmitry Zuev in Data Engineers

Вы большие молодцы. Разумно отнеслись к найму потратив 100 кандидато часов на найм 5 человек

источник

17:14пожаловаться #7

OП

Oleg П in Data Engineers

Очень сильное утверждение. Мы из примерно 100 кандидатов за год предложение сделали только пятерым.

без обид, просто шутка)

источник

17:19пожаловаться #8

GG

George Gaál in Data Engineers

Вы большие молодцы. Разумно отнеслись к найму потратив 100 кандидато часов на найм 5 человек

возможно, что и больше

источник

17:20пожаловаться #9

GG

George Gaál in Data Engineers

не включены - длинные собесы (по 2 часа) и время на доставку кандидата (вряд ли прям всех по скайпу опрашивали)

источник

17:20пожаловаться #10

AB

Alexey Belov in Data Engineers

Вы большие молодцы. Разумно отнеслись к найму потратив 100 кандидато часов на найм 5 человек

Спасибо, стараемся :) Пандус - это про какую-то абстрактную команду в вакууме, Сбер все-таки очень большой.

источник

17:20пожаловаться #11

DZ

Dmitry Zuev in Data Engineers

Ну сбер теперь кузница ии всея Руси

источник

17:22пожаловаться #12

ВН

Влад Никандров in Data Engineers

Ну сбер теперь кузница ии всея Руси

как и блокчейна?))))

источник

17:22пожаловаться #13

DZ

Dmitry Zuev in Data Engineers

Да не, вроде Герман Оскарович сказал что это была ошибка

источник

17:23пожаловаться #14

DZ

Dmitry Zuev in Data Engineers

Спасибо, стараемся :) Пандус - это про какую-то абстрактную команду в вакууме, Сбер все-таки очень большой.

Ну я думаю, что в Сбере есть норм тимы. Но 5/100 это провал найма

источник

17:26пожаловаться #15

A

Alex in Data Engineers

Смеюсь в голос :)

источник

17:47пожаловаться #16

A

Alex in Data Engineers

Из тех кто пришёл на первое интервью до офера доходит 1 из 50

источник

17:48пожаловаться #17

GG

George Gaál in Data Engineers

они убегают раньше, ога

источник

17:48пожаловаться #18

A

Alex in Data Engineers

Первых пару интервью по скайпу, потом на face to face поездка в Бангкок, по результатам делаем или нет офер

источник

17:48пожаловаться #19

A

Alex in Data Engineers

Но нужно учесть что много индусов на первом отсеивается

источник

17:49пожаловаться #20