Телеграмм чат группы hadoopusers страница 1439

Всем привет!

Уже 16 июля пройдет вебинар #ODSC “Kubeflow, MLFlow and Beyond — Augmenting ML Delivery”
❓Когда? 16 июля, 1 pm – 2 pm EST.
Спикер: Степан Пушкарев, CTO of Provectus

✨ Регистрация: http://bit.ly/MLworkflowODSCWebinar

Степан расскажет, как спроектировать эффективный ML процесс, про применение в нём различных open source инструментов способствующих автоматизации и воспроизводимости.

🚀 Узнать больше: https://www.facebook.com/events/1183366371834820

На основе какого стека будет референс? Непосредственно сравнение инструментария будет? Заголовок интересный, а описание скудное.

источник

11:53пожаловаться #5

Alex in Data Engineers

Да, в тройке вроде как пофиклиси, чтобы не только между нодами, но и в пределах ноды между волумами делал балансировку

источник

11:53пожаловаться #6

Alex in Data Engineers

Клоудера даже бекпортила вроде как в 5.х какой-то

источник

11:53пожаловаться #7

Nata in Data Engineers

Alex

Что значит виртуал и физический?

У вас перечислены volumes в датаноде, для каждой из них применяется правило

у меня raid собран

источник

11:53пожаловаться #8

Nata in Data Engineers

а с точки зрения dn диск один

источник

11:54пожаловаться #9

Alex in Data Engineers

Если в конфиге только один путь, то значит один :)

источник

11:56пожаловаться #10

Stanislav in Data Engineers

Alex

так там два режима же. раунд робин и последовательная запись

источник

11:57пожаловаться #11

Evgeny in Data Engineers

Nata

у меня raid собран

Но зачем?

источник

11:58пожаловаться #12

Alex in Data Engineers

@barloc https://community.hortonworks.com/articles/87440/hdfs-balancer-balancing-data-between-disks-on-a-da.html

Там же и ссылки на тикеты, что-то в 2.7 что-то в 3.0

источник

11:59пожаловаться #13

саша in Data Engineers

Eldar Nezametdinov

там про питон? spark? tensor?
спецом открыл фейсбук и ссылку, стэк вообще не указан...

Будут использованы Kubeflow и Hydrosphere. Касательно MLFlow и Kubeflow нельзя сказать, что их можно сравнить. Они выполняют относительно разный функционал, и вместе дополняют друг друга.

источник

12:02пожаловаться #14

Stanislav in Data Engineers

Alex

@barloc https://community.hortonworks.com/articles/87440/hdfs-balancer-balancing-data-between-disks-on-a-da.html

Там же и ссылки на тикеты, что-то в 2.7 что-то в 3.0

спс

источник

12:06пожаловаться #15

Alexander Piminov in Data Engineers

саша

Ну так-то они все (MLFlow, Hydrosphere, Kubeflow) чем-то отличаются, поэтому интересно посмотреть, что спикер включил в референс и какие задачи делегировал. Ок, спасибо!

источник

12:06пожаловаться #16

Andrei Boaghe in Data Engineers

Привет всем,
Может кто помочь с интеграцией Spark/Kafka
1. Надо загрузить DataFrame в Kafka (т.е передать messages). Мы не используем Spark Streaming. Работаем со SparSQL 2.1.0. Есть ли у кого-то пример как это сделать, потому что сейчас делаю так и не уверен что это хороший solution:

источник

12:17пожаловаться #17

Andrei Boaghe in Data Engineers

источник

12:17пожаловаться #18

Alexander Chermenin in Data Engineers

df.write
  .format("kafka")
  .option("kafka.bootstrap.servers", "host1:port1,host2:port2")
  .option("topic", "topic1")
  .save()

источник

13:46пожаловаться #19

Akeel Kumar in Data Engineers

Hi All

I want to be Data Engineer

Can you guys guide me
What should i do?

источник

14:12пожаловаться #20