Телеграмм чат группы hadoopusers страница 2200

Как то не очень давно тут мелькала запись мероприятия, на котором докладчиком очень метко было замечено, что дата инженер - это тот, кто умеет использовать компьютеры.

источник

16:34пожаловаться #4

Vasiliy in Data Engineers

У Вас очень общий вопрос

источник

16:35пожаловаться #5

Vasiliy in Data Engineers

Примерно как методика подсчета скорости движения звука в среде...

источник

16:36пожаловаться #6

Alex in Data Engineers

@Uttar1 сильно общий вопрос и зависит от многих факторов

упереться в cpu если включено шифрование или ec
упереться в namenode при большом количестве запросов (она то в hdfs одна)
про диски все понимают, но были случаи когда упирались в скорость хардварного контролера (дисков много насовали, а контролер дохлый и его max был заметно ниже общей пропускной способности дисков)

поэтому расчёт часто идёт очень примерный с min/max что можно выжать
а следом проверка что реальные параметры лежат в пределах этого интервала

источник

16:46пожаловаться #7

Алексей in Data Engineers

Pavel R

А есть методика подсчёта максимальной пропускной способности hdfs на чтение/запись?

есть TestDFSIO , не знаю насколько он актуален

источник

17:10пожаловаться #8

Alex in Data Engineers

последних несколько раз им и прогонял, но это не подсчет, а тестирование уже

источник

17:12пожаловаться #9

Anton Shelin in Data Engineers

Товарищи а раскажите про ваш опыт с Druid? И для чего юзаете?

источник

17:26пожаловаться #10

Pavel in Data Engineers

AnimatedSticker.tgs

(20.12 Кб)

источник

20:42пожаловаться #11

Tsh Tsh in Data Engineers

AnimatedSticker.tgs

(14.59 Кб)

источник

20:45пожаловаться #12

2020 April 01

Alexander in Data Engineers

вопрос знатокам: есть прямо универсальный solution для получения данных с внешних REST API c помощью Azure Data Factory. у ADF есть коннекторы, но они не очень универсальны, не большой выбор например даже методов аутентификации. То есть что использовать перед ADF чтобы отовсюду можно было получать разные JSON, большие и маленькие.

источник

14:23пожаловаться #13

Alexander in Data Engineers

Всем привет! Есть люди с опытом запуска Yarn с включенным spark_shuffle сервисом? Как только добавляю его в yarn-site.xml, вместо mapreduce_shuffle, Nodemanager не запускается. spark_shuffle.class установил в YarnShuffleService

источник

14:32пожаловаться #14

Alex in Data Engineers

ошибку предполагается нужно отгадать? =)

источник

14:39пожаловаться #15

Alexander in Data Engineers

Alex

ошибку предполагается нужно отгадать? =)

в том-то и дело, что ошибку не пишет. пишет starting nodemanager и все. но при вызове jps процесса нет

источник

14:43пожаловаться #16

Alex in Data Engineers

поднять уровень логирования до debug/trace и посмотреть что пишет
обычно хоть что-то да пишется

источник

14:44пожаловаться #17

Alex in Data Engineers

или в еррор лог

источник

14:44пожаловаться #18

Alex in Data Engineers

или в stdout

источник

14:44пожаловаться #19

Dasha in Data Engineers

Коллеги, почему-то перестал работать Zeppelin:

org.apache.zeppelin.interpreter.InterpreterException: org.apache.zeppelin.interpreter.InterpreterException: org.apache.zeppelin.interpreter.InterpreterException: Fail to open SparkInterpreter

отдает даже на вызовы интерпретатора %sql, %postgresql

Не могу отследить событие, после которого это произошло

Можете помочь, пожалуйста?

источник

15:17пожаловаться #20