Size: a a a

2020 March 31

t

tenKe in Data Engineers
ок
источник

t

tenKe in Data Engineers
тебе можно верить
источник

PR

Pavel R in Data Engineers
А есть методика подсчёта максимальной пропускной способности hdfs на чтение/запись?
источник

V

Vasiliy in Data Engineers
Pavel R
А есть методика подсчёта максимальной пропускной способности hdfs на чтение/запись?
Как то не очень давно тут мелькала запись мероприятия, на котором докладчиком очень метко было замечено, что дата инженер - это тот, кто умеет использовать компьютеры.
источник

V

Vasiliy in Data Engineers
У Вас очень общий вопрос
источник

V

Vasiliy in Data Engineers
Примерно как методика подсчета скорости движения звука в среде...
источник

A

Alex in Data Engineers
@Uttar1 сильно общий вопрос и зависит от многих факторов

упереться в cpu если включено шифрование или ec
упереться в namenode при большом количестве запросов (она то в hdfs одна)
про диски все понимают, но были случаи когда упирались в скорость хардварного контролера (дисков много насовали, а контролер дохлый и его max был заметно ниже общей пропускной способности дисков)

поэтому расчёт часто идёт очень примерный с min/max что можно выжать
а следом проверка что реальные параметры лежат в пределах этого интервала
источник

А

Алексей in Data Engineers
Pavel R
А есть методика подсчёта максимальной пропускной способности hdfs на чтение/запись?
есть TestDFSIO , не знаю насколько он актуален
источник

A

Alex in Data Engineers
последних несколько раз им и прогонял, но это не подсчет, а тестирование уже
источник

AS

Anton Shelin in Data Engineers
Товарищи а раскажите про ваш опыт с Druid? И для чего юзаете?
источник

P

Pavel in Data Engineers
источник

TT

Tsh Tsh in Data Engineers
источник
2020 April 01

A

Alexander in Data Engineers
вопрос знатокам: есть прямо универсальный solution для получения данных с внешних REST API c помощью Azure Data Factory. у ADF есть коннекторы, но они  не очень универсальны, не большой выбор например даже методов аутентификации. То есть что использовать перед ADF чтобы отовсюду можно было получать разные JSON, большие и маленькие.
источник

A

Alexander in Data Engineers
Всем привет! Есть люди с опытом запуска Yarn с включенным spark_shuffle сервисом? Как только добавляю его в yarn-site.xml, вместо mapreduce_shuffle, Nodemanager не запускается. spark_shuffle.class установил в YarnShuffleService
источник

A

Alex in Data Engineers
ошибку предполагается нужно отгадать? =)
источник

A

Alexander in Data Engineers
Alex
ошибку предполагается нужно отгадать? =)
в том-то и дело, что ошибку не пишет. пишет starting nodemanager и все. но при вызове jps процесса нет
источник

A

Alex in Data Engineers
поднять уровень логирования до debug/trace и посмотреть что пишет
обычно хоть что-то да пишется
источник

A

Alex in Data Engineers
или в еррор лог
источник

A

Alex in Data Engineers
или в stdout
источник

D

Dasha in Data Engineers
Коллеги, почему-то перестал работать Zeppelin:
org.apache.zeppelin.interpreter.InterpreterException: org.apache.zeppelin.interpreter.InterpreterException: org.apache.zeppelin.interpreter.InterpreterException: Fail to open SparkInterpreter
отдает даже на вызовы интерпретатора %sql, %postgresql

Не могу отследить событие, после которого это произошло

Можете помочь, пожалуйста?
источник