Size: a a a

2020 March 23

A

Alex in Data Engineers
когда много точек монтирования, то понятно что всё ок
источник

AB

Alexander Batyrshin in Data Engineers
Хм… может недочитал
источник

AB

Alexander Batyrshin in Data Engineers
Alex
когда много точек монтирования, то понятно что всё ок
Дефолтный конфиг даже при выходе 1 точки монтирование пометит всю dn как больную и выключит из кластера
источник

ME

Mikhail Epikhin in Data Engineers
Mi
кстати, может кто-нибудь знает как симулировать обрыв сети в условиях EMR?
Ну на хосты есть рутовый доступ, можно зайти и через tc / iptables портить сеть
источник

SU

Sergey Ufimtsev in Data Engineers
Всем привет! А как лучше выгружать данные из вертики в сцилу (без кафок, для ад хок запросов)? Пока нашел copy для загрузки из вертики и cassandra-loader для выгрузки получившегося файлика, но выглядит топорно. Только чет свое через ждбс к касандре писать ?
источник

UD

Uncel Duk in Data Engineers
Привет, кто какой стор используется для ресурсманагера?
источник

UD

Uncel Duk in Data Engineers
Зукиперовский работает на “больших” кластерах? (тысячи/десятки тысяч задач в день)
источник

A

Alex in Data Engineers
вроде там там начинаются проблемы что он вычитать не может все данные
так как ожидает вытянуть одним запросом и нарывается на лимиты

поэтому у нас помнится сконфигурировано ограничение сколько в прошлое джобов хранить
источник

UD

Uncel Duk in Data Engineers
Наступил на эти грабли, пробил лицо столом
источник

UD

Uncel Duk in Data Engineers
С одной стороны не работает ( зарезали количество выполненных задач), с другой пользователям возможно важно посмотреть что там было с задачей неделю назад
источник

UD

Uncel Duk in Data Engineers
( Без лазанья по /yarn/logs... )
источник

A

Alex in Data Engineers
а хистори сервер с этим не справляется?
источник

UD

Uncel Duk in Data Engineers
Там грабли с зависимостями
источник

UD

Uncel Duk in Data Engineers
И он вроде не эйчеется, могу ошибаться
источник

A

Alex in Data Engineers
ну у нас много через него уходит, для спарка так точно на спарк хистори, для обычных тоже вроде хистори настроен
50к+ в день (посмотрел между 4 утра и сейчас 8 вечера отработано 67к задач)
источник

UD

Uncel Duk in Data Engineers
А какая версия хадупа на кластере ?
источник

A

Alex in Data Engineers
старая клоудерка 5.8 что-то, там вроде 2.6 хадуп крутится
источник

UD

Uncel Duk in Data Engineers
Спасибо, покопаю в эту сторону
источник

D

Dasha in Data Engineers
Добрый день! Отправили к Вам из чата по Spark (хотя вопрос не про hadoop)
источник

D

Dasha in Data Engineers
Коллеги, добрый день!

Возникает ошибка при подключении к БД из Spark: java.lang.ClassNotFoundException: org.postgresql.Driver
При этом драйвер установлен и подключен:

import java.util.Properties

val connectionProperties = new Properties()
connectionProperties.setProperty("Driver", "org.postgresql.Driver")

=>
import java.util.Properties
connectionProperties: java.util.Properties = {Driver=org.postgresql.Driver}
res5: Object = null
источник