Телеграмм чат группы hadoopusers страница 1452

Мужики подскажите плиз по установке hdp 3.1
Для установки амбари и последующей установки hdp через нее на кластер для rhel7/centos7 сколько репозиториев нужно?
- ambari, hdp, hdp-utils, hdp-gpl ?
или только первые два?
их только на namenode с которой раскатка или на все хосты еще добавлять? (на других нодах же есть scp, curl, wget зачем там репы то)

источник

10:43пожаловаться #7

AK

Alexander Kapustin in Data Engineers

Eldar Nezametdinov

Мужики подскажите плиз по установке hdp 3.1
Для установки амбари и последующей установки hdp через нее на кластер для rhel7/centos7 сколько репозиториев нужно?
- ambari, hdp, hdp-utils, hdp-gpl ?
или только первые два?
их только на namenode с которой раскатка или на все хосты еще добавлять? (на других нодах же есть scp, curl, wget зачем там репы то)

первые 3 точно нужны
не совсем понятно, если есть на нодах доступ в инет, то тогда вообще проблем нет
если инета нет (а судя по всему это так), то тогда тупо на namenode (или где еще достаточно поднять локальный репозиторий) и прописать его на всех нодах (в доке вроде есть)
правда 3.1 глючный, при установке столкнулись с тем, что указываешь ссылки на репозитории, конфигурируешь кластер, доходит до начала установки, и он сбрасывает ссылки в null и ругается. надо руками чистить, и начинать с начала. во второй раз все ставится нормально... что это было - хз

источник

10:52пожаловаться #8

EN

Eldar Nezametdinov in Data Engineers

спасибо

источник

10:53пожаловаться #9

OI

Oleg Ilinsky in Data Engineers

Alex

Так как кластер пустой, то зачистить можно и мои бы действия были:
1) остановить всё
2) почистить зоокипер
3) почистить hdfs
4) запустить один мастер (он в логах будет ругаться на старте что нету регион серверов и ждёт пока кто появится)
5) запустить один регионсервер

Проверить все логи как проходит инициализации меты и тд

После этого уже запускать все остальные мастера и регионы

Посмотрел подробнее - там ошибка, что не может подконнектиться к регион серверу dl-prod-data-3,16020,1563265474260, а его ни среди живых ни среди мертвых нет. Интересненько. Сейчас попробобую остановить, почистить. Хотя я уже делал это раньше, но частями, а не всё сразу)
ХДФС пока полностью не могу почистить - там есть данные, которые я несколько дней грузил.

источник

11:47пожаловаться #10

OP

O. Petr in Data Engineers

На сколько дорогая операция переименовать/переместить директорию в хдфс ?

источник

12:43пожаловаться #11

ЕГ

Евгений Глотов in Data Engineers

Около нуля

источник

12:50пожаловаться #12

AZ

Anton Zadorozhniy in Data Engineers

O. Petr

На сколько дорогая операция переименовать/переместить директорию в хдфс ?

Атомарные операции только в метаданных неймноды, датаноды не участвуют

источник

12:51пожаловаться #13

AZ

Anton Zadorozhniy in Data Engineers

Но дерево в неймноде лочится, так что если идёт много операций с метаданными - они замрут

источник

12:52пожаловаться #14

ЕГ

Евгений Глотов in Data Engineers

Да, неймноду можно подвесить

источник

12:52пожаловаться #15

OI

Oleg Ilinsky in Data Engineers

Oleg Ilinsky

Посмотрел подробнее - там ошибка, что не может подконнектиться к регион серверу dl-prod-data-3,16020,1563265474260, а его ни среди живых ни среди мертвых нет. Интересненько. Сейчас попробобую остановить, почистить. Хотя я уже делал это раньше, но частями, а не всё сразу)
ХДФС пока полностью не могу почистить - там есть данные, которые я несколько дней грузил.

хм
сейчас ссылается на живой region server
но почему-то все равно ошибка, что он офлайн
с мастера проверял - сетевой доступ есть, порт слушается 🤔

источник

14:53пожаловаться #16

OI

Oleg Ilinsky in Data Engineers

есть вот такой даже не ворнинг:

[timeline] timeline.HadoopTimelineMetricsSink: Unable to connect to collector, http://dl-prod-master-1:6188/ws/v1/timeline/metrics
This exceptions will be ignored for next 100 times

в логах region serverа, но это как-то не выглядит критичным

источник

14:59пожаловаться #17

DP

Dumitru Preguza in Data Engineers

Мы из Spark (2.1.0) отправляем messages в Kafka, нам надо что бы был delay 10 s каждые 1000 messages, как это сделать ? либо как лучше гуглить ? :)

источник

15:36пожаловаться #18

SK

Sergey Kabanov in Data Engineers

Доброго времени суток.

Дано: кластер hadoop на базе Cloudera 6, отдельный сервер с бизнес-приложением

Задача: смонтировать HDFS в локальную файловую систему отдельного сервера (AIX) таким образом, чтобы в точке монтирования оказалась нужная поддиректория HDFS. Конечному пользователю необходимы права для записи файлов в HDFS через эту точку монтирования.

Решение: используя инструмент NFS Gateway HDFS монтируется полностью на целевом сервере, создается symlink на нужную поддиректорию, создается user для записи в эту папку как на целевом сервере, так и на серверах кластера. Настраивается user mapping на NFS Gateway. Конечный пользователь использует созданного user и работает с директорией через symlink.

Вопрос: На сколько верно такое решение? Возможно есть более правильные реализации?
Заранее спасибо за комментарии.

источник

16:08пожаловаться #19

EI

Edouard Ispravnikov in Data Engineers

Привет.

Читаю коллекцию из mongodb, столкнулся со следующим случаем

com.mongodb.spark.exceptions.MongoTypeConversionException:

Cannot cast DATE_TIME into a StructType(StructField($date,StringType,true)) (value: BsonDateTime{value=1516911000777})

Схема выглядит вот так

.add("_id", StringType)
// .add("created", (new StructType)
// .add("$date", StringType))
.add("modified", (new StructType)
.add("""$date""", StringType))

В базе так:

"_id": "1000025",
"created": {
"$date": "2018-01-14T23:52:36.329Z"
},
"modified": {
"$date": "2018-01-19T04:00:35.603Z"
},

Как принять этот тип?
Спасибо.

источник

18:46пожаловаться #20