Size: a a a

2019 July 15

PA

Polina Azarova in Data Engineers
Кстати, а кто как реализует катастрофоустойчивость?
Реплики по цодам разносит

Таск так и не закрыт
https://issues.apache.org/jira/browse/HDFS-9075
источник

PA

Polina Azarova in Data Engineers
А в разные стойки ставить хадупец стремно
источник

PA

Polina Azarova in Data Engineers
Alex
Чуть позже могу поискать тот тикет в jira, может бекпортнули в самую последнюю, но в 5.12 точно был и вроде даже на 5.14 воспроизводили
А это не in transition
Failed close?
источник

A

Alex in Data Engineers
Polina Azarova
А это не in transition
Failed close?
Вроде нет, с мобилки неудобно, как буду за компом отпишу
источник

A

Aram in Data Engineers
привет всем у меня проблема с hortonworks  hive  interactive после  старта 2181  порт , промпт узер пасс  которий не как не могу наити ,
источник

A

Aram in Data Engineers
как  jdbc  interacitve  hive работает ?
источник
2019 July 16

EN

Eldar Nezametdinov in Data Engineers
Мужики подскажите плиз по установке hdp 3.1
Для установки амбари и последующей установки hdp через нее на кластер для rhel7/centos7 сколько репозиториев нужно?
- ambari, hdp, hdp-utils, hdp-gpl ?
или только первые два?  
их только на namenode с которой раскатка или на все хосты еще добавлять? (на других нодах же есть scp, curl,  wget зачем там репы то)
источник

AK

Alexander Kapustin in Data Engineers
Eldar Nezametdinov
Мужики подскажите плиз по установке hdp 3.1
Для установки амбари и последующей установки hdp через нее на кластер для rhel7/centos7 сколько репозиториев нужно?
- ambari, hdp, hdp-utils, hdp-gpl ?
или только первые два?  
их только на namenode с которой раскатка или на все хосты еще добавлять? (на других нодах же есть scp, curl,  wget зачем там репы то)
первые 3 точно нужны
не совсем понятно, если есть на нодах доступ в инет, то тогда вообще проблем нет
если инета нет (а судя по всему это так), то тогда тупо на namenode (или где еще достаточно поднять локальный репозиторий) и прописать его на всех нодах (в доке вроде есть)
правда 3.1 глючный, при установке столкнулись с тем, что указываешь ссылки на репозитории, конфигурируешь кластер, доходит до начала установки, и он сбрасывает ссылки в null и ругается. надо руками чистить, и начинать с начала. во второй раз все ставится нормально... что это было - хз
источник

EN

Eldar Nezametdinov in Data Engineers
спасибо
источник

OI

Oleg Ilinsky in Data Engineers
Alex
Так как кластер пустой, то зачистить можно и мои бы действия были:
1) остановить всё
2) почистить зоокипер
3) почистить hdfs
4) запустить один мастер (он в логах будет ругаться на старте что нету регион серверов и ждёт пока кто появится)
5) запустить один регионсервер

Проверить все логи как проходит инициализации меты и тд

После этого уже запускать все остальные мастера и регионы
Посмотрел подробнее - там ошибка, что не может подконнектиться к регион серверу dl-prod-data-3,16020,1563265474260, а его ни среди живых ни среди мертвых нет. Интересненько. Сейчас попробобую остановить, почистить. Хотя я уже делал это раньше, но частями, а не всё сразу)
ХДФС пока полностью не могу почистить - там есть данные, которые я несколько дней грузил.
источник

OP

O. Petr in Data Engineers
На сколько дорогая операция переименовать/переместить директорию в хдфс ?
источник

ЕГ

Евгений Глотов in Data Engineers
Около нуля
источник

AZ

Anton Zadorozhniy in Data Engineers
O. Petr
На сколько дорогая операция переименовать/переместить директорию в хдфс ?
Атомарные операции только в метаданных неймноды, датаноды не участвуют
источник

AZ

Anton Zadorozhniy in Data Engineers
Но дерево в неймноде лочится, так что если идёт много операций с метаданными - они замрут
источник

ЕГ

Евгений Глотов in Data Engineers
Да, неймноду можно подвесить
источник

OI

Oleg Ilinsky in Data Engineers
Oleg Ilinsky
Посмотрел подробнее - там ошибка, что не может подконнектиться к регион серверу dl-prod-data-3,16020,1563265474260, а его ни среди живых ни среди мертвых нет. Интересненько. Сейчас попробобую остановить, почистить. Хотя я уже делал это раньше, но частями, а не всё сразу)
ХДФС пока полностью не могу почистить - там есть данные, которые я несколько дней грузил.
хм
сейчас ссылается на живой region server
но почему-то все равно ошибка, что он офлайн
с мастера проверял - сетевой доступ есть, порт слушается 🤔
источник

OI

Oleg Ilinsky in Data Engineers
есть вот такой даже не ворнинг:
[timeline] timeline.HadoopTimelineMetricsSink: Unable to connect to collector, http://dl-prod-master-1:6188/ws/v1/timeline/metrics
This exceptions will be ignored for next 100 times

в логах region serverа, но это как-то не выглядит критичным
источник

DP

Dumitru Preguza in Data Engineers
Мы из Spark (2.1.0) отправляем messages в Kafka, нам надо что бы был delay 10 s каждые 1000 messages, как это сделать ? либо как лучше гуглить ? :)
источник

SK

Sergey Kabanov in Data Engineers
Доброго времени суток.

Дано: кластер hadoop на базе Cloudera 6, отдельный сервер с бизнес-приложением

Задача: смонтировать HDFS в локальную файловую систему отдельного сервера (AIX) таким образом, чтобы в точке монтирования оказалась нужная поддиректория HDFS. Конечному пользователю необходимы права для записи файлов в HDFS через эту точку монтирования.

Решение: используя инструмент NFS Gateway HDFS монтируется полностью на целевом сервере, создается symlink на нужную поддиректорию, создается user для записи в эту папку как на целевом сервере, так и на серверах кластера. Настраивается user mapping на NFS Gateway. Конечный пользователь использует созданного user и работает с директорией через symlink.

Вопрос: На сколько верно такое решение? Возможно есть более правильные реализации?
Заранее спасибо за комментарии.
источник

EI

Edouard Ispravnikov in Data Engineers
Привет.

Читаю коллекцию из mongodb, столкнулся со следующим случаем

com.mongodb.spark.exceptions.MongoTypeConversionException:

Cannot cast DATE_TIME into a StructType(StructField($date,StringType,true)) (value: BsonDateTime{value=1516911000777})

Схема выглядит вот так

     .add("_id", StringType)
//      .add("created", (new StructType)
//        .add("$date", StringType))
     .add("modified", (new StructType)
       .add("""$date""", StringType))

В базе так:

       "_id": "1000025",
 "created": {
   "$date": "2018-01-14T23:52:36.329Z"
 },
 "modified": {
   "$date": "2018-01-19T04:00:35.603Z"
 },


Как принять этот тип?
Спасибо.
источник