Size: a a a

2019 May 23

RI

Rustam Iksanov in Data Engineers
Парни, подскажите. Делаю external table в hive к hbase. в hbase Int сериализован в байты и hive не может десериализовать. Как сказать hive, что данные сериализованы?
источник

AZ

Anton Zadorozhniy in Data Engineers
Rustam Iksanov
Парни, подскажите. Делаю external table в hive к hbase. в hbase Int сериализован в байты и hive не может десериализовать. Как сказать hive, что данные сериализованы?
покажите что у вас после STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' WITH SERDEPROPERTIES в DDL?
источник

RI

Rustam Iksanov in Data Engineers
Anton Zadorozhniy
покажите что у вас после STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' WITH SERDEPROPERTIES в DDL?
WITH SERDEPROPERTIES ( 
 'hbase.columns.mapping'=':key,timestamp:timestamp',
 'serialization.format'='1')
TBLPROPERTIES (
 'COLUMN_STATS_ACCURATE'='{\"BASIC_STATS\":\"true\"}',
 'hbase.mapred.output.outputtable'='t',
 'hbase.table.name'='t',
 'numFiles'='0',
 'numRows'='0',
 'rawDataSize'='0',
 'serialization.null.format'='',
 'totalSize'='0',
 'transient_lastDdlTime'='1558602255')
источник

AZ

Anton Zadorozhniy in Data Engineers
вы можете после имени колонки в маппинге добавить #b для бинарных колонок (по умолчанию трактует как строку)
источник

AZ

Anton Zadorozhniy in Data Engineers
источник

RI

Rustam Iksanov in Data Engineers
Anton Zadorozhniy
вы можете после имени колонки в маппинге добавить #b для бинарных колонок (по умолчанию трактует как строку)
спс
источник

AZ

Anton Zadorozhniy in Data Engineers
если что-то очень сложное - добавьте свой handler
источник

Н

НерВ in Data Engineers
Вопрос
источник

Н

НерВ in Data Engineers
Зачем хадуп, когда есть грепка
источник

Н

НерВ in Data Engineers
И вот это:
источник

Н

НерВ in Data Engineers
источник

DM

Daniel Matveev in Data Engineers
источник

R

Renarde in Data Engineers
ХАХААХХАХАХА
источник

R

Renarde in Data Engineers
вопрос - а кто нибудь пробовал из Spark Streaming писать в DynamoDB? Как там с батч-апдейтами, скажем лежит у нас таблица с индексом в 600 млн строк, прилетает апдейт по ключу в ~20k записей - можно ли сделать микробатч или придется каждую запись отдельно апдейтить?
источник

M

Maria_rm in Data Engineers
И снова  привет!
Напомниаю, что уже в эту субботу (25 мая) в Воронеже пройдет открытый митап по Machine Learning.
Если бы искусственный интеллект писал бы сценарий “Игры Престолов”, кого бы он посадил на Железный Трон?
👉🏼 Обсудим это, и другие возможности искусственного интеллекта и особенности его обучения на митапе.

✅ Участие бесплатное, но просим вас зарегистрироваться заранее (зал не резиновый)

Кроме  докладов каждого ждёт вкуснейшая 🍕, а самые  активные участники  митапа получат подарки от партнеров

Организаторы: Компании Evrone.com и DataArt
источник

AZ

Anton Zadorozhniy in Data Engineers
Renarde
вопрос - а кто нибудь пробовал из Spark Streaming писать в DynamoDB? Как там с батч-апдейтами, скажем лежит у нас таблица с индексом в 600 млн строк, прилетает апдейт по ключу в ~20k записей - можно ли сделать микробатч или придется каждую запись отдельно апдейтить?
я не знаю про спарк с динамой, но у самой динамы есть микробатч, от 25 записей можно запихнуть или удалить https://docs.aws.amazon.com/amazondynamodb/latest/APIReference/API_BatchWriteItem.html
источник

N

Nikita Blagodarnyy in Data Engineers
Dmitriy Pavlov
Вижу последние рекомендации от нашей команды в тикете:
Именно этот пункт -- наличие какого-то алиаса для этого хоста в keystore -- необходимо отдельно проверить:
1. сохранить вывод команды:
> keytool -list -v -keystore /var/lib/ambari-server/keys/keystore.p12 -storepass `cat /var/lib/ambari-server/keys/pass.txt`
2. повторить действия инструкции точно, т.е. на шаге 3.2 при запросе " Existing entry alias 1 exists, overwrite? [no]:" указать no, после чего в качестве alias name указать hostname добавляемого хостa. Проверить работоспособность сервера и агента;
3. В случае неудачи шага 2 ещё раз сохранить вывод команды из шага 1. Предоставить в ответе вывод команды на этом шаге и на шаге 1.

С тех пор ответа не было :(
Получилось выполнить?
Ну кароче помогло добавление серта узла не в кейстор.p12, как вы предлагали, а в трастор амбари вручную (не через setup security).
источник

AP

Alexander Piminov in Data Engineers
Nikita Blagodarnyy
Ну кароче помогло добавление серта узла не в кейстор.p12, как вы предлагали, а в трастор амбари вручную (не через setup security).
Чтобы не добавлять каждый узел, лучше следовать логике подписи сертификатов узлов корневым и добавлять его в truststore - это помогает не обновлять truststore вместе с каждым новым узлом. Это работает, при этом стоит security.server.two_way_ssl=true.
источник

РА

Рамиль Ахмадеев in Data Engineers
Alexander Piminov
Чтобы не добавлять каждый узел, лучше следовать логике подписи сертификатов узлов корневым и добавлять его в truststore - это помогает не обновлять truststore вместе с каждым новым узлом. Это работает, при этом стоит security.server.two_way_ssl=true.
а по-другому вообще не кашерно вроде как
источник

AP

Alexander Piminov in Data Engineers
Рамиль Ахмадеев
а по-другому вообще не кашерно вроде как
@nblagodarnyy выбрал dirty hotfix🙂
источник