Size: a a a

2019 October 08

EN

Eldar Nezametdinov in Data Engineers
#hive3 #spark
есть супертупой вопрос, который слабо гуглится
создают managed таблицу в Hive3 через spark sql (через зеппелин)
create table table_name stored as orc as select *.....
она создается, я вижу по ее пути папку /base_0000000/
в ней видимо одну партицию 00000000_0

но при попытке прочитать обратно через %sql я получаю пустой датафрейм...
может кто знает что это?? почему можно записать и нельзя прочесть??
источник

M

Mi in Data Engineers
Eldar Nezametdinov
#hive3 #spark
есть супертупой вопрос, который слабо гуглится
создают managed таблицу в Hive3 через spark sql (через зеппелин)
create table table_name stored as orc as select *.....
она создается, я вижу по ее пути папку /base_0000000/
в ней видимо одну партицию 00000000_0

но при попытке прочитать обратно через %sql я получаю пустой датафрейм...
может кто знает что это?? почему можно записать и нельзя прочесть??
А вы пробовали читать сам файл, смотреть что внутри него есть данные?
источник

EN

Eldar Nezametdinov in Data Engineers
там данные есть, надо через orcdump , через - cat -text такое себе) но видно кусочки данных
источник

S

Stanislav in Data Engineers
Nikita Blagodarnyy
Данных миллиарда 3 строк на ~120 Гб
Вопрос - стоит ли городить бигдату ради 120 гиг. В память одного сервера влазит вроде
источник

M

Mi in Data Engineers
Eldar Nezametdinov
там данные есть, надо через orcdump , через - cat -text такое себе) но видно кусочки данных
источник

EN

Eldar Nezametdinov in Data Engineers
норм
источник

EN

Eldar Nezametdinov in Data Engineers
спасиб
источник

N

Nata in Data Engineers
Привет. Есть специфический вопрос к пользователям GKE. Мы с коллегой тестим Dataflow. Есть в гугле там же (тот же проект, регион) в дефолт нетворке кафка с private и external IP. в пйаплайне запускается kafka-consumer. Так вот он успешно коннектится на External IP kafka, а на Internal - никак. Пробовала ключ no_use_public_ips - никакой разницы. такое ощущение, что до вызова pipeline.run на воркерах оно проверяется на cloudshell'e, который доступа к internal network не имеет. Если кто сталкивался с подобными, помогите советом :)
источник

N

Nikita Blagodarnyy in Data Engineers
Stanislav
Вопрос - стоит ли городить бигдату ради 120 гиг. В память одного сервера влазит вроде
Ее никто и не городит.
источник

N

Nikita Blagodarnyy in Data Engineers
Вопрос был только про кэш горячих данных
источник

S

Stanislav in Data Engineers
Кеш - кв? Просто непонятно откуда Игнит. Тот же хбейз достаточно быстро отдает кв. Или требования меньше 50мс?
источник
2019 October 09

N

Nikita Blagodarnyy in Data Engineers
Stanislav
Кеш - кв? Просто непонятно откуда Игнит. Тот же хбейз достаточно быстро отдает кв. Или требования меньше 50мс?
Нет, не кв. Доступ не только по ключу может быть. Оттого и игнит. В феникс и так уже долбят и ему плохо от этого
источник

D

Demidoff in Data Engineers
Про Инфосистемы Джет у кого-нить есть инфо? Насколько они грамотны в части администрирования хадупа?
источник

DM

Daniel Matveev in Data Engineers
это большая контора, вот и весь ответ
источник

K

KrivdaTheTriewe in Data Engineers
источник

AE

Alexey Evdokimov in Data Engineers
^ это типа «свершилось», или ещё нет?
источник

DM

Daniel Matveev in Data Engineers
Alexey Evdokimov
^ это типа «свершилось», или ещё нет?
См фикс вершн
источник

GP

Grigory Pomadchin in Data Engineers
Alexey Evdokimov
^ это типа «свершилось», или ещё нет?
женкинс ранается и юнит тесты проходят, но им нужно больше; все только в мастере
источник

AE

Alexey Evdokimov in Data Engineers
ясно, ещё подождём
источник

РА

Рамиль Ахмадеев in Data Engineers
Nikita Blagodarnyy
Нет, не кв. Доступ не только по ключу может быть. Оттого и игнит. В феникс и так уже долбят и ему плохо от этого
а то игнит не кв….
источник