Size: a a a

2021 January 21

K

KrivdaTheTriewe in Data Engineers
Anton Zadorozhniy
я сам мало читаю, год назад под промоушеном попал в продукты, и у нас есть тут специальная группа которые собирает маркет ресерч по нашим и смежным темам, читаю их дайджесты
круто вам, а дайджесты не публичные или за доллар купить можно?
источник

AZ

Anton Zadorozhniy in Data Engineers
KrivdaTheTriewe
круто вам, а дайджесты не публичные или за доллар купить можно?
нет, не публичные, сорян
источник

AZ

Anton Zadorozhniy in Data Engineers
за доллар купить точно можно, но не прям наши, а то что они покупают - IDC, Gartner, какие-то еще маркет ресерчеры
источник

A

Alex in Data Engineers
Vasiliy
Большое спасибо за хорошее настроение)
там рассмотрено достаточно много типовых настроек и ошибок конфигурации
и очень хорошо прошлись по тому как это всё дебажить если что-то не работает

так как в обычных книгах просто говорят “вот такая и такая команда, настроили, полетели”
источник

AZ

Anton Zadorozhniy in Data Engineers
Dmitry Mischenko
Всем привет!
Может кто-то знает способы разграничения доступов к категориям данных в Snowflake (или чем-то похожем). Там стандартный RBAC внутри работает.
Т.е. допустим есть исходная таблица с данными 2х разных категрий (ПД и мед.данные, например).
И можно предоставить доступ юзеру к ней только, если у него есть права на обе категории.

Проблема в том, что категорий много и создавать  отдельные роли -  каждую на комбинации всех категорий - не очень решение.
Пока есть идея отдельно просто сбоку менеджить доступ Юзеров к отдельным категоризированным таблицам (их много =( )  другим прикладом, который читает мету о категориях.
обычно это делается через row-level security, где вы во вьюшках ограничиваете доступ по WHERE COLUMN_X = CURRENT_ROLE() / CURRENT_USER() и даете пользователям только эти вьюшки
если у вас мед данные, то скорее всего (HIPAA и аналоги) у вас есть формальная security model, где говорится каким ролям что можно; в лучше домах роли в базе просто генерируются из security model + метаданные в дата каталоге (оттуда берется классификация данных), в этом смысле много или мало ролей не очень важно (держа в уме особенности конкретной СУБД)
источник

DM

Dmitry Mischenko in Data Engineers
Anton Zadorozhniy
обычно это делается через row-level security, где вы во вьюшках ограничиваете доступ по WHERE COLUMN_X = CURRENT_ROLE() / CURRENT_USER() и даете пользователям только эти вьюшки
если у вас мед данные, то скорее всего (HIPAA и аналоги) у вас есть формальная security model, где говорится каким ролям что можно; в лучше домах роли в базе просто генерируются из security model + метаданные в дата каталоге (оттуда берется классификация данных), в этом смысле много или мало ролей не очень важно (держа в уме особенности конкретной СУБД)
формальная - да, есть. Вопрос как раз в конечной реалзиации над Rbac. Ну вот твой вариант с data-каталогом и генерацией ролей  - это и есть как раз то, что я писал про сочетания ролей для разных категорий. Спасибо - подумаю как его можно юудет проработать (правильные апдейты  категорий, ролей, доступов).
Про вьюшки и row-level security  почитаю, спасибо.
источник

AZ

Anton Zadorozhniy in Data Engineers
Dmitry Mischenko
формальная - да, есть. Вопрос как раз в конечной реалзиации над Rbac. Ну вот твой вариант с data-каталогом и генерацией ролей  - это и есть как раз то, что я писал про сочетания ролей для разных категорий. Спасибо - подумаю как его можно юудет проработать (правильные апдейты  категорий, ролей, доступов).
Про вьюшки и row-level security  почитаю, спасибо.
вообще в вашей отрасли гранты "просто так" не должны выдаваться, человеком или скриптом, они должны всегда ссылаться на какой-то пункт security model, почему этому job title в этом подразделение можно иметь доступ к этим данным.. ну и генерировать можно не только роли, например если у вас автоматизация проектной деятельности в MR, то там обычно генерируют схему с вьюшками (или материализуют в таблицах) подмножество данных по манифесту проекта, и дают ресерчерам роль которая ровно под этот проект
источник

N

Nikita in Data Engineers
Дядяньки, такой ситуасьён. В хайв таблицу решили добавить поле, при этом альтер висел около часа. Тот же альтер на дев таблице, где мало данных, отработал почти моментально. Мозговым штурмом пришли к выводу, что хайв что-то делал с партициями (их достаточно много), хотя мне казалось что он с самими партициями ничего делать не должен. Что это было?)
источник

N

Nikita Blagodarnyy in Data Engineers
Nikita
Дядяньки, такой ситуасьён. В хайв таблицу решили добавить поле, при этом альтер висел около часа. Тот же альтер на дев таблице, где мало данных, отработал почти моментально. Мозговым штурмом пришли к выводу, что хайв что-то делал с партициями (их достаточно много), хотя мне казалось что он с самими партициями ничего делать не должен. Что это было?)
А в логе че пишут?
источник
2021 January 22

N

Nikita Blagodarnyy in Data Engineers
Что это за новый вид спама?
источник

GP

Grigory Pomadchin in Data Engineers
Nikita Blagodarnyy
Что это за новый вид спама?
а фиг знает, в спарк группе еще более странный спам) спамят московскими либеральными новостями
источник

KS

K S in Data Engineers
Nikita
Дядяньки, такой ситуасьён. В хайв таблицу решили добавить поле, при этом альтер висел около часа. Тот же альтер на дев таблице, где мало данных, отработал почти моментально. Мозговым штурмом пришли к выводу, что хайв что-то делал с партициями (их достаточно много), хотя мне казалось что он с самими партициями ничего делать не должен. Что это было?)
Мне тоже интересно, час назад запустил запрос в hive -
create external table [bla] location hdfs:/name_node123:8020/path/to/dir

до сих пор висит.
источник

RD

Red Dust in Data Engineers
why is this?
источник

M

Mino in Data Engineers
Всех приветствую, подскажите, как вам книга Data Engineering with Python, автор Paul Crickard?
источник

M

Mino in Data Engineers
источник

В

Вовчик in Data Engineers
Ребят привет, относительно недавно работаю Big Data разработчиком. Я хотел бы найти интересную тему для курсовой работы по области применения Big Data - может кто помочь с темой?
источник

NN

Nordic Nordic in Data Engineers
Mino
Всех приветствую, подскажите, как вам книга Data Engineering with Python, автор Paul Crickard?
Yest,pdf versiya mojna pocitat. Ya nashek kstati,Sposiba za knijku smotratsa ocen interestnoy
источник

M

Mino in Data Engineers
Nordic Nordic
Yest,pdf versiya mojna pocitat. Ya nashek kstati,Sposiba za knijku smotratsa ocen interestnoy
what's your native language?
источник

NN

Nordic Nordic in Data Engineers
Mino
what's your native language?
Azeri
источник

KS

K S in Data Engineers
Народ, можно ли сохранять файлы в формате delta lake в AWS S3 и таким образом иметь upsert?
источник