Size: a a a

2021 January 18

AZ

Anton Zadorozhniy in Data Engineers
Konstantin Orzhekhovsky
а я правильно понял что из коробки все собственные примитивы создаются через atlas rest api и нет никакого коннектора, чтобы настроить подключение к РСУБД для автоматического чтения словаря БД ?
в составе атласа - нет, вам нужно сделать две вещи:
1. разработать модель типов в атласе, как вы хотите представлять объекты и связи между ними (это через REST)
2. написать интеграцию которая будет загружать данные из базы в атлас, а также получать обновления (это можно через REST или Кафку сделать)
источник

KO

Konstantin Orzhekhov... in Data Engineers
Anton Zadorozhniy
в составе атласа - нет, вам нужно сделать две вещи:
1. разработать модель типов в атласе, как вы хотите представлять объекты и связи между ними (это через REST)
2. написать интеграцию которая будет загружать данные из базы в атлас, а также получать обновления (это можно через REST или Кафку сделать)
спасибо за разъяснение!
источник

AZ

Anton Zadorozhniy in Data Engineers
Konstantin Orzhekhovsky
спасибо за разъяснение!
на здоровье! это довольно большое упражнение, и в него пускаются только если точно знают что мощь атласа нужна, и там уже много всяких метаданных других систем
источник

KO

Konstantin Orzhekhov... in Data Engineers
Anton Zadorozhniy
на здоровье! это довольно большое упражнение, и в него пускаются только если точно знают что мощь атласа нужна, и там уже много всяких метаданных других систем
Выбор такой... или супер дорогая информатика или условно бесплатный атлас) пока что нужно в этом определиться
источник

AZ

Anton Zadorozhniy in Data Engineers
Konstantin Orzhekhovsky
Выбор такой... или супер дорогая информатика или условно бесплатный атлас) пока что нужно в этом определиться
Атлас это не продукт, а фреймворк..
источник

AZ

Anton Zadorozhniy in Data Engineers
посмотрите на Alation, Lumada, много всяких коммерческих продуктов
источник

AZ

Anton Zadorozhniy in Data Engineers
по моему мнению информатика далеко не самый сильный продукт
источник

KO

Konstantin Orzhekhov... in Data Engineers
Anton Zadorozhniy
Атлас это не продукт, а фреймворк..
Да, информатика из коробки тоже потребует существенной доработки
источник

KO

Konstantin Orzhekhov... in Data Engineers
Anton Zadorozhniy
посмотрите на Alation, Lumada, много всяких коммерческих продуктов
Тоже гляну, что предлагают
источник

AZ

Anton Zadorozhniy in Data Engineers
а если вам просто структуру постгре показать в вебе надо то есть совсем простые инструменты вроде SchemaSpy
источник

AS

Andrey Smirnov in Data Engineers
@asm0dey поздравляю со присвоением высокого звания адвоката
источник

ПФ

Паша Финкельштейн... in Data Engineers
Andrey Smirnov
@asm0dey поздравляю со присвоением высокого звания адвоката
Спасибо :)
источник

SS

Sergey Sheremeta in Data Engineers
дяденьки, у меня опять тупой вопрос: как мне ускорить переименование/перемещение сотен тысяч файлов
из каталожной структуры
/dannie/sosi/bibu/year=2021/month=01/day=01/
в каталожную структуру
/dannie/action=sosi/object=bibu/dt=2021-01-01/

???
источник

K

KrivdaTheTriewe in Data Engineers
Sergey Sheremeta
дяденьки, у меня опять тупой вопрос: как мне ускорить переименование/перемещение сотен тысяч файлов
из каталожной структуры
/dannie/sosi/bibu/year=2021/month=01/day=01/
в каталожную структуру
/dannie/action=sosi/object=bibu/dt=2021-01-01/

???
баш скрипт)
источник

NN

Nordic Nordic in Data Engineers
KrivdaTheTriewe
баш скрипт)
paxoje eto na urovne HDFS
источник

SS

Sergey Sheremeta in Data Engineers
KrivdaTheTriewe
баш скрипт)
а я даже написал скриптец

hdfs dfs -ls -R /dannie/sosi/bibu | grep -v '^drwx' | tr -s " " | cut -d' ' -f8 | sed -r «s#/dannie/(.*)/(.*)/year=(.*)/month=(.*)/day=(.*)#hdfs dfs -mv \0 /dannie/action=\1/object=\2/dt=\3-\4-\5#g" > mv_commands.sh

вот только в нем сотни тысяч «hdfs dfs -mv» - и это капец как медленно работает
источник

SS

Sergey Sheremeta in Data Engineers
если использовать hadoop distcp - то намного быстрее копируются файлы/каталоги. но не могу вкурить как логику переименования всунуть в distcp
источник

С

Сюткин in Data Engineers
Sergey Sheremeta
а я даже написал скриптец

hdfs dfs -ls -R /dannie/sosi/bibu | grep -v '^drwx' | tr -s " " | cut -d' ' -f8 | sed -r «s#/dannie/(.*)/(.*)/year=(.*)/month=(.*)/day=(.*)#hdfs dfs -mv \0 /dannie/action=\1/object=\2/dt=\3-\4-\5#g" > mv_commands.sh

вот только в нем сотни тысяч «hdfs dfs -mv» - и это капец как медленно работает
А кхм, можно уточнить сколько весит 1 файл в среднем?
источник

SS

Sergey Sheremeta in Data Engineers
Сюткин
А кхм, можно уточнить сколько весит 1 файл в среднем?
мегабайт
источник

SS

Sergey Sheremeta in Data Engineers
я сделал пока через split + gnu-parallel:

split -l 100 --numeric-suffixes mv_commands.sh mv_commands_part_
find mv_commands_part_* -print | parallel source


но что-то дурно пахнет
источник