Size: a a a

2021 February 22

a

ars0k in Data Engineers
Sergei Zotov
именно так сервис и называется же) с “k” )
Да, спасибо, действительно. Удивительно)
источник

D

Dmitriy in Data Engineers
Привет. Как бы вы подошли к задаче универсального хранилища аннотированных данных(блоб  и разметка)? Так чтобы датасаенсисты могли ходить и  создавать на базе этих данных собственные дата сеты.
источник

D

Dmitriy in Data Engineers
Может какие-то готовые инструменты существуют?
источник

DZ

Dmitry Zuev in Data Engineers
Data governance
источник

AT

Al T in Data Engineers
или metadata catalog?
источник

DZ

Dmitry Zuev in Data Engineers
Al T
или metadata catalog?
Как часть дг
источник

f

f in Data Engineers
Dmitry Zuev
Data governance
А можете поделиться описанием хорошего примера реализации дг? Например, статьей, в которой описано что делали, какие инструменты брали, что получилось сделать, что не получилось.
источник

DZ

Dmitry Zuev in Data Engineers
У нас все своё, свои инструменты и свой путь
источник

DZ

Dmitry Zuev in Data Engineers
Так пробовал атлас, нууу это не для всех
Амундсена пробовал, но там багов было много
Дата каталог Гугла работал из коробки но не умел в лайнэйдж
источник

DZ

Dmitry Zuev in Data Engineers
Как с процессами это интегрировать дело каждого
источник

AZ

Anton Zadorozhniy in Data Engineers
Dmitriy
Привет. Как бы вы подошли к задаче универсального хранилища аннотированных данных(блоб  и разметка)? Так чтобы датасаенсисты могли ходить и  создавать на базе этих данных собственные дата сеты.
Написал бы, в конце концов это просто метаданные
источник

AZ

Anton Zadorozhniy in Data Engineers
Dmitriy
Может какие-то готовые инструменты существуют?
Нет
источник
2021 February 23

ПБ

Повелитель Бури... in Data Engineers
Dmitry Zuev
Так пробовал атлас, нууу это не для всех
Амундсена пробовал, но там багов было много
Дата каталог Гугла работал из коробки но не умел в лайнэйдж
Мы решили взять атлас и сделать свой амундсен
источник

e

er@essbase.ru in Data Engineers
Возможно вам вот это зайдет
https://github.com/smart-data-lake/smart-data-lake

https://github.com/logicalclocks/hopsworks


И вот эта презентация
https://deordie.com/meetups/04/
источник

I

Ilya in Data Engineers
Вопрос о парарельных вычислениях и параметре num_of_workers, который есть везде где есть оно:
Например работал на коллабе, у него есть2vCPU, это 2 виртуальных процессора, насколько я понимаю.
У себя на компе я поставил num_of_workers в моделях 0 потому что процесс зависал и проблемы делал, по идеи этот параметр нужно в количество процессоров устанавливать, то есть в случае коллаба 2 будет оптимальным?
Или это еще от количества ядер зависит на каждом  cpu в общем?
Как с колабом всмысле ядер не знаю.
источник

AT

Adilkhan Tagibekov in Data Engineers
Всем привет, может кто помочь с записью датафрейма в экселе сделать аппенд новых данных а не запись поверх старых?
источник

R

Renarde in Data Engineers
Hopsworks немного про другое - это распределённый Feature Store, не отдельное решение для датакаталога 🙂
источник
2021 February 24

V

Vasavya in Data Engineers
Any one has (python aws sql) development with exceptional knowledge I have project
источник

C

Combot in Data Engineers
Добро пожаловать в самое дружелюбное комьюнити.
источник

RY

Ruslan515 Y in Data Engineers
Всем привет! Нужна консультация или ссылка на статью. В данный момент используем  cassandra. Данные хранятся за весь промежуток времени. Для оперативной с БД использую kibana ( но данные не за весь период). Мне нужно фильтрануть данные за весь период. В данный момент для этого я выгружаю данные из cassandra затем произвожу манипуляции. Проблема в том, что выгрузка идет часами. Если более корректно сформулировать вопрос:  как работать с cassandra делая запросы "на лету"с фильтрами?
источник