Телеграмм чат группы hadoopusers страница 3268

2021 February 22

a

ars0k in Data Engineers

Sergei Zotov

именно так сервис и называется же) с “k” )

Да, спасибо, действительно. Удивительно)

источник

10:20пожаловаться #1

D

Dmitriy in Data Engineers

Привет. Как бы вы подошли к задаче универсального хранилища аннотированных данных(блоб и разметка)? Так чтобы датасаенсисты могли ходить и создавать на базе этих данных собственные дата сеты.

источник

15:42пожаловаться #2

D

Dmitriy in Data Engineers

Может какие-то готовые инструменты существуют?

источник

15:42пожаловаться #3

DZ

Dmitry Zuev in Data Engineers

Data governance

источник

15:42пожаловаться #4

AT

Al T in Data Engineers

или metadata catalog?

источник

15:57пожаловаться #5

DZ

Dmitry Zuev in Data Engineers

Al T

или metadata catalog?

Как часть дг

источник

16:01пожаловаться #6

f

f in Data Engineers

Dmitry Zuev

Data governance

А можете поделиться описанием хорошего примера реализации дг? Например, статьей, в которой описано что делали, какие инструменты брали, что получилось сделать, что не получилось.

источник

16:24пожаловаться #7

DZ

Dmitry Zuev in Data Engineers

У нас все своё, свои инструменты и свой путь

источник

16:27пожаловаться #8

DZ

Dmitry Zuev in Data Engineers

Так пробовал атлас, нууу это не для всех
Амундсена пробовал, но там багов было много
Дата каталог Гугла работал из коробки но не умел в лайнэйдж

источник

16:28пожаловаться #9

DZ

Dmitry Zuev in Data Engineers

Как с процессами это интегрировать дело каждого

источник

16:29пожаловаться #10

AZ

Anton Zadorozhniy in Data Engineers

Dmitriy

Привет. Как бы вы подошли к задаче универсального хранилища аннотированных данных(блоб и разметка)? Так чтобы датасаенсисты могли ходить и создавать на базе этих данных собственные дата сеты.

Написал бы, в конце концов это просто метаданные

источник

19:36пожаловаться #11

AZ

Anton Zadorozhniy in Data Engineers

Dmitriy

Может какие-то готовые инструменты существуют?

Нет

источник

19:36пожаловаться #12

2021 February 23

ПБ

Повелитель Бури... in Data Engineers

Dmitry Zuev

Так пробовал атлас, нууу это не для всех
Амундсена пробовал, но там багов было много
Дата каталог Гугла работал из коробки но не умел в лайнэйдж

Мы решили взять атлас и сделать свой амундсен

источник

10:17пожаловаться #13

e

er@essbase.ru in Data Engineers

Возможно вам вот это зайдет
https://github.com/smart-data-lake/smart-data-lake

https://github.com/logicalclocks/hopsworks

И вот эта презентация
https://deordie.com/meetups/04/

GitHub

smart-data-lake/smart-data-lake

Framework to quickly build and maintain Smart Data Lakes - smart-data-lake/smart-data-lake

источник

10:19пожаловаться #14

I

Ilya in Data Engineers

Вопрос о парарельных вычислениях и параметре num_of_workers, который есть везде где есть оно:
Например работал на коллабе, у него есть2vCPU, это 2 виртуальных процессора, насколько я понимаю.
У себя на компе я поставил num_of_workers в моделях 0 потому что процесс зависал и проблемы делал, по идеи этот параметр нужно в количество процессоров устанавливать, то есть в случае коллаба 2 будет оптимальным?
Или это еще от количества ядер зависит на каждом cpu в общем?
Как с колабом всмысле ядер не знаю.

источник

11:12пожаловаться #15

AT

Adilkhan Tagibekov in Data Engineers

Всем привет, может кто помочь с записью датафрейма в экселе сделать аппенд новых данных а не запись поверх старых?

источник

11:17пожаловаться #16

R

Renarde in Data Engineers

er@essbase.ru

Возможно вам вот это зайдет
https://github.com/smart-data-lake/smart-data-lake

https://github.com/logicalclocks/hopsworks

И вот эта презентация
https://deordie.com/meetups/04/

GitHub

smart-data-lake/smart-data-lake

Framework to quickly build and maintain Smart Data Lakes - smart-data-lake/smart-data-lake

Hopsworks немного про другое - это распределённый Feature Store, не отдельное решение для датакаталога 🙂

источник

11:19пожаловаться #17

2021 February 24

V

Vasavya in Data Engineers

Any one has (python aws sql) development with exceptional knowledge I have project

источник

05:05пожаловаться #18

C

Combot in Data Engineers

Добро пожаловать в самое дружелюбное комьюнити.

источник

05:52пожаловаться #19

RY

Ruslan515 Y in Data Engineers

Всем привет! Нужна консультация или ссылка на статью. В данный момент используем cassandra. Данные хранятся за весь промежуток времени. Для оперативной с БД использую kibana ( но данные не за весь период). Мне нужно фильтрануть данные за весь период. В данный момент для этого я выгружаю данные из cassandra затем произвожу манипуляции. Проблема в том, что выгрузка идет часами. Если более корректно сформулировать вопрос: как работать с cassandra делая запросы "на лету"с фильтрами?

источник

15:25пожаловаться #20