Size: a a a

2021 February 09

AZ

Anton Zadorozhniy in Data Engineers
ну то есть оно есть, но на каждый automl пайплайн есть десятки ручных xgboost классификаторов в продакшене
источник

D

Dmitry in Data Engineers
Anton Zadorozhniy
feature store для людей кто строит аналитику это витрина с дополнительными метаданными вокруг нее, в этом смысле это может быть зависимая или независимая витрина, все приемы по перестройке витрин работают
а где почитать про приемы ? мне пока не понятно. этот feature store зависит от тучи источников, некоторые источники раз в 30 минут доставляют изменения.  метаданные есть, но ресурсов каждые 30 минут вычислять на каких адресах оказались измененные строки и какие агрегаты устарели проблематично
при этом адрес лишь одно из измерений
источник

AZ

Anton Zadorozhniy in Data Engineers
Dmitry
а где почитать про приемы ? мне пока не понятно. этот feature store зависит от тучи источников, некоторые источники раз в 30 минут доставляют изменения.  метаданные есть, но ресурсов каждые 30 минут вычислять на каких адресах оказались измененные строки и какие агрегаты устарели проблематично
при этом адрес лишь одно из измерений
Я не знаю где прям почитать (давно перешёл на тренерскую работу), тут коллеги подскажут, но обычно для зависимых витрин мы отталкивались от технических метаданных в детальках, все эти job_id которые показывают какие изменения грузились в каких процессах.. ну или у вас вообще может быть детальный слой событийный, без особой интеграции и нормализации, тогда все ещё проще
источник

AZ

Anton Zadorozhniy in Data Engineers
Ну и если у вас хорошая БД то всегда можно сделать логическую витрину ;)
источник

N

Nikita Blagodarnyy in Data Engineers
Anton Zadorozhniy
Ну и если у вас хорошая БД то всегда можно сделать логическую витрину ;)
Терадата, например.
источник

K

KrivdaTheTriewe in Data Engineers
Nikita Blagodarnyy
Терадата, например.
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikita Blagodarnyy
Терадата, например.
this
источник

AS

Andrey Smirnov in Data Engineers
Nikita Blagodarnyy
Они ж вроде платные все были, H20  точно.
А эти чудики с vanish gradient что бесплатные, ещё и выгорают
источник

AZ

Anton Zadorozhniy in Data Engineers
То что инструмент платный разве его как-то дисквалифицирует? Вон Dataiku платный тож, но какой успех имеет
источник

Н

Никита in Data Engineers
Всем привет, кто-нибудь столкнулся с тем, что cdh стала теперь не бесплатной с 31 января
источник

СХ

Старый Хрыч... in Data Engineers
hdfs dfsadmin -setBalancerBandwidth
позволяет настроить пропускную способность для балансировщика hdfs, а как посмотреть какая сейчас стоит?
источник

СХ

Старый Хрыч... in Data Engineers
Никита
Всем привет, кто-нибудь столкнулся с тем, что cdh стала теперь не бесплатной с 31 января
пол года на сайте висело что она станет платной
источник

Н

Никита in Data Engineers
мне ни разу не приходилось заходить на сайт, только в репозиторий сборка ходит
источник

Н

Никита in Data Engineers
а что делать 10 тыщ долларов платить за ноду судя по https://www.cloudera.com/products/pricing.html
источник

AZ

Anton Zadorozhniy in Data Engineers
Старый Хрыч
hdfs dfsadmin -setBalancerBandwidth
позволяет настроить пропускную способность для балансировщика hdfs, а как посмотреть какая сейчас стоит?
dfs.balance.bandwidthPerSec но если задал - оно в памяти только есть, можно вроде как-то посмотреть в JMX
источник

СХ

Старый Хрыч... in Data Engineers
Никита
а что делать 10 тыщ долларов платить за ноду судя по https://www.cloudera.com/products/pricing.html
больше увы, читай ниже
источник

СХ

Старый Хрыч... in Data Engineers
звёздочку
источник

Н

Никита in Data Engineers
Я просто хотел уточнить, это же цена для баре метал? У меня свой кластер
источник

Н

Никита in Data Engineers
Если да, то может кто знает куда можно переехать, чтобы недорого))
источник

A

Alex in Data Engineers
В облака, все уходят в облака
источник