Size: a a a

2019 October 15

D

Dmitry in Data Engineers
-
источник

Y

Yury in Data Engineers
Dmitry
-
Дим, это не тот чат
источник

N

Nikolay in Data Engineers
Вадим
Ребят, у кого на работе есть data quality отдел?
У нас есть. Но мы на стеке IBM + собственные MDM решения
источник
2019 October 16

Ж

Жмака in Data Engineers
Всем привет! Может ли AWS EMR HBase поддерживать пропускную способность в 12000 записей в секунду, когда средний размер записи 10 КБ, но есть записи до 15 МБ без сжатия? Какая может быть рекомендована конфигурация и вариант хранилища?
источник

A

Alex in Data Engineers
писать батчами, а не по одному =) главная рекомендация для hbase/cassandra/kafka
источник

R

Renarde in Data Engineers
Сап всем, а есть кто на Spark AI Summit в Амстере сейчас?
источник

DZ

Dmitry Zuev in Data Engineers
Напиши в Спарк
источник

DZ

Dmitry Zuev in Data Engineers
источник

VS

Vitaliy Shevchenko in Data Engineers
Есть проблема может кто подскажет как решить. В ярне зависает app со статусом NEW_SAVING. При этом нет ни логов ни чего, понять почему не получается, есть ли настройка в ярне которая убивала бы аппы если они простаивают больше часа ?
источник

M

Mi in Data Engineers
Vitaliy Shevchenko
Есть проблема может кто подскажет как решить. В ярне зависает app со статусом NEW_SAVING. При этом нет ни логов ни чего, понять почему не получается, есть ли настройка в ярне которая убивала бы аппы если они простаивают больше часа ?
а не стоит ли у вас лимит запускаемых app для юзера?
источник

VS

Vitaliy Shevchenko in Data Engineers
Mi
а не стоит ли у вас лимит запускаемых app для юзера?
Стоит 6 app.
источник

R

Roman in Data Engineers
Жмака
Всем привет! Может ли AWS EMR HBase поддерживать пропускную способность в 12000 записей в секунду, когда средний размер записи 10 КБ, но есть записи до 15 МБ без сжатия? Какая может быть рекомендована конфигурация и вариант хранилища?
Надо будет ковыряться с сеткой на кластере. Я глубоко не вникал в этот вопрос. Но на практике заметил, что как будто бы сеть ограничена 1 гигабитом на кластерах с нормальным железом. Например m16.xlarge.  А у вас входной поток данных в среднем будет 10кб*12000/1024байта ~117 мегабайт в секунду. Это уже почти предел гигабитной сети. Так что посмотрите про сетки на emr кластере.
источник

R

Roman in Data Engineers
При этом не зависит скоько вы кинули тачек 2,3,7, все - равно на вход гигабит.
Но это я лишь на практике обнаружил. Может чего не так делал по жизни.
источник

Ж

Жмака in Data Engineers
Звучит логично. Спасибо. Вопрос другой где лучше хранить : на s3 или ebs?
источник

VE

Vladimir E. in Data Engineers
Ни разу не слышал чтоб на ebs хранили, но тут как бы ещё вопрос юс кейса. Данные на с3 хранят потому что есть куча инструментов которые могут делать аналитику на этих данных
источник

R

Roman in Data Engineers
Тут нужно считать на прототипе скорее всего. Смотря как часто будете читать. В s3 снимается же плата за трансфер данных.
источник

Ж

Жмака in Data Engineers
Читать не часто. На с3 дешевле, чем ec2 с диском. Читается мало, в основном идет запись, удалений тоже практически нет. Еще вопрос поддерживается ли WAL на SSD в EMR?
источник

K

KrivdaTheTriewe in Data Engineers
ребят, писали ли вы какие- либо DSL для data quality
источник

K

KrivdaTheTriewe in Data Engineers
Условно есть (a:String,b:String,c:String,par:Map[String,String])
параметры a,b,c задают то что лежит в Map
нужно валидировать по внутренностям Map
источник

K

KrivdaTheTriewe in Data Engineers
Интересует именно DSL , а не как валидировать
источник