Телеграмм чат группы hadoopusers страница 1694

Всем привет! Может ли AWS EMR HBase поддерживать пропускную способность в 12000 записей в секунду, когда средний размер записи 10 КБ, но есть записи до 15 МБ без сжатия? Какая может быть рекомендована конфигурация и вариант хранилища?

источник

10:22пожаловаться #4

A

Alex in Data Engineers

писать батчами, а не по одному =) главная рекомендация для hbase/cassandra/kafka

источник

11:37пожаловаться #5

R

Renarde in Data Engineers

Сап всем, а есть кто на Spark AI Summit в Амстере сейчас?

источник

11:39пожаловаться #6

DZ

Dmitry Zuev in Data Engineers

Напиши в Спарк

источник

12:00пожаловаться #7

DZ

Dmitry Zuev in Data Engineers

https://t.me/moscowspark

источник

12:00пожаловаться #8

VS

Vitaliy Shevchenko in Data Engineers

Есть проблема может кто подскажет как решить. В ярне зависает app со статусом NEW_SAVING. При этом нет ни логов ни чего, понять почему не получается, есть ли настройка в ярне которая убивала бы аппы если они простаивают больше часа ?

M

Есть проблема может кто подскажет как решить. В ярне зависает app со статусом NEW_SAVING. При этом нет ни логов ни чего, понять почему не получается, есть ли настройка в ярне которая убивала бы аппы если они простаивают больше часа ?

а не стоит ли у вас лимит запускаемых app для юзера?

источник

13:26пожаловаться #10

VS

Vitaliy Shevchenko in Data Engineers

Mi

а не стоит ли у вас лимит запускаемых app для юзера?

Стоит 6 app.

источник

13:36пожаловаться #11

R

Roman in Data Engineers

Жмака

Всем привет! Может ли AWS EMR HBase поддерживать пропускную способность в 12000 записей в секунду, когда средний размер записи 10 КБ, но есть записи до 15 МБ без сжатия? Какая может быть рекомендована конфигурация и вариант хранилища?

Надо будет ковыряться с сеткой на кластере. Я глубоко не вникал в этот вопрос. Но на практике заметил, что как будто бы сеть ограничена 1 гигабитом на кластерах с нормальным железом. Например m16.xlarge. А у вас входной поток данных в среднем будет 10кб*12000/1024байта ~117 мегабайт в секунду. Это уже почти предел гигабитной сети. Так что посмотрите про сетки на emr кластере.

источник

13:57пожаловаться #12

R

Roman in Data Engineers

При этом не зависит скоько вы кинули тачек 2,3,7, все - равно на вход гигабит.
Но это я лишь на практике обнаружил. Может чего не так делал по жизни.

источник

13:58пожаловаться #13

Ж

Жмака in Data Engineers

Звучит логично. Спасибо. Вопрос другой где лучше хранить : на s3 или ebs?

источник

13:59пожаловаться #14

VE

Vladimir E. in Data Engineers

Ни разу не слышал чтоб на ebs хранили, но тут как бы ещё вопрос юс кейса. Данные на с3 хранят потому что есть куча инструментов которые могут делать аналитику на этих данных

источник

14:10пожаловаться #15

R

Roman in Data Engineers

Тут нужно считать на прототипе скорее всего. Смотря как часто будете читать. В s3 снимается же плата за трансфер данных.

источник

14:10пожаловаться #16

Ж

Жмака in Data Engineers

Читать не часто. На с3 дешевле, чем ec2 с диском. Читается мало, в основном идет запись, удалений тоже практически нет. Еще вопрос поддерживается ли WAL на SSD в EMR?

источник

15:10пожаловаться #17

K

KrivdaTheTriewe in Data Engineers

ребят, писали ли вы какие- либо DSL для data quality

источник

15:50пожаловаться #18

K

KrivdaTheTriewe in Data Engineers

Условно есть (a:String,b:String,c:String,par:Map[String,String])
параметры a,b,c задают то что лежит в Map
нужно валидировать по внутренностям Map

источник

15:50пожаловаться #19

K

KrivdaTheTriewe in Data Engineers

Интересует именно DSL , а не как валидировать

источник

15:50пожаловаться #20