Size: a a a

2021 May 07

r

romλn in Data Engineers
Сплитовал на старте таблицы, 9 регионов, i3.4xlarge 5инстанцов, включая мастер на EMR aws
источник

GP

Grigory Pomadchin in Data Engineers
а почему медленно ясно? и медленно это скок мс
источник

r

romλn in Data Engineers
После 40кпс до 4сек ответ
источник

r

romλn in Data Engineers
Выше рейт медленней ответ
источник

r

romλn in Data Engineers
Читаем джавой из лямбд
источник

AS

Andrey Smirnov in Data Engineers
я тут читал статью, у людей был такой же поземный стук при работе со стримами в aws, состояние хранили в rocksdb, статья занимательная как они искали проблему, а сам проблема оказалась тривиальной:  rocksdb был  на s3 b под нагрузкой кеша не хватало, и читать приходилось с диска
источник

AS

Andrey Smirnov in Data Engineers
это не гарантия того что данные по ключу равномерно распределяться, будет у вас один день в одном регионе, и 90% запросов будет к нему
источник

AS

Andrey Smirnov in Data Engineers
вот интересная история борьба за производительность от сбера
https://habr.com/ru/company/sberbank/blog/522546/
кстати их PR смержен
источник

r

romλn in Data Engineers
Ну у нас hbase на с3
источник

GP

Grigory Pomadchin in Data Engineers
почему медленно сначала выясни
источник

GP

Grigory Pomadchin in Data Engineers
типа
источник

GP

Grigory Pomadchin in Data Engineers
медленная фс
источник

GP

Grigory Pomadchin in Data Engineers
неравномерно забиты регион сервера
источник

GP

Grigory Pomadchin in Data Engineers
чтото еще
источник

r

romλn in Data Engineers
И я салтинг делал для равномерного распределения
источник

GP

Grigory Pomadchin in Data Engineers
а были неравномерно?
источник

GP

Grigory Pomadchin in Data Engineers
или стали равномернее?
источник

GP

Grigory Pomadchin in Data Engineers
или прост так посолил чтоб проверить мож решит все
источник

r

romλn in Data Engineers
Изначально да, но разницы не почувствовали
источник

r

romλn in Data Engineers
Просто так решили тестовые таблицы создать что бы чекнуть
источник