Size: a a a

2019 July 12

O

Oleg in Data Engineers
Ramzan Bekbulatov
Добрый день! Какие хранилища в проде используют для хранения временных рядов?

Т.е. есть время (таймстемп) и связанное с этим временем значение (джсон). Самые частые запросы это выдать значения за временной интервал, т.е. от одного таймстемпа до другого.

Пока суммарно значений по количеству около миллиарда, ожидается рост до 5-10 млдр. Плюс хочется иметь быструю заливку данных (не критично).
есть спец дб для серий: fluxdb, timescale  я бы потестил их
источник

RB

Ramzan Bekbulatov in Data Engineers
Oleg
есть спец дб для серий: fluxdb, timescale  я бы потестил их
👍🏻
Поизучаю
источник

EN

Eldar Nezametdinov in Data Engineers
influxdb мб
наверно, опечатка выше) 😊
источник

SM

Sergey Mikhalev in Data Engineers
есть еще DRUID, например.
источник

SM

Sergey Mikhalev in Data Engineers
clickhouse, тоже отработает.
источник

SM

Sergey Mikhalev in Data Engineers
Но все зависит от кол-ва данных, там может и любой реляционной базы хватить.
источник

O

Oleg in Data Engineers
influxdb точно
источник

O

Oleg in Data Engineers
а по timescale недвано была статья на медиуме
источник

CO

Chern Oleksander in Data Engineers
Всем привет, а по такому вопросу подскажите? )
БД Postgress
Как лучше хранить группы данных:
1) Делаем приставки в название таблиц типо:
ad_[name]_tbl- реклама
em_[name]_tbl - справочники персонала
2) Каждый блок в отдельную схему?
Я больше склонен к первому, так как много схем, потом хрен напишешь SQL и еще за каждую схему нужно правильно выбрать тблспэйс
Что скажите? Заранее благодарен!
источник
2019 July 13

T

T in Data Engineers
Привет, расскажите пожалуйста как вы мониторите presto. Уменя что то странное происходит, на не большом кластере(10tb ram)  в aws, одна нода каждый раз случайная тихо рестартует без каких либо видимых ошибок в server.log после этого у мастера "едит крыша" и он отстреливает запрос. Пробывал престо  215 и 219
источник

P

Pavel in Data Engineers
Ramzan Bekbulatov
а про Vertica что-то подскажете?
Clickhouse йопта, и вперед))
источник

AB

Andrei Boaghe in Data Engineers
Всем привет))
Есть вопрос по Spark'у;
У меня есть job (join 2-x датафрэймов, для которых сделал репартитон по 3 ключам).
Это job сгенерировал 200 тасков. Job успешно завершился, но 2 таска сфейлились (с OutOfMemory).
Это означает, что я потерял данные, которые обрабатывали эти 2 таска??)
источник

S

Sergii in Data Engineers
Нет, спарк запускает новый таск в замен упавшего
источник

S

Sergii in Data Engineers
на другом узле
источник

S

Sergii in Data Engineers
иначе бы джоба вообще не добежала
источник

S

Sergii in Data Engineers
В  history server должно быть 202 таска, 200 успешных и 2 упавших
источник

S

Sergii in Data Engineers
легко проверить: сделайте count до и после repartition
источник

AB

Andrei Boaghe in Data Engineers
понял, спасибо))
источник

AB

Andrei Boaghe in Data Engineers
Sergii
иначе бы джоба вообще не добежала
а если зафейлится stage, то значит всё плохо?
насколько я знаю, если фейлится определенной кол-во stage (вроде 3?) то фейлится и джоб?
источник

РА

Рамиль Ахмадеев in Data Engineers
Andrei Boaghe
а если зафейлится stage, то значит всё плохо?
насколько я знаю, если фейлится определенной кол-во stage (вроде 3?) то фейлится и джоб?
с тасками это тоже работает
источник