Size: a a a

Архитектура данных

2018 July 08

DT

Denis Troyan in Архитектура данных
Andrey Shevchenko
Тогда никаких
а как с отказоустойчивостью, exactly-once процессингом и контролем последовательного процессинга и записи?
источник

DT

Denis Troyan in Архитектура данных
не будет ли приколов в виде deadlock’ов при распределенном процессинге в spark, все ноды которого сливают в одну mysql табличку?
источник

AS

Andrey Shevchenko in Архитектура данных
Denis Troyan
а как с отказоустойчивостью, exactly-once процессингом и контролем последовательного процессинга и записи?
Exactly-once процессинг ИМХО это миф
источник

AS

Andrey Shevchenko in Архитектура данных
Denis Troyan
не будет ли приколов в виде deadlock’ов при распределенном процессинге в spark, все ноды которого сливают в одну mysql табличку?
Вообще по опыту лучше так не делать
источник

DT

Denis Troyan in Архитектура данных
Andrey Shevchenko
Вообще по опыту лучше так не делать
а как лучше делать?
источник

AS

Andrey Shevchenko in Архитектура данных
Хотя на такой низкой частоте проблем быть особо не должно
источник

AS

Andrey Shevchenko in Архитектура данных
Denis Troyan
а как лучше делать?
Писать в in-memory хранилище типо Redis
источник

DT

Denis Troyan in Архитектура данных
Andrey Shevchenko
Писать в in-memory хранилище типо Redis
а его с mysql синхронизировать?
источник

AS

Andrey Shevchenko in Архитектура данных
Да, в нужную под запросы структуру
источник

DT

Denis Troyan in Архитектура данных
Andrey Shevchenko
Да, в нужную под запросы структуру
а чем из redis в mysql лить?
источник

AS

Andrey Shevchenko in Архитектура данных
Это такая speed ветка lambda архитектуры получается
источник

DT

Denis Troyan in Архитектура данных
хочется снизить время появления данных в mysql. Интуиция подсказывает, что kafka -> spark -> redis -> ? -> Mysql будет медленнее kafka -> spark -> mysql
источник

DT

Denis Troyan in Архитектура данных
(и больше зоопарк => точек отказа)
источник

AS

Andrey Shevchenko in Архитектура данных
Можно лить сразу, но вроде помнится ловили неконсистентность
источник

DT

Denis Troyan in Архитектура данных
Andrey Shevchenko
Можно лить сразу, но вроде помнится ловили неконсистентность
из-за параллельного писания спарком?
источник

AS

Andrey Shevchenko in Архитектура данных
Да, надо внимательно за партиционированием в ссмом spark следить
источник

AS

Andrey Shevchenko in Архитектура данных
Вообще, in general подход вполне рабочий
источник

AS

Andrey Shevchenko in Архитектура данных
Вместо spark streaming под эту задачу посмотрите еще flink
источник

DT

Denis Troyan in Архитектура данных
ну, в моем случае неконсистентость на короткий промежуток времени - не беда. Данные доедут - станет все хорошо
источник

AS

Andrey Shevchenko in Архитектура данных
Denis Troyan
ну, в моем случае неконсистентость на короткий промежуток времени - не беда. Данные доедут - станет все хорошо
Ок, посмотрите еще в сторону Flink
источник