Size: a a a

2020 January 20

SK

Sergej Khakhulin in Data Engineers
Anton Zadorozhniy
а в бою сколько данных?
Ну где то терабайт в день процессим, в планах до 5-6 где то по грубым оценкам
источник

AZ

Anton Zadorozhniy in Data Engineers
36 ядер это да, домашний компьютер
источник

SK

Sergej Khakhulin in Data Engineers
Sergej Khakhulin
Ну где то терабайт в день процессим, в планах до 5-6 где то по грубым оценкам
Сырых из разных источников
источник

SK

Sergej Khakhulin in Data Engineers
Anton Zadorozhniy
36 ядер это да, домашний компьютер
Так это же тестовый
источник

AZ

Anton Zadorozhniy in Data Engineers
Sergej Khakhulin
Ну где то терабайт в день процессим, в планах до 5-6 где то по грубым оценкам
облако или на своем железе?
источник

SK

Sergej Khakhulin in Data Engineers
Anton Zadorozhniy
облако или на своем железе?
Облако
источник

AZ

Anton Zadorozhniy in Data Engineers
Sergej Khakhulin
Облако
тогда точно не нужно ничего своего держать, данные в объектный сторадж, компьют по запросу
источник

EV

Eduard Vlasov in Data Engineers
Ребята, а кто как Flink гоняет на проде? Где можно хорошие практики посмотреть?
источник

EM

Egor Mateshuk in Data Engineers
мы гоняем. у флинка неплохая дока, там довольно много описано и про деплой, и про нюансы выбора конкретных компонент апи. а что конкретно интересует? могу рассказать, что у нас принято:
1) 1 флинк-кластер = 1 джоба
2) везде прописывать uid'ы операторов
3) использовать ттл на стейте - в 99% случаев он нужен
4) мониторинг через прометеус (но не рекомендую, если у вас уже есть какой-нибудь statsd или graphite)
5) деплой и авто-рестарты через самописный watchdog
источник

P

Pavel in Data Engineers
Egor Mateshuk
мы гоняем. у флинка неплохая дока, там довольно много описано и про деплой, и про нюансы выбора конкретных компонент апи. а что конкретно интересует? могу рассказать, что у нас принято:
1) 1 флинк-кластер = 1 джоба
2) везде прописывать uid'ы операторов
3) использовать ттл на стейте - в 99% случаев он нужен
4) мониторинг через прометеус (но не рекомендую, если у вас уже есть какой-нибудь statsd или graphite)
5) деплой и авто-рестарты через самописный watchdog
на кубе, судя по всему?
источник

EM

Egor Mateshuk in Data Engineers
с кубом сейчас тестируемся. вроде успешно, но на прод еще не выкатывали. пока на ярне
источник

P

Pavel in Data Engineers
1 флинк-кластер = 1 джоба

вот это мне показалось таким дичайшим оверхедом...
источник

P

Pavel in Data Engineers
когда джоба всегда 1, ну, прибывают по 1 джобе раз в полгода, то мб, мб....
источник

EM

Egor Mateshuk in Data Engineers
Pavel
1 флинк-кластер = 1 джоба

вот это мне показалось таким дичайшим оверхедом...
не, не в смысле 1 кластер кубера/ярна на 1 джобу) флинк, когда стартует, разворачивает поверх контейнеров, выделенных ярном/кубером, свой кластер для удобства управления, в котором может запустить несколько джоб. но по мне, такой подход неудобен как раз из-за того, что получается кластер поверх кластера, что усложняет работу.
источник

Н

Никита in Data Engineers
Привет, а как лучше грузить файлы на hdfs.
Вот человеку надо грузануть 15 ГБ csv со своей тачки? Я думаю через webhdfs это не самый лучший подход или стоит ему посоветовать поставить hadoop-client с конфигами?
источник

P

Pavel in Data Engineers
Egor Mateshuk
не, не в смысле 1 кластер кубера/ярна на 1 джобу) флинк, когда стартует, разворачивает поверх контейнеров, выделенных ярном/кубером, свой кластер для удобства управления, в котором может запустить несколько джоб. но по мне, такой подход неудобен как раз из-за того, что получается кластер поверх кластера, что усложняет работу.
да, я это понял, то , что 1 джоба крутится на кластере куба/ярна, в котором для одной единственной джобы поднято по одному джоб-менеджеру и таск-менеджеру. вот такая топология: 1 джоба - 1 кластер выглядит как-то слишком жирной. оосбенно если всё это крутится под кубом.
источник

EM

Egor Mateshuk in Data Engineers
лишние ресурсы уходят только на джоб-менеджеры (а это копейки). зато это окупается простотой управления
источник

EV

Eduard Vlasov in Data Engineers
Egor Mateshuk
мы гоняем. у флинка неплохая дока, там довольно много описано и про деплой, и про нюансы выбора конкретных компонент апи. а что конкретно интересует? могу рассказать, что у нас принято:
1) 1 флинк-кластер = 1 джоба
2) везде прописывать uid'ы операторов
3) использовать ттл на стейте - в 99% случаев он нужен
4) мониторинг через прометеус (но не рекомендую, если у вас уже есть какой-нибудь statsd или graphite)
5) деплой и авто-рестарты через самописный watchdog
круто, спасибо
у меня пока нет конкретных вопросов, готовлюсь запускать первый джоб в прод, гоняем на долгоживущем EMR, yarn, стейт буду бросать в s3, собираюсь сделать JM HA
источник

EV

Eduard Vlasov in Data Engineers
» использовать ттл на стейте
вот это не понял
источник

EM

Egor Mateshuk in Data Engineers
Eduard Vlasov
» использовать ттл на стейте
вот это не понял
допустим, считаем мы какие-то действия посетителя на сайте (допустим, пытаемся понять, не мошенник ли он) на протяжении некоторого времени. человек уходит, а накопленная по нему инфа остается в стейте флинка. чтобы постепенно освобождать память, есть TTL, по которому стейт можно чистить. у нас просто было пару случаев, когда народ забывал его воткнуть и стейт начинал медленно, но верно расти, сжирая память и усложняя чекпойнтинг
источник