Size: a a a

2019 October 07

AZ

Anton Zadorozhniy in Data Engineers
Eduard Vlasov
а, ну тут про модель, а не про сами данные
А, у вас в запросе на скоринг не содержится данных? Тогда я просто вас неправильно понял, это просто передача данных по ключу от одного приложения другому, модели тут не причём :)
источник

EV

Eduard Vlasov in Data Engineers
там не скоринг а атрибуция :)
источник

EV

Eduard Vlasov in Data Engineers
она считается на куче данных которые есть в даталейке и ее нужно обратно отдать
источник

EV

Eduard Vlasov in Data Engineers
самодельная гугл аналитика короче
источник

VS

Vladislav 👻 Shishkov in Data Engineers
O. Petr
А YT выходило куда-нибудь за рамки яндекса ?
Пускай там дальше и сидит
источник

S

Stanislav in Data Engineers
кто в курсе внутренней кухни, феникс5 под хбейз 2 скорее жив или мертв?
с релизами совсем не ладится по сравнению с 4 :(
источник

К

Костя in Data Engineers
Всем привет!
Кто нибудь женил на EMR pyspark+hive+oozie?
Выше видел обсуждения (https://stackoverflow.com/questions/45477155/missing-hive-site-when-using-spark-submit-yarn-cluster-mode), не помогло.
Делаю сабмит скрипта - видит hive таблицы.
Запускаю тоже самое через oozie - падает с Error while instantiating 'org.apache.spark.sql.hive.HiveExternalCatalog
Пробовал подкладывать hive-site.xml через --files, spark.yarn.dist.file
источник

OI

Oleg Ilinsky in Data Engineers
Привет!
Вопрос насчёт spark streaming. Если запустить штук 20 стримов, то даже при dynamic allocation минимум будет сожрано 20 ядер + оперативка в объеме 20x<executor memory>? Или это можно как-то обойти?
источник

A

Alex in Data Engineers
про тот который structural стриминг не могу сказать
но в остальном там же драйвер раз сколько-то времени чекает статус в очереди, делает нарезку тасков и шедулит их на воркеры с “лопать от сих до сих”
источник

OI

Oleg Ilinsky in Data Engineers
у меня structured streaming(
источник

OI

Oleg Ilinsky in Data Engineers
и чёт пока они все висят
источник

OI

Oleg Ilinsky in Data Engineers
в смысле, что ожидая новые данные держат и ядра и оперативку у себя
источник

GP

Grigory Pomadchin in Data Engineers
Oleg Ilinsky
Привет!
Вопрос насчёт spark streaming. Если запустить штук 20 стримов, то даже при dynamic allocation минимум будет сожрано 20 ядер + оперативка в объеме 20x<executor memory>? Или это можно как-то обойти?
а ты пробовал насильно колво партиций ставить? (ради эксперимента)
источник

GP

Grigory Pomadchin in Data Engineers
количество сожраных ядер и выделеных ехекуторов определяется количеством партиций
источник

GP

Grigory Pomadchin in Data Engineers
стрим по дефолту может обрабатывать только один батч (имею ввиду одну 'стрим жобу' / один стрим кусок за раз)

типа он сожрал инпут из кафки - пока все не отпроцессит - след порцию не возьмет (ехекуторы будут все проставивать пока самый последний ехекутор не допроцессит)
источник

GP

Grigory Pomadchin in Data Engineers
там есть флаг, который разрешает поставить число паралельных бачтей в одно время отрабатываемых spark.streaming.concurrentJobs
источник

A

Alex in Data Engineers
Oleg Ilinsky
у меня structured streaming(
ошибся, я имел в виду именно Continuous processing
там топология деплоит и процессит вроде как постоянно
источник

АЖ

Андрей Жуков in Data Engineers
Grigory Pomadchin
там есть флаг, который разрешает поставить число паралельных бачтей в одно время отрабатываемых spark.streaming.concurrentJobs
хм, то есть типа можно ограничить количество вычитываемых топиков в одном приложении
источник

GP

Grigory Pomadchin in Data Engineers
Андрей Жуков
хм, то есть типа можно ограничить количество вычитываемых топиков в одном приложении
это зависит от конфиугарции джобы)
источник

АЖ

Андрей Жуков in Data Engineers
Grigory Pomadchin
это зависит от конфиугарции джобы)
это понятно, я как раз об этом и начал думать
надо побаловаться с настройками
источник