Телеграмм чат группы hadoopusers страница 1676

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

1724 membersпожаловаться на группу

2019 October 07

AZ

Anton Zadorozhniy in Data Engineers

а, ну тут про модель, а не про сами данные

А, у вас в запросе на скоринг не содержится данных? Тогда я просто вас неправильно понял, это просто передача данных по ключу от одного приложения другому, модели тут не причём :)

источник

00:03пожаловаться #1

EV

Eduard Vlasov in Data Engineers

там не скоринг а атрибуция :)

источник

00:03пожаловаться #2

EV

Eduard Vlasov in Data Engineers

она считается на куче данных которые есть в даталейке и ее нужно обратно отдать

источник

00:04пожаловаться #3

EV

Eduard Vlasov in Data Engineers

самодельная гугл аналитика короче

источник

00:04пожаловаться #4

VS

Vladislav 👻 Shishkov in Data Engineers

А YT выходило куда-нибудь за рамки яндекса ?

Пускай там дальше и сидит

источник

00:48пожаловаться #5

S

Stanislav in Data Engineers

кто в курсе внутренней кухни, феникс5 под хбейз 2 скорее жив или мертв?
с релизами совсем не ладится по сравнению с 4 :(

источник

08:09пожаловаться #6

К

Костя in Data Engineers

Всем привет!
Кто нибудь женил на EMR pyspark+hive+oozie?
Выше видел обсуждения (https://stackoverflow.com/questions/45477155/missing-hive-site-when-using-spark-submit-yarn-cluster-mode), не помогло.
Делаю сабмит скрипта - видит hive таблицы.
Запускаю тоже самое через oozie - падает с Error while instantiating 'org.apache.spark.sql.hive.HiveExternalCatalog
Пробовал подкладывать hive-site.xml через --files, spark.yarn.dist.file

Missing hive-site when using spark-submit YARN cluster mode

Using HDP 2.5.3 and I've been trying to debug some YARN container classpath issues.

Since HDP includes both Spark 1.6 and 2.0.0, there have been some conflicting versions

Users I support are

источник

16:44пожаловаться #7

OI

Oleg Ilinsky in Data Engineers

Привет!
Вопрос насчёт spark streaming. Если запустить штук 20 стримов, то даже при dynamic allocation минимум будет сожрано 20 ядер + оперативка в объеме 20x<executor memory>? Или это можно как-то обойти?

источник

19:05пожаловаться #8

A

Alex in Data Engineers

про тот который structural стриминг не могу сказать
но в остальном там же драйвер раз сколько-то времени чекает статус в очереди, делает нарезку тасков и шедулит их на воркеры с “лопать от сих до сих”

источник

19:06пожаловаться #9

OI

Oleg Ilinsky in Data Engineers

у меня structured streaming(

источник

19:08пожаловаться #10

OI

Oleg Ilinsky in Data Engineers

и чёт пока они все висят

источник

19:08пожаловаться #11

OI

Oleg Ilinsky in Data Engineers

в смысле, что ожидая новые данные держат и ядра и оперативку у себя

источник

19:08пожаловаться #12

GP

Grigory Pomadchin in Data Engineers

Привет!
Вопрос насчёт spark streaming. Если запустить штук 20 стримов, то даже при dynamic allocation минимум будет сожрано 20 ядер + оперативка в объеме 20x<executor memory>? Или это можно как-то обойти?

а ты пробовал насильно колво партиций ставить? (ради эксперимента)

источник

19:15пожаловаться #13

GP

Grigory Pomadchin in Data Engineers

количество сожраных ядер и выделеных ехекуторов определяется количеством партиций

источник

19:15пожаловаться #14

GP

Grigory Pomadchin in Data Engineers

стрим по дефолту может обрабатывать только один батч (имею ввиду одну 'стрим жобу' / один стрим кусок за раз)

типа он сожрал инпут из кафки - пока все не отпроцессит - след порцию не возьмет (ехекуторы будут все проставивать пока самый последний ехекутор не допроцессит)

источник

19:15пожаловаться #15

GP

Grigory Pomadchin in Data Engineers

там есть флаг, который разрешает поставить число паралельных бачтей в одно время отрабатываемых spark.streaming.concurrentJobs

источник

19:15пожаловаться #16

A

Alex in Data Engineers

у меня structured streaming(

ошибся, я имел в виду именно Continuous processing
там топология деплоит и процессит вроде как постоянно

источник

19:22пожаловаться #17

АЖ

Андрей Жуков in Data Engineers

Grigory Pomadchin

там есть флаг, который разрешает поставить число паралельных бачтей в одно время отрабатываемых spark.streaming.concurrentJobs

хм, то есть типа можно ограничить количество вычитываемых топиков в одном приложении

источник

20:27пожаловаться #18

GP

Grigory Pomadchin in Data Engineers

Андрей Жуков

хм, то есть типа можно ограничить количество вычитываемых топиков в одном приложении

это зависит от конфиугарции джобы)

источник

20:30пожаловаться #19

АЖ

Андрей Жуков in Data Engineers

Grigory Pomadchin

это зависит от конфиугарции джобы)

это понятно, я как раз об этом и начал думать
надо побаловаться с настройками

источник

20:31пожаловаться #20