Телеграмм чат группы hadoopusers страница 2091

мы делали вот такое решение (не знаю насчет его оптимальности, наш loadtest-ы были в норме).
- на стороне сервиса собирается первичный набор фичей
- этот набор фичей передается на сервак для расчета итогового вектора фичей (сервер на Scala)
- сервак для расчета фичей сохраняет вектор в redis по ключу
- сервис с ключиком обращается в сервис с моделькой
- сервис с моделькой достает вектор фичей из редиса, считает скор и отдает предикт

источник

15:10пожаловаться #11

АЖ

Андрей Жуков in Data Engineers

Dmitry Zuev

Или сервить с плюсов

жестоко

источник

15:10пожаловаться #12

Dmitry Zuev in Data Engineers

Но это если нужно прям по хттп

источник

15:11пожаловаться #13

Dmitry Zuev in Data Engineers

Чем например кафка плюс питон не устраивает?

источник

15:12пожаловаться #14

Renarde in Data Engineers

Dmitry Zuev

Но это если нужно прям по хттп

ну по хттп большие вектора данных гонять это плохая идея, априори

источник

15:12пожаловаться #15

Dmitry Zuev in Data Engineers

Так я про это же

источник

15:12пожаловаться #16

Dmitry Zuev in Data Engineers

То есть в 90% это бред

источник

15:12пожаловаться #17

Renarde in Data Engineers

так вы и не гоняйте их целиком.
передавайте только исходные фичи, а их расчет пусть на сервак ложится, а на сервере оптимизируйте с numba + jit-том

источник

15:13пожаловаться #18

РП

Роман Пашкевич in Data Engineers

Господа. А какой способ передачи данных в HIVE самый адекватно быстрый? Есть цель, максимально быстро выкачивать данные с источника, и класть в партицированную таблицу в HIVE.

В качестве источника сейчас выступает HANA. И способ забора данных по jdbc.

Это раз в 5 быстрей старой схемы через pyrfc. Но все равно медленно.

источник

15:14пожаловаться #19

АЖ

Андрей Жуков in Data Engineers

Dmitry Zuev

Но это если нужно прям по хттп

ну, если задача как-то обернуть во фреймворк и говнякать микросервисы по эксперименты, то можно

Ну а с большими сервисами лучше подумать

источник

15:15пожаловаться #20