Size: a a a

2019 August 06

GA

Gleb Abroskin in Data Engineers
Anton Zadorozhniy
Ну у вас стейт как-то внутри структурирован? Какая-то hashmap где что-то хранится, иногда обновляется - храните построчно в базе, обновляйте построчно, да при холодной записи базе придётся вытащить все, но вы же не каждую минуту холодного воркера выдаете?
нет, это просто гигантский бинарь для алгоритма внутри executor’a
источник

GP

Grigory Pomadchin in Data Engineers
а проблема стейта может решаться и встроеными чекпойнтами (правда очень плохо) но для POC, почему нет?
источник

AZ

Anton Zadorozhniy in Data Engineers
Gleb Abroskin
нет, это просто гигантский бинарь для алгоритма внутри executor’a
Это DL модель? Ну для этого все уже готовое есть
источник

GA

Gleb Abroskin in Data Engineers
Anton Zadorozhniy
Это DL модель? Ну для этого все уже готовое есть
хз, HNSW это DL или нет, но там он
источник

GA

Gleb Abroskin in Data Engineers
Anton Zadorozhniy
Это DL модель? Ну для этого все уже готовое есть
да, можно рассматривать как DL модель, я думаю
источник

AZ

Anton Zadorozhniy in Data Engineers
HNSW это граф вроде бы, но суть та же
источник

GA

Gleb Abroskin in Data Engineers
Anton Zadorozhniy
Это DL модель? Ну для этого все уже готовое есть
да, идея одна. А можно, пожалуйста, пример готовых решений, упомянутых тут?
источник

AZ

Anton Zadorozhniy in Data Engineers
ну для DL есть TF Serving
источник

GA

Gleb Abroskin in Data Engineers
Anton Zadorozhniy
ну для DL есть TF Serving
это не совсем то, потому что просто позволяет сделать HTTP морду вокруг готовой tf модели и только tf, емнип, но спасибо за наводку
источник

AZ

Anton Zadorozhniy in Data Engineers
Gleb Abroskin
это не совсем то, потому что просто позволяет сделать HTTP морду вокруг готовой tf модели и только tf, емнип, но спасибо за наводку
ну вам конечно не подойдет, и там по-моему grpc внутри, но как концепция - норм
источник

AZ

Anton Zadorozhniy in Data Engineers
Я думаю Spark для вашей задачи будет муторно использовать, да и судя по всему latency нужно будет маленький, я бы посмотрел на то чтобы написать самим на акке или на голанге
источник

GP

Grigory Pomadchin in Data Engineers
Anton Zadorozhniy
Я думаю Spark для вашей задачи будет муторно использовать, да и судя по всему latency нужно будет маленький, я бы посмотрел на то чтобы написать самим на акке или на голанге
я там выше добавить хотел, не помню добавил или нет
что тут является аккой? ты имеешь ввиду распределнный акка кластер?
источник

GP

Grigory Pomadchin in Data Engineers
если да - то это может не решить проблемы; оно не всегда работает как ожидается
источник

AZ

Anton Zadorozhniy in Data Engineers
Grigory Pomadchin
если да - то это может не решить проблемы; оно не всегда работает как ожидается
Это справедливо для любой нетривиальной технологии)
источник

AZ

Anton Zadorozhniy in Data Engineers
Я имел в виду что чисто семантически это даже не потоковая обработка, это запрос-ответ с бизнес логикой, Спарк тут как корове седло (хотя история знает некоторое количество коров с седлами)
источник

GP

Grigory Pomadchin in Data Engineers
Anton Zadorozhniy
Это справедливо для любой нетривиальной технологии)
возможно, но я конкретно про акку говорил; и акка тривиальна как раз

использовать ее муторно из-за этого
источник

GP

Grigory Pomadchin in Data Engineers
Anton Zadorozhniy
Я имел в виду что чисто семантически это даже не потоковая обработка, это запрос-ответ с бизнес логикой, Спарк тут как корове седло (хотя история знает некоторое количество коров с седлами)
тут согласен
источник

RI

Rustam Iksanov in Data Engineers
Инженеры! Подскажите. Запускаю  спарк джобу через spark submit. Через —jar указываю зависимость. В итоге джоба встает, а потом в логах сообщения вида: WARN ServletHandler: Error for /static/spark-logo-77x50px-hd.png при этом джоба складывает данные из паркетов в phoenix
источник

GP

Grigory Pomadchin in Data Engineers
Rustam Iksanov
Инженеры! Подскажите. Запускаю  спарк джобу через spark submit. Через —jar указываю зависимость. В итоге джоба встает, а потом в логах сообщения вида: WARN ServletHandler: Error for /static/spark-logo-77x50px-hd.png при этом джоба складывает данные из паркетов в phoenix
это ошибка юайки
юай работает?
источник

GP

Grigory Pomadchin in Data Engineers
я бы ожидал что он еще дальше бы ругался на java.lang.NoSuchMethodError: javax.servlet.http...
источник