Size: a a a

2019 October 06

OP

O. Petr in Data Engineers
А YT выходило куда-нибудь за рамки яндекса ?
источник

OI

Oleg Ivchenko in Data Engineers
O. Petr
А YT выходило куда-нибудь за рамки яндекса ?
Я помню, что в какой-то статье на хабре его даже обещали когда-нибудь в opensource выложить.
источник

AZ

Anton Zadorozhniy in Data Engineers
Eduard Vlasov
Привет ребятки!
Сталкивались ли вы с задачей возврата результатов работы некой модели обратно в продукт или связанные с ним тулы типа CRM, как решали?
Буквально в каждом проекте, операционализация МЛ как раз про то как подать результат скоринга/инференса в точку принятия решения.  Зависит от того что умеет система-приемник и требований актуальности данных, я сталкивался с вариантами от отгрузки таблиц со скорами, до всяких RPC и непосредственно отгрузки модели в устройство.
источник

EV

Eduard Vlasov in Data Engineers
Круто, дам немного контекста,
сейчас модель - это SQL, который персистится и используется для репортинга.  Нужно этот персист отдать в Salesforce и в продукт, вот думаю как это организовать, так как пока что нет такого опыта в компании
По сути это табличка ключ-значение.
источник

AZ

Anton Zadorozhniy in Data Engineers
Eduard Vlasov
Круто, дам немного контекста,
сейчас модель - это SQL, который персистится и используется для репортинга.  Нужно этот персист отдать в Salesforce и в продукт, вот думаю как это организовать, так как пока что нет такого опыта в компании
По сути это табличка ключ-значение.
Начать с того что узнать как продукт и СФ могут принять модель
источник

EV

Eduard Vlasov in Data Engineers
пока договорились строить mvp на том что раз в день отгружать в s3 в виде файла, а в продукте забирать, и оттуда же слать апдейт в SF
источник

EV

Eduard Vlasov in Data Engineers
но мне такая схема заочно не очень нравится и думаю что в идеале надо будет пилить микросервис
источник

AZ

Anton Zadorozhniy in Data Engineers
Если вы передаёте модель, и она обновляется раз в день (или реже), то файло обмен очень даже норм; если вы передаёте скор, то зависит от того как часто обновляются данные под скоринг; дальше для разных форматов моделей уже понаписали сервисов, от openscoring (PMML), до всяких обёрток над питонячьим кодом и ТФ
источник

AZ

Anton Zadorozhniy in Data Engineers
Вам наверное PMML воркфлоу может подойти, судя по косвенным признакам
источник

EV

Eduard Vlasov in Data Engineers
речь именно про результаты
источник

EV

Eduard Vlasov in Data Engineers
быстрый гуглеж не помог понять чем тут может помчь PMML, но в любом случае спасибо
источник

АП

Алексей Пахомов in Data Engineers
А Какой размер файла?
источник

TT

Tsh Tsh in Data Engineers
Pmml несвободная лицензия
источник

TT

Tsh Tsh in Data Engineers
Для реального прода надо платить
источник

TT

Tsh Tsh in Data Engineers
Если результат модели просто таблица - сохраняйте тупо ее в csv, parquet, любой формат который даунстрим система быстро прочтёт
источник

TT

Tsh Tsh in Data Engineers
Можно даже редис и монгу
источник

AZ

Anton Zadorozhniy in Data Engineers
Tsh Tsh
Для реального прода надо платить
Кому, DMG?
источник

EV

Eduard Vlasov in Data Engineers
Алексей Пахомов
А Какой размер файла?
несколько млн строк, фигня в общем
источник

AZ

Anton Zadorozhniy in Data Engineers
Eduard Vlasov
быстрый гуглеж не помог понять чем тут может помчь PMML, но в любом случае спасибо
PMML это стандарт на сериализацию моделей, в таком виде модель можно сохранить и использовать например в сервисе, или в хранимой процедуре, или передать приложению которое понимает этот стандарт
источник

EV

Eduard Vlasov in Data Engineers
а, ну тут про модель, а не про сами данные
источник