Size: a a a

2019 December 08

AS

Anton Shelin in Data Engineers
да и конкурс старый думаю уже есть ответы где-нибудь
источник

AS

Anton Shelin in Data Engineers
у них и группа есть там @mlbootcamp
источник

d

ddre_z in Data Engineers
Anton Shelin
давно этим не занимался но не понял в чем проблема? загружаешь данные выделяешь признаки и строишь модель. тут я так понимаю вопрос в обьеме и фича инженеринге. тут одна категориальная фича значит надо сделать one hot encoding. далее 3 столбца с разреженными данными. тут вернее всего получится в итоге sparse matrix и имена ключей будут номерколонки_номерсчетчика.  далее делаем масштабирование по мин максу или стандартизация, выбираем модель и гоняем.
вот кстати, спасибо за наводку насчет encoding,
я преобразовал три джейсона в один разряженный вектор, потом категориальную фичу засунул в OneHotEncoder и замерджил два вектора, закинув туда третий столбец с количеством дней до даты (VectorAssembler), когда было получено значение целевой переменной. На выходе имею здоровенный вектор с фичами, но пока не понимаю как использовать масштабирование. И еще меня смущает что на один и тот же cuid у меня разные фичи. Нужно ли каким-либо образом группировать и выбирать самые лучшие?

Если кто хочет код глянуть, пока что вот так - https://gist.github.com/kilinochi/ee13de512588dc09324d0a29f8614fce
источник

C

Combot in Data Engineers
Мир Борщёв has been banned! Reason: CAS ban.
источник

C

Combot in Data Engineers
Krypto ⏳ has been banned! Reason: CAS ban.
источник
2019 December 09

N

Nikita Blagodarnyy in Data Engineers
Ребя, кто-нибудь решал задачу формирования больших файловых он-деманд выгрузок? Типа как в ЯМетрике, запросил по API детальный лог, подождал полчасика, тебе csv-шечку выгрузили.
Интересует, есть ли какие-то стабильные решения, фреймворки, наработки, готовые комплексы и т.п. Чтобы все с нуля не писать-очереди заданий, шедулер, хартбиты от воркеров и т.п.
источник

SA

Sergey Alekseev in Data Engineers
Ребят, может кто-нибудь подкинуть инфы как отловить exception при создании Dataset в Junit и желательно на джаве(ссылки или кусок куда)?
источник

SO

Simon Osipov in Data Engineers
А кто-нибудь из дата-инженеров сталкивался с реальной задачей, когда ему надо было найти кратчайший путь по бинарному дереву?

Ну то есть прям реальная задача, когда вам пригодилось знание этого алгоритма.
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikita Blagodarnyy
Ребя, кто-нибудь решал задачу формирования больших файловых он-деманд выгрузок? Типа как в ЯМетрике, запросил по API детальный лог, подождал полчасика, тебе csv-шечку выгрузили.
Интересует, есть ли какие-то стабильные решения, фреймворки, наработки, готовые комплексы и т.п. Чтобы все с нуля не писать-очереди заданий, шедулер, хартбиты от воркеров и т.п.
я писал такое три с половиной раза, в рамках разных real world exchange подсистем (не только выдать но и принять данные), каждый раз просто писал спринговое (один раз акковое) приложение, два раза процесс был написан на jbpm, но кмк это не всем нужно
источник

N

Nikita Blagodarnyy in Data Engineers
А что там именно спринговое было? Boot, Batch, CloudDataFlow?
источник

E

Evgeniy in Data Engineers
Кто то с NiFi API через Python работал? Сможет подсказать? Интересует авторизация через https
источник

M

Mi in Data Engineers
Simon Osipov
А кто-нибудь из дата-инженеров сталкивался с реальной задачей, когда ему надо было найти кратчайший путь по бинарному дереву?

Ну то есть прям реальная задача, когда вам пригодилось знание этого алгоритма.
на собеседовании на этом завалился что ли?
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikita Blagodarnyy
А что там именно спринговое было? Boot, Batch, CloudDataFlow?
да, спрингбутовый сервис, батч там не нужен (у нас всегда был батчовый движок отдельно), в спринге логика аккаунтинга, ACL и всей обвязки просто из метаданных тащится
источник

N

Nikolay in Data Engineers
Simon Osipov
А кто-нибудь из дата-инженеров сталкивался с реальной задачей, когда ему надо было найти кратчайший путь по бинарному дереву?

Ну то есть прям реальная задача, когда вам пригодилось знание этого алгоритма.
А это точно путь в бинарном дереве ?
источник

SO

Simon Osipov in Data Engineers
Mi
на собеседовании на этом завалился что ли?
Можно и так сказать) я именно такой вопрос и задал интервьюерам: "в какой задаче вашим дата инженерам требуется знание как ходить по дереву?"

Внятного ответа не получил от них, поэтому решил спросить)
источник

ME

Max Efremov in Data Engineers
На собесе всегда задачи синтетические, с этим стоит скорее смириться и подготовиться...
источник

ME

Max Efremov in Data Engineers
Ну типа, зам мне решать задачку 2sum или 3sum, да ещё и за n*log(n) сложность? Вот никогда такой не будет, скорее всего. А когда будет, загуглю оптимальные алгоритмы...
источник

DZ

Dmitry Zuev in Data Engineers
Ну камон, кратчайший путь это классика
источник

N

Nikolay in Data Engineers
Если это действительно бинарное дерево , то задача решается очень просто.тут далеко не нужен алгоритм кратчайшего пути. Делается обход дерева и останавливаемся при достижении этого элемента
источник

DZ

Dmitry Zuev in Data Engineers
Дейкстру то мне кажется даже в школе проходят
источник