Size: a a a

2019 September 05

AZ

Anton Zadorozhniy in Data Engineers
это не совсем адаптер для скупа (тут гуглите oraoop) но он позволяет параллельно зачитать таблицу в хайв например, и сохранить ее в хдфс - то что надо для адхок аналитики
источник

IG

Ivan Gagarkin in Data Engineers
источник
2019 September 06

OP

O. Petr in Data Engineers
Имеется df для SparkML, упорядоченный по времени, где хочется по показаниям строки прогнозировать результаты следующей прогнав сии данные через модель, а как реально представить данные для модели из датафрейма ?
Т.е. самый простой пример есть df с 1 колонкой, где df[1:] - фичесы, а df[:-1 ], - целевое для модели. Как представить такой df для sparkML ?
источник

m

mel kaye in Data Engineers
что за дф?
источник

OP

O. Petr in Data Engineers
Ну датафрейм
источник

m

mel kaye in Data Engineers
чей?
источник

m

mel kaye in Data Engineers
спарк/панды/R?ы
источник

OP

O. Petr in Data Engineers
Просто как мне из датафрейма с 1 колонкой получить датафрейм где в 1 колонке значения с 1, а во втором до предпоследнего. В спарке
источник

m

mel kaye in Data Engineers
яннп
источник

OP

O. Petr in Data Engineers
типа в питоне модели просят массивы и там для пандас что то вроде
target = df[1:,3] - с 1 строки, 3-и значения
predictors = df[:-1,:] - до предпоследней все значения
источник

m

mel kaye in Data Engineers
так
источник

m

mel kaye in Data Engineers
ты я так понял не работал со спаркмл?
источник

m

mel kaye in Data Engineers
просто он ждет датафрайм с 2 колонками: таргет и фичи (1 колонка)
источник

OP

O. Petr in Data Engineers
я про это и говорю
источник

OP

O. Petr in Data Engineers
как в спарке из 1 колонки сделать дф с 2
источник

m

mel kaye in Data Engineers
ну так в чем проблема?
источник

m

mel kaye in Data Engineers
одну колонку переименовываешь в target, другую собираешь вектор ассемблером
источник

OP

O. Petr in Data Engineers
Так мне надо размерность поменять
источник

m

mel kaye in Data Engineers
можешь даже не переименовывать, а указать модели какую колонку читать
источник

OP

O. Petr in Data Engineers
в 1 колонке 1 row удалить во второй последний
источник