Size: a a a

2021 October 03

ЕГ

Евгений Глотов... in Moscow Spark
Манипуляции с файлом, чтобы он считался как json - это слишком сложно, я когда-то делал, потом попробовал повторить - уже чёт не вышло, старею😆
источник

ЕГ

Евгений Глотов... in Moscow Spark
Там с кавычками гемор лютый
источник

ПФ

Паша Финкельштейн... in Moscow Spark
IFS='\t'
while read -r line; do
key=${line[0]}
json=${line[1]}
echo "$json" | jq —arg ". + {key: $key}"
done < myfile


Я думаю как-то так
источник

ЕГ

Евгений Глотов... in Moscow Spark
А если данных терабайт?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
эта штука работает поточно, так что всё норм
источник

ЕГ

Евгений Глотов... in Moscow Spark
Долго будет)
источник

ПФ

Паша Финкельштейн... in Moscow Spark
ну понятно надо вывод перенаправить в другой файл
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Да норм, у нас в бигдате редко прям моментально что-то бывает, а тут всё быстрое в пайплайне, можно сказать голый C всюду по дороге )
источник

ЕГ

Евгений Глотов... in Moscow Spark
Блин, ну ладно, в этот раз бумеры победили😆
источник

ПФ

Паша Финкельштейн... in Moscow Spark
но наверное если на джаве переписать или там на котлине — будет быстрее, пик перфоманс и всё такое
источник

ЕГ

Евгений Глотов... in Moscow Spark
Но схемку с первого ряда тоже прикольно спарком получить
источник

ЕГ

Евгений Глотов... in Moscow Spark
источник

ЕГ

Евгений Глотов... in Moscow Spark
schema_of_json
источник

Н

Никита in Moscow Spark
да, спасибо, нашел
источник

Н

Никита in Moscow Spark
я еще нашел, что можно rdd засунуть в read.json(rdd)
источник

ЕГ

Евгений Глотов... in Moscow Spark
источник
2021 October 04

М

Михаил in Moscow Spark
Всем привет, пытаюсь поставить catboost, подложил jar файл, указал spark.jars.packages.  А как сказать спарку где лежит файл? нужно подправить pom?
источник

NN

No Name in Moscow Spark
Не, ниче править не надо.
Пайспарк?
источник

М

Михаил in Moscow Spark
да, похоже разобрался. Есть 2 пути, либо в ручную подкладывать jar, либо в параметрах указывать что бы он сам скачал из реп или локальных путей? правильно?
источник

NN

No Name in Moscow Spark
Ну, в общем, да.
источник