Size: a a a

2019 October 04

K

KrivdaTheTriewe in Data Engineers
Нет проблем :)
источник

A

Alex in Data Engineers
Oleg Ilinsky
окей, спасибо большое)
Был такой проект

https://github.com/spark-jobserver/spark-jobserver

Но сам не пользовал
источник

A

Alex in Data Engineers
У самих 2 различных варианта:
1) простейший ui который интегрирован с livy, закинул Jar, выбрал спарк версию, отправил submit. (это если нужно какое-то специфические действие)

2) sbt plugin sparkDeploy. Всё спарк версии лежат на hdfs, заливает отдельным Jar все депенденси (чтобы закешировать и по сто раз не лить, если не менял депенденси то зачем перезаливать ещё раз этот жирный jar ), jar уже с твоим кодом из проекта.

По запросу run/deploy делаем корректный xml с путями к спарку, зависимостям, твоему коду (большую часть времени только твой код и меняется, поэтому заливать по минимуму), и сабмитим в oozie или сразу на выполнение, или на скедулинг и периодическое выполнение
источник

A

Alex in Data Engineers
Ну и конечно там же зашито в самом узи куда емейл сдать на фейле
источник

VP

Vitaly Petrov in Data Engineers
Добрый день!

Я хочу распарсить pyspark-ом файл весом 32 Гб, разделителем данных является '~', а разделителем линий -- последовательность символов '#@#@#'. Фактически, так как для файловой системы это одна большая строка, у меня возникают переполнения JVM. Мой вопрос таков -- можно ли как-то задать для pyspark-а дефолтный разделитель линий, чтобы он уже на эта чтения файла (sc.textFile) разбивал его на строки/линии? К сожалению, при задании параметров sep и escape в pyspark он ругается на то, что ими может быть только один символ, а не последовательность
источник

OI

Oleg Ilinsky in Data Engineers
о, круто, спасибо!
источник

A

Alex in Data Engineers
там что-то они на него правда подзабили сейчас
0.9.0-SNAPSHOT 2.3.2
висит в ридми
источник

N

Nikita Blagodarnyy in Data Engineers
cat filename.txt | sed 's/\~/\t/g' | sed 's/\#\@\#\@\#/\n/g' > normal_file.tsv
источник

N

Nikita Blagodarnyy in Data Engineers
hdfs dfs -put normal_file.tsv /my/cool/files/path
источник

VP

Vitaly Petrov in Data Engineers
Nikita Blagodarnyy
cat filename.txt | sed 's/\~/\t/g' | sed 's/\#\@\#\@\#/\n/g' > normal_file.tsv
Пробовал
Увы, sed не берет одну строчку в 32 Гб
источник

VP

Vitaly Petrov in Data Engineers
На подвыборке из этого файла — все работает
источник

N

Nikita Blagodarnyy in Data Engineers
IFS многосимвольный не пробовали ставить для перебора?
источник

VP

Vitaly Petrov in Data Engineers
Nikita Blagodarnyy
IFS многосимвольный не пробовали ставить для перебора?
IFS?
Кстати, у меня немного другой sed был — sed 's/#@#@#/\n/g' > normal_file.tsv. Может это как-то влияет
источник

N

Nikita Blagodarnyy in Data Engineers
Vitaly Petrov
IFS?
Кстати, у меня немного другой sed был — sed 's/#@#@#/\n/g' > normal_file.tsv. Может это как-то влияет
источник

VP

Vitaly Petrov in Data Engineers
Так у меня тоже работает)
Проблема в другом — эффект исчезает при увеличении размера файла
источник

I

Itachi in Data Engineers
Люди может есть пару советов
источник

I

Itachi in Data Engineers
Как студенту начать двигаться в этой профессии
источник

ЕГ

Евгений Глотов in Data Engineers
В общем и целом, для работы джуниор ДЕ достаточно изучить apache spark
источник

ЕГ

Евгений Глотов in Data Engineers
Плюс то, к чему он может подключаться, и в каких окружениях работать - компоненты hadoop, базы данных, sql
источник

AZ

Anton Zadorozhniy in Data Engineers
Vitaly Petrov
Добрый день!

Я хочу распарсить pyspark-ом файл весом 32 Гб, разделителем данных является '~', а разделителем линий -- последовательность символов '#@#@#'. Фактически, так как для файловой системы это одна большая строка, у меня возникают переполнения JVM. Мой вопрос таков -- можно ли как-то задать для pyspark-а дефолтный разделитель линий, чтобы он уже на эта чтения файла (sc.textFile) разбивал его на строки/линии? К сожалению, при задании параметров sep и escape в pyspark он ругается на то, что ими может быть только один символ, а не последовательность
реализовать org.apache.hadoop.mapreduce.InputFormat и им прочитать скалой sc.newApiHadoopFile
источник