Телеграмм чат группы hadoopusers страница 1664

У самих 2 различных варианта:
1) простейший ui который интегрирован с livy, закинул Jar, выбрал спарк версию, отправил submit. (это если нужно какое-то специфические действие)

2) sbt plugin sparkDeploy. Всё спарк версии лежат на hdfs, заливает отдельным Jar все депенденси (чтобы закешировать и по сто раз не лить, если не менял депенденси то зачем перезаливать ещё раз этот жирный jar ), jar уже с твоим кодом из проекта.

По запросу run/deploy делаем корректный xml с путями к спарку, зависимостям, твоему коду (большую часть времени только твой код и меняется, поэтому заливать по минимуму), и сабмитим в oozie или сразу на выполнение, или на скедулинг и периодическое выполнение

источник

17:19пожаловаться #3

A

Alex in Data Engineers

Ну и конечно там же зашито в самом узи куда емейл сдать на фейле

источник

17:23пожаловаться #4

VP

Vitaly Petrov in Data Engineers

Добрый день!

Я хочу распарсить pyspark-ом файл весом 32 Гб, разделителем данных является '~', а разделителем линий -- последовательность символов '#@#@#'. Фактически, так как для файловой системы это одна большая строка, у меня возникают переполнения JVM. Мой вопрос таков -- можно ли как-то задать для pyspark-а дефолтный разделитель линий, чтобы он уже на эта чтения файла (sc.textFile) разбивал его на строки/линии? К сожалению, при задании параметров sep и escape в pyspark он ругается на то, что ими может быть только один символ, а не последовательность

источник

17:57пожаловаться #5

OI

Oleg Ilinsky in Data Engineers

Alex

Был такой проект

https://github.com/spark-jobserver/spark-jobserver

Но сам не пользовал

GitHub

spark-jobserver/spark-jobserver

REST job server for Apache Spark. Contribute to spark-jobserver/spark-jobserver development by creating an account on GitHub.

о, круто, спасибо!

источник

17:58пожаловаться #6

A

Alex in Data Engineers

там что-то они на него правда подзабили сейчас
0.9.0-SNAPSHOT 2.3.2
висит в ридми

источник

17:59пожаловаться #7

N

Nikita Blagodarnyy in Data Engineers

cat filename.txt | sed 's/\~/\t/g' | sed 's/\#\@\#\@\#/\n/g' > normal_file.tsv

источник

18:01пожаловаться #8

N

Nikita Blagodarnyy in Data Engineers

hdfs dfs -put normal_file.tsv /my/cool/files/path

источник

18:03пожаловаться #9

VP

Vitaly Petrov in Data Engineers

Nikita Blagodarnyy

cat filename.txt | sed 's/\~/\t/g' | sed 's/\#\@\#\@\#/\n/g' > normal_file.tsv

Пробовал
Увы, sed не берет одну строчку в 32 Гб

источник

18:13пожаловаться #10

VP

Vitaly Petrov in Data Engineers

На подвыборке из этого файла — все работает

источник

18:13пожаловаться #11

N

Nikita Blagodarnyy in Data Engineers

IFS многосимвольный не пробовали ставить для перебора?

источник

18:14пожаловаться #12

VP

Vitaly Petrov in Data Engineers

Nikita Blagodarnyy

IFS многосимвольный не пробовали ставить для перебора?

IFS?
Кстати, у меня немного другой sed был — sed 's/#@#@#/\n/g' > normal_file.tsv. Может это как-то влияет

источник

18:19пожаловаться #13

N

Nikita Blagodarnyy in Data Engineers

Vitaly Petrov

IFS?
Кстати, у меня немного другой sed был — sed 's/#@#@#/\n/g' > normal_file.tsv. Может это как-то влияет

tg_image_3815103940.jpeg

(12.5 Кб)

источник

18:30пожаловаться #14

VP

Vitaly Petrov in Data Engineers

Nikita Blagodarnyy

tg_image_3815103940.jpeg

(12.5 Кб)

Так у меня тоже работает)
Проблема в другом — эффект исчезает при увеличении размера файла

источник

18:35пожаловаться #15

I

Itachi in Data Engineers

Люди может есть пару советов

источник

18:41пожаловаться #16

I

Itachi in Data Engineers

Как студенту начать двигаться в этой профессии

источник

18:41пожаловаться #17

ЕГ

Евгений Глотов in Data Engineers

В общем и целом, для работы джуниор ДЕ достаточно изучить apache spark

источник

18:50пожаловаться #18

ЕГ

Евгений Глотов in Data Engineers

Плюс то, к чему он может подключаться, и в каких окружениях работать - компоненты hadoop, базы данных, sql

источник

18:51пожаловаться #19

AZ

Anton Zadorozhniy in Data Engineers

Vitaly Petrov

Добрый день!

Я хочу распарсить pyspark-ом файл весом 32 Гб, разделителем данных является '~', а разделителем линий -- последовательность символов '#@#@#'. Фактически, так как для файловой системы это одна большая строка, у меня возникают переполнения JVM. Мой вопрос таков -- можно ли как-то задать для pyspark-а дефолтный разделитель линий, чтобы он уже на эта чтения файла (sc.textFile) разбивал его на строки/линии? К сожалению, при задании параметров sep и escape в pyspark он ругается на то, что ими может быть только один символ, а не последовательность

реализовать org.apache.hadoop.mapreduce.InputFormat и им прочитать скалой sc.newApiHadoopFile

источник

19:02пожаловаться #20