Size: a a a

2020 November 15

ИК

Иван Калининский... in Data Engineers
Алексей
Подскажите, есть ли способ в spark задать вручную диапазоны jdbc dataframe для параллельного забора? По доке можно только задать границы и число частей, а нужны части разного размера, т.к. ключ текстовый
Да, есть такой способ, метод jdbc перегружен, и в одной из реализаций нужно указывать аргумент predicates. Первый ответ на этот вопрос, например:

https://stackoverflow.com/questions/48677883/using-predicates-in-spark-jdbc-read-method
источник

ИК

Иван Калининский... in Data Engineers
Каждому предикату соответствует одна партиция полученного rdd. В predicates можно сделать почти что угодно, но надо учитывать, что spark просто добавит полученные строки в условия where, и выдаст в БД столько отдельных запросов, сколько элементов в переданном массиве. Для более сложных конструкций типа union придётся обманывать spark и делать некий SQL-injection. Ну и вся реализация в этом случае в ответственности разработки
источник

А

Алексей in Data Engineers
Иван Калининский
Да, есть такой способ, метод jdbc перегружен, и в одной из реализаций нужно указывать аргумент predicates. Первый ответ на этот вопрос, например:

https://stackoverflow.com/questions/48677883/using-predicates-in-spark-jdbc-read-method
Отлично, спасибо
источник
2020 November 16

АА

Алексей Артамонов... in Data Engineers
добрый день. Подскажиет при настройке core-site.xml необходимо рестартить службу ?
источник

A

Alex in Data Engineers
в большинстве случаев да
источник

FT

FAXRIDDIN TOJIBOYEV in Data Engineers
Можете сказать как компилировать .scala file в Visual Studio Code? Как надо настроить Visual Studio Code? В интернете не нашел нормальный guide
источник

RI

Rustam Iksanov in Data Engineers
FAXRIDDIN TOJIBOYEV
Можете сказать как компилировать .scala file в Visual Studio Code? Как надо настроить Visual Studio Code? В интернете не нашел нормальный guide
Sbt в помощь
источник

K

KrivdaTheTriewe in Data Engineers
FAXRIDDIN TOJIBOYEV
Можете сказать как компилировать .scala file в Visual Studio Code? Как надо настроить Visual Studio Code? В интернете не нашел нормальный guide
источник

FT

FAXRIDDIN TOJIBOYEV in Data Engineers
Rustam Iksanov
Sbt в помощь
Но с помощью sbt создаем .jar
Или есть еще другие возможности  sbt?
источник

N

Nikita Blagodarnyy in Data Engineers
FAXRIDDIN TOJIBOYEV
Можете сказать как компилировать .scala file в Visual Studio Code? Как надо настроить Visual Studio Code? В интернете не нашел нормальный guide
источник

S

Stanislav in Data Engineers
FAXRIDDIN TOJIBOYEV
Но с помощью sbt создаем .jar
Или есть еще другие возможности  sbt?
Все возможности sbt в sbt
источник

GP

Grigory Pomadchin in Data Engineers
FAXRIDDIN TOJIBOYEV
Но с помощью sbt создаем .jar
Или есть еще другие возможности  sbt?
менеджер зависимостей как минимум; а так да там много sbt возможностей в sbt
источник

ME

Max Efremov in Data Engineers
А насколько типично s3 совместимый объектный сторадж юзать с плейнтекстовым доступом без ssl? Я решил попробовать QuObjects от QNAP, он мне дал http линки на доступ, а мой CyberDuck даже не умеет без SSL в S3 лезть) Вот думаю, баг или фича.
источник

FT

FAXRIDDIN TOJIBOYEV in Data Engineers
Понятно спасибо всем
источник

GP

Grigory Pomadchin in Data Engineers
вскод умеет если что импортить сбт проекты; к этому отослали в сбт тебя
источник
2020 November 17

V

Vladislav in Data Engineers
Алексей
Подскажите, есть ли способ в spark задать вручную диапазоны jdbc dataframe для параллельного забора? По доке можно только задать границы и число частей, а нужны части разного размера, т.к. ключ текстовый
Либо создай новый ключ интовый по кол-ву строк, и по нему параллель
источник

S

Sergey in Data Engineers
Товарищи, возможно глупый вопрос, но все же. Flume source поддерживает gzip?
источник

FT

FAXRIDDIN TOJIBOYEV in Data Engineers
val inputPath="alice.txt"
//val outputPath="alice-wordpunctcount"

val textFile = sc.textFile(inputPath)
val sorted = textFile.flatMap(line => line.split(" ")).
                   filter(x=> x.contains(",")||x.contains(".")||x.contains("?")||x.contains("!")||x.contains("-")||x.contains("`")||x.contains("\'")||x.contains(";")||x.contains(":")||x.contains("\"")).
                   map(word => (word, 1)).
                   reduceByKey(_ + _).
                   map(x => x.swap).
                   sortByKey(false).
                   map(x => x.swap)
                   
                   
val key=sorted.keys

key.foreach(s=>s.filterNot(c=>c=='.'))
key.foreach(x=>println(x))
источник

FT

FAXRIDDIN TOJIBOYEV in Data Engineers
FAXRIDDIN TOJIBOYEV
val inputPath="alice.txt"
//val outputPath="alice-wordpunctcount"

val textFile = sc.textFile(inputPath)
val sorted = textFile.flatMap(line => line.split(" ")).
                   filter(x=> x.contains(",")||x.contains(".")||x.contains("?")||x.contains("!")||x.contains("-")||x.contains("`")||x.contains("\'")||x.contains(";")||x.contains(":")||x.contains("\"")).
                   map(word => (word, 1)).
                   reduceByKey(_ + _).
                   map(x => x.swap).
                   sortByKey(false).
                   map(x => x.swap)
                   
                   
val key=sorted.keys

key.foreach(s=>s.filterNot(c=>c=='.'))
key.foreach(x=>println(x))
Почему то ничто не меняется после
key.foreach(s=>s.filterNot(c=>c=='.'))
источник

АР

Андрей Романов... in Data Engineers
FAXRIDDIN TOJIBOYEV
Почему то ничто не меняется после
key.foreach(s=>s.filterNot(c=>c=='.'))
тебе нужно присвоить другой переменной результат этой фильтрации
источник