Телеграмм чат группы hadoopusers страница 2962

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

2053 membersпожаловаться на группу

2020 November 15

ИК

Иван Калининский... in Data Engineers

Подскажите, есть ли способ в spark задать вручную диапазоны jdbc dataframe для параллельного забора? По доке можно только задать границы и число частей, а нужны части разного размера, т.к. ключ текстовый

Да, есть такой способ, метод jdbc перегружен, и в одной из реализаций нужно указывать аргумент predicates. Первый ответ на этот вопрос, например:

https://stackoverflow.com/questions/48677883/using-predicates-in-spark-jdbc-read-method

Using predicates in Spark JDBC read method

I am pulling data from sql server to hdfs. Here is my snippet for that,

val predicates = Array[String]("int_id < 500000", "int_id >= 500000 && int_id < 1000000")

val jdbcDF = s...

источник

12:21пожаловаться #1

ИК

Иван Калининский... in Data Engineers

Каждому предикату соответствует одна партиция полученного rdd. В predicates можно сделать почти что угодно, но надо учитывать, что spark просто добавит полученные строки в условия where, и выдаст в БД столько отдельных запросов, сколько элементов в переданном массиве. Для более сложных конструкций типа union придётся обманывать spark и делать некий SQL-injection. Ну и вся реализация в этом случае в ответственности разработки

источник

12:29пожаловаться #2

А

Алексей in Data Engineers

Иван Калининский

Да, есть такой способ, метод jdbc перегружен, и в одной из реализаций нужно указывать аргумент predicates. Первый ответ на этот вопрос, например:

https://stackoverflow.com/questions/48677883/using-predicates-in-spark-jdbc-read-method

Using predicates in Spark JDBC read method

I am pulling data from sql server to hdfs. Here is my snippet for that,

val predicates = Array[String]("int_id < 500000", "int_id >= 500000 && int_id < 1000000")

val jdbcDF = s...

Отлично, спасибо

источник

12:33пожаловаться #3

2020 November 16

АА

Алексей Артамонов... in Data Engineers

добрый день. Подскажиет при настройке core-site.xml необходимо рестартить службу ?

источник

14:32пожаловаться #4

A

Alex in Data Engineers

в большинстве случаев да

источник

15:12пожаловаться #5

FT

FAXRIDDIN TOJIBOYEV in Data Engineers

Можете сказать как компилировать .scala file в Visual Studio Code? Как надо настроить Visual Studio Code? В интернете не нашел нормальный guide

источник

20:46пожаловаться #6

RI

Rustam Iksanov in Data Engineers

FAXRIDDIN TOJIBOYEV

Можете сказать как компилировать .scala file в Visual Studio Code? Как надо настроить Visual Studio Code? В интернете не нашел нормальный guide

Sbt в помощь

источник

21:14пожаловаться #7

K

KrivdaTheTriewe in Data Engineers

FAXRIDDIN TOJIBOYEV

Можете сказать как компилировать .scala file в Visual Studio Code? Как надо настроить Visual Studio Code? В интернете не нашел нормальный guide

https://www.scala-sbt.org/

www.scala-sbt.org

sbt - The interactive build tool

sbt is the intereactive build tool for Scala, Java, and more. Define your tasks in Scala. Run them in parallel from the intereactive shell.

источник

21:16пожаловаться #8

FT

FAXRIDDIN TOJIBOYEV in Data Engineers

Sbt в помощь

Но с помощью sbt создаем .jar
Или есть еще другие возможности sbt?

источник

21:16пожаловаться #9

N

Nikita Blagodarnyy in Data Engineers

FAXRIDDIN TOJIBOYEV

Можете сказать как компилировать .scala file в Visual Studio Code? Как надо настроить Visual Studio Code? В интернете не нашел нормальный guide

https://bfy.tw/Pftl

источник

21:21пожаловаться #10

S

Stanislav in Data Engineers

FAXRIDDIN TOJIBOYEV

Но с помощью sbt создаем .jar
Или есть еще другие возможности sbt?

Все возможности sbt в sbt

источник

21:26пожаловаться #11

GP

Grigory Pomadchin in Data Engineers

FAXRIDDIN TOJIBOYEV

Но с помощью sbt создаем .jar
Или есть еще другие возможности sbt?

менеджер зависимостей как минимум; а так да там много sbt возможностей в sbt

источник

21:28пожаловаться #12

ME

Max Efremov in Data Engineers

А насколько типично s3 совместимый объектный сторадж юзать с плейнтекстовым доступом без ssl? Я решил попробовать QuObjects от QNAP, он мне дал http линки на доступ, а мой CyberDuck даже не умеет без SSL в S3 лезть) Вот думаю, баг или фича.

источник

21:28пожаловаться #13

FT

FAXRIDDIN TOJIBOYEV in Data Engineers

Понятно спасибо всем

источник

21:29пожаловаться #14

GP

Grigory Pomadchin in Data Engineers

вскод умеет если что импортить сбт проекты; к этому отослали в сбт тебя

источник

21:30пожаловаться #15

2020 November 17

V

Vladislav in Data Engineers

Подскажите, есть ли способ в spark задать вручную диапазоны jdbc dataframe для параллельного забора? По доке можно только задать границы и число частей, а нужны части разного размера, т.к. ключ текстовый

Либо создай новый ключ интовый по кол-ву строк, и по нему параллель

источник

00:00пожаловаться #16

S

Sergey in Data Engineers

Товарищи, возможно глупый вопрос, но все же. Flume source поддерживает gzip?

источник

11:20пожаловаться #17

FT

FAXRIDDIN TOJIBOYEV in Data Engineers

val inputPath="alice.txt"
//val outputPath="alice-wordpunctcount"

val textFile = sc.textFile(inputPath)
val sorted = textFile.flatMap(line => line.split(" ")).
                    filter(x=> x.contains(",")||x.contains(".")||x.contains("?")||x.contains("!")||x.contains("-")||x.contains("`")||x.contains("\'")||x.contains(";")||x.contains(":")||x.contains("\"")).
                    map(word => (word, 1)).
                    reduceByKey(_ + _).
                    map(x => x.swap).
                    sortByKey(false).
                    map(x => x.swap)
                    
                    
val key=sorted.keys

key.foreach(s=>s.filterNot(c=>c=='.'))
key.foreach(x=>println(x))

источник

15:51пожаловаться #18

FT

FAXRIDDIN TOJIBOYEV in Data Engineers

FAXRIDDIN TOJIBOYEV

val inputPath="alice.txt"
//val outputPath="alice-wordpunctcount"

val textFile = sc.textFile(inputPath)
val sorted = textFile.flatMap(line => line.split(" ")).
                    filter(x=> x.contains(",")||x.contains(".")||x.contains("?")||x.contains("!")||x.contains("-")||x.contains("`")||x.contains("\'")||x.contains(";")||x.contains(":")||x.contains("\"")).
                    map(word => (word, 1)).
                    reduceByKey(_ + _).
                    map(x => x.swap).
                    sortByKey(false).
                    map(x => x.swap)
                    
                    
val key=sorted.keys

key.foreach(s=>s.filterNot(c=>c=='.'))
key.foreach(x=>println(x))

Почему то ничто не меняется после

key.foreach(s=>s.filterNot(c=>c=='.'))

источник

15:52пожаловаться #19

АР

Андрей Романов... in Data Engineers

FAXRIDDIN TOJIBOYEV

Почему то ничто не меняется после

key.foreach(s=>s.filterNot(c=>c=='.'))

тебе нужно присвоить другой переменной результат этой фильтрации

источник

15:52пожаловаться #20