Size: a a a

2020 January 09

UD

Uncel Duk in Data Engineers
Евгений
rsync забыл
sshfs уж сразу
источник

UD

Uncel Duk in Data Engineers
источник

Н

Никита in Data Engineers
а можно в spark'e Dstream сохранять равномерно в небольшие файлы по 30 мб например?
источник

AC

Alexander Chermenin in Data Engineers
Никита
а можно в spark'e Dstream сохранять равномерно в небольшие файлы по 30 мб например?
В спарке один фиг микробатчами сохранять будешь. В крайнем случае можно свой синк написать и самому контролировать запись и размеры файлов при обработке каждого микробатча. Или можно взять флинк и указать максимальный размер файлов для записи :)
источник
2020 January 10

SK

Sergej Khakhulin in Data Engineers
Всем доброго вечера, столкнулся с такой проблемой, 
собрал кластер c yarn:
- hadoop 3.2.1
- spark без хадупа 2.4.4
- livy 0.6.0
Через spark-submit работает и jar и py файлы
Через livy scala код работает, а python выдает ‘Exception in thread "Thread-35" java.lang.NoClassDefFoundError: org/apache/spark/sql/hive/HiveContext’, может кто встречался? (На тойже сборке только хадуп 2.7 и спарк с хадупом, но без ярна все ок)
источник

M

Mi in Data Engineers
Судя по ошибке, возможно питон API использует хайв, нужен спарк с хадупом наверное
источник

M

Mi in Data Engineers
но  это не точно
источник

SK

Sergej Khakhulin in Data Engineers
, у меня в планах было туда hive запихнуть для использования его метостора в thrift, но saprk-submit то работатет с python и более через livy работатет scala код
источник

JS

Jury Sergeev in Data Engineers
всем доброго вечера... у меня вопрос такой, как бы не прогнали отсюда )) но по spark )) рискну, итак:

cassandra + spark 2.4.0 и R+sparklyr (не ругайтесь, UDF не используются)

пытаюсь прочесть данные из cassandra, смотрю что в std_err у воркеров:

...
Caused by: org.apache.spark.SparkException: Exception thrown in awaitResult:
...
Caused by: java.io.IOException: Failed to connect to XXX:57465

XXX - это имя локальное моего десктопа (винда 10)

в сетке кластера спарк я через впн подключен

я правильно понимаю, что воркеры спарк пытаются поднять соединение от себя, что бы передать результаты своей работы??? извиняюсь очень за ламерство
источник

GP

Grigory Pomadchin in Data Engineers
Sergej Khakhulin
Всем доброго вечера, столкнулся с такой проблемой, 
собрал кластер c yarn:
- hadoop 3.2.1
- spark без хадупа 2.4.4
- livy 0.6.0
Через spark-submit работает и jar и py файлы
Через livy scala код работает, а python выдает ‘Exception in thread "Thread-35" java.lang.NoClassDefFoundError: org/apache/spark/sql/hive/HiveContext’, может кто встречался? (На тойже сборке только хадуп 2.7 и спарк с хадупом, но без ярна все ок)
спарк-скуля наверное нет в зависимостях; оно не провайдед
источник

JS

Jury Sergeev in Data Engineers
нет, с ним все ок, вот такое:

cass_df <- spark_session %>%
 invoke("read") %>%
 invoke("format", "org.apache.spark.sql.cassandra") %>%
 invoke(
   "options",
   as.environment(
     list(
       ...
     )
   )
 ) %>%
 invoke("load") %>%
 invoke("cache")

норм выполняется вроде
источник

UD

Uncel Duk in Data Engineers
Sergej Khakhulin
Всем доброго вечера, столкнулся с такой проблемой, 
собрал кластер c yarn:
- hadoop 3.2.1
- spark без хадупа 2.4.4
- livy 0.6.0
Через spark-submit работает и jar и py файлы
Через livy scala код работает, а python выдает ‘Exception in thread "Thread-35" java.lang.NoClassDefFoundError: org/apache/spark/sql/hive/HiveContext’, может кто встречался? (На тойже сборке только хадуп 2.7 и спарк с хадупом, но без ярна все ок)
Спарк ванильный ?
источник

UD

Uncel Duk in Data Engineers
Если да, забирайте патчи для третьего хадупа
источник

GP

Grigory Pomadchin in Data Engineers
Jury Sergeev
нет, с ним все ок, вот такое:

cass_df <- spark_session %>%
 invoke("read") %>%
 invoke("format", "org.apache.spark.sql.cassandra") %>%
 invoke(
   "options",
   as.environment(
     list(
       ...
     )
   )
 ) %>%
 invoke("load") %>%
 invoke("cache")

норм выполняется вроде
Когда сабмит делаешь, там не провайдед; в консоли оно есть
источник

UD

Uncel Duk in Data Engineers
Или палантировский возьмите
источник

SK

Sergej Khakhulin in Data Engineers
Uncel Duk
Спарк ванильный ?
а что такое ванильный?😅
источник

GP

Grigory Pomadchin in Data Engineers
Sergej Khakhulin
а что такое ванильный?😅
который на гитхабе лежит
источник

GP

Grigory Pomadchin in Data Engineers
не сдх/ клаудера
источник

JS

Jury Sergeev in Data Engineers
Grigory Pomadchin
Когда сабмит делаешь, там не провайдед; в консоли оно есть
так, а где оно увидеть?
источник

SK

Sergej Khakhulin in Data Engineers
Grigory Pomadchin
который на гитхабе лежит
сейчас попробую спасибо
источник