Телеграмм чат группы hadoopusers страница 1278

Всем привет. Нода кассандры после рипэйра перестала принимать записи. Все остальные ноды пишут, кроме этой. Сеть нормальна, кластер видит ноду в статусе. Где копать?

источник

16:01пожаловаться #8

VK

Victor Karabedyants in Data Engineers

места нет

источник

16:02пожаловаться #9

GG

George Gaál in Data Engineers

в логи?

источник

16:02пожаловаться #10

Ж

Жмака in Data Engineers

Место есть, в логах пусто

источник

16:09пожаловаться #11

Ж

Жмака in Data Engineers

Перезапустили сессию сейчас и стал писать в эту ноду. Есть какие то параметры для сессии которые мы упустили, вроде таймаута node discovery и тп?

источник

16:10пожаловаться #12

R

Renarde in Data Engineers

всем привет.
скажите пожалуйста, а кто-нибудь пробовал использовать bucketing в parquet при записи в файлы (без Hive metastore)?
Словили вот такую ошибку:

'save' does not support bucketBy and sortBy right now;
org.apache.spark.sql.AnalysisException: 'save' does not support bucketBy and sortBy right now;

При попытке записаться в файлы:

latestUpdates
            .write.format("parquet")
            .mode(SaveMode.Overwrite)
            .bucketBy(amountOfBuckets, bucketingColumn)
            .sortBy(bucketingColumn)
            .save(someLocation)

источник

17:08пожаловаться #13

AZ

Anton Zadorozhniy in Data Engineers

Renarde

всем привет.
скажите пожалуйста, а кто-нибудь пробовал использовать bucketing в parquet при записи в файлы (без Hive metastore)?
Словили вот такую ошибку:

'save' does not support bucketBy and sortBy right now;
org.apache.spark.sql.AnalysisException: 'save' does not support bucketBy and sortBy right now;

При попытке записаться в файлы:

latestUpdates
            .write.format("parquet")
            .mode(SaveMode.Overwrite)
            .bucketBy(amountOfBuckets, bucketingColumn)
            .sortBy(bucketingColumn)
            .save(someLocation)

Без хайв метастор бакетинг не поддерживается

источник

23:02пожаловаться #14

R

Renarde in Data Engineers

Anton Zadorozhniy

Без хайв метастор бакетинг не поддерживается

Вот и я так понял, просто хотел уточнить
А я правильно понимаю что метаданные бакетов хранятся в метасторе, а не в метастатистике паркетных файлов?

источник

23:31пожаловаться #15

2019 May 15

AZ

Anton Zadorozhniy in Data Engineers

Renarde

Вот и я так понял, просто хотел уточнить
А я правильно понимаю что метаданные бакетов хранятся в метасторе, а не в метастатистике паркетных файлов?

Да, информация о бакетинге (то есть сортировке строк внутри файлов) сообщается посредством метаданных в хайв

источник

08:27пожаловаться #16

AY

Aleksey Yakushev in Data Engineers

Добрый день, подскажите как реализовать задачу.
Сразу скажу, опыта не много, только учусь.
Имеется обученная модель кластеризации на Spark. И теперь необходимо её использовать в режиме «онлайн». Т.е. приходит фрагмент данных, необходимо прогнать его через модель и вернуть класс. Внешнее приложение на scala.
Пока вижу решение в использовании play, т.е. запаковывается jar приложение, отправляется на Spark кластер, там оно запускается, делает подготовки, через Spark загружает модель(и) и ждёт по http внешних обращений. Далее всё просто, получили данные для обраотки, пргнали через модель и вернули наружу результаты.
Или подобно принято(удобно) решать каким-то другим образом?

источник

10:53пожаловаться #17

DZ

Dmitry Zuev in Data Engineers

Aleksey Yakushev

Добрый день, подскажите как реализовать задачу.
Сразу скажу, опыта не много, только учусь.
Имеется обученная модель кластеризации на Spark. И теперь необходимо её использовать в режиме «онлайн». Т.е. приходит фрагмент данных, необходимо прогнать его через модель и вернуть класс. Внешнее приложение на scala.
Пока вижу решение в использовании play, т.е. запаковывается jar приложение, отправляется на Spark кластер, там оно запускается, делает подготовки, через Spark загружает модель(и) и ждёт по http внешних обращений. Далее всё просто, получили данные для обраотки, пргнали через модель и вернули наружу результаты.
Или подобно принято(удобно) решать каким-то другим образом?

Ну плей точно овер килл

источник

10:55пожаловаться #18

DZ

Dmitry Zuev in Data Engineers

Вариант через стриминг

источник

10:56пожаловаться #19

AZ

Anton Zadorozhniy in Data Engineers

Aleksey Yakushev

Добрый день, подскажите как реализовать задачу.
Сразу скажу, опыта не много, только учусь.
Имеется обученная модель кластеризации на Spark. И теперь необходимо её использовать в режиме «онлайн». Т.е. приходит фрагмент данных, необходимо прогнать его через модель и вернуть класс. Внешнее приложение на scala.
Пока вижу решение в использовании play, т.е. запаковывается jar приложение, отправляется на Spark кластер, там оно запускается, делает подготовки, через Spark загружает модель(и) и ждёт по http внешних обращений. Далее всё просто, получили данные для обраотки, пргнали через модель и вернули наружу результаты.
Или подобно принято(удобно) решать каким-то другим образом?

https://openscoring.io/blog/2018/07/09/converting_sparkml_pipeline_pmml/

источник

10:56пожаловаться #20