Size: a a a

2019 May 14

DP

Dumitru Preguza in Data Engineers
не могу, не от меня зависит, дома стоит linux
источник

DP

Dumitru Preguza in Data Engineers
https://github.com/big-data-europe/docker-hbase использую standalone hbase
источник

DP

Dumitru Preguza in Data Engineers
могу в приципе через виртуальную машину попробовать
источник

GG

George Gaál in Data Engineers
Dumitru Preguza
могу в приципе через виртуальную машину попробовать
оптимально
источник

YE

Yury Egorov in Data Engineers
Dumitru Preguza
могу в приципе через виртуальную машину попробовать
докер на винде итак через виртуалку ж работает
источник

AK

Aleksey Kislitsa in Data Engineers
Yury Egorov
докер на винде итак через виртуалку ж работает
Но виртуал бокс перестаёт работать
источник

AM

Artem Marinov in Data Engineers
Dumitru Preguza
могу в приципе через виртуальную машину попробовать
https://issues.apache.org/jira/plugins/servlet/mobile#issue/HBASE-12954
Пункт 2 в дискрипшене похож на то что вам должно помочь.
Гляньте network свойства тут http://glinmac.io/hbase/2016/02/01/hbase-network-properties/
источник

Ж

Жмака in Data Engineers
Всем привет. Нода кассандры после рипэйра перестала принимать записи. Все остальные ноды пишут, кроме этой. Сеть нормальна, кластер видит ноду в статусе. Где копать?
источник

VK

Victor Karabedyants in Data Engineers
места нет
источник

GG

George Gaál in Data Engineers
в логи?
источник

Ж

Жмака in Data Engineers
Место есть, в логах пусто
источник

Ж

Жмака in Data Engineers
Перезапустили сессию сейчас и стал писать в эту ноду. Есть какие то параметры для сессии которые мы упустили, вроде таймаута node discovery и тп?
источник

R

Renarde in Data Engineers
всем привет.
скажите пожалуйста, а кто-нибудь пробовал использовать bucketing в parquet при записи в файлы (без Hive metastore)?
Словили вот такую ошибку:
'save' does not support bucketBy and sortBy right now;
org.apache.spark.sql.AnalysisException: 'save' does not support bucketBy and sortBy right now;

При попытке записаться в файлы:
latestUpdates
           .write.format("parquet")
           .mode(SaveMode.Overwrite)
           .bucketBy(amountOfBuckets, bucketingColumn)
           .sortBy(bucketingColumn)
           .save(someLocation)
источник

AZ

Anton Zadorozhniy in Data Engineers
Renarde
всем привет.
скажите пожалуйста, а кто-нибудь пробовал использовать bucketing в parquet при записи в файлы (без Hive metastore)?
Словили вот такую ошибку:
'save' does not support bucketBy and sortBy right now;
org.apache.spark.sql.AnalysisException: 'save' does not support bucketBy and sortBy right now;

При попытке записаться в файлы:
latestUpdates
           .write.format("parquet")
           .mode(SaveMode.Overwrite)
           .bucketBy(amountOfBuckets, bucketingColumn)
           .sortBy(bucketingColumn)
           .save(someLocation)
Без хайв метастор бакетинг не поддерживается
источник

R

Renarde in Data Engineers
Anton Zadorozhniy
Без хайв метастор бакетинг не поддерживается
Вот и я так понял, просто хотел уточнить
А я правильно понимаю что метаданные бакетов хранятся в метасторе, а не в метастатистике паркетных файлов?
источник
2019 May 15

AZ

Anton Zadorozhniy in Data Engineers
Renarde
Вот и я так понял, просто хотел уточнить
А я правильно понимаю что метаданные бакетов хранятся в метасторе, а не в метастатистике паркетных файлов?
Да, информация о бакетинге (то есть сортировке строк внутри файлов) сообщается посредством метаданных в хайв
источник

AY

Aleksey Yakushev in Data Engineers
Добрый день, подскажите как реализовать задачу.
Сразу скажу, опыта не много, только учусь.
Имеется обученная модель кластеризации на Spark. И теперь необходимо её использовать в режиме «онлайн». Т.е. приходит фрагмент данных, необходимо прогнать его через модель и вернуть класс. Внешнее приложение на scala.
Пока вижу решение в использовании play, т.е. запаковывается jar приложение, отправляется на Spark кластер, там оно запускается, делает подготовки, через Spark загружает модель(и) и ждёт по http внешних обращений. Далее всё просто, получили данные для обраотки, пргнали через модель и вернули наружу результаты.
Или подобно принято(удобно) решать каким-то другим образом?
источник

DZ

Dmitry Zuev in Data Engineers
Aleksey Yakushev
Добрый день, подскажите как реализовать задачу.
Сразу скажу, опыта не много, только учусь.
Имеется обученная модель кластеризации на Spark. И теперь необходимо её использовать в режиме «онлайн». Т.е. приходит фрагмент данных, необходимо прогнать его через модель и вернуть класс. Внешнее приложение на scala.
Пока вижу решение в использовании play, т.е. запаковывается jar приложение, отправляется на Spark кластер, там оно запускается, делает подготовки, через Spark загружает модель(и) и ждёт по http внешних обращений. Далее всё просто, получили данные для обраотки, пргнали через модель и вернули наружу результаты.
Или подобно принято(удобно) решать каким-то другим образом?
Ну плей точно овер килл
источник

DZ

Dmitry Zuev in Data Engineers
Вариант через стриминг
источник

AZ

Anton Zadorozhniy in Data Engineers
Aleksey Yakushev
Добрый день, подскажите как реализовать задачу.
Сразу скажу, опыта не много, только учусь.
Имеется обученная модель кластеризации на Spark. И теперь необходимо её использовать в режиме «онлайн». Т.е. приходит фрагмент данных, необходимо прогнать его через модель и вернуть класс. Внешнее приложение на scala.
Пока вижу решение в использовании play, т.е. запаковывается jar приложение, отправляется на Spark кластер, там оно запускается, делает подготовки, через Spark загружает модель(и) и ждёт по http внешних обращений. Далее всё просто, получили данные для обраотки, пргнали через модель и вернули наружу результаты.
Или подобно принято(удобно) решать каким-то другим образом?
источник