Size: a a a

2019 June 27

A

Alex in Data Engineers
вернее разница будет определенная если запускать на распределенном кластере
а то что поднять одну машинку в виртуалке или запустить local[*] почти не отличается
источник

AE

Alexey Evdokimov in Data Engineers
в pom.xml
       <dependency>
           <groupId>org.apache.spark</groupId>
           <artifactId>spark-core_2.11</artifactId>
           <version>2.1.1</version>
           <scope>test</scope>
       </dependency>
ну и
public class TestRunner extends AbstractRunner {
   private static SparkConf sparkConf = new SparkConf()
           .setAppName("test")
           .set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
           .setMaster("local[*]");
и т.п.
источник

AE

Alexey Evdokimov in Data Engineers
и незачем что-то развёртывать
источник
2019 June 28

N

Nikolay in Data Engineers
Просветите. Насколько жив apache druid ? Зачем он нужен ,если есть hive и Спарк ?
источник

GG

George Gaál in Data Engineers
я бы сказал так - зачем нужен друид, если есть КХ
источник

S

Stanislav in Data Engineers
интересно, насколько известен кх за пределами россии
источник

神風 in Data Engineers
Доброе утро. Подскажите, пожалуйста, что я делаю не так. Задача состоит в том, чтобы хранить в hbase ровно одну версию записи, но при этом версия эта самая ранняя. Делаю шаблонно put. setTimestamp(Long.MAX_VALUE- System.currentTimeMillis()) но получаю все равно последнее записанное с этим rowkey значение.
источник

A

Alex in Data Engineers
Nikolay
Просветите. Насколько жив apache druid ? Зачем он нужен ,если есть hive и Спарк ?
зачем нужен трактор если есть болид f1?

это немного разной задачи и архитектуры продукты
хоть hive уже вроде даже в druid научился закидывать запросы

выжать ответы в пределах 1-2c из sparksql не получится
друид под это делался
источник

N

Nikolay in Data Engineers
А почему тогда не импала , если нужно маленькое лэтанси ?
источник

A

Alex in Data Engineers
импала это больше sql с джойнами и тд, хоть и умеет делать агрегаты, но не так оптимизированна
druid это olap с заточкой сугубо под агрегаты, сделать “select * “ можно, но реконструкция оригинальной записи очень дорогая операция
источник

A

Alex in Data Engineers
и да, импала это не 1-2 секунды =)
источник

N

Nikolay in Data Engineers
И если нужно  такое маленькое лэтанси , то это скорее уже не про аналитику ?
источник

A

Alex in Data Engineers
дашборды всякие
источник

A

Alex in Data Engineers
druid, pinot (от линкедин), clickhouse  продукты одного типа

как делать интерактивные дашборды различных агрегатов
источник

A

Alex in Data Engineers
ключевое слово: ИНТЕРАКТИВНЫЕ
а не закинул запрос в реляционку и ушёл на обед
источник

N

Nikolay in Data Engineers
А как архитектурно друид от КХ отличается? С КХ я работаю и его архитектуру знаю.
источник

GG

George Gaál in Data Engineers
катастрофически
источник

GG

George Gaál in Data Engineers
ты видел сколько ролей в друиде? минимум три разных типа нод
источник

GG

George Gaál in Data Engineers
в КХ - все ноды гомогенны
источник

A

Alex in Data Engineers
источник