Size: a a a

2020 February 14

AZ

Anton Zadorozhniy in Data Engineers
а кстати какие кто блоги именно на тему СУБД читает? а то Курт свой забросил, Кайл ушел в подполье, Мартин  пишет редко...
источник

АЖ

Андрей Жуков in Data Engineers
Anton Zadorozhniy
а кстати какие кто блоги именно на тему СУБД читает? а то Курт свой забросил, Кайл ушел в подполье, Мартин  пишет редко...
Наш архитектор прямо в слаке ведет 🙈
источник

AZ

Anton Zadorozhniy in Data Engineers
Андрей Жуков
Наш архитектор прямо в слаке ведет 🙈
а какую СУБД вы пишете?
источник

АЖ

Андрей Жуков in Data Engineers
Anton Zadorozhniy
а какую СУБД вы пишете?
Никакую,  но кто мешает главному архитектору писать умные мысли,  как оно все должно быть и работать? :)
источник

AZ

Anton Zadorozhniy in Data Engineers
Андрей Жуков
Никакую,  но кто мешает главному архитектору писать умные мысли,  как оно все должно быть и работать? :)
не-не, не мешает, а только помогает!)
источник

OA

Oleksandr Averchenko in Data Engineers
Anton Zadorozhniy
bill inmon, ralph kimball
Кимбалл это ебучий справочник. Человек который это все запомнит уже вышел за пределы человеческих возможностей.
источник

R

Renarde in Data Engineers
Сап чат!
Вопросик - а как грамотно разрулить зависимости в Maven, чтобы не конфликтовал спарковский логгер и typesafe-scalalogging?
источник

R

Renarde in Data Engineers
У меня в pom.xml вот такое:

<dependency>
   <groupId>com.typesafe.scala-logging</groupId>
   <artifactId>scala-logging_${scala.compat.version}</artifactId>
</dependency>
<dependency>
   <groupId>org.apache.spark</groupId>
   <artifactId>spark-core_${scala.compat.version}</artifactId>
   <version>${spark.version}</version>
</dependency>


И они конфликтуют между собой, из за чего LazyLogging от typesafe не работает 🤷‍♂️
Что хочется - чтобы спарковский лог подчинялся тем же настройкам, что и typesafe LazyLogging
источник

GP

Grigory Pomadchin in Data Engineers
а в чем конфликт? (как выражается)
источник

AG

Alexander Gorokhov in Data Engineers
Пацаны, есть ли смысл делать ANALYZE TABLE в хайве? На сколько силен профит? Понятно что простейшие запросы вроде на количество строк во всей таблице будут быстрее. Как и где ещё эта статистика будет использоваться?
источник
2020 February 15

N

Nikita Blagodarnyy in Data Engineers
На хортоне в своё время писали, бест практис типа юзайте orc и обязательно собирайте стату, тогда вроде как движок будет скипать ненужные блоки данных. Я ни разу не наблюдал какой-то кардинальной и/или ощутимой разницы.
источник

N

Nikita Blagodarnyy in Data Engineers
Вроде как даже CBO на кальците есть.
источник

N

Nikita Blagodarnyy in Data Engineers
Попробуйте на своих данных, сделайте 3 одинаковых набора, один с просто статой, другой со статой по колонкам, третий без статы вообще. Погоняйте ваши типовые запросы.
источник

AZ

Anton Zadorozhniy in Data Engineers
Alexander Gorokhov
Пацаны, есть ли смысл делать ANALYZE TABLE в хайве? На сколько силен профит? Понятно что простейшие запросы вроде на количество строк во всей таблице будут быстрее. Как и где ещё эта статистика будет использоваться?
статистика используется оптимизатором, я не очень в курсе текущего состояния вещей (кстати может кто расскажет) но теория тут неплохо изложена https://cwiki.apache.org/confluence/display/Hive/Cost-based+optimization+in+Hive
источник

AZ

Anton Zadorozhniy in Data Engineers
обычная практика (не только в хайве, в любой системе с оптимизатором который умеет использовать статистику): берем плохие запросы (которые очень долго работают), смотри план, видим где план не оптимальный и пытаемся понять почему, и можно ли сбором статистики заставить оптимизатор сгенерировать оптимальный план, и тогда собираем статистику
источник

AG

Anton Grudko in Data Engineers
Всем привет! А кто-нибудь пробовал использовать hortonworks ozone? Что с ним в итоге? В 2018 были большие надежды вроде?
источник

R

Renarde in Data Engineers
Grigory Pomadchin
а в чем конфликт? (как выражается)
конфликт выражается вот в чем - приложение разворачивается с помощью скаловского App with LazyLogging (это из typesafe). Логи из typesafe логгера в общий лог не попадают, логи из спарка - попадают, перед началом логов в stderror выводится:
log4j:WARN Please initialize the log4j system properly.
log4j:WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig for more info.
источник

I

I Апрельский in Data Engineers
что-то я не смог найти презы к митапу. подскажите, пожалуйста, где бы их взять
источник

R

Renarde in Data Engineers
Renarde
конфликт выражается вот в чем - приложение разворачивается с помощью скаловского App with LazyLogging (это из typesafe). Логи из typesafe логгера в общий лог не попадают, логи из спарка - попадают, перед началом логов в stderror выводится:
log4j:WARN Please initialize the log4j system properly.
log4j:WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig for more info.
в итога разобрался - нужно было накинуть logback + вычистить одну зависимость, как-то так:

<dependency>
   <groupId>com.typesafe.scala-logging</groupId>
   <artifactId>scala-logging_${scala.compat.version}</artifactId>
</dependency>
<dependency>
   <groupId>ch.qos.logback</groupId>
   <artifactId>logback-classic</artifactId>
   <scope>provided</scope>
</dependency>
<dependency>
   <groupId>org.apache.spark</groupId>
   <artifactId>spark-core_${scala.compat.version}</artifactId>
   <version>${spark.version}</version>
   <exclusions>
       <exclusion>
           <groupId>org.slf4j</groupId>
           <artifactId>slf4j-log4j12</artifactId>
       </exclusion>
   </exclusions>
</dependency>
<dependency>
   <groupId>org.apache.spark</groupId>
   <artifactId>spark-sql_${scala.compat.version}</artifactId>
   <version>${spark.version}</version>
   <exclusions>
       <exclusion>
           <groupId>org.slf4j</groupId>
           <artifactId>slf4j-log4j12</artifactId>
       </exclusion>
   </exclusions>
</dependency>


Вдруг кому полезно будет)
источник

A

Anton Kovalenko in Data Engineers
I Апрельский
что-то я не смог найти презы к митапу. подскажите, пожалуйста, где бы их взять
Все презы интересуют или только наша?
источник