Телеграмм чат группы hadoopusers страница 1992

2020 January 25

S

Stanislav in Data Engineers

Кх жмет лучше снаппи например, но проигрывает в количестве реплик

источник

14:25пожаловаться #1

N

Nikolay in Data Engineers

Easycore Programming

Речь пока идёт об одной таблице с тройной репликацией. КХ кластер состоит из 3 нод.

у вас одна широкая таблица. Это хорошо для КХ. как раз его кейс так как в КХ есть тонкости( скажем так :-)) с джойнами, но для запросов по одной таблице(включая группировки) он порвет hive( по скорости выполнения) как тузик грелку :-).

КХ хранит каждую колонку в отдельном файле и жмет ее. Либо через LZ4 по умолчанию, либо если хотите, то иначе (указывается на уровне колонки). Посмотрите про кодеки https://clickhouse.yandex/docs/ru/query_language/create/#codecs. Причем обратите внимание на возможности LowCardinality (можно тут почитать https://www.altinity.com/blog/2019/3/27/low-cardinality)
, что фактически является кодирование по словарю.

Вот как данные в orc хранятся я не знаю, знаю только что там тоже есть кодирование по словарю как и в КХ
и вроде оно даже само включается, а к КХ вам нужно будет при создании колонки установить это.
в файле КХ не нужно для каждого файла хранить мета-информацию о типах и схеме. Она хранится один раз
для всех файлов. в КХ у вас будет возможность создать разные идексы( для разных колонок).
Это позволит вам избегать FS в каких-то еще случаях в дополнению к тем, когда в ваших
запросах участвует столбцы из первичного ключа/ключа сортировки.

В целом не обладая знаниями по orc не могу придумать, что позволит хранить более компактно
чем КХ. ведь КХ хранит 1) каждую колонку в своем файле 2) жмет 3)использует кодирование по словарю 4)использует нативный формат для данных.

Altinity

A Magical Mystery Tour of the LowCardinality Data Type — Altinity

Mar 27, 2019 Many ClickHouse features like LowCardinality data type seem mysterious to new users. ClickHouse often deviates from standard SQL and many data types and operations do not even exist in other data warehouses. The key to understanding is that the ClickHouse engineering team va

источник

15:32пожаловаться #2

EP

Easycore Programming in Data Engineers

Nikolay

у вас одна широкая таблица. Это хорошо для КХ. как раз его кейс так как в КХ есть тонкости( скажем так :-)) с джойнами, но для запросов по одной таблице(включая группировки) он порвет hive( по скорости выполнения) как тузик грелку :-).

КХ хранит каждую колонку в отдельном файле и жмет ее. Либо через LZ4 по умолчанию, либо если хотите, то иначе (указывается на уровне колонки). Посмотрите про кодеки https://clickhouse.yandex/docs/ru/query_language/create/#codecs. Причем обратите внимание на возможности LowCardinality (можно тут почитать https://www.altinity.com/blog/2019/3/27/low-cardinality)
, что фактически является кодирование по словарю.

Вот как данные в orc хранятся я не знаю, знаю только что там тоже есть кодирование по словарю как и в КХ
и вроде оно даже само включается, а к КХ вам нужно будет при создании колонки установить это.
в файле КХ не нужно для каждого файла хранить мета-информацию о типах и схеме. Она хранится один раз
для всех файлов. в КХ у вас будет возможность создать разные идексы( для разных колонок).
Это позволит вам избегать FS в каких-то еще случаях в дополнению к тем, когда в ваших
запросах участвует столбцы из первичного ключа/ключа сортировки.

В целом не обладая знаниями по orc не могу придумать, что позволит хранить более компактно
чем КХ. ведь КХ хранит 1) каждую колонку в своем файле 2) жмет 3)использует кодирование по словарю 4)использует нативный формат для данных.

Altinity

A Magical Mystery Tour of the LowCardinality Data Type — Altinity

Mar 27, 2019 Many ClickHouse features like LowCardinality data type seem mysterious to new users. ClickHouse often deviates from standard SQL and many data types and operations do not even exist in other data warehouses. The key to understanding is that the ClickHouse engineering team va

Спасибо за развернутый ответ и ссылки

источник

16:32пожаловаться #3

A

Alex in Data Engineers

Nikolay

у вас одна широкая таблица. Это хорошо для КХ. как раз его кейс так как в КХ есть тонкости( скажем так :-)) с джойнами, но для запросов по одной таблице(включая группировки) он порвет hive( по скорости выполнения) как тузик грелку :-).

КХ хранит каждую колонку в отдельном файле и жмет ее. Либо через LZ4 по умолчанию, либо если хотите, то иначе (указывается на уровне колонки). Посмотрите про кодеки https://clickhouse.yandex/docs/ru/query_language/create/#codecs. Причем обратите внимание на возможности LowCardinality (можно тут почитать https://www.altinity.com/blog/2019/3/27/low-cardinality)
, что фактически является кодирование по словарю.

Вот как данные в orc хранятся я не знаю, знаю только что там тоже есть кодирование по словарю как и в КХ
и вроде оно даже само включается, а к КХ вам нужно будет при создании колонки установить это.
в файле КХ не нужно для каждого файла хранить мета-информацию о типах и схеме. Она хранится один раз
для всех файлов. в КХ у вас будет возможность создать разные идексы( для разных колонок).
Это позволит вам избегать FS в каких-то еще случаях в дополнению к тем, когда в ваших
запросах участвует столбцы из первичного ключа/ключа сортировки.

В целом не обладая знаниями по orc не могу придумать, что позволит хранить более компактно
чем КХ. ведь КХ хранит 1) каждую колонку в своем файле 2) жмет 3)использует кодирование по словарю 4)использует нативный формат для данных.

Altinity

A Magical Mystery Tour of the LowCardinality Data Type — Altinity

Mar 27, 2019 Many ClickHouse features like LowCardinality data type seem mysterious to new users. ClickHouse often deviates from standard SQL and many data types and operations do not even exist in other data warehouses. The key to understanding is that the ClickHouse engineering team va

Ну орк и паркет тот же колумнар формат

Каждая колонка ложится и сжимается отдельно (дикшионари енкодинг, рле енкодинг, дельту тоже вроде делали)

То что это один большой файл с отдельными сегментами большой роли не играет

источник

16:38пожаловаться #4

AZ

Anton Zadorozhniy in Data Engineers

кмк это абсолютно разного класса системы, если нужен даталейк - его проще построить на хадупе, если нужна оперативная аналитика - данные лучше поднять в СУБД

источник

17:55пожаловаться #5

AE

Alexey Evdokimov in Data Engineers

я тут обещал пачку статей написать про гис.
вот первая к вашему вниманию:

https://habr.com/ru/post/485484/

ну, это. приветствуются лайки, шеры, ретвиты, вопросы, конструктивная критика

Хабр

[кейс Locomizer] Какие знания можно на самом деле извлечь из анонимизированного датасета с координатами пользователей

Данная статья является частью серии «Кейс Locomizer», см. также • Как мы за два года ускорили расчёт тепловой карты в 20000 раз (послезавтра) • Открываем One Rin...

источник

23:22пожаловаться #6

AS

Anton Shelin in Data Engineers

Alexey Evdokimov

я тут обещал пачку статей написать про гис.
вот первая к вашему вниманию:

https://habr.com/ru/post/485484/

ну, это. приветствуются лайки, шеры, ретвиты, вопросы, конструктивная критика

Хабр

[кейс Locomizer] Какие знания можно на самом деле извлечь из анонимизированного датасета с координатами пользователей

Данная статья является частью серии «Кейс Locomizer», см. также • Как мы за два года ускорили расчёт тепловой карты в 20000 раз (послезавтра) • Открываем One Rin...

Мне не понравилось. Ожидал увидеть, чтото полезное, а попал на рекоамный булшит, еще и в странном панибратском тоне.

источник

23:53пожаловаться #7

GP

Grigory Pomadchin in Data Engineers

дык введение, предметная область; инженерная часть потом будет

источник

23:55пожаловаться #8

ИК

Илья Коробов in Data Engineers

Alexey Evdokimov

я тут обещал пачку статей написать про гис.
вот первая к вашему вниманию:

https://habr.com/ru/post/485484/

ну, это. приветствуются лайки, шеры, ретвиты, вопросы, конструктивная критика

Хабр

[кейс Locomizer] Какие знания можно на самом деле извлечь из анонимизированного датасета с координатами пользователей

Данная статья является частью серии «Кейс Locomizer», см. также • Как мы за два года ускорили расчёт тепловой карты в 20000 раз (послезавтра) • Открываем One Rin...

Боюсь, у меня маловато компетенции для подобающей оценки, но мне понравилось

источник

23:55пожаловаться #9

2020 January 26

AS

Anton Shelin in Data Engineers

Про проблемы со значением времени вообще ничего не написано, про тренировки вояк тоже. Даже упоминаний алгоритмов нет, хотябы теже скрытые цепи маркова и т.п.

источник

00:03пожаловаться #10

AE

Alexey Evdokimov in Data Engineers

а мы на вояк не работаем. зачем они нам.

источник

00:52пожаловаться #11

AE

Alexey Evdokimov in Data Engineers

а алгоритмах нет никакой магии. и цепей маркова там всяких тоже не надо, покуда есть более вычислительно простые способы получать верифицируемый результат.

впрочем, об этом я просто не имею права говорить...

источник

00:54пожаловаться #12

AE

Alexey Evdokimov in Data Engineers

Anton Shelin

Про проблемы со значением времени вообще ничего не написано, про тренировки вояк тоже. Даже упоминаний алгоритмов нет, хотябы теже скрытые цепи маркова и т.п.

а, понял о чём ты.

тот скандал с фитнес-трекерами американских военных. так там утечка данных в чистом виде. мы же ведём речь про коммерческих агрегаторов геоданных с SDK смартфонов. там такого вообще нет. данные с фитнес-трекеров на рынке официально никем не продаются.

источник

00:59пожаловаться #13

MS

Mikhail Sitnikov in Data Engineers

не бейте тапками
а насколько плохая идея развенуть кубернетес поверх марафона ? (dc/os может кто слышал)

источник

01:28пожаловаться #14

MS

Mikhail Sitnikov in Data Engineers

Sergej Khakhulin

Нарлд не закидываете тапками, насколько плоха идея запускать yarn внтури другого оркестратора?

очень плохая

источник

01:29пожаловаться #15

SK

Sergej Khakhulin in Data Engineers

Mikhail Sitnikov

очень плохая

Почему?

источник

03:40пожаловаться #16

SK

Sergej Khakhulin in Data Engineers

Sergej Khakhulin

Почему?

Кроме оверхедов @masitnikov 😉

источник

03:41пожаловаться #17

C

Combot in Data Engineers

Добро пожаловать в самое дружелюбное комьюнити.

источник

03:42пожаловаться #18

AS

Andrey Smirnov in Data Engineers

Alexey Evdokimov

я тут обещал пачку статей написать про гис.
вот первая к вашему вниманию:

https://habr.com/ru/post/485484/

ну, это. приветствуются лайки, шеры, ретвиты, вопросы, конструктивная критика

Хабр

[кейс Locomizer] Какие знания можно на самом деле извлечь из анонимизированного датасета с координатами пользователей

Данная статья является частью серии «Кейс Locomizer», см. также • Как мы за два года ускорили расчёт тепловой карты в 20000 раз (послезавтра) • Открываем One Rin...

Интересно законность всего этого, предпрложим я дал права какому-то приложению на сбор гео данных, но я не давал его на перепродажу моих данных

источник

12:48пожаловаться #19

AS

Andrey Smirnov in Data Engineers

GDPR по таким поставщикам не плачет?

источник

12:49пожаловаться #20