Size: a a a

ClickHouse не тормозит

2019 November 28

AR

Alexander Ryzhenko in ClickHouse не тормозит
Есть ли в КХ инструменты для такой задачи?

Есть таблица:
id: 1 | ver:1 | data fields 1 |
id: 1 | ver:2 | data fields 2 |
id: 2 | ver:1 | data fields 3 |
id: 2 | ver:2 | data fields 4 |
id: 1 | ver:3 | data fields 5 |

запрос должен вернуть по одной строке для каждого id, в которой version максимальный (для этого id):
id: 1 | ver:3 | data fields 5 |
id: 2 | ver:2 | data fields 4 |

что-то типа WHERE ID is max group by id
источник

ИИ

Илья Ионов in ClickHouse не тормозит
Если правильно понял:

GROUP BY _id, ver
ORDER BY _id, ver DESC
LIMIT 1 BY _id;;
источник

Н

Николай in ClickHouse не тормозит
Alexander Ryzhenko
Есть ли в КХ инструменты для такой задачи?

Есть таблица:
id: 1 | ver:1 | data fields 1 |
id: 1 | ver:2 | data fields 2 |
id: 2 | ver:1 | data fields 3 |
id: 2 | ver:2 | data fields 4 |
id: 1 | ver:3 | data fields 5 |

запрос должен вернуть по одной строке для каждого id, в которой version максимальный (для этого id):
id: 1 | ver:3 | data fields 5 |
id: 2 | ver:2 | data fields 4 |

что-то типа WHERE ID is max group by id
argMax()
источник

AR

Alexander Ryzhenko in ClickHouse не тормозит
Николай
argMax()
argMax нам tuple возвращает.
argMax((id, ver, data), version)
возвращает
[1, 3, data field 5]
[2, 2, data field 4]
источник

Н

Николай in ClickHouse не тормозит
Alexander Ryzhenko
argMax нам tuple возвращает.
argMax((id, ver, data), version)
возвращает
[1, 3, data field 5]
[2, 2, data field 4]
SELECT id, max(ver), argMax(data, ver) GROUP BY id
источник

AR

Alexander Ryzhenko in ClickHouse не тормозит
Николай
SELECT id, max(ver), argMax(data, ver) GROUP BY id
а если полей data много?, то argMax юзать для каждого отдельно? argMax(field1, ver), argMax(field2, ver) и т.д... ?
источник

L

Lesha in ClickHouse не тормозит
Alexander Ryzhenko
Есть ли в КХ инструменты для такой задачи?

Есть таблица:
id: 1 | ver:1 | data fields 1 |
id: 1 | ver:2 | data fields 2 |
id: 2 | ver:1 | data fields 3 |
id: 2 | ver:2 | data fields 4 |
id: 1 | ver:3 | data fields 5 |

запрос должен вернуть по одной строке для каждого id, в которой version максимальный (для этого id):
id: 1 | ver:3 | data fields 5 |
id: 2 | ver:2 | data fields 4 |

что-то типа WHERE ID is max group by id
источник

AR

Alexander Ryzhenko in ClickHouse не тормозит
выглядит, как то, что нужно!
источник

AR

Alexander Ryzhenko in ClickHouse не тормозит
всем спасибо
источник

YT

Yury Trostin in ClickHouse не тормозит
всем привет ! вопрос к пользователям кликхаус балка

осознал проблему, что когда данные для вставки копятся в таблицу с енумом, то если среди данных для вставки есть хотя бы один невалидный кусок данных, то падает вся вставка вместе с валидными записями

как с этим можно бороться ? если уходить с балка то на что, чтобы эту проблему закрыть ?
источник

AG

Artemeey Gavryushin in ClickHouse не тормозит
Yury Trostin
всем привет ! вопрос к пользователям кликхаус балка

осознал проблему, что когда данные для вставки копятся в таблицу с енумом, то если среди данных для вставки есть хотя бы один невалидный кусок данных, то падает вся вставка вместе с валидными записями

как с этим можно бороться ? если уходить с балка то на что, чтобы эту проблему закрыть ?
источник

AV

Anton Vershinin in ClickHouse не тормозит
Тоже вопрос по Enum: в доке написано, что сравнивать enum с числом нельзя, при этом запрос ...where enum = 1 не бросает исключений и отдает ожидаемые результаты. Больше того, корректно работает даже с ...where enum in (1, 'ДВА'). Это документация отстает от кода? Версия 19.17.4.11
источник

S

Se in ClickHouse не тормозит
подскажите
Tried to add obsolete part 20191128_468_468_0 covered by 20191128_0_2009_71 (state Committed)
это опасная ошибка? повторяется постоянно в логе кликхауса. цифры не меняются
источник
2019 November 29

DC

Denny Crane (I don't... in ClickHouse не тормозит
это не опасная ошибка, странно что она повторяется , проверьте права на папке ...20191128_468_468_0
источник

S

Se in ClickHouse не тормозит
нету такой . есть вторая 20191128_0_2009_71
источник

S

Se in ClickHouse не тормозит
и у меня еще пропала строчка MergedRows в system.events
источник

SS

Sasha S in ClickHouse не тормозит
Доброй ночи, подскажи пожалуйста почему запрос с семплированием выполняется больше и читает больше данных с диска?
SELECT count() 
FROM test  
WHERE (event_type_model_loaded = 1) AND (event_owner = '123') AND (event_date >= '2019-01-01') AND (event_date < '2019-10-01')

┌─count()─┐
│ 6811866 │
└─────────┘

1 rows in set. Elapsed: 0.426 sec. Processed 21.40 million rows, 343.35 MB (50.22 million rows/s., 805.88 MB/s.)  

SELECT count()
FROM test
SAMPLE 5 / 10  
WHERE (event_type_model_loaded = 1) AND (event_owner = '123') AND (event_date >= '2019-01-01') AND (event_date < '2019-10-01')

┌─count()─┐
│ 3406765 │
└─────────┘

1 rows in set. Elapsed: 1.375 sec. Processed 21.37 million rows, 684.94 MB (15.54 million rows/s., 498.12 MB/s.)
источник

SS

Sasha S in ClickHouse не тормозит
Sasha S
Доброй ночи, подскажи пожалуйста почему запрос с семплированием выполняется больше и читает больше данных с диска?
SELECT count() 
FROM test  
WHERE (event_type_model_loaded = 1) AND (event_owner = '123') AND (event_date >= '2019-01-01') AND (event_date < '2019-10-01')

┌─count()─┐
│ 6811866 │
└─────────┘

1 rows in set. Elapsed: 0.426 sec. Processed 21.40 million rows, 343.35 MB (50.22 million rows/s., 805.88 MB/s.)  

SELECT count()
FROM test
SAMPLE 5 / 10  
WHERE (event_type_model_loaded = 1) AND (event_owner = '123') AND (event_date >= '2019-01-01') AND (event_date < '2019-10-01')

┌─count()─┐
│ 3406765 │
└─────────┘

1 rows in set. Elapsed: 1.375 sec. Processed 21.37 million rows, 684.94 MB (15.54 million rows/s., 498.12 MB/s.)
ORDER BY (event_owner, event_object_id, event_date, cityHash64(toString(client_id)))
SAMPLE BY cityHash64(toString(client_id))
источник

DC

Denny Crane (I don't... in ClickHouse не тормозит
ну так SAMPLE 5 / 10 не имеет смысла,потому что надо прочитать тяжелую колонку client_id , даже 0.1 часто не ускоряет запросы, пробуйте 0.01, 0.05
источник

AK

Alex Krash in ClickHouse не тормозит
В этом случае хеш градус крадёт - сипхеш требует расчёта значения на каждый скан
источник