Size: a a a

2020 February 02

A

Andrey in Data Engineers
Спасибо, не обратил внимания
источник

M

Mi in Data Engineers
Андрей
А, то есть будет достаточно через HiveContext передавать hive запросы в спарк?
Только хайв контекст со второго спарка deprecated
источник

M

Mi in Data Engineers
Use SparkSession.builder.enableHiveSupport instead. Since 2.0.0.
источник

ME

Max Efremov in Data Engineers
Mi
Только хайв контекст со второго спарка deprecated
Они слили всё в один вроде
источник

ME

Max Efremov in Data Engineers
Да, всё стало спарк сессией
источник

А

Андрей in Data Engineers
Mi
Use SparkSession.builder.enableHiveSupport instead. Since 2.0.0.
О, круто, спасибо
источник

СК

Сергей Козλов ⚡️🧙🏻‍♂️ in Data Engineers
Всем привет

Мне подсказали, что в этом чате могут помочь по вопросам с Кассандрой.

У меня очень странные трейсы по ней
делаю count запрос по первичному ключу, а трейс показывает, что в запросе приняли участие все ноды кластера, а должен быть один в моем понимании

запросы выполнял с уровнем консистентности LOCAL_ONE
источник

GP

Grigory Pomadchin in Data Engineers
Сергей Козλов ⚡️🧙🏻‍♂️
Всем привет

Мне подсказали, что в этом чате могут помочь по вопросам с Кассандрой.

У меня очень странные трейсы по ней
делаю count запрос по первичному ключу, а трейс показывает, что в запросе приняли участие все ноды кластера, а должен быть один в моем понимании

запросы выполнял с уровнем консистентности LOCAL_ONE
LOCAL_ONE о консистентности в рамках одного датацентра, лучше посмотри описание каждого уровня https://docs.datastax.com/en/cassandra-oss/3.0/cassandra/dml/dmlConfigConsistency.html
источник

СК

Сергей Козλов ⚡️🧙🏻‍♂️ in Data Engineers
Grigory Pomadchin
LOCAL_ONE о консистентности в рамках одного датацентра, лучше посмотри описание каждого уровня https://docs.datastax.com/en/cassandra-oss/3.0/cassandra/dml/dmlConfigConsistency.html
У меня всего один дц
источник
2020 February 03

DG

Denis Gabaydulin in Data Engineers
Сергей Козλов ⚡️🧙🏻‍♂️
Всем привет

Мне подсказали, что в этом чате могут помочь по вопросам с Кассандрой.

У меня очень странные трейсы по ней
делаю count запрос по первичному ключу, а трейс показывает, что в запросе приняли участие все ноды кластера, а должен быть один в моем понимании

запросы выполнял с уровнем консистентности LOCAL_ONE
А если сделать обычный запрос по тому же ключу сколько нод затронуто?
Насколько я знаю, count это синтаксический сахар, с т.з. базы действия те же.
источник

СК

Сергей Козλов ⚡️🧙🏻‍♂️ in Data Engineers
Denis Gabaydulin
А если сделать обычный запрос по тому же ключу сколько нод затронуто?
Насколько я знаю, count это синтаксический сахар, с т.з. базы действия те же.
Одна
источник

СК

Сергей Козλов ⚡️🧙🏻‍♂️ in Data Engineers
То есть без подсчёта все работает как ожидается
источник

DG

Denis Gabaydulin in Data Engineers
Хмм, тогда у меня есть предположение про спекулятивное чтение, но на 100% не уверен.
источник

DG

Denis Gabaydulin in Data Engineers
Denis Gabaydulin
А если сделать обычный запрос по тому же ключу сколько нод затронуто?
Насколько я знаю, count это синтаксический сахар, с т.з. базы действия те же.
Видимо теперь это не одно и тоже)
источник

СК

Сергей Козλов ⚡️🧙🏻‍♂️ in Data Engineers
Такое ощущение что дешевле считать данные и посчитать в приложении
источник

СК

Сергей Козλов ⚡️🧙🏻‍♂️ in Data Engineers
Но надо проверить
источник

AS

Anton Shelin in Data Engineers
tracing on; что говорит?
источник

СК

Сергей Козλов ⚡️🧙🏻‍♂️ in Data Engineers
Tracing говорит что ноды постоянно друг другу отправляют запросы ещё read repair довольно часто делают


Что конкретно посмотреть в трейсе ?
источник

СК

Сергей Козλов ⚡️🧙🏻‍♂️ in Data Engineers
полно такого
источник

AS

Anton Shelin in Data Engineers
здесь https://academy.datastax.com/support-blog/counting-keys-might-well-be-counting-stars говорят что And really, this is what COUNT() does -- it reads all the partitions across all the SSTables (and memtables) across all the nodes in the Cassandra ring in order to come up with the result. Почему это происходит лично мне непонятно так как партиция одна. У человека такой же вопрос был и выяснил что проблема была в tomstones https://stackoverflow.com/questions/56125982/why-cassandra-count-on-a-specific-partition-takes-really-long-on-relatively-s в общем надо больше информации знать о проблеме
источник