Size: a a a

2021 March 16

UD

Uncel Duk in Data Engineers
оно пока не разумеет erasure
источник

UD

Uncel Duk in Data Engineers
клаудера втащила к себе чтобы оправдать часть своего названия; которое cloud
источник

AS

Andrey Smirnov in Data Engineers
Значения по оси Y представляют собой разницу во времени выполнения по сравнению со временем выполнения запроса в HDFS. Так, например, 50% означает, что разница составляет половину времени выполнения в HDFS. Это фактически означает, что в Ozone запрос выполнялся в 2 раза быстрее, а -50% (отрицательное значение) означает, что для выполнения запроса в Ozone потребовалось в 1,5 раза большее время, чем в HDFS.

хм, я думал это должно быть симметрично
источник

AZ

Anton Zadorozhniy in Data Engineers
Andrey Smirnov
не спорю т.к. не знаю чем они архитектурно отличаются, вопрос про молодость технологий, они вроде только прошлой осенью зарелизись
в разработке оно довольно давно, релиз 1.0 был в прошлом году, но вы правы что это довольно рано для такой важной части стека как основной сторадж, а с текущим падением он-премных инсталляций скорость набивания шишек будет намного меньше
источник

AS

Andrey Smirnov in Data Engineers
Anton Zadorozhniy
в разработке оно довольно давно, релиз 1.0 был в прошлом году, но вы правы что это довольно рано для такой важной части стека как основной сторадж, а с текущим падением он-премных инсталляций скорость набивания шишек будет намного меньше
плюс учитывать как торопится сама клоудера, часики акции тикают, торопятся
источник

NN

No Name in Data Engineers
Andrey Smirnov
плюс учитывать как торопится сама клоудера, часики акции тикают, торопятся
А куда они торопятся?
источник

AS

Andrey Smirnov in Data Engineers
No Name
А куда они торопятся?
https://www.fool.com/investing/2021/03/11/why-cloudera-stock-is-plummeting-today
не все так плохо конечно, в 2019 вообще около пятерки стояли, сейчас 13
источник

AZ

Anton Zadorozhniy in Data Engineers
Andrey Smirnov
плюс учитывать как торопится сама клоудера, часики акции тикают, торопятся
ну это вторично, я конкретно про ASF проекты; вообще интересно было бы посмотреть какие доли контрибьюторов в Ozone и YuniKorn из Cloudera
источник

ЕГ

Евгений Глотов... in Data Engineers
Новое поколение
3.5% прироста скорости по сравнению с хдфс

Получается, хдфс не настолько плох?..🤔
источник

AZ

Anton Zadorozhniy in Data Engineers
Евгений Глотов
Новое поколение
3.5% прироста скорости по сравнению с хдфс

Получается, хдфс не настолько плох?..🤔
Если все для чего вам нужен сторадж - это гонять TPC-DS на фиксированном объеме данных
источник

ЕГ

Евгений Глотов... in Data Engineers
Anton Zadorozhniy
Если все для чего вам нужен сторадж - это гонять TPC-DS на фиксированном объеме данных
У нас больше 200 юзеров, которые чего только не гоняют, вплоть до кроссджойнов и partitionBy(unique_id)
Интересно будет почитать, когда кто-нибудь внедрит в коммунальный кластер и оценит разницу в производительности)
источник

АР

Андрей Романов... in Data Engineers
можно в докере посмотреть, кстати

https://github.com/apache/ozone-docker
источник

АР

Андрей Романов... in Data Engineers
То есть, поиграться
источник

AZ

Anton Zadorozhniy in Data Engineers
Евгений Глотов
У нас больше 200 юзеров, которые чего только не гоняют, вплоть до кроссджойнов и partitionBy(unique_id)
Интересно будет почитать, когда кто-нибудь внедрит в коммунальный кластер и оценит разницу в производительности)
у больших он-премных кластеров (Блумберг, Тенсент) тысячи узлов и тысячи пользователей, можно у них поинтересоваться
источник

AZ

Anton Zadorozhniy in Data Engineers
вообще если у вас ваниль на большом он-преме и вы умеете все это варить то миграция на ozone это, в целом, no brainer, вопрос только когда и какими силами делать
источник

ЕГ

Евгений Глотов... in Data Engineers
Anton Zadorozhniy
вообще если у вас ваниль на большом он-преме и вы умеете все это варить то миграция на ozone это, в целом, no brainer, вопрос только когда и какими силами делать
При очередном расширении и переезде в новый ДЦ, например. Больше всех наверно будет волновать вопрос поддержки, чтобы было в стандартном дистрибутиве на поддержке клаудеры например
источник

AZ

Anton Zadorozhniy in Data Engineers
Евгений Глотов
При очередном расширении и переезде в новый ДЦ, например. Больше всех наверно будет волновать вопрос поддержки, чтобы было в стандартном дистрибутиве на поддержке клаудеры например
ну тут вам клаудера поможет, я имею в виду вещи которые явно выпадают сейчас, как вы будете жить с отсутствующими фичами - HA for SCM, snapshots for cross-DC replication, erasure coding
источник

IS

Ilja Salamander in Data Engineers
Коллеги, кто может накидать материалов, как в компаниях с большими хранилищами работают с витринами данных?
Как проходит процесс создания и доведения до прода, постановка на регламент, пересчеты, и тп?
источник

NN

No Name in Data Engineers
Anton Zadorozhniy
Если все для чего вам нужен сторадж - это гонять TPC-DS на фиксированном объеме данных
А что есть tpc-ds? Я загуглил и понял только, что это какой-то стандарт для бенчмарков.
источник

AZ

Anton Zadorozhniy in Data Engineers
No Name
А что есть tpc-ds? Я загуглил и понял только, что это какой-то стандарт для бенчмарков.
Это стандартный бенчмарк
источник