Size: a a a

2021 July 02

AS

Andrey Shevchenko in Data Engineers
а так?
источник

AS

Andrey Shevchenko in Data Engineers
ну и чтоб совсем вопрос закрыть насчет перекоса
источник

N

Nail in Data Engineers
Что вы пытаетесь доказать?
источник

N

Nail in Data Engineers
Вы привели какую-то картинку без подробностей и утверждение что дата-инженеры у вас говно.
Ну ок.
источник

N

Nail in Data Engineers
Я лишь выдвинул свои предположения
источник

AS

Andrey Shevchenko in Data Engineers
с чего вы взяли что я что то доказываю? я пришел поплакаться о чем почти сразу же сообщил.
а вы пришли ко мне и заявили что мое нытье необосновано потому то и потому то, на что я вам привел контраргумент доказывающий что то то и то то неверное предположение
все
источник

N

Nail in Data Engineers
А в чем проблема была в итоге? Вы разобрались?
источник

AZ

Anton Zadorozhniy in Data Engineers
10-20 гигов ни о чем тоже, обычно всё-таки смотрим на джоины много-на-много, а такие на объеме 10-20 гигов могут быть только если не эквиджоины где-то появляются
источник

N

Nail in Data Engineers
Я понимаю, если бы вы решили эту проблему и указали на конкретные ошибки своим коллегам. И нам показали как не нужно делать. А так выглядит не очень если честно.
источник

AS

Andrey Shevchenko in Data Engineers
источник

N

Nail in Data Engineers
Это помогло в итоге?
источник

N

Nail in Data Engineers
Просто это не всегда помогает, а иногда даже усугубляет проблему
источник

AS

Andrey Shevchenko in Data Engineers
пока не знаю, это быстро не сделать.
но корень проблемы изначально в "лень делать процесс для материализации какого то представления данных, херанем вьюху" а потому вьюху поверх вьюхи, а потом новый ELT процесс использующий вьюхи как источник данных...
источник

N

Nail in Data Engineers
Ничего не вижу плохого во вью. Более того, мы добивались неплохого ускорения запросов избавляясь от лишних записей на диск (читай использовали вью). И планы выполнения у нас бывали похуже.
Слишком мало информации, и слишком резкие утверждения - это вам пытаются сказать.
Ничего личного.
источник

AS

Andrey Shevchenko in Data Engineers
я же пишу не про все вью в принципе, а про случаи когда они бездумно используются имея внутри тяжелые запросы
источник

AS

Andrey Shevchenko in Data Engineers
и привожу конкретный пример, где на очень малом объеме данных и с приличным количество ресурсов запрос не может выполнится в разумное время
не понимаю какая еще информация нужна
источник

A

Antony in Data Engineers
А как можно влиять на эту картинку если допустим надо много источников собрать сделать из них витрину?
источник

A

Antony in Data Engineers
Для спарка это нормально, я смотрел как то план и он один и то же источник зачитывал 2 раза, потому что он джойнился позже с разными таблицами дальше

Он решил чтобы быстрее его 2 раза прочесть нежели 1 результат потом переиспользовать
источник

AS

Andrey Shevchenko in Data Engineers
а спарк может переиспользовать вьюхи (без ручных манипуляций)?
если я скажем напишу
select * from xxx
join xxx
, где ххх - вью, oн xxx прочитает один раз?
источник

A

Antony in Data Engineers
Результат закешировать можно
источник