Size: a a a

2021 June 30

SS

Sergey Sheremeta in Data Engineers
справедливости ради могу сказать, что на Databricks Photon очень даже неплохо работает...
источник

VS

Vladislav 👻 Shishkov... in Data Engineers
я же говорю, лень думать разрабам/аналитикам
источник

D

Dmitry in Data Engineers
Photon это в целом спарк. спарк не в восторге от сотен джоинов
источник

VS

Vladislav 👻 Shishkov... in Data Engineers
а тебе сотня джойнов нужна только для витрин
источник

VS

Vladislav 👻 Shishkov... in Data Engineers
ну и для сырых данных, если истоничков много собирать для одной сущности
источник

VS

Vladislav 👻 Shishkov... in Data Engineers
с другой стороны, это есть во всех моделях, поэтому непонятно, почему нытье
источник

SS

Sergey Sheremeta in Data Engineers
это уже не совсем Spark
источник

NN

No Name in Data Engineers
Кстати, а что это, расскажешь вкратце?
источник

PA

Panchenko Andrey in Data Engineers
источник

T

T in Data Engineers
Спасибо большое
источник

PA

Panchenko Andrey in Data Engineers
в вашем случае кол-во строк это ген совокупность
источник

T

T in Data Engineers
👍
источник

SS

Sergey Sheremeta in Data Engineers
гораздо лучше рассказывают эти дяденьки - https://databricks.com/session_na21/radical-speed-for-sql-queries-on-databricks-photon-under-the-hood
источник

NN

No Name in Data Engineers
Читанемс, спасибо)
источник

AM

Almaz Murzabekov in Data Engineers
+1
источник

AN

Aleksey Nikolaev in Data Engineers
У нас ДС копал ровно эту тему с проверками на сэмплах по витрине. Не скажу какой он там доверительный интервал брал, но для витрины 10^8/сутки остановились на сэмпле 0.1%. По его исследованиям этого хватает чтобы не переживать за оставшиеся 99.9, а так же хватает для обнаружения аномалий при сравнении день к дню. На регламенте используем. Пока все довольны.
источник

T

T in Data Engineers
А как он этот 0.1% получил?
источник

A

Aleksey in Data Engineers
В 2х крупнейших ритейлах РФ он работает, в одном из них ещё 10 лет назад DWH был на нем построен. + Avito и Яндекс такси где-то рассказывали, что используют. Кмк историй успеха предостаточно.
источник

AN

Aleksey Nikolaev in Data Engineers
В тетрадке экспериментами. По пятилетней витрине делал подневные сэмплы разного размера, собирал по ним dq-метрики итссотрел на сколько они отличаются от метрик посчитанных на полной витрине. Долго возился.
источник

AZ

Anton Zadorozhniy in Data Engineers
Photon это не Спарк, это МРР СУБД которая понимает спарковый API
источник