Size: a a a

2021 May 28

AZ

Anton Zadorozhniy in Data Engineers
И потом в Спарке вроде бы давно нет разницы в производительности если вы пишете на датафреймах, независимо от того это Scala, Python или SQL (хотя тут более знающие коллеги меня поправят)
источник

AE

Alexey Evdokimov in Data Engineers
у нас в piano.io (платформа для паблишинга с жуткими миллионами событий в час) был 1 дашборд с бэком на BQ. правда он обновлялся ежесекундно.
рисовал график нагрузки по каждому из топ 50 кастомеров, за последние N выбранных минут. вот полагаю, что ограничение на последние N минут и не позволяло BQ жрать деньги
источник

PA

Panchenko Andrey in Data Engineers
так я полагаю вы сримите в БК а это уже дорого((
источник

AT

Al T in Data Engineers
да, видимо, если были daily/hourly partitions. у нас к сожалнению был self-service BI case и там уж кто во что горазд ))
источник

AE

Alexey Evdokimov in Data Engineers
ну подробностей я уже не помню, это лет 5 назад было.

и моя головная боль была все эти эвенты в BQ запихнуть, а сам дэш уже другие чуваки делали. и вроде они кафкой это дело консюмили, если не путаю
источник

GP

Grigory Pomadchin in Data Engineers
А что с убогим перформансом? Поправили?
источник

PA

Panchenko Andrey in Data Engineers
хм а в чем убогость? а работе с датафреймами или с чем?
источник

GP

Grigory Pomadchin in Data Engineers
Да в целом, что не делай раньше на р все долго медленно
источник

PA

Panchenko Andrey in Data Engineers
для работы с дф есть дататейбл
источник

GP

Grigory Pomadchin in Data Engineers
Там гугл 2х минутный ревилы перформансные сделает))
источник

PA

Panchenko Andrey in Data Engineers
про параллельность есть сноу
источник

AE

Alexey Evdokimov in Data Engineers
а ещё мы тогда с какого-то бодуна ухитрились забабахать запись всех runtime exceptions в BQ, и я по ним дэш на питоне слабал. занятно было смотреть, как на очередном релизе возникает особо плохой класс. чуть-чуть не докрутили автоматику, чтобы оно ишью в жире заводило. вот там бывали недешёвые запросы типа "показать все NPE по такому-то пакету за год"
источник

МК

Михаил Королев... in Data Engineers
подтверждаю (цитирую первоисточники): If you use just the Structured APIs, you can expect all languages to have similar performance characteristics
источник

AZ

Anton Zadorozhniy in Data Engineers
Спасибо, видимо память меня не подводит
источник

R

Renarde in Data Engineers
это верное утверждение до того момента пока не используются non-JVM UDF 😉
источник

М

Михаил in Data Engineers
Сталкивались с тем, что на пайспарке метаданные больших таблиц читались быстрее, чем скалой.
(Непартицированная Таблица весом 14ТБ, 60к файлов в одной папке)
Перед запросом нужно было подождать минут 40, пока неймнода передаёт инфу по блокам на драйвер
источник

AZ

Anton Zadorozhniy in Data Engineers
А как в delta engine?
источник

R

Renarde in Data Engineers
источник

R

Renarde in Data Engineers
N-D-A. Заходите как клиент или партнер 🙂
источник

N

Nikita Blagodarnyy in Data Engineers
А кто-нибудь настраивал HA на ванильном хайве? Как это вообще делается? А то все статьи начинаются с «откройте главную страницу Ambari/Cloudera Manager"
источник