Телеграмм чат группы hadoopusers страница 3697

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

2487 membersпожаловаться на группу

2021 May 28

AZ

Anton Zadorozhniy in Data Engineers

И потом в Спарке вроде бы давно нет разницы в производительности если вы пишете на датафреймах, независимо от того это Scala, Python или SQL (хотя тут более знающие коллеги меня поправят)

источник

13:16пожаловаться #1

AE

Alexey Evdokimov in Data Engineers

у нас в piano.io (платформа для паблишинга с жуткими миллионами событий в час) был 1 дашборд с бэком на BQ. правда он обновлялся ежесекундно.
рисовал график нагрузки по каждому из топ 50 кастомеров, за последние N выбранных минут. вот полагаю, что ограничение на последние N минут и не позволяло BQ жрать деньги

источник

13:52пожаловаться #2

PA

Panchenko Andrey in Data Engineers

так я полагаю вы сримите в БК а это уже дорого((

источник

13:54пожаловаться #3

AT

Al T in Data Engineers

да, видимо, если были daily/hourly partitions. у нас к сожалнению был self-service BI case и там уж кто во что горазд ))

источник

13:55пожаловаться #4

AE

Alexey Evdokimov in Data Engineers

ну подробностей я уже не помню, это лет 5 назад было.

и моя головная боль была все эти эвенты в BQ запихнуть, а сам дэш уже другие чуваки делали. и вроде они кафкой это дело консюмили, если не путаю

источник

14:00пожаловаться #5

GP

Grigory Pomadchin in Data Engineers

А что с убогим перформансом? Поправили?

источник

14:01пожаловаться #6

PA

Panchenko Andrey in Data Engineers

хм а в чем убогость? а работе с датафреймами или с чем?

источник

14:02пожаловаться #7

GP

Grigory Pomadchin in Data Engineers

Да в целом, что не делай раньше на р все долго медленно

источник

14:03пожаловаться #8

PA

Panchenko Andrey in Data Engineers

для работы с дф есть дататейбл

источник

14:03пожаловаться #9

GP

Grigory Pomadchin in Data Engineers

Там гугл 2х минутный ревилы перформансные сделает))

источник

14:03пожаловаться #10

PA

Panchenko Andrey in Data Engineers

про параллельность есть сноу

источник

14:03пожаловаться #11

AE

Alexey Evdokimov in Data Engineers

а ещё мы тогда с какого-то бодуна ухитрились забабахать запись всех runtime exceptions в BQ, и я по ним дэш на питоне слабал. занятно было смотреть, как на очередном релизе возникает особо плохой класс. чуть-чуть не докрутили автоматику, чтобы оно ишью в жире заводило. вот там бывали недешёвые запросы типа "показать все NPE по такому-то пакету за год"

источник

14:05пожаловаться #12

МК

Михаил Королев... in Data Engineers

подтверждаю (цитирую первоисточники): If you use just the Structured APIs, you can expect all languages to have similar performance characteristics

источник

14:13пожаловаться #13

AZ

Anton Zadorozhniy in Data Engineers

Спасибо, видимо память меня не подводит

источник

14:38пожаловаться #14

R

Renarde in Data Engineers

это верное утверждение до того момента пока не используются non-JVM UDF 😉

источник

14:39пожаловаться #15

М

Михаил in Data Engineers

Сталкивались с тем, что на пайспарке метаданные больших таблиц читались быстрее, чем скалой.
(Непартицированная Таблица весом 14ТБ, 60к файлов в одной папке)
Перед запросом нужно было подождать минут 40, пока неймнода передаёт инфу по блокам на драйвер

источник

14:45пожаловаться #16

AZ

Anton Zadorozhniy in Data Engineers

А как в delta engine?

источник

15:26пожаловаться #17

R

Renarde in Data Engineers

источник

15:28пожаловаться #18

R

Renarde in Data Engineers

N-D-A. Заходите как клиент или партнер 🙂

источник

15:29пожаловаться #19

N

Nikita Blagodarnyy in Data Engineers

А кто-нибудь настраивал HA на ванильном хайве? Как это вообще делается? А то все статьи начинаются с «откройте главную страницу Ambari/Cloudera Manager"

источник

15:36пожаловаться #20