Size: a a a

2021 September 10

АР

Андрей Романов... in Data Engineers
по сути тот же облачный Excel
источник

АР

Андрей Романов... in Data Engineers
просто страницы по каждому объекту, где ведутся метрики

и всё в одном пространстве
источник

e

er@essbase.ru in Data Engineers
👌.  кстати . да )
источник

В

Вадим in Data Engineers
@EvgeniyRasyuk,  Можно в страницу конфы встроить единый справочник (импорт страницы Excel) и настроить фильтры.
К примеру, столбцы - объект, фича, описание, требования и условия(NotNULL, физик/юрик и т.д.), ответственный за объект, источник.
Тогда можно отфильтровать по нужным  полям и испортировать в свою конфу/тз или куда там нужно
источник

В

Вадим in Data Engineers
@EvgeniyRasyuk, Плюс в этом тот, что «золотая» книга Excel  (Если это настроить), доступна для редактирования только админу пространства. Как альтернатива - любая реляционка  и скрипт на фронт конфы или самописного справочника. У некоторых есть свои разработки типа супермаркета данных, где «закупаешь» или объект целиком, или отдельные фичи
источник

e

er@essbase.ru in Data Engineers
хорошие советы )  спасибо )
источник

OI

Oleg Ilinsky in Data Engineers
А тут кто-нибудь шарит за аэроспайк?
Почему вот это падает с ошибкой по правам:
datamart_client.put(as_key, as_bin, meta={"ttl": TTL}, policy={"key": aerospike.POLICY_KEY_SEND})
а вот это работает нормально:
datamart_client.put(as_key, as_bin)

?
Причём на другом сервере аэроспайка первый выриант тоже работает. Что я мог пропустить?)
источник

OI

Oleg Ilinsky in Data Engineers
default_ttl 0
источник

OI

Oleg Ilinsky in Data Engineers
авторизации на обоих серверах нет
источник

OI

Oleg Ilinsky in Data Engineers
(СТО, не читай, плиз)
источник

M/

Max /b/ in Data Engineers
спасибо. rpc-timeout не трогали, решили снизить частоту синка с AD и время жизни кешей, вроде помогло
источник

A

Aleksandr in Data Engineers
Всем привет. Есть датафрейм, в нем есть два типа данных (условно записи в usd валюте и в остальных). Есть трансформация которую я хочу над ним сделать - добавить новую колонку, причем для usd записей она будет просто lit(null), а для остальных будет кастомная логика (нужно будет броадкаст джойн сделать с одной таблицей) Делаю след образом:

val usd = df.filter().withColumn("some", lit(null))
val nonUsd = df.filter().transform(some_logic)
val res = usd.unionByName.nonUsd
проблема этого решения в том, что в таком случае увеличивается количество партиций в два раза, что мне не очень нравится. учитывая что такая трансформация повторяется N раз, кол-во партиций увеличивается в N раз. Придумал решение типа:

 val res = usd.unionByName(nonUsd).coalesce(df.rdd.getNumPartitions)
но что-то мне кажется, что это не оптимально совсем, учитывая, что в some_logic не предполагается шафлинга.
источник

DT

Danz The Deadly in Data Engineers
Раз нет шафла, почему меняется кол-во партиций?
источник

A

Aleksandr in Data Engineers
из-за юниона
источник

A

Aleksandr in Data Engineers
val res = usd.unionByName.nonUsd

здесь
источник

DT

Danz The Deadly in Data Engineers
А, ну тогда это выглядит как норма, раз таблица увеличивается, то и партиций становится больше
источник

A

Aleksandr in Data Engineers
по идее количество записей остается тем же, т.е. не увеличивается
источник

A

Aleksandr in Data Engineers
мб есть какой-то способ делать разные трансформации на разных частях датафрейма (с предикатом, допустим) без юниона в конце?
источник

AM

Almaz Murzabekov in Data Engineers
А нельзя эту логику в кастомный udf обернуть, чтобы не делать логику на каждый тип валюты?
источник

A

Aleksandr in Data Engineers
проблема в том, что на другие типы валюты предполагается джойн с другой таблицей. я так понимаю, что udf тут не подойдет. уточню что джойн броадкастовый предполагается
источник