Телеграмм чат группы hadoopusers страница 4152

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

3187 membersпожаловаться на группу

2021 September 06

DP

Dmitry Peshekhonov in Data Engineers

там чуть хитрее логика подразумевается - этих выходных топиков в PubSub будет не один десяток, и создаваться они будут в процессе работы стриминговой джобы.
но гарантируется условие, что сначала будет создан output-топик, а потом в едином input-топике появится соответствующее сообщение, результат обработки которого должен быть записан в этот созданный output-топик.

нагуглил совет "An alternative is to just write a ParDo that uses the Pubsub API directly and writes to your topic of interest".
пока копаю в этом направлении.

вариант с клауд функциями тоже рассмотрю, спасибо за идею!

источник

19:08пожаловаться #1

2021 September 07

H

Hh in Data Engineers

Is there a translation bot in this group?

источник

08:18пожаловаться #2

AA

Ali Abdullaev in Data Engineers

Коллеги, те кто знаком с iceberg, нужна ваша помощь. Поборол ошибку с java.lang.IllegalStateException: Already closed files for partition на дневных партициях для Insert overwrite через установку конфигурации 'write.distribution-mode'='range' и последующий ALTER TABLE ... WRITE ORDERED BY ....
Так вот, при попытке сделать MergeInto снова нарвался на эту ошибку, похоже дело в параллельной записи нескольких тредов в одну партицию. Порылся в тестах проекта, там нет сценариев MergeInto для множества партиций с кол-вом строк в рамках одной партиции больше чем 1.
Подскажи, пожалуйста, в чем проблема и куда смотреть, перерыл почти все доки.

источник

08:44пожаловаться #3

AA

Ali Abdullaev in Data Engineers

Мб кому интересно, решил проблему через изменением SortOrder и добавление колонок партициониования перед колонками сортировки.

источник

09:12пожаловаться #4

ПФ

Паша Финкельштейн... in Data Engineers

Nop, but there are lots of people who can answer you in English, so feel free to ask your question in English

источник

09:28пожаловаться #5

M

Mi in Data Engineers

Интересно как этот бот должен работать, спамить переводом на каждое сообщение?

источник

09:49пожаловаться #6

AZ

Anton Zadorozhniy in Data Engineers

Посмотрите в багтрекере, что-то было такое

источник

10:14пожаловаться #7

H

Hh in Data Engineers

👍

источник

10:15пожаловаться #8

ПФ

Паша Финкельштейн... in Data Engineers

Есть бот, который переводит с неканонических языков нас заданный канонический

источник

10:17пожаловаться #9

AZ

Anton Zadorozhniy in Data Engineers

Крипта закончилась что ли?

источник

10:48пожаловаться #10

t

tenKe in Data Engineers

у Маска

источник

10:51пожаловаться #11

t

tenKe in Data Engineers

источник

10:51пожаловаться #12

ПФ

Паша Финкельштейн... in Data Engineers

@krivdathetriewe @pomadchin

источник

10:51пожаловаться #13

ПФ

Паша Финкельштейн... in Data Engineers

Тут продают, вы давно искали помню

источник

10:51пожаловаться #14

EV

Eduard Vlasov in Data Engineers

источник

10:52пожаловаться #15

M

Mi in Data Engineers

Так это же ужасно

источник

11:13пожаловаться #16

ПФ

Паша Финкельштейн... in Data Engineers

Это спорный вопрос

источник

11:13пожаловаться #17

ПФ

Паша Финкельштейн... in Data Engineers

Смотрите как круто:

Яцек:
Hi,

Found this new spark.sql.adaptive.coalescePartitions.parallelismFirst config property [1] with the default value true but the descriptions says the opposite:

> It's recommended to set this config to false

Is this OK and I'm misreading it?

[1] https://github.com/apache/spark/blob/54cca7f82ecf23e062bb4f6d68697abec2dbcc5b/sql/catalyst/src/main/scala/org/apache/spark/sql/internal/SQLConf.scala#L519-L530

Wenchen:
This is correct. It's true by default so that AQE doesn't have performance regression. If you run a benchmark, larger parallelism usually means better performance. However, it's recommended to set it to false, so that AQE can give better resource utilization, which is good for a busy Spark cluster.

spark/SQLConf.scala at 54cca7f82ecf23e062bb4f6d68697abec2dbcc5b · apache/spark

Apache Spark - A unified analytics engine for large-scale data processing - spark/SQLConf.scala at 54cca7f82ecf23e062bb4f6d68697abec2dbcc5b · apache/spark

источник

11:25пожаловаться #18

ПФ

Паша Финкельштейн... in Data Engineers

То есть конфиг Спарка по умолчанию настроен не для продакшена

источник

11:26пожаловаться #19

AZ

Anton Zadorozhniy in Data Engineers

это стандартная практика для кучи софта, ASF/open source и даж проприетарного - по-умолчанию нужно чтобы софт просто поднялся и хоть как-то работал, в самых плохих условиях

источник

11:29пожаловаться #20