Телеграмм чат группы hadoopusers страница 3770

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

2588 membersпожаловаться на группу

2021 June 16

NN

No Name in Data Engineers

Знаешь, выглядит так, что я наврал. Сейчас для интереса прочитал табличку с орками по 600 мб, и он прочитал ее в виде 267 тасков, как раз по 128 мб получились...
Походу, просто я все свои таблички обычно пишу так, что там размер партиции меньше hdfs блока выходит, и тогда у меня, видимо, и получается, что они минимальной единицей являются. А размер блока у орка у нас на кой-то черт проставлен 256, так что тут ещё проще, каждый файл всегда получается одноблоковым.

источник

14:16пожаловаться #1

ИШ

Игорь Шевцов... in Data Engineers

Всем привет!

источник

14:20пожаловаться #2

ИШ

Игорь Шевцов... in Data Engineers

Напомните пожалуйста как увеличить кол-во мапов/редюсов в хайв2?

источник

14:21пожаловаться #3

N

Nikita Blagodarnyy in Data Engineers

а как ты тогда собрался размером файлов управлять? ансибл-роль напишешь?

источник

14:28пожаловаться #4

СХ

Старый Хрыч... in Data Engineers

напишу задачу в jira, и приложу варианты как делать можно

источник

14:28пожаловаться #5

СХ

Старый Хрыч... in Data Engineers

для разрабов

источник

14:29пожаловаться #6

AZ

Anton Zadorozhniy in Data Engineers

Туда же можно предложить агрегаты делать, а не поднимать тонны файлов каждый раз

источник

14:30пожаловаться #7

AS

Andrey Smirnov in Data Engineers

мы это вроде уже обсуждали, что это по умолчанию орк выставляет, и это можно менять

источник

14:30пожаловаться #8

AS

Andrey Smirnov in Data Engineers

я ссылку выше давал, могут попробовать

источник

14:31пожаловаться #9

NN

No Name in Data Engineers

Ты про что, про 256 мб блок? Да, это я в курсе.
Я больше удивлен, что у нас это так и оставили по умолчанию на кластере.

источник

14:33пожаловаться #10

AS

Andrey Smirnov in Data Engineers

да про это могли просто и не знать, не осознанное решение

источник

14:35пожаловаться #11

NN

No Name in Data Engineers

Наверное, да, надо бы намекнуть

источник

14:39пожаловаться #12

UD

Uncel Duk in Data Engineers

Ты любой спарк в ярне использовать можешь, если шафл отключить

источник

15:13пожаловаться #13

ИК

Иван Калининский... in Data Engineers

Перезадаю старый вопрос:

Хочу делать много бродкастов в одном большом плане. Сами бродкасты очень мелкие, им хватает примерно 1 Гб хипа на каждом экзекуторе. Но на драйвере приходится выставлять 64+Гб, а это многовато. Похоже, что вся проблема в создании большого количества бродкастов в один момент времени, потому что я вижу, как за секунды выполняются сотни джобов и после этого всё в порядке, если памяти много. Ну или приложение зависает, если памяти мало на драйвере. В SparkUI использование памяти не превышает 300-400 Мб, увеличиваясь ближе к завершению выполнения (а выполнение такое быстрое, что просто радуюсь)) Как можно снизить параллельность подгрузки бродкастов, или может кто ещё что-то знает об этом?

Spark 2.4.0

источник

15:47пожаловаться #14

ИШ

Игорь Шевцов... in Data Engineers

Кто-то подскажет опцию?

источник

17:50пожаловаться #15

ФЧ

Филипп Чистяков... in Data Engineers

Ребят есть чатик по oracle?

источник

17:51пожаловаться #16

S

SeniorAnykey in Data Engineers

https://t.me/oracle_ru. Есть такой

Русскоязычная группа по Oracle.
Архитектура, PL/SQL, Оптимизация, DBA, …
Вакансии строго по согласованию с администрацией @ikamil

Запрещены: личные оскорбления, мат, обсуждения оффтопик вопросов политики и религии
Не приветствуются вопросы без гугла

источник

17:53пожаловаться #17

ПФ

Паша Финкельштейн... in Data Engineers

А там же DE or DIE идёт, вы знали?

https://www.youtube.com/watch?v=KzVFf65owck

DE or DIE meetup #7

Please, take part in our survey about this meetup here:
https://asm0dey.typeform.com/to/cbCrvlP3

источник

18:17пожаловаться #18

ПФ

Паша Финкельштейн... in Data Engineers

Можно быстренько отмотать в начало и посмотреть чо было

источник

18:18пожаловаться #19

2021 June 17

Н

Никита in Data Engineers

Привет! Кто-нибудь качает данные из ElasticSearch через Spark?
Хочу спросить, как ускорить загрузку данных. У ES 5 шардов -> 5 executors тем не менее качается очень долго, что можно еще сделать?

источник

11:57пожаловаться #20