Size: a a a

2021 June 16

NN

No Name in Data Engineers
Знаешь, выглядит так, что я наврал. Сейчас для интереса прочитал табличку с орками по 600 мб, и он прочитал ее в виде 267 тасков, как раз по 128 мб получились...
Походу, просто я все свои таблички обычно пишу так, что там размер партиции меньше  hdfs блока выходит, и тогда у меня, видимо, и получается, что они минимальной единицей являются. А размер блока у орка у нас на кой-то черт проставлен 256, так что тут ещё проще, каждый файл всегда получается одноблоковым.
источник

ИШ

Игорь Шевцов... in Data Engineers
Всем привет!
источник

ИШ

Игорь Шевцов... in Data Engineers
Напомните пожалуйста как увеличить кол-во мапов/редюсов в хайв2?
источник

N

Nikita Blagodarnyy in Data Engineers
а как ты тогда собрался размером файлов управлять? ансибл-роль напишешь?
источник

СХ

Старый Хрыч... in Data Engineers
напишу задачу в jira, и приложу варианты как делать можно
источник

СХ

Старый Хрыч... in Data Engineers
для разрабов
источник

AZ

Anton Zadorozhniy in Data Engineers
Туда же можно предложить агрегаты делать, а не поднимать тонны файлов каждый раз
источник

AS

Andrey Smirnov in Data Engineers
мы это вроде уже обсуждали, что это по умолчанию орк выставляет, и это можно менять
источник

AS

Andrey Smirnov in Data Engineers
я ссылку выше давал, могут попробовать
источник

NN

No Name in Data Engineers
Ты про что, про 256 мб блок? Да, это я в курсе.
Я больше удивлен, что у нас это так и оставили по умолчанию на кластере.
источник

AS

Andrey Smirnov in Data Engineers
да про это могли просто и не знать, не осознанное решение
источник

NN

No Name in Data Engineers
Наверное, да, надо бы намекнуть
источник

UD

Uncel Duk in Data Engineers
Ты любой спарк в ярне использовать можешь, если шафл отключить
источник

ИК

Иван Калининский... in Data Engineers
Перезадаю старый вопрос:

Хочу делать много бродкастов в одном большом плане. Сами бродкасты очень мелкие, им хватает примерно 1 Гб хипа на каждом экзекуторе. Но на драйвере приходится выставлять 64+Гб, а это многовато. Похоже, что вся проблема в создании большого количества бродкастов в один момент времени, потому что я вижу, как за секунды выполняются сотни джобов и после этого всё в порядке, если памяти много. Ну или приложение зависает, если памяти мало на драйвере. В SparkUI использование памяти не превышает 300-400 Мб, увеличиваясь ближе к завершению выполнения (а выполнение такое быстрое, что просто радуюсь)) Как можно снизить параллельность подгрузки бродкастов, или может кто ещё что-то знает об этом?

Spark 2.4.0
источник

ИШ

Игорь Шевцов... in Data Engineers
Кто-то подскажет опцию?
источник

ФЧ

Филипп Чистяков... in Data Engineers
Ребят есть чатик по oracle?
источник

S

SeniorAnykey in Data Engineers
https://t.me/oracle_ru. Есть такой
источник

ПФ

Паша Финкельштейн... in Data Engineers
А там же DE or DIE идёт, вы знали?

https://www.youtube.com/watch?v=KzVFf65owck
источник

ПФ

Паша Финкельштейн... in Data Engineers
Можно быстренько отмотать в начало и посмотреть чо было
источник
2021 June 17

Н

Никита in Data Engineers
Привет! Кто-нибудь качает данные из ElasticSearch через Spark?
Хочу спросить, как ускорить загрузку данных. У ES 5 шардов -> 5 executors тем не менее качается очень долго, что можно еще сделать?
источник