Size: a a a

2020 February 05

ММ

Максим Малинкин in Data Engineers
256 стоит, больше не дадут
источник

ММ

Максим Малинкин in Data Engineers
хорошо, если не размер, то количество
источник

K

KrivdaTheTriewe in Data Engineers
Максим Малинкин
Господа, приветствую. Как можно на уровне конфига спарка принудительно дробить файлы в hdfs'е по нужному мне размеру? (repartiton не подходит, df слишком большой, просто ресурсов не хватает)
никак
источник

K

KrivdaTheTriewe in Data Engineers
уменьшать размер микробатча и играться с размером макс оффсет пер тирггер
источник

KG

Kirill Gusakov in Data Engineers
Максим Малинкин
Господа, приветствую. Как можно на уровне конфига спарка принудительно дробить файлы в hdfs'е по нужному мне размеру? (repartiton не подходит, df слишком большой, просто ресурсов не хватает)
входные файлы дробить сразу на нужное число партиций или на выходе?
источник

S

Stanislav in Data Engineers
походу кривда про кафку сказал, не?
источник

ММ

Максим Малинкин in Data Engineers
Kirill Gusakov
входные файлы дробить сразу на нужное число партиций или на выходе?
На выходе
источник

KG

Kirill Gusakov in Data Engineers
попробуй spark.sql.files.maxRecordsPerFile
источник

KG

Kirill Gusakov in Data Engineers
щас пример нагуглю
источник

KG

Kirill Gusakov in Data Engineers
источник

KG

Kirill Gusakov in Data Engineers
к сожалению не  по размеру, но хоть что-то
источник

ММ

Максим Малинкин in Data Engineers
Сейчас гляну, спасибо
источник

AZ

Anton Zadorozhniy in Data Engineers
лучше чем max records не будет ничего, так как заранее неизвестно какие результаты даст выбранный вариант формата и компрессии; большинство использует эвристики, чтобы держать файлы достаточно большого размера, но конкретного размера никто не пытается добиться
источник

SS

Sergey Sheremeta in Data Engineers
дяденьки-инженеры, в HBase делаю снепшот таблички - локальность регионов «1», затем при восстановлении этого снепшота локальность сильно падает

видели готовые решения?
источник

AS

Andrey Smirnov in Data Engineers
Major compact?
источник

AZ

Anton Zadorozhniy in Data Engineers
Andrey Smirnov
Major compact?
This
источник

ДП

Даниил Пилипенко in Data Engineers
Коллеги, всем привет) Нужен совет коллективного разума, а точнее взгляд со стороны и мнение. Я много лет занимаюсь оценкой программистов и хочу провести большую лекцию на тему «Профессионализм программиста: потенциал или опыт?». Но мне сказали, что название непонятное. Вы бы пошли на лекцию с таким названием? Видите ли в нём противоречие или что-то, что отталкивает? Буду рад любой критике)
источник

SS

Sergey Sheremeta in Data Engineers
Andrey Smirnov
Major compact?
это долго на больших объемах ((
источник

BK

Brusе Kawabata in Data Engineers
Всем привет! У меня вопрос: как добавить поддержку Кафки в Хайфе 3.1.2 ?
источник

S

Stanislav in Data Engineers
в городе?
источник