Size: a a a

2019 August 22

A

Alex in Data Engineers
tenKe
можно еще купить побольше оперативы для NN и забить болт
купить оперативы + azul zing

иначе начнешь нарываться на паузу в gc и активные неймноды начнут переключаться на запасные при сборке мусора
источник

S

Stanislav in Data Engineers
tenKe
можно еще купить побольше оперативы для NN и забить болт
Так дело не в нн
источник

S

Stanislav in Data Engineers
А в иопсах
источник

t

tenKe in Data Engineers
ну нн тоже некисло грузится от большого числа файлов
источник

GP

Grigory Pomadchin in Data Engineers
神風
Доброе утро. Есть spark structured streaming джоб, который тащит из кафки. Естественно есть куча мелких файлов по результату его работы. Бороться собираюсь запуском джоба-перепаковщика по расписанию, который будет проходить по новым партициям и перепаковывать. Не подскажете good practice по уплотнению мелких файлов в файлы размера в блок, может появились какие-то встроенные механизмы в spark 2.3.4?
А во что пишешь?
источник

神風 in Data Engineers
Grigory Pomadchin
А во что пишешь?
На hdfs в паркете.
источник

GP

Grigory Pomadchin in Data Engineers
神風
На hdfs в паркете.
ну наивное решение это уменьшить количество партиций перед записью
источник

GP

Grigory Pomadchin in Data Engineers
правильное наверное свой райтер определить; может @krivdathetriewe знает
источник

K

KrivdaTheTriewe in Data Engineers
Мы раз в сутки по партиции компактим
источник

GP

Grigory Pomadchin in Data Engineers
KrivdaTheTriewe
Мы раз в сутки по партиции компактим
источник

神風 in Data Engineers
Grigory Pomadchin
ну наивное решение это уменьшить количество партиций перед записью
Ну то есть красивого решения нет. Мне партиции нужно сохранить как есть.
источник

GP

Grigory Pomadchin in Data Engineers
нету; логика потому что - уникальный файл на партицию ¯\_(ツ)_/¯
источник

K

KrivdaTheTriewe in Data Engineers
неа , и мне кажется это сильно сложнее
источник

K

KrivdaTheTriewe in Data Engineers
я даже пока не понимаю как это выглядело бы
источник

K

KrivdaTheTriewe in Data Engineers
у тебя есть микробатч , в рамках которого ты можешь создать хдфс файл , и там дескриптор нужно будет передать между микробатчами
источник

K

KrivdaTheTriewe in Data Engineers
чтобы аппендить в файл
источник

K

KrivdaTheTriewe in Data Engineers
это не вяжется с теми гарантиями, что спарк дает(
источник

K

KrivdaTheTriewe in Data Engineers
神風
Ну то есть красивого решения нет. Мне партиции нужно сохранить как есть.
можно увеличить размер микробатча
источник

K

KrivdaTheTriewe in Data Engineers
можно сделать потом просто insert from select в эту же партицию и не парится
источник

PK

Pavel Klemenkov in Data Engineers
Друзья, а есть аналог CRISP-DM только для процессинга? Ну типа стадии обработки ingestion, cleaning, etc. Уровни стека, типа storage layer, processing layer?
источник