Size: a a a

2021 September 08

AE

Alexey Evdokimov in Data Engineers
юнит тесты желательно на чистом контексте гонять. шоб не интерферировали
источник

AE

Alexey Evdokimov in Data Engineers
т.е. много на одном — не-а
источник

R

Roman in Data Engineers
Я пару раз за последние года 3, что тут сижу, заходил к вам в репо, не смог осилить, если честно. Но я не особо тру разраб, поэтому претензия не к вам. Но если бы вы где - то рассказали про это репо, а может уже есть ссылка на мит, то было бы интересно
источник

AE

Alexey Evdokimov in Data Engineers
выкачу 3.0 в феврале — расскажу. надо снять много слоёв легаси, чтобы упростить восприятие
источник

N

Nikita Blagodarnyy in Data Engineers
А как они контекст изменяют?
источник

AE

Alexey Evdokimov in Data Engineers
если "юнит" это модуль, который делает кучку преобразований над рддхами, то все они оказываются в контексте. и если какой-нить тест требует рдд на 10000 партов, он будет всё больше и больше тупить
источник

Д

Дмитрий in Data Engineers
DE, я тут голову сломал. Может есть у кого опыт. Есть RDD с V в виде строк, необходимо запихать V в файл зажатый zip. При этом файл должен быть 1 и entry в zip тоже должно быть 1. Сейчас это у меня занимает по времени примерно 1 час, размер файла zip 1 GB, размер несжатого файла 29GB. Все это работает в 1 поток, выполнение на экзекуторе. Небольшое ускорение получил когда запихал это все в память, а затем слил в файл. Что можно сделать ?  SNNAPY пробовал рулит, но по tz не входит. Хорошо что arj не предложили, а могли :0
источник

AZ

Anton Zadorozhniy in Data Engineers
Взять машину пошустрее?
источник

Д

Дмитрий in Data Engineers
Нет возможности.
источник

Д

Дмитрий in Data Engineers
Медленные серверные процы😱
источник

Д

Дмитрий in Data Engineers
Самое прикольное что это только 1/8 часть данных.
источник

Д

Дмитрий in Data Engineers
Осталось свой зип писать для джавы.
источник

AZ

Anton Zadorozhniy in Data Engineers
Тогда переписать эту часть (которая в один поток) на что-нибудь шустрое, но вы все равно будете упираться в диск скорее всего
источник

Д

Дмитрий in Data Engineers
Я не нашел готовой библы для сжатия в зип в много потоков, все умеют только entry параллелить .
источник

AS

Andrey Smirnov in Data Engineers
так выполняй в mapPartinion создание zip
источник

Д

Дмитрий in Data Engineers
Так и делается. На драйвер ничего не тащу.
источник

Д

Дмитрий in Data Engineers
Ключевое в zip архиве, только 1 файл.
источник

Д

Дмитрий in Data Engineers
Было бы больше, тогда проблем нет ...
источник

AZ

Anton Zadorozhniy in Data Engineers
Я имел в виду на гошечке там, или чём-то таком
источник

Д

Дмитрий in Data Engineers
Да можно и на с, и это будет быстрее ... могу запустить через pipe, но это последний шанс 🤣
источник