Телеграмм чат группы hadoopusers страница 4170

Size: a a a

Data Engineers

3187 membersпожаловаться на группу

2021 September 08

Alexey Evdokimov in Data Engineers

юнит тесты желательно на чистом контексте гонять. шоб не интерферировали

источник

17:09пожаловаться #1

Alexey Evdokimov in Data Engineers

т.е. много на одном — не-а

источник

17:09пожаловаться #2

Roman in Data Engineers

Я пару раз за последние года 3, что тут сижу, заходил к вам в репо, не смог осилить, если честно. Но я не особо тру разраб, поэтому претензия не к вам. Но если бы вы где - то рассказали про это репо, а может уже есть ссылка на мит, то было бы интересно

источник

17:10пожаловаться #3

Alexey Evdokimov in Data Engineers

выкачу 3.0 в феврале — расскажу. надо снять много слоёв легаси, чтобы упростить восприятие

источник

17:11пожаловаться #4

Nikita Blagodarnyy in Data Engineers

А как они контекст изменяют?

источник

17:11пожаловаться #5

Alexey Evdokimov in Data Engineers

если "юнит" это модуль, который делает кучку преобразований над рддхами, то все они оказываются в контексте. и если какой-нить тест требует рдд на 10000 партов, он будет всё больше и больше тупить

источник

17:17пожаловаться #6

Дмитрий in Data Engineers

DE, я тут голову сломал. Может есть у кого опыт. Есть RDD с V в виде строк, необходимо запихать V в файл зажатый zip. При этом файл должен быть 1 и entry в zip тоже должно быть 1. Сейчас это у меня занимает по времени примерно 1 час, размер файла zip 1 GB, размер несжатого файла 29GB. Все это работает в 1 поток, выполнение на экзекуторе. Небольшое ускорение получил когда запихал это все в память, а затем слил в файл. Что можно сделать ? SNNAPY пробовал рулит, но по tz не входит. Хорошо что arj не предложили, а могли :0

источник

20:44пожаловаться #7

Anton Zadorozhniy in Data Engineers

Взять машину пошустрее?

источник

20:51пожаловаться #8

Дмитрий in Data Engineers

Нет возможности.

источник

20:52пожаловаться #9

Дмитрий in Data Engineers

Медленные серверные процы😱