Size: a a a

2021 September 08

A

Alex in Data Engineers
да, именно про параллел коллекции и ForkJoinTaskSupport
источник

ЕГ

Евгений Глотов... in Data Engineers
На Москоу Спарк был доклад по поводу тестов
источник

T

T in Data Engineers
В догонку ещё можно глянуть Great Expectations и deequ
источник

AS

Andrey Smirnov in Data Engineers
так все же работает
источник

AE

Alexey Evdokimov in Data Engineers
да чё сложного в тестах спарка?

поднял контекст на local[*], скормил апликухе подготовленный датасет, проверил результат. каждый тестовый класс обернул в AutoCloseable, чтоб контекст гасить
источник

AE

Alexey Evdokimov in Data Engineers
и вроде ничего особенного, никакой специальной магии
источник

A

Alex in Data Engineers
@smirnov_captain мы возможно не поняли друг друга

человек жаловался что не нашёл тредов на лист s3 хотя указал параметрт от хадупа
в процессе выяснения указал что он и не будет работать, там другой механизм
если партиций больше 10 (дефолт), то выполняется на fj пуле с макс 8 потоками

"падает" в моём предложении было landed, приземляется, "где выполняется"
не "ломается"
источник

M

Mi in Data Engineers
А потом жди по 3 часа на билд)
источник

R

Roman in Data Engineers
Согл. Можно чуть дальше пойти и написать чутка абстракций, от которых наследуюшься и пишем только логику для тестов.

Другой момент, что сам код нужно писать так, чтобы можно его покрывать тестами, а не матами.
источник

AZ

Anton Zadorozhniy in Data Engineers
это же бигдата
источник

AE

Alexey Evdokimov in Data Engineers
а нефиг гигабайты в тестовые датасеты пихать
источник

AE

Alexey Evdokimov in Data Engineers
подумать про модульность изначально
источник

AS

Andrey Smirnov in Data Engineers
теперь понятно,
падает это обычно плохо, приземляется/мaтepиaлизуется лучше :)
источник

R

Roman in Data Engineers
Ноуп. За минут 3-5 у вас все пройдёт, ну может больше, если тестов очень много. Но если данных у вас не очень много тестовых, то там не откуда взять часам. Большая часть времени будет уходить на розжиг сессии
источник

M

Mi in Data Engineers
Там на небольших датасетах контекст через какое-то относительно больше количество тестов начинает очень педалить
источник

M

Mi in Data Engineers
По крайней мере у меня так было
источник

T

T in Data Engineers
По этому его посоветовали тушить
источник

AE

Alexey Evdokimov in Data Engineers
я ж не просто так сказал обернуть в AutoCloseable :)
на каждый тест контекст свежий
источник

AE

Alexey Evdokimov in Data Engineers
а этот вопрос с тестами спарка не первый раз тут поднимается
источник

AZ

Anton Zadorozhniy in Data Engineers
а сколько у вас тестов?
источник