Size: a a a

2021 February 20

А

Алексей in Data Engineers
Но это можно сделать и для бродкастджойна
источник

KS

K S in Data Engineers
Подозреваю, что кто-то уже давно опубликовал бенчмарки разных методов джойнов с и без бродкаста, включая подробный анализ и рекомендации по оптимизации.
источник

KS

K S in Data Engineers
Я примерно представляю себе график зависимости от количества данных для стандартного железа, где после определенной точки, бродкасты отрабатывают быстрее джойнов.
источник

А

Алексей in Data Engineers
Хотя в орк файлах можно делать блумфильтры на колонках, если получится пересечь сгенерированным блумфильтр от коллекции с блумфильтром колонки, то вероятно можно было бы сделать прунинг файла по коллекции
источник

А

Алексей in Data Engineers
K S
Подозреваю, что кто-то уже давно опубликовал бенчмарки разных методов джойнов с и без бродкаста, включая подробный анализ и рекомендации по оптимизации.
попробуй выполнить запрос у себя так и так, и расскажи)
источник

KS

K S in Data Engineers
Алексей
попробуй выполнить запрос у себя так и так, и расскажи)
Ну это же не научный подход 😁
Надо на разных наборах данных гонять, с оптимизациями и без, на разном железе и т.д.
источник

KS

K S in Data Engineers
Мне просто самому лень, да и шея уже затекла от продолжительного сидения за компом. Но я надеюсь, что кто-нибудь молодой, полный сил и энтузиазма уже провел такие тесты.
источник

NN

No Name in Data Engineers
K S
Мне просто самому лень, да и шея уже затекла от продолжительного сидения за компом. Но я надеюсь, что кто-нибудь молодой, полный сил и энтузиазма уже провел такие тесты.
Провел и никому не сказал)
источник

KS

K S in Data Engineers
Подскажите как организовать тестирование кода в AWS glue, lambda, step functions.
Пока на ум приходит только fixtures в pytest, которые эмулируют вызовы сервисов.
источник

ПБ

Повелитель Бури... in Data Engineers
Салют! А кроме apache atlas есть что живое? ) из бесплатных )
источник

T

T in Data Engineers
K S
Подскажите как организовать тестирование кода в AWS glue, lambda, step functions.
Пока на ум приходит только fixtures в pytest, которые эмулируют вызовы сервисов.
Ты хочешь end to end? Интеграционные тесты? Или какие?
источник

T

T in Data Engineers
Просто по отдельности это все можно юнит тестами покрыть
источник

T

T in Data Engineers
Для остального лучше иметь staging акк итестить на нем
источник

VP

Vitaly Pismarev in Data Engineers
Повелитель Бури
Салют! А кроме apache atlas есть что живое? ) из бесплатных )
источник

KS

K S in Data Engineers
T
Ты хочешь end to end? Интеграционные тесты? Или какие?
Для начала просто юнит тесты, а далее интеграционные и e2e.
источник

KS

K S in Data Engineers
T
Просто по отдельности это все можно юнит тестами покрыть
То есть это нормально просто pytest fixtures + unit test suite?
источник

T

T in Data Engineers
K S
То есть это нормально просто pytest fixtures + unit test suite?
Ну да, я лямбды unittest встроенным тестирую. Спарк у меня на скале так что там scalatest
источник

KS

K S in Data Engineers
T
Ну да, я лямбды unittest встроенным тестирую. Спарк у меня на скале так что там scalatest
Ну локально как тестировать понятно, а как билды тестировать для glue?
источник

T

T in Data Engineers
K S
Ну локально как тестировать понятно, а как билды тестировать для glue?
Если нету ничего глю специфичного то так же как и любую Спарк джобу
источник

T

T in Data Engineers
Если есть глю специфичное то вот https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-libraries.html
источник