Подозреваю, что кто-то уже давно опубликовал бенчмарки разных методов джойнов с и без бродкаста, включая подробный анализ и рекомендации по оптимизации.
Я примерно представляю себе график зависимости от количества данных для стандартного железа, где после определенной точки, бродкасты отрабатывают быстрее джойнов.
Хотя в орк файлах можно делать блумфильтры на колонках, если получится пересечь сгенерированным блумфильтр от коллекции с блумфильтром колонки, то вероятно можно было бы сделать прунинг файла по коллекции
Подозреваю, что кто-то уже давно опубликовал бенчмарки разных методов джойнов с и без бродкаста, включая подробный анализ и рекомендации по оптимизации.
попробуй выполнить запрос у себя так и так, и расскажи)
Мне просто самому лень, да и шея уже затекла от продолжительного сидения за компом. Но я надеюсь, что кто-нибудь молодой, полный сил и энтузиазма уже провел такие тесты.
Мне просто самому лень, да и шея уже затекла от продолжительного сидения за компом. Но я надеюсь, что кто-нибудь молодой, полный сил и энтузиазма уже провел такие тесты.
Подскажите как организовать тестирование кода в AWS glue, lambda, step functions. Пока на ум приходит только fixtures в pytest, которые эмулируют вызовы сервисов.
Подскажите как организовать тестирование кода в AWS glue, lambda, step functions. Пока на ум приходит только fixtures в pytest, которые эмулируют вызовы сервисов.
Ты хочешь end to end? Интеграционные тесты? Или какие?