Телеграмм чат группы hadoopusers страница 3265

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

2307 membersпожаловаться на группу

2021 February 20

А

Алексей in Data Engineers

Но это можно сделать и для бродкастджойна

источник

08:46пожаловаться #1

KS

K S in Data Engineers

Подозреваю, что кто-то уже давно опубликовал бенчмарки разных методов джойнов с и без бродкаста, включая подробный анализ и рекомендации по оптимизации.

источник

08:47пожаловаться #2

KS

K S in Data Engineers

Я примерно представляю себе график зависимости от количества данных для стандартного железа, где после определенной точки, бродкасты отрабатывают быстрее джойнов.

источник

08:50пожаловаться #3

А

Алексей in Data Engineers

Хотя в орк файлах можно делать блумфильтры на колонках, если получится пересечь сгенерированным блумфильтр от коллекции с блумфильтром колонки, то вероятно можно было бы сделать прунинг файла по коллекции

источник

08:54пожаловаться #4

А

Алексей in Data Engineers

Подозреваю, что кто-то уже давно опубликовал бенчмарки разных методов джойнов с и без бродкаста, включая подробный анализ и рекомендации по оптимизации.

попробуй выполнить запрос у себя так и так, и расскажи)

источник

08:56пожаловаться #5

KS

K S in Data Engineers

попробуй выполнить запрос у себя так и так, и расскажи)

Ну это же не научный подход 😁
Надо на разных наборах данных гонять, с оптимизациями и без, на разном железе и т.д.

источник

09:03пожаловаться #6

KS

K S in Data Engineers

Мне просто самому лень, да и шея уже затекла от продолжительного сидения за компом. Но я надеюсь, что кто-нибудь молодой, полный сил и энтузиазма уже провел такие тесты.

источник

09:06пожаловаться #7

NN

No Name in Data Engineers

Мне просто самому лень, да и шея уже затекла от продолжительного сидения за компом. Но я надеюсь, что кто-нибудь молодой, полный сил и энтузиазма уже провел такие тесты.

Провел и никому не сказал)

источник

09:27пожаловаться #8

KS

K S in Data Engineers

Подскажите как организовать тестирование кода в AWS glue, lambda, step functions.
Пока на ум приходит только fixtures в pytest, которые эмулируют вызовы сервисов.

источник

09:50пожаловаться #9

ПБ

Повелитель Бури... in Data Engineers

Салют! А кроме apache atlas есть что живое? ) из бесплатных )

источник

12:24пожаловаться #10

T

T in Data Engineers

Подскажите как организовать тестирование кода в AWS glue, lambda, step functions.
Пока на ум приходит только fixtures в pytest, которые эмулируют вызовы сервисов.

Ты хочешь end to end? Интеграционные тесты? Или какие?

источник

12:25пожаловаться #11

T

T in Data Engineers

Просто по отдельности это все можно юнит тестами покрыть

источник

12:25пожаловаться #12

T

T in Data Engineers

Для остального лучше иметь staging акк итестить на нем

источник

12:26пожаловаться #13

VP

Vitaly Pismarev in Data Engineers

Повелитель Бури

Салют! А кроме apache atlas есть что живое? ) из бесплатных )

https://koch-kir.medium.com/%D1%81%D1%80%D0%B0%D0%B2%D0%BD%D0%B5%D0%BD%D0%B8%D0%B5-databook-dataportal-datahub-amundsen-metacat-%D0%B8-%D0%BF%D1%80%D0%BE%D1%87%D0%B8%D1%85-%D0%B8%D0%BD%D1%81%D1%82%D1%80%D1%83%D0%BC%D0%B5%D0%BD%D1%82%D0%BE%D0%B2-data-discovery-c05fb492fc0f

Сравнение DataBook, DataPortal, DataHub, Amundsen, Metacat и прочих инструментов data discovery

Проблема

источник

12:36пожаловаться #14

KS

K S in Data Engineers

Ты хочешь end to end? Интеграционные тесты? Или какие?

Для начала просто юнит тесты, а далее интеграционные и e2e.

источник

12:47пожаловаться #15

KS

K S in Data Engineers

Просто по отдельности это все можно юнит тестами покрыть

То есть это нормально просто pytest fixtures + unit test suite?

источник

12:50пожаловаться #16

T

T in Data Engineers

То есть это нормально просто pytest fixtures + unit test suite?

Ну да, я лямбды unittest встроенным тестирую. Спарк у меня на скале так что там scalatest

источник

12:52пожаловаться #17

KS

K S in Data Engineers

Ну да, я лямбды unittest встроенным тестирую. Спарк у меня на скале так что там scalatest

Ну локально как тестировать понятно, а как билды тестировать для glue?

источник

12:54пожаловаться #18

T

T in Data Engineers

Ну локально как тестировать понятно, а как билды тестировать для glue?

Если нету ничего глю специфичного то так же как и любую Спарк джобу

источник

12:56пожаловаться #19

T

T in Data Engineers

Если есть глю специфичное то вот https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-libraries.html

Developing and Testing ETL Scripts Locally Using the AWS Glue ETL Library - AWS Glue

Use the publicly available AWS Glue Scala library to develop and test your Python or Scala ETL scripts locally.

источник

12:56пожаловаться #20