Телеграмм чат группы hadoopusers страница 3630

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

2450 membersпожаловаться на группу

2021 May 08

ПФ

Паша Финкельштейн... in Data Engineers

Звучит как будто да, берём и мапим всё в ORM, открываем транзакцию и начинаем переливать данные из одной бд в другую. Памяти вероятно понадобится много, но это на один раз

источник

17:53пожаловаться #1

2021 May 09

S

Sultan in Data Engineers

Всем привет!
Такой вопрос, когда в pyspark udf ("2.3.0" и в "3.1.1") использую внешний пакет, например pymorphy2, спарк выдает ошибку: "ModuleNotFoundError: No module named '<module_name>'". Импортирую модули перед определением функции и регистрации ее как udf. Что с этим можно сделать?

источник

20:12пожаловаться #2

S

Sultan in Data Engineers

Переменные среды PYSPARK_DRIVER_PYTHON и PYSPARK_PYTHON установлены на один и тот же интерпретатор

источник

20:21пожаловаться #3

NN

No Name in Data Engineers

Так ты в вириуалэнв засунь

источник

20:49пожаловаться #4

NN

No Name in Data Engineers

Его ж на нодах нет, этого внешнего пакета, как я понимаю. Только на драйвере.

источник

20:50пожаловаться #5

S

Sultan in Data Engineers

А, блин, я же его через —user ставил, точно

источник

20:51пожаловаться #6

S

Sultan in Data Engineers

Спасибо!

источник

20:51пожаловаться #7

2021 May 10

А

Алмас in Data Engineers

Всем привет.
Подскажите, best tool or approach для перегонки данных из одного бакета s3 в другой.
Данные - картинки небольшого размера, количество 200млн.
S3 - huawei obs.
Кто нибудь сталкивался?

источник

10:18пожаловаться #8

AZ

Anton Zadorozhniy in Data Engineers

а Huawei S3 поддерживает AWS S3 Batch Operations?

источник

10:20пожаловаться #9

А

Алмас in Data Engineers

Что именно?

источник

10:20пожаловаться #10

А

Алмас in Data Engineers

Не все наверное, нужно чекнуть

источник

10:21пожаловаться #11

AZ

Anton Zadorozhniy in Data Engineers

ну видимо Copy https://docs.aws.amazon.com/AmazonS3/latest/userguide/batch-ops-create-job.html

Creating an S3 Batch Operations job - Amazon Simple Storage Service

Create a job to perform large-scale Batch Operations on Amazon S3 objects using S3 Batch Operations.

источник

10:21пожаловаться #12

A

Alex in Data Engineers

кто-нибудь может посоветовать job scheduler с доступом по API для k8s ?

подумали часть python задач выкинуть с hadoop на k8s и столкнулись с болью
в хадупе есть oozie который умеет в security/credential provider(чтобы токены инжектить)/multitenancy (на сервис 100+ пользователей будет ломиться)/ha и самое главное что всё можно сделать через REST API
(по webhdfs по ресту залил workflow и нужные вещи, потом по rest oozie запустил/создал координатора)

когда начал искать сопоставимые продукты для кубика, то что-то грустно стало

источник

12:08пожаловаться #13

A

Alex in Data Engineers

@dartov может что-нибудь подскажешь?

источник

12:09пожаловаться #14

A

Alex in Data Engineers

условно чтобы можно было закинуть по ресту yaml/xml со словами “хочу запускать каждую пятницу, если косяк/всё хорошо отправь почту сюда”

источник

12:11пожаловаться #15

AZ

Anton Zadorozhniy in Data Engineers

наверное посмотреть на kubeflow можно, или Argo Flow

источник

12:11пожаловаться #16

A

Alex in Data Engineers

посмотрел на airflow, там боль и страдание

kubeflow под капотом насколько я понял argo flow держит для скедулинга и работы с кубиком. ну или коннектор на tekton/openshift

argo flow пока только мельком глянул
так понимаю его можно глубже покопать

ещё что-то на рынке есть?

источник

12:13пожаловаться #17

SO

Simon Osipov in Data Engineers

Какая боль и страдание у Airflow?

источник

12:16пожаловаться #18

VS

Vladislav 👻 Shishkov... in Data Engineers

Не уметь в airflow наверно 😬

источник

12:17пожаловаться #19

D

Dmitriy in Data Engineers

Проверь как вариант http://hkube.io на предмет пригодности

Hkube: HPC over Kubernetes

Hkube HPC over Kubernetes

источник

12:19пожаловаться #20