Телеграмм чат группы hadoopusers страница 2094

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

1785 membersпожаловаться на группу

2020 February 18

AZ

Anton Zadorozhniy in Data Engineers

KrivdaTheTriewe

а как это со спарком подружить?

Два варианта: взять Spark QueryGrid коннектор, он даёт из Спарк контекста напрямую писать датафреймы (но судя по тому что вы спрашиваете у вас его нет), либо через внешнюю оркестрацию, например пишете в авро датасет, а потом вызываете помянутый выше TDCH

источник

19:08пожаловаться #1

K

KrivdaTheTriewe in Data Engineers

Anton Zadorozhniy

Два варианта: взять Spark QueryGrid коннектор, он даёт из Спарк контекста напрямую писать датафреймы (но судя по тому что вы спрашиваете у вас его нет), либо через внешнюю оркестрацию, например пишете в авро датасет, а потом вызываете помянутый выше TDCH

Spark QueryGrid платный?

источник

19:08пожаловаться #2

AZ

Anton Zadorozhniy in Data Engineers

KrivdaTheTriewe

он кучу стейдж табличек создает?

Протоколы fload/multiload не создают кучу табличек , они создают одну/две для чекпоинтов

источник

19:08пожаловаться #3

K

KrivdaTheTriewe in Data Engineers

Anton Zadorozhniy

Протоколы fload/multiload не создают кучу табличек , они создают одну/две для чекпоинтов

источник

19:09пожаловаться #4

AZ

Anton Zadorozhniy in Data Engineers

KrivdaTheTriewe

Spark QueryGrid платный?

Это не ко мне, надо спрашивать ваших людей когда вы покупали и какие лицензии; сейчас все входит вроде в одну поставку

источник

19:10пожаловаться #5

AZ

Anton Zadorozhniy in Data Engineers

KrivdaTheTriewe

Метода import.by.partition не такой быстрый, попробуйте fastload

источник

19:10пожаловаться #6

AZ

Anton Zadorozhniy in Data Engineers

(import.by.amp)

источник

19:11пожаловаться #7

AZ

Anton Zadorozhniy in Data Engineers

KrivdaTheTriewe

В этом методе одна таблица создаётся

источник

19:12пожаловаться #8

K

KrivdaTheTriewe in Data Engineers

очень сложно

источник

19:14пожаловаться #9

AZ

Anton Zadorozhniy in Data Engineers

Создавать много маленьких табличек для любых загрузчиков плохо, DDL операции практически на всех СУБД эксклюзивные, если у вас тысячи джобов по тысяче таблиц создают и дропают то вы упретесь в DDL

источник

19:16пожаловаться #10

K

KrivdaTheTriewe in Data Engineers

Anton Zadorozhniy

Создавать много маленьких табличек для любых загрузчиков плохо, DDL операции практически на всех СУБД эксклюзивные, если у вас тысячи джобов по тысяче таблиц создают и дропают то вы упретесь в DDL

ну вот это тож не хочется делать,хочется какой-то управляемый сценарий который рботает для 95% таблиц, на объемах до 1тб, чтобы как то это все масштабировалось, написано на языке программирования, являлось программой, а не скриптом

источник

19:19пожаловаться #11

AZ

Anton Zadorozhniy in Data Engineers

KrivdaTheTriewe

ну вот это тож не хочется делать,хочется какой-то управляемый сценарий который рботает для 95% таблиц, на объемах до 1тб, чтобы как то это все масштабировалось, написано на языке программирования, являлось программой, а не скриптом

Поясните чего вы хотите? Вы можете писать через JDBC коннект (в том числе используя протокол Fastload) в одну таблицу, вы можете писать используя пачку JDBC процессов в разные таблицы (используя Fastload или без него) или писать из пачки процессов в одну таблицу (но тогда Fastload протокол не будет работать, эти сессии являются конкурентной записью как в любой другой базе), или вы можете использовать многопоточную утилиту батч лоада поставив ее шагом в вашем воркфлоу (вы все ваши пайплайны называете скриптами? Или пишете каждый огромным монолитным джобом?) или использовать специальный коннектор чтобы писать из вашего джоба многопоточным батчевым лоадером

источник

19:31пожаловаться #12

S

Serg Slipushenko in Data Engineers

а кто что использовал на скейле для распределенного обучения сеток на тензорфлоу?

источник

19:42пожаловаться #13

AZ

Anton Zadorozhniy in Data Engineers

Serg Slipushenko

а кто что использовал на скейле для распределенного обучения сеток на тензорфлоу?

kubeflow

источник

19:45пожаловаться #14

S

Serg Slipushenko in Data Engineers

а там есть модуль для распределенного обучения? я с ходу не увидел, что б это было из коробки

источник

19:46пожаловаться #15

AZ

Anton Zadorozhniy in Data Engineers

Serg Slipushenko

а там есть модуль для распределенного обучения? я с ходу не увидел, что б это было из коробки

TFJob умеет https://www.kubeflow.org/docs/components/training/tftraining/

TensorFlow Training (TFJob)

Using TFJob to train a model with TensorFlow

источник

19:47пожаловаться #16

S

Serg Slipushenko in Data Engineers

ага, читаю уже

источник

19:47пожаловаться #17

S

Serg Slipushenko in Data Engineers

как оно по перформансу? сильно погано?

источник

19:48пожаловаться #18

AZ

Anton Zadorozhniy in Data Engineers

Serg Slipushenko

как оно по перформансу? сильно погано?

в смысле? это просто окрестрация, перфоманс чего вас интересует?

источник

19:50пожаловаться #19

S

Serg Slipushenko in Data Engineers

Сравнение тренировки на одной машине с одной видяхой против тренировки той же сети на тех же данных но на 30 таких же машинах

источник

19:54пожаловаться #20