Size: a a a

2020 February 18

AZ

Anton Zadorozhniy in Data Engineers
KrivdaTheTriewe
а как это со спарком подружить?
Два варианта: взять Spark QueryGrid коннектор, он даёт из Спарк контекста напрямую писать датафреймы (но судя по тому что вы спрашиваете у вас его нет), либо через внешнюю оркестрацию, например пишете в авро датасет, а потом вызываете помянутый выше TDCH
источник

K

KrivdaTheTriewe in Data Engineers
Anton Zadorozhniy
Два варианта: взять Spark QueryGrid коннектор, он даёт из Спарк контекста напрямую писать датафреймы (но судя по тому что вы спрашиваете у вас его нет), либо через внешнюю оркестрацию, например пишете в авро датасет, а потом вызываете помянутый выше TDCH
Spark QueryGrid платный?
источник

AZ

Anton Zadorozhniy in Data Engineers
KrivdaTheTriewe
он кучу стейдж табличек создает?
Протоколы fload/multiload не создают кучу табличек , они создают одну/две для чекпоинтов
источник

K

KrivdaTheTriewe in Data Engineers
Anton Zadorozhniy
Протоколы fload/multiload не создают кучу табличек , они создают одну/две для чекпоинтов
источник

AZ

Anton Zadorozhniy in Data Engineers
KrivdaTheTriewe
Spark QueryGrid платный?
Это не ко мне, надо спрашивать ваших людей когда вы покупали и какие лицензии; сейчас все входит вроде в одну поставку
источник

AZ

Anton Zadorozhniy in Data Engineers
Метода import.by.partition не такой быстрый, попробуйте fastload
источник

AZ

Anton Zadorozhniy in Data Engineers
(import.by.amp)
источник

AZ

Anton Zadorozhniy in Data Engineers
В этом методе одна таблица создаётся
источник

K

KrivdaTheTriewe in Data Engineers
очень сложно
источник

AZ

Anton Zadorozhniy in Data Engineers
Создавать много маленьких табличек для любых загрузчиков плохо, DDL операции практически на всех СУБД  эксклюзивные, если у вас тысячи джобов по тысяче таблиц создают и дропают то вы упретесь в DDL
источник

K

KrivdaTheTriewe in Data Engineers
Anton Zadorozhniy
Создавать много маленьких табличек для любых загрузчиков плохо, DDL операции практически на всех СУБД  эксклюзивные, если у вас тысячи джобов по тысяче таблиц создают и дропают то вы упретесь в DDL
ну вот это тож не хочется делать,хочется какой-то управляемый сценарий который рботает для 95% таблиц, на объемах до 1тб, чтобы как то это все масштабировалось, написано на языке программирования, являлось программой, а не скриптом
источник

AZ

Anton Zadorozhniy in Data Engineers
KrivdaTheTriewe
ну вот это тож не хочется делать,хочется какой-то управляемый сценарий который рботает для 95% таблиц, на объемах до 1тб, чтобы как то это все масштабировалось, написано на языке программирования, являлось программой, а не скриптом
Поясните чего вы хотите? Вы можете писать через JDBC коннект (в том числе используя протокол Fastload) в одну таблицу, вы можете писать используя пачку JDBC процессов в разные таблицы (используя Fastload или без него) или писать из пачки процессов в одну таблицу (но тогда Fastload протокол не будет работать, эти сессии являются конкурентной записью как в любой другой базе), или вы можете использовать многопоточную утилиту батч лоада поставив ее шагом в вашем воркфлоу (вы все ваши пайплайны называете скриптами? Или пишете каждый огромным монолитным джобом?) или использовать специальный коннектор чтобы писать из вашего джоба многопоточным батчевым лоадером
источник

S

Serg Slipushenko in Data Engineers
а кто что использовал на скейле для распределенного обучения сеток на тензорфлоу?
источник

AZ

Anton Zadorozhniy in Data Engineers
Serg Slipushenko
а кто что использовал на скейле для распределенного обучения сеток на тензорфлоу?
kubeflow
источник

S

Serg Slipushenko in Data Engineers
а там есть модуль для распределенного обучения? я с ходу не увидел, что б это было из коробки
источник

AZ

Anton Zadorozhniy in Data Engineers
Serg Slipushenko
а там есть модуль для распределенного обучения? я с ходу не увидел, что б это было из коробки
источник

S

Serg Slipushenko in Data Engineers
ага, читаю уже
источник

S

Serg Slipushenko in Data Engineers
как оно по перформансу? сильно погано?
источник

AZ

Anton Zadorozhniy in Data Engineers
Serg Slipushenko
как оно по перформансу? сильно погано?
в смысле? это просто окрестрация, перфоманс чего вас интересует?
источник

S

Serg Slipushenko in Data Engineers
Сравнение тренировки на одной машине с одной видяхой против тренировки той же сети на тех же данных но на 30 таких же машинах
источник