Size: a a a

2020 March 31

K

KrivdaTheTriewe in Data Engineers
Anton Zadorozhniy
спарк очень ограничен при работе с огромными партициями (и также миллиардами маленьких таблиц/партиций), у него sweet spot есть и если вы в него не попадаете то мб очень больно, поэтому моя рекомендация - надо взять (или написать самим, не на спарке) специальный тул который будет гибче в части этих ограчений
а менеджить то падения как?
источник

K

KrivdaTheTriewe in Data Engineers
спарк это все менеджит
источник

AZ

Anton Zadorozhniy in Data Engineers
KrivdaTheTriewe
а менеджить то падения как?
в смысле? рестартуем Н раз, а потом говорим что проблема
источник

AZ

Anton Zadorozhniy in Data Engineers
вы знаете что есть другие фреймворки которые умеют работать с падениями/рестартами воркеров (и даже мастеров!)?
источник

AZ

Anton Zadorozhniy in Data Engineers
ваш подход напомнил мне одного студента который генерил HTML код страницы в хранимой процедуре на БД)
источник

K

KrivdaTheTriewe in Data Engineers
Anton Zadorozhniy
вы знаете что есть другие фреймворки которые умеют работать с падениями/рестартами воркеров (и даже мастеров!)?
спарк умеет
источник

N

Nikolay in Data Engineers
Anton Zadorozhniy
ваш подход напомнил мне одного студента который генерил HTML код страницы в хранимой процедуре на БД)
..а потом из этого получился APEX.
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikolay
..а потом из этого получился APEX.
"ну решение же на поверхности!"
источник

K

KrivdaTheTriewe in Data Engineers
Anton Zadorozhniy
ваш подход напомнил мне одного студента который генерил HTML код страницы в хранимой процедуре на БД)
в результате имеем велосипеды по всей индустрии с плохой миграцией специалистов и плохими практиками.
источник

AZ

Anton Zadorozhniy in Data Engineers
KrivdaTheTriewe
в результате имеем велосипеды по всей индустрии с плохой миграцией специалистов и плохими практиками.
я тоже так считаю, поставил ему "удовл"
источник

K

KrivdaTheTriewe in Data Engineers
потому что баз 10 штук условно, проблемы общие
источник

K

KrivdaTheTriewe in Data Engineers
а решаем почему-то ккаждый раз по - новому
источник

AZ

Anton Zadorozhniy in Data Engineers
так инструмент под задачу нужен, спарк же явно сделан под другое, а вы его как ту сову натягиваете
источник

K

KrivdaTheTriewe in Data Engineers
Anton Zadorozhniy
так инструмент под задачу нужен, спарк же явно сделан под другое, а вы его как ту сову натягиваете
спарк работает хорошо на 90 процентах задач с нормальным sdk
источник

K

KrivdaTheTriewe in Data Engineers
другие инструменты предлагают bash sdk
источник

K

KrivdaTheTriewe in Data Engineers
при этом, опять же непонятно в случае генерилки, как вычислять по каким полям сплитить , какими размерами и так далее
источник

AZ

Anton Zadorozhniy in Data Engineers
KrivdaTheTriewe
спарк работает хорошо на 90 процентах задач с нормальным sdk
хранимые процедуры работают нормально на 95% задач, зачем вообще что-то еще?
источник

K

KrivdaTheTriewe in Data Engineers
хранимые процедуры не ереносимы
источник

AZ

Anton Zadorozhniy in Data Engineers
KrivdaTheTriewe
другие инструменты предлагают bash sdk
так а инженеры на что?
источник

K

KrivdaTheTriewe in Data Engineers
Anton Zadorozhniy
так а инженеры на что?
сокращать численность штата
источник