Size: a a a

2019 October 14

OA

Oleg Agapov in Data Engineers
выгружаю из Mysql
источник

OA

Oleg Agapov in Data Engineers
я не указываю --boundary-query, он сам запускает
SELECT MIN(`id`), MAX(`id`) FROM `users_activity_log__2019_03`
источник

OA

Oleg Agapov in Data Engineers
и виснет, т.к. это тяжелый для него запрос
источник

OA

Oleg Agapov in Data Engineers
попробовал --num-mappers 1
всё равно запускает под капотом boundary query
источник

N

Nikolay in Data Engineers
Тогда можно просто в boundary query загнать тупо select 0, 99999999999 или что-то в этом роде
источник

OA

Oleg Agapov in Data Engineers
ага, сейчас так и пытаюсь. спасибо
источник

AZ

Anton Zadorozhniy in Data Engineers
Oleg Agapov
выгружаю из Mysql
источник

OA

Oleg Agapov in Data Engineers
Угу, спасибо. Но скуп зараза все равно пытается выполнить boundary query. Хотя зачем, блин
источник

VE

Vladimir E. in Data Engineers
Всем привет, есть вопрос по маскированию данных на хадупе. Хотим сделать спарк джобу которая будет читать данные из хайва, например ФИО, и делать замену имён "Петр" = "Борис". Мы хотим сохранять эти key/value значения в какой-нибудь БД которая будет гарантировать что имя Петр всегда будет транслироваться в Борис.
Изначальное решение использует postgresql где мы просто sql запросами заполняем таблицу и выбираем из неё значения. Но думаю что для спарка постгрес уже не получится масштабировать нормально. Можете подсказать если могу использовать какой-нить noSQL? По идее Hbase подходит, но мне сам HBase не очень нравится
источник

ЕГ

Евгений Глотов in Data Engineers
А чем сам спарк не годится?
источник

VE

Vladimir E. in Data Engineers
А нужно где то сохранять перстистность, много спарк джобов бегущие в паралели
источник

VE

Vladimir E. in Data Engineers
Нужно чтоб эти key/value гдет сохранялись, всё общение с БД должно идти по такой схеме
1. Спарк смотрит есть ли значние замены в БД
2. Если замены нет - создать новую
3. Если замена есть (или только создали) - вернуть в спарк и сделать замену
источник

ЕГ

Евгений Глотов in Data Engineers
Каждый день полный срез таблицы с именами делать
источник

VE

Vladimir E. in Data Engineers
нужно чтоб каждый день замены были одинаковые
источник

ЕГ

Евгений Глотов in Data Engineers
Это несложно, но вот добавление новой на лету - да, это не про спарк)
источник

VE

Vladimir E. in Data Engineers
ну и вот по идее нужно использовать какую-то БД, наверно no sql key value, которая бы ещё и гарантировала что не будет две разных замены для имени Петр
источник

VE

Vladimir E. in Data Engineers
так как может бежать 20 разных спарк джобов и может возникнуть ситуация что два из них попытаются записать новую пару в один и тот же момент
источник

M

Mi in Data Engineers
возьмите какой-нибудь Hbase
источник

R

Renarde in Data Engineers
ну по сути кейс кажется больше зависит от хранилки, нежели от execution engine. По сути нужен быстрый upsert по ключу, тут миллион вариантов - HBase, Cassandra, Aerospike, если у вас денег много - Redis
источник

R

Renarde in Data Engineers
можно еще посмотреть в сторону newSQL - crate.io / memSQL например
источник