Телеграмм чат группы hadoopusers страница 1688

выгружаю из Mysql

14:36пожаловаться #1

я не указываю --boundary-query, он сам запускает

SELECT MIN(`id`), MAX(`id`) FROM `users_activity_log__2019_03`

14:37пожаловаться #2

и виснет, т.к. это тяжелый для него запрос

14:37пожаловаться #3

попробовал --num-mappers 1
всё равно запускает под капотом boundary query

14:38пожаловаться #4

Nikolay in Data Engineers

Тогда можно просто в boundary query загнать тупо select 0, 99999999999 или что-то в этом роде

14:40пожаловаться #5

ага, сейчас так и пытаюсь. спасибо

https://sqoop.apache.org/docs/1.4.6/SqoopUserGuide.html#_mysql_direct_connector

14:41пожаловаться #6

Anton Zadorozhniy in Data Engineers

Oleg Agapov

выгружаю из Mysql

14:45пожаловаться #7

https://sqoop.apache.org/docs/1.4.6/SqoopUserGuide.html#_mysql_direct_connector

Anton Zadorozhniy

Угу, спасибо. Но скуп зараза все равно пытается выполнить boundary query. Хотя зачем, блин

15:33пожаловаться #8

Всем привет, есть вопрос по маскированию данных на хадупе. Хотим сделать спарк джобу которая будет читать данные из хайва, например ФИО, и делать замену имён "Петр" = "Борис". Мы хотим сохранять эти key/value значения в какой-нибудь БД которая будет гарантировать что имя Петр всегда будет транслироваться в Борис.
Изначальное решение использует postgresql где мы просто sql запросами заполняем таблицу и выбираем из неё значения. Но думаю что для спарка постгрес уже не получится масштабировать нормально. Можете подсказать если могу использовать какой-нить noSQL? По идее Hbase подходит, но мне сам HBase не очень нравится

17:29пожаловаться #9

ЕГ

Евгений Глотов in Data Engineers

А чем сам спарк не годится?

17:30пожаловаться #10

А нужно где то сохранять перстистность, много спарк джобов бегущие в паралели

17:31пожаловаться #11

Нужно чтоб эти key/value гдет сохранялись, всё общение с БД должно идти по такой схеме
1. Спарк смотрит есть ли значние замены в БД
2. Если замены нет - создать новую
3. Если замена есть (или только создали) - вернуть в спарк и сделать замену

17:32пожаловаться #12

ЕГ

Евгений Глотов in Data Engineers

Каждый день полный срез таблицы с именами делать

17:33пожаловаться #13

нужно чтоб каждый день замены были одинаковые

17:33пожаловаться #14

ЕГ

Евгений Глотов in Data Engineers

Это несложно, но вот добавление новой на лету - да, это не про спарк)

17:34пожаловаться #15

ну и вот по идее нужно использовать какую-то БД, наверно no sql key value, которая бы ещё и гарантировала что не будет две разных замены для имени Петр

17:35пожаловаться #16

так как может бежать 20 разных спарк джобов и может возникнуть ситуация что два из них попытаются записать новую пару в один и тот же момент

17:36пожаловаться #17

Mi in Data Engineers

возьмите какой-нибудь Hbase

17:38пожаловаться #18

Renarde in Data Engineers

ну по сути кейс кажется больше зависит от хранилки, нежели от execution engine. По сути нужен быстрый upsert по ключу, тут миллион вариантов - HBase, Cassandra, Aerospike, если у вас денег много - Redis

17:39пожаловаться #19

Renarde in Data Engineers

можно еще посмотреть в сторону newSQL - crate.io / memSQL например