Size: a a a

2020 April 03

АТ

Алевтина Торопацкая... in Data Engineers
привет
помогите с Mapreduce
сделала запрос на pig-e
table_users= LOAD '/user/root/lab/pig/csv_file/users.csv' USING PigStorage('\t') AS (user_id:int, is_juridical:int, full_name:chararray, juridical_address:chararray, actual_address:chararray, telephone:chararray, email:chararray, inn:int, kpp:int);
table_users_accounts = LOAD '/user/root/lab/pig/csv_file/users_accounts.csv' USING PigStorage('\t') AS (user_id:int, account_id:int);
table_services_data= LOAD '/user/root/lab/pig/csv_file/services_data.csv' USING PigStorage('\t') AS (id:int, account_id:int, date_start:chararray, date_end:chararray, tariff:chararray, cost:chararray);
table_ip_address = LOAD '/user/root/lab/pig/csv_file/ip_address.csv' USING PigStorage('\t') AS (id:int, ip_addres:chararray,  date_start:chararray, date_end:chararray);

vivod_zapros= FOREACH(JOIN table_users BY user_id, table_users_accounts BY user_id) GENERATE $2, $10;
vivod_zapros1= FOREACH(JOIN vivod_zapros BY account_id, table_services_data BY account_id) GENERATE $0, $2, $6;
vivod_zapros2= FOREACH(JOIN vivod_zapros1 BY id LEFT OUTER, table_ip_address BY id) GENERATE $0, $2, $4 ;
vivod_zapros3= ORDER vivod_zapros2 BY full_name;

dump vivod_zapros3;

нужно повторить это на map reduce
можете подсказать с чего начать, а то гуглю и ничего не понятно
источник

АС

Артур Семенов... in Data Engineers
Alex
джойнить по словам
смотри, вот если написать на чистом питоне - моя задумка такая: (скриншот)
можно ли такое воспроизвести для pyspark с pyspark.sql.functions
источник

DZ

Dmitry Zuev in Data Engineers
Алевтина Торопацкая
привет
помогите с Mapreduce
сделала запрос на pig-e
table_users= LOAD '/user/root/lab/pig/csv_file/users.csv' USING PigStorage('\t') AS (user_id:int, is_juridical:int, full_name:chararray, juridical_address:chararray, actual_address:chararray, telephone:chararray, email:chararray, inn:int, kpp:int);
table_users_accounts = LOAD '/user/root/lab/pig/csv_file/users_accounts.csv' USING PigStorage('\t') AS (user_id:int, account_id:int);
table_services_data= LOAD '/user/root/lab/pig/csv_file/services_data.csv' USING PigStorage('\t') AS (id:int, account_id:int, date_start:chararray, date_end:chararray, tariff:chararray, cost:chararray);
table_ip_address = LOAD '/user/root/lab/pig/csv_file/ip_address.csv' USING PigStorage('\t') AS (id:int, ip_addres:chararray,  date_start:chararray, date_end:chararray);

vivod_zapros= FOREACH(JOIN table_users BY user_id, table_users_accounts BY user_id) GENERATE $2, $10;
vivod_zapros1= FOREACH(JOIN vivod_zapros BY account_id, table_services_data BY account_id) GENERATE $0, $2, $6;
vivod_zapros2= FOREACH(JOIN vivod_zapros1 BY id LEFT OUTER, table_ip_address BY id) GENERATE $0, $2, $4 ;
vivod_zapros3= ORDER vivod_zapros2 BY full_name;

dump vivod_zapros3;

нужно повторить это на map reduce
можете подсказать с чего начать, а то гуглю и ничего не понятно
Начать с того что мр никому не нужен
источник

АТ

Алевтина Торопацкая... in Data Engineers
преподу нужен
источник

DZ

Dmitry Zuev in Data Engineers
Ну его и спрашивайте
источник

DZ

Dmitry Zuev in Data Engineers
источник

ИМ

Игорь Макарчук... in Data Engineers
какой ты злой Дима))
источник

DZ

Dmitry Zuev in Data Engineers
3я неделя дома
источник

DZ

Dmitry Zuev in Data Engineers
Алевтина Торопацкая
привет
помогите с Mapreduce
сделала запрос на pig-e
table_users= LOAD '/user/root/lab/pig/csv_file/users.csv' USING PigStorage('\t') AS (user_id:int, is_juridical:int, full_name:chararray, juridical_address:chararray, actual_address:chararray, telephone:chararray, email:chararray, inn:int, kpp:int);
table_users_accounts = LOAD '/user/root/lab/pig/csv_file/users_accounts.csv' USING PigStorage('\t') AS (user_id:int, account_id:int);
table_services_data= LOAD '/user/root/lab/pig/csv_file/services_data.csv' USING PigStorage('\t') AS (id:int, account_id:int, date_start:chararray, date_end:chararray, tariff:chararray, cost:chararray);
table_ip_address = LOAD '/user/root/lab/pig/csv_file/ip_address.csv' USING PigStorage('\t') AS (id:int, ip_addres:chararray,  date_start:chararray, date_end:chararray);

vivod_zapros= FOREACH(JOIN table_users BY user_id, table_users_accounts BY user_id) GENERATE $2, $10;
vivod_zapros1= FOREACH(JOIN vivod_zapros BY account_id, table_services_data BY account_id) GENERATE $0, $2, $6;
vivod_zapros2= FOREACH(JOIN vivod_zapros1 BY id LEFT OUTER, table_ip_address BY id) GENERATE $0, $2, $4 ;
vivod_zapros3= ORDER vivod_zapros2 BY full_name;

dump vivod_zapros3;

нужно повторить это на map reduce
можете подсказать с чего начать, а то гуглю и ничего не понятно
Для начала в гист или что ещё с подсветкой засуньте
источник

P

Pavel in Data Engineers
Если у меня будет возможность, я бы писал...
Анонимный опрос
24%
Прикладной код на Java
37%
Прикладной код на Scala
21%
Прикладной код на Python
11%
Прикладной код на чём-то экзотическом
11%
ETL на Java
46%
ETL на Scala (spark sql решает)
24%
ETL на Python
7%
ETL на чём-то экзотическом
Проголосовало: 89
источник

АЖ

Андрей Жуков... in Data Engineers
скалисты на спарке пишут только spark.sql()?
источник

DZ

Dmitry Zuev in Data Engineers
Андрей Жуков
скалисты на спарке пишут только spark.sql()?
Скалисты пишут только не на sparkql
источник

P

Pavel in Data Engineers
Андрей Жуков
скалисты на спарке пишут только spark.sql()?
ну, это сугубо мой опыт)
источник

DZ

Dmitry Zuev in Data Engineers
А в чем различие от питонистов тогда?
источник

АЖ

Андрей Жуков... in Data Engineers
они toPandas() пишут
источник

P

Pavel in Data Engineers
Dmitry Zuev
А в чем различие от питонистов тогда?
питонистов больше
источник

DZ

Dmitry Zuev in Data Engineers
Андрей Жуков
они toPandas() пишут
источник

P

Pavel in Data Engineers
Dmitry Zuev
А в чем различие от питонистов тогда?
сейчас каждое 8е собеседование из 10 проходит примерно так: нууу java когда-то давно в универе пробовал, а сейчас на питоне хуячу
источник

UD

Uncel Duk in Data Engineers
Андрей Жуков
они toPandas() пишут
альтернатив особо нет
источник

DZ

Dmitry Zuev in Data Engineers
Uncel Duk
альтернатив особо нет
Ща забаню
источник