Size: a a a

2020 January 11

GL

Gabriel Lima in Data Engineers
Привет всем, я начал изучать Hadoop сегодня и хотел бы спросить, какие минимальные требования, чтобы иметь возможность изучать его дома
источник

GL

Gabriel Lima in Data Engineers
Извините, если у меня возникла ошибка, потому что я из Бразилии, и я использую переводчик Google
источник

‌‎ in Data Engineers
Gabriel Lima
Привет всем, я начал изучать Hadoop сегодня и хотел бы спросить, какие минимальные требования, чтобы иметь возможность изучать его дома
Use English )
источник

GL

Gabriel Lima in Data Engineers
So I started studying Hadoop today and would like to know about the minimum installation requirements for studying at home.
источник

‌‎ in Data Engineers
Gabriel Lima
So I started studying Hadoop today and would like to know about the minimum installation requirements for studying at home.
Basically you can run it on average PC or laptop
источник

‌‎ in Data Engineers
Just keep that in mind in terms of performance
источник

GL

Gabriel Lima in Data Engineers
‌‎
Basically you can run it on average PC or laptop
Do you know more or less a good setup to be studying?
источник
2020 January 12

‌‎ in Data Engineers
Gabriel Lima
Do you know more or less a good setup to be studying?
No, sorry
источник

SZ

Sergey Zhemzhitsky in Data Engineers
Gabriel Lima
Do you know more or less a good setup to be studying?
you can try either cloudera quick start VMs (https://www.cloudera.com/downloads/quickstart_vms/5-13.html) or hortonworks sandbox VMs (https://www.cloudera.com/downloads/hortonworks-sandbox/hdp.html) (prefer cloudera as now it's the only and most popular distribution).
keep in mind the requirements, especially RAM.
источник

DM

David Manukian in Data Engineers
Как можно сделать вложенные схемы полей lowercase dataframe в spark sql? Пробовал withColumn, но он меняет только верхнеуровневую структуру полей, например у меня есть сложная структура (nested) где скажем поле это целый Array (ArrayType) структур (Struct)  в котором два-три поля, эти поля все с большой буквы, мне же нужно сделать их все с маленькой?
источник

DM

David Manukian in Data Engineers
Если бы была 1 таблица, то я бы сделал withColumn("colName", col("ttt").cast("array<struct<k:string,c:double>>") и это сработало бы
источник

DM

David Manukian in Data Engineers
но таблиц много
источник

DM

David Manukian in Data Engineers
нашел такой вариант, но у меня почему то в поля в вложенные все равно не меняются https://stackoverflow.com/questions/55362429/rename-nested-struct-columns-in-a-spark-dataframe
источник

t

tenKe in Data Engineers
David Manukian
Как можно сделать вложенные схемы полей lowercase dataframe в spark sql? Пробовал withColumn, но он меняет только верхнеуровневую структуру полей, например у меня есть сложная структура (nested) где скажем поле это целый Array (ArrayType) структур (Struct)  в котором два-три поля, эти поля все с большой буквы, мне же нужно сделать их все с маленькой?
1) spark.read.json(df.toJson.map(_.toLowerCase))
2) через struct из o.a.s.sql.functions
3) через .cast(“””ddl here”””)
источник

t

tenKe in Data Engineers
первый вариант самые топорный, но позволяет в одну строчку все сделать. Остальные два требуются написания кода по обходу дерева схемы
источник

DZ

Dmitry Zuev in Data Engineers
David Manukian
Как можно сделать вложенные схемы полей lowercase dataframe в spark sql? Пробовал withColumn, но он меняет только верхнеуровневую структуру полей, например у меня есть сложная структура (nested) где скажем поле это целый Array (ArrayType) структур (Struct)  в котором два-три поля, эти поля все с большой буквы, мне же нужно сделать их все с маленькой?
В схеме все привести в ловеркейс и сделать каст
источник

DZ

Dmitry Zuev in Data Engineers
Рекурсивно конечно
источник

DZ

Dmitry Zuev in Data Engineers
David Manukian
Если бы была 1 таблица, то я бы сделал withColumn("colName", col("ttt").cast("array<struct<k:string,c:double>>") и это сработало бы
Вот так, только напишите функцию и рекурсивно в ней обходите
источник

DM

David Manukian in Data Engineers
@tenKe 1)у меня ORC файлы, наврядли такое подойдет.  2) не совсем понял. 3) кастить каждое поле вы имеете виду? Я не могу скастить каждое поле так как таблиц очень много и полей тоже, будет большущая лапша
источник

t

tenKe in Data Engineers
David Manukian
@tenKe 1)у меня ORC файлы, наврядли такое подойдет.  2) не совсем понял. 3) кастить каждое поле вы имеете виду? Я не могу скастить каждое поле так как таблиц очень много и полей тоже, будет большущая лапша
1) ну ты читаешь свой orc и дальше делаешь как я написал.
2) Сначала раскладываешь df на плоские колонки, потом переименовываешь их и потом собираешь обратно в nested
3) напиши функцию. df.schema возвращает схему с описанием всех полей и генерируй ddl автоматически из схемы
источник