Size: a a a

2020 January 12

DZ

Dmitry Zuev in Data Engineers
David Manukian
@tenKe 1)у меня ORC файлы, наврядли такое подойдет.  2) не совсем понял. 3) кастить каждое поле вы имеете виду? Я не могу скастить каждое поле так как таблиц очень много и полей тоже, будет большущая лапша
Функцию напиши
источник

DZ

Dmitry Zuev in Data Engineers
У меня есть, но не под рукой
источник

DM

David Manukian in Data Engineers
@tenKe 1) а понял, я сначало не понял уровень топорности, но зато рабочий вариант 🙂 2) Вот это классный вариант, но тоже большой кусок получатется 3) тоже попробую.  Спасибо большое!
источник

DM

David Manukian in Data Engineers
@zuynew да в любом случае функция будет которая рекурсивно будет выполнять. Я не могу под каждую таблицу сделать кастомную ставку
источник

DM

David Manukian in Data Engineers
@zuynew  спасибо!
источник

DZ

Dmitry Zuev in Data Engineers
Зачем делать?
источник

DZ

Dmitry Zuev in Data Engineers
Тебе же нужно все в lowercase/camelcase
источник

DZ

Dmitry Zuev in Data Engineers
Да?
источник

DM

David Manukian in Data Engineers
@zuynew да, что бы не только 1ого уровня колонки в lowercase (это просто делается с withColumnRenamed(...)),а есть колонка которая ArrayType в виде StructType где уже 2-3 поля, надо что бы nested колонки тоже были lowercase
источник

DZ

Dmitry Zuev in Data Engineers
Угу
источник

DZ

Dmitry Zuev in Data Engineers
Такое есть
источник

DZ

Dmitry Zuev in Data Engineers
У меня
источник

DZ

Dmitry Zuev in Data Engineers
Ща, 10 минут скину
источник

A

Aaron in Data Engineers
Друзья, есть какой-то комплексный курс или книга по стеку Hadoop + Python + A/B тесты? Посоветуйте, пожалуйста. Хочу изучить.
источник

DZ

Dmitry Zuev in Data Engineers
АБ это статистика
источник

DZ

Dmitry Zuev in Data Engineers
Хадуп это что по твоему мнению?
источник

DM

David Manukian in Data Engineers
@zuynew Ок,  спасибо
источник

A

Aaron in Data Engineers
Dmitry Zuev
Хадуп это что по твоему мнению?
Это hdfs и mapreduce для обработки и хранения данных, которые потом нужны будут для работы со статистикой.
источник

DZ

Dmitry Zuev in Data Engineers
Aaron
Это hdfs и mapreduce для обработки и хранения данных, которые потом нужны будут для работы со статистикой.
Spark или Mr?
источник

A

Aaron in Data Engineers
Dmitry Zuev
Spark или Mr?
Spark, скорее всего
источник