Size: a a a

2020 March 24

MB

Mikhail Butalin in Data Engineers
у меня CDH, на нём репликация настроена. И она снепшоты делает но не чистит иногда, почемуто
источник

MB

Mikhail Butalin in Data Engineers
не нашёл как посмотреть еще размер снапшотов
источник

S

Stanislav in Data Engineers
в .snapshots лежат директории снепшотов
найди нужную тебе директорию и сделай ду на нее
источник

А

Андрей in Data Engineers
Yukari I
У тебя строго определенная структура файла?
В каком плане? Количество значений в строках csv-файла вроде одинаковое
источник

M

Mi in Data Engineers
Mikhail Butalin
hdfs dfs -ls не показывает ничего
а если hdfs -ls -a?
источник

M

Mi in Data Engineers
хотя хадуп вроде не скрывает папки вообще
источник

MB

Mikhail Butalin in Data Engineers
Разобрался...
источник

MB

Mikhail Butalin in Data Engineers
snapshots
источник

MB

Mikhail Butalin in Data Engineers
директория снапшотилась, а файлы в процессе удалились
источник

FL

Fedor Lavrentyev in Data Engineers
Коллеги, вопрос на миллион.
Я правильно понимаю, что вот это - богом забытый бенчмарк, а в его топе древние сабмиты из прошлого десятилетия?
http://www.tpc.org/tpcc/results/tpcc_advanced_sort5.asp?PRINTVER=false&FLTCOL1=c_cluster&FLTCOLOPR1=EXACTLY&FLTCHO1=Y&FLTFREEFRM1=off&ADDFILTERROW=&filterRowCount=1&SRTCOL1=c_tpmc&SRTDIR1=DESC&ADDSORTROW=&sortRowCount=1&DISPRES=100+PERCENT&include_withdrawn_results=none&include_historic_results=yes
источник

FL

Fedor Lavrentyev in Data Engineers
(ну, кроме первого, он свеженький)
источник

GP

Grigory Pomadchin in Data Engineers
Судя по датам - да)
источник

АЖ

Андрей Жуков in Data Engineers
Fedor Lavrentyev
Коллеги, вопрос на миллион.
Я правильно понимаю, что вот это - богом забытый бенчмарк, а в его топе древние сабмиты из прошлого десятилетия?
http://www.tpc.org/tpcc/results/tpcc_advanced_sort5.asp?PRINTVER=false&FLTCOL1=c_cluster&FLTCOLOPR1=EXACTLY&FLTCHO1=Y&FLTFREEFRM1=off&ADDFILTERROW=&filterRowCount=1&SRTCOL1=c_tpmc&SRTDIR1=DESC&ADDSORTROW=&sortRowCount=1&DISPRES=100+PERCENT&include_withdrawn_results=none&include_historic_results=yes
я обычно ищу методологии и делаю сам на своей инфре бенчи
потому что два бенча как две статистики
источник

FL

Fedor Lavrentyev in Data Engineers
Ну это чисто пузомерка
источник

FL

Fedor Lavrentyev in Data Engineers
Но какая-то древняя как смерть
источник

A

Alex in Data Engineers
почему древняя =) вон аликлауд засабмитил пол года назад резалты =)
источник

YI

Yukari I in Data Engineers
Андрей
В каком плане? Количество значений в строках csv-файла вроде одинаковое
Я про делиметеры и символы перевода строк, в частности. Еще неплохо бы в кавычки взять текст и привести дату к единому формату
источник

А

Андрей in Data Engineers
Yukari I
Я про делиметеры и символы перевода строк, в частности. Еще неплохо бы в кавычки взять текст и привести дату к единому формату
С датами была небольшая проблема, они были в неправильном формате, но дело, скорее всего, было не в этом.
Получилось по предыдущему совету - сначала записать в экстернал таблицу (причем непартиционированную), потом уже перегнать в интернал с партициями.
При загрузке в экстернал хайв не ругался, при попытке повторить напрямую лоад в интернал - null pointer exception.
источник

А

Андрей in Data Engineers
В общем, спасибо большое, буду знать)
источник

D

Dasha in Data Engineers
Случилась беда: когда добавила отмеченный на картинке jar-path, spark в Zeppelin сломался совсем;
Ошибка: org.apache.zeppelin.interpreter.InterpreterException: org.apache.zeppelin.interpreter.InterpreterException: Fail to open SparkInterpreter

Но после удаления данной jar-path и перезапуска интерпретатора и даже всего сервиса Zeppelin ошибка сохранилась
источник