Size: a a a

2019 October 05

ЕГ

Евгений Глотов in Data Engineers
Они в пандасе становятся обжектами
источник

ЕГ

Евгений Глотов in Data Engineers
А спарк из принимает как флоат, например
источник

ЕГ

Евгений Глотов in Data Engineers
И ломается
источник

ЕГ

Евгений Глотов in Data Engineers
С интами та же проблема
источник

GP

Grigory Pomadchin in Data Engineers
эх
источник

ЕГ

Евгений Глотов in Data Engineers
А, вернее даже тут в инте проблема
источник

ЕГ

Евгений Глотов in Data Engineers
Точно
источник

ЕГ

Евгений Глотов in Data Engineers
Пандас в нулловый инт подставляет НаН
источник

ЕГ

Евгений Глотов in Data Engineers
Ну и он попадает в спарк, спарк не понимает такое
источник

ЕГ

Евгений Глотов in Data Engineers
Думаю, с флоат и стринг не будет такой проблемы
источник

ЕГ

Евгений Глотов in Data Engineers
В общем, ограничения есть, они в некоторой степени логичны, вытекают из особенностей реализации как пандаса, так и спарка
источник

ЕГ

Евгений Глотов in Data Engineers
Но в общем модели крутятся - лавеха мутится
источник

GP

Grigory Pomadchin in Data Engineers
источник

GP

Grigory Pomadchin in Data Engineers
Хочу свою конвертилку делать
источник

ЕГ

Евгений Глотов in Data Engineers
Я внутрь спарка не лезу, поверх него бы успеть напилить всё, что нужно для себя и коллег, помимо работы на продуктах)
источник

E

Eldar in Data Engineers
Всех кроме Алексея из новоприбывших можно удалить
источник

A

Alex in Data Engineers
а почему такая дискриминация сразу на входе?
источник

E

Eldar in Data Engineers
Alex
а почему такая дискриминация сразу на входе?
Ботяры это
источник

E

Eldar in Data Engineers
Ну во первых в их профиль загляни, точно такие же и в другие чаты заходят
источник

DL

Dmitry Listkov in Data Engineers
Уважаемые коллеги! Я развернул кластер HDFS для хранения и дальнейшей обработки HTML файлов через mapred streeming. Так как файлов очень много, а к тому же html формат хорошо сжимается, я попытался каждый каталог сжать в один файл, для эффективного использования занятого пространства, использовал формат lzo. Но возникла проблема! После сжатия, я уже не смог корректно обрабатывать html в стриминг mapred, потому что после распаковки данные теряются либо перемешиваются и в итоге <html>*</html> страница получается битая. Подскажите пожалуйста как правильно работать с компрессией в HDFS?
источник