Size: a a a

2020 March 05

S

Stanislav in Data Engineers
аа, там джойн
источник

S

Stanislav in Data Engineers
замкнутый круг
источник

AS

Andrey Smirnov in Data Engineers
Stanislav
замкнутый круг
залез в исходники, это славу богу отрубаемая вещь, "hbase.spark.pushdown.columnfilter"-> "false"
посмотрю дальше, но что-то на одиночной выборке было очень долго, возможно придется все-таки делать руками join
источник

I

Ivan in Data Engineers
Добрый день.
Вопрос: читаю данный с hdfs формата .parquet простым spark.read.В названии одного столбца есть пробел. Так вот он зараза не убирается .withcolumnrenamed или .alias. Точнее если просто названия смотреть через .printschema то вроде переименовывается а вот если .collect делать то пишет что проблема в названии столбца с пробелом. Как не переименовывай
источник

M

Mi in Data Engineers
Ivan
Добрый день.
Вопрос: читаю данный с hdfs формата .parquet простым spark.read.В названии одного столбца есть пробел. Так вот он зараза не убирается .withcolumnrenamed или .alias. Точнее если просто названия смотреть через .printschema то вроде переименовывается а вот если .collect делать то пишет что проблема в названии столбца с пробелом. Как не переименовывай
а киньте снипет кода как вы это делаете
источник

I

Ivan in Data Engineers
data = data.select(col("Transaction Date").alias("Date")) data.show()
источник

I

Ivan in Data Engineers
И вот на data.show() он ломается
источник

I

Ivan in Data Engineers
Хотя если сделать .printSchema() то выводит все верно, что переименованно
источник

I

Ivan in Data Engineers
Пробовал все варианты из этого вопроса:
источник

I

Ivan in Data Engineers
источник

M

Mi in Data Engineers
Ivan
data = data.select(col("Transaction Date").alias("Date")) data.show()
это конечно может быть тупо, но попробуй переименовать переменную в которую сохраняешь и выводишь
источник

ЕГ

Евгений Глотов in Data Engineers
Ivan
data = data.select(col("Transaction Date").alias("Date")) data.show()
.selectExpr("`Transaction Date` as dt").show() попробуйте
источник

ЕГ

Евгений Глотов in Data Engineers
кавычка там, где тильда
источник
2020 March 06

АБ

Александр Булатов in Data Engineers
Кто разворачивал NiFi, знаете его системные требования (требуемое кол-во RAM и дискового пространства)? В документации пишут только про Java 8, операционки и браузеры.
источник

АБ

Александр Булатов in Data Engineers
В ресурсах мой сервер урезан под минимум, а ETL слой проще писать на NiFi, нежели на Airflow
источник

S

Stanislav in Data Engineers
Александр Булатов
Кто разворачивал NiFi, знаете его системные требования (требуемое кол-во RAM и дискового пространства)? В документации пишут только про Java 8, операционки и браузеры.
от висящих в нем задач зависит
это обычное жава приложение
источник

АБ

Александр Булатов in Data Engineers
Stanislav
от висящих в нем задач зависит
это обычное жава приложение
Окей, потестим на трех процессорах с 512 мб оперативы
источник

S

Stanislav in Data Engineers
будет печалька
источник

AZ

Anton Zadorozhniy in Data Engineers
Александр Булатов
Окей, потестим на трех процессорах с 512 мб оперативы
Raspberry PI? :)
источник

АБ

Александр Булатов in Data Engineers
Не, сервер за 90 р.)
источник