Size: a a a

2020 May 08

AS

Andrey Smirnov in Moscow Spark
Vitaly Khudobakhshov
В тулбаре в IDEA есть кнопка, которая ведёт в настройки модуля, куда можно добавить недостающие зависимости, которые не удалось синхронизировать автоматически из цеппелина
а где эта волшебная кнопка, мне каждый jar добавлять руками?
источник

NA

Nikita Ashikhmin in Moscow Spark
всем привет
источник

NA

Nikita Ashikhmin in Moscow Spark
на скриншоте плюсик справа от зависимостей
источник

NA

Nikita Ashikhmin in Moscow Spark
источник

NA

Nikita Ashikhmin in Moscow Spark
источник

NA

Nikita Ashikhmin in Moscow Spark
Если один раз зависимость добавили для коннекшена, то она сохранится. Она сохранится для пары коннекшен, проект
источник

AS

Andrey Smirnov in Moscow Spark
спасибо, сработало!
источник

AS

Andrey Smirnov in Moscow Spark
но все равно было бы неплохо если spark.jars.packages хотя бы синхронизировались
источник

VK

Vitaly Khudobakhshov in Moscow Spark
Andrey Smirnov
но все равно было бы неплохо если spark.jars.packages хотя бы синхронизировались
Подумаем, как все можно улучшить
источник

DC

Dany Chepenko in Moscow Spark
Подскажите, в спраке ловлю ошибку java.lang.IllegalArgumentException: Field "col1" does not exist когда создаю пайплайн и пытаюсь зафитить дату.
При этом, когда смотрю на схему - нужную колнку вижу. Дату читаю из csv.
val data = this.spark.read
 .format("csv")
 .option("header", "true")
 .option("mode", "DROPMALFORMED")
 .load(this.taskConfig.training.db + this.taskConfig.training.table)

Куда смотреть - схеам выглядит валидной
Полный код https://stackoverflow.com/questions/61678952/scala-spark-error-java-lang-illegalargumentexception-field-col1-does-not-exi
источник

R

Roman in Moscow Spark
Какой разделитель колонок в csv? Не таб случаем?
источник

DC

Dany Chepenko in Moscow Spark
Roman
Какой разделитель колонок в csv? Не таб случаем?
Таб, да
источник

R

Roman in Moscow Spark
Надо явно указать, когда читаешь, разделитель таб
источник

R

Roman in Moscow Spark
Из твоего стэковерфлоу:
Array(StructField(col1 col2 col3 ...)
источник

R

Roman in Moscow Spark
Все колонки в одной
источник
2020 May 09

DC

Dany Chepenko in Moscow Spark
Roman
Надо явно указать, когда читаешь, разделитель таб
Ага, помогло, но другая ошибка возникла Exception in thread "main" java.lang.IllegalArgumentException: Data type StringType is not supported.
источник
2020 May 11

AS

Andrey Smirnov in Moscow Spark
вопрос: а как сохранить посчитанную svd на диск и потом загрузить обратно?
источник

OI

Oleg Ivchenko in Moscow Spark
Andrey Smirnov
вопрос: а как сохранить посчитанную svd на диск и потом загрузить обратно?
А в каком виде она посчиталась? RDD / DF?
источник

AS

Andrey Smirnov in Moscow Spark
Oleg Ivchenko
А в каком виде она посчиталась? RDD / DF?
org.apache.spark.mllib.linalg.SingularValueDecomposition[org.apache.spark.mllib.linalg.distributed.RowMatrix,org.apache.spark.mllib.linalg.Matrix]
видимо rdd
источник

OI

Oleg Ivchenko in Moscow Spark
Andrey Smirnov
org.apache.spark.mllib.linalg.SingularValueDecomposition[org.apache.spark.mllib.linalg.distributed.RowMatrix,org.apache.spark.mllib.linalg.Matrix]
видимо rdd
Если RDD, то просто persist() со StorageLevel DISK_ONLY.
источник