Size: a a a

2022 February 02

PK

Pavel Klemenkov in Moscow Spark
Готово
источник

ПФ

Паша Финкельштейн... in Moscow Spark
пасиб
источник

АД

Александр Дмитриевич... in Moscow Spark
Сейчас на митапе "Основы работы с PostGIS, Hadoop и Spark" выступает спикер с темой "Большие данные" (Spark и Hadoop): присоединяйтесь
источник

AS

Anton Solomonov in Moscow Spark
я пытаюсь в databricks прочитать xlsx  файл. Для этого выполняю команду:
import pandas as pd
path='/dbfs:/mnt/RAW/2022/01/Hierarchy.xlsx'
pd_df= pd.read_excel(path, engine='openpyxl')


в ответ получаю ошибку No such file or directory: '/dbfs:/mnt/RAW/2022/01/Hierarchy.xlsx'

замена на engine='xlrd ' возвращает такой же результат

по пути '/dbfs:/mnt/RAW/2022/01' находится еще другой файл csv и он успешно читается, но через spark.read.csv, а вот pandas читать по этому пути не хочет
в чем может быть проблема ?
источник

R

Renarde in Moscow Spark
Есть два API к dbfs - один S3 like, другой - FUSE.
Спарк читает из dbfs по S3 пути - spark.read.format.load(dbfs:/some/path).
Для Pandas нужен FUSE путь:
pd.read_excel(/dbfs/some/path) - без двоеточия
источник

AS

Anton Solomonov in Moscow Spark
спасибо, похоже помогло ))
источник
2022 February 03

A

Ali Isfandiyarov in Moscow Spark
Господа, привет! Сориентируйте пожалуйста, запускаю предикты ML моделей  через udf, 186 млн записей, выполняется примерно 9 часов, как процесс можно распаралелить и ускорить? spark 2.2, модели xgboost, SparkML не подходит
источник

PK

Pavel Klemenkov in Moscow Spark
Больше партиций сделать, перейти на pandas_udf чтобы заюзать arrow и увеличить размер arrow блока
источник

DZ

Dmitry Zuev in Moscow Spark
эрроу, 2.2
источник

A

Ali Isfandiyarov in Moscow Spark
да, забыл сказать что выполняется на scala, партиций 2000
источник

DZ

Dmitry Zuev in Moscow Spark
ребята еще камнем огонь добывают
источник

A

Alex in Moscow Spark
опять же, не сказано что за кластер, окажется что 1.5 машины на 16гб памяти и 2vcpu
источник

A

Alex in Moscow Spark
а ресурсов сколько выделено?
источник

A

Ali Isfandiyarov in Moscow Spark
кластер 49 машин, выделено 300 ядер и около 600 гб памяти
источник

A

Alex in Moscow Spark
ну вот смотрите, у вас 2000 партиций, они просасываются через 300 воркеров

можно посмотреть где и что тупит
можно докинуть ядер
источник

A

Alex in Moscow Spark
в данный момент получается у вас 2000/300=6.x итераций полных проходит
докинув ещё 300 в теории ускорите в 2 раза

но это лишь теория
источник

A

Ali Isfandiyarov in Moscow Spark
попробую, но думаю сильно делу не поможет)
источник

A

Alex in Moscow Spark
ну остальные советы без понимаю где и что у вас просаживается сложно предложить
источник

A

Alex in Moscow Spark
возможно на передаче данных
возможно у вас сам инференс медленный и съедает всё (тогда модель нужно тюнить)
источник

MD

Michael Davydov in Moscow Spark
Можете показать в коде, как происходит инициализация, создание юдф и применение модели?
источник