я пытаюсь в databricks прочитать xlsx файл. Для этого выполняю команду: import pandas as pd path='/dbfs:/mnt/RAW/2022/01/Hierarchy.xlsx' pd_df= pd.read_excel(path, engine='openpyxl')
в ответ получаю ошибку No such file or directory: '/dbfs:/mnt/RAW/2022/01/Hierarchy.xlsx'
замена на engine='xlrd ' возвращает такой же результат
по пути '/dbfs:/mnt/RAW/2022/01' находится еще другой файл csv и он успешно читается, но через spark.read.csv, а вот pandas читать по этому пути не хочет в чем может быть проблема ?
Есть два API к dbfs - один S3 like, другой - FUSE. Спарк читает из dbfs по S3 пути - spark.read.format.load(dbfs:/some/path). Для Pandas нужен FUSE путь: pd.read_excel(/dbfs/some/path) - без двоеточия
Господа, привет! Сориентируйте пожалуйста, запускаю предикты ML моделей через udf, 186 млн записей, выполняется примерно 9 часов, как процесс можно распаралелить и ускорить? spark 2.2, модели xgboost, SparkML не подходит