Телеграмм чат группы moscowspark страница 989

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

1233 membersпожаловаться на группу

2022 February 02

PK

Pavel Klemenkov in Moscow Spark

Готово

источник

15:56пожаловаться #1

ПФ

Паша Финкельштейн... in Moscow Spark

пасиб

источник

16:20пожаловаться #2

АД

Александр Дмитриевич... in Moscow Spark

Сейчас на митапе "Основы работы с PostGIS, Hadoop и Spark" выступает спикер с темой "Большие данные" (Spark и Hadoop): присоединяйтесь

Microsoft Teams

Join conversation

источник

17:31пожаловаться #3

AS

Anton Solomonov in Moscow Spark

я пытаюсь в databricks прочитать xlsx файл. Для этого выполняю команду:
import pandas as pd
path='/dbfs:/mnt/RAW/2022/01/Hierarchy.xlsx'
pd_df= pd.read_excel(path, engine='openpyxl')

в ответ получаю ошибку No such file or directory: '/dbfs:/mnt/RAW/2022/01/Hierarchy.xlsx'

замена на engine='xlrd ' возвращает такой же результат

по пути '/dbfs:/mnt/RAW/2022/01' находится еще другой файл csv и он успешно читается, но через spark.read.csv, а вот pandas читать по этому пути не хочет
в чем может быть проблема ?

источник

20:37пожаловаться #4

R

Renarde in Moscow Spark

Есть два API к dbfs - один S3 like, другой - FUSE.
Спарк читает из dbfs по S3 пути - spark.read.format.load(dbfs:/some/path).
Для Pandas нужен FUSE путь:
pd.read_excel(/dbfs/some/path) - без двоеточия

источник

20:41пожаловаться #5

AS

Anton Solomonov in Moscow Spark

спасибо, похоже помогло ))

источник

20:46пожаловаться #6

2022 February 03

A

Ali Isfandiyarov in Moscow Spark

Господа, привет! Сориентируйте пожалуйста, запускаю предикты ML моделей через udf, 186 млн записей, выполняется примерно 9 часов, как процесс можно распаралелить и ускорить? spark 2.2, модели xgboost, SparkML не подходит

источник

10:57пожаловаться #7

PK

Pavel Klemenkov in Moscow Spark

Больше партиций сделать, перейти на pandas_udf чтобы заюзать arrow и увеличить размер arrow блока

источник

11:05пожаловаться #8

DZ

Dmitry Zuev in Moscow Spark

эрроу, 2.2

источник

11:05пожаловаться #9

A

Ali Isfandiyarov in Moscow Spark

да, забыл сказать что выполняется на scala, партиций 2000

источник

11:05пожаловаться #10

DZ

Dmitry Zuev in Moscow Spark

ребята еще камнем огонь добывают

источник

11:05пожаловаться #11

A

Alex in Moscow Spark

опять же, не сказано что за кластер, окажется что 1.5 машины на 16гб памяти и 2vcpu

источник

11:06пожаловаться #12

A

Alex in Moscow Spark

а ресурсов сколько выделено?

источник

11:06пожаловаться #13

A

Ali Isfandiyarov in Moscow Spark

кластер 49 машин, выделено 300 ядер и около 600 гб памяти

источник

11:07пожаловаться #14

A

Alex in Moscow Spark

ну вот смотрите, у вас 2000 партиций, они просасываются через 300 воркеров

можно посмотреть где и что тупит
можно докинуть ядер

источник

11:08пожаловаться #15

A

Alex in Moscow Spark

в данный момент получается у вас 2000/300=6.x итераций полных проходит
докинув ещё 300 в теории ускорите в 2 раза

но это лишь теория

источник

11:09пожаловаться #16

A

Ali Isfandiyarov in Moscow Spark

попробую, но думаю сильно делу не поможет)

источник

11:20пожаловаться #17

A

Alex in Moscow Spark

ну остальные советы без понимаю где и что у вас просаживается сложно предложить

источник

11:20пожаловаться #18

A

Alex in Moscow Spark

возможно на передаче данных
возможно у вас сам инференс медленный и съедает всё (тогда модель нужно тюнить)

источник

11:21пожаловаться #19

MD

Michael Davydov in Moscow Spark

Можете показать в коде, как происходит инициализация, создание юдф и применение модели?

источник

11:22пожаловаться #20