Size: a a a

2021 November 03

SI

Sergey Ivanychev in Moscow Spark
Блин, ну это хрень какая-то а не .toPandas
источник

SI

Sergey Ivanychev in Moscow Spark
def collect_pandas(table_name):
   dataframes = (
       pd.read_parquet(path=path)
       for path in spark.table(table_name).inputFiles()
   )
   
   return pd.concat(dataframes, axis=0)


работает как боженька, спасибо
источник

DZ

Dmitry Zuev in Moscow Spark
ты где такую глину откопал?
источник

SI

Sergey Ivanychev in Moscow Spark
сам написал, а чего это сразу глина
источник

DZ

Dmitry Zuev in Moscow Spark
хотя бы от того что тебе спарк сессия нужна на пустом месте
источник

DZ

Dmitry Zuev in Moscow Spark
так тебе таблицу читать или файло?
источник

SI

Sergey Ivanychev in Moscow Spark
у меня спарк сессия есть как данность, ты мне предлагаешь через хайв пути до файлов получать?
источник

DZ

Dmitry Zuev in Moscow Spark
спарк сессия есть как данность
источник

DZ

Dmitry Zuev in Moscow Spark
И ярн небось как данность
источник

DZ

Dmitry Zuev in Moscow Spark
и ДЕ которые охуевают от экзекуторов на 1Тб
источник

SI

Sergey Ivanychev in Moscow Spark
@zuynew в оригинальном вопросе я сказал, что у нас тонкие экзекьютеры, толстый драйер — Jupyter ноутбук, где ML инженер может собрать датасет
источник

SI

Sergey Ivanychev in Moscow Spark
Ярна нет, есть кубер — с экзекьютерами на 1ТБ я не охуеваю
источник

GP

Grigory Pomadchin in Moscow Spark
источник

DZ

Dmitry Zuev in Moscow Spark
настоящая бигдата
источник

GP

Grigory Pomadchin in Moscow Spark
можно как угодно на самом деле
источник

GP

Grigory Pomadchin in Moscow Spark
просто спарк для этого долго
источник

GP

Grigory Pomadchin in Moscow Spark
не думаю что в ствоем случае это на чтото влияет правда
источник

GP

Grigory Pomadchin in Moscow Spark
и так и так долго
источник

GP

Grigory Pomadchin in Moscow Spark
и много памяти
источник

DZ

Dmitry Zuev in Moscow Spark
Кроме запущенного жвма
источник