Телеграмм чат группы moscowspark страница 115

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

872 membersпожаловаться на группу

2019 April 15

AA

Anton Alekseev in Moscow Spark

читаю из hdfs

источник

13:48пожаловаться #1

AA

Anton Alekseev in Moscow Spark

Я вообще из доков не совсем понял как он читает, сразу по нодам кластера или сперва распаковывает драйвером парсит и разливает.😰 Киньте учебником, Learning
Spark не пролил свет.

источник

13:51пожаловаться #2

DG

Denis Gabaydulin in Moscow Spark

Тут слишком много вопросов :-)
1. В общем случае, читает по нодам. Но есть нюансы.

2. CSV - не колоночный формат, поэтому читать придеться целиком.

3. Parquet- колоночный. Он рулит за счет чтения не всех колонок, push down predicate и продвинутого сжатия типа delta encoding и прочих.

pandas collect что делает?

Читать можно:
* https://www.oreilly.com/library/view/learning-spark/9781449359034/
* https://www.amazon.com/High-Performance-Spark-Practices-Optimizing/dp/1491943203

O’Reilly Online Learning

Learning Spark

Data in all domains is getting bigger. How can you work with it efficiently? Recently updated for Spark 1.3, this book introduces Apache Spark, the open source cluster computing … - Selection from Learning Spark [Book]

источник

14:03пожаловаться #3

AS

Andrey Smirnov in Moscow Spark

Learning
Spark старая книга, лучше возьми spark in action (как начальную)

источник

14:10пожаловаться #4

AA

Anton Alekseev in Moscow Spark

Pandas collect, делаю toPandas, по сути коллект на драйвер и перевод в python Pandas датафрейм, это все.

источник

14:12пожаловаться #5

AA

Anton Alekseev in Moscow Spark

Как то уж очень быстро для 100 csv отработал.

источник

14:13пожаловаться #6

N

Nikolay in Moscow Spark

Csv тоже каждому воркеру не нужно целиком читать.

источник

14:18пожаловаться #7

KS

Kostya Shchetkin in Moscow Spark

Anton Alekseev

Pandas collect, делаю toPandas, по сути коллект на драйвер и перевод в python Pandas датафрейм, это все.

а какой версии спарк? может там arrow помогает?

источник

15:03пожаловаться #8

AA

Anton Alekseev in Moscow Spark

Kostya Shchetkin

а какой версии спарк? может там arrow помогает?

2.4. Тогда непонятно почему он паркету не помогает. Кстати да, не уточнил, pyarrow заэнейблен:)

источник

15:04пожаловаться #9

AA

Anton Alekseev in Moscow Spark

Можно как-то пробить где партиции расположились? Может такое быть что все на драйвере и он по быстрому их собрал.

источник

15:21пожаловаться #10

AA

Anton Alekseev in Moscow Spark

Denis Gabaydulin

Тут слишком много вопросов :-)
1. В общем случае, читает по нодам. Но есть нюансы.

2. CSV - не колоночный формат, поэтому читать придеться целиком.

3. Parquet- колоночный. Он рулит за счет чтения не всех колонок, push down predicate и продвинутого сжатия типа delta encoding и прочих.

pandas collect что делает?

Читать можно:
* https://www.oreilly.com/library/view/learning-spark/9781449359034/
* https://www.amazon.com/High-Performance-Spark-Practices-Optimizing/dp/1491943203

O’Reilly Online Learning

Learning Spark

Data in all domains is getting bigger. How can you work with it efficiently? Recently updated for Spark 1.3, this book introduces Apache Spark, the open source cluster computing … - Selection from Learning Spark [Book]

Получается из-за этого ("читать придеться целиком") такое (одна) количество партиций для одного csv получается, верно?

источник

15:22пожаловаться #11

GP

Grigory Pomadchin in Moscow Spark

Anton Alekseev

Можно как-то пробить где партиции расположились? Может такое быть что все на драйвере и он по быстрому их собрал.

глянь сколько партиций у тебя сразу после прочтения csv в твоем дф

источник

15:34пожаловаться #12

AA

Anton Alekseev in Moscow Spark

Grigory Pomadchin

глянь сколько партиций у тебя сразу после прочтения csv в твоем дф

Вот это они и есть в табличке.

источник

15:35пожаловаться #13

GP

Grigory Pomadchin in Moscow Spark

Anton Alekseev

Вот это они и есть в табличке.

а что значит parts100-split?

источник

15:37пожаловаться #14

AA

Anton Alekseev in Moscow Spark

Grigory Pomadchin

а что значит parts100-split?

100 частей - 6 партиций

источник

15:37пожаловаться #15

AA

Anton Alekseev in Moscow Spark

Один файл на 100 частей поделил

источник

15:37пожаловаться #16

GP

Grigory Pomadchin in Moscow Spark

как ты сделал эти 100 частей

источник

15:37пожаловаться #17

AA

Anton Alekseev in Moscow Spark

Через пандас/numpy и for

источник

15:37пожаловаться #18

AA

Anton Alekseev in Moscow Spark

for idx, frame in enumerate(np.split(df, 100)):
    frame.to_csv('D:/tmp/part_%s.csv.gz'%(idx), compression='gzip')

источник

15:38пожаловаться #19

AA

Anton Alekseev in Moscow Spark

Блин, мой косяк. Вообщем toPandas вообще фейлился по месту и возвращал пустой датафрейм, и не исполнялся по факту, но ошибку не выбрасывал. Только в джобах на вебморде увидел.

источник

17:40пожаловаться #20