Size: a a a

2021 April 13

ЕГ

Евгений Глотов... in Data Engineers
Вообще 90гб csv - это крайне фиговая затея
источник

SI

Sergey Ivanychev in Data Engineers
А оно по OOM не упадет?
источник

ЕГ

Евгений Глотов... in Data Engineers
Ну так и обычный архивер падает😐
источник

SI

Sergey Ivanychev in Data Engineers
обычный архивер не должен падать из-за OOM — там фиксированный буфер используется
источник

RI

Rustam Iksanov in Data Engineers
Я бы в паркет катанул
источник

SI

Sergey Ivanychev in Data Engineers
Для более быстрой — ты можешь подумать над другим кодеком архивации или настройкой compression rate если у тебя zip
источник

SI

Sergey Ivanychev in Data Engineers
Или ты можешь свой csv разрезать на несколько файлов, или, как посоветовал рустам, использовать что-то получше чем csv
источник

K

KrivdaTheTriewe in Data Engineers
спарком зархивируйте, а потом все в один гз положите
источник

ПФ

Паша Финкельштейн... in Data Engineers
Чатик, а есть где-то картинка того, как устроена архитектура sparklyr? Так же как pyspark?
источник

K

KrivdaTheTriewe in Data Engineers
Переслано от KrivdaTheTriewe
в идею на маке завезли табы между проектами
источник

K

KrivdaTheTriewe in Data Engineers
там прям код на сях есть
источник

AZ

Anton Zadorozhniy in Data Engineers
Sparklyr это бэкенд для dplyr, аналогичный dbplyr и другим проприетарным бэкендам ;) в этом смысле лучше ориентироваться на dplyr как контракт для интеграции, тогда будет сразу и для других бэкендов работать ваш код
источник

AZ

Anton Zadorozhniy in Data Engineers
Короче, все как всегда лучше в R, чем в питоне :)
источник

ПФ

Паша Финкельштейн... in Data Engineers
Таак, а интероп там как построен?
источник

ПФ

Паша Финкельштейн... in Data Engineers
Ну типа передача данных dplyr ←→ sparklyr и sparklyr ←→ spark?
источник

K

KrivdaTheTriewe in Data Engineers
источник

ПФ

Паша Финкельштейн... in Data Engineers
🤦‍♂️
источник

K

KrivdaTheTriewe in Data Engineers
ну сериализует, десериализует)
источник

ПФ

Паша Финкельштейн... in Data Engineers
Это врое ясно, но раскурить эту штуку за пять минут не получится…
источник

K

KrivdaTheTriewe in Data Engineers
для сишарпа также
источник