Size: a a a

2021 July 15

AV

Alexei Vasilev in Moscow Spark
ссылка на митап не доступна, потому что пишет что он уже прошел(, хотя должен вроде начинаться только
источник

CO

Chern Oleksander in Moscow Spark
всем привет, а не подскажите
есть df в нем где-то гигов 20/3млрд строк
Делаю
for_test = df_for.limit(100)
for_test.count()

и такое чувство, что лимит не сработал и он считает весь df
почему так? (
источник

E

Ekaterina in Moscow Spark
Во сколько малыша не начинаю укладывать, глубоко засыпает ровно в 8
источник

DZ

Dmitry Zuev in Moscow Spark
источник

t

tenKe in Moscow Spark
источник

Р

Рамик in Moscow Spark
читаются все файлы (full scan), а после происходит лимит и считывается коунт
источник

GP

Grigory Pomadchin in Moscow Spark
источник

NN

No Name in Moscow Spark
А если, например, в 7:59?
источник

CO

Chern Oleksander in Moscow Spark
А можно как-то убрать фулл скан?
Спасибо
источник

Р

Рамик in Moscow Spark
Думаю, что нет.
Надо было у тебя спросить, что ты читаешь в df? если это таблица в хадупе, то как она хранится (одним большим файлом или несколько маленьких) ? формат хранения ? какой  block size ?
источник

Р

Рамик in Moscow Spark
все это влияет на твой count
источник

GP

Grigory Pomadchin in Moscow Spark
Нужно на чтении фрейма делать фильтр
источник

GP

Grigory Pomadchin in Moscow Spark
надо пушдаунить как можно ниже
источник

GP

Grigory Pomadchin in Moscow Spark
Если грузить все потом делать лимит очевидно он все будет грузить в случае если сурс не умеет фильтровать на чтении
источник

Р

Рамик in Moscow Spark
Пушдаун же работает только с колончатым форматом ?!
источник

GP

Grigory Pomadchin in Moscow Spark
ну я очень широко сказал пушдаун
можно что угодно пушдаунить главное чтоб спаркодатасурс поддерживал и формат который читается
источник

CO

Chern Oleksander in Moscow Spark
Я в AWS glue читаю с каталога, по факту это паркет партицированный по дням который на S3 лежит
источник

Р

Рамик in Moscow Spark
Ты можешь можешь прочитать одну партицию, если тебе надо получить 100 строк наложив фильтр по полю партиции , или  применить пушдаун фильтр
источник

CO

Chern Oleksander in Moscow Spark
Я со спарком только месяц, а как прочитать конкретную партию ?
Или можете доком в меня кинуть
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Я таки н понял к чему это
источник