Size: a a a

2019 October 05

UD

Uncel Duk in Data Engineers
В 2 раза это очень оптимистично
источник

ЕГ

Евгений Глотов in Data Engineers
а можно переписывать нейросетки на скалу, или что вообще делать, если они на питон/си написаны?
источник

ЕГ

Евгений Глотов in Data Engineers
с использованием gpu
источник

A

Alex in Data Engineers
не, я же ничего =) это как с “spark all in memory”, а на практике все шафлы и репартишены через disk сделаны ….
источник

A

Alex in Data Engineers
можно использовать и pyspark и остальное
источник

A

Alex in Data Engineers
просто весело слушать когда рассказывают про магию и скорость
источник

ЕГ

Евгений Глотов in Data Engineers
Alex
не, я же ничего =) это как с “spark all in memory”, а на практике все шафлы и репартишены через disk сделаны ….
кстати, у меня был прикол, связанный с этим - на винде запускал локальный спарк, он мне весь шаффл запихнул в память, и не скидывал его на диск)
источник

A

Alex in Data Engineers
пиздешь =)
источник

ЕГ

Евгений Глотов in Data Engineers
в смысле в кэш диска в памяти
источник

A

Alex in Data Engineers
ВСЕ шафлы даже локально даже на 2 рекорда будут идти через диск
источник

ЕГ

Евгений Глотов in Data Engineers
да, но винда кэшит запись на диск в память)
источник

A

Alex in Data Engineers
а, ну в кеш диска возможно, но файлики все равно на фс будут
источник

ЕГ

Евгений Глотов in Data Engineers
пока место есть
источник

ЕГ

Евгений Глотов in Data Engineers
да
источник

UD

Uncel Duk in Data Engineers
Alex
ВСЕ шафлы даже локально даже на 2 рекорда будут идти через диск
Есть костыль с оптаном
источник

ЕГ

Евгений Глотов in Data Engineers
вот с такими оптимизациями сейчас вообще не угадаешь, может там 15 копирований быстрее сделать, чем запариваться)
источник

A

Alex in Data Engineers
@Unkledolan я там выше спрашивал уже, но все молчат

https://iceberg.incubator.apache.org/
никто еще не пробовал? а то что-то нетфликс регулярно пиярит
источник

UD

Uncel Duk in Data Engineers
Alex
@Unkledolan я там выше спрашивал уже, но все молчат

https://iceberg.incubator.apache.org/
никто еще не пробовал? а то что-то нетфликс регулярно пиярит
я очень хочу в новый кластер, как старый взорву
источник

UD

Uncel Duk in Data Engineers
источник

UD

Uncel Duk in Data Engineers
нечто похожее должно быть в мтс
источник