Телеграмм чат группы scala

меняется, да. Вначале, когда все было на датафреймах, не было таких проблем (другие проблемы, конечно, были)), но я захотел лучшего, стал переносить обработку в собственные структуры и классы и обнаружил, что партиционирование rdd партишенером из двух строк почему-то заметно дольше выполняется, чем то же партиционирование датафрейма, а там еще и Murmur3 вычисляется и тасков больше, чтобы снизить вероятность коллизии.
Сейчас пытаюсь понять, есть ли положительный эффект на производительности, если интересно, то напишу результат, когда он будет

источник

15:29пожаловаться #9

E

Elijah in Scala User Group

Иван Калининский

Спасибо! Действительно хорошо, и в цикле и без дополнительных затрат, практически.
Тут надо понять вот что: общий объем данных, которые пойдут на вход, может достигать двух терабайт и больше, что довольно много, поэтому использовать структуру, которая должна находиться в памяти полностью - довольно дорого. Я попробую бенчмаркнуть использование Vector, и может быть, подставить вместо него Stream. Сам алгоритм, на мой взгляд, очень элегантный и идиоматичный

тогда вот так. по идее reverse не должен давать лишнего оверхеда, как было бы с обычным листом. к тому же, стрим задепрекейтили, и рекоммендуется использовать LazyList

https://scastie.scala-lang.org/ElijahLaMoon/SOz6nSvnRPSpgoV4YDazeg/28

Scastie

Scastie - An interactive playground for Scala.

Scastie can run any Scala program with any library in your browser. You don’t need to download or install anything.

источник

15:45пожаловаться #10

Oℕ

Oleg ℕizhnik in Scala User Group

Elijah

тогда вот так. по идее reverse не должен давать лишнего оверхеда, как было бы с обычным листом. к тому же, стрим задепрекейтили, и рекоммендуется использовать LazyList

https://scastie.scala-lang.org/ElijahLaMoon/SOz6nSvnRPSpgoV4YDazeg/28

Scastie

Scastie - An interactive playground for Scala.

Scastie can run any Scala program with any library in your browser. You don’t need to download or install anything.

там 2.11

источник

15:46пожаловаться #11

E

Elijah in Scala User Group

Oleg ℕizhnik

там 2.11

а, ну земля пухом

источник

15:46пожаловаться #12

Oℕ

Oleg ℕizhnik in Scala User Group

reverse даст, конечно оверхед

источник

15:46пожаловаться #13

E

Elijah in Scala User Group

тогда стрим

источник

15:46пожаловаться #14

Oℕ

Oleg ℕizhnik in Scala User Group

он вынужден всё в память выгрузить

источник

15:46пожаловаться #15

E

Elijah in Scala User Group

Oleg ℕizhnik

он вынужден всё в память выгрузить

если вызвать reverse на LazyList, то он его не выгрузит в память

источник

15:48пожаловаться #16

E

Elijah in Scala User Group

или это позже происходит просто?

источник

15:48пожаловаться #17

Oℕ

Oleg ℕizhnik in Scala User Group

Elijah

тогда вот так. по идее reverse не должен давать лишнего оверхеда, как было бы с обычным листом. к тому же, стрим задепрекейтили, и рекоммендуется использовать LazyList

https://scastie.scala-lang.org/ElijahLaMoon/SOz6nSvnRPSpgoV4YDazeg/28

Scastie

Scastie - An interactive playground for Scala.

Scastie can run any Scala program with any library in your browser. You don’t need to download or install anything.

эта реализация не O(1) от памяти

источник

15:48пожаловаться #18

Oℕ

Oleg ℕizhnik in Scala User Group

она накапливает

источник

15:48пожаловаться #19

Oℕ

Oleg ℕizhnik in Scala User Group

Elijah

если вызвать reverse на LazyList, то он его не выгрузит в память

выгрузит

источник

15:48пожаловаться #20