Колоночное может получится только , когда много данных в памяти много. Может быть при чтении из hdfs даже из csv и возможно колонки. Т.к он все же блоками читает . Т.е считал 256 мегабайт же
На счёт колоночного представления есть тикет https://issues.apache.org/jira/browse/SPARK-15687 , его закрыли с комментом > Actually closing this, since with whole-stage code generation, it's unclear what it means to have a columnar execution engine. In many cases whole-stage code generation is more advanced what a column-oriented execution engine would do.
Если я пишу persist, то какая область действия его ? Вот например у меня. Read.csv .map(). persist().groupby.map.filter . В какой момент в памяти начнет сохранятся и когда освободится память. Groupby я написал , что бы спросит будет ли в следующем stage доступен этот кэш
Если я пишу persist, то какая область действия его ? Вот например у меня. Read.csv .map(). persist().groupby.map.filter . В какой момент в памяти начнет сохранятся и когда освободится память. Groupby я написал , что бы спросит будет ли в следующем stage доступен этот кэш
val df = blablabla.map df.filter1 df.filter2
val dfp = blablabla.map.persist()
dfp.filter1 dfp.filter2
в первом случае оба фильтра будут колать блаблаблу, читать ее и применять мап
во втором случае будут юзать заперститеный кусок рдд