Size: a a a

2019 April 15

DG

Denis Gabaydulin in Moscow Spark
Anton Alekseev
Получается из-за этого ("читать придеться целиком") такое (одна) количество партиций для одного csv получается, верно?
Тут речь о том , что допустим тебе нужна всего пара-тройка колонок, но в csv формате данные хранятся построчно. Чтобы их прочитать и допустим отфильтровать, надо будет разжать всю строку целиком, распарсить ее, чтобы вытащить нужные колонки. По сравнению с колоночным форматом, это очень неэффективно.
источник

DG

Denis Gabaydulin in Moscow Spark
Во-вторых, нет никакой информации о том где именно в файле или файлах хранятся нужные данные. Поэтому искать придеться везде.
источник

DG

Denis Gabaydulin in Moscow Spark
Партиции помогут, но не сильно. В конечном итоге все зависит от того, что вы делаете с данными.
Есди ваши данные помещаются на одну машину и вы их просто загружаете в память целиком, то может быть спарк и не нужен?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Denis Gabaydulin
Партиции помогут, но не сильно. В конечном итоге все зависит от того, что вы делаете с данными.
Есди ваши данные помещаются на одну машину и вы их просто загружаете в память целиком, то может быть спарк и не нужен?
источник

DG

Denis Gabaydulin in Moscow Spark
Мем не понял)
источник

ЕГ

Евгений Глотов... in Moscow Spark
"Как это спарк не нужен?")
источник

ЕГ

Евгений Глотов... in Moscow Spark
Переписывать на спарк в 2 раза дольше, чем писать сразу на спарке)
источник

AA

Anton Alekseev in Moscow Spark
Denis Gabaydulin
Партиции помогут, но не сильно. В конечном итоге все зависит от того, что вы делаете с данными.
Есди ваши данные помещаются на одну машину и вы их просто загружаете в память целиком, то может быть спарк и не нужен?
Это тесты были, и в память все равно не поместилось, как я выше описал))
источник

DG

Denis Gabaydulin in Moscow Spark
Немного странный вопрос будет.
Кто-нибудь пробовал сделать REST-сервис со Spark внутри?

Не путать со spark jobserver.

Суть в том, что иногда, хочется сделать сервис, который предназначен для внутреннего использования. То есть ответа можно и подождать, запросов мало.

Я пробовал сделать на spring boot, но там всплыло столько проблем, в том числе и с зависимостями, что я забил.

И вот интересно, кто-то смог?
источник

DG

Denis Gabaydulin in Moscow Spark
Завел в итоге на HIVE (tez).
источник
2019 April 16

N

Nikolay in Moscow Spark
Denis Gabaydulin
Немного странный вопрос будет.
Кто-нибудь пробовал сделать REST-сервис со Spark внутри?

Не путать со spark jobserver.

Суть в том, что иногда, хочется сделать сервис, который предназначен для внутреннего использования. То есть ответа можно и подождать, запросов мало.

Я пробовал сделать на spring boot, но там всплыло столько проблем, в том числе и с зависимостями, что я забил.

И вот интересно, кто-то смог?
А что значит такой сервис. Я не понял где он должен выполняться на драйвере или экзекьюторе и что должен возвращать
источник

DG

Denis Gabaydulin in Moscow Spark
На драйвере.
Пришел запрос. Поискали спарком данные в hdfs. Выгрузили на драйвер, отдали в виде json.
источник

PK

Pavel Klemenkov in Moscow Spark
Denis Gabaydulin
На драйвере.
Пришел запрос. Поискали спарком данные в hdfs. Выгрузили на драйвер, отдали в виде json.
источник

PK

Pavel Klemenkov in Moscow Spark
Denis не то?
источник

AI

Andrei Iatsuk in Moscow Spark
Denis Gabaydulin
Немного странный вопрос будет.
Кто-нибудь пробовал сделать REST-сервис со Spark внутри?

Не путать со spark jobserver.

Суть в том, что иногда, хочется сделать сервис, который предназначен для внутреннего использования. То есть ответа можно и подождать, запросов мало.

Я пробовал сделать на spring boot, но там всплыло столько проблем, в том числе и с зависимостями, что я забил.

И вот интересно, кто-то смог?
А в чем собственно проблема? Я на прошлой работе делал. Только без спринга, на чистом jetty.
источник

N

Nikolay in Moscow Spark
А почему не на akka http?
источник

AI

Andrei Iatsuk in Moscow Spark
Потому что нужно было очень срочно (как всегда), а с akka тогда я ещё не имел опыта. Ну и jetty хватало на задачи.
источник

И

Иван in Moscow Spark
Denis Gabaydulin
Немного странный вопрос будет.
Кто-нибудь пробовал сделать REST-сервис со Spark внутри?

Не путать со spark jobserver.

Суть в том, что иногда, хочется сделать сервис, который предназначен для внутреннего использования. То есть ответа можно и подождать, запросов мало.

Я пробовал сделать на spring boot, но там всплыло столько проблем, в том числе и с зависимостями, что я забил.

И вот интересно, кто-то смог?
Делали на vert.x
источник

DG

Denis Gabaydulin in Moscow Spark
Ого, я смотрю один я такой неудачник :-)
А напишите тогда, какие были трудности и были ли?
Насколько стабильно это работает?
источник

AS

Andrey Smirnov in Moscow Spark
Denis Gabaydulin
Немного странный вопрос будет.
Кто-нибудь пробовал сделать REST-сервис со Spark внутри?

Не путать со spark jobserver.

Суть в том, что иногда, хочется сделать сервис, который предназначен для внутреннего использования. То есть ответа можно и подождать, запросов мало.

Я пробовал сделать на spring boot, но там всплыло столько проблем, в том числе и с зависимостями, что я забил.

И вот интересно, кто-то смог?
а в чем проблема, мы делали над akka.http и даже над play
источник