Size: a a a

2019 April 24

AA

Anton Alekseev in Moscow Spark
Denis Gabaydulin
На датафесте буду чуть-чуть об этом говорить.
Если кратко, то мы используем схему с completablefuture (треды).
На 1-1.5 ядер (256/384 *4) считаем в 8-16 потоков и получаем почти линейное ускорение рассчета истории.
Ключевое:
* рассчеты должны быть независимы
* ресурсов должно быть достаточно
Датафест - это который в мае в Мск?
источник

DG

Denis Gabaydulin in Moscow Spark
Да.
источник

AT

Andrey Tsibulskiy in Moscow Spark
Коллеги, подскажите кто-нибудь использует oracle odi? Есть инфа что внедрен в мегафоне.  Говорят  что он хорошо интегрирован со спарком и позволяет писать etl- elt. Заранее спасибо
источник

PK

Pavel Klemenkov in Moscow Spark
источник

PK

Pavel Klemenkov in Moscow Spark
Юху, нас уже 450! 🔥
источник

B

BorkInBerlin in Moscow Spark
🎂
источник

EN

Eldar Nezametdinov in Moscow Spark
источник

A

Aleksey in Moscow Spark
Andrey Tsibulskiy
Коллеги, подскажите кто-нибудь использует oracle odi? Есть инфа что внедрен в мегафоне.  Говорят  что он хорошо интегрирован со спарком и позволяет писать etl- elt. Заранее спасибо
Работал с ним лет 5 назад в контексте задач по хранилищам данных. Вопрос то в чем?
источник

AT

Andrey Tsibulskiy in Moscow Spark
Вопрос его в работе в связке со спарком. У него заявлена такая возможность
источник

AT

Andrey Tsibulskiy in Moscow Spark
С трудов в это верю, но мало ли
источник

A

Aleksey in Moscow Spark
В целом концепция инструмента в том, что он является кодо-генератором и сам трансформации не выполняет (т.е. подход ELT), хотя частично и сам может делать трансформации. В нем есть т.н. Knowledge modules, которые и отвечают за генерацию кода (для конкретной технологии,например, oracle, teradata, spark, etc) и дальнейшего его запуска на выполнение. Т.е. аналогия работы в следующем: если бы вы сами сделали параметризованные различные шаблоны трансформаций (например, шаблон: подключиться к Oracle, взять данные и загрузить из в RDD. В качестве параметров было бы: параметры подключения, название таблички, какие-то параметры Spark, etc) и сделали бы библиотеку таких шаблонов. Естественно там есть мониторинг, безопасность и прочая обвязка.
источник

AP

Alexander Piminov in Moscow Spark
Andrey Tsibulskiy
Коллеги, подскажите кто-нибудь использует oracle odi? Есть инфа что внедрен в мегафоне.  Говорят  что он хорошо интегрирован со спарком и позволяет писать etl- elt. Заранее спасибо
Завязал вовремя ̶с̶ ̶т̶я̶ж̶е̶л̶ы̶м̶и̶ ̶н̶а̶р̶к̶о̶т̶и̶к̶а̶м̶и̶ и не застал. Но если говорить в общем, то более-менее некоробочные задачи (а в случае со Spark jobs они, наверняка, появятся) могут потребовать дописывать KM на птичьем DSL, оно тебе надо?🙂
источник

AP

Anton Pilipenko in Moscow Spark
Andrey Tsibulskiy
Коллеги, подскажите кто-нибудь использует oracle odi? Есть инфа что внедрен в мегафоне.  Говорят  что он хорошо интегрирован со спарком и позволяет писать etl- elt. Заранее спасибо
А если odi натравить на hive + spark engine не поможет?
источник

R

Ruslan in Moscow Spark
Ребят, привет! Никто не сталкивался с подобной проблемой? https://stackoverflow.com/questions/55829961/spark-incorrectly-converts-a-dataset-into-a-dataset-of-json-string
источник

AZ

Alexey Zinoviev in Moscow Spark
Есть ли кто живой на Spark Summit? Пишите, пообщаемся!
источник

AZ

Alexey Zinoviev in Moscow Spark
Область моих интересов на саммите: кишки Spark, новые API, скорость и проблемы использования Spark ML
источник

AZ

Alexey Zinoviev in Moscow Spark
Если кому интересно, подписывайтесь, попощу чего-нибудь с саммита, но там в основном личное мнение, которое может не совпадать с вашим
источник

PK

Pavel Klemenkov in Moscow Spark
Alexey Zinoviev
Если кому интересно, подписывайтесь, попощу чего-нибудь с саммита, но там в основном личное мнение, которое может не совпадать с вашим
Какое catchy название для канала. Даже странно, что так мало подписоты)
источник

AZ

Alexey Zinoviev in Moscow Spark
Pavel Klemenkov
Какое catchy название для канала. Даже странно, что так мало подписоты)
Там в основном мои знакомые и знакомые знакомых, а название - ну вот так исторически сложилось, а я особо не придумал, как переназвать
источник

DB

Dmitry Bugaychenko in Moscow Spark
Anton Alekseev
Сперва нужно отпроцессить длинный фрейм, а потом спивотить (и там происходила посадка из-за большого числа столбцов в результате пивота, но удалось ускорить) тут, к сожалению, без вариантов. Про ванхот не понял, это не категории, зачем он? Да, по поводу мелких задач согласен, но по партициям там и так их всего 5. Я выше код на пастебин прикладывал, там все кэшируется, я это усвоил когда в логах спарк варнинги кидал про перфоманс декриз если не будет кэша))
Пивота точно можно избежать переходя к вектору ДО пивота. Главное правильно стратегию векторизации применить. Пасте бин протух уже 🙁
источник