Телеграмм чат группы moscowspark страница 121

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп: 1613

каналов: 2412

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

872 membersпожаловаться на группу

2019 April 24

AA

Anton Alekseev in Moscow Spark

Denis Gabaydulin

На датафесте буду чуть-чуть об этом говорить.
Если кратко, то мы используем схему с completablefuture (треды).
На 1-1.5 ядер (256/384 *4) считаем в 8-16 потоков и получаем почти линейное ускорение рассчета истории.
Ключевое:
* рассчеты должны быть независимы
* ресурсов должно быть достаточно

Датафест - это который в мае в Мск?

источник

09:37пожаловаться #1

DG

Denis Gabaydulin in Moscow Spark

Да.

источник

09:37пожаловаться #2

AT

Andrey Tsibulskiy in Moscow Spark

Коллеги, подскажите кто-нибудь использует oracle odi? Есть инфа что внедрен в мегафоне. Говорят что он хорошо интегрирован со спарком и позволяет писать etl- elt. Заранее спасибо

источник

11:19пожаловаться #3

PK

Pavel Klemenkov in Moscow Spark

источник

11:21пожаловаться #4

PK

Pavel Klemenkov in Moscow Spark

Юху, нас уже 450! 🔥

источник

11:21пожаловаться #5

B

BorkInBerlin in Moscow Spark

🎂

источник

11:23пожаловаться #6

EN

Eldar Nezametdinov in Moscow Spark

источник

11:29пожаловаться #7

A

Aleksey in Moscow Spark

Andrey Tsibulskiy

Коллеги, подскажите кто-нибудь использует oracle odi? Есть инфа что внедрен в мегафоне. Говорят что он хорошо интегрирован со спарком и позволяет писать etl- elt. Заранее спасибо

Работал с ним лет 5 назад в контексте задач по хранилищам данных. Вопрос то в чем?

источник

11:53пожаловаться #8

AT

Andrey Tsibulskiy in Moscow Spark

Вопрос его в работе в связке со спарком. У него заявлена такая возможность

источник

11:58пожаловаться #9

AT

Andrey Tsibulskiy in Moscow Spark

С трудов в это верю, но мало ли

источник

11:58пожаловаться #10

A

Aleksey in Moscow Spark

В целом концепция инструмента в том, что он является кодо-генератором и сам трансформации не выполняет (т.е. подход ELT), хотя частично и сам может делать трансформации. В нем есть т.н. Knowledge modules, которые и отвечают за генерацию кода (для конкретной технологии,например, oracle, teradata, spark, etc) и дальнейшего его запуска на выполнение. Т.е. аналогия работы в следующем: если бы вы сами сделали параметризованные различные шаблоны трансформаций (например, шаблон: подключиться к Oracle, взять данные и загрузить из в RDD. В качестве параметров было бы: параметры подключения, название таблички, какие-то параметры Spark, etc) и сделали бы библиотеку таких шаблонов. Естественно там есть мониторинг, безопасность и прочая обвязка.

источник

12:09пожаловаться #11

AP

Alexander Piminov in Moscow Spark

Andrey Tsibulskiy

Коллеги, подскажите кто-нибудь использует oracle odi? Есть инфа что внедрен в мегафоне. Говорят что он хорошо интегрирован со спарком и позволяет писать etl- elt. Заранее спасибо

Завязал вовремя ̶с̶ ̶т̶я̶ж̶е̶л̶ы̶м̶и̶ ̶н̶а̶р̶к̶о̶т̶и̶к̶а̶м̶и̶ и не застал. Но если говорить в общем, то более-менее некоробочные задачи (а в случае со Spark jobs они, наверняка, появятся) могут потребовать дописывать KM на птичьем DSL, оно тебе надо?🙂

источник

12:17пожаловаться #12

AP

Anton Pilipenko in Moscow Spark

Andrey Tsibulskiy

Коллеги, подскажите кто-нибудь использует oracle odi? Есть инфа что внедрен в мегафоне. Говорят что он хорошо интегрирован со спарком и позволяет писать etl- elt. Заранее спасибо

А если odi натравить на hive + spark engine не поможет?

источник

13:09пожаловаться #13

R

Ruslan in Moscow Spark

Ребят, привет! Никто не сталкивался с подобной проблемой? https://stackoverflow.com/questions/55829961/spark-incorrectly-converts-a-dataset-into-a-dataset-of-json-string

Spark incorrectly converts a dataset into a dataset of JSON string

I've came across an odd behavior of Apache Spark.
The problem is that I am getting wrong JSON representation of my source dataset when I'm using toJson() method.
To explain problem in more detail,

источник

15:32пожаловаться #14

AZ

Alexey Zinoviev in Moscow Spark

Есть ли кто живой на Spark Summit? Пишите, пообщаемся!

источник

18:41пожаловаться #15

AZ

Alexey Zinoviev in Moscow Spark

Область моих интересов на саммите: кишки Spark, новые API, скорость и проблемы использования Spark ML

источник

18:47пожаловаться #16

AZ

Alexey Zinoviev in Moscow Spark

Если кому интересно, подписывайтесь, попощу чего-нибудь с саммита, но там в основном личное мнение, которое может не совпадать с вашим

источник

18:48пожаловаться #17

PK

Pavel Klemenkov in Moscow Spark

Alexey Zinoviev

Если кому интересно, подписывайтесь, попощу чего-нибудь с саммита, но там в основном личное мнение, которое может не совпадать с вашим

Какое catchy название для канала. Даже странно, что так мало подписоты)

источник

19:06пожаловаться #18

AZ

Alexey Zinoviev in Moscow Spark

Pavel Klemenkov

Какое catchy название для канала. Даже странно, что так мало подписоты)

Там в основном мои знакомые и знакомые знакомых, а название - ну вот так исторически сложилось, а я особо не придумал, как переназвать

источник

19:08пожаловаться #19

DB

Dmitry Bugaychenko in Moscow Spark

Anton Alekseev

Сперва нужно отпроцессить длинный фрейм, а потом спивотить (и там происходила посадка из-за большого числа столбцов в результате пивота, но удалось ускорить) тут, к сожалению, без вариантов. Про ванхот не понял, это не категории, зачем он? Да, по поводу мелких задач согласен, но по партициям там и так их всего 5. Я выше код на пастебин прикладывал, там все кэшируется, я это усвоил когда в логах спарк варнинги кидал про перфоманс декриз если не будет кэша))

Пивота точно можно избежать переходя к вектору ДО пивота. Главное правильно стратегию векторизации применить. Пасте бин протух уже 🙁

источник

19:50пожаловаться #20