Телеграмм чат группы moscowspark страница 216

Ну вот в частности был хороший вопрос про EMR. Если выбирать между кубер + spark и EMR, то надо какие-то очень веские причины, чтобы не выбрать второе, а пилить свое from scratch.

источник

22:18пожаловаться #4

GP

Grigory Pomadchin in Moscow Spark

Denis Gabaydulin

Ну вот в частности был хороший вопрос про EMR. Если выбирать между кубер + spark и EMR, то надо какие-то очень веские причины, чтобы не выбрать второе, а пилить свое from scratch.

ну второе не выбирают только когда что-то лонг раннинг (прям очень); большие объемы, или требования по безопасности есть

источник

22:19пожаловаться #5

ЕГ

Евгений Глотов... in Moscow Spark

Denis Gabaydulin

Ну вот в частности был хороший вопрос про EMR. Если выбирать между кубер + spark и EMR, то надо какие-то очень веские причины, чтобы не выбрать второе, а пилить свое from scratch.

Например, законы о персональных данных

источник

22:19пожаловаться #6

PK

Pavel Klemenkov in Moscow Spark

KrivdaTheTriewe

Ребят где афтерпати

В козловне на пушке

источник

22:22пожаловаться #7

С

Сюткин in Moscow Spark

Евгений Глотов

Например, законы о персональных данных

Модель на обезличенных данных обучать 🤔

источник

22:23пожаловаться #8

A

Andrey_Pro in Moscow Spark

Евгений Глотов

Например, законы о персональных данных

Фз 152 и странно что 1f про это не упоминал

источник

22:23пожаловаться #9

K

KrivdaTheTriewe in Moscow Spark

Pavel Klemenkov

В козловне на пушке

Сча приду

источник

22:24пожаловаться #10

A

Andrey_Pro in Moscow Spark

Сюткин

Модель на обезличенных данных обучать 🤔

Обучать да но хранить будь добр в РФ

источник

22:24пожаловаться #11

ЕГ

Евгений Глотов... in Moscow Spark

А если надо обучать модель на продакшене😆

источник

22:25пожаловаться #12

ЕГ

Евгений Глотов... in Moscow Spark

Дообучать/переобучать

источник

22:26пожаловаться #13

A

Anton Lebedevich in Moscow Spark

Denis Gabaydulin

Просто мнение. Не очень понятно откуда взялось утверждение, что тренд на локалити уходит. Я бы сказал наоборот. Базы данных-то как раз (мпп), которые подменяют хадуп-спарк это все суперлокальные решения. Вычисления макс близко к данным. Я так-то хадуп не защищаю, но кажется что спарк в кубере поверх s3, это шаг назад. Уж лучше проприетарная облачная платформа.

во многих ли виденных тобой хадупных кластерах был настроенный и работающий в спарке data locality?

источник

22:27пожаловаться #14

ME

Mikhail Epikhin in Moscow Spark

Сейчас уже быстрая сеть, локалити не нужен

источник

22:28пожаловаться #15

ME

Mikhail Epikhin in Moscow Spark

Он нужен был когда скорость дисков была быстрее сети, сейчас уже не так

источник

22:28пожаловаться #16

ЕГ

Евгений Глотов... in Moscow Spark

Anton Lebedevich

во многих ли виденных тобой хадупных кластерах был настроенный и работающий в спарке data locality?

Он вообще портит ярну жизнь, а ярн собственно в отместку перестаёт выдавать контейнеры в принципе

источник

22:30пожаловаться #17

DG

Denis Gabaydulin in Moscow Spark

А как тут проверишь? Говорят UI врет на эту тему. Но в UI вроде rack aware обычно не сильно большой процент.
Сеть-то она быстрая если дц ваш и там больше никого нет и ваши же инженеры ее строили. А если там полно других кластеров, я не сильно верю что квоты спасут.

источник

22:30пожаловаться #18

ME

Mikhail Epikhin in Moscow Spark

Denis Gabaydulin

А как тут проверишь? Говорят UI врет на эту тему. Но в UI вроде rack aware обычно не сильно большой процент.
Сеть-то она быстрая если дц ваш и там больше никого нет и ваши же инженеры ее строили. А если там полно других кластеров, я не сильно верю что квоты спасут.

Ну надо сравнивать, но вообще EMR на EBS поднимается, так что в чем разница? Ну и просто перед сетевым хранилищем сильнее сжимать и все

источник

22:34пожаловаться #19

ME

Mikhail Epikhin in Moscow Spark

Класть в с3 и не думать про хдфс вообще

источник

22:34пожаловаться #20