Size: a a a

2019 November 21

ЕГ

Евгений Глотов... in Moscow Spark
Хотя микрософт замахнулись вроде на всё
источник

ЕГ

Евгений Глотов... in Moscow Spark
Я неглубоко копал mmlspark
источник

ЕГ

Евгений Глотов... in Moscow Spark
[Потому что пип инсталл не взлетел]😆
источник

DG

Denis Gabaydulin in Moscow Spark
Ну вот в частности был хороший вопрос про EMR. Если выбирать между кубер + spark и EMR, то надо какие-то очень веские причины, чтобы не выбрать второе, а пилить свое from scratch.
источник

GP

Grigory Pomadchin in Moscow Spark
Denis Gabaydulin
Ну вот в частности был хороший вопрос про EMR. Если выбирать между кубер + spark и EMR, то надо какие-то очень веские причины, чтобы не выбрать второе, а пилить свое from scratch.
ну второе не выбирают только когда что-то лонг раннинг (прям очень); большие объемы, или требования по безопасности есть
источник

ЕГ

Евгений Глотов... in Moscow Spark
Denis Gabaydulin
Ну вот в частности был хороший вопрос про EMR. Если выбирать между кубер + spark и EMR, то надо какие-то очень веские причины, чтобы не выбрать второе, а пилить свое from scratch.
Например, законы о персональных данных
источник

PK

Pavel Klemenkov in Moscow Spark
KrivdaTheTriewe
Ребят где афтерпати
В козловне на пушке
источник

С

Сюткин in Moscow Spark
Евгений Глотов
Например, законы о персональных данных
Модель на обезличенных данных обучать 🤔
источник

A

Andrey_Pro in Moscow Spark
Евгений Глотов
Например, законы о персональных данных
Фз 152 и странно что 1f про это не упоминал
источник

K

KrivdaTheTriewe in Moscow Spark
Pavel Klemenkov
В козловне на пушке
Сча приду
источник

A

Andrey_Pro in Moscow Spark
Сюткин
Модель на обезличенных данных обучать 🤔
Обучать да но хранить будь добр в РФ
источник

ЕГ

Евгений Глотов... in Moscow Spark
А если надо обучать модель на продакшене😆
источник

ЕГ

Евгений Глотов... in Moscow Spark
Дообучать/переобучать
источник

A

Anton Lebedevich in Moscow Spark
Denis Gabaydulin
Просто мнение. Не очень понятно откуда взялось утверждение, что тренд на локалити уходит. Я бы сказал наоборот. Базы данных-то как раз (мпп), которые подменяют хадуп-спарк это все суперлокальные решения. Вычисления макс близко к данным. Я так-то хадуп не защищаю, но кажется что спарк в кубере поверх s3, это шаг назад. Уж лучше проприетарная облачная платформа.
во многих ли виденных тобой хадупных кластерах был настроенный и работающий в спарке data locality?
источник

ME

Mikhail Epikhin in Moscow Spark
Сейчас уже быстрая сеть, локалити не нужен
источник

ME

Mikhail Epikhin in Moscow Spark
Он нужен был когда скорость дисков была быстрее сети, сейчас уже не так
источник

ЕГ

Евгений Глотов... in Moscow Spark
Anton Lebedevich
во многих ли виденных тобой хадупных кластерах был настроенный и работающий в спарке data locality?
Он вообще портит ярну жизнь, а ярн собственно в отместку перестаёт выдавать контейнеры в принципе
источник

DG

Denis Gabaydulin in Moscow Spark
А как тут проверишь? Говорят UI врет на эту тему. Но в UI вроде rack aware обычно не сильно большой процент.
Сеть-то она быстрая если дц ваш и там больше никого нет и ваши же инженеры ее строили. А если там полно других кластеров, я не сильно верю что квоты спасут.
источник

ME

Mikhail Epikhin in Moscow Spark
Denis Gabaydulin
А как тут проверишь? Говорят UI врет на эту тему. Но в UI вроде rack aware обычно не сильно большой процент.
Сеть-то она быстрая если дц ваш и там больше никого нет и ваши же инженеры ее строили. А если там полно других кластеров, я не сильно верю что квоты спасут.
Ну надо сравнивать, но вообще EMR на EBS поднимается, так что в чем разница? Ну и просто перед сетевым хранилищем сильнее сжимать и все
источник

ME

Mikhail Epikhin in Moscow Spark
Класть в с3 и не думать про хдфс вообще
источник