Size: a a a

2019 September 20

UD

Uncel Duk in Data Engineers
У всей тройки кастомная инфраструктура, в которую было вложено много человеко-лет
источник

UD

Uncel Duk in Data Engineers
которую сложно сравнивать с инсталяцией поверх какого-нибудь висана или классической схд
источник

AZ

Anton Zadorozhniy in Data Engineers
ну конечно это небо и земля, но идеологически подход с транзиент виртуалками / кластерами по запросу (и хранения всего в каком-нибудь айсилоне) вполне можно и в приватное облако перенести
источник

AZ

Anton Zadorozhniy in Data Engineers
главное не пытаться эмулировать бареметал персистент кластера с виртуалками, это просто лишено финансового смысла как на приватным облаках, так и в гугле/амазоне
источник

UD

Uncel Duk in Data Engineers
Anton Zadorozhniy
главное не пытаться эмулировать бареметал персистент кластера с виртуалками, это просто лишено финансового смысла как на приватным облаках, так и в гугле/амазоне
два чая
источник

EL

Evgeny Linnik in Data Engineers
Михаил Королев
Зависит от виртуальных машин. У нас хадуп на них и ок
Это не верно с точки зрения фихической архитектуры и концепции переноса вычислительных ресурсов как можно ближе к точкам хранения информации (одна из основных концепций Hadoop, это полностью убивает смысл в 3-х кратной репликации). По этому, работать будет скорее всего медленнее, чем при аналогичном конфиге на физических машинах. Но в целом - допустимо.
источник

МК

Михаил Королев in Data Engineers
Evgeny Linnik
Это не верно с точки зрения фихической архитектуры и концепции переноса вычислительных ресурсов как можно ближе к точкам хранения информации (одна из основных концепций Hadoop, это полностью убивает смысл в 3-х кратной репликации). По этому, работать будет скорее всего медленнее, чем при аналогичном конфиге на физических машинах. Но в целом - допустимо.
Очень дискуссионный вопрос (про близость к точкам хранения и проч.), если вглядеться, какое железо стоит под всем этим (схд, коммутация и т.п.). Полностью согласен, что на голом железе будет быстрее, но такого голого железа «в розницу» не продают - только стойками.
источник

AZ

Anton Zadorozhniy in Data Engineers
Михаил Королев
Очень дискуссионный вопрос (про близость к точкам хранения и проч.), если вглядеться, какое железо стоит под всем этим (схд, коммутация и т.п.). Полностью согласен, что на голом железе будет быстрее, но такого голого железа «в розницу» не продают - только стойками.
а зачем вам в розницу?
источник

МК

Михаил Королев in Data Engineers
Планирую до конца этого года разобрать эту тему подробнее - как эффективно использовать наши конкретные виртуальные ресурсы (включая фактор репликации, локальность данных, эластичность и т.п.)
источник

AZ

Anton Zadorozhniy in Data Engineers
вы напишите чего хотите, если для экспериментов что-то маленькое и не обязательно быстрое - делайте на том что есть
источник

МК

Михаил Королев in Data Engineers
Anton Zadorozhniy
а зачем вам в розницу?
Мне не надо, у меня есть. Вопрос был не мой, автору, возможно, такого железа не добыть (за разумные деньги). Или так - был бы я ип, не купил бы, дорого (хоть и хорошо)
источник

AZ

Anton Zadorozhniy in Data Engineers
Михаил Королев
Мне не надо, у меня есть. Вопрос был не мой, автору, возможно, такого железа не добыть (за разумные деньги). Или так - был бы я ип, не купил бы, дорого (хоть и хорошо)
пардон, автор действительно замолчал
источник

N

Nikolay in Data Engineers
Просветите , что значит P в кап теореме. Лучше на примерах Кафки.
источник

AB

Anton Balagaev in Data Engineers
Partition tolerance: The system continues to operate despite an arbitrary number of messages being dropped (or delayed) by the network between nodes
источник

AB

Anton Balagaev in Data Engineers
источник

AB

Anton Balagaev in Data Engineers
Если коротко: система распределённая, ноды общаются между собой - координируются, данные пересылают, балансируются. Если что-то в этом процессе идёт не в жёстком тайминге, то система не должна вставать колом.
источник

AF

Anastasia Fatykhova in Data Engineers
Яндекс.Практикум открыл набор в Школу наставников для аналитиков и специалистов по машинному обучению.

Вы научитесь обучать младших специалистов и управлять группой сотрудников. Также разберём, как устроена мотивация и что делать со «сложными» членами команды.

Обучение бесплатное и проходит онлайн с 9 по 20 октября.

Чтобы попасть в Школу необходимо пройти небольшой отбор на сайте до 1 октября. Подробности по ссылке - https://praktikum.yandex.ru/promo/mentors-school#
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikolay
Просветите , что значит P в кап теореме. Лучше на примерах Кафки.
кафка это СР система, это значит что когда сеть падает вы можете продолжать читать и писать пока у вас удовлетворяется условие min in-sync replicas
источник

N

Nikolay in Data Engineers
источник

AZ

Anton Zadorozhniy in Data Engineers
строго говоря она не полностью partition tolerant, но я обсуждал с Кайлом на его тренинге, ее стоит рассматривать как CP пока большинство нод имеют связность
источник