Size: a a a

2016 August 06
DevOps News
На вчерашней конференции Яндекса о Porto был задан коварный вопрос: зачем они там пилят свои велосипеды при наличии опенсорсных аналогов, например докера. Ответ был - когда нам нужны эти инструменты - их еще нет, а когда они появляются - слишком больно переходить.
В Uber, как оказалось, тоже запилено множество in-house решений, а бизнес-логика реализована на Python, Node.js, Go, и Java.

https://eng.uber.com/tech-stack-part-one/
https://eng.uber.com/tech-stack-part-two/
источник
DevOps News
Биографический лонгрид от создателя системы защиты от DDOS Александра Лямина, увидевший свет на прошлой неделе
https://habrahabr.ru/post/306776/

Его конкурент из США CloudFlare рассказывает о своих решениях регулярно, недавний пост о TCP-стеке в Linux он начал с козырей:
"- What is the point of running an operating system at all?"
https://blog.cloudflare.com/why-we-use-the-linux-kernels-tcp-stack/
источник
DevOps News
Неплохая статья про подход GitHub'а к решению проблемы онлайн Alter'ов таблиц в MySQL. Примечателен он тем, что в отличии от pt-online-schema-change базируется не на триггерах, а значит позволяет мигрировать несколько таблиц и работает ощутимо быстрее.
Подробнее в их блоге:
http://githubengineering.com/gh-ost-github-s-online-migration-tool-for-mysql/
источник
DevOps News
И продолжая тему MySQL.
Orchestrator - менеджер топологий для MySQL. Позволяет автоматизировать управление большими кластерами, делаеть автоматический FailOver в случаи падения одного из промежуточных мастеров.
https://www.percona.com/blog/2016/03/08/orchestrator-mysql-replication-topology-manager/
источник
2016 August 07
DevOps News
На днях Netflix выложил в OpenSource свою систему автоматического исправления неисправностей под названием Winston. По сути данная система получает событие, например alert от мониторинга и на базе некоторых заранее определенных правил (runbook'ов) проверяет не является ли оно false-positive, собирает дополнительную информацию и пытается его исправить.
Подробности в их корпоратичном блоге: http://techblog.netflix.com/2016/08/introducing-winston-event-driven.html
источник
2016 August 08
DevOps News
Неплохая статья, в которой автор пытается разобраться зачем Google имплементировал свой протокол (QUIC) с гарантированной доставкой поверх UDP:
https://ma.ttias.be/googles-quic-protocol-moving-web-tcp-udp/
источник
DevOps News
Еще одна статья о том что такое SRE для Google - по большей части похоже на краткий пересказ их SRE Book:
http://highscalability.com/blog/2016/7/18/how-does-google-do-planet-scale-engineering-for-a-planet-sca.html
источник
2016 August 09
DevOps News
Ознакомительный курс о микросервисах, Docker и Kubernetes на Udacity.
Регистрация не нужна, можно сразу смотреть.
https://classroom.udacity.com/courses/ud615
источник
2016 August 10
DevOps News
Netflix опубликовал подробности об архитектуре их сервиса тестирования скорости доступа в интернет (fast.com):
http://techblog.netflix.com/2016/08/building-fastcom.html
источник
DevOps News
Редкий пример отладки реального segfault'а с полными выводами того что написал gdb и объяснениями логики каждого следующего шага:
http://www.brendangregg.com/blog/2016-08-09/gdb-example-ncurses.html
источник
DevOps News
Howto мониторить ваш Kubernetes при помощи Prometheus от CoreOS. К сожалению без каких-либо характеристик производительности, но показывает в целом возможности системы.
https://coreos.com/blog/monitoring-kubernetes-with-prometheus.html
источник
2016 August 12
DevOps News
Какая то неделя новостей про Netflix получается. На днях они опубликовали статью о том, как они релизят новые потенциально популярные фильмы и сериалы. В ней они описывают логику работы своего кэша и системы доставки контента в целом.
http://techblog.netflix.com/2016/08/netflix-and-fill.html
источник
DevOps News
Treasuredata опубликовали интересную статью о распределенном сборе логов с кучи контейнеров.
Статья по большей части про подходы в целом, но есть также немного про конкретные решения.
https://blog.treasuredata.com/blog/2016/08/03/distributed-logging-architecture-in-the-container-era/
источник
DevOps News
Pinterest опубликовал заметку о том, как они делают выгрузку данных из MySQL в S3 для последующего анализа. Примечательно, что на текущий момент они выгружают более 100 ТБ сырых данных в день.
В статье описывается эволюция архитектуры системы выгрузки. К сожалению, это лишь первая статья из серии и обрывается она, как всегда, на самом интересном.
https://engineering.pinterest.com/blog/tracker-ingesting-mysql-data-scale-part-1
источник
DevOps News
Прекрасная история от cloud flare про отладку хитрого бага, который изредка не позволял установить соединение с клиентом.
https://blog.cloudflare.com/this-is-strictly-a-violation-of-the-tcp-specification/
источник
DevOps News
Продолжая пятничный флуд - подробное исследование того, как работает балансировка нагрузки и service discovery в Docker 1.12:
https://sreeninet.wordpress.com/2016/07/29/service-discovery-and-load-balancing-internals-in-docker-1-12/
источник
DevOps News
Видео доклада инженера из RiotGames о использовании докера и дженкинса для автоматизации и контейнеризации сборки. В докладе объясняется как сам подход, так и рассказывается основные проблемы с которыми они столкнулись
:
https://youtu.be/YViFZBoKqjg

И индекс статей на эту же тему:
http://engineering.riotgames.com/news/thinking-inside-container-dockercon-talk-and-story-so-far
источник
DevOps News
Полезный анализ трендов ценообразования у крупнейших поставщиков IaaS (GCN, AWS и другие).
http://redmonk.com/rstephens/2016/08/05/iaas-pricing-patterns-and-trends/
источник
DevOps News
Очень крутая статья, к тому же написанная понятным языком, объясняющая зачем процессору нужно несколько уровней кэша (а также что такое кэш и зачем он нужен):
https://fgiesen.wordpress.com/2016/08/07/why-do-cpus-have-multiple-cache-levels/
источник
2016 August 17
DevOps News
Netflix рассказал про то, как они делали распределению отказоустойчивую очередь для нужд оркестрации микросервисов. Примечательно, что они сознательно решили сделать свое собственное решение, а не использовать Kafka, Amazon AWS и др.
Подробности о том как, зачем и насколько хорошо у них вышло в их блоге:
http://techblog.netflix.com/2016/08/distributed-delay-queues-based-on.html
источник