Size: a a a

Архитектура данных

2020 December 15

GK

Gennadiy Kruglov in Архитектура данных
No Name
Тогда уж мозг в облако
Питон в мозг, а мозг в облако
источник

A

Aleksey in Архитектура данных
er@essbase.ru
Я чё - я за архитектуру БигДаты  поболтать))
Вот чего не хватает , мне как ораклоиду - наличие единого фреймворка для всего, и что бы таблички посмотреть и файлики полистать и код пошуршать. Постоянно на каждый чих нужно запускать что то свое. Или я не прав ? И есть под хадууп утилиты схожие хотя бы с  Oracle Sql Explorer ?
spark-shell?
источник

RM

Rustem Mannanov in Архитектура данных
er@essbase.ru
Я чё - я за архитектуру БигДаты  поболтать))
Вот чего не хватает , мне как ораклоиду - наличие единого фреймворка для всего, и что бы таблички посмотреть и файлики полистать и код пошуршать. Постоянно на каждый чих нужно запускать что то свое. Или я не прав ? И есть под хадууп утилиты схожие хотя бы с  Oracle Sql Explorer ?
Jupyter, hue, Zeppelin?
источник

e

er@essbase.ru in Архитектура данных
Переслано от Mikhail Kumachev
Друзья!

В преддверии Нового Года мы проведем праздничный митап DE or DIE #5.

Дата и время: 24 декабря 18:00–20:30
Формат: Онлайн

В нашей программе:
1. Дмитрий Шалин, Data Engineer, СБЕР — расскажет про построение Data Lake в сжатые сроки в условиях стартапа.

2. Андрей Титов, Senior Spark Engineer, NVIDIA — использование Scala UDF в PySpark Structured Streaming API.

Зарегистрироваться можно по ссылке: https://deordie.timepad.ru/event/1508656/

Всех с Наступающим Новым Годом! Ждем вас на митапе!
источник
2020 December 18

e

er@essbase.ru in Архитектура данных
Vitaly Pismarev
А не так что вот моя хата и мне пофиг что у соседей.
YouTube
DE or DIE #2. Денис Хуртин – Как устроена платформа управления данными в Яндекс.Маркет?
Материалы всех наших митапов доступны на GitHub: https://github.com/deordie/deordie-meetups
Наш чат в Telegram: https://t.me/deordie_chat
Новые события сообщества DE or DIE: https://deordie.timepad.ru/events/

Автор доклада: Денис Хуртин, руководитель разработки DMP, Яндекс.Маркет.

Группа компаний Яндекс.Маркет — экосистема, которая состоит из сервиса для выбора товаров Яндекс.Маркет, маркетплейса Беру со своей сетью постаматов и различных экспериментов (агрегатора служб доставки Яндекс.Доставка и сервиса для бизнеса Яндекс.Маркет Аналитика). При активном развитии требуются надежные инструменты, позволяющие анализировать, насколько эффективно сервисы решают задачи своих пользователей, а также повышающие эту эффективность с помощью моделирования, ML и др. Сбором и подготовкой данных для этих инструментов занимается Служба разработки платформы управления данными Маркета.
В своем докладе Денис расскажет, с какими проблемами сталкивались при создании своей платформы управления данными (DMP), какую архитектуру выбрали…
источник
2020 December 19

I

Ilya in Архитектура данных
Коллеги, развернулась у нас дискуссия относительно landing layer. Использовать централизованный слой для сырых данных, или для каждого дата продукта делать свой?
источник

GK

Gennadiy Kruglov in Архитектура данных
Ilya
Коллеги, развернулась у нас дискуссия относительно landing layer. Использовать централизованный слой для сырых данных, или для каждого дата продукта делать свой?
Зависит от ситуации. Можно иметь и централизованный, и для каких-то продуктов отдельные (индивидуальные)

Централизованный точно нужен для кроссдоменных продуктов.
источник

GK

Gennadiy Kruglov in Архитектура данных
Условно, если данные шерить не нужно с другими доменами/продуктами и/или нужна гибкость, независимое бюджетирование, особые требования к безопасности, регуляторка и т.п., то  индивидуальный (data pond) - хорошее решение. Но это не отменяет наличие параллельно централизованного озера данных
источник

I

Ilya in Архитектура данных
Gennadiy Kruglov
Условно, если данные шерить не нужно с другими доменами/продуктами и/или нужна гибкость, независимое бюджетирование, особые требования к безопасности, регуляторка и т.п., то  индивидуальный (data pond) - хорошее решение. Но это не отменяет наличие параллельно централизованного озера данных
Спасибо. Я тоже думаю в данном направлении. Посадочный слой, это только первый этап. После предварительной очистки мы собираемся все сливать в дата озеро. Хотя, я сейчас с интересом смотрю на идею дата-мешей. Т.е. в любом случае будет общий сервисный слой, с системой авторизации, логирования и поиска по метаданными. Но для каждого из продуктов своя посадочная зона, elt и возможно, озеро.
источник

GK

Gennadiy Kruglov in Архитектура данных
Ilya
Спасибо. Я тоже думаю в данном направлении. Посадочный слой, это только первый этап. После предварительной очистки мы собираемся все сливать в дата озеро. Хотя, я сейчас с интересом смотрю на идею дата-мешей. Т.е. в любом случае будет общий сервисный слой, с системой авторизации, логирования и поиска по метаданными. Но для каждого из продуктов своя посадочная зона, elt и возможно, озеро.
Да, за концепцией дата-мэша будущее
источник

I

Ilya in Архитектура данных
Gennadiy Kruglov
Да, за концепцией дата-мэша будущее
Ну, тут основная проблема в создании дата инфраструктуры которая сможет поддерживать децентрализованную модель работы с данными
источник

e

er@essbase.ru in Архитектура данных
Ilya
Ну, тут основная проблема в создании дата инфраструктуры которая сможет поддерживать децентрализованную модель работы с данными
Т.е. без единого каталога описания моделей не обойтись и по сути внедрять нужно только его ) - а куда ходить за данными дело десятое , так как это всего лишь вопрос коннекта.

(так как все переходят на BigData архитектуру , где не важно какой источник с каким джойнить)
источник

I

Ilya in Архитектура данных
er@essbase.ru
Т.е. без единого каталога описания моделей не обойтись и по сути внедрять нужно только его ) - а куда ходить за данными дело десятое , так как это всего лишь вопрос коннекта.

(так как все переходят на BigData архитектуру , где не важно какой источник с каким джойнить)
Ох. Если бы только каталог. К нему надо и поиск и какой-то дисковери и контроль доступа а там и мониторинг и логингом.
источник

e

er@essbase.ru in Архитектура данных
Большие данные -  большие проблемы 😂
и  доступ к такому согласовывают по полгода - так что все остальное , по сравнению с болью от ИБ , просто легкий ветерок
источник

I

Ilya in Архитектура данных
er@essbase.ru
Большие данные -  большие проблемы 😂
и  доступ к такому согласовывают по полгода - так что все остальное , по сравнению с болью от ИБ , просто легкий ветерок
Та да. Можно еще навернуть управление политиками ИБ. И прочие рюши. Так что иногда серьезно задумываюсь - стоит ли игра свеч
источник

e

er@essbase.ru in Архитектура данных
Машина должна ездить. Бассейн сверху не обязателен
источник

GK

Gennadiy Kruglov in Архитектура данных
Ilya
Ну, тут основная проблема в создании дата инфраструктуры которая сможет поддерживать децентрализованную модель работы с данными
Да. В создании всегда основная проблема
источник
2020 December 21

CO

Chern Oleksander in Архитектура данных
Всем привет, а не подскажите как называется связь между объектами, которая используется в биткоин.
Знаю что сохранения ссылки на пред обьект было разработана еще в 50х годах.

С человеком сейчас спорю, но чет с головы вылетило как правильно у гугла спросить "Типы связей" вроде как не находит )
источник

Д

Денис in Архитектура данных
Chern Oleksander
Всем привет, а не подскажите как называется связь между объектами, которая используется в биткоин.
Знаю что сохранения ссылки на пред обьект было разработана еще в 50х годах.

С человеком сейчас спорю, но чет с головы вылетило как правильно у гугла спросить "Типы связей" вроде как не находит )
Связный список
источник

CO

Chern Oleksander in Архитектура данных
Денис
Связный список
Точняк, спасибо!
источник