Size: a a a

Архитектура данных

2018 July 08

АХ

Антон Хасин in Архитектура данных
er@essbase.ru
отсюда не видно )) для вас это + или - ?
Без деталей вряд ли можно четко сформулировать)
источник

e

er@essbase.ru in Архитектура данных
Антон Хасин
Имхо, почему бы и нет. Если есть ресурсы в источниках/приемниках. А команде Etl всегда есть чем заняться
т.е. для быстрого прототипирования пойдет  ?  а потом переделать если сильно захочется ?
источник

АХ

Антон Хасин in Архитектура данных
er@essbase.ru
т.е. для быстрого прототипирования пойдет  ?  а потом переделать если сильно захочется ?
Да, так. Быстрый запуск с заделом на более гибкую конструкцию в будущем
источник

PG

Paul Golubev in Архитектура данных
У меня всегда была позиция elt, поэтому неплохой вариант, главное чтобы концы найти именно из etl средства
источник

PG

Paul Golubev in Архитектура данных
А есть например Oracle di - у него именно такой подход
источник

e

er@essbase.ru in Архитектура данных
Paul Golubev
У меня всегда была позиция elt, поэтому неплохой вариант, главное чтобы концы найти именно из etl средства
окей спасибо за аргумент )
источник

MV

Mitya Volodin in Архитектура данных
er@essbase.ru
о да - меня как кодера забавляют графические тулы ;)
  ищу им правильное применение 😂
- единсвтенный минус с подходм через вью (то что очевидно )  - это то что логика размазана по нескольким системам
Ну у меня тогда вопросы:
* Как ты будешь версионировать ETL джобы, если ты включаешь в них структуру VIEW?
* Что планируется делать, если у тебя один из источников - файл.
* Что за база, если она не OLTP, то как лицензируется и готов ли ты хранить весь промежуточный шлак в СУБД. А если она OLTP - готов ли терпеть просадки по производительности и локауты.
источник

MV

Mitya Volodin in Архитектура данных
В догонку к версионированию - миграция между средами dev/test/prod. Тоже - как? И как вести разработку пересекающихся по контексту джобов в одной среде
источник

e

er@essbase.ru in Архитектура данных
О.  Теперь лучше понятно ;)  Спасибо !
источник

PG

Paul Golubev in Архитектура данных
Mitya Volodin
Ну у меня тогда вопросы:
* Как ты будешь версионировать ETL джобы, если ты включаешь в них структуру VIEW?
* Что планируется делать, если у тебя один из источников - файл.
* Что за база, если она не OLTP, то как лицензируется и готов ли ты хранить весь промежуточный шлак в СУБД. А если она OLTP - готов ли терпеть просадки по производительности и локауты.
Вообще конечно писать код непосредственно лучше только если это даст большой выхлоп производительности, и если недоступна pushdown оптимизация, то это, так скажем, ручной вариант)
источник

PG

Paul Golubev in Архитектура данных
А насчёт версионирования и т.д. - ничем не отличается от любой другой платформы, в некоторых есть даже встроенные
источник

MV

Mitya Volodin in Архитектура данных
На самом деле у нас был рабочий подход с VIEW, но только view'хи создавал сам ELT тул. Т.е. джоб при выполнении понимал что ему нужно достать, создавал вьюху временную и из неё лил. Но это делалось внутри ELT, а не отдельно
источник

MV

Mitya Volodin in Архитектура данных
ПОэтому версионирование вполне работало ) И миграция тоже
источник

e

er@essbase.ru in Архитектура данных
источник

DT

Denis Troyan in Архитектура данных
Есть необходимость в near-online вычитывать json tuple данные из кафки, процессить их немного и писать в mysql. Суть - выдергивать из логов эвенты, и сохранять их в подходящем для sql-запроса формате в mysql. Думаю попробовать spark streaming в java реализации. Кто знает про подводные камни, или может предложить вариант проще/лучше?
источник

AS

Andrey Shevchenko in Архитектура данных
Denis Troyan
Есть необходимость в near-online вычитывать json tuple данные из кафки, процессить их немного и писать в mysql. Суть - выдергивать из логов эвенты, и сохранять их в подходящем для sql-запроса формате в mysql. Думаю попробовать spark streaming в java реализации. Кто знает про подводные камни, или может предложить вариант проще/лучше?
Скорость поступления данных?
источник

AS

Andrey Shevchenko in Архитектура данных
А то узким местом вполне может оказаться запись в mysql
источник

DT

Denis Troyan in Архитектура данных
<= 7k записей/сек на вход, <= 1k записей на выход
источник

DT

Denis Troyan in Архитектура данных
mysql такое терпит
источник

AS

Andrey Shevchenko in Архитектура данных
Тогда никаких
источник