Size: a a a

2020 March 31

AZ

Anton Zadorozhniy in Data Engineers
И вообще какое-то неинженерное вознесение спарка, это популярный тул для написания пакетной логики над данными в объектном сторадже и (сильно хуже) в стриминге, но у него же море проблем: нет своего каталога и беда со статистикой от этого (и тормоза на ad-hoc analytics), отношения на Вы с ресурсными менеджерами (отсюда проблемы с памятью и преемпшеном, в том числе беда с интеграционным задачами) и не говоря про метаданные и модель безопасности самого движка (column/row level security?); нормальный инструмент чтобы вытеснить Pig/Hive для пакетных задач, но не более того..
источник

K

KrivdaTheTriewe in Data Engineers
Anton Zadorozhniy
И вообще какое-то неинженерное вознесение спарка, это популярный тул для написания пакетной логики над данными в объектном сторадже и (сильно хуже) в стриминге, но у него же море проблем: нет своего каталога и беда со статистикой от этого (и тормоза на ad-hoc analytics), отношения на Вы с ресурсными менеджерами (отсюда проблемы с памятью и преемпшеном, в том числе беда с интеграционным задачами) и не говоря про метаданные и модель безопасности самого движка (column/row level security?); нормальный инструмент чтобы вытеснить Pig/Hive для пакетных задач, но не более того..
умеет хайвовым каталогом пользоваться
источник

K

KrivdaTheTriewe in Data Engineers
Anton Zadorozhniy
И вообще какое-то неинженерное вознесение спарка, это популярный тул для написания пакетной логики над данными в объектном сторадже и (сильно хуже) в стриминге, но у него же море проблем: нет своего каталога и беда со статистикой от этого (и тормоза на ad-hoc analytics), отношения на Вы с ресурсными менеджерами (отсюда проблемы с памятью и преемпшеном, в том числе беда с интеграционным задачами) и не говоря про метаданные и модель безопасности самого движка (column/row level security?); нормальный инструмент чтобы вытеснить Pig/Hive для пакетных задач, но не более того..
из ресурс менеджеров, он же практически все поддерживает
источник

K

KrivdaTheTriewe in Data Engineers
что есть на рынке
источник

K

KrivdaTheTriewe in Data Engineers
спарк - фреймворк, а не продукт
источник

GP

Grigory Pomadchin in Data Engineers
KrivdaTheTriewe
спарк - фреймворк, а не продукт
да, главное всегда помнить об этом, плюсую
источник

DM

Daniel Matveev in Data Engineers
Anton Zadorozhniy
И вообще какое-то неинженерное вознесение спарка, это популярный тул для написания пакетной логики над данными в объектном сторадже и (сильно хуже) в стриминге, но у него же море проблем: нет своего каталога и беда со статистикой от этого (и тормоза на ad-hoc analytics), отношения на Вы с ресурсными менеджерами (отсюда проблемы с памятью и преемпшеном, в том числе беда с интеграционным задачами) и не говоря про метаданные и модель безопасности самого движка (column/row level security?); нормальный инструмент чтобы вытеснить Pig/Hive для пакетных задач, но не более того..
+
источник

AZ

Anton Zadorozhniy in Data Engineers
KrivdaTheTriewe
умеет хайвовым каталогом пользоваться
разве это хорошее решение? тяжелая зависимость, постоянно отстает по версиям, пользователя нужно ограждать от тех фич хайва которые спарк не поддерживает, и ничего поверх этого каталога спарк не делает
источник

AZ

Anton Zadorozhniy in Data Engineers
KrivdaTheTriewe
из ресурс менеджеров, он же практически все поддерживает
я не писал что он не поддерживает, я написал что "на Вы", то есть работа по настройке конкретного приложения на конкретный менеджер ложится на пользователя: как запросить памяти и ядер так чтобы их оптимально использовать, как избежать OoM или preemption там где логика приложения его не допускает..
источник

AZ

Anton Zadorozhniy in Data Engineers
KrivdaTheTriewe
спарк - фреймворк, а не продукт
так и хайв и престо это фреймворки, в чем поинт то?
источник

GP

Grigory Pomadchin in Data Engineers
я ток не понимаю, чем концептуально хайв лучше спарка или о чем у вас разговор?
источник

GP

Grigory Pomadchin in Data Engineers
шо то шо то одного поля ягоды
источник

DM

Daniel Matveev in Data Engineers
Grigory Pomadchin
я ток не понимаю, чем концептуально хайв лучше спарка или о чем у вас разговор?
никто ж не топит за хайв
источник

AZ

Anton Zadorozhniy in Data Engineers
Grigory Pomadchin
я ток не понимаю, чем концептуально хайв лучше спарка или о чем у вас разговор?
разговор про какое-то не очень техническое коленопреклонение перед спарком, я пытаюсь показать что это просто один из инструментов, а не the best thing since sliced bread
источник

GP

Grigory Pomadchin in Data Engineers
Daniel Matveev
никто ж не топит за хайв
надеюсь
источник

GP

Grigory Pomadchin in Data Engineers
источник

GP

Grigory Pomadchin in Data Engineers
Anton Zadorozhniy
разговор про какое-то не очень техническое коленопреклонение перед спарком, я пытаюсь показать что это просто один из инструментов, а не the best thing since sliced bread
ну мы ж инженеры; сильные мнения пфф
источник

N

Nikolay in Data Engineers
Использование спарка в каких то случаях может быть и не оптимально , но эта оптимальность не всегда нужна. Зато это сильно упрощает архитектуру системы т.к именьшает количество компонент.
источник

t

tenKe in Data Engineers
зачем удалили, вопрос вроде про биг дату был
источник

GP

Grigory Pomadchin in Data Engineers
tenKe
зачем удалили, вопрос вроде про биг дату был
Проверил, маленькая дата
источник