Телеграмм чат группы hadoopusers страница 3324

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

2335 membersпожаловаться на группу

2021 March 05

AS

Andrey Smirnov in Data Engineers

1) Потому что затаскивали нормально его долго. Вот жира таска сборная, в рамках которой это делали:
https://issues.apache.org/jira/browse/HIVE-7292
и делали это много лет, и как я понимаю, все ещё до конца не доделали.
2) Часто видел инфу о том, что hive on spark - это очень не стабильно.
3) Мой личный опыт - были попытка перейти с tez движка на spark движок на свежих версиях hive. В итоге на спарк движке некоторые запросы вылетали с OOM.
4) Обновления спарка в этот движок затаскивались с большим лагом, т.е. там реально долго был спарк 1.6, когда уже вовсю на 2.х жили люди.

там события 2017 года, еще для spark 1

источник

11:10пожаловаться #1

P

Pavel in Data Engineers

Ну это лишь в одном из направлений.
Вообще ещё athena(и аналоги в azure и google cloud), presto, а кто - то на гринпламе.
Кто - то на редшифте. По - разному, короче.

У всех свои извращения)

источник

11:10пожаловаться #2

R

Roman in Data Engineers

hive все же бд, у нее есть буферный кэш (в новых версиях), есть общая история всех запросов (может появятся какието инструменты для управления планами). До spark 3, в hive уже были join predicate pushdown,
Число контейнеров для reduce определяется автоматом, файлы на выходе мержатся, если их много, бакетирование на уровне метастора для таблиц, который можно перееиспользовать, автовыделение ресурсов под запрос

буферный кеш - это вы про llap?

источник

11:13пожаловаться #3

А

Алексей in Data Engineers

буферный кеш - это вы про llap?

да

источник

11:13пожаловаться #4

D

Dmitry in Data Engineers

Anton Zadorozhniy

кмк подход как у Feast или Tecton, когда всех кто наполняют feature store пытаются забрить в какой-то фиксированный фреймворк для запихивания пайплайнов - это утопия

а как иначе ? если каждый будет тащить так как ему показалось правильно, то и на выходе же будет шлак, который кому-то когда-то показалось правильным но уже многие годы тащит мусор

источник

12:33пожаловаться #5

D

Dmitry in Data Engineers

Андрей Романов

кстати, а кто-нибудь сейчас пользуется импалой?

какие у нее сценарии использования?

мы используем что бы аналитики смотрели на data lake и как jdbc интерфейс тому кто данные выкачивает. получается не очень, постоянно что-то падает с нехваткой памяти

источник

12:37пожаловаться #6

АР

Андрей Романов... in Data Engineers

мы используем что бы аналитики смотрели на data lake и как jdbc интерфейс тому кто данные выкачивает. получается не очень, постоянно что-то падает с нехваткой памяти

понял принял спасибо!

источник

12:38пожаловаться #7

I

Igor Master in Data Engineers

Anton Zadorozhniy

кмк подход как у Feast или Tecton, когда всех кто наполняют feature store пытаются забрить в какой-то фиксированный фреймворк для запихивания пайплайнов - это утопия

А что есть фича стор? Можете кто-то нубу ссылку на медиум хорошую дать?

источник

13:01пожаловаться #8

AZ

Anton Zadorozhniy in Data Engineers

А что есть фича стор? Можете кто-то нубу ссылку на медиум хорошую дать?

вот хороший обзор https://feast.dev/post/what-is-a-feature-store/

What is a Feature Store?

Increasingly Data Science and Data Engineering teams are turning towards feature stores to manage the data sets and data pipelines needed to productionize their ML applications.

источник

13:04пожаловаться #9

AZ

Anton Zadorozhniy in Data Engineers

а как иначе ? если каждый будет тащить так как ему показалось правильно, то и на выходе же будет шлак, который кому-то когда-то показалось правильным но уже многие годы тащит мусор

я думаю что возможность поставлять данные из разных мест не значит что надо обязательно шлак поставлять; с другой стороны попытка сделать god framework для всех во-первых, создает узкое место (эти самые разработчики фреймворка), и во-вторых толкает людей которых разработчики фреймворка обидели в сторону shadow IT

источник

13:08пожаловаться #10

R

Roman in Data Engineers

Anton Zadorozhniy

я думаю что возможность поставлять данные из разных мест не значит что надо обязательно шлак поставлять; с другой стороны попытка сделать god framework для всех во-первых, создает узкое место (эти самые разработчики фреймворка), и во-вторых толкает людей которых разработчики фреймворка обидели в сторону shadow IT

"в сторону shadow IT" - под этим вы имеете виду обходные пути, которые нарушают как бы политики компании, но позволяют получить требуемый результат?)
Типа как теневая экономика, только теневая разработка? :)

источник

13:10пожаловаться #11

AZ

Anton Zadorozhniy in Data Engineers

"в сторону shadow IT" - под этим вы имеете виду обходные пути, которые нарушают как бы политики компании, но позволяют получить требуемый результат?)
Типа как теневая экономика, только теневая разработка? :)

да, это вообще старый отраслевой термин, мне казалось все знакомы с ним https://en.wikipedia.org/wiki/Shadow_IT

In big organizations, shadow IT (also known as embedded IT, fake IT, stealth IT, rogue IT, feral IT, or client IT) refers to information technology (IT) systems deployed by departments other than the central IT department, to work around the shortcomings of the central information systems.

источник

13:11пожаловаться #12

D

Dmitry in Data Engineers

Anton Zadorozhniy

я думаю что возможность поставлять данные из разных мест не значит что надо обязательно шлак поставлять; с другой стороны попытка сделать god framework для всех во-первых, создает узкое место (эти самые разработчики фреймворка), и во-вторых толкает людей которых разработчики фреймворка обидели в сторону shadow IT

просто если у сатаниста будет возможность самому решать какие поставлять данные в feature store то начнется полная анархия. первый сатанист решает конкретную проблему, конкретной страны, соответственно засунет так как ему удобно. второй, из соседней страны, это переиспользовать не сможет, а будет изобретать свой велосипед заточенный на свою страну. если им позволено тащить как им нравится, никакого резона какое-то общее решение воротить нет.

источник

13:16пожаловаться #13

D

Dmitry in Data Engineers

у нас во всяком случае именно так все происходило и никакие рисованные на бумажке процессы не помогали, если можно сделать побыстрому, всегда найдутся оправдания сделать побыстрому

источник

13:18пожаловаться #14

AZ

Anton Zadorozhniy in Data Engineers

просто если у сатаниста будет возможность самому решать какие поставлять данные в feature store то начнется полная анархия. первый сатанист решает конкретную проблему, конкретной страны, соответственно засунет так как ему удобно. второй, из соседней страны, это переиспользовать не сможет, а будет изобретать свой велосипед заточенный на свою страну. если им позволено тащить как им нравится, никакого резона какое-то общее решение воротить нет.

у меня немного другое видение: любой субъект можно поставлять фичи способом который хочет, но он должен зарегистрировать свои фичи с кучей метаданных в нашем сервисе, мы проверяем качество, алертим если нарушается регулярность, фичи дрифтят, или например фича никем давно не используется; дальше мы выставляем единый интерфейс для discovery, lineage, serving и других вкусностей

источник

13:23пожаловаться #15

AZ

Anton Zadorozhniy in Data Engineers

сложно убедить людей начать писать спарк джобы, если большая часть их фич поставляется через вьюхи поверх существующих витрин; с другой стороны заставить людей переезжать с их любимых даталейков в базу тоже трудно, они не хотят заниматься всем этим говернансом.. идея в том чтобы дать им общие метаданные, дискавери и сервинг

источник

13:25пожаловаться #16

P

Pavel in Data Engineers

Коллеги, а кто как пишет из кафки на, например, S3 или (вдруг до сих пор!) на hdfs?
Флюм и кафку коннект не предлагать🙂

источник

13:37пожаловаться #17

AZ

Anton Zadorozhniy in Data Engineers

Коллеги, а кто как пишет из кафки на, например, S3 или (вдруг до сих пор!) на hdfs?
Флюм и кафку коннект не предлагать🙂

NiFi, или самим написать приложеньку

источник

13:38пожаловаться #18

P

Pavel in Data Engineers

Anton Zadorozhniy

NiFi, или самим написать приложеньку

Ох про nifi забыл)) такое же гавно)

источник

13:38пожаловаться #19

AB

Andrey Bel in Data Engineers

Коллеги, а кто как пишет из кафки на, например, S3 или (вдруг до сих пор!) на hdfs?
Флюм и кафку коннект не предлагать🙂

на hdfs спарком флинком можно
или стримсет если логики нет

источник

13:38пожаловаться #20