Телеграмм чат группы hadoopusers страница 3254

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

2306 membersпожаловаться на группу

2021 February 14

AZ

Anton Zadorozhniy in Data Engineers

Вообще я ни разу не против спарка, но у всего есть своя ниша, в большинстве клиентских архитектур Спарк это инструмент для пайплайнов и местами ДС, а в конце данные попадают в redshift, big query или vertica, и для своих задач они конечно лучше подходят

источник

22:12пожаловаться #1

AZ

Anton Zadorozhniy in Data Engineers

Мы говорили про СУБД, Спарк это не СУБД

источник

22:12пожаловаться #2

NN

No Name in Data Engineers

Anton Zadorozhniy

Вообще я ни разу не против спарка, но у всего есть своя ниша, в большинстве клиентских архитектур Спарк это инструмент для пайплайнов и местами ДС, а в конце данные попадают в redshift, big query или vertica, и для своих задач они конечно лучше подходят

Я пока от коллег ещё не слышал позитивных отзывов о ДС на спарке, и сатанистов, которые на нем делают МЛ, ещё не встречал. Но должен отметить, что и круг знакомых у меня небольшой. У вас есть позитивный опыт, или есть какие-то плюсы для МЛ на спарке?

источник

22:17пожаловаться #3

ME

Max Efremov in Data Engineers

Я пока от коллег ещё не слышал позитивных отзывов о ДС на спарке, и сатанистов, которые на нем делают МЛ, ещё не встречал. Но должен отметить, что и круг знакомых у меня небольшой. У вас есть позитивный опыт, или есть какие-то плюсы для МЛ на спарке?

А чем они учат мл бигдатой?

источник

22:18пожаловаться #4

NN

No Name in Data Engineers

А чем они учат мл бигдатой?

Ну модельки учат локально

источник

22:19пожаловаться #5

AZ

Anton Zadorozhniy in Data Engineers

Я пока от коллег ещё не слышал позитивных отзывов о ДС на спарке, и сатанистов, которые на нем делают МЛ, ещё не встречал. Но должен отметить, что и круг знакомых у меня небольшой. У вас есть позитивный опыт, или есть какие-то плюсы для МЛ на спарке?

Когда я делал консалтинг то мои клиенты в ДС в основном использовали Спарк для подготовки данных, при этом конечно они плюются и им нужно много hand holding со стороны опсов, но такие решения не от хорошей жизни

источник

22:20пожаловаться #6

NN

No Name in Data Engineers

На не очень больших датасетах. А сами витрины в бигдатке спарк гоняет, да.

источник

22:20пожаловаться #7

NN

No Name in Data Engineers

Anton Zadorozhniy

Когда я делал консалтинг то мои клиенты в ДС в основном использовали Спарк для подготовки данных, при этом конечно они плюются и им нужно много hand holding со стороны опсов, но такие решения не от хорошей жизни

А, ну, да, вот такие кейсы мне понятны.

источник

22:21пожаловаться #8

AZ

Anton Zadorozhniy in Data Engineers

Спарк для ДС в таких случаях это проявление shadow IT, когда в Вертику или Терадату айтишные начальники непускают (хотя verticapy или teradataml гораздо удобнее чем pyspark, это те же датафреймы но не надо думать о числе экзекьюторов, памяти, очередях в ярне и вот это все)

источник

22:22пожаловаться #9

AZ

Anton Zadorozhniy in Data Engineers

По рассказам коллег с полей это вроде отходит, начальники считают деньги и выясняют что в сумме все эти полуподпольные хадуп кластера не так уж и дёшево стоят (но тут за что купил, сам видел только две истории перехода ДС с pyspark обратно в СУБД)

источник

22:33пожаловаться #10

NN

No Name in Data Engineers

Anton Zadorozhniy

Спарк для ДС в таких случаях это проявление shadow IT, когда в Вертику или Терадату айтишные начальники непускают (хотя verticapy или teradataml гораздо удобнее чем pyspark, это те же датафреймы но не надо думать о числе экзекьюторов, памяти, очередях в ярне и вот это все)

Мне казалось, что для ДС куда привычнее тот же пандас и привычные МЛ фреймворки в питоне.

источник

22:34пожаловаться #11

AZ

Anton Zadorozhniy in Data Engineers

Мне казалось, что для ДС куда привычнее тот же пандас и привычные МЛ фреймворки в питоне.

Ну как раз идея библиотек как verticapy и teradataml в том что у пользователя датафрейм API передранный с пандас, он транслируется в SQL (со всеми возможностями базы), и всегда можно сказать df.to_pandas, тогда весь датафрейм выкачивается и становится локальным

источник

22:37пожаловаться #12

NN

No Name in Data Engineers

Anton Zadorozhniy

Ну как раз идея библиотек как verticapy и teradataml в том что у пользователя датафрейм API передранный с пандас, он транслируется в SQL (со всеми возможностями базы), и всегда можно сказать df.to_pandas, тогда весь датафрейм выкачивается и становится локальным

Понял. Полагаю, с той же целью датабрикс делает коалас.

источник

22:40пожаловаться #13

AZ

Anton Zadorozhniy in Data Engineers

Понял. Полагаю, с той же целью датабрикс делает коалас.

Да, это как раз такая идея

источник

22:41пожаловаться #14

KS

K S in Data Engineers

Nikita Bakanchev

Мне кажется, обычно все делают интуитивно, а не реальной loseless decomposition для нормализации

Вот и я думаю, используется ли ФЗ вообще в реальной жизни или это глубокая, никому не нужная теория.

источник

22:52пожаловаться #15

2021 February 15

AT

Al T in Data Engineers

Народ, есть куча паркет файлов в S3 bucket, в которые нужно добавить несколько полей из других паркет файлов по ключу. Пока что видится это всё как lambda + glue pyspark dataframe -> S3. Вопрос: а как быть если файл большой и не помещается в памяти? Можно ли как-то распараллелить чтение паркета, чтобы glue job не вывалилась из-за нехватки памяти?
Дополнение:
В одном случае нужно сохранять как паркет (то есть один к одному), в другом объединять содержимое нескольких бакетов в zip file.

Athena + CTAS?

источник

00:09пожаловаться #16

KS

K S in Data Engineers

Al T

Athena + CTAS?

У нас есть этап data lake, etl , data lake, а затем уже аналитика типа athena и т.д.
Перепрыгнуть не получится.

источник

00:21пожаловаться #17

R

Roman in Data Engineers

У нас есть этап data lake, etl , data lake, а затем уже аналитика типа athena и т.д.
Перепрыгнуть не получится.

Можно воткнуть athena в этап etl. Это не совсем хорошо. Но на практике видел кейсы, когда так быстрее/дешевле, чем через спарк на emr или через глу.
Если данных не прям космос, то может прокатить. Иначе запрос на афине не выполнится с ошибкой не хватает ресурсов

источник

09:24пожаловаться #18

R

Roman in Data Engineers

Про ml и возврат к СУБД - наверное, пока на kaggle и подобных площадках не начнут чуваки выигрывать с использованием ml на СУБД, возврат с СУБД не произойдёт. Точнее это один из возможных путей захвата рынка) потому что в основном подходы к ml промышленному транслируются от туда.(наприсем тот же xgboost от туда стал хайповым)

источник

09:28пожаловаться #19

AS

Andrey Smirnov in Data Engineers

Про ml и возврат к СУБД - наверное, пока на kaggle и подобных площадках не начнут чуваки выигрывать с использованием ml на СУБД, возврат с СУБД не произойдёт. Точнее это один из возможных путей захвата рынка) потому что в основном подходы к ml промышленному транслируются от туда.(наприсем тот же xgboost от туда стал хайповым)

А причём тут кагл? Там табличные датасеты в csv в память помещаются, ну или алгоритмы поддерживающие out of core используются

источник

09:58пожаловаться #20