Size: a a a

2019 May 02

A

Alex in Data Engineers
Влад
За livy curl есть с кем поговорить?
Апи немного смотрел когда тыкал как к спармэйджик прикрутить автодополнение к скале. Вроде же там все достаточно просто
источник
2019 May 03

AR

ATOAR RAHMAN in Data Engineers
Мне нужен один дата сайенс проект ? Кто не может дать мне ? Буду очень рад !!
источник

t

tenKe in Data Engineers
Feel free to write in English, your Russian is awful
источник

CO

Chern Oleksander in Data Engineers
Всем приветик, а кто-то работал с инструментами для создания WorkFlow(PipeLine) ? Кто чем пользуется?
на примете AirFlow или AWS Glue, не могу определится что будет лучше
источник

VS

Vladislav 👻 Shishkov in Data Engineers
Все гавно 😬
источник

CO

Chern Oleksander in Data Engineers
Vladislav 👻 Shishkov
Все гавно 😬
А что порекомендуешь? ))
источник

VS

Vladislav 👻 Shishkov in Data Engineers
Без понятия
источник

A

Alex in Data Engineers
@Xapa6apga ну ты спрашиваешь “какая утилита мне лучше, которая только в амазоне работает и они предоставляют весь сервис, или которую саму хостить и поддерживать нужно, но можно и локально развернуть”
источник

CO

Chern Oleksander in Data Engineers
Alex
@Xapa6apga ну ты спрашиваешь “какая утилита мне лучше, которая только в амазоне работает и они предоставляют весь сервис, или которую саму хостить и поддерживать нужно, но можно и локально развернуть”
ничего не понял
источник

A

Alex in Data Engineers
AWS Glue - это SaaS и запускается только в амазон датацентре
AirFlow - продукт который можешь гонять где угодно, хоть в амазоне, хоть в локальном датацентре
источник

A

Alex in Data Engineers
что выбрать?
источник

CO

Chern Oleksander in Data Engineers
Alex
что выбрать?
Суть же не в том где оно разворачивается
А больше к функционалу
источник

A

Alex in Data Engineers
у меня отдельный датацентр, я хочу AWS Glue  - никак
у меня нету отдела с девопсами и я хочу AirFlow - можно, но весь сапорт на тебе
источник

A

Alex in Data Engineers
что лучше стейк или морожено
источник

A

Alex in Data Engineers
без требований и информации в каком окружении оно будет работать никто не скажет что лучше
источник

AP

Alexander Piminov in Data Engineers
Chern Oleksander
Всем приветик, а кто-то работал с инструментами для создания WorkFlow(PipeLine) ? Кто чем пользуется?
на примете AirFlow или AWS Glue, не могу определится что будет лучше
AWS Glue - это не только workflow, но и data catalog и crawling engine, но при этом workflow engine у них свой диалект Spark. Для general-purpose workflow в AWS есть смысл посмотреть и другие сервисы, например, step functions.
Так или иначе и Glue, и Airflow работают, по крайней мере, на не очень сложных worflow.
источник

A

Alex in Data Engineers
data catalog - там вроде hive metastore чуть допиленный
источник

AP

Alexander Piminov in Data Engineers
Alex
data catalog - там вроде hive metastore чуть допиленный
Hive есть, его можно прикрутить к EMR. А Glue - он может использоваться и сам по себе, чтобы данные, например, в S3 каталогизировать.
источник

A

Alex in Data Engineers
glue интерфес на взаимодействие вроде как от hive предоставляет

https://jira.apache.org/jira/browse/SPARK-23443


Today, the integration of Glue and Spark is through the Hive layer. Glue implements the IMetaStore interface of Hive and for installations of Spark that contain Hive, Glue can be used as the metastore.

The feature set that Glue supports does not align 1-1 with the set of features that the latest version of Spark supports. For example, Glue interface supports more advanced partition pruning that the latest version of Hive embedded in Spark.
источник

AP

Alexander Piminov in Data Engineers
Ну это если у тебя отдельно Spark или иной Hive-совместимый инструмент и тебе нужно его с каталогом Glue интегрировать. А если ты хочешь непосредственно Glue использовать как ETL инструмент, то можно писать код, используя собственный контекст.
источник