Size: a a a

2021 July 02

rG

rpuropuu Greeg'O'Rii... in Data Engineers
Спарк джоб и драйвер это одно понятие?
источник

NN

No Name in Data Engineers
Неа. Джоб - этот процесс обработки. Драйвер - ну, это драйвер, даже не знаю.
источник

rG

rpuropuu Greeg'O'Rii... in Data Engineers
).. спасибо такой ответ очень поможет) а то две вероятных информационные ветки запоминать при просмотре лекций затея не оч)
источник

rG

rpuropuu Greeg'O'Rii... in Data Engineers
у меня ещё загуглить лекций про спарк джоб не получается)) вакансии выпадают))
источник

NN

No Name in Data Engineers
Не нужно гуглить отдельно лекции про спарк джоб, это же просто процесс обработки данных в спарке. Допустим, у Вас пайспарк, Вы подняли в ноутбучике спарк-сессию - считайте, что у вас теперь есть спарк приложение. Запуск скрипта в нем инициирует спарк-джобу. Она, в свою очередь,  состоит из стейджей и тасков.
Почитайте просто про архитектуру спарка, это даст нужное представление.
источник

rG

rpuropuu Greeg'O'Rii... in Data Engineers
Ой спасибоо.. я уже не первый день людей мучаю) и тут приспрашивался.. для понимания взаимодействий хотел узнать. Может у вас есть что посоветовать конкретное для стака: кассандра, кафка, спарк, табло? Я имею ваиду полезные материалы для изучения ну или хотяб благословление)
источник

NN

No Name in Data Engineers
Благословляю Вас
источник

rG

rpuropuu Greeg'O'Rii... in Data Engineers
))
источник

NN

No Name in Data Engineers
Ну, а если серьезно - никаких рекомендаций по стэку я дать не могу, исходите из потребностей - что на работе есть, в задачах используется, то и изучайте.
Материалы - ну, читайте доки, почитайте материалы какой-нибудь бигдатаскул, книжки на орайли есть по спарку хорошие, типа spark: the definitive guide, аналогичная есть по кафке и прочему.
Ну и стаковерфлоу, само собой.
источник

NN

No Name in Data Engineers
Для систем дизайна местные ребята всегда советуют Designing Data-Intensive Applications, как раз читаю. Тоже на орайли есть.
источник

rG

rpuropuu Greeg'O'Rii... in Data Engineers
Думал с доков спарка начать. Я пока даже соотношение оценить не могу этих трех первых.
источник

NN

No Name in Data Engineers
Просто начните с того, что непосредственно делаете. И, да, лучше всего начать с доков.
источник

rG

rpuropuu Greeg'O'Rii... in Data Engineers
Ощущение что спарк процентов 80, а остальное кассандра с кафкой.
источник

rG

rpuropuu Greeg'O'Rii... in Data Engineers
Гляну, спасибо)
источник

А

Александр in Data Engineers
Типа вот так, да?)
У меня просто тот же вопрос был
источник

NN

No Name in Data Engineers
Ну мне тут даже добавить нечего
источник

А

Александр in Data Engineers
а можно еще нубский вопрос - а как образуются стейджи? почему какие то содержат в себе 1 таск а какие то много тасков?
источник

rG

rpuropuu Greeg'O'Rii... in Data Engineers
Там выше была рекомендация поизучать спарк, наверно там описано и  это
источник

NN

No Name in Data Engineers
Стейджи разделяют широкие трансформации, если проще - между ними шаффл.
источник

rG

rpuropuu Greeg'O'Rii... in Data Engineers
Что такое шафл?))
источник