Size: a a a

2020 March 23

D

Dasha in Data Engineers
В целом, в Zeppelin, в интерпретаторе Spark, в пункте spark.jars (Comma-separated list of jars to include on the driver and executor classpaths. Globs are allowed.)  добавила строку /Users/username/Programms/spark_packages/postgresql-42.2.11.jar, и сохранила
источник

D

Dasha in Data Engineers
источник

D

Dasha in Data Engineers
Спасибо, вот скриншот
источник

GP

Grigory Pomadchin in Data Engineers
хм, а этот джарник точно есть на тачке? интепретатор перезапущен?
источник

GP

Grigory Pomadchin in Data Engineers
а то магия какая-то что не подгружает
источник

D

Dasha in Data Engineers
Grigory Pomadchin
хм, а этот джарник точно есть на тачке? интепретатор перезапущен?
Да, jar на месте
источник

АЖ

Андрей Жуков in Data Engineers
а может, у запилина прав на путь нет?
источник

GP

Grigory Pomadchin in Data Engineers
интересно, в логах его это будет отображаться?
источник

SZ

Sergey Zakharov in Data Engineers
Всем привет, подскажите пожалуйста, в каком облачном решении будет удобнее развернуть spark-standalone кластер? В планах раз в месяц заливать в облако порядка 50Гб, обсчитывать и выгружать несколько мегабайт.  Microsoft Azure, Amazon AWS, Google Dataproc, Mail.ru Bigdata, Yandex Data Proc? Кто чем пользуется?
источник

GP

Grigory Pomadchin in Data Engineers
Sergey Zakharov
Всем привет, подскажите пожалуйста, в каком облачном решении будет удобнее развернуть spark-standalone кластер? В планах раз в месяц заливать в облако порядка 50Гб, обсчитывать и выгружать несколько мегабайт.  Microsoft Azure, Amazon AWS, Google Dataproc, Mail.ru Bigdata, Yandex Data Proc? Кто чем пользуется?
амазон, ажур, гугл имеют менджед сервисы (за остальные не знаю); они одинаково по сложности развораичваются (т.е. несложно)

вопрос по менджед сервисам? или хочется купить железо и свое растянуть? (в последнем случае тож разницы нет где тачки)
источник

DZ

Dmitry Zuev in Data Engineers
Sergey Zakharov
Всем привет, подскажите пожалуйста, в каком облачном решении будет удобнее развернуть spark-standalone кластер? В планах раз в месяц заливать в облако порядка 50Гб, обсчитывать и выгружать несколько мегабайт.  Microsoft Azure, Amazon AWS, Google Dataproc, Mail.ru Bigdata, Yandex Data Proc? Кто чем пользуется?
Мб и пг хватит?
источник

ME

Mikhail Epikhin in Data Engineers
Dmitry Zuev
Мб и пг хватит?
но зачем, если можно залить в s3, запустить spark и погасить кластер?
источник

SZ

Sergey Zakharov in Data Engineers
Свой кластер забит задачами, нужны вычислительные мощности на время
источник

DZ

Dmitry Zuev in Data Engineers
Mikhail Epikhin
но зачем, если можно залить в s3, запустить spark и погасить кластер?
мб и спарк не нужен прост
источник

ME

Mikhail Epikhin in Data Engineers
Sergey Zakharov
Всем привет, подскажите пожалуйста, в каком облачном решении будет удобнее развернуть spark-standalone кластер? В планах раз в месяц заливать в облако порядка 50Гб, обсчитывать и выгружать несколько мегабайт.  Microsoft Azure, Amazon AWS, Google Dataproc, Mail.ru Bigdata, Yandex Data Proc? Кто чем пользуется?
ну тут кажется любой из managed решений подходит
источник

DZ

Dmitry Zuev in Data Engineers
50гб это не о чем
источник

ME

Mikhail Epikhin in Data Engineers
Dmitry Zuev
мб и спарк не нужен прост
ну так это +50гб every month, вопрос в том какой retention
источник

SZ

Sergey Zakharov in Data Engineers
Dmitry Zuev
50гб это не о чем
нужно lightgbm-модель обучать, кроссвалидацию гонять, итд
источник

ME

Mikhail Epikhin in Data Engineers
Ну тогда либо спарк, либо просто jupyter поднять:)
источник

ME

Mikhail Epikhin in Data Engineers
Sergey Zakharov
Всем привет, подскажите пожалуйста, в каком облачном решении будет удобнее развернуть spark-standalone кластер? В планах раз в месяц заливать в облако порядка 50Гб, обсчитывать и выгружать несколько мегабайт.  Microsoft Azure, Amazon AWS, Google Dataproc, Mail.ru Bigdata, Yandex Data Proc? Кто чем пользуется?
Возьмите тогда просто то облако, которым уже пользуетесь и все:)
Или если его нет, то то что ближе или куда с бОльшей вероятностью будете другие компоненты / данные перемещать когда-нибудь.
источник