Size: a a a

2020 April 02

ME

Mikhail Epikhin in Data Engineers
Dmitry Zuev
Какой баг то?
Ну с медленной вставкой через jdbc
источник

ME

Mikhail Epikhin in Data Engineers
Может у вас столбцы особенные какие-то? дайте схему хотя бы
источник

ME

Mikhail Epikhin in Data Engineers
Ну или семпл данных обезличенных, если можно
источник

DZ

Dmitry Zuev in Data Engineers
Mikhail Epikhin
Ну с медленной вставкой через jdbc
Думаю тут сочетание нескольких факторов, и дело не в ждбс
источник

DZ

Dmitry Zuev in Data Engineers
Mikhail Epikhin
Может у вас столбцы особенные какие-то? дайте схему хотя бы
Да не, string, date, uint uint
источник

АС

Артур Семенов in Data Engineers
Всем привет, чтобы использовать Спарк мне достаточно будет развернуть локально только сам Спарк и использовать его с помощью питона или нужно что-то ещё?
источник

A

Alexander in Data Engineers
Только спарк
источник

ME

Mikhail Epikhin in Data Engineers
Андрей Жуков
осторожнее, а то будет как с трубкой и ватсоном
простите, а что не так с трубкой и ватсоном?
источник

DZ

Dmitry Zuev in Data Engineers
Ватсон уже не может без трубки
источник

p

palladdiumm in Data Engineers
это из анекдота, в котором Ватсон пытался отучить Холмса курить трубку
источник

АС

Артур Семенов in Data Engineers
Alexander
Только спарк
Можно ещё вопрос, т.е. я ставлю Спарк, запускаю его, поверх него запускаю Юпитер и там уже работаю с данными, все верно?
источник

АЖ

Андрей Жуков in Data Engineers
Артур Семенов
Можно ещё вопрос, т.е. я ставлю Спарк, запускаю его, поверх него запускаю Юпитер и там уже работаю с данными, все верно?
можно запускать спарк в локале прямо из жупиитера
источник

R

Renarde in Data Engineers
Андрей Жуков
можно запускать спарк в локале прямо из жупиитера
а если хочется просто  потестировать и поиграться, можно взять готовый jupyter  с настроенным спарком:

https://hub.docker.com/r/jupyter/all-spark-notebook/
источник

DZ

Dmitry Zuev in Data Engineers
Mikhail Epikhin
CH же любит пожирнее, чтобы по 1-10К было на вставке
ну кароч батчем на 100к все и решилось
источник

ME

Mikhail Epikhin in Data Engineers
Dmitry Zuev
ну кароч батчем на 100к все и решилось
ну и отличненько:)
источник

A

Alex in Data Engineers
кто-нибудь настраивал livy + hive с kerberos?

джоба запускается как положена, но вот как туда прокинуть delegation token на хайв?
закидывать keytab на какой hdfs чтобы spark сам логинился не хочется

в oozie креденшиал провайдеры есть и всё ок
а вот с интерактивными сессиями в ливи как-то …..
источник

E

Evgenij in Data Engineers
а через амбари не получилось?
источник

A

Alex in Data Engineers
вот через него и настроен, но внутри спарк контекста токены только
YARN_AM_RM_TOKEN
HDFS_DELEGATION_TOKEN
источник

A

Alex in Data Engineers
более странно что я не найду это даже в самом livy коде
поэтому и возник вопрос “а он вообще в это умеет” ?
источник

В

Вадим in Data Engineers
Ребят, я слышал что тут была группа людей которая писала коннектор спарк-кликхаус. Есть у кого нибудь ссылка на репу, если это взлетело?
источник