Size: a a a

2019 September 13

RI

Rustam Iksanov in Data Engineers
Получается внутри rdd.foreach
источник

GP

Grigory Pomadchin in Data Engineers
Rustam Iksanov
Получается внутри rdd.foreach
там оно и будет налл
источник

RI

Rustam Iksanov in Data Engineers
Я сейчас перепишу и внутри буду только писать в hbase и кафку
источник

GP

Grigory Pomadchin in Data Engineers
контекст не сериализуется если что, поэтому оно налл вернуло
источник

t

tenKe in Data Engineers
Rustam Iksanov
Получается внутри rdd.foreach
так нельзя делать
источник

GP

Grigory Pomadchin in Data Engineers
tenKe
так нельзя делать
+
источник

GP

Grigory Pomadchin in Data Engineers
Rustam Iksanov
Я сейчас перепишу и внутри буду только писать в hbase и кафку
в как пишешь в них? Любые объекты сессии не сериализуются если что
источник

RI

Rustam Iksanov in Data Engineers
Grigory Pomadchin
в как пишешь в них? Любые объекты сессии не сериализуются если что
Пишу через df.write.format().save. там есть использование сессии?
источник

GP

Grigory Pomadchin in Data Engineers
Rustam Iksanov
Пишу через df.write.format().save. там есть использование сессии?
да, так что если ты в фориче делаешь опять что-то у тебя тоже ошибка будет
источник

GP

Grigory Pomadchin in Data Engineers
источник

RI

Rustam Iksanov in Data Engineers
Grigory Pomadchin
да, так что если ты в фориче делаешь опять что-то у тебя тоже ошибка будет
И как DStream завершать?
источник

GP

Grigory Pomadchin in Data Engineers
Rustam Iksanov
И как DStream завершать?
foreachRDD норм, речь была о мап операциях рдд
источник

RI

Rustam Iksanov in Data Engineers
Grigory Pomadchin
foreachRDD норм, речь была о мап операциях рдд
тут я не догоняю. Я сделал kafka streaming. Получаю DStream. Дальше я могу делать map на стриме?
источник

GP

Grigory Pomadchin in Data Engineers
Rustam Iksanov
тут я не догоняю. Я сделал kafka streaming. Получаю DStream. Дальше я могу делать map на стриме?
да
источник

RI

Rustam Iksanov in Data Engineers
ок, а на получившийся DStream[Dataframe] я могу вызвать foreachRDD(_.foreach(A => Unit)), но только, если внутри у меня не будет вызываться нигде sparkSession. Я правильно понимаю?
источник

GP

Grigory Pomadchin in Data Engineers
): ты не путаешь рдд и дистрим? Внутри stream.foreachRDD ты можешь пользоваться контекстом ктоторый у RDD, внутри rdd.foreach ты не можешь пользоваться контекстом;
источник

EN

Eldar Nezametdinov in Data Engineers
Подскажите пожалуйста. Вопрос насчет зеппелин, имперсонализация, hdfs, fs.
Из-за имперсонализации в зеппелине - каждый пользователь создает файлы от своего пользователя.
Таким образом при создании таблицы в hive, получается что эту папку перезаписать или удалить может только сам пользователь.
Как сделать на все папки в /apps/hive/warehouse/ права типа 775 вместо 755 текущего...  ? Не вручную, а чтобы при создании было
Чтобы группа пользователей могла редактировать таблицу..
Либо другой какой-нибудь подход...
источник

EN

Eldar Nezametdinov in Data Engineers
Менять umask для абсолютно всего как-то неправильно (вроде).....
источник

AP

Alexander Piminov in Data Engineers
Eldar Nezametdinov
Подскажите пожалуйста. Вопрос насчет зеппелин, имперсонализация, hdfs, fs.
Из-за имперсонализации в зеппелине - каждый пользователь создает файлы от своего пользователя.
Таким образом при создании таблицы в hive, получается что эту папку перезаписать или удалить может только сам пользователь.
Как сделать на все папки в /apps/hive/warehouse/ права типа 775 вместо 755 текущего...  ? Не вручную, а чтобы при создании было
Чтобы группа пользователей могла редактировать таблицу..
Либо другой какой-нибудь подход...
Какой дистрибутив, если не ваниль, и его версия? Ranger не используешь?
источник

EN

Eldar Nezametdinov in Data Engineers
Alexander Piminov
Какой дистрибутив, если не ваниль, и его версия? Ranger не используешь?
пока не ставили, т.к. даже экспертизы нет, hdp 3.1
источник