Size: a a a

2021 January 27

С

Сюткин in Data Engineers
Nikita Blagodarnyy
Граждане, у нас тут в коммоне накопилась куча всяких вспомогательных функций для работы с DataFrame/DataSet/Sink спрака. Ну типа там df как-то сложно через dense_rank сагрегировать, поркеты рекурсивно прокомпактить, к схеме нужной примандить, с худи поработать, hbase посканить. Есть идея это заопенсурсить. Вопрос-оно вообще надо такое кому-то? А то процесс непростой, и если оно не надо, то и потеть неохота.
Ну кхм...
для начала посмотреть надо что есть

Я бы сказал так, кто-то точно найдёт пользу, так что если есть ресурсы и возможности то опенсорсните
источник

N

Nikita Blagodarnyy in Data Engineers
Наверняка есть уже какие-то проекты похожие, может знает кто? Я кроме spark-daria не слышал ничего.
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikita Blagodarnyy
Граждане, у нас тут в коммоне накопилась куча всяких вспомогательных функций для работы с DataFrame/DataSet/Sink спрака. Ну типа там df как-то сложно через dense_rank сагрегировать, поркеты рекурсивно прокомпактить, к схеме нужной примандить, с худи поработать, hbase посканить. Есть идея это заопенсурсить. Вопрос-оно вообще надо такое кому-то? А то процесс непростой, и если оно не надо, то и потеть неохота.
конечно стоит, хотя бы как streetcred для людей которые это писали
источник

ИК

Иван Калининский... in Data Engineers
Nikita Blagodarnyy
Наверняка есть уже какие-то проекты похожие, может знает кто? Я кроме spark-daria не слышал ничего.
Я бы сказал, что если внутренних препятствий (неразглашение, конфиденциальность) нет, то не стоит искать партнёров, чтобы с ними коллабить, смело идите на гитхаб, постите инфу о проекте где только можно и вас найдут!
источник

N

Nikita Blagodarnyy in Data Engineers
Не засмеяли бы
источник

ИК

Иван Калининский... in Data Engineers
Ну, я не буду смеяться
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikita Blagodarnyy
Не засмеяли бы
это последнее о чем надо волноваться
источник

MB

Maksim Batsiuk in Data Engineers
Maksim Batsiuk
добрый вечер, в чем может быть проблема: пишу в hdfs мелкие сообщения, удаётся записать пару сообщений и потом запись останавливается, хотя видно что приложение работает. Нагуглил такую команду hdfs debug recoverLease, после её исполнения опять несколько файлов пишет и потом стоп. Пишу мелкие файлы в один файл. Вроде как вычитал что Hadoop выделяет только минуту для записи в файл. Как решить эту проблему?
народ, нету предположений?
источник

K

KrivdaTheTriewe in Data Engineers
Mikhail Kuznetsov
udf вы имеете ввиду?
udaf
источник

K

KrivdaTheTriewe in Data Engineers
Nikita Blagodarnyy
Граждане, у нас тут в коммоне накопилась куча всяких вспомогательных функций для работы с DataFrame/DataSet/Sink спрака. Ну типа там df как-то сложно через dense_rank сагрегировать, поркеты рекурсивно прокомпактить, к схеме нужной примандить, с худи поработать, hbase посканить. Есть идея это заопенсурсить. Вопрос-оно вообще надо такое кому-то? А то процесс непростой, и если оно не надо, то и потеть неохота.
в лс присиылайте)
источник

A

Alex in Data Engineers
Maksim Batsiuk
народ, нету предположений?
На таком уровне обычно у всех работает без проблем
источник

MB

Maksim Batsiuk in Data Engineers
Alex
На таком уровне обычно у всех работает без проблем
думаю проблема не в коде, в настройках может что-то изменили
источник

MB

Maksim Batsiuk in Data Engineers
сейчас для эксперимента поставил паузу в две минуты перед методом добавления и все работает, странно, может hadoop не выдерживает нагрузки, когда файлы потоком льются
источник

N

Nikita Blagodarnyy in Data Engineers
KrivdaTheTriewe
в лс присиылайте)
только TODO вычищу
источник

NA

Nikita Alemaskin in Data Engineers
Nikita Blagodarnyy
только TODO вычищу
Можно мне тоже в лс?
Интересно глянуть)
источник

С

Сюткин in Data Engineers
Nikita Blagodarnyy
только TODO вычищу
+1
источник

A

Alex in Data Engineers
что-то мне мем напоминает “в личку скинул”
источник

MK

Mikhail Kuznetsov in Data Engineers
Nikita Blagodarnyy
только TODO вычищу
+1 )
источник

e

er@essbase.ru in Data Engineers
Народ а какой сценарий использования SparkSQL + ODBC. Туда можно пускать пользователей  ? или это только для разработчиков ?
источник

AZ

Anton Zadorozhniy in Data Engineers
er@essbase.ru
Народ а какой сценарий использования SparkSQL + ODBC. Туда можно пускать пользователей  ? или это только для разработчиков ?
ODBC с какой стороны, для всяких отчетных средств?
источник