Телеграмм чат группы hadoopusers страница 1584

В данном случае распределенность не принципиальна, потому что данных немного, сэмпл. Просто один и тот же набор нужно забрать из источника, по-разному "оформить" и в несколько мест рассовать. Количество мест и способов форматирования может расти, меняться "форматирование" и т.д. Поэтому и думаю, как сделать максимально переиспользуемый интерфейс.

источник

21:32пожаловаться #5

Nikita Blagodarnyy in Data Engineers

Ну типа как создал датафрейм, хочешь его в паркет сложи, хочешь в таблицу, хочешь в телевизоре покажи.

источник

21:34пожаловаться #6

Grigory Pomadchin in Data Engineers

Anton Zadorozhniy

+, я тоже использовал только как каскейдинг
твиттер до сих пор поддерживает и использует его

источник

21:34пожаловаться #7

KrivdaTheTriewe in Data Engineers

Nikita Blagodarnyy

Всем устраивает, кроме того, что у нас пока его не поставлено.

Так не нужно ставить , не провайдед зависимость просто делать

источник

21:34пожаловаться #8

KrivdaTheTriewe in Data Engineers

Зачем ставить ?

источник

21:35пожаловаться #9

Grigory Pomadchin in Data Engineers

да, это же одна немного тяжелая депенся, которая зовется spark-core

источник

21:40пожаловаться #10

ПФ

Паша Финкельштейн in Data Engineers

Nikita Blagodarnyy

Коллеги, а в обычной, безхадупной java есть что-то похожее на DataFrame/DataSet?

Обычные стримы?

источник

21:41пожаловаться #11

ПФ

Паша Финкельштейн in Data Engineers

Nikita Blagodarnyy

Имею ввиду некую программную конструкцию/фреймворк, которая представляет данные в виде таблицы из "строк", с некоторым api для работы с этими строками.

Все ещё java stream api

источник

21:42пожаловаться #12

Anton Kosarev in Data Engineers

Nikita Blagodarnyy

Мне кажется проект давно мертв, но все же всплывал на памяти
https://github.com/saddle/saddle

GitHub

saddle/saddle

SADDLE: Scala Data Library. Contribute to saddle/saddle development by creating an account on GitHub.