Size: a a a

2019 August 26

GP

Grigory Pomadchin in Data Engineers
Anton Zadorozhniy
Но как я понял нужно не распределенное
ну это поверх хадупомра
источник

AZ

Anton Zadorozhniy in Data Engineers
Grigory Pomadchin
ну это поверх хадупомра
Можно локально
источник

GP

Grigory Pomadchin in Data Engineers
Anton Zadorozhniy
Можно локально
ого; а оно всегда так было? я что-то не припомню такой фичи лет 7 назад
но может я тогда криво смотрел
источник

AZ

Anton Zadorozhniy in Data Engineers
Grigory Pomadchin
ого; а оно всегда так было? я что-то не припомню такой фичи лет 7 назад
но может я тогда криво смотрел
Я чистый каскейдинг не использовал, но вот на скалдинге у нас в меге была тонна всего написана, и там был удобный локальный репл вообще без хадупа
источник

N

Nikita Blagodarnyy in Data Engineers
Anton Zadorozhniy
Но как я понял нужно не распределенное
В данном случае распределенность не принципиальна, потому что данных немного, сэмпл. Просто один и тот же набор нужно забрать из источника, по-разному "оформить" и в несколько мест рассовать. Количество мест и способов форматирования может расти, меняться "форматирование" и т.д. Поэтому и думаю, как сделать  максимально переиспользуемый интерфейс.
источник

N

Nikita Blagodarnyy in Data Engineers
Ну типа как создал датафрейм, хочешь его в паркет сложи, хочешь в таблицу, хочешь в телевизоре покажи.
источник

GP

Grigory Pomadchin in Data Engineers
Anton Zadorozhniy
Я чистый каскейдинг не использовал, но вот на скалдинге у нас в меге была тонна всего написана, и там был удобный локальный репл вообще без хадупа
+, я тоже использовал только как каскейдинг
твиттер до сих пор поддерживает и использует его
источник

K

KrivdaTheTriewe in Data Engineers
Nikita Blagodarnyy
Всем устраивает, кроме того, что у нас пока его не поставлено.
Так не нужно ставить , не провайдед зависимость просто делать
источник

K

KrivdaTheTriewe in Data Engineers
Зачем ставить ?
источник

GP

Grigory Pomadchin in Data Engineers
да, это же одна немного тяжелая депенся, которая зовется spark-core
источник

ПФ

Паша Финкельштейн in Data Engineers
Nikita Blagodarnyy
Коллеги, а в обычной, безхадупной java есть что-то похожее на DataFrame/DataSet?
Обычные стримы?
источник

ПФ

Паша Финкельштейн in Data Engineers
Nikita Blagodarnyy
Имею ввиду некую программную конструкцию/фреймворк, которая представляет данные в виде таблицы из "строк", с некоторым api для работы с этими строками.
Все ещё java stream api
источник

AK

Anton Kosarev in Data Engineers
Nikita Blagodarnyy
Имею ввиду некую программную конструкцию/фреймворк, которая представляет данные в виде таблицы из "строк", с некоторым api для работы с этими строками.
Мне кажется проект давно мертв, но все же всплывал на памяти
https://github.com/saddle/saddle
источник

ЕГ

Евгений Глотов in Data Engineers
Grigory Pomadchin
да, это же одна немного тяжелая депенся, которая зовется spark-core
а лучше один джарник со всеми зависимостями😆👍
источник

ЕГ

Евгений Глотов in Data Engineers
мегов на 300)
источник

AS

Andrey Smirnov in Data Engineers
Nikita Blagodarnyy
Ну типа как создал датафрейм, хочешь его в паркет сложи, хочешь в таблицу, хочешь в телевизоре покажи.
источник

N

Nikita Blagodarnyy in Data Engineers
Всем спасибо, пойду пробовать.
источник
2019 August 27

TT

Tsh Tsh in Data Engineers
Очень сырая штука
источник

TT

Tsh Tsh in Data Engineers
Раньше вообще был ужас, у них все exceptions в жаба коде отлавливались через самый базовый exception
источник

TT

Tsh Tsh in Data Engineers
Но щас гораздо лучше стало + документация неплохая
Но все равно много сврости
источник