Size: a a a

2021 June 08

C

Combot in Data Engineers
ibtoey mnapt has been banned! Reason: CAS ban.
источник

AZ

Anton Zadorozhniy in Data Engineers
Все эти «истории успеха» про сотни петабайт это как «мы научили свой пикап есть вдвое больше топлива на 100км»; техническим достижением будет конкурентный бизнес который хранит меньше данных, умнее и эффективнее их агрегирует, а не просто хранит каждый сырой датапоинт и претендует на чемпионство в счетах за сторадж
источник

UD

Uncel Duk in Data Engineers
Естественно, так можно и с пулами chia пойти мериться
источник

A

Alex in Data Engineers
полнотью согласен, вот только до определённых объёмов проще докидывать диски, чем разбираться с помойкой
источник

NN

No Name in Data Engineers
А это что означает?)
источник

AZ

Anton Zadorozhniy in Data Engineers
организации со специальными требованиями (и бюджетами), не обычные веб/телеком/финансы
источник

UD

Uncel Duk in Data Engineers
Больше половины заказчиков американская военка
источник

NN

No Name in Data Engineers
Ух ты
источник

AZ

Anton Zadorozhniy in Data Engineers
а остальное это биотех и MRL
источник

TC

Tasty Cake in Data Engineers
Всем привет. Может кто-то с таким сталкивался и подскажет как быть? Есть внешний файл. Спарк трансформирует его и загружает в дельталейк. В этом же спаркконтексте при попытке чтения загруженных данных идет ошибка типа oXX.showString и приложение останавливается. Когда я запускаю снова же попытку чтения в новом спаркконтексте, то все нормально читается. Как вы решали по-другому эту задачу? Интересно мне действия сделать в одном спаркконтексте
источник

AC

Anton Chern in Data Engineers
Всем привет! Не подскажите хорошие источники, где можно почитать про SDP (Streaming Data Platform)?
источник

N

Nikita Blagodarnyy in Data Engineers
А что с hdfs не так?
источник

GP

Grigory Pomadchin in Data Engineers
там вайтпапер у них был чем они пижже
источник

GP

Grigory Pomadchin in Data Engineers
работает лучше с флеш памятью короч в крадце и тд и тп
источник

GP

Grigory Pomadchin in Data Engineers
а мож я чтото не то читал :D
источник

A

Alex in Data Engineers
Неймноде не очень хорошо
До недавнего времени ещё и с датанодами были нюансы,  так как на каждой было много данных, то блок репорт бывало не влазил

Вообще сейчас вопрос не столько "вот мы все взяли и заменили", а в том чтобы проверить как мы готовы к клауду (если нужно будет нагрузку часть вынести) и при необходимости допилить тулы чтобы одинаково хорошо и с объектным стором и с хдфс работало

И вот стоит вопрос что если локально разворачивать то что брать
источник

N

Nikita Blagodarnyy in Data Engineers
меня прост тоже уже подзадрал, хотя пока ещё только 3 Пб. но не оч понятно, на что менять.
источник

A

Alex in Data Engineers
У нас в неймноде хип на 250гб

Так как хадуп 3.2 то и только java 8ка

В свое время пробовали Шенандо, но там не очень себя повёл, потом вроде видел описания тех багов, но не перетещивали
источник

GP

Grigory Pomadchin in Data Engineers
хм,а что с неймнодами у вестдаты?
источник

UD

Uncel Duk in Data Engineers
Сразу больно если много блоков, много дисков/толстых дисков
источник