Size: a a a

2019 November 20

AS

Andrey Smirnov in Data Engineers
Alex
нет, тут именно обсуждается вопрос:
когда у вас доступ к s3 то вы ограничены скоростью сети + количеством коннектов на сам s3
когда вы скопировали данные на hdfs то высока вероятность гонять/процессить данные в data locality режиме (считайте напрямую с диском работа)

долгосрочное хранение это одно
временное хранилище для файлов которые будут прочитаны много раз это совершенно другое
data locality роляет при существующих сетках редко, в условном коне в вакууме когда обходится без шафлов и т.д. да выигрыш будет, а так с подъемом он деманд кластера и т.д. может быть больше проблем, чем просто поднять emr и на данных в s3 погонять джобы
источник

A

Alex in Data Engineers
ну вот тут и имеет ошибку выжившего
у каждого разные ворклоады и следовательно разные результаты по инструментам

и каждый может привести ворклоад и свой опыт показать как конкретно его задача выигрывает
это нормально =)
источник

AZ

Anton Zadorozhniy in Data Engineers
Преждевременная оптимизация, как известно, есть корень всех зол; надо сначала собрать статистику и/или построить модель как оно работает и сколько стоит, а потом улучшать
источник

AE

Alexey Evdokimov in Data Engineers
расшарить, что ли, скрипты для безболезненного подъёма ондемандов на гх? %)
400 строк на повершеле так-то всего
источник

A

Alex in Data Engineers
Anton Zadorozhniy
Преждевременная оптимизация, как известно, есть корень всех зол; надо сначала собрать статистику и/или построить модель как оно работает и сколько стоит, а потом улучшать
тут же не про преждевременную
никто не говорит что вы должны использовать только так и так потому что так будет оптимальней (список оптимизаций)

именно пляшут от профиля использования
хотя не все и не всегда с этим согласны, зачем тратить время на исследование, если я вчера посмотрел доклад с конференции и они говорили что вот у них вот такой подход работает
источник

AZ

Anton Zadorozhniy in Data Engineers
Alex
тут же не про преждевременную
никто не говорит что вы должны использовать только так и так потому что так будет оптимальней (список оптимизаций)

именно пляшут от профиля использования
хотя не все и не всегда с этим согласны, зачем тратить время на исследование, если я вчера посмотрел доклад с конференции и они говорили что вот у них вот такой подход работает
Оптимальность это превосходная степень) а так все правильно
источник

M

Mikhail in Data Engineers
Alexey Evdokimov
на моём ворклоаде с кластерами он деманд и уникальным обсчётами каждый раз дешевле копировать на хдфс, считать, писать в хдфс и копировать обратно. дешевле по времени раз этак в 30. неудобно, но ждать некогда :/
У вас реально разница в 30 раз была? Видимо это при совсем слабой сетке.
источник

AS

Andrey Smirnov in Data Engineers
Alex
ну вот тут и имеет ошибку выжившего
у каждого разные ворклоады и следовательно разные результаты по инструментам

и каждый может привести ворклоад и свой опыт показать как конкретно его задача выигрывает
это нормально =)
всяко бывает, бывает "воинские традиции": когда-то это работало, но сейчас уже давно потеряло смысл, контекст поменялся, но продолжают повторять
источник

AE

Alexey Evdokimov in Data Engineers
Mikhail
У вас реально разница в 30 раз была? Видимо это при совсем слабой сетке.
не, просто специфика самого расчёта. геоданные с особенностями. я как-нибудь напишу на хабру постмортем, если свободное время выдастся
источник

ME

Max Efremov in Data Engineers
Laines
Привет всем, можете посоветовать статьи или что-то где можно было бы разобраться s3 и спарком, как они взаимодействуют, как Hadoop и с3...
Как идёт вычитка и запись в файл
если по Glue и дата каталогам будут вопросы, могу попробовать ответить
источник

DM

Daniel Matveev in Data Engineers
а есть вообще обзор актуальных решений?
источник

GP

Grigory Pomadchin in Data Engineers
Daniel Matveev
а есть вообще обзор актуальных решений?
ты про что?)
источник

GP

Grigory Pomadchin in Data Engineers
источник

DM

Daniel Matveev in Data Engineers
датакаталоги
источник

АЖ

Андрей Жуков in Data Engineers
Daniel Matveev
а есть вообще обзор актуальных решений?
А есть вообще актуальные решения?
источник

DZ

Dmitry Zuev in Data Engineers
Новый релиз атласа
источник

DZ

Dmitry Zuev in Data Engineers
источник

DM

Daniel Matveev in Data Engineers
Dmitry Zuev
Новый релиз атласа
в таком формате
источник

АЖ

Андрей Жуков in Data Engineers
источник

DM

Daniel Matveev in Data Engineers
на безрыбье
источник