Size: a a a

2021 July 01

АЖ

Андрей Жуков... in Data Engineers
Ну, это все пошутейки, конечно.

Я просто видел и команды, где сплошной скуль, и те, где только квадратики тягают, и даже те, где только R.

И я все-таки надеюсь, что большинство в чатах по DE по любви к данным, а не по любви к оплате :) поэтому стек тоже надо выбирать сердцем. Вдруг человек влюблен в R?
источник

I

Ilya in Data Engineers
ничего против R, просто питон и  sql в моем мире - необходимый минимум для любой работы с данными
источник

I

Ilya in Data Engineers
не нужно быть мега-девелопером, но уметь автоматизировать на питоне что-то, на мой взгляд, это прямо базовый навык уже
источник

AZ

Anton Zadorozhniy in Data Engineers
Ну или люди понимают что для задач DS R сильно лучше питона,  почему они должны отказываться от прекрасной экосистемы из-за моды и пары неосилянов
источник

AK

Aleksey Kislitsa in Data Engineers
Эти доводы можно применить против любого языка/фреймворка, в том числе и против R работает
источник

DP

Dmitriy Pavlov in Data Engineers
Всем привет!
Мы тут интересную "игрушку" запилили, интересно мнение извне)
Сделали интерактивный тест, который поможет выбрать правильный движок хранения и обработки данных в зависимости от свойств данных и процессов: https://cloud.yandex.ru/promo/data-platform-chooser
источник

AZ

Anton Zadorozhniy in Data Engineers
мы в другом чатике обсуждали, это нормально что Data Proc, Object Store и Kafka у вас считаются базами данных?
источник

DP

Dmitriy Pavlov in Data Engineers
Вопрос дискуссионный, но мне кажется что скорей да. База данных - это набор структурированной информации, она может быть и не реляционной.
Грубо говоря, оглавление в конце книги это тоже база данных
источник

DP

Dmitriy Pavlov in Data Engineers
Ну и "Выбираем движок хранения данных за 5 минут" не звучит 😁
источник

NN

No Name in Data Engineers
+
Ну и под кейс, который я выбирал, в принципе подходили всякие MPP типа гринплама и вертики. Гринплам он, кстати, на первое место поставил, но дальше каким-то образом оказались Кафка и постгря, которые, мягко говоря, вообще про другое.
источник

DP

Dmitriy Pavlov in Data Engineers
А какие вы пункты выбрали?
источник

NN

No Name in Data Engineers
Olap, большие данные, много джойнов, схема эволюшн, транзакции, без джсонов, загрузка батчами
источник

NN

No Name in Data Engineers
Другие не помню, закрыл уже.
источник

NN

No Name in Data Engineers
Мне кажется, что при таком подходе ни кафка, ни постгря не должны в топе быть.
источник

DP

Dmitriy Pavlov in Data Engineers
Вы правы, Кафка всплывает некорректно, коэффициент в одном вопросе поплыл. Но в остальном кстати норм:
источник

DP

Dmitriy Pavlov in Data Engineers
источник

DP

Dmitriy Pavlov in Data Engineers
Кафку поправим, спасибо!
источник

NN

No Name in Data Engineers
Ок, а постгря разве норм? Это, в общем-то, oltp, в которую вроде предпочтительнее строками писать, ну и так далее - не лучшее аналитическое решение при большем объеме данных, полагаю.
Эластик я лично не юзал, но мне казалось, что у него довольно узкий кейс применения, в первую очередь связанный с быстрым процессингом больших массивов текста.
Что такое Яндекс дата прок - не знаю, не могу прокомментировать.
источник

AZ

Anton Zadorozhniy in Data Engineers
кмк сама концепция такого опросника ошибочная, почему должно быть что-то одно? когда я замысливаю архитектуру я пытаюсь решить бизнес задачи, декомпозировать их и разнести на компоненты; к примеру мои лучшие архитектуры транзакционных систем гибридные, с кассандрой и CP базой; кафка и объектный сторадж тоже есть практически в любой современной архитектуре
источник

NN

No Name in Data Engineers
Да и кликхаус не пройдет, наверное, по критерию с кучей джойнов.
Хотя я не знаю, как там у него сейчас с этим дела обстоят, последний раз его трогал, кажется, году в 19-м.
источник