Size: a a a

2021 July 15

A

AE in Data Engineers
в бэклоге))
источник

N

Nikita Blagodarnyy in Data Engineers
это варн все также работает
источник

GP

Grigory Pomadchin in Data Engineers
неа, по-разному
источник

GP

Grigory Pomadchin in Data Engineers
ну логи как минимум разные высираются
источник

GP

Grigory Pomadchin in Data Engineers
так что похоже разные приложухи но я не смотрел даже
источник

АЖ

Андрей Жуков... in Data Engineers
источник

N

Nikita Blagodarnyy in Data Engineers
В каком плане? У меня также в консоль все контейнеры срут
источник

AZ

Anton Zadorozhniy in Data Engineers
В таких проектах лучше сначала собрать хоть какой-то end-to-end процесс, хоть на файлах или sqlite , а потом менять куски; мне пока неясно зачем вам монга или тем более кассандра
источник

A

AE in Data Engineers
end-to-end присутствует, условно несколько python-скриптов, которые складывают на диск сырое, сырое в postgres
монга как выбор в качестве сырого хранилища
кассандара также + познакомиться
по обсуждению склонился к minio
источник

A

AE in Data Engineers
условно на работе меня проектировать dwh не допустят, а дома никто не мешает, но хочется +- по уму начать делать
источник
2021 July 16

АК

Анатолий Клюса... in Data Engineers
Подскажите, кто в курсе, планирую в оракле под виндами и линухом одно поле со ссылкой на внеш. файл (bfile), записей будет всего около полумиллиарда, потом, возможно, вырастет, но не сильно, раза в два допустим...
Соответственно, будет храниться много преимущественно мелких файлов до 1КБ размером.
Файлы будут разложены по подкаталогам.
Вопрос: ntfs, ext4 (главное сейчас - нтфс) норм потянут такое к-во файлов или стоит отформатировать такой раздел, где они будут складироваться, в какой-то другой фс или нтфс, но с другими размерами кластера и пр?
Читал, что макс. к-во файлов в нтфс около 4 млрд, пока это меня устраивает, но может оно начнет дико тупить уже при миллиарде?
Цифры, конечно, для бигдаты не бог весть какие, но у нас и особо не бигдата, хотя, для обычной файловой системы столько файлов - это уже бигдата)
источник

VK

Viacheslav Korchagin in Data Engineers
Похоже на правду )
По пункту три добавил бы ещё :
Миграции
Сперва импорт из монги в стейдж постгри
Потом все в стейбл и отдельная таблица с актуальным срезом
источник

A

AE in Data Engineers
Благодарю
источник

NN

No Name in Data Engineers
Ребят, а вот из тех, кто юзает mlflow - как решали проблему отсутствия ролевой модели? Сами что-то писали?
источник
2021 July 17

СХ

Старый Хрыч... in Data Engineers
кто spark 2.4 c java 11  и zgc тестил?
источник

GP

Grigory Pomadchin in Data Engineers
Spark 2.4 ждк11 не поддерживает
источник

GP

Grigory Pomadchin in Data Engineers
только со спарк 3
источник

Р

Роксана in Data Engineers
Ребят привет, увлеклась Data, буду data engineerом. Наткнулась на сайт datacampcom, поделитесь пожалуйста отзывами. Прошла первую часть intermediate sql, дальше просит купить подписку, стоит ли покупать или можно найти инфу бесплатно
источник

Р

Роксана in Data Engineers
Ого не знала спасибо большое
источник

Р

Роксана in Data Engineers
Сэкономили мне 100 долларов)
источник