Size: a a a

2019 June 02

СХ

Старый Хрыч in Data Engineers
какие у вас ноды
источник

СХ

Старый Хрыч in Data Engineers
по оборудованию и по вм\контейнерам
источник

СХ

Старый Хрыч in Data Engineers
Жмака
С диском, много записей будет. Есть может best practices для тюнинга os, гиды в этом случае?
главное замените cms на g1, а в случае если планируете больше 128 гб оперативы на ноду то и jvm не openjdk нужна будет
источник

Ж

Жмака in Data Engineers
Старый Хрыч
какие у вас ноды
Centos 7.5, ssd  везде начали , ram 32 gb, второй датацентр будет в другой сети с задержкой до 10 секунд в пике самой большой нагрузки а обычно задержки до полусекунды, поэтому писать будем в первую сеть
источник

Ж

Жмака in Data Engineers
Старый Хрыч
главное замените cms на g1, а в случае если планируете больше 128 гб оперативы на ноду то и jvm не openjdk нужна будет
Столько не планируем. Пока open jdk. На оракл вроде лицензия уже нужна
источник

СХ

Старый Хрыч in Data Engineers
Жмака
Столько не планируем. Пока open jdk. На оракл вроде лицензия уже нужна
а оракловая и не нужна, потом скину какая нужна
источник

A

Alex in Data Engineers
Старый Хрыч
главное замените cms на g1, а в случае если планируете больше 128 гб оперативы на ноду то и jvm не openjdk нужна будет
Наши нарезают пачку машин на хост, каждая jvm на свой диск ходит
источник

Ж

Жмака in Data Engineers
Старый Хрыч
а оракловая и не нужна, потом скину какая нужна
источник

СХ

Старый Хрыч in Data Engineers
Жмака
Столько не планируем. Пока open jdk. На оракл вроде лицензия уже нужна
источник

A

Alex in Data Engineers
Ради интереса: а кто-то уже пробовал амазоновскую jdk в проде? А то они некоторые  перфоманс фиксы из 11 в свою сборку 8ки бекпортили
источник

СХ

Старый Хрыч in Data Engineers
Alex
Ради интереса: а кто-то уже пробовал амазоновскую jdk в проде? А то они некоторые  перфоманс фиксы из 11 в свою сборку 8ки бекпортили
амазоновскую тип юзал на фриноде,  по тестам азуловская лучше была
источник

СХ

Старый Хрыч in Data Engineers
я когда людям планировал проект на кассандре на 9 пб(3 чистых), думал повешусь
источник

СХ

Старый Хрыч in Data Engineers
там кстати 4 кассандра вышла почти, там будет 11 джава и zgc
источник

СХ

Старый Хрыч in Data Engineers
простестить не забудьте
источник

Ж

Жмака in Data Engineers
100%. Все в тест, но требует срочно, потому что надо мигрировать с монги, которая загибается. Не уверен, что успеем перейти на 4, тем более что она только выйдет. Думаю потом можно будет мигрировать через новый датацентр с 3 на 4
источник

СХ

Старый Хрыч in Data Engineers
Жмака
100%. Все в тест, но требует срочно, потому что надо мигрировать с монги, которая загибается. Не уверен, что успеем перейти на 4, тем более что она только выйдет. Думаю потом можно будет мигрировать через новый датацентр с 3 на 4
скорее через спарк
источник

Ж

Жмака in Data Engineers
Уже думал через стриминг, но  опасаюсь что спарк локально грохнется и тогда миграция стагет головной болью, а на кластер серверы не выделят
источник

EI

Evgeniy Ignatiev in Data Engineers
По поводу repair много полезнго написано на https://thelastpickle.com/blog/
источник

EI

Evgeniy Ignatiev in Data Engineers
А с платной Cassandra лучше не перебарщивать, поддержка Datastax это и зависимость от их подписки.
источник
2019 June 03

OA

Oleg Alenkin in Data Engineers
Можете подсказать- не могу понять, почему я могу прочитать паркет файл из s3a из консоли спарк, но получаю ошибку
py4j.protocol.Py4JJavaError: An error occurred while calling o38.parquet.
: java.lang.RuntimeException: java.lang.ClassNotFoundException: Class org.apache.hadoop.fs.s3a.S3AFileSystem not found

при попытке загрузить тот же файл из python c помощью pyspark
источник