Телеграмм чат группы hadoopusers страница 1338

Centos 7.5, ssd везде начали , ram 32 gb, второй датацентр будет в другой сети с задержкой до 10 секунд в пике самой большой нагрузки а обычно задержки до полусекунды, поэтому писать будем в первую сеть

источник

15:46пожаловаться #4

Жмака in Data Engineers

Старый Хрыч

главное замените cms на g1, а в случае если планируете больше 128 гб оперативы на ноду то и jvm не openjdk нужна будет

Столько не планируем. Пока open jdk. На оракл вроде лицензия уже нужна

источник

15:47пожаловаться #5

СХ

Старый Хрыч in Data Engineers

Жмака

Столько не планируем. Пока open jdk. На оракл вроде лицензия уже нужна

а оракловая и не нужна, потом скину какая нужна

источник

15:47пожаловаться #6

Alex in Data Engineers

Старый Хрыч

главное замените cms на g1, а в случае если планируете больше 128 гб оперативы на ноду то и jvm не openjdk нужна будет

Наши нарезают пачку машин на хост, каждая jvm на свой диск ходит

источник

15:47пожаловаться #7

Жмака in Data Engineers

Старый Хрыч

а оракловая и не нужна, потом скину какая нужна

СХ

Старый Хрыч in Data Engineers

Жмака

Столько не планируем. Пока open jdk. На оракл вроде лицензия уже нужна

https://www.azul.com/downloads/zulu/

источник

15:49пожаловаться #9

Alex in Data Engineers

Ради интереса: а кто-то уже пробовал амазоновскую jdk в проде? А то они некоторые перфоманс фиксы из 11 в свою сборку 8ки бекпортили

источник

15:50пожаловаться #10

СХ

Старый Хрыч in Data Engineers

Alex

амазоновскую тип юзал на фриноде, по тестам азуловская лучше была

источник

15:50пожаловаться #11

СХ

Старый Хрыч in Data Engineers

я когда людям планировал проект на кассандре на 9 пб(3 чистых), думал повешусь

источник

15:51пожаловаться #12

СХ

Старый Хрыч in Data Engineers

Жмака

sticker.webp

(34.57 Кб)

там кстати 4 кассандра вышла почти, там будет 11 джава и zgc

источник

16:15пожаловаться #13

СХ

Старый Хрыч in Data Engineers

простестить не забудьте

источник

16:15пожаловаться #14

Жмака in Data Engineers

100%. Все в тест, но требует срочно, потому что надо мигрировать с монги, которая загибается. Не уверен, что успеем перейти на 4, тем более что она только выйдет. Думаю потом можно будет мигрировать через новый датацентр с 3 на 4

источник

16:17пожаловаться #15

СХ

Старый Хрыч in Data Engineers

Жмака

скорее через спарк

источник

16:18пожаловаться #16

Жмака in Data Engineers

Уже думал через стриминг, но опасаюсь что спарк локально грохнется и тогда миграция стагет головной болью, а на кластер серверы не выделят

источник

16:22пожаловаться #17

Evgeniy Ignatiev in Data Engineers

По поводу repair много полезнго написано на https://thelastpickle.com/blog/

Thelastpickle

Our Blog • The Last Pickle

Apache Cassandra is a complex and rapidly changing data system. As our team of experts learn, we regularly contribute blog posts to help share our knowledge and build the collaborative knowledge base.

источник

17:54пожаловаться #18

Evgeniy Ignatiev in Data Engineers

А с платной Cassandra лучше не перебарщивать, поддержка Datastax это и зависимость от их подписки.

источник

17:54пожаловаться #19

2019 June 03

Oleg Alenkin in Data Engineers

Можете подсказать- не могу понять, почему я могу прочитать паркет файл из s3a из консоли спарк, но получаю ошибку

py4j.protocol.Py4JJavaError: An error occurred while calling o38.parquet.
: java.lang.RuntimeException: java.lang.ClassNotFoundException: Class org.apache.hadoop.fs.s3a.S3AFileSystem not found

при попытке загрузить тот же файл из python c помощью pyspark

источник

00:32пожаловаться #20