Size: a a a

2021 March 18

EK

Evgeniy Kozhuhovskiy in Tarantool
может после предыдущего падения похерился снэпшот?
источник

EK

Evgeniy Kozhuhovskiy in Tarantool
грохну его, перезалью данные, поглядим
источник

DL

Dmitry Lukovkin in Tarantool
Evgeniy Kozhuhovskiy
теперь упал вот так:


2021-03-18 05:50:56.399 [603] main/103/init.lua C> Tarantool 2.6.2-0-g34d504d
2021-03-18 05:50:56.399 [603] main/103/init.lua C> log level 3
2021-03-18 05:51:00.495 [603] main/103/init.lua C> leaving orphan mode
2021-03-18 05:51:01.699 [603] main C> entering the event loop
2021-03-18 05:52:57.452 [603] iproto xrow.c:141 E> ER_INVALID_MSGPACK: Invalid MsgPack - packet header
2021-03-18 05:56:49.312 [603] main/165/main C> not enough memory
Очень похоже на наши проблемы. По всей видимости нехватает lua памяти
источник

DL

Dmitry Lukovkin in Tarantool
box.info.memory().lua понаблюдайте
источник

EK

Evgeniy Kozhuhovskiy in Tarantool
спасибо
источник

KT

Kanat Taipakhov in Tarantool
Добрый день! У меня развернут двухнодовый актив-актив кластер (v2.3). Разворачивал с помощью одного lua файла, где указал в replication два URI серверов и оба в read_only = false;
Хотел обновиться до 2.6.2, начал собирать кластер на двух тестовых ВМ. В доке написано, что лучше использовать картридж. Читаю доки по картриджу и не могу понять, как мне на нем сделать актив-актив кластер? Использоваться будет только БД и только InMemory.
Везде пишут про развертывание приложений, но пока нужна просто БД, может позже дойдем до приложений на lua) Может кто тыкнет на статью или как-то на пальцах расскажет как такую простую вещь сделать в картридже?
источник

DS

Dmitry Sharonov in Tarantool
там флажочек all_rw в настройках репликасета
источник

DS

Dmitry Sharonov in Tarantool
но картридж не связан с обновлением на 2.6, если вас все устраивало - живите как жили
источник

YD

Yaroslav Dynnikov in Tarantool
Я поясню про all_rw. В картридже репликация всегда фулмеш. Но по-умолчанию только один инстанс является rw (лидер), остальные ro. all_rw делает всех rw.
источник

DL

Dmitry Lukovkin in Tarantool
Не пинайте сильно, что не совсем по теме чата вопрос. Но может посоветует кто в какую сторону смотреть. Ситуация такая. Есть серврер физический на Centos, на нем крутится гошный софт и тарантул. Гошный софт создает подключения к сайтам в интернете и запрашивает/отдает данные. Все идет хорошо, но с периодичностью где то раз в 2 дня на серваке перестает работать сеть, ни Гошный софт, ни тарантул ни ssh не могут установить какие либо сетевые соединения (при этом сам сервак, судя по логам работает нормально). После рестарта сервера счетчик идет с нуля и снова где то на 2-й день все по новой. В логах сервера ошибок нет от слова вообще.(ни в dmesg ни в message) Пытаюсь обвесить сервер метриками сейчас, но трудно сразу угадать куда смотреть. Из предположений моих только то, что Гошный софт копит коннекты и при превышении net.netfilter.nf_conntrack_max просто не устанавливаются новые соединения. Пытаюсь получить подтверждение этому. Еще вариант с проблемами сетевой карты или кабелем(но это на мой взгляд менее вероятно)
Есть у кого идеи что можно помониторить, чтоб поймать за руку бандита?
источник

KT

Kanat Taipakhov in Tarantool
Получается репликасет из двух мастер нод и все? Там какой-то роутер, не совсем догоняю для чего он)
источник

DS

Dmitry Sharonov in Tarantool
роутеры только когда шардированное приложение нужны
источник

MA

Mons Anderson in Tarantool
Dmitry Lukovkin
Не пинайте сильно, что не совсем по теме чата вопрос. Но может посоветует кто в какую сторону смотреть. Ситуация такая. Есть серврер физический на Centos, на нем крутится гошный софт и тарантул. Гошный софт создает подключения к сайтам в интернете и запрашивает/отдает данные. Все идет хорошо, но с периодичностью где то раз в 2 дня на серваке перестает работать сеть, ни Гошный софт, ни тарантул ни ssh не могут установить какие либо сетевые соединения (при этом сам сервак, судя по логам работает нормально). После рестарта сервера счетчик идет с нуля и снова где то на 2-й день все по новой. В логах сервера ошибок нет от слова вообще.(ни в dmesg ни в message) Пытаюсь обвесить сервер метриками сейчас, но трудно сразу угадать куда смотреть. Из предположений моих только то, что Гошный софт копит коннекты и при превышении net.netfilter.nf_conntrack_max просто не устанавливаются новые соединения. Пытаюсь получить подтверждение этому. Еще вариант с проблемами сетевой карты или кабелем(но это на мой взгляд менее вероятно)
Есть у кого идеи что можно помониторить, чтоб поймать за руку бандита?
я бы смотрел счётчики
можно через тулзы, можно через /proc: /proc/net/dev, /proc/net/netstat, /proc/net/sockstat, /proc/net/nf_conntrack, /proc/net/snmp
в состоянии "нормально" и в состоянии "сломалось"
источник

DL

Dmitry Lukovkin in Tarantool
Ну вот сейчас вот такой список параметров мониторим:
источник

KT

Kanat Taipakhov in Tarantool
Dmitry Sharonov
роутеры только когда шардированное приложение нужны
понял, спасибо! попробую
источник

KO

Konstantin Osipov in Tarantool
Dmitry Lukovkin
Очень похоже на наши проблемы. По всей видимости нехватает lua памяти
у вас во время работы, а  у ребят на старте. там ещё нет lua
источник

DL

Dmitry Lukovkin in Tarantool
Konstantin Osipov
у вас во время работы, а  у ребят на старте. там ещё нет lua
Я на первое сообщение ориентировался:
Evgeniy Kozhuhovskiy, [18.03.21 08:46]
Добрый день!
Подскажите, тарантул падает вот таким образом через некоторое время работы:

2021-03-17 23:17:50.927 [598] snapshot/101/main C> 0.3M rows written
2021-03-17 23:17:51.177 [598] snapshot/101/main C> 0.4M rows written
2021-03-17 23:17:51.421 [598] snapshot/101/main C> 0.5M rows written
2021-03-18 00:04:53.710 [598] main/4719/main C> not enough memory


физической памяти на сервере при этом точно хватает
источник

DL

Dmitry Lukovkin in Tarantool
Это прям как у нас 1 в 1
источник

KO

Konstantin Osipov in Tarantool
у них упало во время записи снапшота
источник

KO

Konstantin Osipov in Tarantool
соседние сообщения в логе об этом говорят. при этом неясно как снапшот скорраптился, и как это могло привести к падению на старте.
источник