В такой архитектуре есть очень интуитивный способ оценить вклад каждого слова в прогноз.
Берём последний LSTM слой, и делаем в нём return_sequences=True (это можно реализовать, создав такую же модель, но с return_sequences=True, и клонировав в неё веса старой).
Такая модель будет предсказывать вероятность каждого класса не в конце текста, а для каждого слова. Т.е. мы на выходе получим не 6 вероятностей, а матрицу max_comment_len*6 вероятностей.
В этой матрице можно посчитать разность всех соседних строк, и она как раз и будет вкладом каждого слова. Т.е. слово, на котором вероятность класса i сильно растёт, очевидно вносит большой вклад в этот класс в данном предложении.