Редких слов недостаточно: вдруг у вас где-то в "INFO: Processing entry 12345: Арбуз" в логе данные проскакивают, тогда оно будет на такие данные триггериться.
Тогда без кластеризации не обойтись. Можно делать аналог word2vec и его кластеризацию, и потом определять нормальные кластера и неправильные кластера. И вообще не кластера.