fasttext штука полезная: скажем, вот есть тексты после ASR или OCR с опечатками и ошибками, вот и как их потом распознавать/классифицировать без char-ngrams?
Угу, принимается. Мне просто не приходится работать с опечатками. В fasttext напрягает то, что там близкими оказываются слова похожие по морфологии. Например, для "желтый" я ожидаю в похожих увидеть "синий", "красный", а получаю что-то типа "желтым", "желто", "желтеть". Вроде как идея, что fasttext будет использовать морфологию только когда слово редкое, например, с опечаткой, а получается, что всё сводится к поиску по н-граммам. Тогда вопрос зачем fasttext, давайте явно делать какой-нибудь char-cnn