Давай с конца: читать невыравненные данные нельзя, потому что иначе можно получить в конце строки сегфолт. Значит, надо выравнивать. Значит, перед SSE-реализацией нужен обычный, олдскульный побайтовый цикл для 0-7 элементов. И фиг знает, влезет ли такое в ограничения или нет.