Медленная реализация - на современных процессорах весьма быстрая - они сами быстрее. К тому же сниппеты под ассемблером лучше будут гибкими, чем универсальными. Гибкими - т.е. под каждую разновидность данных свой алгоритм. Так под небольшие строки - а БОЛЬШИНСТВО строк в программировании небольшие - он быстрее, а вот если программистом предполагаются большие строки можно предусмотреть другой, или если программистом предполагается что блоки выравнены на границу 4 байт - можно двордами и т.д. Под ассемблером всегда лучше не универсальный вариант - а простейший на самом часто встречающемся наборе данных, а там где начинаются частности используются частные реализации.