я бы наверное забирал в eax данные кусками типа lodsd потом бы искал там байт 7f
find:
mov cx, 4
cmp al, bl
je bingo
shr eax, 8
loop find
и если 7f нашел, тогда бы уже позиционировался на пару байт назад для align-на и сравнил. Можно на avx перенести вообще будет летать