x86-64: Optimize memcmp-avx2-movbe.S for short difference
commite94c31035739b693c3699b3c4cad0206631fbee7
authorH.J. Lu <hjl.tools@gmail.com>
Tue, 27 Jun 2017 14:55:00 +0000 (27 07:55 -0700)
committerH.J. Lu <hjl.tools@gmail.com>
Tue, 27 Jun 2017 14:55:00 +0000 (27 07:55 -0700)
treeb0666d325944a10e78d4dd6333c19c108c50d74c
parent6980be7cbf4f108a4936ac64242f58340d56c806
x86-64: Optimize memcmp-avx2-movbe.S for short difference

Check the first 32 bytes before checking size when size >= 32 bytes
to avoid unnecessary branch if the difference is in the first 32 bytes.
Replace vpmovmskb/subl/jnz with vptest/jnc.

On Haswell, the new version is as fast as the previous one.  On Skylake,
the new version is a little bit faster.

* sysdeps/x86_64/multiarch/memcmp-avx2-movbe.S (MEMCMP): Check
the first 32 bytes before checking size when size >= 32 bytes.
Replace vpmovmskb/subl/jnz with vptest/jnc.
ChangeLog
sysdeps/x86_64/multiarch/memcmp-avx2-movbe.S