Optimize 32bit memset/memcpy with SSE2/SSSE3.
[glibc.git] / sysdeps / i386 / i686 / multiarch / bzero.S
blob8c740a42dc19238b5bb972a49d35038a8351a766
1 /* Multiple versions of bzero
2    Copyright (C) 2010 Free Software Foundation, Inc.
3    Contributed by Intel Corporation.
4    This file is part of the GNU C Library.
6    The GNU C Library is free software; you can redistribute it and/or
7    modify it under the terms of the GNU Lesser General Public
8    License as published by the Free Software Foundation; either
9    version 2.1 of the License, or (at your option) any later version.
11    The GNU C Library is distributed in the hope that it will be useful,
12    but WITHOUT ANY WARRANTY; without even the implied warranty of
13    MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
14    Lesser General Public License for more details.
16    You should have received a copy of the GNU Lesser General Public
17    License along with the GNU C Library; if not, write to the Free
18    Software Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA
19    02111-1307 USA.  */
21 #include <sysdep.h>
22 #include <init-arch.h>
24 /* Define multiple versions only for the definition in lib.  */
25 #ifndef NOT_IN_libc
26 # ifdef SHARED
27         .section        .gnu.linkonce.t.__i686.get_pc_thunk.bx,"ax",@progbits
28         .globl  __i686.get_pc_thunk.bx
29         .hidden __i686.get_pc_thunk.bx
30         .p2align 4
31         .type   __i686.get_pc_thunk.bx,@function
32 __i686.get_pc_thunk.bx:
33         movl    (%esp), %ebx
34         ret
36         .text
37 ENTRY(__bzero)
38         .type   __bzero, @gnu_indirect_function
39         pushl   %ebx
40         cfi_adjust_cfa_offset (4)
41         cfi_rel_offset (ebx, 0)
42         call    __i686.get_pc_thunk.bx
43         addl    $_GLOBAL_OFFSET_TABLE_, %ebx
44         cmpl    $0, KIND_OFFSET+__cpu_features@GOTOFF(%ebx)
45         jne     1f
46         call    __init_cpu_features
47 1:      leal    __bzero_ia32@GOTOFF(%ebx), %eax
48         testl   $bit_SSE2, CPUID_OFFSET+index_SSE2+__cpu_features@GOTOFF(%ebx)
49         jz      2f
50         leal    __bzero_sse2@GOTOFF(%ebx), %eax
51         testl   $bit_Fast_Rep_String, FEATURE_OFFSET+index_Fast_Rep_String+__cpu_features@GOTOFF(%ebx)
52         jz      2f
53         leal    __bzero_sse2_rep@GOTOFF(%ebx), %eax
54 2:      popl    %ebx
55         cfi_adjust_cfa_offset (-4)
56         cfi_restore (ebx)
57         ret
58 END(__bzero)
59 # else
60         .text
61 ENTRY(__bzero)
62         .type   __bzero, @gnu_indirect_function
63         cmpl    $0, KIND_OFFSET+__cpu_features
64         jne     1f
65         call    __init_cpu_features
66 1:      leal    __bzero_ia32, %eax
67         testl   $bit_SSE2, CPUID_OFFSET+index_SSE2+__cpu_features
68         jz      2f
69         leal    __bzero_sse2, %eax
70         testl   $bit_Fast_Rep_String, FEATURE_OFFSET+index_Fast_Rep_String+__cpu_features
71         jz      2f
72         leal    __bzero_sse2_rep, %eax
73 2:      ret
74 END(__bzero)
75 # endif
77 # undef ENTRY
78 # define ENTRY(name) \
79         .type __bzero_ia32, @function; \
80         .p2align 4; \
81         __bzero_ia32: cfi_startproc; \
82         CALL_MCOUNT
83 # undef END
84 # define END(name) \
85         cfi_endproc; .size __bzero_ia32, .-__bzero_ia32
87 # ifdef SHARED
88 #  undef libc_hidden_builtin_def
89 /* IFUNC doesn't work with the hidden functions in shared library since
90    they will be called without setting up EBX needed for PLT which is
91    used by IFUNC.  */
92 #  define libc_hidden_builtin_def(name) \
93         .globl __GI___bzero; __GI___bzero = __bzero_ia32
94 # endif
95 #endif
97 #include "../bzero.S"