benchmark inputs for atan
[glibc.git] / sysdeps / i386 / i586 / memcpy.S
blob49f165241cd26fa6cc6a24c1bb018f92e19b46fb
1 /* Highly optimized version for i586.
2    Copyright (C) 1997-2013 Free Software Foundation, Inc.
3    This file is part of the GNU C Library.
4    Contributed by Ulrich Drepper <drepper@cygnus.com>, 1997.
6    The GNU C Library is free software; you can redistribute it and/or
7    modify it under the terms of the GNU Lesser General Public
8    License as published by the Free Software Foundation; either
9    version 2.1 of the License, or (at your option) any later version.
11    The GNU C Library is distributed in the hope that it will be useful,
12    but WITHOUT ANY WARRANTY; without even the implied warranty of
13    MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
14    Lesser General Public License for more details.
16    You should have received a copy of the GNU Lesser General Public
17    License along with the GNU C Library; if not, see
18    <http://www.gnu.org/licenses/>.  */
20 #include <sysdep.h>
21 #include "asm-syntax.h"
23 /* BEWARE: `#ifdef memcpy' means that memcpy is redefined as `mempcpy',
24    and the return value is the byte after the last one copied in
25    the destination. */
26 #define MEMPCPY_P (defined memcpy)
28 #define PARMS   4+8     /* space for 2 saved regs */
29 #define RTN     PARMS
30 #define DEST    RTN
31 #define SRC     DEST+4
32 #define LEN     SRC+4
34         .text
35 #if defined PIC && !defined NOT_IN_libc
36 ENTRY (__memcpy_chk)
37         movl    12(%esp), %eax
38         cmpl    %eax, 16(%esp)
39         jb      HIDDEN_JUMPTARGET (__chk_fail)
40 END (__memcpy_chk)
41 #endif
42 ENTRY (memcpy)
44         pushl   %edi
45         cfi_adjust_cfa_offset (4)
46         pushl   %esi
47         cfi_adjust_cfa_offset (4)
49         movl    DEST(%esp), %edi
50         cfi_rel_offset (edi, 4)
51         movl    SRC(%esp), %esi
52         cfi_rel_offset (esi, 0)
53         movl    LEN(%esp), %ecx
54         movl    %edi, %eax
56         /* We need this in any case.  */
57         cld
59         /* Cutoff for the big loop is a size of 32 bytes since otherwise
60            the loop will never be entered.  */
61         cmpl    $32, %ecx
62         jbe     L(1)
64         negl    %eax
65         andl    $3, %eax
66         subl    %eax, %ecx
67         xchgl   %eax, %ecx
69         rep; movsb
71         movl    %eax, %ecx
72         subl    $32, %ecx
73         js      L(2)
75         /* Read ahead to make sure we write in the cache since the stupid
76            i586 designers haven't implemented read-on-write-miss.  */
77         movl    (%edi), %eax
78 L(3):   movl    28(%edi), %edx
80         /* Now correct the loop counter.  Please note that in the following
81            code the flags are not changed anymore.  */
82         subl    $32, %ecx
84         movl    (%esi), %eax
85         movl    4(%esi), %edx
86         movl    %eax, (%edi)
87         movl    %edx, 4(%edi)
88         movl    8(%esi), %eax
89         movl    12(%esi), %edx
90         movl    %eax, 8(%edi)
91         movl    %edx, 12(%edi)
92         movl    16(%esi), %eax
93         movl    20(%esi), %edx
94         movl    %eax, 16(%edi)
95         movl    %edx, 20(%edi)
96         movl    24(%esi), %eax
97         movl    28(%esi), %edx
98         movl    %eax, 24(%edi)
99         movl    %edx, 28(%edi)
101         leal    32(%esi), %esi
102         leal    32(%edi), %edi
104         jns     L(3)
106         /* Correct extra loop counter modification.  */
107 L(2):   addl    $32, %ecx
108 #if !MEMPCPY_P
109         movl    DEST(%esp), %eax
110 #endif
112 L(1):   rep; movsb
114 #if MEMPCPY_P
115         movl    %edi, %eax
116 #endif
118         popl    %esi
119         cfi_adjust_cfa_offset (-4)
120         cfi_restore (esi)
121         popl    %edi
122         cfi_adjust_cfa_offset (-4)
123         cfi_restore (edi)
125         ret
126 END (memcpy)
127 #if !MEMPCPY_P
128 libc_hidden_builtin_def (memcpy)
129 #endif