Update.
[glibc.git] / sysdeps / i386 / i586 / memcpy.S
blob9116c8d7410a8b77617909f65481a0bd33ade01d
1 /* Highly optimized version for i586.
2    Copyright (C) 1997 Free Software Foundation, Inc.
3    This file is part of the GNU C Library.
4    Contributed by Ulrich Drepper <drepper@cygnus.com>, 1997.
6    The GNU C Library is free software; you can redistribute it and/or
7    modify it under the terms of the GNU Library General Public License as
8    published by the Free Software Foundation; either version 2 of the
9    License, or (at your option) any later version.
11    The GNU C Library is distributed in the hope that it will be useful,
12    but WITHOUT ANY WARRANTY; without even the implied warranty of
13    MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
14    Library General Public License for more details.
16    You should have received a copy of the GNU Library General Public
17    License along with the GNU C Library; see the file COPYING.LIB.  If not,
18    write to the Free Software Foundation, Inc., 59 Temple Place - Suite 330,
19    Boston, MA 02111-1307, USA.  */
21 #include <sysdep.h>
22 #include "asm-syntax.h"
25    INPUT PARAMETERS:
26    dst          (sp + 4)
27    src          (sp + 8)
28    len          (sp + 12)
32         .text
33 ENTRY (memcpy)
34         pushl   %edi
35         pushl   %esi
37         movl    12(%esp), %edi  /* dst */
38         movl    16(%esp), %esi  /* src */
39         movl    20(%esp), %ecx  /* len */
40         movl    %edi, %eax
42         /* We need this in any case.  */
43         cld
45         /* Cutoff for the big loop is a size of 32 bytes since otherwise
46            the loop will never be entered.  */
47         cmpl    $32, %ecx
48         jbe     L(1)
50         negl    %eax
51         andl    $3, %eax
52         subl    %eax, %ecx
53         xchgl   %eax, %ecx
55         rep; movsb
57         movl    %eax, %ecx
58         subl    $32, %ecx
59         js      L(2)
61         /* Read ahead to make sure we write in the cache since the stupid
62            i586 designers haven't implemented read-on-write-miss.  */
63         movl    (%edi), %eax
64 L(3):   movl    28(%edi), %edx
66         /* Now correct the loop counter.  Please note that in the following
67            code the flags are not changed anymore.  */
68         subl    $32, %ecx
70         movl    (%esi), %eax
71         movl    4(%esi), %edx
72         movl    %eax, (%edi)
73         movl    %edx, 4(%edi)
74         movl    8(%esi), %eax
75         movl    12(%esi), %edx
76         movl    %eax, 8(%edi)
77         movl    %edx, 12(%edi)
78         movl    16(%esi), %eax
79         movl    20(%esi), %edx
80         movl    %eax, 16(%edi)
81         movl    %edx, 20(%edi)
82         movl    24(%esi), %eax
83         movl    28(%esi), %edx
84         movl    %eax, 24(%edi)
85         movl    %edx, 28(%edi)
87         leal    32(%esi), %esi
88         leal    32(%edi), %edi
90         jns     L(3)
92         /* Correct extra loop counter modification.  */
93 L(2):   addl    $32, %ecx
94 #ifndef memcpy
95         movl    12(%esp), %eax  /* dst */
96 #endif
98 L(1):   rep; movsb
100 #ifdef memcpy
101         movl    %edi, %eax
102 #endif
104         popl    %esi
105         popl    %edi
107         ret
108 END (memcpy)