Add support for VDPAU video out, including hardware decoding.
[mplayer/glamo.git] / libmpeg2 / motion_comp_arm_s.S
blobf6c3d7df8e556e6a9063b5ae36987758bb0682eb
1 @ motion_comp_arm_s.S
2 @ Copyright (C) 2004 AGAWA Koji <i (AT) atty (DOT) jp>
4 @ This file is part of mpeg2dec, a free MPEG-2 video stream decoder.
5 @ See http://libmpeg2.sourceforge.net/ for updates.
7 @ mpeg2dec is free software; you can redistribute it and/or modify
8 @ it under the terms of the GNU General Public License as published by
9 @ the Free Software Foundation; either version 2 of the License, or
10 @ (at your option) any later version.
12 @ mpeg2dec is distributed in the hope that it will be useful,
13 @ but WITHOUT ANY WARRANTY; without even the implied warranty of
14 @ MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
15 @ GNU General Public License for more details.
17 @ You should have received a copy of the GNU General Public License
18 @ along with mpeg2dec; if not, write to the Free Software
19 @ Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307  USA
22         .text
24 @ ----------------------------------------------------------------
25         .align
26         .global MC_put_o_16_arm
27 MC_put_o_16_arm:
28         @@ void func(uint8_t * dest, const uint8_t * ref, int stride, int height)
29         pld [r1]
30         stmfd sp!, {r4-r11, lr} @ R14 is also called LR
31         and r4, r1, #3
32         adr r5, MC_put_o_16_arm_align_jt
33         add r5, r5, r4, lsl #2
34         ldr pc, [r5]
36 MC_put_o_16_arm_align0:
37         ldmia r1, {r4-r7}
38         add r1, r1, r2
39         pld [r1]
40         stmia r0, {r4-r7}
41         subs r3, r3, #1
42         add r0, r0, r2
43         bne MC_put_o_16_arm_align0
44         ldmfd sp!, {r4-r11, pc} @@ update PC with LR content.
46 .macro  PROC shift
47         ldmia r1, {r4-r8}
48         add r1, r1, r2
49         mov r9, r4, lsr #(\shift)
50         pld [r1]
51         mov r10, r5, lsr #(\shift)
52         orr r9, r9, r5, lsl #(32-\shift)
53         mov r11, r6, lsr #(\shift)
54         orr r10, r10, r6, lsl #(32-\shift)
55         mov r12, r7, lsr #(\shift)
56         orr r11, r11, r7, lsl #(32-\shift)
57         orr r12, r12, r8, lsl #(32-\shift)
58         stmia r0, {r9-r12}
59         subs r3, r3, #1
60         add r0, r0, r2
61 .endm
63 MC_put_o_16_arm_align1:
64         and r1, r1, #0xFFFFFFFC
65 1:      PROC(8)
66         bne 1b
67         ldmfd sp!, {r4-r11, pc} @@ update PC with LR content.
68 MC_put_o_16_arm_align2:
69         and r1, r1, #0xFFFFFFFC
70 1:      PROC(16)
71         bne 1b
72         ldmfd sp!, {r4-r11, pc} @@ update PC with LR content.
73 MC_put_o_16_arm_align3:
74         and r1, r1, #0xFFFFFFFC
75 1:      PROC(24)
76         bne 1b
77         ldmfd sp!, {r4-r11, pc} @@ update PC with LR content.
78 MC_put_o_16_arm_align_jt:
79         .word MC_put_o_16_arm_align0
80         .word MC_put_o_16_arm_align1
81         .word MC_put_o_16_arm_align2
82         .word MC_put_o_16_arm_align3
84 @ ----------------------------------------------------------------
85         .align
86         .global MC_put_o_8_arm
87 MC_put_o_8_arm:
88         @@ void func(uint8_t * dest, const uint8_t * ref, int stride, int height)
89         pld [r1]
90         stmfd sp!, {r4-r10, lr} @ R14 is also called LR
91         and r4, r1, #3
92         adr r5, MC_put_o_8_arm_align_jt
93         add r5, r5, r4, lsl #2
94         ldr pc, [r5]
95 MC_put_o_8_arm_align0:
96         ldmia r1, {r4-r5}
97         add r1, r1, r2
98         pld [r1]
99         stmia r0, {r4-r5}
100         add r0, r0, r2
101         subs r3, r3, #1
102         bne MC_put_o_8_arm_align0
103         ldmfd sp!, {r4-r10, pc} @@ update PC with LR content.
105 .macro  PROC8 shift
106         ldmia r1, {r4-r6}
107         add r1, r1, r2
108         mov r9, r4, lsr #(\shift)
109         pld [r1]
110         mov r10, r5, lsr #(\shift)
111         orr r9, r9, r5, lsl #(32-\shift)
112         orr r10, r10, r6, lsl #(32-\shift)
113         stmia r0, {r9-r10}
114         subs r3, r3, #1
115         add r0, r0, r2
116 .endm
118 MC_put_o_8_arm_align1:
119         and r1, r1, #0xFFFFFFFC
120 1:      PROC8(8)
121         bne 1b
122         ldmfd sp!, {r4-r10, pc} @@ update PC with LR content.
124 MC_put_o_8_arm_align2:
125         and r1, r1, #0xFFFFFFFC
126 1:      PROC8(16)
127         bne 1b
128         ldmfd sp!, {r4-r10, pc} @@ update PC with LR content.
130 MC_put_o_8_arm_align3:
131         and r1, r1, #0xFFFFFFFC
132 1:      PROC8(24)
133         bne 1b
134         ldmfd sp!, {r4-r10, pc} @@ update PC with LR content.
136 MC_put_o_8_arm_align_jt:
137         .word MC_put_o_8_arm_align0
138         .word MC_put_o_8_arm_align1
139         .word MC_put_o_8_arm_align2
140         .word MC_put_o_8_arm_align3
142 @ ----------------------------------------------------------------
143 .macro  AVG_PW rW1, rW2
144         mov \rW2, \rW2, lsl #24
145         orr \rW2, \rW2, \rW1, lsr #8
146         eor r9, \rW1, \rW2
147         and \rW2, \rW1, \rW2
148         and r10, r9, r12
149         add \rW2, \rW2, r10, lsr #1
150         and r10, r9, r11
151         add \rW2, \rW2, r10
152 .endm
154         .align
155         .global MC_put_x_16_arm
156 MC_put_x_16_arm:
157         @@ void func(uint8_t * dest, const uint8_t * ref, int stride, int height)
158         pld [r1]
159         stmfd sp!, {r4-r11,lr} @ R14 is also called LR
160         and r4, r1, #3
161         adr r5, MC_put_x_16_arm_align_jt
162         ldr r11, [r5]
163         mvn r12, r11
164         add r5, r5, r4, lsl #2
165         ldr pc, [r5, #4]
167 .macro  ADJ_ALIGN_QW shift, R0, R1, R2, R3, R4
168         mov \R0, \R0, lsr #(\shift)
169         orr \R0, \R0, \R1, lsl #(32 - \shift)
170         mov \R1, \R1, lsr #(\shift)
171         orr \R1, \R1, \R2, lsl #(32 - \shift)
172         mov \R2, \R2, lsr #(\shift)
173         orr \R2, \R2, \R3, lsl #(32 - \shift)
174         mov \R3, \R3, lsr #(\shift)
175         orr \R3, \R3, \R4, lsl #(32 - \shift)
176         mov \R4, \R4, lsr #(\shift)
177 @       and \R4, \R4, #0xFF
178 .endm
180 MC_put_x_16_arm_align0:
181         ldmia r1, {r4-r8}
182         add r1, r1, r2
183         pld [r1]
184         AVG_PW r7, r8
185         AVG_PW r6, r7
186         AVG_PW r5, r6
187         AVG_PW r4, r5
188         stmia r0, {r5-r8}
189         subs r3, r3, #1
190         add r0, r0, r2
191         bne MC_put_x_16_arm_align0
192         ldmfd sp!, {r4-r11,pc} @@ update PC with LR content.
193 MC_put_x_16_arm_align1:
194         and r1, r1, #0xFFFFFFFC
195 1:      ldmia r1, {r4-r8}
196         add r1, r1, r2
197         pld [r1]
198         ADJ_ALIGN_QW 8, r4, r5, r6, r7, r8
199         AVG_PW r7, r8
200         AVG_PW r6, r7
201         AVG_PW r5, r6
202         AVG_PW r4, r5
203         stmia r0, {r5-r8}
204         subs r3, r3, #1
205         add r0, r0, r2
206         bne 1b
207         ldmfd sp!, {r4-r11,pc} @@ update PC with LR content.
208 MC_put_x_16_arm_align2:
209         and r1, r1, #0xFFFFFFFC
210 1:      ldmia r1, {r4-r8}
211         add r1, r1, r2
212         pld [r1]
213         ADJ_ALIGN_QW 16, r4, r5, r6, r7, r8
214         AVG_PW r7, r8
215         AVG_PW r6, r7
216         AVG_PW r5, r6
217         AVG_PW r4, r5
218         stmia r0, {r5-r8}
219         subs r3, r3, #1
220         add r0, r0, r2
221         bne 1b
222         ldmfd sp!, {r4-r11,pc} @@ update PC with LR content.
223 MC_put_x_16_arm_align3:
224         and r1, r1, #0xFFFFFFFC
225 1:      ldmia r1, {r4-r8}
226         add r1, r1, r2
227         pld [r1]
228         ADJ_ALIGN_QW 24, r4, r5, r6, r7, r8
229         AVG_PW r7, r8
230         AVG_PW r6, r7
231         AVG_PW r5, r6
232         AVG_PW r4, r5
233         stmia r0, {r5-r8}
234         subs r3, r3, #1
235         add r0, r0, r2
236         bne 1b
237         ldmfd sp!, {r4-r11,pc} @@ update PC with LR content.
238 MC_put_x_16_arm_align_jt:
239         .word 0x01010101
240         .word MC_put_x_16_arm_align0
241         .word MC_put_x_16_arm_align1
242         .word MC_put_x_16_arm_align2
243         .word MC_put_x_16_arm_align3
245 @ ----------------------------------------------------------------
246         .align
247         .global MC_put_x_8_arm
248 MC_put_x_8_arm:
249         @@ void func(uint8_t * dest, const uint8_t * ref, int stride, int height)
250         pld [r1]
251         stmfd sp!, {r4-r11,lr} @ R14 is also called LR
252         and r4, r1, #3
253         adr r5, MC_put_x_8_arm_align_jt
254         ldr r11, [r5]
255         mvn r12, r11
256         add r5, r5, r4, lsl #2
257         ldr pc, [r5, #4]
259 .macro  ADJ_ALIGN_DW shift, R0, R1, R2
260         mov \R0, \R0, lsr #(\shift)
261         orr \R0, \R0, \R1, lsl #(32 - \shift)
262         mov \R1, \R1, lsr #(\shift)
263         orr \R1, \R1, \R2, lsl #(32 - \shift)
264         mov \R2, \R2, lsr #(\shift)
265 @       and \R4, \R4, #0xFF
266 .endm
268 MC_put_x_8_arm_align0:
269         ldmia r1, {r4-r6}
270         add r1, r1, r2
271         pld [r1]
272         AVG_PW r5, r6
273         AVG_PW r4, r5
274         stmia r0, {r5-r6}
275         subs r3, r3, #1
276         add r0, r0, r2
277         bne MC_put_x_8_arm_align0
278         ldmfd sp!, {r4-r11,pc} @@ update PC with LR content.
279 MC_put_x_8_arm_align1:
280         and r1, r1, #0xFFFFFFFC
281 1:      ldmia r1, {r4-r6}
282         add r1, r1, r2
283         pld [r1]
284         ADJ_ALIGN_DW 8, r4, r5, r6
285         AVG_PW r5, r6
286         AVG_PW r4, r5
287         stmia r0, {r5-r6}
288         subs r3, r3, #1
289         add r0, r0, r2
290         bne 1b
291         ldmfd sp!, {r4-r11,pc} @@ update PC with LR content.
292 MC_put_x_8_arm_align2:
293         and r1, r1, #0xFFFFFFFC
294 1:      ldmia r1, {r4-r6}
295         add r1, r1, r2
296         pld [r1]
297         ADJ_ALIGN_DW 16, r4, r5, r6
298         AVG_PW r5, r6
299         AVG_PW r4, r5
300         stmia r0, {r5-r6}
301         subs r3, r3, #1
302         add r0, r0, r2
303         bne 1b
304         ldmfd sp!, {r4-r11,pc} @@ update PC with LR content.
305 MC_put_x_8_arm_align3:
306         and r1, r1, #0xFFFFFFFC
307 1:      ldmia r1, {r4-r6}
308         add r1, r1, r2
309         pld [r1]
310         ADJ_ALIGN_DW 24, r4, r5, r6
311         AVG_PW r5, r6
312         AVG_PW r4, r5
313         stmia r0, {r5-r6}
314         subs r3, r3, #1
315         add r0, r0, r2
316         bne 1b
317         ldmfd sp!, {r4-r11,pc} @@ update PC with LR content.
318 MC_put_x_8_arm_align_jt:
319         .word 0x01010101
320         .word MC_put_x_8_arm_align0
321         .word MC_put_x_8_arm_align1
322         .word MC_put_x_8_arm_align2
323         .word MC_put_x_8_arm_align3