X5: Assembler optimised remote LCD update. Speedup: 3 times @11MHz, 3.3 times @45MHz...
[Rockbox.git] / apps / dsp_arm.S
blob1abfd349836764984761022032c28f23ee1ef821
1 /***************************************************************************
2  *             __________               __   ___.
3  *   Open      \______   \ ____   ____ |  | _\_ |__   _______  ___
4  *   Source     |       _//  _ \_/ ___\|  |/ /| __ \ /  _ \  \/  /
5  *   Jukebox    |    |   (  <_> )  \___|    < | \_\ (  <_> > <  <
6  *   Firmware   |____|_  /\____/ \___  >__|_ \|___  /\____/__/\_ \
7  *                     \/            \/     \/    \/            \/
8  * $Id$
9  *
10  * Copyright (C) 2006 Thom Johansen
11  *
12  * All files in this archive are subject to the GNU General Public License.
13  * See the file COPYING in the source tree root for full license agreement.
14  *
15  * This software is distributed on an "AS IS" basis, WITHOUT WARRANTY OF ANY
16  * KIND, either express or implied.
17  *
18  ****************************************************************************/
20     .section .text
21     .global apply_crossfeed 
22 apply_crossfeed:
23     @ unfortunately, we ended up in a bit of a register squeeze here, and need
24     @ to keep both the count and the delay line index on the stack :/
25     stmdb sp!, { r4-r11, lr }           @ stack modified regs
26     ldmia r0, { r2-r3 }                 @ r2 = src[0], r3 = src[1]
27     
28     ldr r0, =crossfeed_data
29     ldmia r0!, { r4-r11 }               @ load direct gain and filter data
30     ldr r12, [r0, #13*4*2]              @ fetch delay line index
31     add r0, r0, r12, lsl #3             @ r0 = &delay[index][0]
32     stmdb sp!, { r1, r12 }              @ stack count and delay line index
33     /* Register usage in loop:
34      * r0 = &delay[index][0], r1 = accumulator high, r2 = src[0], r3 = src[1],
35      * r4 = direct gain, r5-r7 = b0, b1, a1 (filter coefs),
36      * r8-r11 = filter history, r12 = temp, r14 = accumulator low
37      */
38 .cfloop:
39     smull r14, r1, r6, r8               @ acc = b1*dr[n - 1]
40     smlal r14, r1, r7, r9               @ acc += a1*y_l[n - 1]
41     ldr r8, [r0, #4]                    @ r8 = dr[n]
42     smlal r14, r1, r5, r8               @ acc += b0*dr[n]
43     mov r9, r1, lsl #1                  @ fix format for filter history
44     ldr r12, [r2]                       @ load left input
45     smlal r14, r1, r4, r12              @ acc += gain*x_l[n] 
46     mov r1, r1, lsl #1                  @ fix format
47     str r1, [r2], #4                    @ save result
48     
49     smull r14, r1, r6, r10              @ acc = b1*dl[n - 1]
50     smlal r14, r1, r7, r11              @ acc += a1*y_r[n - 1]
51     ldr r10, [r0]                       @ r10 = dl[n]
52     str r12, [r0], #4                   @ save left input to delay line
53     smlal r14, r1, r5, r10              @ acc += b0*dl[n]
54     mov r11, r1, lsl #1                 @ fix format for filter history
55     ldr r12, [r3]                       @ load right input
56     smlal r14, r1, r4, r12              @ acc += gain*x_r[n]
57     str r12, [r0], #4                   @ save right input to delay line
58     mov r1, r1, lsl #1                  @ fix format
59     str r1, [r3], #4                    @ save result
61     ldr r12, [sp, #4]                   @ fetch delay line index from stack
62     add r12, r12, #1                    @ increment index
63     cmp r12, #13                        @ do we need to wrap to start of delay?
64     moveq r12, #0                       @ yes, wrap index to 0
65     subeq r0, r0, #13*4*2               @ also wrap back delay line ptr to start
66     str r12, [sp, #4]                   @ stack delay line index again
67     
68     ldr r1, [sp]                        @ fetch count from stack
69     subs r1, r1, #1                     @ are we finished?
70     strne r1, [sp]                      @ nope, save count back to stack
71     bne .cfloop
72     
73     @ save data back to struct
74     ldr r0, =crossfeed_data + 4*4
75     stmia r0, { r8-r11 }                @ save filter history
76     str r12, [r0, #30*4]                @ save delay line index
77     add sp, sp, #8                      @ remove temp variables from stack
78     ldmia sp!, { r4-r11, pc }