apps/dsp_arm.S

   1 /***************************************************************************
   2  *             __________               __   ___.
   3  *   Open      \______   \ ____   ____ |  | _\_ |__   _______  ___
   4  *   Source     |       _//  _ \_/ ___\|  |/ /| __ \ /  _ \  \/  /
   5  *   Jukebox    |    |   (  <_> )  \___|    < | \_\ (  <_> > <  <
   6  *   Firmware   |____|_  /\____/ \___  >__|_ \|___  /\____/__/\_ \
   7  *                     \/            \/     \/    \/            \/
   8  * $Id$
   9  *
  10  * Copyright (C) 2006-2007 Thom Johansen
  11  *
  12  * All files in this archive are subject to the GNU General Public License.
  13  * See the file COPYING in the source tree root for full license agreement.
  14  *
  15  * This software is distributed on an "AS IS" basis, WITHOUT WARRANTY OF ANY
  16  * KIND, either express or implied.
  17  *
  18  ****************************************************************************/
  19
  20 /****************************************************************************
  21  *  void channels_process_sound_chan_mono(int count, int32_t *buf[])
  22  *
  23  *  NOTE: The following code processes two samples at once. When count is odd,
  24  *        there is an additional obsolete sample processed, which will not be
  25  *        used by the calling functions.
  26  */
  27     .section .icode, "ax", %progbits
  28     .align  2
  29     .global channels_process_sound_chan_mono
  30     .type   channels_process_sound_chan_mono, %function
  31 channels_process_sound_chan_mono:
  32     @ input: r0 = count, r1 = buf
  33     stmfd   sp!, {r4-r6, lr}
  34     ldmia   r1, {r2-r3}                @ r4 = buf[0], r5 = buf[1]
  35
  36 .monoloop:
  37     ldmia   r2, {r4-r5}
  38     ldmia   r3, {r6,lr}
  39     mov     r4, r4, asr #1             @ r4 = r4/2
  40     add     r4, r4, r6, asr #1         @ r4 = r4 + r6/2 = (buf[0]+buf[1])/2
  41     mov     r5, r5, asr #1             @ r5 = r5/2
  42     add     r5, r5, lr, asr #1         @ r5 = r5 + lr/2 = (buf[0]+buf[1])/2
  43     stmia   r2!, {r4-r5}
  44     stmia   r3!, {r4-r5}
  45     subs    r0, r0, #2
  46     bgt     .monoloop
  47
  48     ldmfd   sp!, {r4-r6, pc}
  49 .monoend:
  50     .size   channels_process_sound_chan_mono,.monoend-channels_process_sound_chan_mono
  51
  52 /****************************************************************************
  53  *  void channels_process_sound_chan_karaoke(int count, int32_t *buf[])
  54  *  NOTE: The following code processes two samples at once. When count is odd,
  55  *        there is an additional obsolete sample processed, which will not be
  56  *        used by the calling functions.
  57  */
  58     .section .icode, "ax", %progbits
  59     .align  2
  60     .global channels_process_sound_chan_karaoke
  61     .type   channels_process_sound_chan_karaoke, %function
  62 channels_process_sound_chan_karaoke:
  63     @ input: r0 = count, r1 = buf
  64     stmfd   sp!, {r4-r6, lr}
  65     ldmia   r1, {r2-r3}                @ r4 = buf[0], r5 = buf[1]
  66
  67 .karaokeloop:
  68     ldmia   r2, {r4-r5}
  69     ldmia   r3, {r6,lr}
  70     mov     r6, r6, asr #1             @ r6 = r6/2
  71     rsb     r4, r6, r4, asr #1         @ r4 = -r6 + r4/2 = (buf[0]-buf[1])/2
  72     rsb     r6, r4, #0                 @ r6 = -r4
  73     mov     lr, lr, asr #1             @ lr = lr/2
  74     rsb     r5, lr, r5, asr #1         @ r5 = -lr + r5/2 = (buf[0]-buf[1])/2
  75     rsb     lr, r5, #0                 @ lr = -r5
  76     stmia   r2!, {r4-r5}
  77     stmia   r3!, {r6,lr}
  78     subs    r0, r0, #2
  79     bgt     .karaokeloop
  80
  81     ldmfd   sp!, {r4-r6, pc}
  82 .karaokeend:
  83     .size   channels_process_sound_chan_karaoke,.karaokeend-channels_process_sound_chan_karaoke
  84
  85 /****************************************************************************
  86  *  void sample_output_mono(int count, struct dsp_data *data,
  87                                int32_t *src[], int16_t *dst)
  88  *  NOTE: The following code processes two samples at once. When count is odd,
  89  *        there is an additional obsolete sample processed, which will not be
  90  *        used by the calling functions.
  91  */
  92     .section .icode, "ax", %progbits
  93     .align  2
  94     .global sample_output_mono
  95     .type   sample_output_mono, %function
  96 sample_output_mono:
  97     @ input: r0 = count, r1 = data, r2 = src, r3 = dst
  98     stmfd   sp!, {r4-r9, lr}
  99
 100     ldr     r4, [r2]                   @ r4 = src[0]
 101     ldr     r5, [r1]                   @ lr = data->output_scale
 102     sub     r1, r5, #1                 @ r1 = r5-1
 103     mov     r2, #1
 104     mov     r2, r2, asl r1             @ r2 = 1<<r1 = 1 << (scale-1)
 105     mvn     r1, #0x8000                @ r1 needed for clipping
 106     mov     r8, #0xff00
 107     orr     r8, r8, #0xff              @ r8 needed for masking
 108
 109 .somloop:
 110     ldmia   r4!, {r6-r7}
 111     add     r6, r6, r2
 112     mov     r6, r6, asr r5             @ r6 = (r6 + 1<<(scale-1)) >> scale
 113     mov     lr, r6, asr #15
 114     teq     lr, lr, asr #31
 115     eorne   r6, r1, lr, asr #31        @ Clip (-32768...+32767)
 116     add     r7, r7, r2
 117     mov     r7, r7, asr r5             @ r7 = (r7 + 1<<(scale-1)) >> scale
 118     mov     lr, r7, asr #15
 119     teq     lr, lr, asr #31
 120     eorne   r7, r1, lr, asr #31        @ Clip (-32768...+32767)
 121
 122     and     r6, r6, r8
 123     orr     r6, r6, r6, asl #16        @ pack first 2 halfwords into 1 word
 124     and     r7, r7, r8
 125     orr     r7, r7, r7, asl #16        @ pack last 2 halfwords into 1 word
 126     stmia   r3!, {r6-r7}
 127
 128     subs    r0, r0, #2
 129     bgt     .somloop
 130
 131     ldmfd   sp!, {r4-r9, pc}
 132 .somend:
 133     .size   sample_output_mono,.somend-sample_output_mono
 134
 135 /****************************************************************************
 136  * void sample_output_stereo(int count, struct dsp_data *data,
 137                                  int32_t *src[], int16_t *dst)
 138  *  NOTE: The following code processes two samples at once. When count is odd,
 139  *        there is an additional obsolete sample processed, which will not be
 140  *        used by the calling functions.
 141  */
 142     .section .icode, "ax", %progbits
 143     .align  2
 144     .global sample_output_stereo
 145     .type   sample_output_stereo, %function
 146 sample_output_stereo:
 147     @ input: r0 = count, r1 = data, r2 = src, r3 = dst
 148     stmfd   sp!, {r4-r11, lr}
 149
 150     ldmia   r2, {r4-r5}                @ r4 = src[0], r5 = src[1]
 151     ldr     r6, [r1]                   @ r6 = data->output_scale
 152     sub     r1, r6, #1                 @ r1 = r6-1
 153     mov     r2, #1
 154     mov     r2, r2, asl r1             @ r2 = 1<<r1 = 1 << (scale-1)
 155     mvn     r1, #0x8000                @ r1 needed for clipping
 156     mov     r11, #0xff00
 157     orr     r11, r11, #0xff            @ r11 needed for masking
 158
 159 .sosloop:
 160     ldmia   r4!, {r7-r8}
 161     add     r7, r7, r2
 162     mov     r7, r7, asr r6             @ r7 = (r7 + 1<<(scale-1)) >> scale
 163     mov     lr, r7, asr #15
 164     teq     lr, lr, asr #31
 165     eorne   r7, r1, lr, asr #31        @ Clip (-32768...+32767)
 166     add     r8, r8, r2
 167     mov     r8, r8, asr r6             @ r8 = (r8 + 1<<(scale-1)) >> scale
 168     mov     lr, r8, asr #15
 169     teq     lr, lr, asr #31
 170     eorne   r8, r1, lr, asr #31        @ Clip (-32768...+32767)
 171
 172     ldmia   r5!, {r9-r10}
 173     add     r9, r9, r2
 174     mov     r9, r9, asr r6             @ r9 = (r9 + 1<<(scale-1)) >> scale
 175     mov     lr, r9, asr #15
 176     teq     lr, lr, asr #31
 177     eorne   r9, r1, lr, asr #31        @ Clip (-32768...+32767)
 178     add     r10, r10, r2
 179     mov     r10, r10, asr r6           @ r10 = (r10 + 1<<(scale-1)) >> scale
 180     mov     lr, r10, asr #15
 181     teq     lr, lr, asr #31
 182     eorne   r10, r1, lr, asr #31       @ Clip (-32768...+32767)
 183
 184     and     r7, r7, r11
 185     orr     r9, r7, r9, asl #16        @ pack first 2 halfwords into 1 word
 186     and     r8, r8, r11
 187     orr     r10, r8, r10, asl #16      @ pack last 2 halfwords into 1 word
 188     stmia   r3!, {r9-r10}
 189
 190     subs    r0, r0, #2
 191     bgt     .sosloop
 192
 193     ldmfd   sp!, {r4-r11, pc}
 194 .sosend:
 195     .size   sample_output_stereo,.sosend-sample_output_stereo
 196
 197 /****************************************************************************
 198  * void apply_crossfeed(int count, int32_t* src[])
 199  */
 200     .section .text
 201     .global apply_crossfeed
 202 apply_crossfeed:
 203     @ unfortunately, we ended up in a bit of a register squeeze here, and need
 204     @ to keep the count on the stack :/
 205     stmdb   sp!, { r4-r11, lr }        @ stack modified regs
 206     ldmia   r1, { r2-r3 }              @ r2 = src[0], r3 = src[1]
 207
 208     ldr     r1, =crossfeed_data
 209     ldmia   r1!, { r4-r11 }            @ load direct gain and filter data
 210     add     r12, r1, #13*4*2           @ calculate end of delay
 211     stmdb   sp!, { r0, r12 }           @ stack count and end of delay adr
 212     ldr     r0, [r1, #13*4*2]          @ fetch current delay line address
 213
 214     /* Register usage in loop:
 215      * r0 = &delay[index][0], r1 = accumulator high, r2 = src[0], r3 = src[1],
 216      * r4 = direct gain, r5-r7 = b0, b1, a1 (filter coefs),
 217      * r8-r11 = filter history, r12 = temp, r14 = accumulator low
 218      */
 219 .cfloop:
 220     smull   r14, r1, r6, r8            @ acc = b1*dr[n - 1]
 221     smlal   r14, r1, r7, r9            @ acc += a1*y_l[n - 1]
 222     ldr     r8, [r0, #4]               @ r8 = dr[n]
 223     smlal   r14, r1, r5, r8            @ acc += b0*dr[n]
 224     mov     r9, r1, lsl #1             @ fix format for filter history
 225     ldr     r12, [r2]                  @ load left input
 226     smlal   r14, r1, r4, r12           @ acc += gain*x_l[n]
 227     mov     r1, r1, lsl #1             @ fix format
 228     str     r1, [r2], #4               @ save result
 229
 230     smull   r14, r1, r6, r10           @ acc = b1*dl[n - 1]
 231     smlal   r14, r1, r7, r11           @ acc += a1*y_r[n - 1]
 232     ldr     r10, [r0]                  @ r10 = dl[n]
 233     str     r12, [r0], #4              @ save left input to delay line
 234     smlal   r14, r1, r5, r10           @ acc += b0*dl[n]
 235     mov     r11, r1, lsl #1            @ fix format for filter history
 236     ldr     r12, [r3]                  @ load right input
 237     smlal   r14, r1, r4, r12           @ acc += gain*x_r[n]
 238     str     r12, [r0], #4              @ save right input to delay line
 239     mov     r1, r1, lsl #1             @ fix format
 240     str     r1, [r3], #4               @ save result
 241
 242     ldr     r12, [sp, #4]              @ fetch delay line end addr from stack
 243     cmp     r0, r12                    @ need to wrap to start of delay?
 244     subeq   r0, r0, #13*4*2            @ wrap back delay line ptr to start
 245
 246     ldr     r1, [sp]                   @ fetch count from stack
 247     subs    r1, r1, #1                 @ are we finished?
 248     strne   r1, [sp]                   @ nope, save count back to stack
 249     bne     .cfloop
 250
 251     @ save data back to struct
 252     ldr     r12, =crossfeed_data + 4*4
 253     stmia   r12, { r8-r11 }            @ save filter history
 254     str     r0, [r12, #30*4]           @ save delay line index
 255     add     sp, sp, #8                 @ remove temp variables from stack
 256     ldmia   sp!, { r4-r11, pc }
 257 .cfend:
 258     .size   apply_crossfeed,.cfend-apply_crossfeed
 259
 260 /****************************************************************************
 261  * int dsp_downsample(int count, struct dsp_data *data,
 262  *                    in32_t *src[], int32_t *dst[])
 263  */
 264     .section    .text
 265     .global     dsp_downsample
 266 dsp_downsample:
 267     stmdb   sp!, { r4-r11, lr }     @ stack modified regs
 268     ldmib   r1, { r5-r6 }           @ r5 = num_channels,r6 = resample_data.delta
 269     sub     r5, r5, #1              @ pre-decrement num_channels for use
 270     add     r4, r1, #12             @ r4 = &resample_data.phase
 271     mov     r12, #0xff
 272     orr     r12, r12, #0xff00       @ r12 = 0xffff
 273 .dschannel_loop:
 274     ldr     r1, [r4]                @ r1 = resample_data.phase
 275     ldr     r7, [r2, r5, lsl #2]    @ r7 = s = src[ch - 1]
 276     ldr     r8, [r3, r5, lsl #2]    @ r8 = d = dst[ch - 1]
 277     add     r9, r4, #4              @ r9 = &last_sample[0]
 278     ldr     r10, [r9, r5, lsl #2]   @ r10 = last_sample[ch - 1]
 279     sub     r11, r0, #1
 280     ldr     r14, [r7, r11, lsl #2]  @ load last sample in s[] ...
 281     str     r14, [r9, r5, lsl #2]   @ and write as next frame's last_sample
 282     movs    r9, r1, lsr #16         @ r9 = pos = phase >> 16
 283     ldreq   r11, [r7]               @ if pos = 0, load src[0] and jump into loop
 284     beq     .dsuse_last_start
 285     cmp     r9, r0                  @ if pos >= count, we're already done
 286     bge     .dsloop_skip
 287
 288     @ Register usage in loop:
 289     @ r0 = count, r1 = phase, r4 = &resample_data.phase, r5 = cur_channel,
 290     @ r6 = delta, r7 = s, r8 = d, r9 = pos, r10 = s[pos - 1], r11 = s[pos]
 291 .dsloop:
 292     add     r9, r7, r9, lsl #2      @ r9 = &s[pos]
 293     ldmda   r9, { r10, r11 }        @ r10 = s[pos - 1], r11 = s[pos]
 294 .dsuse_last_start:
 295     sub     r11, r11, r10           @ r11 = diff = s[pos] - s[pos - 1]
 296     @ keep frac in lower bits to take advantage of multiplier early termination
 297     and     r9, r1, r12             @ frac = phase & 0xffff
 298     smull   r9, r14, r11, r9
 299     add     r10, r10, r14, lsl #16
 300     add     r10, r10, r9, lsr #16   @ r10 = out = s[pos - 1] + frac*diff
 301     str     r10, [r8], #4           @ *d++ = out
 302     add     r1, r1, r6              @ phase += delta
 303     mov     r9, r1, lsr #16         @ pos = phase >> 16
 304     cmp     r9, r0                  @ pos < count?
 305     blt     .dsloop                 @ yup, do more samples
 306 .dsloop_skip:
 307     subs    r5, r5, #1
 308     bpl     .dschannel_loop         @ if (--ch) >= 0, do another channel
 309     sub     r1, r1, r0, lsl #16     @ wrap phase back to start
 310     str     r1, [r4]                @ store back
 311     ldr     r1, [r3]                @ r1 = &dst[0]
 312     sub     r8, r8, r1              @ dst - &dst[0]
 313     mov     r0, r8, lsr #2          @ convert bytes->samples
 314     ldmia   sp!, { r4-r11, pc }     @ ... and we're out
 315 .dsend:
 316     .size   dsp_downsample,.dsend-dsp_downsample
 317
 318 /****************************************************************************
 319  * int dsp_upsample(int count, struct dsp_data *dsp,
 320  *                  in32_t *src[], int32_t *dst[])
 321  */
 322     .section    .text
 323     .global     dsp_upsample
 324 dsp_upsample:
 325     stmdb   sp!, { r4-r11, lr }     @ stack modified regs
 326     ldmib   r1, { r5-r6 }           @ r5 = num_channels,r6 = resample_data.delta
 327     sub     r5, r5, #1              @ pre-decrement num_channels for use
 328     add     r4, r1, #12             @ r4 = &resample_data.phase
 329     stmdb   sp!, { r0, r4 }         @ stack count and &resample_data.phase
 330 .uschannel_loop:
 331     ldr     r12, [r4]               @ r12 = resample_data.phase
 332     mov     r1, r12, ror #16        @ swap halfword positions, we'll use carry
 333                                     @ to detect pos increments
 334     ldr     r7, [r2, r5, lsl #2]    @ r7 = s = src[ch - 1]
 335     ldr     r8, [r3, r5, lsl #2]    @ r8 = d = dst[ch - 1]
 336     add     r9, r4, #4              @ r9 = &last_sample[0]
 337     ldr     r10, [r9, r5, lsl #2]   @ r10 = last_sample[ch - 1]
 338     sub     r11, r0, #1
 339     ldr     r14, [r7, r11, lsl #2]  @ load last sample in s[] ...
 340     str     r14, [r9, r5, lsl #2]   @ and write as next frame's last_sample
 341     add     r9, r7, r0, lsl #2      @ r9 = src_end = &src[count]
 342     movs    r14, r12, lsr #16       @ pos = resample_data.phase >> 16
 343     beq     .usstart_0              @ pos = 0
 344     cmp     r14, r0                 @ if pos >= count, we're already done
 345     bge     .usloop_skip
 346     add     r7, r7, r14, lsl #2     @ r7 = &s[pos]
 347     ldr     r10, [r7, #-4]          @ r11 = s[pos - 1]
 348     b       .usstart_0
 349
 350     @ Register usage in loop:
 351     @ r0 = count, r1 = phase, r4 = &resample_data.phase, r5 = cur_channel,
 352     @ r6 = delta, r7 = s, r8 = d, r9 = src_end, r10 = s[pos - 1], r11 = s[pos]
 353 .usloop_1:
 354     mov     r10, r11                @ r10 = previous sample
 355 .usstart_0:
 356     ldr     r11, [r7], #4           @ r11 = next sample
 357     sub     r0, r11, r10            @ r0 = s[pos] - s[pos - 1]
 358 .usloop_0:
 359     mov     r4, r1, lsr #16         @ r4 = frac = phase >> 16
 360     smull   r12, r14, r4, r0
 361     add     r14, r10, r14, lsl #16
 362     add     r14, r14, r12, lsr #16  @ r14 = out = s[pos - 1] + frac*diff
 363     str     r14, [r8], #4           @ *d++ = out
 364     adds    r1, r1, r6, lsl #16     @ phase += delta << 16
 365     bcc     .usloop_0               @ if carry is set, pos is incremented
 366     cmp     r7, r9                  @ if s < src_end, do another sample
 367     blo     .usloop_1
 368 .usloop_skip:
 369     subs    r5, r5, #1
 370     ldmia   sp, { r0, r4 }          @ reload count and &resample_data.phase
 371     bpl     .uschannel_loop         @ if (--ch) >= 0, do another channel
 372     mov     r1, r1, ror #16         @ wrap phase back to start of next frame
 373     str     r1, [r4]                @ store back
 374     ldr     r1, [r3]                @ r1 = &dst[0]
 375     sub     r8, r8, r1              @ dst - &dst[0]
 376     mov     r0, r8, lsr #2          @ convert bytes->samples
 377     add     sp, sp, #8              @ adjust stack for temp variables
 378     ldmia   sp!, { r4-r11, pc }     @ ... and we're out
 379 .usend:
 380     .size       dsp_upsample,.usend-dsp_upsample
 381