firmware/target/arm/lcd-as-memframe.S

   1 /***************************************************************************
   2  *             __________               __   ___.
   3  *   Open      \______   \ ____   ____ |  | _\_ |__   _______  ___
   4  *   Source     |       _//  _ \_/ ___\|  |/ /| __ \ /  _ \  \/  /
   5  *   Jukebox    |    |   (  <_> )  \___|    < | \_\ (  <_> > <  <
   6  *   Firmware   |____|_  /\____/ \___  >__|_ \|___  /\____/__/\_ \
   7  *                     \/            \/     \/    \/            \/
   8  * $Id$
   9  *
  10  * Copyright (C) 2007 by Michael Sevakis
  11  *
  12  * ARM code for memory framebuffer LCDs
  13  *
  14  * This program is free software; you can redistribute it and/or
  15  * modify it under the terms of the GNU General Public License
  16  * as published by the Free Software Foundation; either version 2
  17  * of the License, or (at your option) any later version.
  18  *
  19  * This software is distributed on an "AS IS" basis, WITHOUT WARRANTY OF ANY
  20  * KIND, either express or implied.
  21  *
  22  ****************************************************************************/
  23
  24 #include "config.h"
  25 #include "cpu.h"
  26
  27 /****************************************************************************
  28  * void lcd_copy_buffer_rect(fb_data *dst, fb_data *src, int width,
  29  *                           int height);
  30  */
  31      .section    .icode, "ax", %progbits
  32      .align      2
  33      .global     lcd_copy_buffer_rect
  34      .type       lcd_copy_buffer_rect, %function
  35                                         @ r0 = dst
  36                                         @ r1 = src
  37                                         @ r2 = width
  38                                         @ r3 = height
  39 lcd_copy_buffer_rect:                   @
  40     stmfd   sp!, { r4-r12, lr }         @ save non-scratch regs
  41     mov     r5, r2                      @ r5 = cached width
  42     rsb     r4, r2, #LCD_WIDTH          @ r4 = LCD_WIDTH - width
  43 10: @ copy line                         @
  44     subs    r2, r5, #1                  @ r2 = width - 1
  45     beq     40f @ finish line           @ one halfword? skip to trailing copy
  46     tst     r0, #2                      @ word aligned?
  47     beq     20f @ rem copy              @ yes? skip to word copy
  48     ldrh    r6, [r1], #2                @ copy leading halfword
  49     subs    r2, r2, #1                  @
  50     strh    r6, [r0], #2                @
  51     ble     40f @ finish line           @ next line if lt or finish
  52                                         @ trailing halfword if eq
  53 20: @ rem copy                          @
  54     add     r14, r2, #1                 @ get remaining width mod 16 after word
  55                                         @ align (rw)
  56     and     r14, r14, #0xe              @ r14 = 0 (16), 2, 4, 6, 8, 10, 12, 14
  57     add     pc, pc, r14, lsl #3         @ branch to 32-byte align
  58     nop                                 @
  59     b       30f                         @ rw % 16 = 0 or 1? use octword loop
  60     nop                                 @
  61     nop                                 @
  62     nop                                 @
  63     ldr     r6, [r1], #4                @ rw % 16 = 2 or 3
  64     subs    r2, r2, #2                  @
  65     str     r6, [r0], #4                @
  66     b       25f @ copy up done          @
  67     ldmia   r1!, { r6-r7 }              @ rw % 16 = 4 or 5
  68     subs    r2, r2, #4                  @
  69     stmia   r0!, { r6-r7 }              @
  70     b       25f @ copy up done          @
  71     ldmia   r1!, { r6-r8 }              @ rw % 16 = 6 or 7
  72     subs    r2, r2, #6                  @
  73     stmia   r0!, { r6-r8 }              @
  74     b       25f @ copy up done          @
  75     ldmia   r1!, { r6-r9 }              @ rw % 16 = 8 or 9
  76     subs    r2, r2, #8                  @
  77     stmia   r0!, { r6-r9 }              @
  78     b       25f @ copy up done          @
  79     ldmia   r1!, { r6-r10 }             @ rw % 16 = 10 or 11
  80     subs    r2, r2, #10                 @
  81     stmia   r0!, { r6-r10 }             @
  82     b       25f @ copy up done          @
  83     ldmia   r1!, { r6-r11 }             @ rw % 16 = 12 or 13
  84     subs    r2, r2, #12                 @
  85     stmia   r0!, { r6-r11 }             @
  86     b       25f @ copy up done          @
  87     ldmia   r1!, { r6-r12 }             @ rw % 16 = 14 or 15
  88     subs    r2, r2, #14                 @
  89     stmia   r0!, { r6-r12 }             @
  90 25: @ copy up done                      @
  91     ble     40f @ finish line           @ no 32-byte segments remaining?
  92 30: @ octword loop                      @ copy 16 pixels per loop
  93     ldmia   r1!, { r6-r12, r14 }        @
  94     subs    r2, r2, #16                 @
  95     stmia   r0!, { r6-r12, r14 }        @
  96     bgt     30b @ octword loop          @
  97 40: @ finish line                       @
  98     ldreqh  r6, [r1], #2                @ finish last halfword if eq ...
  99     add     r1, r1, r4, lsl #1          @
 100     streqh  r6, [r0], #2                @ ...
 101     add     r0, r0, r4, lsl #1          @
 102     subs    r3, r3, #1                  @ next line
 103     bgt     10b @ copy line             @
 104     ldmfd   sp!, { r4-r12, pc }         @ restore regs and return
 105     .ltorg                              @ dump constant pool
 106     .size   lcd_copy_buffer_rect, .-lcd_copy_buffer_rect
 107
 108 /****************************************************************************
 109  * void lcd_write_yuv_420_lines(fb_data *dst,
 110  *                              unsigned char const * const src[3],
 111  *                              int width,
 112  *                              int stride);
 113  *
 114  *   |R|   |1.000000 -0.000001  1.402000| |Y'|
 115  *   |G| = |1.000000 -0.334136 -0.714136| |Pb|
 116  *   |B|   |1.000000  1.772000  0.000000| |Pr|
 117  *   Scaled, normalized, rounded and tweaked to yield RGB 565:
 118  *   |R|   |74   0 101| |Y' -  16| >> 9
 119  *   |G| = |74 -24 -51| |Cb - 128| >> 8
 120  *   |B|   |74 128   0| |Cr - 128| >> 9
 121  *
 122  * Write four RGB565 pixels in the following order on each loop:
 123  * 1 3 + > down
 124  * 2 4 \/ left
 125  */
 126     .section    .icode, "ax", %progbits
 127     .align      2
 128     .global     lcd_write_yuv420_lines
 129     .type       lcd_write_yuv420_lines, %function
 130 lcd_write_yuv420_lines:
 131                                         @ r0 = dst
 132                                         @ r1 = yuv_src
 133                                         @ r2 = width
 134                                         @ r3 = stride
 135     stmfd       sp!, { r4-r12 }         @ save non-scratch
 136     ldmia       r1, { r4, r5, r6 }      @ r4 = yuv_src[0] = Y'_p
 137                                         @ r5 = yuv_src[1] = Cb_p
 138                                         @ r6 = yuv_src[2] = Cr_p
 139                                         @ r1 = scratch
 140     sub         r3, r3, #1              @
 141 10: @ loop line                         @
 142     ldrb        r7, [r4], #1            @ r7 = *Y'_p++;
 143     ldrb        r8, [r5], #1            @ r8 = *Cb_p++;
 144     ldrb        r9, [r6], #1            @ r9 = *Cr_p++;
 145                                         @
 146     sub         r7, r7, #16             @ r7 = Y = (Y' - 16)*74
 147     add         r12, r7, r7, asl #2     @ actually (Y' - 16)*37 and shift right
 148     add         r7, r12, r7, asl #5     @ by one less when adding - same for all
 149                                         @
 150     sub         r8, r8, #128            @ Cb -= 128
 151     sub         r9, r9, #128            @ Cr -= 128
 152                                         @
 153     add         r10, r9, r9, asl #1     @ r10 = Cr*51 + Cb*24
 154     add         r10, r10, r10, asl #4   @
 155     add         r10, r10, r8, asl #3    @
 156     add         r10, r10, r8, asl #4    @
 157                                         @
 158     add         r11, r9, r9, asl #2     @ r9 = Cr*101
 159     add         r11, r11, r9, asl #5    @
 160     add         r9, r11, r9, asl #6     @
 161                                         @
 162     add         r8, r8, #2              @ r8 = bu = (Cb*128 + 128) >> 8
 163     mov         r8, r8, asr #2          @
 164     add         r9, r9, #256            @ r9 = rv = (r9 + 256) >> 9
 165     mov         r9, r9, asr #9          @
 166     rsb         r10, r10, #128          @ r10 = guv = (-r10 + 128) >> 8
 167     mov         r10, r10, asr #8        @
 168                                         @ compute R, G, and B
 169     add         r1, r8, r7, asr #8      @ r1  = b = (Y >> 9) + bu
 170     add         r11, r9, r7, asr #8     @ r11 = r = (Y >> 9) + rv
 171     add         r7, r10, r7, asr #7     @ r7  = g = (Y >> 8) + guv
 172                                         @
 173     orr         r12, r1, r11            @ check if clamping is needed...
 174     orr         r12, r12, r7, asr #1    @ ...at all
 175     cmp         r12, #31                @
 176     bls         15f @ no clamp          @
 177     cmp         r1, #31                 @ clamp b
 178     mvnhi       r1, r1, asr #31         @
 179     andhi       r1, r1, #31             @
 180     cmp         r11, #31                @ clamp r
 181     mvnhi       r11, r11, asr #31       @
 182     andhi       r11, r11, #31           @
 183     cmp         r7, #63                 @ clamp g
 184     mvnhi       r7, r7, asr #31         @
 185     andhi       r7, r7, #63             @
 186 15: @ no clamp                          @
 187                                         @
 188     ldrb        r12, [r4, r3]           @ r12 = Y' = *(Y'_p + stride)
 189                                         @
 190     orr         r1, r1, r7, lsl #5      @ r4 |= (g << 5)
 191     orr         r1, r1, r11, lsl #11    @ r4 = b | (r << 11)
 192
 193 #if LCD_WIDTH >= LCD_HEIGHT
 194     strh        r1, [r0]                @
 195 #elif LCD_WIDTH < 256
 196     strh        r1, [r0], #LCD_WIDTH    @ store pixel
 197 #else
 198     strh        r1, [r0]                @
 199 #endif
 200                                         @
 201     sub         r7, r12, #16            @ r7 = Y = (Y' - 16)*74
 202     add         r12, r7, r7, asl #2     @
 203     add         r7, r12, r7, asl #5     @
 204                                         @ compute R, G, and B
 205     add         r1, r8, r7, asr #8      @ r1  = b = (Y >> 9) + bu
 206     add         r11, r9, r7, asr #8     @ r11 = r = (Y >> 9) + rv
 207     add         r7, r10, r7, asr #7     @ r7  = g = (Y >> 8) + guv
 208                                         @
 209     orr         r12, r1, r11            @ check if clamping is needed...
 210     orr         r12, r12, r7, asr #1    @ ...at all
 211     cmp         r12, #31                @
 212     bls         15f @ no clamp          @
 213     cmp         r1, #31                 @ clamp b
 214     mvnhi       r1, r1, asr #31         @
 215     andhi       r1, r1, #31             @
 216     cmp         r11, #31                @ clamp r
 217     mvnhi       r11, r11, asr #31       @
 218     andhi       r11, r11, #31           @
 219     cmp         r7, #63                 @ clamp g
 220     mvnhi       r7, r7, asr #31         @
 221     andhi       r7, r7, #63             @
 222 15: @ no clamp                          @
 223                                         @
 224     ldrb        r12, [r4], #1           @ r12 = Y' = *(Y'_p++)
 225                                         @
 226     orr         r1, r1, r11, lsl #11    @ r1 = b | (r << 11)
 227     orr         r1, r1, r7, lsl #5      @ r1 |= (g << 5)
 228
 229 #if LCD_WIDTH >= LCD_HEIGHT
 230     add         r0, r0, #2*LCD_WIDTH    @
 231     strh        r1, [r0]        @ store pixel
 232     sub         r0, r0, #2*LCD_WIDTH    @
 233 #elif LCD_WIDTH < 256
 234     strh        r1, [r0, #-LCD_WIDTH-2] @ store pixel
 235 #else
 236     strh        r1, [r0, #-2]           @
 237     add         r0, r0, #LCD_WIDTH      @
 238 #endif
 239                                         @
 240     sub         r7, r12, #16            @ r7 = Y = (Y' - 16)*74
 241     add         r12, r7, r7, asl #2     @
 242     add         r7, r12, r7, asl #5     @
 243                                         @ compute R, G, and B
 244     add         r1, r8, r7, asr #8      @ r1  = b = (Y >> 9) + bu
 245     add         r11, r9, r7, asr #8     @ r11 = r = (Y >> 9) + rv
 246     add         r7, r10, r7, asr #7     @ r7  = g = (Y >> 8) + guv
 247                                         @
 248     orr         r12, r1, r11            @ check if clamping is needed...
 249     orr         r12, r12, r7, asr #1    @ ...at all
 250     cmp         r12, #31                @
 251     bls         15f @ no clamp          @
 252     cmp         r1, #31                 @ clamp b
 253     mvnhi       r1, r1, asr #31         @
 254     andhi       r1, r1, #31             @
 255     cmp         r11, #31                @ clamp r
 256     mvnhi       r11, r11, asr #31       @
 257     andhi       r11, r11, #31           @
 258     cmp         r7, #63                 @ clamp g
 259     mvnhi       r7, r7, asr #31         @
 260     andhi       r7, r7, #63             @
 261 15: @ no clamp                          @
 262                                         @
 263     ldrb        r12, [r4, r3]           @ r12 = Y' = *(Y'_p + stride)
 264                                         @
 265     orr         r1, r1, r7, lsl #5      @ r1 = b | (g << 5)
 266     orr         r1, r1, r11, lsl #11    @ r1 |= (r << 11)
 267
 268 #if LCD_WIDTH >= LCD_HEIGHT
 269     strh        r1, [r0, #2]
 270 #elif LCD_WIDTH <  256
 271     strh        r1, [r0, #LCD_WIDTH]!   @ store pixel
 272 #else
 273     strh        r1, [r0]                @
 274 #endif
 275                                         @
 276     sub         r7, r12, #16            @ r7 = Y = (Y' - 16)*74
 277     add         r12, r7, r7, asl #2     @
 278     add         r7, r12, r7, asl #5     @
 279                                         @ compute R, G, and B
 280     add         r1, r8, r7, asr #8      @ r1  = b = (Y >> 9) + bu
 281     add         r11, r9, r7, asr #8     @ r11 = r = (Y >> 9) + rv
 282     add         r7, r10, r7, asr #7     @ r7  = g = (Y >> 8) + guv
 283                                         @
 284     orr         r12, r1, r11            @ check if clamping is needed...
 285     orr         r12, r12, r7, asr #1    @ ...at all
 286     cmp         r12, #31                @
 287     bls         15f @ no clamp          @
 288     cmp         r1, #31                 @ clamp b
 289     mvnhi       r1, r1, asr #31         @
 290     andhi       r1, r1, #31             @
 291     cmp         r11, #31                @ clamp r
 292     mvnhi       r11, r11, asr #31       @
 293     andhi       r11, r11, #31           @
 294     cmp         r7, #63                 @ clamp g
 295     mvnhi       r7, r7, asr #31         @
 296     andhi       r7, r7, #63             @
 297 15: @ no clamp                          @
 298                                         @
 299     orr         r12, r1, r11, lsl #11   @ r12 = b | (r << 11)
 300     orr         r12, r12, r7, lsl #5    @ r12 |= (g << 5)
 301
 302 #if LCD_WIDTH >= LCD_HEIGHT
 303     add         r0, r0, #2*LCD_WIDTH
 304     strh        r12, [r0, #2]
 305 #if LCD_WIDTH <= 512
 306     sub         r0, r0, #(2*LCD_WIDTH)-4
 307 #else
 308     sub         r0, r0, #(2*LCD_WIDTH)
 309     add         r0, r0, #4
 310 #endif
 311 #else
 312     strh        r12, [r0, #-2]          @ store pixel
 313 #if LCD_WIDTH < 256
 314     add         r0, r0, #2*LCD_WIDTH    @
 315 #else
 316     add         r0, r0, #LCD_WIDTH      @
 317 #endif
 318 #endif
 319                                         @
 320     subs        r2, r2, #2              @ subtract block from width
 321     bgt         10b @ loop line         @
 322                                         @
 323     ldmfd       sp!, { r4-r12 }         @ restore registers and return
 324     bx          lr                      @
 325     .ltorg                              @ dump constant pool
 326     .size   lcd_write_yuv420_lines, .-lcd_write_yuv420_lines
 327
 328
 329 /****************************************************************************
 330  * void lcd_write_yuv_420_lines_odither(fb_data *dst,
 331  *                                      unsigned char const * const src[3],
 332  *                                      int width,
 333  *                                      int stride,
 334  *                                      int x_screen,
 335  *                                      int y_screen);
 336  *
 337  *   |R|   |1.000000 -0.000001  1.402000| |Y'|
 338  *   |G| = |1.000000 -0.334136 -0.714136| |Pb|
 339  *   |B|   |1.000000  1.772000  0.000000| |Pr|
 340  *   Red scaled at twice g & b but at same precision to place it in correct
 341  *   bit position after multiply and leave instruction count lower.
 342  *   |R|   |258   0  408| |Y' -  16|
 343  *   |G| = |149 -49 -104| |Cb - 128|
 344  *   |B|   |149 258    0| |Cr - 128|
 345  *
 346  * Write four RGB565 pixels in the following order on each loop:
 347  * 1 3 + > down
 348  * 2 4 \/ left
 349  *
 350  * Kernel pattern (raw|rotated|use order):
 351  * 5 3 4 2   2 6 3 7     row0   row2          > down
 352  * 1 7 0 6 | 4 0 5 1 | 2 4 6 0 3 5 7 1 col0     left
 353  * 4 2 5 3 | 3 7 2 6 | 3 5 7 1 2 4 6 0 col2  \/
 354  * 0 6 1 7   5 1 4 0
 355  */
 356     .section    .icode, "ax", %progbits
 357     .align      2
 358     .global     lcd_write_yuv420_lines_odither
 359     .type       lcd_write_yuv420_lines_odither, %function
 360 lcd_write_yuv420_lines_odither:
 361                                         @ r0 = dst
 362                                         @ r1 = yuv_src
 363                                         @ r2 = width
 364                                         @ r3 = stride
 365                                         @ [sp]   = x_screen
 366                                         @ [sp+4] = y_screen
 367     stmfd       sp!, { r4-r12, lr }     @ save non-scratch
 368     ldmia       r1, { r4, r5, r6 }      @ r4 = yuv_src[0] = Y'_p
 369                                         @ r5 = yuv_src[1] = Cb_p
 370                                         @ r6 = yuv_src[2] = Cr_p
 371                                         @
 372     sub         r3, r3, #1              @
 373     add         r1, sp, #40             @ Line up pattern and kernel quadrant
 374     ldmia       r1, { r12, r14 }        @
 375     eor         r14, r14, r12           @
 376     and         r14, r14, #0x2          @
 377     mov         r14, r14, lsl #6        @ 0x00 or 0x80
 378 10: @ loop line                         @
 379                                         @
 380     ldrb        r7, [r4], #1            @ r7 = *Y'_p++;
 381     ldrb        r8, [r5], #1            @ r8 = *Cb_p++;
 382     ldrb        r9, [r6], #1            @ r9 = *Cr_p++;
 383                                         @
 384     eor         r14, r14, #0x80         @ flip pattern quadrant
 385                                         @
 386     sub         r7, r7, #16             @ r7 = Y = (Y' - 16)*149
 387     add         r12, r7, r7, asl #2     @
 388     add         r12, r12, r12, asl #4   @
 389     add         r7, r12, r7, asl #6     @
 390                                         @
 391     sub         r8, r8, #128            @ Cb -= 128
 392     sub         r9, r9, #128            @ Cr -= 128
 393                                         @
 394     add         r10, r8, r8, asl #4     @ r10 = guv = Cr*104 + Cb*49
 395     add         r10, r10, r8, asl #5    @
 396     add         r10, r10, r9, asl #3    @
 397     add         r10, r10, r9, asl #5    @
 398     add         r10, r10, r9, asl #6    @
 399                                         @
 400     mov         r8, r8, asl #1          @ r8 = bu = Cb*258
 401     add         r8, r8, r8, asl #7      @
 402                                         @
 403     add         r9, r9, r9, asl #1      @ r9 = rv = Cr*408
 404     add         r9, r9, r9, asl #4      @
 405     mov         r9, r9, asl #3          @
 406                                         @
 407                                         @ compute R, G, and B
 408     add         r1, r8, r7              @ r1  = b' = Y + bu
 409     add         r11, r9, r7, asl #1     @ r11 = r' = Y*2 + rv
 410     rsb         r7, r10, r7             @ r7  = g' = Y + guv
 411                                         @
 412                                         @ r8 = bu, r9 = rv, r10 = guv
 413                                         @
 414     sub         r12, r1, r1, lsr #5     @ r1 = 31/32*b + b/256
 415     add         r1, r12, r1, lsr #8     @
 416                                         @
 417     sub         r12, r11, r11, lsr #5   @ r11 = 31/32*r + r/256
 418     add         r11, r12, r11, lsr #8   @
 419                                         @
 420     sub         r12, r7, r7, lsr #6     @ r7 = 63/64*g + g/256
 421     add         r7, r12, r7, lsr #8     @
 422                                         @
 423     add         r12, r14, #0x100        @
 424                                         @
 425     add         r1, r1, r12             @ b = r1 + delta
 426     add         r11, r11, r12, lsl #1   @ r = r11 + delta*2
 427     add         r7, r7, r12, lsr #1     @ g = r7 + delta/2
 428                                         @
 429     orr         r12, r1, r11, asr #1    @ check if clamping is needed...
 430     orr         r12, r12, r7            @ ...at all
 431     movs        r12, r12, asr #15       @
 432     beq         15f @ no clamp          @
 433     movs        r12, r1, asr #15        @ clamp b
 434     mvnne       r1, r12, lsr #15        @
 435     andne       r1, r1, #0x7c00         @ mask b only if clamped
 436     movs        r12, r11, asr #16       @ clamp r
 437     mvnne       r11, r12, lsr #16       @
 438     movs        r12, r7, asr #15        @ clamp g
 439     mvnne       r7, r12, lsr #15        @
 440 15: @ no clamp                          @
 441                                         @
 442     ldrb        r12, [r4, r3]           @ r12 = Y' = *(Y'_p + stride)
 443                                         @
 444     and         r11, r11, #0xf800       @ pack pixel
 445     and         r7, r7, #0x7e00         @ r1 = pixel = (r & 0xf800) |
 446     orr         r11, r11, r7, lsr #4    @              ((g & 0x7e00) >> 4) |
 447     orr         r1, r11, r1, lsr #10    @              (b >> 10)
 448                                         @
 449 #if LCD_WIDTH >= LCD_HEIGHT
 450     strh        r1, [r0]        @
 451 #elif LCD_WIDTH < 256
 452     strh        r1, [r0], #LCD_WIDTH    @ store pixel
 453 #else
 454     strh        r1, [r0]                @
 455 #endif
 456                                         @
 457     sub         r7, r12, #16            @ r7 = Y = (Y' - 16)*149
 458     add         r12, r7, r7, asl #2     @
 459     add         r12, r12, r12, asl #4   @
 460     add         r7, r12, r7, asl #6     @
 461                                         @ compute R, G, and B
 462     add         r1, r8, r7              @ r1  = b' = Y + bu
 463     add         r11, r9, r7, asl #1     @ r11 = r' = Y*2 + rv
 464     rsb         r7, r10, r7             @ r7  = g' = Y + guv
 465                                         @
 466     sub         r12, r1, r1, lsr #5     @ r1  = 31/32*b' + b'/256
 467     add         r1, r12, r1, lsr #8     @
 468                                         @
 469     sub         r12, r11, r11, lsr #5   @ r11 = 31/32*r' + r'/256
 470     add         r11, r12, r11, lsr #8   @
 471                                         @
 472     sub         r12, r7, r7, lsr #6     @ r7  = 63/64*g' + g'/256
 473     add         r7, r12, r7, lsr #8     @
 474                                         @
 475     add         r12, r14, #0x200        @
 476                                         @
 477     add         r1, r1, r12             @ b = r1 + delta
 478     add         r11, r11, r12, lsl #1   @ r = r11 + delta*2
 479     add         r7, r7, r12, lsr #1     @ g = r7 + delta/2
 480                                         @
 481     orr         r12, r1, r11, asr #1    @ check if clamping is needed...
 482     orr         r12, r12, r7            @ ...at all
 483     movs        r12, r12, asr #15       @
 484     beq         15f @ no clamp          @
 485     movs        r12, r1, asr #15        @ clamp b
 486     mvnne       r1, r12, lsr #15        @
 487     andne       r1, r1, #0x7c00         @ mask b only if clamped
 488     movs        r12, r11, asr #16       @ clamp r
 489     mvnne       r11, r12, lsr #16       @
 490     movs        r12, r7, asr #15        @ clamp g
 491     mvnne       r7, r12, lsr #15        @
 492 15: @ no clamp                          @
 493                                         @
 494     ldrb        r12, [r4], #1           @ r12 = Y' = *(Y'_p++)
 495                                         @
 496     and         r11, r11, #0xf800       @ pack pixel
 497     and         r7, r7, #0x7e00         @ r1 = pixel = (r & 0xf800) |
 498     orr         r11, r11, r7, lsr #4    @              ((g & 0x7e00) >> 4) |
 499     orr         r1, r11, r1, lsr #10    @              (b >> 10)
 500                                         @
 501 #if LCD_WIDTH >= LCD_HEIGHT
 502     add         r0, r0, #2*LCD_WIDTH    @
 503     strh        r1, [r0]        @ store pixel
 504     sub         r0, r0, #2*LCD_WIDTH    @
 505 #elif LCD_WIDTH < 256
 506     strh        r1, [r0, #-LCD_WIDTH-2] @ store pixel
 507 #else
 508     strh        r1, [r0, #-2]           @ store pixel
 509     add         r0, r0, #LCD_WIDTH      @
 510 #endif
 511                                         @
 512     sub         r7, r12, #16            @ r7 = Y = (Y' - 16)*149
 513     add         r12, r7, r7, asl #2     @
 514     add         r12, r12, r12, asl #4   @
 515     add         r7, r12, r7, asl #6     @
 516                                         @ compute R, G, and B
 517     add         r1, r8, r7              @ r1  = b' = Y + bu
 518     add         r11, r9, r7, asl #1     @ r11 = r' = Y*2 + rv
 519     rsb         r7, r10, r7             @ r7  = g' = Y + guv
 520                                         @
 521                                         @ r8 = bu, r9 = rv, r10 = guv
 522                                         @
 523     sub         r12, r1, r1, lsr #5     @ r1  = 31/32*b' + b'/256
 524     add         r1, r12, r1, lsr #8     @
 525                                         @
 526     sub         r12, r11, r11, lsr #5   @ r11 = 31/32*r' + r'/256
 527     add         r11, r12, r11, lsr #8   @
 528                                         @
 529     sub         r12, r7, r7, lsr #6     @ r7  = 63/64*g' + g'/256
 530     add         r7, r12, r7, lsr #8     @
 531                                         @
 532     add         r12, r14, #0x300        @
 533                                         @
 534     add         r1, r1, r12             @ b = r1 + delta
 535     add         r11, r11, r12, lsl #1   @ r = r11 + delta*2
 536     add         r7, r7, r12, lsr #1     @ g = r7 + delta/2
 537                                         @
 538     orr         r12, r1, r11, asr #1    @ check if clamping is needed...
 539     orr         r12, r12, r7            @ ...at all
 540     movs        r12, r12, asr #15       @
 541     beq         15f @ no clamp          @
 542     movs        r12, r1, asr #15        @ clamp b
 543     mvnne       r1, r12, lsr #15        @
 544     andne       r1, r1, #0x7c00         @ mask b only if clamped
 545     movs        r12, r11, asr #16       @ clamp r
 546     mvnne       r11, r12, lsr #16       @
 547     movs        r12, r7, asr #15        @ clamp g
 548     mvnne       r7, r12, lsr #15        @
 549 15: @ no clamp                          @
 550                                         @
 551     ldrb        r12, [r4, r3]           @ r12 = Y' = *(Y'_p + stride)
 552                                         @
 553     and         r11, r11, #0xf800       @ pack pixel
 554     and         r7, r7, #0x7e00         @ r1 = pixel = (r & 0xf800) |
 555     orr         r11, r11, r7, lsr #4    @              ((g & 0x7e00) >> 4) |
 556     orr         r1, r11, r1, lsr #10    @              (b >> 10)
 557                                         @
 558 #if LCD_WIDTH >= LCD_HEIGHT
 559     strh        r1, [r0, #2]
 560 #elif LCD_WIDTH <  256
 561     strh        r1, [r0, #LCD_WIDTH]!   @ store pixel
 562 #else
 563     strh        r1, [r0]                @
 564 #endif
 565
 566     sub         r7, r12, #16            @ r7 = Y = (Y' - 16)*149
 567     add         r12, r7, r7, asl #2     @
 568     add         r12, r12, r12, asl #4   @
 569     add         r7, r12, r7, asl #6     @
 570                                         @ compute R, G, and B
 571     add         r1, r8, r7              @ r1  = b' = Y + bu
 572     add         r11, r9, r7, asl #1     @ r11 = r' = Y*2 + rv
 573     rsb         r7, r10, r7             @ r7  = g' = Y + guv
 574                                         @
 575     sub         r12, r1, r1, lsr #5     @ r1 = 31/32*b + b/256
 576     add         r1, r12, r1, lsr #8     @
 577                                         @
 578     sub         r12, r11, r11, lsr #5   @ r11 = 31/32*r + r/256
 579     add         r11, r12, r11, lsr #8   @
 580                                         @
 581     sub         r12, r7, r7, lsr #6     @ r7 = 63/64*g + g/256
 582     add         r7, r12, r7, lsr #8     @
 583                                         @
 584     @ This element is zero - use r14    @
 585                                         @
 586     add         r1, r1, r14             @ b = r1 + delta
 587     add         r11, r11, r14, lsl #1   @ r = r11 + delta*2
 588     add         r7, r7, r14, lsr #1     @ g = r7 + delta/2
 589                                         @
 590     orr         r12, r1, r11, asr #1    @ check if clamping is needed...
 591     orr         r12, r12, r7            @ ...at all
 592     movs        r12, r12, asr #15       @
 593     beq         15f @ no clamp          @
 594     movs        r12, r1, asr #15        @ clamp b
 595     mvnne       r1, r12, lsr #15        @
 596     andne       r1, r1, #0x7c00         @ mask b only if clamped
 597     movs        r12, r11, asr #16       @ clamp r
 598     mvnne       r11, r12, lsr #16       @
 599     movs        r12, r7, asr #15        @ clamp g
 600     mvnne       r7, r12, lsr #15        @
 601 15: @ no clamp                          @
 602                                         @
 603     and         r11, r11, #0xf800       @ pack pixel
 604     and         r7, r7, #0x7e00         @ r1 = pixel = (r & 0xf800) |
 605     orr         r11, r11, r7, lsr #4    @              ((g & 0x7e00) >> 4) |
 606     orr         r1, r11, r1, lsr #10    @              (b >> 10)
 607                                         @
 608 #if LCD_WIDTH >= LCD_HEIGHT
 609     add         r0, r0, #2*LCD_WIDTH
 610     strh        r1, [r0, #2]            @ store pixel
 611 #if LCD_WIDTH <= 512
 612     sub         r0, r0, #(2*LCD_WIDTH)-4
 613 #else
 614     sub         r0, r0, #(2*LCD_WIDTH)
 615     add         r0, r0, #4
 616 #endif
 617 #else
 618     strh        r1, [r0, #-2]           @ store pixel
 619 #if LCD_WIDTH < 256
 620     add         r0, r0, #2*LCD_WIDTH    @
 621 #else
 622     add         r0, r0, #LCD_WIDTH      @
 623 #endif
 624 #endif
 625                                         @
 626     subs        r2, r2, #2              @ subtract block from width
 627     bgt         10b @ loop line         @
 628                                         @
 629     ldmfd       sp!, { r4-r12, pc }     @ restore registers and return
 630     .ltorg                              @ dump constant pool
 631     .size   lcd_write_yuv420_lines_odither, .-lcd_write_yuv420_lines_odither