target/ppc/int_helper.c

   1 /*
   2  *  PowerPC integer and vector emulation helpers for QEMU.
   3  *
   4  *  Copyright (c) 2003-2007 Jocelyn Mayer
   5  *
   6  * This library is free software; you can redistribute it and/or
   7  * modify it under the terms of the GNU Lesser General Public
   8  * License as published by the Free Software Foundation; either
   9  * version 2.1 of the License, or (at your option) any later version.
  10  *
  11  * This library is distributed in the hope that it will be useful,
  12  * but WITHOUT ANY WARRANTY; without even the implied warranty of
  13  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
  14  * Lesser General Public License for more details.
  15  *
  16  * You should have received a copy of the GNU Lesser General Public
  17  * License along with this library; if not, see <http://www.gnu.org/licenses/>.
  18  */
  19
  20 #include "qemu/osdep.h"
  21 #include "cpu.h"
  22 #include "internal.h"
  23 #include "qemu/host-utils.h"
  24 #include "qemu/main-loop.h"
  25 #include "qemu/log.h"
  26 #include "exec/helper-proto.h"
  27 #include "crypto/aes.h"
  28 #include "fpu/softfloat.h"
  29 #include "qapi/error.h"
  30 #include "qemu/guest-random.h"
  31
  32 #include "helper_regs.h"
  33 /*****************************************************************************/
  34 /* Fixed point operations helpers */
  35
  36 static inline void helper_update_ov_legacy(CPUPPCState *env, int ov)
  37 {
  38     if (unlikely(ov)) {
  39         env->so = env->ov = 1;
  40     } else {
  41         env->ov = 0;
  42     }
  43 }
  44
  45 target_ulong helper_divweu(CPUPPCState *env, target_ulong ra, target_ulong rb,
  46                            uint32_t oe)
  47 {
  48     uint64_t rt = 0;
  49     int overflow = 0;
  50
  51     uint64_t dividend = (uint64_t)ra << 32;
  52     uint64_t divisor = (uint32_t)rb;
  53
  54     if (unlikely(divisor == 0)) {
  55         overflow = 1;
  56     } else {
  57         rt = dividend / divisor;
  58         overflow = rt > UINT32_MAX;
  59     }
  60
  61     if (unlikely(overflow)) {
  62         rt = 0; /* Undefined */
  63     }
  64
  65     if (oe) {
  66         helper_update_ov_legacy(env, overflow);
  67     }
  68
  69     return (target_ulong)rt;
  70 }
  71
  72 target_ulong helper_divwe(CPUPPCState *env, target_ulong ra, target_ulong rb,
  73                           uint32_t oe)
  74 {
  75     int64_t rt = 0;
  76     int overflow = 0;
  77
  78     int64_t dividend = (int64_t)ra << 32;
  79     int64_t divisor = (int64_t)((int32_t)rb);
  80
  81     if (unlikely((divisor == 0) ||
  82                  ((divisor == -1ull) && (dividend == INT64_MIN)))) {
  83         overflow = 1;
  84     } else {
  85         rt = dividend / divisor;
  86         overflow = rt != (int32_t)rt;
  87     }
  88
  89     if (unlikely(overflow)) {
  90         rt = 0; /* Undefined */
  91     }
  92
  93     if (oe) {
  94         helper_update_ov_legacy(env, overflow);
  95     }
  96
  97     return (target_ulong)rt;
  98 }
  99
 100 #if defined(TARGET_PPC64)
 101
 102 uint64_t helper_divdeu(CPUPPCState *env, uint64_t ra, uint64_t rb, uint32_t oe)
 103 {
 104     uint64_t rt = 0;
 105     int overflow = 0;
 106
 107     overflow = divu128(&rt, &ra, rb);
 108
 109     if (unlikely(overflow)) {
 110         rt = 0; /* Undefined */
 111     }
 112
 113     if (oe) {
 114         helper_update_ov_legacy(env, overflow);
 115     }
 116
 117     return rt;
 118 }
 119
 120 uint64_t helper_divde(CPUPPCState *env, uint64_t rau, uint64_t rbu, uint32_t oe)
 121 {
 122     int64_t rt = 0;
 123     int64_t ra = (int64_t)rau;
 124     int64_t rb = (int64_t)rbu;
 125     int overflow = divs128(&rt, &ra, rb);
 126
 127     if (unlikely(overflow)) {
 128         rt = 0; /* Undefined */
 129     }
 130
 131     if (oe) {
 132         helper_update_ov_legacy(env, overflow);
 133     }
 134
 135     return rt;
 136 }
 137
 138 #endif
 139
 140
 141 #if defined(TARGET_PPC64)
 142 /* if x = 0xab, returns 0xababababababababa */
 143 #define pattern(x) (((x) & 0xff) * (~(target_ulong)0 / 0xff))
 144
 145 /*
 146  * subtract 1 from each byte, and with inverse, check if MSB is set at each
 147  * byte.
 148  * i.e. ((0x00 - 0x01) & ~(0x00)) & 0x80
 149  *      (0xFF & 0xFF) & 0x80 = 0x80 (zero found)
 150  */
 151 #define haszero(v) (((v) - pattern(0x01)) & ~(v) & pattern(0x80))
 152
 153 /* When you XOR the pattern and there is a match, that byte will be zero */
 154 #define hasvalue(x, n)  (haszero((x) ^ pattern(n)))
 155
 156 uint32_t helper_cmpeqb(target_ulong ra, target_ulong rb)
 157 {
 158     return hasvalue(rb, ra) ? CRF_GT : 0;
 159 }
 160
 161 #undef pattern
 162 #undef haszero
 163 #undef hasvalue
 164
 165 /*
 166  * Return a random number.
 167  */
 168 uint64_t helper_darn32(void)
 169 {
 170     Error *err = NULL;
 171     uint32_t ret;
 172
 173     if (qemu_guest_getrandom(&ret, sizeof(ret), &err) < 0) {
 174         qemu_log_mask(LOG_UNIMP, "darn: Crypto failure: %s",
 175                       error_get_pretty(err));
 176         error_free(err);
 177         return -1;
 178     }
 179
 180     return ret;
 181 }
 182
 183 uint64_t helper_darn64(void)
 184 {
 185     Error *err = NULL;
 186     uint64_t ret;
 187
 188     if (qemu_guest_getrandom(&ret, sizeof(ret), &err) < 0) {
 189         qemu_log_mask(LOG_UNIMP, "darn: Crypto failure: %s",
 190                       error_get_pretty(err));
 191         error_free(err);
 192         return -1;
 193     }
 194
 195     return ret;
 196 }
 197
 198 uint64_t helper_bpermd(uint64_t rs, uint64_t rb)
 199 {
 200     int i;
 201     uint64_t ra = 0;
 202
 203     for (i = 0; i < 8; i++) {
 204         int index = (rs >> (i * 8)) & 0xFF;
 205         if (index < 64) {
 206             if (rb & PPC_BIT(index)) {
 207                 ra |= 1 << i;
 208             }
 209         }
 210     }
 211     return ra;
 212 }
 213
 214 #endif
 215
 216 target_ulong helper_cmpb(target_ulong rs, target_ulong rb)
 217 {
 218     target_ulong mask = 0xff;
 219     target_ulong ra = 0;
 220     int i;
 221
 222     for (i = 0; i < sizeof(target_ulong); i++) {
 223         if ((rs & mask) == (rb & mask)) {
 224             ra |= mask;
 225         }
 226         mask <<= 8;
 227     }
 228     return ra;
 229 }
 230
 231 /* shift right arithmetic helper */
 232 target_ulong helper_sraw(CPUPPCState *env, target_ulong value,
 233                          target_ulong shift)
 234 {
 235     int32_t ret;
 236
 237     if (likely(!(shift & 0x20))) {
 238         if (likely((uint32_t)shift != 0)) {
 239             shift &= 0x1f;
 240             ret = (int32_t)value >> shift;
 241             if (likely(ret >= 0 || (value & ((1 << shift) - 1)) == 0)) {
 242                 env->ca32 = env->ca = 0;
 243             } else {
 244                 env->ca32 = env->ca = 1;
 245             }
 246         } else {
 247             ret = (int32_t)value;
 248             env->ca32 = env->ca = 0;
 249         }
 250     } else {
 251         ret = (int32_t)value >> 31;
 252         env->ca32 = env->ca = (ret != 0);
 253     }
 254     return (target_long)ret;
 255 }
 256
 257 #if defined(TARGET_PPC64)
 258 target_ulong helper_srad(CPUPPCState *env, target_ulong value,
 259                          target_ulong shift)
 260 {
 261     int64_t ret;
 262
 263     if (likely(!(shift & 0x40))) {
 264         if (likely((uint64_t)shift != 0)) {
 265             shift &= 0x3f;
 266             ret = (int64_t)value >> shift;
 267             if (likely(ret >= 0 || (value & ((1ULL << shift) - 1)) == 0)) {
 268                 env->ca32 = env->ca = 0;
 269             } else {
 270                 env->ca32 = env->ca = 1;
 271             }
 272         } else {
 273             ret = (int64_t)value;
 274             env->ca32 = env->ca = 0;
 275         }
 276     } else {
 277         ret = (int64_t)value >> 63;
 278         env->ca32 = env->ca = (ret != 0);
 279     }
 280     return ret;
 281 }
 282 #endif
 283
 284 #if defined(TARGET_PPC64)
 285 target_ulong helper_popcntb(target_ulong val)
 286 {
 287     /* Note that we don't fold past bytes */
 288     val = (val & 0x5555555555555555ULL) + ((val >>  1) &
 289                                            0x5555555555555555ULL);
 290     val = (val & 0x3333333333333333ULL) + ((val >>  2) &
 291                                            0x3333333333333333ULL);
 292     val = (val & 0x0f0f0f0f0f0f0f0fULL) + ((val >>  4) &
 293                                            0x0f0f0f0f0f0f0f0fULL);
 294     return val;
 295 }
 296
 297 target_ulong helper_popcntw(target_ulong val)
 298 {
 299     /* Note that we don't fold past words.  */
 300     val = (val & 0x5555555555555555ULL) + ((val >>  1) &
 301                                            0x5555555555555555ULL);
 302     val = (val & 0x3333333333333333ULL) + ((val >>  2) &
 303                                            0x3333333333333333ULL);
 304     val = (val & 0x0f0f0f0f0f0f0f0fULL) + ((val >>  4) &
 305                                            0x0f0f0f0f0f0f0f0fULL);
 306     val = (val & 0x00ff00ff00ff00ffULL) + ((val >>  8) &
 307                                            0x00ff00ff00ff00ffULL);
 308     val = (val & 0x0000ffff0000ffffULL) + ((val >> 16) &
 309                                            0x0000ffff0000ffffULL);
 310     return val;
 311 }
 312 #else
 313 target_ulong helper_popcntb(target_ulong val)
 314 {
 315     /* Note that we don't fold past bytes */
 316     val = (val & 0x55555555) + ((val >>  1) & 0x55555555);
 317     val = (val & 0x33333333) + ((val >>  2) & 0x33333333);
 318     val = (val & 0x0f0f0f0f) + ((val >>  4) & 0x0f0f0f0f);
 319     return val;
 320 }
 321 #endif
 322
 323 uint64_t helper_cfuged(uint64_t src, uint64_t mask)
 324 {
 325     /*
 326      * Instead of processing the mask bit-by-bit from the most significant to
 327      * the least significant bit, as described in PowerISA, we'll handle it in
 328      * blocks of 'n' zeros/ones from LSB to MSB. To avoid the decision to use
 329      * ctz or cto, we negate the mask at the end of the loop.
 330      */
 331     target_ulong m, left = 0, right = 0;
 332     unsigned int n, i = 64;
 333     bool bit = false; /* tracks if we are processing zeros or ones */
 334
 335     if (mask == 0 || mask == -1) {
 336         return src;
 337     }
 338
 339     /* Processes the mask in blocks, from LSB to MSB */
 340     while (i) {
 341         /* Find how many bits we should take */
 342         n = ctz64(mask);
 343         if (n > i) {
 344             n = i;
 345         }
 346
 347         /*
 348          * Extracts 'n' trailing bits of src and put them on the leading 'n'
 349          * bits of 'right' or 'left', pushing down the previously extracted
 350          * values.
 351          */
 352         m = (1ll << n) - 1;
 353         if (bit) {
 354             right = ror64(right | (src & m), n);
 355         } else {
 356             left = ror64(left | (src & m), n);
 357         }
 358
 359         /*
 360          * Discards the processed bits from 'src' and 'mask'. Note that we are
 361          * removing 'n' trailing zeros from 'mask', but the logical shift will
 362          * add 'n' leading zeros back, so the population count of 'mask' is kept
 363          * the same.
 364          */
 365         src >>= n;
 366         mask >>= n;
 367         i -= n;
 368         bit = !bit;
 369         mask = ~mask;
 370     }
 371
 372     /*
 373      * At the end, right was ror'ed ctpop(mask) times. To put it back in place,
 374      * we'll shift it more 64-ctpop(mask) times.
 375      */
 376     if (bit) {
 377         n = ctpop64(mask);
 378     } else {
 379         n = 64 - ctpop64(mask);
 380     }
 381
 382     return left | (right >> n);
 383 }
 384
 385 /*****************************************************************************/
 386 /* PowerPC 601 specific instructions (POWER bridge) */
 387 target_ulong helper_div(CPUPPCState *env, target_ulong arg1, target_ulong arg2)
 388 {
 389     uint64_t tmp = (uint64_t)arg1 << 32 | env->spr[SPR_MQ];
 390
 391     if (((int32_t)tmp == INT32_MIN && (int32_t)arg2 == (int32_t)-1) ||
 392         (int32_t)arg2 == 0) {
 393         env->spr[SPR_MQ] = 0;
 394         return INT32_MIN;
 395     } else {
 396         env->spr[SPR_MQ] = tmp % arg2;
 397         return  tmp / (int32_t)arg2;
 398     }
 399 }
 400
 401 target_ulong helper_divo(CPUPPCState *env, target_ulong arg1,
 402                          target_ulong arg2)
 403 {
 404     uint64_t tmp = (uint64_t)arg1 << 32 | env->spr[SPR_MQ];
 405
 406     if (((int32_t)tmp == INT32_MIN && (int32_t)arg2 == (int32_t)-1) ||
 407         (int32_t)arg2 == 0) {
 408         env->so = env->ov = 1;
 409         env->spr[SPR_MQ] = 0;
 410         return INT32_MIN;
 411     } else {
 412         env->spr[SPR_MQ] = tmp % arg2;
 413         tmp /= (int32_t)arg2;
 414         if ((int32_t)tmp != tmp) {
 415             env->so = env->ov = 1;
 416         } else {
 417             env->ov = 0;
 418         }
 419         return tmp;
 420     }
 421 }
 422
 423 target_ulong helper_divs(CPUPPCState *env, target_ulong arg1,
 424                          target_ulong arg2)
 425 {
 426     if (((int32_t)arg1 == INT32_MIN && (int32_t)arg2 == (int32_t)-1) ||
 427         (int32_t)arg2 == 0) {
 428         env->spr[SPR_MQ] = 0;
 429         return INT32_MIN;
 430     } else {
 431         env->spr[SPR_MQ] = (int32_t)arg1 % (int32_t)arg2;
 432         return (int32_t)arg1 / (int32_t)arg2;
 433     }
 434 }
 435
 436 target_ulong helper_divso(CPUPPCState *env, target_ulong arg1,
 437                           target_ulong arg2)
 438 {
 439     if (((int32_t)arg1 == INT32_MIN && (int32_t)arg2 == (int32_t)-1) ||
 440         (int32_t)arg2 == 0) {
 441         env->so = env->ov = 1;
 442         env->spr[SPR_MQ] = 0;
 443         return INT32_MIN;
 444     } else {
 445         env->ov = 0;
 446         env->spr[SPR_MQ] = (int32_t)arg1 % (int32_t)arg2;
 447         return (int32_t)arg1 / (int32_t)arg2;
 448     }
 449 }
 450
 451 /*****************************************************************************/
 452 /* 602 specific instructions */
 453 /* mfrom is the most crazy instruction ever seen, imho ! */
 454 /* Real implementation uses a ROM table. Do the same */
 455 /*
 456  * Extremely decomposed:
 457  *                      -arg / 256
 458  * return 256 * log10(10           + 1.0) + 0.5
 459  */
 460 #if !defined(CONFIG_USER_ONLY)
 461 target_ulong helper_602_mfrom(target_ulong arg)
 462 {
 463     if (likely(arg < 602)) {
 464 #include "mfrom_table.c.inc"
 465         return mfrom_ROM_table[arg];
 466     } else {
 467         return 0;
 468     }
 469 }
 470 #endif
 471
 472 /*****************************************************************************/
 473 /* Altivec extension helpers */
 474 #if defined(HOST_WORDS_BIGENDIAN)
 475 #define VECTOR_FOR_INORDER_I(index, element)                    \
 476     for (index = 0; index < ARRAY_SIZE(r->element); index++)
 477 #else
 478 #define VECTOR_FOR_INORDER_I(index, element)                    \
 479     for (index = ARRAY_SIZE(r->element) - 1; index >= 0; index--)
 480 #endif
 481
 482 /* Saturating arithmetic helpers.  */
 483 #define SATCVT(from, to, from_type, to_type, min, max)          \
 484     static inline to_type cvt##from##to(from_type x, int *sat)  \
 485     {                                                           \
 486         to_type r;                                              \
 487                                                                 \
 488         if (x < (from_type)min) {                               \
 489             r = min;                                            \
 490             *sat = 1;                                           \
 491         } else if (x > (from_type)max) {                        \
 492             r = max;                                            \
 493             *sat = 1;                                           \
 494         } else {                                                \
 495             r = x;                                              \
 496         }                                                       \
 497         return r;                                               \
 498     }
 499 #define SATCVTU(from, to, from_type, to_type, min, max)         \
 500     static inline to_type cvt##from##to(from_type x, int *sat)  \
 501     {                                                           \
 502         to_type r;                                              \
 503                                                                 \
 504         if (x > (from_type)max) {                               \
 505             r = max;                                            \
 506             *sat = 1;                                           \
 507         } else {                                                \
 508             r = x;                                              \
 509         }                                                       \
 510         return r;                                               \
 511     }
 512 SATCVT(sh, sb, int16_t, int8_t, INT8_MIN, INT8_MAX)
 513 SATCVT(sw, sh, int32_t, int16_t, INT16_MIN, INT16_MAX)
 514 SATCVT(sd, sw, int64_t, int32_t, INT32_MIN, INT32_MAX)
 515
 516 SATCVTU(uh, ub, uint16_t, uint8_t, 0, UINT8_MAX)
 517 SATCVTU(uw, uh, uint32_t, uint16_t, 0, UINT16_MAX)
 518 SATCVTU(ud, uw, uint64_t, uint32_t, 0, UINT32_MAX)
 519 SATCVT(sh, ub, int16_t, uint8_t, 0, UINT8_MAX)
 520 SATCVT(sw, uh, int32_t, uint16_t, 0, UINT16_MAX)
 521 SATCVT(sd, uw, int64_t, uint32_t, 0, UINT32_MAX)
 522 #undef SATCVT
 523 #undef SATCVTU
 524
 525 void helper_mtvscr(CPUPPCState *env, uint32_t vscr)
 526 {
 527     ppc_store_vscr(env, vscr);
 528 }
 529
 530 uint32_t helper_mfvscr(CPUPPCState *env)
 531 {
 532     return ppc_get_vscr(env);
 533 }
 534
 535 static inline void set_vscr_sat(CPUPPCState *env)
 536 {
 537     /* The choice of non-zero value is arbitrary.  */
 538     env->vscr_sat.u32[0] = 1;
 539 }
 540
 541 void helper_vaddcuw(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
 542 {
 543     int i;
 544
 545     for (i = 0; i < ARRAY_SIZE(r->u32); i++) {
 546         r->u32[i] = ~a->u32[i] < b->u32[i];
 547     }
 548 }
 549
 550 /* vprtybw */
 551 void helper_vprtybw(ppc_avr_t *r, ppc_avr_t *b)
 552 {
 553     int i;
 554     for (i = 0; i < ARRAY_SIZE(r->u32); i++) {
 555         uint64_t res = b->u32[i] ^ (b->u32[i] >> 16);
 556         res ^= res >> 8;
 557         r->u32[i] = res & 1;
 558     }
 559 }
 560
 561 /* vprtybd */
 562 void helper_vprtybd(ppc_avr_t *r, ppc_avr_t *b)
 563 {
 564     int i;
 565     for (i = 0; i < ARRAY_SIZE(r->u64); i++) {
 566         uint64_t res = b->u64[i] ^ (b->u64[i] >> 32);
 567         res ^= res >> 16;
 568         res ^= res >> 8;
 569         r->u64[i] = res & 1;
 570     }
 571 }
 572
 573 /* vprtybq */
 574 void helper_vprtybq(ppc_avr_t *r, ppc_avr_t *b)
 575 {
 576     uint64_t res = b->u64[0] ^ b->u64[1];
 577     res ^= res >> 32;
 578     res ^= res >> 16;
 579     res ^= res >> 8;
 580     r->VsrD(1) = res & 1;
 581     r->VsrD(0) = 0;
 582 }
 583
 584 #define VARITHFP(suffix, func)                                          \
 585     void helper_v##suffix(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, \
 586                           ppc_avr_t *b)                                 \
 587     {                                                                   \
 588         int i;                                                          \
 589                                                                         \
 590         for (i = 0; i < ARRAY_SIZE(r->f32); i++) {                      \
 591             r->f32[i] = func(a->f32[i], b->f32[i], &env->vec_status);   \
 592         }                                                               \
 593     }
 594 VARITHFP(addfp, float32_add)
 595 VARITHFP(subfp, float32_sub)
 596 VARITHFP(minfp, float32_min)
 597 VARITHFP(maxfp, float32_max)
 598 #undef VARITHFP
 599
 600 #define VARITHFPFMA(suffix, type)                                       \
 601     void helper_v##suffix(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, \
 602                            ppc_avr_t *b, ppc_avr_t *c)                  \
 603     {                                                                   \
 604         int i;                                                          \
 605         for (i = 0; i < ARRAY_SIZE(r->f32); i++) {                      \
 606             r->f32[i] = float32_muladd(a->f32[i], c->f32[i], b->f32[i], \
 607                                        type, &env->vec_status);         \
 608         }                                                               \
 609     }
 610 VARITHFPFMA(maddfp, 0);
 611 VARITHFPFMA(nmsubfp, float_muladd_negate_result | float_muladd_negate_c);
 612 #undef VARITHFPFMA
 613
 614 #define VARITHSAT_CASE(type, op, cvt, element)                          \
 615     {                                                                   \
 616         type result = (type)a->element[i] op (type)b->element[i];       \
 617         r->element[i] = cvt(result, &sat);                              \
 618     }
 619
 620 #define VARITHSAT_DO(name, op, optype, cvt, element)                    \
 621     void helper_v##name(ppc_avr_t *r, ppc_avr_t *vscr_sat,              \
 622                         ppc_avr_t *a, ppc_avr_t *b, uint32_t desc)      \
 623     {                                                                   \
 624         int sat = 0;                                                    \
 625         int i;                                                          \
 626                                                                         \
 627         for (i = 0; i < ARRAY_SIZE(r->element); i++) {                  \
 628             VARITHSAT_CASE(optype, op, cvt, element);                   \
 629         }                                                               \
 630         if (sat) {                                                      \
 631             vscr_sat->u32[0] = 1;                                       \
 632         }                                                               \
 633     }
 634 #define VARITHSAT_SIGNED(suffix, element, optype, cvt)          \
 635     VARITHSAT_DO(adds##suffix##s, +, optype, cvt, element)      \
 636     VARITHSAT_DO(subs##suffix##s, -, optype, cvt, element)
 637 #define VARITHSAT_UNSIGNED(suffix, element, optype, cvt)        \
 638     VARITHSAT_DO(addu##suffix##s, +, optype, cvt, element)      \
 639     VARITHSAT_DO(subu##suffix##s, -, optype, cvt, element)
 640 VARITHSAT_SIGNED(b, s8, int16_t, cvtshsb)
 641 VARITHSAT_SIGNED(h, s16, int32_t, cvtswsh)
 642 VARITHSAT_SIGNED(w, s32, int64_t, cvtsdsw)
 643 VARITHSAT_UNSIGNED(b, u8, uint16_t, cvtshub)
 644 VARITHSAT_UNSIGNED(h, u16, uint32_t, cvtswuh)
 645 VARITHSAT_UNSIGNED(w, u32, uint64_t, cvtsduw)
 646 #undef VARITHSAT_CASE
 647 #undef VARITHSAT_DO
 648 #undef VARITHSAT_SIGNED
 649 #undef VARITHSAT_UNSIGNED
 650
 651 #define VAVG_DO(name, element, etype)                                   \
 652     void helper_v##name(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)       \
 653     {                                                                   \
 654         int i;                                                          \
 655                                                                         \
 656         for (i = 0; i < ARRAY_SIZE(r->element); i++) {                  \
 657             etype x = (etype)a->element[i] + (etype)b->element[i] + 1;  \
 658             r->element[i] = x >> 1;                                     \
 659         }                                                               \
 660     }
 661
 662 #define VAVG(type, signed_element, signed_type, unsigned_element,       \
 663              unsigned_type)                                             \
 664     VAVG_DO(avgs##type, signed_element, signed_type)                    \
 665     VAVG_DO(avgu##type, unsigned_element, unsigned_type)
 666 VAVG(b, s8, int16_t, u8, uint16_t)
 667 VAVG(h, s16, int32_t, u16, uint32_t)
 668 VAVG(w, s32, int64_t, u32, uint64_t)
 669 #undef VAVG_DO
 670 #undef VAVG
 671
 672 #define VABSDU_DO(name, element)                                        \
 673 void helper_v##name(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)           \
 674 {                                                                       \
 675     int i;                                                              \
 676                                                                         \
 677     for (i = 0; i < ARRAY_SIZE(r->element); i++) {                      \
 678         r->element[i] = (a->element[i] > b->element[i]) ?               \
 679             (a->element[i] - b->element[i]) :                           \
 680             (b->element[i] - a->element[i]);                            \
 681     }                                                                   \
 682 }
 683
 684 /*
 685  * VABSDU - Vector absolute difference unsigned
 686  *   name    - instruction mnemonic suffix (b: byte, h: halfword, w: word)
 687  *   element - element type to access from vector
 688  */
 689 #define VABSDU(type, element)                   \
 690     VABSDU_DO(absdu##type, element)
 691 VABSDU(b, u8)
 692 VABSDU(h, u16)
 693 VABSDU(w, u32)
 694 #undef VABSDU_DO
 695 #undef VABSDU
 696
 697 #define VCF(suffix, cvt, element)                                       \
 698     void helper_vcf##suffix(CPUPPCState *env, ppc_avr_t *r,             \
 699                             ppc_avr_t *b, uint32_t uim)                 \
 700     {                                                                   \
 701         int i;                                                          \
 702                                                                         \
 703         for (i = 0; i < ARRAY_SIZE(r->f32); i++) {                      \
 704             float32 t = cvt(b->element[i], &env->vec_status);           \
 705             r->f32[i] = float32_scalbn(t, -uim, &env->vec_status);      \
 706         }                                                               \
 707     }
 708 VCF(ux, uint32_to_float32, u32)
 709 VCF(sx, int32_to_float32, s32)
 710 #undef VCF
 711
 712 #define VCMP_DO(suffix, compare, element, record)                       \
 713     void helper_vcmp##suffix(CPUPPCState *env, ppc_avr_t *r,            \
 714                              ppc_avr_t *a, ppc_avr_t *b)                \
 715     {                                                                   \
 716         uint64_t ones = (uint64_t)-1;                                   \
 717         uint64_t all = ones;                                            \
 718         uint64_t none = 0;                                              \
 719         int i;                                                          \
 720                                                                         \
 721         for (i = 0; i < ARRAY_SIZE(r->element); i++) {                  \
 722             uint64_t result = (a->element[i] compare b->element[i] ?    \
 723                                ones : 0x0);                             \
 724             switch (sizeof(a->element[0])) {                            \
 725             case 8:                                                     \
 726                 r->u64[i] = result;                                     \
 727                 break;                                                  \
 728             case 4:                                                     \
 729                 r->u32[i] = result;                                     \
 730                 break;                                                  \
 731             case 2:                                                     \
 732                 r->u16[i] = result;                                     \
 733                 break;                                                  \
 734             case 1:                                                     \
 735                 r->u8[i] = result;                                      \
 736                 break;                                                  \
 737             }                                                           \
 738             all &= result;                                              \
 739             none |= result;                                             \
 740         }                                                               \
 741         if (record) {                                                   \
 742             env->crf[6] = ((all != 0) << 3) | ((none == 0) << 1);       \
 743         }                                                               \
 744     }
 745 #define VCMP(suffix, compare, element)          \
 746     VCMP_DO(suffix, compare, element, 0)        \
 747     VCMP_DO(suffix##_dot, compare, element, 1)
 748 VCMP(equb, ==, u8)
 749 VCMP(equh, ==, u16)
 750 VCMP(equw, ==, u32)
 751 VCMP(equd, ==, u64)
 752 VCMP(gtub, >, u8)
 753 VCMP(gtuh, >, u16)
 754 VCMP(gtuw, >, u32)
 755 VCMP(gtud, >, u64)
 756 VCMP(gtsb, >, s8)
 757 VCMP(gtsh, >, s16)
 758 VCMP(gtsw, >, s32)
 759 VCMP(gtsd, >, s64)
 760 #undef VCMP_DO
 761 #undef VCMP
 762
 763 #define VCMPNE_DO(suffix, element, etype, cmpzero, record)              \
 764 void helper_vcmpne##suffix(CPUPPCState *env, ppc_avr_t *r,              \
 765                             ppc_avr_t *a, ppc_avr_t *b)                 \
 766 {                                                                       \
 767     etype ones = (etype)-1;                                             \
 768     etype all = ones;                                                   \
 769     etype result, none = 0;                                             \
 770     int i;                                                              \
 771                                                                         \
 772     for (i = 0; i < ARRAY_SIZE(r->element); i++) {                      \
 773         if (cmpzero) {                                                  \
 774             result = ((a->element[i] == 0)                              \
 775                            || (b->element[i] == 0)                      \
 776                            || (a->element[i] != b->element[i]) ?        \
 777                            ones : 0x0);                                 \
 778         } else {                                                        \
 779             result = (a->element[i] != b->element[i]) ? ones : 0x0;     \
 780         }                                                               \
 781         r->element[i] = result;                                         \
 782         all &= result;                                                  \
 783         none |= result;                                                 \
 784     }                                                                   \
 785     if (record) {                                                       \
 786         env->crf[6] = ((all != 0) << 3) | ((none == 0) << 1);           \
 787     }                                                                   \
 788 }
 789
 790 /*
 791  * VCMPNEZ - Vector compare not equal to zero
 792  *   suffix  - instruction mnemonic suffix (b: byte, h: halfword, w: word)
 793  *   element - element type to access from vector
 794  */
 795 #define VCMPNE(suffix, element, etype, cmpzero)         \
 796     VCMPNE_DO(suffix, element, etype, cmpzero, 0)       \
 797     VCMPNE_DO(suffix##_dot, element, etype, cmpzero, 1)
 798 VCMPNE(zb, u8, uint8_t, 1)
 799 VCMPNE(zh, u16, uint16_t, 1)
 800 VCMPNE(zw, u32, uint32_t, 1)
 801 VCMPNE(b, u8, uint8_t, 0)
 802 VCMPNE(h, u16, uint16_t, 0)
 803 VCMPNE(w, u32, uint32_t, 0)
 804 #undef VCMPNE_DO
 805 #undef VCMPNE
 806
 807 #define VCMPFP_DO(suffix, compare, order, record)                       \
 808     void helper_vcmp##suffix(CPUPPCState *env, ppc_avr_t *r,            \
 809                              ppc_avr_t *a, ppc_avr_t *b)                \
 810     {                                                                   \
 811         uint32_t ones = (uint32_t)-1;                                   \
 812         uint32_t all = ones;                                            \
 813         uint32_t none = 0;                                              \
 814         int i;                                                          \
 815                                                                         \
 816         for (i = 0; i < ARRAY_SIZE(r->f32); i++) {                      \
 817             uint32_t result;                                            \
 818             FloatRelation rel =                                         \
 819                 float32_compare_quiet(a->f32[i], b->f32[i],             \
 820                                       &env->vec_status);                \
 821             if (rel == float_relation_unordered) {                      \
 822                 result = 0;                                             \
 823             } else if (rel compare order) {                             \
 824                 result = ones;                                          \
 825             } else {                                                    \
 826                 result = 0;                                             \
 827             }                                                           \
 828             r->u32[i] = result;                                         \
 829             all &= result;                                              \
 830             none |= result;                                             \
 831         }                                                               \
 832         if (record) {                                                   \
 833             env->crf[6] = ((all != 0) << 3) | ((none == 0) << 1);       \
 834         }                                                               \
 835     }
 836 #define VCMPFP(suffix, compare, order)          \
 837     VCMPFP_DO(suffix, compare, order, 0)        \
 838     VCMPFP_DO(suffix##_dot, compare, order, 1)
 839 VCMPFP(eqfp, ==, float_relation_equal)
 840 VCMPFP(gefp, !=, float_relation_less)
 841 VCMPFP(gtfp, ==, float_relation_greater)
 842 #undef VCMPFP_DO
 843 #undef VCMPFP
 844
 845 static inline void vcmpbfp_internal(CPUPPCState *env, ppc_avr_t *r,
 846                                     ppc_avr_t *a, ppc_avr_t *b, int record)
 847 {
 848     int i;
 849     int all_in = 0;
 850
 851     for (i = 0; i < ARRAY_SIZE(r->f32); i++) {
 852         FloatRelation le_rel = float32_compare_quiet(a->f32[i], b->f32[i],
 853                                                      &env->vec_status);
 854         if (le_rel == float_relation_unordered) {
 855             r->u32[i] = 0xc0000000;
 856             all_in = 1;
 857         } else {
 858             float32 bneg = float32_chs(b->f32[i]);
 859             FloatRelation ge_rel = float32_compare_quiet(a->f32[i], bneg,
 860                                                          &env->vec_status);
 861             int le = le_rel != float_relation_greater;
 862             int ge = ge_rel != float_relation_less;
 863
 864             r->u32[i] = ((!le) << 31) | ((!ge) << 30);
 865             all_in |= (!le | !ge);
 866         }
 867     }
 868     if (record) {
 869         env->crf[6] = (all_in == 0) << 1;
 870     }
 871 }
 872
 873 void helper_vcmpbfp(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
 874 {
 875     vcmpbfp_internal(env, r, a, b, 0);
 876 }
 877
 878 void helper_vcmpbfp_dot(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a,
 879                         ppc_avr_t *b)
 880 {
 881     vcmpbfp_internal(env, r, a, b, 1);
 882 }
 883
 884 #define VCT(suffix, satcvt, element)                                    \
 885     void helper_vct##suffix(CPUPPCState *env, ppc_avr_t *r,             \
 886                             ppc_avr_t *b, uint32_t uim)                 \
 887     {                                                                   \
 888         int i;                                                          \
 889         int sat = 0;                                                    \
 890         float_status s = env->vec_status;                               \
 891                                                                         \
 892         set_float_rounding_mode(float_round_to_zero, &s);               \
 893         for (i = 0; i < ARRAY_SIZE(r->f32); i++) {                      \
 894             if (float32_is_any_nan(b->f32[i])) {                        \
 895                 r->element[i] = 0;                                      \
 896             } else {                                                    \
 897                 float64 t = float32_to_float64(b->f32[i], &s);          \
 898                 int64_t j;                                              \
 899                                                                         \
 900                 t = float64_scalbn(t, uim, &s);                         \
 901                 j = float64_to_int64(t, &s);                            \
 902                 r->element[i] = satcvt(j, &sat);                        \
 903             }                                                           \
 904         }                                                               \
 905         if (sat) {                                                      \
 906             set_vscr_sat(env);                                          \
 907         }                                                               \
 908     }
 909 VCT(uxs, cvtsduw, u32)
 910 VCT(sxs, cvtsdsw, s32)
 911 #undef VCT
 912
 913 target_ulong helper_vclzlsbb(ppc_avr_t *r)
 914 {
 915     target_ulong count = 0;
 916     int i;
 917     for (i = 0; i < ARRAY_SIZE(r->u8); i++) {
 918         if (r->VsrB(i) & 0x01) {
 919             break;
 920         }
 921         count++;
 922     }
 923     return count;
 924 }
 925
 926 target_ulong helper_vctzlsbb(ppc_avr_t *r)
 927 {
 928     target_ulong count = 0;
 929     int i;
 930     for (i = ARRAY_SIZE(r->u8) - 1; i >= 0; i--) {
 931         if (r->VsrB(i) & 0x01) {
 932             break;
 933         }
 934         count++;
 935     }
 936     return count;
 937 }
 938
 939 void helper_vmhaddshs(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a,
 940                       ppc_avr_t *b, ppc_avr_t *c)
 941 {
 942     int sat = 0;
 943     int i;
 944
 945     for (i = 0; i < ARRAY_SIZE(r->s16); i++) {
 946         int32_t prod = a->s16[i] * b->s16[i];
 947         int32_t t = (int32_t)c->s16[i] + (prod >> 15);
 948
 949         r->s16[i] = cvtswsh(t, &sat);
 950     }
 951
 952     if (sat) {
 953         set_vscr_sat(env);
 954     }
 955 }
 956
 957 void helper_vmhraddshs(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a,
 958                        ppc_avr_t *b, ppc_avr_t *c)
 959 {
 960     int sat = 0;
 961     int i;
 962
 963     for (i = 0; i < ARRAY_SIZE(r->s16); i++) {
 964         int32_t prod = a->s16[i] * b->s16[i] + 0x00004000;
 965         int32_t t = (int32_t)c->s16[i] + (prod >> 15);
 966         r->s16[i] = cvtswsh(t, &sat);
 967     }
 968
 969     if (sat) {
 970         set_vscr_sat(env);
 971     }
 972 }
 973
 974 void helper_vmladduhm(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, ppc_avr_t *c)
 975 {
 976     int i;
 977
 978     for (i = 0; i < ARRAY_SIZE(r->s16); i++) {
 979         int32_t prod = a->s16[i] * b->s16[i];
 980         r->s16[i] = (int16_t) (prod + c->s16[i]);
 981     }
 982 }
 983
 984 #define VMRG_DO(name, element, access, ofs)                                  \
 985     void helper_v##name(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)            \
 986     {                                                                        \
 987         ppc_avr_t result;                                                    \
 988         int i, half = ARRAY_SIZE(r->element) / 2;                            \
 989                                                                              \
 990         for (i = 0; i < half; i++) {                                         \
 991             result.access(i * 2 + 0) = a->access(i + ofs);                   \
 992             result.access(i * 2 + 1) = b->access(i + ofs);                   \
 993         }                                                                    \
 994         *r = result;                                                         \
 995     }
 996
 997 #define VMRG(suffix, element, access)          \
 998     VMRG_DO(mrgl##suffix, element, access, half)   \
 999     VMRG_DO(mrgh##suffix, element, access, 0)
1000 VMRG(b, u8, VsrB)
1001 VMRG(h, u16, VsrH)
1002 VMRG(w, u32, VsrW)
1003 #undef VMRG_DO
1004 #undef VMRG
1005
1006 void helper_vmsummbm(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a,
1007                      ppc_avr_t *b, ppc_avr_t *c)
1008 {
1009     int32_t prod[16];
1010     int i;
1011
1012     for (i = 0; i < ARRAY_SIZE(r->s8); i++) {
1013         prod[i] = (int32_t)a->s8[i] * b->u8[i];
1014     }
1015
1016     VECTOR_FOR_INORDER_I(i, s32) {
1017         r->s32[i] = c->s32[i] + prod[4 * i] + prod[4 * i + 1] +
1018             prod[4 * i + 2] + prod[4 * i + 3];
1019     }
1020 }
1021
1022 void helper_vmsumshm(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a,
1023                      ppc_avr_t *b, ppc_avr_t *c)
1024 {
1025     int32_t prod[8];
1026     int i;
1027
1028     for (i = 0; i < ARRAY_SIZE(r->s16); i++) {
1029         prod[i] = a->s16[i] * b->s16[i];
1030     }
1031
1032     VECTOR_FOR_INORDER_I(i, s32) {
1033         r->s32[i] = c->s32[i] + prod[2 * i] + prod[2 * i + 1];
1034     }
1035 }
1036
1037 void helper_vmsumshs(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a,
1038                      ppc_avr_t *b, ppc_avr_t *c)
1039 {
1040     int32_t prod[8];
1041     int i;
1042     int sat = 0;
1043
1044     for (i = 0; i < ARRAY_SIZE(r->s16); i++) {
1045         prod[i] = (int32_t)a->s16[i] * b->s16[i];
1046     }
1047
1048     VECTOR_FOR_INORDER_I(i, s32) {
1049         int64_t t = (int64_t)c->s32[i] + prod[2 * i] + prod[2 * i + 1];
1050
1051         r->u32[i] = cvtsdsw(t, &sat);
1052     }
1053
1054     if (sat) {
1055         set_vscr_sat(env);
1056     }
1057 }
1058
1059 void helper_vmsumubm(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a,
1060                      ppc_avr_t *b, ppc_avr_t *c)
1061 {
1062     uint16_t prod[16];
1063     int i;
1064
1065     for (i = 0; i < ARRAY_SIZE(r->u8); i++) {
1066         prod[i] = a->u8[i] * b->u8[i];
1067     }
1068
1069     VECTOR_FOR_INORDER_I(i, u32) {
1070         r->u32[i] = c->u32[i] + prod[4 * i] + prod[4 * i + 1] +
1071             prod[4 * i + 2] + prod[4 * i + 3];
1072     }
1073 }
1074
1075 void helper_vmsumuhm(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a,
1076                      ppc_avr_t *b, ppc_avr_t *c)
1077 {
1078     uint32_t prod[8];
1079     int i;
1080
1081     for (i = 0; i < ARRAY_SIZE(r->u16); i++) {
1082         prod[i] = a->u16[i] * b->u16[i];
1083     }
1084
1085     VECTOR_FOR_INORDER_I(i, u32) {
1086         r->u32[i] = c->u32[i] + prod[2 * i] + prod[2 * i + 1];
1087     }
1088 }
1089
1090 void helper_vmsumuhs(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a,
1091                      ppc_avr_t *b, ppc_avr_t *c)
1092 {
1093     uint32_t prod[8];
1094     int i;
1095     int sat = 0;
1096
1097     for (i = 0; i < ARRAY_SIZE(r->u16); i++) {
1098         prod[i] = a->u16[i] * b->u16[i];
1099     }
1100
1101     VECTOR_FOR_INORDER_I(i, s32) {
1102         uint64_t t = (uint64_t)c->u32[i] + prod[2 * i] + prod[2 * i + 1];
1103
1104         r->u32[i] = cvtuduw(t, &sat);
1105     }
1106
1107     if (sat) {
1108         set_vscr_sat(env);
1109     }
1110 }
1111
1112 #define VMUL_DO_EVN(name, mul_element, mul_access, prod_access, cast)   \
1113     void helper_v##name(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)       \
1114     {                                                                   \
1115         int i;                                                          \
1116                                                                         \
1117         for (i = 0; i < ARRAY_SIZE(r->mul_element); i += 2) {           \
1118             r->prod_access(i >> 1) = (cast)a->mul_access(i) *           \
1119                                      (cast)b->mul_access(i);            \
1120         }                                                               \
1121     }
1122
1123 #define VMUL_DO_ODD(name, mul_element, mul_access, prod_access, cast)   \
1124     void helper_v##name(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)       \
1125     {                                                                   \
1126         int i;                                                          \
1127                                                                         \
1128         for (i = 0; i < ARRAY_SIZE(r->mul_element); i += 2) {           \
1129             r->prod_access(i >> 1) = (cast)a->mul_access(i + 1) *       \
1130                                      (cast)b->mul_access(i + 1);        \
1131         }                                                               \
1132     }
1133
1134 #define VMUL(suffix, mul_element, mul_access, prod_access, cast)       \
1135     VMUL_DO_EVN(mule##suffix, mul_element, mul_access, prod_access, cast)  \
1136     VMUL_DO_ODD(mulo##suffix, mul_element, mul_access, prod_access, cast)
1137 VMUL(sb, s8, VsrSB, VsrSH, int16_t)
1138 VMUL(sh, s16, VsrSH, VsrSW, int32_t)
1139 VMUL(sw, s32, VsrSW, VsrSD, int64_t)
1140 VMUL(ub, u8, VsrB, VsrH, uint16_t)
1141 VMUL(uh, u16, VsrH, VsrW, uint32_t)
1142 VMUL(uw, u32, VsrW, VsrD, uint64_t)
1143 #undef VMUL_DO_EVN
1144 #undef VMUL_DO_ODD
1145 #undef VMUL
1146
1147 void helper_vmulhsw(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1148 {
1149     int i;
1150
1151     for (i = 0; i < 4; i++) {
1152         r->s32[i] = (int32_t)(((int64_t)a->s32[i] * (int64_t)b->s32[i]) >> 32);
1153     }
1154 }
1155
1156 void helper_vmulhuw(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1157 {
1158     int i;
1159
1160     for (i = 0; i < 4; i++) {
1161         r->u32[i] = (uint32_t)(((uint64_t)a->u32[i] *
1162                                (uint64_t)b->u32[i]) >> 32);
1163     }
1164 }
1165
1166 void helper_vmulhsd(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1167 {
1168     uint64_t discard;
1169
1170     muls64(&discard, &r->u64[0], a->s64[0], b->s64[0]);
1171     muls64(&discard, &r->u64[1], a->s64[1], b->s64[1]);
1172 }
1173
1174 void helper_vmulhud(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1175 {
1176     uint64_t discard;
1177
1178     mulu64(&discard, &r->u64[0], a->u64[0], b->u64[0]);
1179     mulu64(&discard, &r->u64[1], a->u64[1], b->u64[1]);
1180 }
1181
1182 void helper_vperm(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b,
1183                   ppc_avr_t *c)
1184 {
1185     ppc_avr_t result;
1186     int i;
1187
1188     for (i = 0; i < ARRAY_SIZE(r->u8); i++) {
1189         int s = c->VsrB(i) & 0x1f;
1190         int index = s & 0xf;
1191
1192         if (s & 0x10) {
1193             result.VsrB(i) = b->VsrB(index);
1194         } else {
1195             result.VsrB(i) = a->VsrB(index);
1196         }
1197     }
1198     *r = result;
1199 }
1200
1201 void helper_vpermr(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b,
1202                   ppc_avr_t *c)
1203 {
1204     ppc_avr_t result;
1205     int i;
1206
1207     for (i = 0; i < ARRAY_SIZE(r->u8); i++) {
1208         int s = c->VsrB(i) & 0x1f;
1209         int index = 15 - (s & 0xf);
1210
1211         if (s & 0x10) {
1212             result.VsrB(i) = a->VsrB(index);
1213         } else {
1214             result.VsrB(i) = b->VsrB(index);
1215         }
1216     }
1217     *r = result;
1218 }
1219
1220 #if defined(HOST_WORDS_BIGENDIAN)
1221 #define VBPERMQ_INDEX(avr, i) ((avr)->u8[(i)])
1222 #define VBPERMD_INDEX(i) (i)
1223 #define VBPERMQ_DW(index) (((index) & 0x40) != 0)
1224 #define EXTRACT_BIT(avr, i, index) (extract64((avr)->u64[i], index, 1))
1225 #else
1226 #define VBPERMQ_INDEX(avr, i) ((avr)->u8[15 - (i)])
1227 #define VBPERMD_INDEX(i) (1 - i)
1228 #define VBPERMQ_DW(index) (((index) & 0x40) == 0)
1229 #define EXTRACT_BIT(avr, i, index) \
1230         (extract64((avr)->u64[1 - i], 63 - index, 1))
1231 #endif
1232
1233 void helper_vbpermd(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1234 {
1235     int i, j;
1236     ppc_avr_t result = { .u64 = { 0, 0 } };
1237     VECTOR_FOR_INORDER_I(i, u64) {
1238         for (j = 0; j < 8; j++) {
1239             int index = VBPERMQ_INDEX(b, (i * 8) + j);
1240             if (index < 64 && EXTRACT_BIT(a, i, index)) {
1241                 result.u64[VBPERMD_INDEX(i)] |= (0x80 >> j);
1242             }
1243         }
1244     }
1245     *r = result;
1246 }
1247
1248 void helper_vbpermq(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1249 {
1250     int i;
1251     uint64_t perm = 0;
1252
1253     VECTOR_FOR_INORDER_I(i, u8) {
1254         int index = VBPERMQ_INDEX(b, i);
1255
1256         if (index < 128) {
1257             uint64_t mask = (1ull << (63 - (index & 0x3F)));
1258             if (a->u64[VBPERMQ_DW(index)] & mask) {
1259                 perm |= (0x8000 >> i);
1260             }
1261         }
1262     }
1263
1264     r->VsrD(0) = perm;
1265     r->VsrD(1) = 0;
1266 }
1267
1268 #undef VBPERMQ_INDEX
1269 #undef VBPERMQ_DW
1270
1271 #define PMSUM(name, srcfld, trgfld, trgtyp)                   \
1272 void helper_##name(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)  \
1273 {                                                             \
1274     int i, j;                                                 \
1275     trgtyp prod[sizeof(ppc_avr_t) / sizeof(a->srcfld[0])];    \
1276                                                               \
1277     VECTOR_FOR_INORDER_I(i, srcfld) {                         \
1278         prod[i] = 0;                                          \
1279         for (j = 0; j < sizeof(a->srcfld[0]) * 8; j++) {      \
1280             if (a->srcfld[i] & (1ull << j)) {                 \
1281                 prod[i] ^= ((trgtyp)b->srcfld[i] << j);       \
1282             }                                                 \
1283         }                                                     \
1284     }                                                         \
1285                                                               \
1286     VECTOR_FOR_INORDER_I(i, trgfld) {                         \
1287         r->trgfld[i] = prod[2 * i] ^ prod[2 * i + 1];         \
1288     }                                                         \
1289 }
1290
1291 PMSUM(vpmsumb, u8, u16, uint16_t)
1292 PMSUM(vpmsumh, u16, u32, uint32_t)
1293 PMSUM(vpmsumw, u32, u64, uint64_t)
1294
1295 void helper_vpmsumd(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1296 {
1297
1298 #ifdef CONFIG_INT128
1299     int i, j;
1300     __uint128_t prod[2];
1301
1302     VECTOR_FOR_INORDER_I(i, u64) {
1303         prod[i] = 0;
1304         for (j = 0; j < 64; j++) {
1305             if (a->u64[i] & (1ull << j)) {
1306                 prod[i] ^= (((__uint128_t)b->u64[i]) << j);
1307             }
1308         }
1309     }
1310
1311     r->u128 = prod[0] ^ prod[1];
1312
1313 #else
1314     int i, j;
1315     ppc_avr_t prod[2];
1316
1317     VECTOR_FOR_INORDER_I(i, u64) {
1318         prod[i].VsrD(1) = prod[i].VsrD(0) = 0;
1319         for (j = 0; j < 64; j++) {
1320             if (a->u64[i] & (1ull << j)) {
1321                 ppc_avr_t bshift;
1322                 if (j == 0) {
1323                     bshift.VsrD(0) = 0;
1324                     bshift.VsrD(1) = b->u64[i];
1325                 } else {
1326                     bshift.VsrD(0) = b->u64[i] >> (64 - j);
1327                     bshift.VsrD(1) = b->u64[i] << j;
1328                 }
1329                 prod[i].VsrD(1) ^= bshift.VsrD(1);
1330                 prod[i].VsrD(0) ^= bshift.VsrD(0);
1331             }
1332         }
1333     }
1334
1335     r->VsrD(1) = prod[0].VsrD(1) ^ prod[1].VsrD(1);
1336     r->VsrD(0) = prod[0].VsrD(0) ^ prod[1].VsrD(0);
1337 #endif
1338 }
1339
1340
1341 #if defined(HOST_WORDS_BIGENDIAN)
1342 #define PKBIG 1
1343 #else
1344 #define PKBIG 0
1345 #endif
1346 void helper_vpkpx(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1347 {
1348     int i, j;
1349     ppc_avr_t result;
1350 #if defined(HOST_WORDS_BIGENDIAN)
1351     const ppc_avr_t *x[2] = { a, b };
1352 #else
1353     const ppc_avr_t *x[2] = { b, a };
1354 #endif
1355
1356     VECTOR_FOR_INORDER_I(i, u64) {
1357         VECTOR_FOR_INORDER_I(j, u32) {
1358             uint32_t e = x[i]->u32[j];
1359
1360             result.u16[4 * i + j] = (((e >> 9) & 0xfc00) |
1361                                      ((e >> 6) & 0x3e0) |
1362                                      ((e >> 3) & 0x1f));
1363         }
1364     }
1365     *r = result;
1366 }
1367
1368 #define VPK(suffix, from, to, cvt, dosat)                               \
1369     void helper_vpk##suffix(CPUPPCState *env, ppc_avr_t *r,             \
1370                             ppc_avr_t *a, ppc_avr_t *b)                 \
1371     {                                                                   \
1372         int i;                                                          \
1373         int sat = 0;                                                    \
1374         ppc_avr_t result;                                               \
1375         ppc_avr_t *a0 = PKBIG ? a : b;                                  \
1376         ppc_avr_t *a1 = PKBIG ? b : a;                                  \
1377                                                                         \
1378         VECTOR_FOR_INORDER_I(i, from) {                                 \
1379             result.to[i] = cvt(a0->from[i], &sat);                      \
1380             result.to[i + ARRAY_SIZE(r->from)] = cvt(a1->from[i], &sat);\
1381         }                                                               \
1382         *r = result;                                                    \
1383         if (dosat && sat) {                                             \
1384             set_vscr_sat(env);                                          \
1385         }                                                               \
1386     }
1387 #define I(x, y) (x)
1388 VPK(shss, s16, s8, cvtshsb, 1)
1389 VPK(shus, s16, u8, cvtshub, 1)
1390 VPK(swss, s32, s16, cvtswsh, 1)
1391 VPK(swus, s32, u16, cvtswuh, 1)
1392 VPK(sdss, s64, s32, cvtsdsw, 1)
1393 VPK(sdus, s64, u32, cvtsduw, 1)
1394 VPK(uhus, u16, u8, cvtuhub, 1)
1395 VPK(uwus, u32, u16, cvtuwuh, 1)
1396 VPK(udus, u64, u32, cvtuduw, 1)
1397 VPK(uhum, u16, u8, I, 0)
1398 VPK(uwum, u32, u16, I, 0)
1399 VPK(udum, u64, u32, I, 0)
1400 #undef I
1401 #undef VPK
1402 #undef PKBIG
1403
1404 void helper_vrefp(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *b)
1405 {
1406     int i;
1407
1408     for (i = 0; i < ARRAY_SIZE(r->f32); i++) {
1409         r->f32[i] = float32_div(float32_one, b->f32[i], &env->vec_status);
1410     }
1411 }
1412
1413 #define VRFI(suffix, rounding)                                  \
1414     void helper_vrfi##suffix(CPUPPCState *env, ppc_avr_t *r,    \
1415                              ppc_avr_t *b)                      \
1416     {                                                           \
1417         int i;                                                  \
1418         float_status s = env->vec_status;                       \
1419                                                                 \
1420         set_float_rounding_mode(rounding, &s);                  \
1421         for (i = 0; i < ARRAY_SIZE(r->f32); i++) {              \
1422             r->f32[i] = float32_round_to_int (b->f32[i], &s);   \
1423         }                                                       \
1424     }
1425 VRFI(n, float_round_nearest_even)
1426 VRFI(m, float_round_down)
1427 VRFI(p, float_round_up)
1428 VRFI(z, float_round_to_zero)
1429 #undef VRFI
1430
1431 void helper_vrsqrtefp(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *b)
1432 {
1433     int i;
1434
1435     for (i = 0; i < ARRAY_SIZE(r->f32); i++) {
1436         float32 t = float32_sqrt(b->f32[i], &env->vec_status);
1437
1438         r->f32[i] = float32_div(float32_one, t, &env->vec_status);
1439     }
1440 }
1441
1442 #define VRLMI(name, size, element, insert)                            \
1443 void helper_##name(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)          \
1444 {                                                                     \
1445     int i;                                                            \
1446     for (i = 0; i < ARRAY_SIZE(r->element); i++) {                    \
1447         uint##size##_t src1 = a->element[i];                          \
1448         uint##size##_t src2 = b->element[i];                          \
1449         uint##size##_t src3 = r->element[i];                          \
1450         uint##size##_t begin, end, shift, mask, rot_val;              \
1451                                                                       \
1452         shift = extract##size(src2, 0, 6);                            \
1453         end   = extract##size(src2, 8, 6);                            \
1454         begin = extract##size(src2, 16, 6);                           \
1455         rot_val = rol##size(src1, shift);                             \
1456         mask = mask_u##size(begin, end);                              \
1457         if (insert) {                                                 \
1458             r->element[i] = (rot_val & mask) | (src3 & ~mask);        \
1459         } else {                                                      \
1460             r->element[i] = (rot_val & mask);                         \
1461         }                                                             \
1462     }                                                                 \
1463 }
1464
1465 VRLMI(vrldmi, 64, u64, 1);
1466 VRLMI(vrlwmi, 32, u32, 1);
1467 VRLMI(vrldnm, 64, u64, 0);
1468 VRLMI(vrlwnm, 32, u32, 0);
1469
1470 void helper_vsel(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b,
1471                  ppc_avr_t *c)
1472 {
1473     r->u64[0] = (a->u64[0] & ~c->u64[0]) | (b->u64[0] & c->u64[0]);
1474     r->u64[1] = (a->u64[1] & ~c->u64[1]) | (b->u64[1] & c->u64[1]);
1475 }
1476
1477 void helper_vexptefp(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *b)
1478 {
1479     int i;
1480
1481     for (i = 0; i < ARRAY_SIZE(r->f32); i++) {
1482         r->f32[i] = float32_exp2(b->f32[i], &env->vec_status);
1483     }
1484 }
1485
1486 void helper_vlogefp(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *b)
1487 {
1488     int i;
1489
1490     for (i = 0; i < ARRAY_SIZE(r->f32); i++) {
1491         r->f32[i] = float32_log2(b->f32[i], &env->vec_status);
1492     }
1493 }
1494
1495 #if defined(HOST_WORDS_BIGENDIAN)
1496 #define VEXTU_X_DO(name, size, left)                                \
1497     target_ulong glue(helper_, name)(target_ulong a, ppc_avr_t *b)  \
1498     {                                                               \
1499         int index;                                                  \
1500         if (left) {                                                 \
1501             index = (a & 0xf) * 8;                                  \
1502         } else {                                                    \
1503             index = ((15 - (a & 0xf) + 1) * 8) - size;              \
1504         }                                                           \
1505         return int128_getlo(int128_rshift(b->s128, index)) &        \
1506             MAKE_64BIT_MASK(0, size);                               \
1507     }
1508 #else
1509 #define VEXTU_X_DO(name, size, left)                                \
1510     target_ulong glue(helper_, name)(target_ulong a, ppc_avr_t *b)  \
1511     {                                                               \
1512         int index;                                                  \
1513         if (left) {                                                 \
1514             index = ((15 - (a & 0xf) + 1) * 8) - size;              \
1515         } else {                                                    \
1516             index = (a & 0xf) * 8;                                  \
1517         }                                                           \
1518         return int128_getlo(int128_rshift(b->s128, index)) &        \
1519             MAKE_64BIT_MASK(0, size);                               \
1520     }
1521 #endif
1522
1523 VEXTU_X_DO(vextublx,  8, 1)
1524 VEXTU_X_DO(vextuhlx, 16, 1)
1525 VEXTU_X_DO(vextuwlx, 32, 1)
1526 VEXTU_X_DO(vextubrx,  8, 0)
1527 VEXTU_X_DO(vextuhrx, 16, 0)
1528 VEXTU_X_DO(vextuwrx, 32, 0)
1529 #undef VEXTU_X_DO
1530
1531 void helper_vslv(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1532 {
1533     int i;
1534     unsigned int shift, bytes, size;
1535
1536     size = ARRAY_SIZE(r->u8);
1537     for (i = 0; i < size; i++) {
1538         shift = b->VsrB(i) & 0x7;             /* extract shift value */
1539         bytes = (a->VsrB(i) << 8) +           /* extract adjacent bytes */
1540             (((i + 1) < size) ? a->VsrB(i + 1) : 0);
1541         r->VsrB(i) = (bytes << shift) >> 8;   /* shift and store result */
1542     }
1543 }
1544
1545 void helper_vsrv(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1546 {
1547     int i;
1548     unsigned int shift, bytes;
1549
1550     /*
1551      * Use reverse order, as destination and source register can be
1552      * same. Its being modified in place saving temporary, reverse
1553      * order will guarantee that computed result is not fed back.
1554      */
1555     for (i = ARRAY_SIZE(r->u8) - 1; i >= 0; i--) {
1556         shift = b->VsrB(i) & 0x7;               /* extract shift value */
1557         bytes = ((i ? a->VsrB(i - 1) : 0) << 8) + a->VsrB(i);
1558                                                 /* extract adjacent bytes */
1559         r->VsrB(i) = (bytes >> shift) & 0xFF;   /* shift and store result */
1560     }
1561 }
1562
1563 void helper_vsldoi(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, uint32_t shift)
1564 {
1565     int sh = shift & 0xf;
1566     int i;
1567     ppc_avr_t result;
1568
1569     for (i = 0; i < ARRAY_SIZE(r->u8); i++) {
1570         int index = sh + i;
1571         if (index > 0xf) {
1572             result.VsrB(i) = b->VsrB(index - 0x10);
1573         } else {
1574             result.VsrB(i) = a->VsrB(index);
1575         }
1576     }
1577     *r = result;
1578 }
1579
1580 void helper_vslo(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1581 {
1582     int sh = (b->VsrB(0xf) >> 3) & 0xf;
1583
1584 #if defined(HOST_WORDS_BIGENDIAN)
1585     memmove(&r->u8[0], &a->u8[sh], 16 - sh);
1586     memset(&r->u8[16 - sh], 0, sh);
1587 #else
1588     memmove(&r->u8[sh], &a->u8[0], 16 - sh);
1589     memset(&r->u8[0], 0, sh);
1590 #endif
1591 }
1592
1593 #if defined(HOST_WORDS_BIGENDIAN)
1594 #define VINSERT(suffix, element)                                            \
1595     void helper_vinsert##suffix(ppc_avr_t *r, ppc_avr_t *b, uint32_t index) \
1596     {                                                                       \
1597         memmove(&r->u8[index], &b->u8[8 - sizeof(r->element[0])],           \
1598                sizeof(r->element[0]));                                      \
1599     }
1600 #else
1601 #define VINSERT(suffix, element)                                            \
1602     void helper_vinsert##suffix(ppc_avr_t *r, ppc_avr_t *b, uint32_t index) \
1603     {                                                                       \
1604         uint32_t d = (16 - index) - sizeof(r->element[0]);                  \
1605         memmove(&r->u8[d], &b->u8[8], sizeof(r->element[0]));               \
1606     }
1607 #endif
1608 VINSERT(b, u8)
1609 VINSERT(h, u16)
1610 VINSERT(w, u32)
1611 VINSERT(d, u64)
1612 #undef VINSERT
1613 #if defined(HOST_WORDS_BIGENDIAN)
1614 #define VEXTRACT(suffix, element)                                            \
1615     void helper_vextract##suffix(ppc_avr_t *r, ppc_avr_t *b, uint32_t index) \
1616     {                                                                        \
1617         uint32_t es = sizeof(r->element[0]);                                 \
1618         memmove(&r->u8[8 - es], &b->u8[index], es);                          \
1619         memset(&r->u8[8], 0, 8);                                             \
1620         memset(&r->u8[0], 0, 8 - es);                                        \
1621     }
1622 #else
1623 #define VEXTRACT(suffix, element)                                            \
1624     void helper_vextract##suffix(ppc_avr_t *r, ppc_avr_t *b, uint32_t index) \
1625     {                                                                        \
1626         uint32_t es = sizeof(r->element[0]);                                 \
1627         uint32_t s = (16 - index) - es;                                      \
1628         memmove(&r->u8[8], &b->u8[s], es);                                   \
1629         memset(&r->u8[0], 0, 8);                                             \
1630         memset(&r->u8[8 + es], 0, 8 - es);                                   \
1631     }
1632 #endif
1633 VEXTRACT(ub, u8)
1634 VEXTRACT(uh, u16)
1635 VEXTRACT(uw, u32)
1636 VEXTRACT(d, u64)
1637 #undef VEXTRACT
1638
1639 void helper_xxextractuw(CPUPPCState *env, ppc_vsr_t *xt,
1640                         ppc_vsr_t *xb, uint32_t index)
1641 {
1642     ppc_vsr_t t = { };
1643     size_t es = sizeof(uint32_t);
1644     uint32_t ext_index;
1645     int i;
1646
1647     ext_index = index;
1648     for (i = 0; i < es; i++, ext_index++) {
1649         t.VsrB(8 - es + i) = xb->VsrB(ext_index % 16);
1650     }
1651
1652     *xt = t;
1653 }
1654
1655 void helper_xxinsertw(CPUPPCState *env, ppc_vsr_t *xt,
1656                       ppc_vsr_t *xb, uint32_t index)
1657 {
1658     ppc_vsr_t t = *xt;
1659     size_t es = sizeof(uint32_t);
1660     int ins_index, i = 0;
1661
1662     ins_index = index;
1663     for (i = 0; i < es && ins_index < 16; i++, ins_index++) {
1664         t.VsrB(ins_index) = xb->VsrB(8 - es + i);
1665     }
1666
1667     *xt = t;
1668 }
1669
1670 #define VEXT_SIGNED(name, element, cast)                            \
1671 void helper_##name(ppc_avr_t *r, ppc_avr_t *b)                      \
1672 {                                                                   \
1673     int i;                                                          \
1674     for (i = 0; i < ARRAY_SIZE(r->element); i++) {                  \
1675         r->element[i] = (cast)b->element[i];                        \
1676     }                                                               \
1677 }
1678 VEXT_SIGNED(vextsb2w, s32, int8_t)
1679 VEXT_SIGNED(vextsb2d, s64, int8_t)
1680 VEXT_SIGNED(vextsh2w, s32, int16_t)
1681 VEXT_SIGNED(vextsh2d, s64, int16_t)
1682 VEXT_SIGNED(vextsw2d, s64, int32_t)
1683 #undef VEXT_SIGNED
1684
1685 #define VNEG(name, element)                                         \
1686 void helper_##name(ppc_avr_t *r, ppc_avr_t *b)                      \
1687 {                                                                   \
1688     int i;                                                          \
1689     for (i = 0; i < ARRAY_SIZE(r->element); i++) {                  \
1690         r->element[i] = -b->element[i];                             \
1691     }                                                               \
1692 }
1693 VNEG(vnegw, s32)
1694 VNEG(vnegd, s64)
1695 #undef VNEG
1696
1697 void helper_vsro(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1698 {
1699     int sh = (b->VsrB(0xf) >> 3) & 0xf;
1700
1701 #if defined(HOST_WORDS_BIGENDIAN)
1702     memmove(&r->u8[sh], &a->u8[0], 16 - sh);
1703     memset(&r->u8[0], 0, sh);
1704 #else
1705     memmove(&r->u8[0], &a->u8[sh], 16 - sh);
1706     memset(&r->u8[16 - sh], 0, sh);
1707 #endif
1708 }
1709
1710 void helper_vsubcuw(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1711 {
1712     int i;
1713
1714     for (i = 0; i < ARRAY_SIZE(r->u32); i++) {
1715         r->u32[i] = a->u32[i] >= b->u32[i];
1716     }
1717 }
1718
1719 void helper_vsumsws(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1720 {
1721     int64_t t;
1722     int i, upper;
1723     ppc_avr_t result;
1724     int sat = 0;
1725
1726     upper = ARRAY_SIZE(r->s32) - 1;
1727     t = (int64_t)b->VsrSW(upper);
1728     for (i = 0; i < ARRAY_SIZE(r->s32); i++) {
1729         t += a->VsrSW(i);
1730         result.VsrSW(i) = 0;
1731     }
1732     result.VsrSW(upper) = cvtsdsw(t, &sat);
1733     *r = result;
1734
1735     if (sat) {
1736         set_vscr_sat(env);
1737     }
1738 }
1739
1740 void helper_vsum2sws(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1741 {
1742     int i, j, upper;
1743     ppc_avr_t result;
1744     int sat = 0;
1745
1746     upper = 1;
1747     for (i = 0; i < ARRAY_SIZE(r->u64); i++) {
1748         int64_t t = (int64_t)b->VsrSW(upper + i * 2);
1749
1750         result.VsrD(i) = 0;
1751         for (j = 0; j < ARRAY_SIZE(r->u64); j++) {
1752             t += a->VsrSW(2 * i + j);
1753         }
1754         result.VsrSW(upper + i * 2) = cvtsdsw(t, &sat);
1755     }
1756
1757     *r = result;
1758     if (sat) {
1759         set_vscr_sat(env);
1760     }
1761 }
1762
1763 void helper_vsum4sbs(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1764 {
1765     int i, j;
1766     int sat = 0;
1767
1768     for (i = 0; i < ARRAY_SIZE(r->s32); i++) {
1769         int64_t t = (int64_t)b->s32[i];
1770
1771         for (j = 0; j < ARRAY_SIZE(r->s32); j++) {
1772             t += a->s8[4 * i + j];
1773         }
1774         r->s32[i] = cvtsdsw(t, &sat);
1775     }
1776
1777     if (sat) {
1778         set_vscr_sat(env);
1779     }
1780 }
1781
1782 void helper_vsum4shs(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1783 {
1784     int sat = 0;
1785     int i;
1786
1787     for (i = 0; i < ARRAY_SIZE(r->s32); i++) {
1788         int64_t t = (int64_t)b->s32[i];
1789
1790         t += a->s16[2 * i] + a->s16[2 * i + 1];
1791         r->s32[i] = cvtsdsw(t, &sat);
1792     }
1793
1794     if (sat) {
1795         set_vscr_sat(env);
1796     }
1797 }
1798
1799 void helper_vsum4ubs(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1800 {
1801     int i, j;
1802     int sat = 0;
1803
1804     for (i = 0; i < ARRAY_SIZE(r->u32); i++) {
1805         uint64_t t = (uint64_t)b->u32[i];
1806
1807         for (j = 0; j < ARRAY_SIZE(r->u32); j++) {
1808             t += a->u8[4 * i + j];
1809         }
1810         r->u32[i] = cvtuduw(t, &sat);
1811     }
1812
1813     if (sat) {
1814         set_vscr_sat(env);
1815     }
1816 }
1817
1818 #if defined(HOST_WORDS_BIGENDIAN)
1819 #define UPKHI 1
1820 #define UPKLO 0
1821 #else
1822 #define UPKHI 0
1823 #define UPKLO 1
1824 #endif
1825 #define VUPKPX(suffix, hi)                                              \
1826     void helper_vupk##suffix(ppc_avr_t *r, ppc_avr_t *b)                \
1827     {                                                                   \
1828         int i;                                                          \
1829         ppc_avr_t result;                                               \
1830                                                                         \
1831         for (i = 0; i < ARRAY_SIZE(r->u32); i++) {                      \
1832             uint16_t e = b->u16[hi ? i : i + 4];                        \
1833             uint8_t a = (e >> 15) ? 0xff : 0;                           \
1834             uint8_t r = (e >> 10) & 0x1f;                               \
1835             uint8_t g = (e >> 5) & 0x1f;                                \
1836             uint8_t b = e & 0x1f;                                       \
1837                                                                         \
1838             result.u32[i] = (a << 24) | (r << 16) | (g << 8) | b;       \
1839         }                                                               \
1840         *r = result;                                                    \
1841     }
1842 VUPKPX(lpx, UPKLO)
1843 VUPKPX(hpx, UPKHI)
1844 #undef VUPKPX
1845
1846 #define VUPK(suffix, unpacked, packee, hi)                              \
1847     void helper_vupk##suffix(ppc_avr_t *r, ppc_avr_t *b)                \
1848     {                                                                   \
1849         int i;                                                          \
1850         ppc_avr_t result;                                               \
1851                                                                         \
1852         if (hi) {                                                       \
1853             for (i = 0; i < ARRAY_SIZE(r->unpacked); i++) {             \
1854                 result.unpacked[i] = b->packee[i];                      \
1855             }                                                           \
1856         } else {                                                        \
1857             for (i = ARRAY_SIZE(r->unpacked); i < ARRAY_SIZE(r->packee); \
1858                  i++) {                                                 \
1859                 result.unpacked[i - ARRAY_SIZE(r->unpacked)] = b->packee[i]; \
1860             }                                                           \
1861         }                                                               \
1862         *r = result;                                                    \
1863     }
1864 VUPK(hsb, s16, s8, UPKHI)
1865 VUPK(hsh, s32, s16, UPKHI)
1866 VUPK(hsw, s64, s32, UPKHI)
1867 VUPK(lsb, s16, s8, UPKLO)
1868 VUPK(lsh, s32, s16, UPKLO)
1869 VUPK(lsw, s64, s32, UPKLO)
1870 #undef VUPK
1871 #undef UPKHI
1872 #undef UPKLO
1873
1874 #define VGENERIC_DO(name, element)                                      \
1875     void helper_v##name(ppc_avr_t *r, ppc_avr_t *b)                     \
1876     {                                                                   \
1877         int i;                                                          \
1878                                                                         \
1879         for (i = 0; i < ARRAY_SIZE(r->element); i++) {                  \
1880             r->element[i] = name(b->element[i]);                        \
1881         }                                                               \
1882     }
1883
1884 #define clzb(v) ((v) ? clz32((uint32_t)(v) << 24) : 8)
1885 #define clzh(v) ((v) ? clz32((uint32_t)(v) << 16) : 16)
1886
1887 VGENERIC_DO(clzb, u8)
1888 VGENERIC_DO(clzh, u16)
1889
1890 #undef clzb
1891 #undef clzh
1892
1893 #define ctzb(v) ((v) ? ctz32(v) : 8)
1894 #define ctzh(v) ((v) ? ctz32(v) : 16)
1895 #define ctzw(v) ctz32((v))
1896 #define ctzd(v) ctz64((v))
1897
1898 VGENERIC_DO(ctzb, u8)
1899 VGENERIC_DO(ctzh, u16)
1900 VGENERIC_DO(ctzw, u32)
1901 VGENERIC_DO(ctzd, u64)
1902
1903 #undef ctzb
1904 #undef ctzh
1905 #undef ctzw
1906 #undef ctzd
1907
1908 #define popcntb(v) ctpop8(v)
1909 #define popcnth(v) ctpop16(v)
1910 #define popcntw(v) ctpop32(v)
1911 #define popcntd(v) ctpop64(v)
1912
1913 VGENERIC_DO(popcntb, u8)
1914 VGENERIC_DO(popcnth, u16)
1915 VGENERIC_DO(popcntw, u32)
1916 VGENERIC_DO(popcntd, u64)
1917
1918 #undef popcntb
1919 #undef popcnth
1920 #undef popcntw
1921 #undef popcntd
1922
1923 #undef VGENERIC_DO
1924
1925 #if defined(HOST_WORDS_BIGENDIAN)
1926 #define QW_ONE { .u64 = { 0, 1 } }
1927 #else
1928 #define QW_ONE { .u64 = { 1, 0 } }
1929 #endif
1930
1931 #ifndef CONFIG_INT128
1932
1933 static inline void avr_qw_not(ppc_avr_t *t, ppc_avr_t a)
1934 {
1935     t->u64[0] = ~a.u64[0];
1936     t->u64[1] = ~a.u64[1];
1937 }
1938
1939 static int avr_qw_cmpu(ppc_avr_t a, ppc_avr_t b)
1940 {
1941     if (a.VsrD(0) < b.VsrD(0)) {
1942         return -1;
1943     } else if (a.VsrD(0) > b.VsrD(0)) {
1944         return 1;
1945     } else if (a.VsrD(1) < b.VsrD(1)) {
1946         return -1;
1947     } else if (a.VsrD(1) > b.VsrD(1)) {
1948         return 1;
1949     } else {
1950         return 0;
1951     }
1952 }
1953
1954 static void avr_qw_add(ppc_avr_t *t, ppc_avr_t a, ppc_avr_t b)
1955 {
1956     t->VsrD(1) = a.VsrD(1) + b.VsrD(1);
1957     t->VsrD(0) = a.VsrD(0) + b.VsrD(0) +
1958                      (~a.VsrD(1) < b.VsrD(1));
1959 }
1960
1961 static int avr_qw_addc(ppc_avr_t *t, ppc_avr_t a, ppc_avr_t b)
1962 {
1963     ppc_avr_t not_a;
1964     t->VsrD(1) = a.VsrD(1) + b.VsrD(1);
1965     t->VsrD(0) = a.VsrD(0) + b.VsrD(0) +
1966                      (~a.VsrD(1) < b.VsrD(1));
1967     avr_qw_not(&not_a, a);
1968     return avr_qw_cmpu(not_a, b) < 0;
1969 }
1970
1971 #endif
1972
1973 void helper_vadduqm(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1974 {
1975 #ifdef CONFIG_INT128
1976     r->u128 = a->u128 + b->u128;
1977 #else
1978     avr_qw_add(r, *a, *b);
1979 #endif
1980 }
1981
1982 void helper_vaddeuqm(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, ppc_avr_t *c)
1983 {
1984 #ifdef CONFIG_INT128
1985     r->u128 = a->u128 + b->u128 + (c->u128 & 1);
1986 #else
1987
1988     if (c->VsrD(1) & 1) {
1989         ppc_avr_t tmp;
1990
1991         tmp.VsrD(0) = 0;
1992         tmp.VsrD(1) = c->VsrD(1) & 1;
1993         avr_qw_add(&tmp, *a, tmp);
1994         avr_qw_add(r, tmp, *b);
1995     } else {
1996         avr_qw_add(r, *a, *b);
1997     }
1998 #endif
1999 }
2000
2001 void helper_vaddcuq(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
2002 {
2003 #ifdef CONFIG_INT128
2004     r->u128 = (~a->u128 < b->u128);
2005 #else
2006     ppc_avr_t not_a;
2007
2008     avr_qw_not(&not_a, *a);
2009
2010     r->VsrD(0) = 0;
2011     r->VsrD(1) = (avr_qw_cmpu(not_a, *b) < 0);
2012 #endif
2013 }
2014
2015 void helper_vaddecuq(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, ppc_avr_t *c)
2016 {
2017 #ifdef CONFIG_INT128
2018     int carry_out = (~a->u128 < b->u128);
2019     if (!carry_out && (c->u128 & 1)) {
2020         carry_out = ((a->u128 + b->u128 + 1) == 0) &&
2021                     ((a->u128 != 0) || (b->u128 != 0));
2022     }
2023     r->u128 = carry_out;
2024 #else
2025
2026     int carry_in = c->VsrD(1) & 1;
2027     int carry_out = 0;
2028     ppc_avr_t tmp;
2029
2030     carry_out = avr_qw_addc(&tmp, *a, *b);
2031
2032     if (!carry_out && carry_in) {
2033         ppc_avr_t one = QW_ONE;
2034         carry_out = avr_qw_addc(&tmp, tmp, one);
2035     }
2036     r->VsrD(0) = 0;
2037     r->VsrD(1) = carry_out;
2038 #endif
2039 }
2040
2041 void helper_vsubuqm(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
2042 {
2043 #ifdef CONFIG_INT128
2044     r->u128 = a->u128 - b->u128;
2045 #else
2046     ppc_avr_t tmp;
2047     ppc_avr_t one = QW_ONE;
2048
2049     avr_qw_not(&tmp, *b);
2050     avr_qw_add(&tmp, *a, tmp);
2051     avr_qw_add(r, tmp, one);
2052 #endif
2053 }
2054
2055 void helper_vsubeuqm(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, ppc_avr_t *c)
2056 {
2057 #ifdef CONFIG_INT128
2058     r->u128 = a->u128 + ~b->u128 + (c->u128 & 1);
2059 #else
2060     ppc_avr_t tmp, sum;
2061
2062     avr_qw_not(&tmp, *b);
2063     avr_qw_add(&sum, *a, tmp);
2064
2065     tmp.VsrD(0) = 0;
2066     tmp.VsrD(1) = c->VsrD(1) & 1;
2067     avr_qw_add(r, sum, tmp);
2068 #endif
2069 }
2070
2071 void helper_vsubcuq(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
2072 {
2073 #ifdef CONFIG_INT128
2074     r->u128 = (~a->u128 < ~b->u128) ||
2075                  (a->u128 + ~b->u128 == (__uint128_t)-1);
2076 #else
2077     int carry = (avr_qw_cmpu(*a, *b) > 0);
2078     if (!carry) {
2079         ppc_avr_t tmp;
2080         avr_qw_not(&tmp, *b);
2081         avr_qw_add(&tmp, *a, tmp);
2082         carry = ((tmp.VsrSD(0) == -1ull) && (tmp.VsrSD(1) == -1ull));
2083     }
2084     r->VsrD(0) = 0;
2085     r->VsrD(1) = carry;
2086 #endif
2087 }
2088
2089 void helper_vsubecuq(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, ppc_avr_t *c)
2090 {
2091 #ifdef CONFIG_INT128
2092     r->u128 =
2093         (~a->u128 < ~b->u128) ||
2094         ((c->u128 & 1) && (a->u128 + ~b->u128 == (__uint128_t)-1));
2095 #else
2096     int carry_in = c->VsrD(1) & 1;
2097     int carry_out = (avr_qw_cmpu(*a, *b) > 0);
2098     if (!carry_out && carry_in) {
2099         ppc_avr_t tmp;
2100         avr_qw_not(&tmp, *b);
2101         avr_qw_add(&tmp, *a, tmp);
2102         carry_out = ((tmp.VsrD(0) == -1ull) && (tmp.VsrD(1) == -1ull));
2103     }
2104
2105     r->VsrD(0) = 0;
2106     r->VsrD(1) = carry_out;
2107 #endif
2108 }
2109
2110 #define BCD_PLUS_PREF_1 0xC
2111 #define BCD_PLUS_PREF_2 0xF
2112 #define BCD_PLUS_ALT_1  0xA
2113 #define BCD_NEG_PREF    0xD
2114 #define BCD_NEG_ALT     0xB
2115 #define BCD_PLUS_ALT_2  0xE
2116 #define NATIONAL_PLUS   0x2B
2117 #define NATIONAL_NEG    0x2D
2118
2119 #define BCD_DIG_BYTE(n) (15 - ((n) / 2))
2120
2121 static int bcd_get_sgn(ppc_avr_t *bcd)
2122 {
2123     switch (bcd->VsrB(BCD_DIG_BYTE(0)) & 0xF) {
2124     case BCD_PLUS_PREF_1:
2125     case BCD_PLUS_PREF_2:
2126     case BCD_PLUS_ALT_1:
2127     case BCD_PLUS_ALT_2:
2128     {
2129         return 1;
2130     }
2131
2132     case BCD_NEG_PREF:
2133     case BCD_NEG_ALT:
2134     {
2135         return -1;
2136     }
2137
2138     default:
2139     {
2140         return 0;
2141     }
2142     }
2143 }
2144
2145 static int bcd_preferred_sgn(int sgn, int ps)
2146 {
2147     if (sgn >= 0) {
2148         return (ps == 0) ? BCD_PLUS_PREF_1 : BCD_PLUS_PREF_2;
2149     } else {
2150         return BCD_NEG_PREF;
2151     }
2152 }
2153
2154 static uint8_t bcd_get_digit(ppc_avr_t *bcd, int n, int *invalid)
2155 {
2156     uint8_t result;
2157     if (n & 1) {
2158         result = bcd->VsrB(BCD_DIG_BYTE(n)) >> 4;
2159     } else {
2160        result = bcd->VsrB(BCD_DIG_BYTE(n)) & 0xF;
2161     }
2162
2163     if (unlikely(result > 9)) {
2164         *invalid = true;
2165     }
2166     return result;
2167 }
2168
2169 static void bcd_put_digit(ppc_avr_t *bcd, uint8_t digit, int n)
2170 {
2171     if (n & 1) {
2172         bcd->VsrB(BCD_DIG_BYTE(n)) &= 0x0F;
2173         bcd->VsrB(BCD_DIG_BYTE(n)) |= (digit << 4);
2174     } else {
2175         bcd->VsrB(BCD_DIG_BYTE(n)) &= 0xF0;
2176         bcd->VsrB(BCD_DIG_BYTE(n)) |= digit;
2177     }
2178 }
2179
2180 static bool bcd_is_valid(ppc_avr_t *bcd)
2181 {
2182     int i;
2183     int invalid = 0;
2184
2185     if (bcd_get_sgn(bcd) == 0) {
2186         return false;
2187     }
2188
2189     for (i = 1; i < 32; i++) {
2190         bcd_get_digit(bcd, i, &invalid);
2191         if (unlikely(invalid)) {
2192             return false;
2193         }
2194     }
2195     return true;
2196 }
2197
2198 static int bcd_cmp_zero(ppc_avr_t *bcd)
2199 {
2200     if (bcd->VsrD(0) == 0 && (bcd->VsrD(1) >> 4) == 0) {
2201         return CRF_EQ;
2202     } else {
2203         return (bcd_get_sgn(bcd) == 1) ? CRF_GT : CRF_LT;
2204     }
2205 }
2206
2207 static uint16_t get_national_digit(ppc_avr_t *reg, int n)
2208 {
2209     return reg->VsrH(7 - n);
2210 }
2211
2212 static void set_national_digit(ppc_avr_t *reg, uint8_t val, int n)
2213 {
2214     reg->VsrH(7 - n) = val;
2215 }
2216
2217 static int bcd_cmp_mag(ppc_avr_t *a, ppc_avr_t *b)
2218 {
2219     int i;
2220     int invalid = 0;
2221     for (i = 31; i > 0; i--) {
2222         uint8_t dig_a = bcd_get_digit(a, i, &invalid);
2223         uint8_t dig_b = bcd_get_digit(b, i, &invalid);
2224         if (unlikely(invalid)) {
2225             return 0; /* doesn't matter */
2226         } else if (dig_a > dig_b) {
2227             return 1;
2228         } else if (dig_a < dig_b) {
2229             return -1;
2230         }
2231     }
2232
2233     return 0;
2234 }
2235
2236 static int bcd_add_mag(ppc_avr_t *t, ppc_avr_t *a, ppc_avr_t *b, int *invalid,
2237                        int *overflow)
2238 {
2239     int carry = 0;
2240     int i;
2241     int is_zero = 1;
2242
2243     for (i = 1; i <= 31; i++) {
2244         uint8_t digit = bcd_get_digit(a, i, invalid) +
2245                         bcd_get_digit(b, i, invalid) + carry;
2246         is_zero &= (digit == 0);
2247         if (digit > 9) {
2248             carry = 1;
2249             digit -= 10;
2250         } else {
2251             carry = 0;
2252         }
2253
2254         bcd_put_digit(t, digit, i);
2255     }
2256
2257     *overflow = carry;
2258     return is_zero;
2259 }
2260
2261 static void bcd_sub_mag(ppc_avr_t *t, ppc_avr_t *a, ppc_avr_t *b, int *invalid,
2262                        int *overflow)
2263 {
2264     int carry = 0;
2265     int i;
2266
2267     for (i = 1; i <= 31; i++) {
2268         uint8_t digit = bcd_get_digit(a, i, invalid) -
2269                         bcd_get_digit(b, i, invalid) + carry;
2270         if (digit & 0x80) {
2271             carry = -1;
2272             digit += 10;
2273         } else {
2274             carry = 0;
2275         }
2276
2277         bcd_put_digit(t, digit, i);
2278     }
2279
2280     *overflow = carry;
2281 }
2282
2283 uint32_t helper_bcdadd(ppc_avr_t *r,  ppc_avr_t *a, ppc_avr_t *b, uint32_t ps)
2284 {
2285
2286     int sgna = bcd_get_sgn(a);
2287     int sgnb = bcd_get_sgn(b);
2288     int invalid = (sgna == 0) || (sgnb == 0);
2289     int overflow = 0;
2290     int zero = 0;
2291     uint32_t cr = 0;
2292     ppc_avr_t result = { .u64 = { 0, 0 } };
2293
2294     if (!invalid) {
2295         if (sgna == sgnb) {
2296             result.VsrB(BCD_DIG_BYTE(0)) = bcd_preferred_sgn(sgna, ps);
2297             zero = bcd_add_mag(&result, a, b, &invalid, &overflow);
2298             cr = (sgna > 0) ? CRF_GT : CRF_LT;
2299         } else {
2300             int magnitude = bcd_cmp_mag(a, b);
2301             if (magnitude > 0) {
2302                 result.VsrB(BCD_DIG_BYTE(0)) = bcd_preferred_sgn(sgna, ps);
2303                 bcd_sub_mag(&result, a, b, &invalid, &overflow);
2304                 cr = (sgna > 0) ? CRF_GT : CRF_LT;
2305             } else if (magnitude < 0) {
2306                 result.VsrB(BCD_DIG_BYTE(0)) = bcd_preferred_sgn(sgnb, ps);
2307                 bcd_sub_mag(&result, b, a, &invalid, &overflow);
2308                 cr = (sgnb > 0) ? CRF_GT : CRF_LT;
2309             } else {
2310                 result.VsrB(BCD_DIG_BYTE(0)) = bcd_preferred_sgn(0, ps);
2311                 cr = CRF_EQ;
2312             }
2313         }
2314     }
2315
2316     if (unlikely(invalid)) {
2317         result.VsrD(0) = result.VsrD(1) = -1;
2318         cr = CRF_SO;
2319     } else if (overflow) {
2320         cr |= CRF_SO;
2321     } else if (zero) {
2322         cr |= CRF_EQ;
2323     }
2324
2325     *r = result;
2326
2327     return cr;
2328 }
2329
2330 uint32_t helper_bcdsub(ppc_avr_t *r,  ppc_avr_t *a, ppc_avr_t *b, uint32_t ps)
2331 {
2332     ppc_avr_t bcopy = *b;
2333     int sgnb = bcd_get_sgn(b);
2334     if (sgnb < 0) {
2335         bcd_put_digit(&bcopy, BCD_PLUS_PREF_1, 0);
2336     } else if (sgnb > 0) {
2337         bcd_put_digit(&bcopy, BCD_NEG_PREF, 0);
2338     }
2339     /* else invalid ... defer to bcdadd code for proper handling */
2340
2341     return helper_bcdadd(r, a, &bcopy, ps);
2342 }
2343
2344 uint32_t helper_bcdcfn(ppc_avr_t *r, ppc_avr_t *b, uint32_t ps)
2345 {
2346     int i;
2347     int cr = 0;
2348     uint16_t national = 0;
2349     uint16_t sgnb = get_national_digit(b, 0);
2350     ppc_avr_t ret = { .u64 = { 0, 0 } };
2351     int invalid = (sgnb != NATIONAL_PLUS && sgnb != NATIONAL_NEG);
2352
2353     for (i = 1; i < 8; i++) {
2354         national = get_national_digit(b, i);
2355         if (unlikely(national < 0x30 || national > 0x39)) {
2356             invalid = 1;
2357             break;
2358         }
2359
2360         bcd_put_digit(&ret, national & 0xf, i);
2361     }
2362
2363     if (sgnb == NATIONAL_PLUS) {
2364         bcd_put_digit(&ret, (ps == 0) ? BCD_PLUS_PREF_1 : BCD_PLUS_PREF_2, 0);
2365     } else {
2366         bcd_put_digit(&ret, BCD_NEG_PREF, 0);
2367     }
2368
2369     cr = bcd_cmp_zero(&ret);
2370
2371     if (unlikely(invalid)) {
2372         cr = CRF_SO;
2373     }
2374
2375     *r = ret;
2376
2377     return cr;
2378 }
2379
2380 uint32_t helper_bcdctn(ppc_avr_t *r, ppc_avr_t *b, uint32_t ps)
2381 {
2382     int i;
2383     int cr = 0;
2384     int sgnb = bcd_get_sgn(b);
2385     int invalid = (sgnb == 0);
2386     ppc_avr_t ret = { .u64 = { 0, 0 } };
2387
2388     int ox_flag = (b->VsrD(0) != 0) || ((b->VsrD(1) >> 32) != 0);
2389
2390     for (i = 1; i < 8; i++) {
2391         set_national_digit(&ret, 0x30 + bcd_get_digit(b, i, &invalid), i);
2392
2393         if (unlikely(invalid)) {
2394             break;
2395         }
2396     }
2397     set_national_digit(&ret, (sgnb == -1) ? NATIONAL_NEG : NATIONAL_PLUS, 0);
2398
2399     cr = bcd_cmp_zero(b);
2400
2401     if (ox_flag) {
2402         cr |= CRF_SO;
2403     }
2404
2405     if (unlikely(invalid)) {
2406         cr = CRF_SO;
2407     }
2408
2409     *r = ret;
2410
2411     return cr;
2412 }
2413
2414 uint32_t helper_bcdcfz(ppc_avr_t *r, ppc_avr_t *b, uint32_t ps)
2415 {
2416     int i;
2417     int cr = 0;
2418     int invalid = 0;
2419     int zone_digit = 0;
2420     int zone_lead = ps ? 0xF : 0x3;
2421     int digit = 0;
2422     ppc_avr_t ret = { .u64 = { 0, 0 } };
2423     int sgnb = b->VsrB(BCD_DIG_BYTE(0)) >> 4;
2424
2425     if (unlikely((sgnb < 0xA) && ps)) {
2426         invalid = 1;
2427     }
2428
2429     for (i = 0; i < 16; i++) {
2430         zone_digit = i ? b->VsrB(BCD_DIG_BYTE(i * 2)) >> 4 : zone_lead;
2431         digit = b->VsrB(BCD_DIG_BYTE(i * 2)) & 0xF;
2432         if (unlikely(zone_digit != zone_lead || digit > 0x9)) {
2433             invalid = 1;
2434             break;
2435         }
2436
2437         bcd_put_digit(&ret, digit, i + 1);
2438     }
2439
2440     if ((ps && (sgnb == 0xB || sgnb == 0xD)) ||
2441             (!ps && (sgnb & 0x4))) {
2442         bcd_put_digit(&ret, BCD_NEG_PREF, 0);
2443     } else {
2444         bcd_put_digit(&ret, BCD_PLUS_PREF_1, 0);
2445     }
2446
2447     cr = bcd_cmp_zero(&ret);
2448
2449     if (unlikely(invalid)) {
2450         cr = CRF_SO;
2451     }
2452
2453     *r = ret;
2454
2455     return cr;
2456 }
2457
2458 uint32_t helper_bcdctz(ppc_avr_t *r, ppc_avr_t *b, uint32_t ps)
2459 {
2460     int i;
2461     int cr = 0;
2462     uint8_t digit = 0;
2463     int sgnb = bcd_get_sgn(b);
2464     int zone_lead = (ps) ? 0xF0 : 0x30;
2465     int invalid = (sgnb == 0);
2466     ppc_avr_t ret = { .u64 = { 0, 0 } };
2467
2468     int ox_flag = ((b->VsrD(0) >> 4) != 0);
2469
2470     for (i = 0; i < 16; i++) {
2471         digit = bcd_get_digit(b, i + 1, &invalid);
2472
2473         if (unlikely(invalid)) {
2474             break;
2475         }
2476
2477         ret.VsrB(BCD_DIG_BYTE(i * 2)) = zone_lead + digit;
2478     }
2479
2480     if (ps) {
2481         bcd_put_digit(&ret, (sgnb == 1) ? 0xC : 0xD, 1);
2482     } else {
2483         bcd_put_digit(&ret, (sgnb == 1) ? 0x3 : 0x7, 1);
2484     }
2485
2486     cr = bcd_cmp_zero(b);
2487
2488     if (ox_flag) {
2489         cr |= CRF_SO;
2490     }
2491
2492     if (unlikely(invalid)) {
2493         cr = CRF_SO;
2494     }
2495
2496     *r = ret;
2497
2498     return cr;
2499 }
2500
2501 uint32_t helper_bcdcfsq(ppc_avr_t *r, ppc_avr_t *b, uint32_t ps)
2502 {
2503     int i;
2504     int cr = 0;
2505     uint64_t lo_value;
2506     uint64_t hi_value;
2507     ppc_avr_t ret = { .u64 = { 0, 0 } };
2508
2509     if (b->VsrSD(0) < 0) {
2510         lo_value = -b->VsrSD(1);
2511         hi_value = ~b->VsrD(0) + !lo_value;
2512         bcd_put_digit(&ret, 0xD, 0);
2513     } else {
2514         lo_value = b->VsrD(1);
2515         hi_value = b->VsrD(0);
2516         bcd_put_digit(&ret, bcd_preferred_sgn(0, ps), 0);
2517     }
2518
2519     if (divu128(&lo_value, &hi_value, 1000000000000000ULL) ||
2520             lo_value > 9999999999999999ULL) {
2521         cr = CRF_SO;
2522     }
2523
2524     for (i = 1; i < 16; hi_value /= 10, i++) {
2525         bcd_put_digit(&ret, hi_value % 10, i);
2526     }
2527
2528     for (; i < 32; lo_value /= 10, i++) {
2529         bcd_put_digit(&ret, lo_value % 10, i);
2530     }
2531
2532     cr |= bcd_cmp_zero(&ret);
2533
2534     *r = ret;
2535
2536     return cr;
2537 }
2538
2539 uint32_t helper_bcdctsq(ppc_avr_t *r, ppc_avr_t *b, uint32_t ps)
2540 {
2541     uint8_t i;
2542     int cr;
2543     uint64_t carry;
2544     uint64_t unused;
2545     uint64_t lo_value;
2546     uint64_t hi_value = 0;
2547     int sgnb = bcd_get_sgn(b);
2548     int invalid = (sgnb == 0);
2549
2550     lo_value = bcd_get_digit(b, 31, &invalid);
2551     for (i = 30; i > 0; i--) {
2552         mulu64(&lo_value, &carry, lo_value, 10ULL);
2553         mulu64(&hi_value, &unused, hi_value, 10ULL);
2554         lo_value += bcd_get_digit(b, i, &invalid);
2555         hi_value += carry;
2556
2557         if (unlikely(invalid)) {
2558             break;
2559         }
2560     }
2561
2562     if (sgnb == -1) {
2563         r->VsrSD(1) = -lo_value;
2564         r->VsrSD(0) = ~hi_value + !r->VsrSD(1);
2565     } else {
2566         r->VsrSD(1) = lo_value;
2567         r->VsrSD(0) = hi_value;
2568     }
2569
2570     cr = bcd_cmp_zero(b);
2571
2572     if (unlikely(invalid)) {
2573         cr = CRF_SO;
2574     }
2575
2576     return cr;
2577 }
2578
2579 uint32_t helper_bcdcpsgn(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, uint32_t ps)
2580 {
2581     int i;
2582     int invalid = 0;
2583
2584     if (bcd_get_sgn(a) == 0 || bcd_get_sgn(b) == 0) {
2585         return CRF_SO;
2586     }
2587
2588     *r = *a;
2589     bcd_put_digit(r, b->VsrB(BCD_DIG_BYTE(0)) & 0xF, 0);
2590
2591     for (i = 1; i < 32; i++) {
2592         bcd_get_digit(a, i, &invalid);
2593         bcd_get_digit(b, i, &invalid);
2594         if (unlikely(invalid)) {
2595             return CRF_SO;
2596         }
2597     }
2598
2599     return bcd_cmp_zero(r);
2600 }
2601
2602 uint32_t helper_bcdsetsgn(ppc_avr_t *r, ppc_avr_t *b, uint32_t ps)
2603 {
2604     int sgnb = bcd_get_sgn(b);
2605
2606     *r = *b;
2607     bcd_put_digit(r, bcd_preferred_sgn(sgnb, ps), 0);
2608
2609     if (bcd_is_valid(b) == false) {
2610         return CRF_SO;
2611     }
2612
2613     return bcd_cmp_zero(r);
2614 }
2615
2616 uint32_t helper_bcds(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, uint32_t ps)
2617 {
2618     int cr;
2619     int i = a->VsrSB(7);
2620     bool ox_flag = false;
2621     int sgnb = bcd_get_sgn(b);
2622     ppc_avr_t ret = *b;
2623     ret.VsrD(1) &= ~0xf;
2624
2625     if (bcd_is_valid(b) == false) {
2626         return CRF_SO;
2627     }
2628
2629     if (unlikely(i > 31)) {
2630         i = 31;
2631     } else if (unlikely(i < -31)) {
2632         i = -31;
2633     }
2634
2635     if (i > 0) {
2636         ulshift(&ret.VsrD(1), &ret.VsrD(0), i * 4, &ox_flag);
2637     } else {
2638         urshift(&ret.VsrD(1), &ret.VsrD(0), -i * 4);
2639     }
2640     bcd_put_digit(&ret, bcd_preferred_sgn(sgnb, ps), 0);
2641
2642     *r = ret;
2643
2644     cr = bcd_cmp_zero(r);
2645     if (ox_flag) {
2646         cr |= CRF_SO;
2647     }
2648
2649     return cr;
2650 }
2651
2652 uint32_t helper_bcdus(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, uint32_t ps)
2653 {
2654     int cr;
2655     int i;
2656     int invalid = 0;
2657     bool ox_flag = false;
2658     ppc_avr_t ret = *b;
2659
2660     for (i = 0; i < 32; i++) {
2661         bcd_get_digit(b, i, &invalid);
2662
2663         if (unlikely(invalid)) {
2664             return CRF_SO;
2665         }
2666     }
2667
2668     i = a->VsrSB(7);
2669     if (i >= 32) {
2670         ox_flag = true;
2671         ret.VsrD(1) = ret.VsrD(0) = 0;
2672     } else if (i <= -32) {
2673         ret.VsrD(1) = ret.VsrD(0) = 0;
2674     } else if (i > 0) {
2675         ulshift(&ret.VsrD(1), &ret.VsrD(0), i * 4, &ox_flag);
2676     } else {
2677         urshift(&ret.VsrD(1), &ret.VsrD(0), -i * 4);
2678     }
2679     *r = ret;
2680
2681     cr = bcd_cmp_zero(r);
2682     if (ox_flag) {
2683         cr |= CRF_SO;
2684     }
2685
2686     return cr;
2687 }
2688
2689 uint32_t helper_bcdsr(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, uint32_t ps)
2690 {
2691     int cr;
2692     int unused = 0;
2693     int invalid = 0;
2694     bool ox_flag = false;
2695     int sgnb = bcd_get_sgn(b);
2696     ppc_avr_t ret = *b;
2697     ret.VsrD(1) &= ~0xf;
2698
2699     int i = a->VsrSB(7);
2700     ppc_avr_t bcd_one;
2701
2702     bcd_one.VsrD(0) = 0;
2703     bcd_one.VsrD(1) = 0x10;
2704
2705     if (bcd_is_valid(b) == false) {
2706         return CRF_SO;
2707     }
2708
2709     if (unlikely(i > 31)) {
2710         i = 31;
2711     } else if (unlikely(i < -31)) {
2712         i = -31;
2713     }
2714
2715     if (i > 0) {
2716         ulshift(&ret.VsrD(1), &ret.VsrD(0), i * 4, &ox_flag);
2717     } else {
2718         urshift(&ret.VsrD(1), &ret.VsrD(0), -i * 4);
2719
2720         if (bcd_get_digit(&ret, 0, &invalid) >= 5) {
2721             bcd_add_mag(&ret, &ret, &bcd_one, &invalid, &unused);
2722         }
2723     }
2724     bcd_put_digit(&ret, bcd_preferred_sgn(sgnb, ps), 0);
2725
2726     cr = bcd_cmp_zero(&ret);
2727     if (ox_flag) {
2728         cr |= CRF_SO;
2729     }
2730     *r = ret;
2731
2732     return cr;
2733 }
2734
2735 uint32_t helper_bcdtrunc(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, uint32_t ps)
2736 {
2737     uint64_t mask;
2738     uint32_t ox_flag = 0;
2739     int i = a->VsrSH(3) + 1;
2740     ppc_avr_t ret = *b;
2741
2742     if (bcd_is_valid(b) == false) {
2743         return CRF_SO;
2744     }
2745
2746     if (i > 16 && i < 32) {
2747         mask = (uint64_t)-1 >> (128 - i * 4);
2748         if (ret.VsrD(0) & ~mask) {
2749             ox_flag = CRF_SO;
2750         }
2751
2752         ret.VsrD(0) &= mask;
2753     } else if (i >= 0 && i <= 16) {
2754         mask = (uint64_t)-1 >> (64 - i * 4);
2755         if (ret.VsrD(0) || (ret.VsrD(1) & ~mask)) {
2756             ox_flag = CRF_SO;
2757         }
2758
2759         ret.VsrD(1) &= mask;
2760         ret.VsrD(0) = 0;
2761     }
2762     bcd_put_digit(&ret, bcd_preferred_sgn(bcd_get_sgn(b), ps), 0);
2763     *r = ret;
2764
2765     return bcd_cmp_zero(&ret) | ox_flag;
2766 }
2767
2768 uint32_t helper_bcdutrunc(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, uint32_t ps)
2769 {
2770     int i;
2771     uint64_t mask;
2772     uint32_t ox_flag = 0;
2773     int invalid = 0;
2774     ppc_avr_t ret = *b;
2775
2776     for (i = 0; i < 32; i++) {
2777         bcd_get_digit(b, i, &invalid);
2778
2779         if (unlikely(invalid)) {
2780             return CRF_SO;
2781         }
2782     }
2783
2784     i = a->VsrSH(3);
2785     if (i > 16 && i < 33) {
2786         mask = (uint64_t)-1 >> (128 - i * 4);
2787         if (ret.VsrD(0) & ~mask) {
2788             ox_flag = CRF_SO;
2789         }
2790
2791         ret.VsrD(0) &= mask;
2792     } else if (i > 0 && i <= 16) {
2793         mask = (uint64_t)-1 >> (64 - i * 4);
2794         if (ret.VsrD(0) || (ret.VsrD(1) & ~mask)) {
2795             ox_flag = CRF_SO;
2796         }
2797
2798         ret.VsrD(1) &= mask;
2799         ret.VsrD(0) = 0;
2800     } else if (i == 0) {
2801         if (ret.VsrD(0) || ret.VsrD(1)) {
2802             ox_flag = CRF_SO;
2803         }
2804         ret.VsrD(0) = ret.VsrD(1) = 0;
2805     }
2806
2807     *r = ret;
2808     if (r->VsrD(0) == 0 && r->VsrD(1) == 0) {
2809         return ox_flag | CRF_EQ;
2810     }
2811
2812     return ox_flag | CRF_GT;
2813 }
2814
2815 void helper_vsbox(ppc_avr_t *r, ppc_avr_t *a)
2816 {
2817     int i;
2818     VECTOR_FOR_INORDER_I(i, u8) {
2819         r->u8[i] = AES_sbox[a->u8[i]];
2820     }
2821 }
2822
2823 void helper_vcipher(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
2824 {
2825     ppc_avr_t result;
2826     int i;
2827
2828     VECTOR_FOR_INORDER_I(i, u32) {
2829         result.VsrW(i) = b->VsrW(i) ^
2830             (AES_Te0[a->VsrB(AES_shifts[4 * i + 0])] ^
2831              AES_Te1[a->VsrB(AES_shifts[4 * i + 1])] ^
2832              AES_Te2[a->VsrB(AES_shifts[4 * i + 2])] ^
2833              AES_Te3[a->VsrB(AES_shifts[4 * i + 3])]);
2834     }
2835     *r = result;
2836 }
2837
2838 void helper_vcipherlast(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
2839 {
2840     ppc_avr_t result;
2841     int i;
2842
2843     VECTOR_FOR_INORDER_I(i, u8) {
2844         result.VsrB(i) = b->VsrB(i) ^ (AES_sbox[a->VsrB(AES_shifts[i])]);
2845     }
2846     *r = result;
2847 }
2848
2849 void helper_vncipher(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
2850 {
2851     /* This differs from what is written in ISA V2.07.  The RTL is */
2852     /* incorrect and will be fixed in V2.07B.                      */
2853     int i;
2854     ppc_avr_t tmp;
2855
2856     VECTOR_FOR_INORDER_I(i, u8) {
2857         tmp.VsrB(i) = b->VsrB(i) ^ AES_isbox[a->VsrB(AES_ishifts[i])];
2858     }
2859
2860     VECTOR_FOR_INORDER_I(i, u32) {
2861         r->VsrW(i) =
2862             AES_imc[tmp.VsrB(4 * i + 0)][0] ^
2863             AES_imc[tmp.VsrB(4 * i + 1)][1] ^
2864             AES_imc[tmp.VsrB(4 * i + 2)][2] ^
2865             AES_imc[tmp.VsrB(4 * i + 3)][3];
2866     }
2867 }
2868
2869 void helper_vncipherlast(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
2870 {
2871     ppc_avr_t result;
2872     int i;
2873
2874     VECTOR_FOR_INORDER_I(i, u8) {
2875         result.VsrB(i) = b->VsrB(i) ^ (AES_isbox[a->VsrB(AES_ishifts[i])]);
2876     }
2877     *r = result;
2878 }
2879
2880 void helper_vshasigmaw(ppc_avr_t *r,  ppc_avr_t *a, uint32_t st_six)
2881 {
2882     int st = (st_six & 0x10) != 0;
2883     int six = st_six & 0xF;
2884     int i;
2885
2886     for (i = 0; i < ARRAY_SIZE(r->u32); i++) {
2887         if (st == 0) {
2888             if ((six & (0x8 >> i)) == 0) {
2889                 r->VsrW(i) = ror32(a->VsrW(i), 7) ^
2890                              ror32(a->VsrW(i), 18) ^
2891                              (a->VsrW(i) >> 3);
2892             } else { /* six.bit[i] == 1 */
2893                 r->VsrW(i) = ror32(a->VsrW(i), 17) ^
2894                              ror32(a->VsrW(i), 19) ^
2895                              (a->VsrW(i) >> 10);
2896             }
2897         } else { /* st == 1 */
2898             if ((six & (0x8 >> i)) == 0) {
2899                 r->VsrW(i) = ror32(a->VsrW(i), 2) ^
2900                              ror32(a->VsrW(i), 13) ^
2901                              ror32(a->VsrW(i), 22);
2902             } else { /* six.bit[i] == 1 */
2903                 r->VsrW(i) = ror32(a->VsrW(i), 6) ^
2904                              ror32(a->VsrW(i), 11) ^
2905                              ror32(a->VsrW(i), 25);
2906             }
2907         }
2908     }
2909 }
2910
2911 void helper_vshasigmad(ppc_avr_t *r,  ppc_avr_t *a, uint32_t st_six)
2912 {
2913     int st = (st_six & 0x10) != 0;
2914     int six = st_six & 0xF;
2915     int i;
2916
2917     for (i = 0; i < ARRAY_SIZE(r->u64); i++) {
2918         if (st == 0) {
2919             if ((six & (0x8 >> (2 * i))) == 0) {
2920                 r->VsrD(i) = ror64(a->VsrD(i), 1) ^
2921                              ror64(a->VsrD(i), 8) ^
2922                              (a->VsrD(i) >> 7);
2923             } else { /* six.bit[2*i] == 1 */
2924                 r->VsrD(i) = ror64(a->VsrD(i), 19) ^
2925                              ror64(a->VsrD(i), 61) ^
2926                              (a->VsrD(i) >> 6);
2927             }
2928         } else { /* st == 1 */
2929             if ((six & (0x8 >> (2 * i))) == 0) {
2930                 r->VsrD(i) = ror64(a->VsrD(i), 28) ^
2931                              ror64(a->VsrD(i), 34) ^
2932                              ror64(a->VsrD(i), 39);
2933             } else { /* six.bit[2*i] == 1 */
2934                 r->VsrD(i) = ror64(a->VsrD(i), 14) ^
2935                              ror64(a->VsrD(i), 18) ^
2936                              ror64(a->VsrD(i), 41);
2937             }
2938         }
2939     }
2940 }
2941
2942 void helper_vpermxor(ppc_avr_t *r,  ppc_avr_t *a, ppc_avr_t *b, ppc_avr_t *c)
2943 {
2944     ppc_avr_t result;
2945     int i;
2946
2947     for (i = 0; i < ARRAY_SIZE(r->u8); i++) {
2948         int indexA = c->VsrB(i) >> 4;
2949         int indexB = c->VsrB(i) & 0xF;
2950
2951         result.VsrB(i) = a->VsrB(indexA) ^ b->VsrB(indexB);
2952     }
2953     *r = result;
2954 }
2955
2956 #undef VECTOR_FOR_INORDER_I
2957
2958 /*****************************************************************************/
2959 /* SPE extension helpers */
2960 /* Use a table to make this quicker */
2961 static const uint8_t hbrev[16] = {
2962     0x0, 0x8, 0x4, 0xC, 0x2, 0xA, 0x6, 0xE,
2963     0x1, 0x9, 0x5, 0xD, 0x3, 0xB, 0x7, 0xF,
2964 };
2965
2966 static inline uint8_t byte_reverse(uint8_t val)
2967 {
2968     return hbrev[val >> 4] | (hbrev[val & 0xF] << 4);
2969 }
2970
2971 static inline uint32_t word_reverse(uint32_t val)
2972 {
2973     return byte_reverse(val >> 24) | (byte_reverse(val >> 16) << 8) |
2974         (byte_reverse(val >> 8) << 16) | (byte_reverse(val) << 24);
2975 }
2976
2977 #define MASKBITS 16 /* Random value - to be fixed (implementation dependent) */
2978 target_ulong helper_brinc(target_ulong arg1, target_ulong arg2)
2979 {
2980     uint32_t a, b, d, mask;
2981
2982     mask = UINT32_MAX >> (32 - MASKBITS);
2983     a = arg1 & mask;
2984     b = arg2 & mask;
2985     d = word_reverse(1 + word_reverse(a | ~b));
2986     return (arg1 & ~mask) | (d & b);
2987 }
2988
2989 uint32_t helper_cntlsw32(uint32_t val)
2990 {
2991     if (val & 0x80000000) {
2992         return clz32(~val);
2993     } else {
2994         return clz32(val);
2995     }
2996 }
2997
2998 uint32_t helper_cntlzw32(uint32_t val)
2999 {
3000     return clz32(val);
3001 }
3002
3003 /* 440 specific */
3004 target_ulong helper_dlmzb(CPUPPCState *env, target_ulong high,
3005                           target_ulong low, uint32_t update_Rc)
3006 {
3007     target_ulong mask;
3008     int i;
3009
3010     i = 1;
3011     for (mask = 0xFF000000; mask != 0; mask = mask >> 8) {
3012         if ((high & mask) == 0) {
3013             if (update_Rc) {
3014                 env->crf[0] = 0x4;
3015             }
3016             goto done;
3017         }
3018         i++;
3019     }
3020     for (mask = 0xFF000000; mask != 0; mask = mask >> 8) {
3021         if ((low & mask) == 0) {
3022             if (update_Rc) {
3023                 env->crf[0] = 0x8;
3024             }
3025             goto done;
3026         }
3027         i++;
3028     }
3029     i = 8;
3030     if (update_Rc) {
3031         env->crf[0] = 0x2;
3032     }
3033  done:
3034     env->xer = (env->xer & ~0x7F) | i;
3035     if (update_Rc) {
3036         env->crf[0] |= xer_so;
3037     }
3038     return i;
3039 }