target/ppc/int_helper.c

   1 /*
   2  *  PowerPC integer and vector emulation helpers for QEMU.
   3  *
   4  *  Copyright (c) 2003-2007 Jocelyn Mayer
   5  *
   6  * This library is free software; you can redistribute it and/or
   7  * modify it under the terms of the GNU Lesser General Public
   8  * License as published by the Free Software Foundation; either
   9  * version 2.1 of the License, or (at your option) any later version.
  10  *
  11  * This library is distributed in the hope that it will be useful,
  12  * but WITHOUT ANY WARRANTY; without even the implied warranty of
  13  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
  14  * Lesser General Public License for more details.
  15  *
  16  * You should have received a copy of the GNU Lesser General Public
  17  * License along with this library; if not, see <http://www.gnu.org/licenses/>.
  18  */
  19
  20 #include "qemu/osdep.h"
  21 #include "cpu.h"
  22 #include "internal.h"
  23 #include "qemu/host-utils.h"
  24 #include "qemu/main-loop.h"
  25 #include "qemu/log.h"
  26 #include "exec/helper-proto.h"
  27 #include "crypto/aes.h"
  28 #include "fpu/softfloat.h"
  29 #include "qapi/error.h"
  30 #include "qemu/guest-random.h"
  31
  32 #include "helper_regs.h"
  33 /*****************************************************************************/
  34 /* Fixed point operations helpers */
  35
  36 static inline void helper_update_ov_legacy(CPUPPCState *env, int ov)
  37 {
  38     if (unlikely(ov)) {
  39         env->so = env->ov = 1;
  40     } else {
  41         env->ov = 0;
  42     }
  43 }
  44
  45 target_ulong helper_divweu(CPUPPCState *env, target_ulong ra, target_ulong rb,
  46                            uint32_t oe)
  47 {
  48     uint64_t rt = 0;
  49     int overflow = 0;
  50
  51     uint64_t dividend = (uint64_t)ra << 32;
  52     uint64_t divisor = (uint32_t)rb;
  53
  54     if (unlikely(divisor == 0)) {
  55         overflow = 1;
  56     } else {
  57         rt = dividend / divisor;
  58         overflow = rt > UINT32_MAX;
  59     }
  60
  61     if (unlikely(overflow)) {
  62         rt = 0; /* Undefined */
  63     }
  64
  65     if (oe) {
  66         helper_update_ov_legacy(env, overflow);
  67     }
  68
  69     return (target_ulong)rt;
  70 }
  71
  72 target_ulong helper_divwe(CPUPPCState *env, target_ulong ra, target_ulong rb,
  73                           uint32_t oe)
  74 {
  75     int64_t rt = 0;
  76     int overflow = 0;
  77
  78     int64_t dividend = (int64_t)ra << 32;
  79     int64_t divisor = (int64_t)((int32_t)rb);
  80
  81     if (unlikely((divisor == 0) ||
  82                  ((divisor == -1ull) && (dividend == INT64_MIN)))) {
  83         overflow = 1;
  84     } else {
  85         rt = dividend / divisor;
  86         overflow = rt != (int32_t)rt;
  87     }
  88
  89     if (unlikely(overflow)) {
  90         rt = 0; /* Undefined */
  91     }
  92
  93     if (oe) {
  94         helper_update_ov_legacy(env, overflow);
  95     }
  96
  97     return (target_ulong)rt;
  98 }
  99
 100 #if defined(TARGET_PPC64)
 101
 102 uint64_t helper_divdeu(CPUPPCState *env, uint64_t ra, uint64_t rb, uint32_t oe)
 103 {
 104     uint64_t rt = 0;
 105     int overflow = 0;
 106
 107     overflow = divu128(&rt, &ra, rb);
 108
 109     if (unlikely(overflow)) {
 110         rt = 0; /* Undefined */
 111     }
 112
 113     if (oe) {
 114         helper_update_ov_legacy(env, overflow);
 115     }
 116
 117     return rt;
 118 }
 119
 120 uint64_t helper_divde(CPUPPCState *env, uint64_t rau, uint64_t rbu, uint32_t oe)
 121 {
 122     int64_t rt = 0;
 123     int64_t ra = (int64_t)rau;
 124     int64_t rb = (int64_t)rbu;
 125     int overflow = divs128(&rt, &ra, rb);
 126
 127     if (unlikely(overflow)) {
 128         rt = 0; /* Undefined */
 129     }
 130
 131     if (oe) {
 132         helper_update_ov_legacy(env, overflow);
 133     }
 134
 135     return rt;
 136 }
 137
 138 #endif
 139
 140
 141 #if defined(TARGET_PPC64)
 142 /* if x = 0xab, returns 0xababababababababa */
 143 #define pattern(x) (((x) & 0xff) * (~(target_ulong)0 / 0xff))
 144
 145 /*
 146  * subtract 1 from each byte, and with inverse, check if MSB is set at each
 147  * byte.
 148  * i.e. ((0x00 - 0x01) & ~(0x00)) & 0x80
 149  *      (0xFF & 0xFF) & 0x80 = 0x80 (zero found)
 150  */
 151 #define haszero(v) (((v) - pattern(0x01)) & ~(v) & pattern(0x80))
 152
 153 /* When you XOR the pattern and there is a match, that byte will be zero */
 154 #define hasvalue(x, n)  (haszero((x) ^ pattern(n)))
 155
 156 uint32_t helper_cmpeqb(target_ulong ra, target_ulong rb)
 157 {
 158     return hasvalue(rb, ra) ? CRF_GT : 0;
 159 }
 160
 161 #undef pattern
 162 #undef haszero
 163 #undef hasvalue
 164
 165 /*
 166  * Return a random number.
 167  */
 168 uint64_t helper_darn32(void)
 169 {
 170     Error *err = NULL;
 171     uint32_t ret;
 172
 173     if (qemu_guest_getrandom(&ret, sizeof(ret), &err) < 0) {
 174         qemu_log_mask(LOG_UNIMP, "darn: Crypto failure: %s",
 175                       error_get_pretty(err));
 176         error_free(err);
 177         return -1;
 178     }
 179
 180     return ret;
 181 }
 182
 183 uint64_t helper_darn64(void)
 184 {
 185     Error *err = NULL;
 186     uint64_t ret;
 187
 188     if (qemu_guest_getrandom(&ret, sizeof(ret), &err) < 0) {
 189         qemu_log_mask(LOG_UNIMP, "darn: Crypto failure: %s",
 190                       error_get_pretty(err));
 191         error_free(err);
 192         return -1;
 193     }
 194
 195     return ret;
 196 }
 197
 198 uint64_t helper_bpermd(uint64_t rs, uint64_t rb)
 199 {
 200     int i;
 201     uint64_t ra = 0;
 202
 203     for (i = 0; i < 8; i++) {
 204         int index = (rs >> (i * 8)) & 0xFF;
 205         if (index < 64) {
 206             if (rb & PPC_BIT(index)) {
 207                 ra |= 1 << i;
 208             }
 209         }
 210     }
 211     return ra;
 212 }
 213
 214 #endif
 215
 216 target_ulong helper_cmpb(target_ulong rs, target_ulong rb)
 217 {
 218     target_ulong mask = 0xff;
 219     target_ulong ra = 0;
 220     int i;
 221
 222     for (i = 0; i < sizeof(target_ulong); i++) {
 223         if ((rs & mask) == (rb & mask)) {
 224             ra |= mask;
 225         }
 226         mask <<= 8;
 227     }
 228     return ra;
 229 }
 230
 231 /* shift right arithmetic helper */
 232 target_ulong helper_sraw(CPUPPCState *env, target_ulong value,
 233                          target_ulong shift)
 234 {
 235     int32_t ret;
 236
 237     if (likely(!(shift & 0x20))) {
 238         if (likely((uint32_t)shift != 0)) {
 239             shift &= 0x1f;
 240             ret = (int32_t)value >> shift;
 241             if (likely(ret >= 0 || (value & ((1 << shift) - 1)) == 0)) {
 242                 env->ca32 = env->ca = 0;
 243             } else {
 244                 env->ca32 = env->ca = 1;
 245             }
 246         } else {
 247             ret = (int32_t)value;
 248             env->ca32 = env->ca = 0;
 249         }
 250     } else {
 251         ret = (int32_t)value >> 31;
 252         env->ca32 = env->ca = (ret != 0);
 253     }
 254     return (target_long)ret;
 255 }
 256
 257 #if defined(TARGET_PPC64)
 258 target_ulong helper_srad(CPUPPCState *env, target_ulong value,
 259                          target_ulong shift)
 260 {
 261     int64_t ret;
 262
 263     if (likely(!(shift & 0x40))) {
 264         if (likely((uint64_t)shift != 0)) {
 265             shift &= 0x3f;
 266             ret = (int64_t)value >> shift;
 267             if (likely(ret >= 0 || (value & ((1ULL << shift) - 1)) == 0)) {
 268                 env->ca32 = env->ca = 0;
 269             } else {
 270                 env->ca32 = env->ca = 1;
 271             }
 272         } else {
 273             ret = (int64_t)value;
 274             env->ca32 = env->ca = 0;
 275         }
 276     } else {
 277         ret = (int64_t)value >> 63;
 278         env->ca32 = env->ca = (ret != 0);
 279     }
 280     return ret;
 281 }
 282 #endif
 283
 284 #if defined(TARGET_PPC64)
 285 target_ulong helper_popcntb(target_ulong val)
 286 {
 287     /* Note that we don't fold past bytes */
 288     val = (val & 0x5555555555555555ULL) + ((val >>  1) &
 289                                            0x5555555555555555ULL);
 290     val = (val & 0x3333333333333333ULL) + ((val >>  2) &
 291                                            0x3333333333333333ULL);
 292     val = (val & 0x0f0f0f0f0f0f0f0fULL) + ((val >>  4) &
 293                                            0x0f0f0f0f0f0f0f0fULL);
 294     return val;
 295 }
 296
 297 target_ulong helper_popcntw(target_ulong val)
 298 {
 299     /* Note that we don't fold past words.  */
 300     val = (val & 0x5555555555555555ULL) + ((val >>  1) &
 301                                            0x5555555555555555ULL);
 302     val = (val & 0x3333333333333333ULL) + ((val >>  2) &
 303                                            0x3333333333333333ULL);
 304     val = (val & 0x0f0f0f0f0f0f0f0fULL) + ((val >>  4) &
 305                                            0x0f0f0f0f0f0f0f0fULL);
 306     val = (val & 0x00ff00ff00ff00ffULL) + ((val >>  8) &
 307                                            0x00ff00ff00ff00ffULL);
 308     val = (val & 0x0000ffff0000ffffULL) + ((val >> 16) &
 309                                            0x0000ffff0000ffffULL);
 310     return val;
 311 }
 312 #else
 313 target_ulong helper_popcntb(target_ulong val)
 314 {
 315     /* Note that we don't fold past bytes */
 316     val = (val & 0x55555555) + ((val >>  1) & 0x55555555);
 317     val = (val & 0x33333333) + ((val >>  2) & 0x33333333);
 318     val = (val & 0x0f0f0f0f) + ((val >>  4) & 0x0f0f0f0f);
 319     return val;
 320 }
 321 #endif
 322
 323 /*****************************************************************************/
 324 /* PowerPC 601 specific instructions (POWER bridge) */
 325 target_ulong helper_div(CPUPPCState *env, target_ulong arg1, target_ulong arg2)
 326 {
 327     uint64_t tmp = (uint64_t)arg1 << 32 | env->spr[SPR_MQ];
 328
 329     if (((int32_t)tmp == INT32_MIN && (int32_t)arg2 == (int32_t)-1) ||
 330         (int32_t)arg2 == 0) {
 331         env->spr[SPR_MQ] = 0;
 332         return INT32_MIN;
 333     } else {
 334         env->spr[SPR_MQ] = tmp % arg2;
 335         return  tmp / (int32_t)arg2;
 336     }
 337 }
 338
 339 target_ulong helper_divo(CPUPPCState *env, target_ulong arg1,
 340                          target_ulong arg2)
 341 {
 342     uint64_t tmp = (uint64_t)arg1 << 32 | env->spr[SPR_MQ];
 343
 344     if (((int32_t)tmp == INT32_MIN && (int32_t)arg2 == (int32_t)-1) ||
 345         (int32_t)arg2 == 0) {
 346         env->so = env->ov = 1;
 347         env->spr[SPR_MQ] = 0;
 348         return INT32_MIN;
 349     } else {
 350         env->spr[SPR_MQ] = tmp % arg2;
 351         tmp /= (int32_t)arg2;
 352         if ((int32_t)tmp != tmp) {
 353             env->so = env->ov = 1;
 354         } else {
 355             env->ov = 0;
 356         }
 357         return tmp;
 358     }
 359 }
 360
 361 target_ulong helper_divs(CPUPPCState *env, target_ulong arg1,
 362                          target_ulong arg2)
 363 {
 364     if (((int32_t)arg1 == INT32_MIN && (int32_t)arg2 == (int32_t)-1) ||
 365         (int32_t)arg2 == 0) {
 366         env->spr[SPR_MQ] = 0;
 367         return INT32_MIN;
 368     } else {
 369         env->spr[SPR_MQ] = (int32_t)arg1 % (int32_t)arg2;
 370         return (int32_t)arg1 / (int32_t)arg2;
 371     }
 372 }
 373
 374 target_ulong helper_divso(CPUPPCState *env, target_ulong arg1,
 375                           target_ulong arg2)
 376 {
 377     if (((int32_t)arg1 == INT32_MIN && (int32_t)arg2 == (int32_t)-1) ||
 378         (int32_t)arg2 == 0) {
 379         env->so = env->ov = 1;
 380         env->spr[SPR_MQ] = 0;
 381         return INT32_MIN;
 382     } else {
 383         env->ov = 0;
 384         env->spr[SPR_MQ] = (int32_t)arg1 % (int32_t)arg2;
 385         return (int32_t)arg1 / (int32_t)arg2;
 386     }
 387 }
 388
 389 /*****************************************************************************/
 390 /* 602 specific instructions */
 391 /* mfrom is the most crazy instruction ever seen, imho ! */
 392 /* Real implementation uses a ROM table. Do the same */
 393 /*
 394  * Extremely decomposed:
 395  *                      -arg / 256
 396  * return 256 * log10(10           + 1.0) + 0.5
 397  */
 398 #if !defined(CONFIG_USER_ONLY)
 399 target_ulong helper_602_mfrom(target_ulong arg)
 400 {
 401     if (likely(arg < 602)) {
 402 #include "mfrom_table.c.inc"
 403         return mfrom_ROM_table[arg];
 404     } else {
 405         return 0;
 406     }
 407 }
 408 #endif
 409
 410 /*****************************************************************************/
 411 /* Altivec extension helpers */
 412 #if defined(HOST_WORDS_BIGENDIAN)
 413 #define VECTOR_FOR_INORDER_I(index, element)                    \
 414     for (index = 0; index < ARRAY_SIZE(r->element); index++)
 415 #else
 416 #define VECTOR_FOR_INORDER_I(index, element)                    \
 417     for (index = ARRAY_SIZE(r->element) - 1; index >= 0; index--)
 418 #endif
 419
 420 /* Saturating arithmetic helpers.  */
 421 #define SATCVT(from, to, from_type, to_type, min, max)          \
 422     static inline to_type cvt##from##to(from_type x, int *sat)  \
 423     {                                                           \
 424         to_type r;                                              \
 425                                                                 \
 426         if (x < (from_type)min) {                               \
 427             r = min;                                            \
 428             *sat = 1;                                           \
 429         } else if (x > (from_type)max) {                        \
 430             r = max;                                            \
 431             *sat = 1;                                           \
 432         } else {                                                \
 433             r = x;                                              \
 434         }                                                       \
 435         return r;                                               \
 436     }
 437 #define SATCVTU(from, to, from_type, to_type, min, max)         \
 438     static inline to_type cvt##from##to(from_type x, int *sat)  \
 439     {                                                           \
 440         to_type r;                                              \
 441                                                                 \
 442         if (x > (from_type)max) {                               \
 443             r = max;                                            \
 444             *sat = 1;                                           \
 445         } else {                                                \
 446             r = x;                                              \
 447         }                                                       \
 448         return r;                                               \
 449     }
 450 SATCVT(sh, sb, int16_t, int8_t, INT8_MIN, INT8_MAX)
 451 SATCVT(sw, sh, int32_t, int16_t, INT16_MIN, INT16_MAX)
 452 SATCVT(sd, sw, int64_t, int32_t, INT32_MIN, INT32_MAX)
 453
 454 SATCVTU(uh, ub, uint16_t, uint8_t, 0, UINT8_MAX)
 455 SATCVTU(uw, uh, uint32_t, uint16_t, 0, UINT16_MAX)
 456 SATCVTU(ud, uw, uint64_t, uint32_t, 0, UINT32_MAX)
 457 SATCVT(sh, ub, int16_t, uint8_t, 0, UINT8_MAX)
 458 SATCVT(sw, uh, int32_t, uint16_t, 0, UINT16_MAX)
 459 SATCVT(sd, uw, int64_t, uint32_t, 0, UINT32_MAX)
 460 #undef SATCVT
 461 #undef SATCVTU
 462
 463 void helper_mtvscr(CPUPPCState *env, uint32_t vscr)
 464 {
 465     ppc_store_vscr(env, vscr);
 466 }
 467
 468 uint32_t helper_mfvscr(CPUPPCState *env)
 469 {
 470     return ppc_get_vscr(env);
 471 }
 472
 473 static inline void set_vscr_sat(CPUPPCState *env)
 474 {
 475     /* The choice of non-zero value is arbitrary.  */
 476     env->vscr_sat.u32[0] = 1;
 477 }
 478
 479 void helper_vaddcuw(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
 480 {
 481     int i;
 482
 483     for (i = 0; i < ARRAY_SIZE(r->u32); i++) {
 484         r->u32[i] = ~a->u32[i] < b->u32[i];
 485     }
 486 }
 487
 488 /* vprtybw */
 489 void helper_vprtybw(ppc_avr_t *r, ppc_avr_t *b)
 490 {
 491     int i;
 492     for (i = 0; i < ARRAY_SIZE(r->u32); i++) {
 493         uint64_t res = b->u32[i] ^ (b->u32[i] >> 16);
 494         res ^= res >> 8;
 495         r->u32[i] = res & 1;
 496     }
 497 }
 498
 499 /* vprtybd */
 500 void helper_vprtybd(ppc_avr_t *r, ppc_avr_t *b)
 501 {
 502     int i;
 503     for (i = 0; i < ARRAY_SIZE(r->u64); i++) {
 504         uint64_t res = b->u64[i] ^ (b->u64[i] >> 32);
 505         res ^= res >> 16;
 506         res ^= res >> 8;
 507         r->u64[i] = res & 1;
 508     }
 509 }
 510
 511 /* vprtybq */
 512 void helper_vprtybq(ppc_avr_t *r, ppc_avr_t *b)
 513 {
 514     uint64_t res = b->u64[0] ^ b->u64[1];
 515     res ^= res >> 32;
 516     res ^= res >> 16;
 517     res ^= res >> 8;
 518     r->VsrD(1) = res & 1;
 519     r->VsrD(0) = 0;
 520 }
 521
 522 #define VARITHFP(suffix, func)                                          \
 523     void helper_v##suffix(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, \
 524                           ppc_avr_t *b)                                 \
 525     {                                                                   \
 526         int i;                                                          \
 527                                                                         \
 528         for (i = 0; i < ARRAY_SIZE(r->f32); i++) {                      \
 529             r->f32[i] = func(a->f32[i], b->f32[i], &env->vec_status);   \
 530         }                                                               \
 531     }
 532 VARITHFP(addfp, float32_add)
 533 VARITHFP(subfp, float32_sub)
 534 VARITHFP(minfp, float32_min)
 535 VARITHFP(maxfp, float32_max)
 536 #undef VARITHFP
 537
 538 #define VARITHFPFMA(suffix, type)                                       \
 539     void helper_v##suffix(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, \
 540                            ppc_avr_t *b, ppc_avr_t *c)                  \
 541     {                                                                   \
 542         int i;                                                          \
 543         for (i = 0; i < ARRAY_SIZE(r->f32); i++) {                      \
 544             r->f32[i] = float32_muladd(a->f32[i], c->f32[i], b->f32[i], \
 545                                        type, &env->vec_status);         \
 546         }                                                               \
 547     }
 548 VARITHFPFMA(maddfp, 0);
 549 VARITHFPFMA(nmsubfp, float_muladd_negate_result | float_muladd_negate_c);
 550 #undef VARITHFPFMA
 551
 552 #define VARITHSAT_CASE(type, op, cvt, element)                          \
 553     {                                                                   \
 554         type result = (type)a->element[i] op (type)b->element[i];       \
 555         r->element[i] = cvt(result, &sat);                              \
 556     }
 557
 558 #define VARITHSAT_DO(name, op, optype, cvt, element)                    \
 559     void helper_v##name(ppc_avr_t *r, ppc_avr_t *vscr_sat,              \
 560                         ppc_avr_t *a, ppc_avr_t *b, uint32_t desc)      \
 561     {                                                                   \
 562         int sat = 0;                                                    \
 563         int i;                                                          \
 564                                                                         \
 565         for (i = 0; i < ARRAY_SIZE(r->element); i++) {                  \
 566             VARITHSAT_CASE(optype, op, cvt, element);                   \
 567         }                                                               \
 568         if (sat) {                                                      \
 569             vscr_sat->u32[0] = 1;                                       \
 570         }                                                               \
 571     }
 572 #define VARITHSAT_SIGNED(suffix, element, optype, cvt)          \
 573     VARITHSAT_DO(adds##suffix##s, +, optype, cvt, element)      \
 574     VARITHSAT_DO(subs##suffix##s, -, optype, cvt, element)
 575 #define VARITHSAT_UNSIGNED(suffix, element, optype, cvt)        \
 576     VARITHSAT_DO(addu##suffix##s, +, optype, cvt, element)      \
 577     VARITHSAT_DO(subu##suffix##s, -, optype, cvt, element)
 578 VARITHSAT_SIGNED(b, s8, int16_t, cvtshsb)
 579 VARITHSAT_SIGNED(h, s16, int32_t, cvtswsh)
 580 VARITHSAT_SIGNED(w, s32, int64_t, cvtsdsw)
 581 VARITHSAT_UNSIGNED(b, u8, uint16_t, cvtshub)
 582 VARITHSAT_UNSIGNED(h, u16, uint32_t, cvtswuh)
 583 VARITHSAT_UNSIGNED(w, u32, uint64_t, cvtsduw)
 584 #undef VARITHSAT_CASE
 585 #undef VARITHSAT_DO
 586 #undef VARITHSAT_SIGNED
 587 #undef VARITHSAT_UNSIGNED
 588
 589 #define VAVG_DO(name, element, etype)                                   \
 590     void helper_v##name(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)       \
 591     {                                                                   \
 592         int i;                                                          \
 593                                                                         \
 594         for (i = 0; i < ARRAY_SIZE(r->element); i++) {                  \
 595             etype x = (etype)a->element[i] + (etype)b->element[i] + 1;  \
 596             r->element[i] = x >> 1;                                     \
 597         }                                                               \
 598     }
 599
 600 #define VAVG(type, signed_element, signed_type, unsigned_element,       \
 601              unsigned_type)                                             \
 602     VAVG_DO(avgs##type, signed_element, signed_type)                    \
 603     VAVG_DO(avgu##type, unsigned_element, unsigned_type)
 604 VAVG(b, s8, int16_t, u8, uint16_t)
 605 VAVG(h, s16, int32_t, u16, uint32_t)
 606 VAVG(w, s32, int64_t, u32, uint64_t)
 607 #undef VAVG_DO
 608 #undef VAVG
 609
 610 #define VABSDU_DO(name, element)                                        \
 611 void helper_v##name(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)           \
 612 {                                                                       \
 613     int i;                                                              \
 614                                                                         \
 615     for (i = 0; i < ARRAY_SIZE(r->element); i++) {                      \
 616         r->element[i] = (a->element[i] > b->element[i]) ?               \
 617             (a->element[i] - b->element[i]) :                           \
 618             (b->element[i] - a->element[i]);                            \
 619     }                                                                   \
 620 }
 621
 622 /*
 623  * VABSDU - Vector absolute difference unsigned
 624  *   name    - instruction mnemonic suffix (b: byte, h: halfword, w: word)
 625  *   element - element type to access from vector
 626  */
 627 #define VABSDU(type, element)                   \
 628     VABSDU_DO(absdu##type, element)
 629 VABSDU(b, u8)
 630 VABSDU(h, u16)
 631 VABSDU(w, u32)
 632 #undef VABSDU_DO
 633 #undef VABSDU
 634
 635 #define VCF(suffix, cvt, element)                                       \
 636     void helper_vcf##suffix(CPUPPCState *env, ppc_avr_t *r,             \
 637                             ppc_avr_t *b, uint32_t uim)                 \
 638     {                                                                   \
 639         int i;                                                          \
 640                                                                         \
 641         for (i = 0; i < ARRAY_SIZE(r->f32); i++) {                      \
 642             float32 t = cvt(b->element[i], &env->vec_status);           \
 643             r->f32[i] = float32_scalbn(t, -uim, &env->vec_status);      \
 644         }                                                               \
 645     }
 646 VCF(ux, uint32_to_float32, u32)
 647 VCF(sx, int32_to_float32, s32)
 648 #undef VCF
 649
 650 #define VCMP_DO(suffix, compare, element, record)                       \
 651     void helper_vcmp##suffix(CPUPPCState *env, ppc_avr_t *r,            \
 652                              ppc_avr_t *a, ppc_avr_t *b)                \
 653     {                                                                   \
 654         uint64_t ones = (uint64_t)-1;                                   \
 655         uint64_t all = ones;                                            \
 656         uint64_t none = 0;                                              \
 657         int i;                                                          \
 658                                                                         \
 659         for (i = 0; i < ARRAY_SIZE(r->element); i++) {                  \
 660             uint64_t result = (a->element[i] compare b->element[i] ?    \
 661                                ones : 0x0);                             \
 662             switch (sizeof(a->element[0])) {                            \
 663             case 8:                                                     \
 664                 r->u64[i] = result;                                     \
 665                 break;                                                  \
 666             case 4:                                                     \
 667                 r->u32[i] = result;                                     \
 668                 break;                                                  \
 669             case 2:                                                     \
 670                 r->u16[i] = result;                                     \
 671                 break;                                                  \
 672             case 1:                                                     \
 673                 r->u8[i] = result;                                      \
 674                 break;                                                  \
 675             }                                                           \
 676             all &= result;                                              \
 677             none |= result;                                             \
 678         }                                                               \
 679         if (record) {                                                   \
 680             env->crf[6] = ((all != 0) << 3) | ((none == 0) << 1);       \
 681         }                                                               \
 682     }
 683 #define VCMP(suffix, compare, element)          \
 684     VCMP_DO(suffix, compare, element, 0)        \
 685     VCMP_DO(suffix##_dot, compare, element, 1)
 686 VCMP(equb, ==, u8)
 687 VCMP(equh, ==, u16)
 688 VCMP(equw, ==, u32)
 689 VCMP(equd, ==, u64)
 690 VCMP(gtub, >, u8)
 691 VCMP(gtuh, >, u16)
 692 VCMP(gtuw, >, u32)
 693 VCMP(gtud, >, u64)
 694 VCMP(gtsb, >, s8)
 695 VCMP(gtsh, >, s16)
 696 VCMP(gtsw, >, s32)
 697 VCMP(gtsd, >, s64)
 698 #undef VCMP_DO
 699 #undef VCMP
 700
 701 #define VCMPNE_DO(suffix, element, etype, cmpzero, record)              \
 702 void helper_vcmpne##suffix(CPUPPCState *env, ppc_avr_t *r,              \
 703                             ppc_avr_t *a, ppc_avr_t *b)                 \
 704 {                                                                       \
 705     etype ones = (etype)-1;                                             \
 706     etype all = ones;                                                   \
 707     etype result, none = 0;                                             \
 708     int i;                                                              \
 709                                                                         \
 710     for (i = 0; i < ARRAY_SIZE(r->element); i++) {                      \
 711         if (cmpzero) {                                                  \
 712             result = ((a->element[i] == 0)                              \
 713                            || (b->element[i] == 0)                      \
 714                            || (a->element[i] != b->element[i]) ?        \
 715                            ones : 0x0);                                 \
 716         } else {                                                        \
 717             result = (a->element[i] != b->element[i]) ? ones : 0x0;     \
 718         }                                                               \
 719         r->element[i] = result;                                         \
 720         all &= result;                                                  \
 721         none |= result;                                                 \
 722     }                                                                   \
 723     if (record) {                                                       \
 724         env->crf[6] = ((all != 0) << 3) | ((none == 0) << 1);           \
 725     }                                                                   \
 726 }
 727
 728 /*
 729  * VCMPNEZ - Vector compare not equal to zero
 730  *   suffix  - instruction mnemonic suffix (b: byte, h: halfword, w: word)
 731  *   element - element type to access from vector
 732  */
 733 #define VCMPNE(suffix, element, etype, cmpzero)         \
 734     VCMPNE_DO(suffix, element, etype, cmpzero, 0)       \
 735     VCMPNE_DO(suffix##_dot, element, etype, cmpzero, 1)
 736 VCMPNE(zb, u8, uint8_t, 1)
 737 VCMPNE(zh, u16, uint16_t, 1)
 738 VCMPNE(zw, u32, uint32_t, 1)
 739 VCMPNE(b, u8, uint8_t, 0)
 740 VCMPNE(h, u16, uint16_t, 0)
 741 VCMPNE(w, u32, uint32_t, 0)
 742 #undef VCMPNE_DO
 743 #undef VCMPNE
 744
 745 #define VCMPFP_DO(suffix, compare, order, record)                       \
 746     void helper_vcmp##suffix(CPUPPCState *env, ppc_avr_t *r,            \
 747                              ppc_avr_t *a, ppc_avr_t *b)                \
 748     {                                                                   \
 749         uint32_t ones = (uint32_t)-1;                                   \
 750         uint32_t all = ones;                                            \
 751         uint32_t none = 0;                                              \
 752         int i;                                                          \
 753                                                                         \
 754         for (i = 0; i < ARRAY_SIZE(r->f32); i++) {                      \
 755             uint32_t result;                                            \
 756             FloatRelation rel =                                         \
 757                 float32_compare_quiet(a->f32[i], b->f32[i],             \
 758                                       &env->vec_status);                \
 759             if (rel == float_relation_unordered) {                      \
 760                 result = 0;                                             \
 761             } else if (rel compare order) {                             \
 762                 result = ones;                                          \
 763             } else {                                                    \
 764                 result = 0;                                             \
 765             }                                                           \
 766             r->u32[i] = result;                                         \
 767             all &= result;                                              \
 768             none |= result;                                             \
 769         }                                                               \
 770         if (record) {                                                   \
 771             env->crf[6] = ((all != 0) << 3) | ((none == 0) << 1);       \
 772         }                                                               \
 773     }
 774 #define VCMPFP(suffix, compare, order)          \
 775     VCMPFP_DO(suffix, compare, order, 0)        \
 776     VCMPFP_DO(suffix##_dot, compare, order, 1)
 777 VCMPFP(eqfp, ==, float_relation_equal)
 778 VCMPFP(gefp, !=, float_relation_less)
 779 VCMPFP(gtfp, ==, float_relation_greater)
 780 #undef VCMPFP_DO
 781 #undef VCMPFP
 782
 783 static inline void vcmpbfp_internal(CPUPPCState *env, ppc_avr_t *r,
 784                                     ppc_avr_t *a, ppc_avr_t *b, int record)
 785 {
 786     int i;
 787     int all_in = 0;
 788
 789     for (i = 0; i < ARRAY_SIZE(r->f32); i++) {
 790         FloatRelation le_rel = float32_compare_quiet(a->f32[i], b->f32[i],
 791                                                      &env->vec_status);
 792         if (le_rel == float_relation_unordered) {
 793             r->u32[i] = 0xc0000000;
 794             all_in = 1;
 795         } else {
 796             float32 bneg = float32_chs(b->f32[i]);
 797             FloatRelation ge_rel = float32_compare_quiet(a->f32[i], bneg,
 798                                                          &env->vec_status);
 799             int le = le_rel != float_relation_greater;
 800             int ge = ge_rel != float_relation_less;
 801
 802             r->u32[i] = ((!le) << 31) | ((!ge) << 30);
 803             all_in |= (!le | !ge);
 804         }
 805     }
 806     if (record) {
 807         env->crf[6] = (all_in == 0) << 1;
 808     }
 809 }
 810
 811 void helper_vcmpbfp(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
 812 {
 813     vcmpbfp_internal(env, r, a, b, 0);
 814 }
 815
 816 void helper_vcmpbfp_dot(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a,
 817                         ppc_avr_t *b)
 818 {
 819     vcmpbfp_internal(env, r, a, b, 1);
 820 }
 821
 822 #define VCT(suffix, satcvt, element)                                    \
 823     void helper_vct##suffix(CPUPPCState *env, ppc_avr_t *r,             \
 824                             ppc_avr_t *b, uint32_t uim)                 \
 825     {                                                                   \
 826         int i;                                                          \
 827         int sat = 0;                                                    \
 828         float_status s = env->vec_status;                               \
 829                                                                         \
 830         set_float_rounding_mode(float_round_to_zero, &s);               \
 831         for (i = 0; i < ARRAY_SIZE(r->f32); i++) {                      \
 832             if (float32_is_any_nan(b->f32[i])) {                        \
 833                 r->element[i] = 0;                                      \
 834             } else {                                                    \
 835                 float64 t = float32_to_float64(b->f32[i], &s);          \
 836                 int64_t j;                                              \
 837                                                                         \
 838                 t = float64_scalbn(t, uim, &s);                         \
 839                 j = float64_to_int64(t, &s);                            \
 840                 r->element[i] = satcvt(j, &sat);                        \
 841             }                                                           \
 842         }                                                               \
 843         if (sat) {                                                      \
 844             set_vscr_sat(env);                                          \
 845         }                                                               \
 846     }
 847 VCT(uxs, cvtsduw, u32)
 848 VCT(sxs, cvtsdsw, s32)
 849 #undef VCT
 850
 851 target_ulong helper_vclzlsbb(ppc_avr_t *r)
 852 {
 853     target_ulong count = 0;
 854     int i;
 855     for (i = 0; i < ARRAY_SIZE(r->u8); i++) {
 856         if (r->VsrB(i) & 0x01) {
 857             break;
 858         }
 859         count++;
 860     }
 861     return count;
 862 }
 863
 864 target_ulong helper_vctzlsbb(ppc_avr_t *r)
 865 {
 866     target_ulong count = 0;
 867     int i;
 868     for (i = ARRAY_SIZE(r->u8) - 1; i >= 0; i--) {
 869         if (r->VsrB(i) & 0x01) {
 870             break;
 871         }
 872         count++;
 873     }
 874     return count;
 875 }
 876
 877 void helper_vmhaddshs(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a,
 878                       ppc_avr_t *b, ppc_avr_t *c)
 879 {
 880     int sat = 0;
 881     int i;
 882
 883     for (i = 0; i < ARRAY_SIZE(r->s16); i++) {
 884         int32_t prod = a->s16[i] * b->s16[i];
 885         int32_t t = (int32_t)c->s16[i] + (prod >> 15);
 886
 887         r->s16[i] = cvtswsh(t, &sat);
 888     }
 889
 890     if (sat) {
 891         set_vscr_sat(env);
 892     }
 893 }
 894
 895 void helper_vmhraddshs(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a,
 896                        ppc_avr_t *b, ppc_avr_t *c)
 897 {
 898     int sat = 0;
 899     int i;
 900
 901     for (i = 0; i < ARRAY_SIZE(r->s16); i++) {
 902         int32_t prod = a->s16[i] * b->s16[i] + 0x00004000;
 903         int32_t t = (int32_t)c->s16[i] + (prod >> 15);
 904         r->s16[i] = cvtswsh(t, &sat);
 905     }
 906
 907     if (sat) {
 908         set_vscr_sat(env);
 909     }
 910 }
 911
 912 void helper_vmladduhm(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, ppc_avr_t *c)
 913 {
 914     int i;
 915
 916     for (i = 0; i < ARRAY_SIZE(r->s16); i++) {
 917         int32_t prod = a->s16[i] * b->s16[i];
 918         r->s16[i] = (int16_t) (prod + c->s16[i]);
 919     }
 920 }
 921
 922 #define VMRG_DO(name, element, access, ofs)                                  \
 923     void helper_v##name(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)            \
 924     {                                                                        \
 925         ppc_avr_t result;                                                    \
 926         int i, half = ARRAY_SIZE(r->element) / 2;                            \
 927                                                                              \
 928         for (i = 0; i < half; i++) {                                         \
 929             result.access(i * 2 + 0) = a->access(i + ofs);                   \
 930             result.access(i * 2 + 1) = b->access(i + ofs);                   \
 931         }                                                                    \
 932         *r = result;                                                         \
 933     }
 934
 935 #define VMRG(suffix, element, access)          \
 936     VMRG_DO(mrgl##suffix, element, access, half)   \
 937     VMRG_DO(mrgh##suffix, element, access, 0)
 938 VMRG(b, u8, VsrB)
 939 VMRG(h, u16, VsrH)
 940 VMRG(w, u32, VsrW)
 941 #undef VMRG_DO
 942 #undef VMRG
 943
 944 void helper_vmsummbm(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a,
 945                      ppc_avr_t *b, ppc_avr_t *c)
 946 {
 947     int32_t prod[16];
 948     int i;
 949
 950     for (i = 0; i < ARRAY_SIZE(r->s8); i++) {
 951         prod[i] = (int32_t)a->s8[i] * b->u8[i];
 952     }
 953
 954     VECTOR_FOR_INORDER_I(i, s32) {
 955         r->s32[i] = c->s32[i] + prod[4 * i] + prod[4 * i + 1] +
 956             prod[4 * i + 2] + prod[4 * i + 3];
 957     }
 958 }
 959
 960 void helper_vmsumshm(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a,
 961                      ppc_avr_t *b, ppc_avr_t *c)
 962 {
 963     int32_t prod[8];
 964     int i;
 965
 966     for (i = 0; i < ARRAY_SIZE(r->s16); i++) {
 967         prod[i] = a->s16[i] * b->s16[i];
 968     }
 969
 970     VECTOR_FOR_INORDER_I(i, s32) {
 971         r->s32[i] = c->s32[i] + prod[2 * i] + prod[2 * i + 1];
 972     }
 973 }
 974
 975 void helper_vmsumshs(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a,
 976                      ppc_avr_t *b, ppc_avr_t *c)
 977 {
 978     int32_t prod[8];
 979     int i;
 980     int sat = 0;
 981
 982     for (i = 0; i < ARRAY_SIZE(r->s16); i++) {
 983         prod[i] = (int32_t)a->s16[i] * b->s16[i];
 984     }
 985
 986     VECTOR_FOR_INORDER_I(i, s32) {
 987         int64_t t = (int64_t)c->s32[i] + prod[2 * i] + prod[2 * i + 1];
 988
 989         r->u32[i] = cvtsdsw(t, &sat);
 990     }
 991
 992     if (sat) {
 993         set_vscr_sat(env);
 994     }
 995 }
 996
 997 void helper_vmsumubm(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a,
 998                      ppc_avr_t *b, ppc_avr_t *c)
 999 {
1000     uint16_t prod[16];
1001     int i;
1002
1003     for (i = 0; i < ARRAY_SIZE(r->u8); i++) {
1004         prod[i] = a->u8[i] * b->u8[i];
1005     }
1006
1007     VECTOR_FOR_INORDER_I(i, u32) {
1008         r->u32[i] = c->u32[i] + prod[4 * i] + prod[4 * i + 1] +
1009             prod[4 * i + 2] + prod[4 * i + 3];
1010     }
1011 }
1012
1013 void helper_vmsumuhm(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a,
1014                      ppc_avr_t *b, ppc_avr_t *c)
1015 {
1016     uint32_t prod[8];
1017     int i;
1018
1019     for (i = 0; i < ARRAY_SIZE(r->u16); i++) {
1020         prod[i] = a->u16[i] * b->u16[i];
1021     }
1022
1023     VECTOR_FOR_INORDER_I(i, u32) {
1024         r->u32[i] = c->u32[i] + prod[2 * i] + prod[2 * i + 1];
1025     }
1026 }
1027
1028 void helper_vmsumuhs(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a,
1029                      ppc_avr_t *b, ppc_avr_t *c)
1030 {
1031     uint32_t prod[8];
1032     int i;
1033     int sat = 0;
1034
1035     for (i = 0; i < ARRAY_SIZE(r->u16); i++) {
1036         prod[i] = a->u16[i] * b->u16[i];
1037     }
1038
1039     VECTOR_FOR_INORDER_I(i, s32) {
1040         uint64_t t = (uint64_t)c->u32[i] + prod[2 * i] + prod[2 * i + 1];
1041
1042         r->u32[i] = cvtuduw(t, &sat);
1043     }
1044
1045     if (sat) {
1046         set_vscr_sat(env);
1047     }
1048 }
1049
1050 #define VMUL_DO_EVN(name, mul_element, mul_access, prod_access, cast)   \
1051     void helper_v##name(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)       \
1052     {                                                                   \
1053         int i;                                                          \
1054                                                                         \
1055         for (i = 0; i < ARRAY_SIZE(r->mul_element); i += 2) {           \
1056             r->prod_access(i >> 1) = (cast)a->mul_access(i) *           \
1057                                      (cast)b->mul_access(i);            \
1058         }                                                               \
1059     }
1060
1061 #define VMUL_DO_ODD(name, mul_element, mul_access, prod_access, cast)   \
1062     void helper_v##name(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)       \
1063     {                                                                   \
1064         int i;                                                          \
1065                                                                         \
1066         for (i = 0; i < ARRAY_SIZE(r->mul_element); i += 2) {           \
1067             r->prod_access(i >> 1) = (cast)a->mul_access(i + 1) *       \
1068                                      (cast)b->mul_access(i + 1);        \
1069         }                                                               \
1070     }
1071
1072 #define VMUL(suffix, mul_element, mul_access, prod_access, cast)       \
1073     VMUL_DO_EVN(mule##suffix, mul_element, mul_access, prod_access, cast)  \
1074     VMUL_DO_ODD(mulo##suffix, mul_element, mul_access, prod_access, cast)
1075 VMUL(sb, s8, VsrSB, VsrSH, int16_t)
1076 VMUL(sh, s16, VsrSH, VsrSW, int32_t)
1077 VMUL(sw, s32, VsrSW, VsrSD, int64_t)
1078 VMUL(ub, u8, VsrB, VsrH, uint16_t)
1079 VMUL(uh, u16, VsrH, VsrW, uint32_t)
1080 VMUL(uw, u32, VsrW, VsrD, uint64_t)
1081 #undef VMUL_DO_EVN
1082 #undef VMUL_DO_ODD
1083 #undef VMUL
1084
1085 void helper_vmulhsw(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1086 {
1087     int i;
1088
1089     for (i = 0; i < 4; i++) {
1090         r->s32[i] = (int32_t)(((int64_t)a->s32[i] * (int64_t)b->s32[i]) >> 32);
1091     }
1092 }
1093
1094 void helper_vmulhuw(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1095 {
1096     int i;
1097
1098     for (i = 0; i < 4; i++) {
1099         r->u32[i] = (uint32_t)(((uint64_t)a->u32[i] *
1100                                (uint64_t)b->u32[i]) >> 32);
1101     }
1102 }
1103
1104 void helper_vmulhsd(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1105 {
1106     uint64_t discard;
1107
1108     muls64(&discard, &r->u64[0], a->s64[0], b->s64[0]);
1109     muls64(&discard, &r->u64[1], a->s64[1], b->s64[1]);
1110 }
1111
1112 void helper_vmulhud(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1113 {
1114     uint64_t discard;
1115
1116     mulu64(&discard, &r->u64[0], a->u64[0], b->u64[0]);
1117     mulu64(&discard, &r->u64[1], a->u64[1], b->u64[1]);
1118 }
1119
1120 void helper_vperm(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b,
1121                   ppc_avr_t *c)
1122 {
1123     ppc_avr_t result;
1124     int i;
1125
1126     for (i = 0; i < ARRAY_SIZE(r->u8); i++) {
1127         int s = c->VsrB(i) & 0x1f;
1128         int index = s & 0xf;
1129
1130         if (s & 0x10) {
1131             result.VsrB(i) = b->VsrB(index);
1132         } else {
1133             result.VsrB(i) = a->VsrB(index);
1134         }
1135     }
1136     *r = result;
1137 }
1138
1139 void helper_vpermr(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b,
1140                   ppc_avr_t *c)
1141 {
1142     ppc_avr_t result;
1143     int i;
1144
1145     for (i = 0; i < ARRAY_SIZE(r->u8); i++) {
1146         int s = c->VsrB(i) & 0x1f;
1147         int index = 15 - (s & 0xf);
1148
1149         if (s & 0x10) {
1150             result.VsrB(i) = a->VsrB(index);
1151         } else {
1152             result.VsrB(i) = b->VsrB(index);
1153         }
1154     }
1155     *r = result;
1156 }
1157
1158 #if defined(HOST_WORDS_BIGENDIAN)
1159 #define VBPERMQ_INDEX(avr, i) ((avr)->u8[(i)])
1160 #define VBPERMD_INDEX(i) (i)
1161 #define VBPERMQ_DW(index) (((index) & 0x40) != 0)
1162 #define EXTRACT_BIT(avr, i, index) (extract64((avr)->u64[i], index, 1))
1163 #else
1164 #define VBPERMQ_INDEX(avr, i) ((avr)->u8[15 - (i)])
1165 #define VBPERMD_INDEX(i) (1 - i)
1166 #define VBPERMQ_DW(index) (((index) & 0x40) == 0)
1167 #define EXTRACT_BIT(avr, i, index) \
1168         (extract64((avr)->u64[1 - i], 63 - index, 1))
1169 #endif
1170
1171 void helper_vbpermd(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1172 {
1173     int i, j;
1174     ppc_avr_t result = { .u64 = { 0, 0 } };
1175     VECTOR_FOR_INORDER_I(i, u64) {
1176         for (j = 0; j < 8; j++) {
1177             int index = VBPERMQ_INDEX(b, (i * 8) + j);
1178             if (index < 64 && EXTRACT_BIT(a, i, index)) {
1179                 result.u64[VBPERMD_INDEX(i)] |= (0x80 >> j);
1180             }
1181         }
1182     }
1183     *r = result;
1184 }
1185
1186 void helper_vbpermq(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1187 {
1188     int i;
1189     uint64_t perm = 0;
1190
1191     VECTOR_FOR_INORDER_I(i, u8) {
1192         int index = VBPERMQ_INDEX(b, i);
1193
1194         if (index < 128) {
1195             uint64_t mask = (1ull << (63 - (index & 0x3F)));
1196             if (a->u64[VBPERMQ_DW(index)] & mask) {
1197                 perm |= (0x8000 >> i);
1198             }
1199         }
1200     }
1201
1202     r->VsrD(0) = perm;
1203     r->VsrD(1) = 0;
1204 }
1205
1206 #undef VBPERMQ_INDEX
1207 #undef VBPERMQ_DW
1208
1209 #define PMSUM(name, srcfld, trgfld, trgtyp)                   \
1210 void helper_##name(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)  \
1211 {                                                             \
1212     int i, j;                                                 \
1213     trgtyp prod[sizeof(ppc_avr_t) / sizeof(a->srcfld[0])];    \
1214                                                               \
1215     VECTOR_FOR_INORDER_I(i, srcfld) {                         \
1216         prod[i] = 0;                                          \
1217         for (j = 0; j < sizeof(a->srcfld[0]) * 8; j++) {      \
1218             if (a->srcfld[i] & (1ull << j)) {                 \
1219                 prod[i] ^= ((trgtyp)b->srcfld[i] << j);       \
1220             }                                                 \
1221         }                                                     \
1222     }                                                         \
1223                                                               \
1224     VECTOR_FOR_INORDER_I(i, trgfld) {                         \
1225         r->trgfld[i] = prod[2 * i] ^ prod[2 * i + 1];         \
1226     }                                                         \
1227 }
1228
1229 PMSUM(vpmsumb, u8, u16, uint16_t)
1230 PMSUM(vpmsumh, u16, u32, uint32_t)
1231 PMSUM(vpmsumw, u32, u64, uint64_t)
1232
1233 void helper_vpmsumd(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1234 {
1235
1236 #ifdef CONFIG_INT128
1237     int i, j;
1238     __uint128_t prod[2];
1239
1240     VECTOR_FOR_INORDER_I(i, u64) {
1241         prod[i] = 0;
1242         for (j = 0; j < 64; j++) {
1243             if (a->u64[i] & (1ull << j)) {
1244                 prod[i] ^= (((__uint128_t)b->u64[i]) << j);
1245             }
1246         }
1247     }
1248
1249     r->u128 = prod[0] ^ prod[1];
1250
1251 #else
1252     int i, j;
1253     ppc_avr_t prod[2];
1254
1255     VECTOR_FOR_INORDER_I(i, u64) {
1256         prod[i].VsrD(1) = prod[i].VsrD(0) = 0;
1257         for (j = 0; j < 64; j++) {
1258             if (a->u64[i] & (1ull << j)) {
1259                 ppc_avr_t bshift;
1260                 if (j == 0) {
1261                     bshift.VsrD(0) = 0;
1262                     bshift.VsrD(1) = b->u64[i];
1263                 } else {
1264                     bshift.VsrD(0) = b->u64[i] >> (64 - j);
1265                     bshift.VsrD(1) = b->u64[i] << j;
1266                 }
1267                 prod[i].VsrD(1) ^= bshift.VsrD(1);
1268                 prod[i].VsrD(0) ^= bshift.VsrD(0);
1269             }
1270         }
1271     }
1272
1273     r->VsrD(1) = prod[0].VsrD(1) ^ prod[1].VsrD(1);
1274     r->VsrD(0) = prod[0].VsrD(0) ^ prod[1].VsrD(0);
1275 #endif
1276 }
1277
1278
1279 #if defined(HOST_WORDS_BIGENDIAN)
1280 #define PKBIG 1
1281 #else
1282 #define PKBIG 0
1283 #endif
1284 void helper_vpkpx(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1285 {
1286     int i, j;
1287     ppc_avr_t result;
1288 #if defined(HOST_WORDS_BIGENDIAN)
1289     const ppc_avr_t *x[2] = { a, b };
1290 #else
1291     const ppc_avr_t *x[2] = { b, a };
1292 #endif
1293
1294     VECTOR_FOR_INORDER_I(i, u64) {
1295         VECTOR_FOR_INORDER_I(j, u32) {
1296             uint32_t e = x[i]->u32[j];
1297
1298             result.u16[4 * i + j] = (((e >> 9) & 0xfc00) |
1299                                      ((e >> 6) & 0x3e0) |
1300                                      ((e >> 3) & 0x1f));
1301         }
1302     }
1303     *r = result;
1304 }
1305
1306 #define VPK(suffix, from, to, cvt, dosat)                               \
1307     void helper_vpk##suffix(CPUPPCState *env, ppc_avr_t *r,             \
1308                             ppc_avr_t *a, ppc_avr_t *b)                 \
1309     {                                                                   \
1310         int i;                                                          \
1311         int sat = 0;                                                    \
1312         ppc_avr_t result;                                               \
1313         ppc_avr_t *a0 = PKBIG ? a : b;                                  \
1314         ppc_avr_t *a1 = PKBIG ? b : a;                                  \
1315                                                                         \
1316         VECTOR_FOR_INORDER_I(i, from) {                                 \
1317             result.to[i] = cvt(a0->from[i], &sat);                      \
1318             result.to[i + ARRAY_SIZE(r->from)] = cvt(a1->from[i], &sat);\
1319         }                                                               \
1320         *r = result;                                                    \
1321         if (dosat && sat) {                                             \
1322             set_vscr_sat(env);                                          \
1323         }                                                               \
1324     }
1325 #define I(x, y) (x)
1326 VPK(shss, s16, s8, cvtshsb, 1)
1327 VPK(shus, s16, u8, cvtshub, 1)
1328 VPK(swss, s32, s16, cvtswsh, 1)
1329 VPK(swus, s32, u16, cvtswuh, 1)
1330 VPK(sdss, s64, s32, cvtsdsw, 1)
1331 VPK(sdus, s64, u32, cvtsduw, 1)
1332 VPK(uhus, u16, u8, cvtuhub, 1)
1333 VPK(uwus, u32, u16, cvtuwuh, 1)
1334 VPK(udus, u64, u32, cvtuduw, 1)
1335 VPK(uhum, u16, u8, I, 0)
1336 VPK(uwum, u32, u16, I, 0)
1337 VPK(udum, u64, u32, I, 0)
1338 #undef I
1339 #undef VPK
1340 #undef PKBIG
1341
1342 void helper_vrefp(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *b)
1343 {
1344     int i;
1345
1346     for (i = 0; i < ARRAY_SIZE(r->f32); i++) {
1347         r->f32[i] = float32_div(float32_one, b->f32[i], &env->vec_status);
1348     }
1349 }
1350
1351 #define VRFI(suffix, rounding)                                  \
1352     void helper_vrfi##suffix(CPUPPCState *env, ppc_avr_t *r,    \
1353                              ppc_avr_t *b)                      \
1354     {                                                           \
1355         int i;                                                  \
1356         float_status s = env->vec_status;                       \
1357                                                                 \
1358         set_float_rounding_mode(rounding, &s);                  \
1359         for (i = 0; i < ARRAY_SIZE(r->f32); i++) {              \
1360             r->f32[i] = float32_round_to_int (b->f32[i], &s);   \
1361         }                                                       \
1362     }
1363 VRFI(n, float_round_nearest_even)
1364 VRFI(m, float_round_down)
1365 VRFI(p, float_round_up)
1366 VRFI(z, float_round_to_zero)
1367 #undef VRFI
1368
1369 void helper_vrsqrtefp(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *b)
1370 {
1371     int i;
1372
1373     for (i = 0; i < ARRAY_SIZE(r->f32); i++) {
1374         float32 t = float32_sqrt(b->f32[i], &env->vec_status);
1375
1376         r->f32[i] = float32_div(float32_one, t, &env->vec_status);
1377     }
1378 }
1379
1380 #define VRLMI(name, size, element, insert)                            \
1381 void helper_##name(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)          \
1382 {                                                                     \
1383     int i;                                                            \
1384     for (i = 0; i < ARRAY_SIZE(r->element); i++) {                    \
1385         uint##size##_t src1 = a->element[i];                          \
1386         uint##size##_t src2 = b->element[i];                          \
1387         uint##size##_t src3 = r->element[i];                          \
1388         uint##size##_t begin, end, shift, mask, rot_val;              \
1389                                                                       \
1390         shift = extract##size(src2, 0, 6);                            \
1391         end   = extract##size(src2, 8, 6);                            \
1392         begin = extract##size(src2, 16, 6);                           \
1393         rot_val = rol##size(src1, shift);                             \
1394         mask = mask_u##size(begin, end);                              \
1395         if (insert) {                                                 \
1396             r->element[i] = (rot_val & mask) | (src3 & ~mask);        \
1397         } else {                                                      \
1398             r->element[i] = (rot_val & mask);                         \
1399         }                                                             \
1400     }                                                                 \
1401 }
1402
1403 VRLMI(vrldmi, 64, u64, 1);
1404 VRLMI(vrlwmi, 32, u32, 1);
1405 VRLMI(vrldnm, 64, u64, 0);
1406 VRLMI(vrlwnm, 32, u32, 0);
1407
1408 void helper_vsel(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b,
1409                  ppc_avr_t *c)
1410 {
1411     r->u64[0] = (a->u64[0] & ~c->u64[0]) | (b->u64[0] & c->u64[0]);
1412     r->u64[1] = (a->u64[1] & ~c->u64[1]) | (b->u64[1] & c->u64[1]);
1413 }
1414
1415 void helper_vexptefp(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *b)
1416 {
1417     int i;
1418
1419     for (i = 0; i < ARRAY_SIZE(r->f32); i++) {
1420         r->f32[i] = float32_exp2(b->f32[i], &env->vec_status);
1421     }
1422 }
1423
1424 void helper_vlogefp(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *b)
1425 {
1426     int i;
1427
1428     for (i = 0; i < ARRAY_SIZE(r->f32); i++) {
1429         r->f32[i] = float32_log2(b->f32[i], &env->vec_status);
1430     }
1431 }
1432
1433 #if defined(HOST_WORDS_BIGENDIAN)
1434 #define VEXTU_X_DO(name, size, left)                                \
1435     target_ulong glue(helper_, name)(target_ulong a, ppc_avr_t *b)  \
1436     {                                                               \
1437         int index;                                                  \
1438         if (left) {                                                 \
1439             index = (a & 0xf) * 8;                                  \
1440         } else {                                                    \
1441             index = ((15 - (a & 0xf) + 1) * 8) - size;              \
1442         }                                                           \
1443         return int128_getlo(int128_rshift(b->s128, index)) &        \
1444             MAKE_64BIT_MASK(0, size);                               \
1445     }
1446 #else
1447 #define VEXTU_X_DO(name, size, left)                                \
1448     target_ulong glue(helper_, name)(target_ulong a, ppc_avr_t *b)  \
1449     {                                                               \
1450         int index;                                                  \
1451         if (left) {                                                 \
1452             index = ((15 - (a & 0xf) + 1) * 8) - size;              \
1453         } else {                                                    \
1454             index = (a & 0xf) * 8;                                  \
1455         }                                                           \
1456         return int128_getlo(int128_rshift(b->s128, index)) &        \
1457             MAKE_64BIT_MASK(0, size);                               \
1458     }
1459 #endif
1460
1461 VEXTU_X_DO(vextublx,  8, 1)
1462 VEXTU_X_DO(vextuhlx, 16, 1)
1463 VEXTU_X_DO(vextuwlx, 32, 1)
1464 VEXTU_X_DO(vextubrx,  8, 0)
1465 VEXTU_X_DO(vextuhrx, 16, 0)
1466 VEXTU_X_DO(vextuwrx, 32, 0)
1467 #undef VEXTU_X_DO
1468
1469 void helper_vslv(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1470 {
1471     int i;
1472     unsigned int shift, bytes, size;
1473
1474     size = ARRAY_SIZE(r->u8);
1475     for (i = 0; i < size; i++) {
1476         shift = b->VsrB(i) & 0x7;             /* extract shift value */
1477         bytes = (a->VsrB(i) << 8) +           /* extract adjacent bytes */
1478             (((i + 1) < size) ? a->VsrB(i + 1) : 0);
1479         r->VsrB(i) = (bytes << shift) >> 8;   /* shift and store result */
1480     }
1481 }
1482
1483 void helper_vsrv(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1484 {
1485     int i;
1486     unsigned int shift, bytes;
1487
1488     /*
1489      * Use reverse order, as destination and source register can be
1490      * same. Its being modified in place saving temporary, reverse
1491      * order will guarantee that computed result is not fed back.
1492      */
1493     for (i = ARRAY_SIZE(r->u8) - 1; i >= 0; i--) {
1494         shift = b->VsrB(i) & 0x7;               /* extract shift value */
1495         bytes = ((i ? a->VsrB(i - 1) : 0) << 8) + a->VsrB(i);
1496                                                 /* extract adjacent bytes */
1497         r->VsrB(i) = (bytes >> shift) & 0xFF;   /* shift and store result */
1498     }
1499 }
1500
1501 void helper_vsldoi(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, uint32_t shift)
1502 {
1503     int sh = shift & 0xf;
1504     int i;
1505     ppc_avr_t result;
1506
1507     for (i = 0; i < ARRAY_SIZE(r->u8); i++) {
1508         int index = sh + i;
1509         if (index > 0xf) {
1510             result.VsrB(i) = b->VsrB(index - 0x10);
1511         } else {
1512             result.VsrB(i) = a->VsrB(index);
1513         }
1514     }
1515     *r = result;
1516 }
1517
1518 void helper_vslo(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1519 {
1520     int sh = (b->VsrB(0xf) >> 3) & 0xf;
1521
1522 #if defined(HOST_WORDS_BIGENDIAN)
1523     memmove(&r->u8[0], &a->u8[sh], 16 - sh);
1524     memset(&r->u8[16 - sh], 0, sh);
1525 #else
1526     memmove(&r->u8[sh], &a->u8[0], 16 - sh);
1527     memset(&r->u8[0], 0, sh);
1528 #endif
1529 }
1530
1531 #if defined(HOST_WORDS_BIGENDIAN)
1532 #define VINSERT(suffix, element)                                            \
1533     void helper_vinsert##suffix(ppc_avr_t *r, ppc_avr_t *b, uint32_t index) \
1534     {                                                                       \
1535         memmove(&r->u8[index], &b->u8[8 - sizeof(r->element[0])],           \
1536                sizeof(r->element[0]));                                      \
1537     }
1538 #else
1539 #define VINSERT(suffix, element)                                            \
1540     void helper_vinsert##suffix(ppc_avr_t *r, ppc_avr_t *b, uint32_t index) \
1541     {                                                                       \
1542         uint32_t d = (16 - index) - sizeof(r->element[0]);                  \
1543         memmove(&r->u8[d], &b->u8[8], sizeof(r->element[0]));               \
1544     }
1545 #endif
1546 VINSERT(b, u8)
1547 VINSERT(h, u16)
1548 VINSERT(w, u32)
1549 VINSERT(d, u64)
1550 #undef VINSERT
1551 #if defined(HOST_WORDS_BIGENDIAN)
1552 #define VEXTRACT(suffix, element)                                            \
1553     void helper_vextract##suffix(ppc_avr_t *r, ppc_avr_t *b, uint32_t index) \
1554     {                                                                        \
1555         uint32_t es = sizeof(r->element[0]);                                 \
1556         memmove(&r->u8[8 - es], &b->u8[index], es);                          \
1557         memset(&r->u8[8], 0, 8);                                             \
1558         memset(&r->u8[0], 0, 8 - es);                                        \
1559     }
1560 #else
1561 #define VEXTRACT(suffix, element)                                            \
1562     void helper_vextract##suffix(ppc_avr_t *r, ppc_avr_t *b, uint32_t index) \
1563     {                                                                        \
1564         uint32_t es = sizeof(r->element[0]);                                 \
1565         uint32_t s = (16 - index) - es;                                      \
1566         memmove(&r->u8[8], &b->u8[s], es);                                   \
1567         memset(&r->u8[0], 0, 8);                                             \
1568         memset(&r->u8[8 + es], 0, 8 - es);                                   \
1569     }
1570 #endif
1571 VEXTRACT(ub, u8)
1572 VEXTRACT(uh, u16)
1573 VEXTRACT(uw, u32)
1574 VEXTRACT(d, u64)
1575 #undef VEXTRACT
1576
1577 void helper_xxextractuw(CPUPPCState *env, ppc_vsr_t *xt,
1578                         ppc_vsr_t *xb, uint32_t index)
1579 {
1580     ppc_vsr_t t = { };
1581     size_t es = sizeof(uint32_t);
1582     uint32_t ext_index;
1583     int i;
1584
1585     ext_index = index;
1586     for (i = 0; i < es; i++, ext_index++) {
1587         t.VsrB(8 - es + i) = xb->VsrB(ext_index % 16);
1588     }
1589
1590     *xt = t;
1591 }
1592
1593 void helper_xxinsertw(CPUPPCState *env, ppc_vsr_t *xt,
1594                       ppc_vsr_t *xb, uint32_t index)
1595 {
1596     ppc_vsr_t t = *xt;
1597     size_t es = sizeof(uint32_t);
1598     int ins_index, i = 0;
1599
1600     ins_index = index;
1601     for (i = 0; i < es && ins_index < 16; i++, ins_index++) {
1602         t.VsrB(ins_index) = xb->VsrB(8 - es + i);
1603     }
1604
1605     *xt = t;
1606 }
1607
1608 #define VEXT_SIGNED(name, element, cast)                            \
1609 void helper_##name(ppc_avr_t *r, ppc_avr_t *b)                      \
1610 {                                                                   \
1611     int i;                                                          \
1612     for (i = 0; i < ARRAY_SIZE(r->element); i++) {                  \
1613         r->element[i] = (cast)b->element[i];                        \
1614     }                                                               \
1615 }
1616 VEXT_SIGNED(vextsb2w, s32, int8_t)
1617 VEXT_SIGNED(vextsb2d, s64, int8_t)
1618 VEXT_SIGNED(vextsh2w, s32, int16_t)
1619 VEXT_SIGNED(vextsh2d, s64, int16_t)
1620 VEXT_SIGNED(vextsw2d, s64, int32_t)
1621 #undef VEXT_SIGNED
1622
1623 #define VNEG(name, element)                                         \
1624 void helper_##name(ppc_avr_t *r, ppc_avr_t *b)                      \
1625 {                                                                   \
1626     int i;                                                          \
1627     for (i = 0; i < ARRAY_SIZE(r->element); i++) {                  \
1628         r->element[i] = -b->element[i];                             \
1629     }                                                               \
1630 }
1631 VNEG(vnegw, s32)
1632 VNEG(vnegd, s64)
1633 #undef VNEG
1634
1635 void helper_vsro(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1636 {
1637     int sh = (b->VsrB(0xf) >> 3) & 0xf;
1638
1639 #if defined(HOST_WORDS_BIGENDIAN)
1640     memmove(&r->u8[sh], &a->u8[0], 16 - sh);
1641     memset(&r->u8[0], 0, sh);
1642 #else
1643     memmove(&r->u8[0], &a->u8[sh], 16 - sh);
1644     memset(&r->u8[16 - sh], 0, sh);
1645 #endif
1646 }
1647
1648 void helper_vsubcuw(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1649 {
1650     int i;
1651
1652     for (i = 0; i < ARRAY_SIZE(r->u32); i++) {
1653         r->u32[i] = a->u32[i] >= b->u32[i];
1654     }
1655 }
1656
1657 void helper_vsumsws(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1658 {
1659     int64_t t;
1660     int i, upper;
1661     ppc_avr_t result;
1662     int sat = 0;
1663
1664     upper = ARRAY_SIZE(r->s32) - 1;
1665     t = (int64_t)b->VsrSW(upper);
1666     for (i = 0; i < ARRAY_SIZE(r->s32); i++) {
1667         t += a->VsrSW(i);
1668         result.VsrSW(i) = 0;
1669     }
1670     result.VsrSW(upper) = cvtsdsw(t, &sat);
1671     *r = result;
1672
1673     if (sat) {
1674         set_vscr_sat(env);
1675     }
1676 }
1677
1678 void helper_vsum2sws(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1679 {
1680     int i, j, upper;
1681     ppc_avr_t result;
1682     int sat = 0;
1683
1684     upper = 1;
1685     for (i = 0; i < ARRAY_SIZE(r->u64); i++) {
1686         int64_t t = (int64_t)b->VsrSW(upper + i * 2);
1687
1688         result.VsrD(i) = 0;
1689         for (j = 0; j < ARRAY_SIZE(r->u64); j++) {
1690             t += a->VsrSW(2 * i + j);
1691         }
1692         result.VsrSW(upper + i * 2) = cvtsdsw(t, &sat);
1693     }
1694
1695     *r = result;
1696     if (sat) {
1697         set_vscr_sat(env);
1698     }
1699 }
1700
1701 void helper_vsum4sbs(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1702 {
1703     int i, j;
1704     int sat = 0;
1705
1706     for (i = 0; i < ARRAY_SIZE(r->s32); i++) {
1707         int64_t t = (int64_t)b->s32[i];
1708
1709         for (j = 0; j < ARRAY_SIZE(r->s32); j++) {
1710             t += a->s8[4 * i + j];
1711         }
1712         r->s32[i] = cvtsdsw(t, &sat);
1713     }
1714
1715     if (sat) {
1716         set_vscr_sat(env);
1717     }
1718 }
1719
1720 void helper_vsum4shs(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1721 {
1722     int sat = 0;
1723     int i;
1724
1725     for (i = 0; i < ARRAY_SIZE(r->s32); i++) {
1726         int64_t t = (int64_t)b->s32[i];
1727
1728         t += a->s16[2 * i] + a->s16[2 * i + 1];
1729         r->s32[i] = cvtsdsw(t, &sat);
1730     }
1731
1732     if (sat) {
1733         set_vscr_sat(env);
1734     }
1735 }
1736
1737 void helper_vsum4ubs(CPUPPCState *env, ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1738 {
1739     int i, j;
1740     int sat = 0;
1741
1742     for (i = 0; i < ARRAY_SIZE(r->u32); i++) {
1743         uint64_t t = (uint64_t)b->u32[i];
1744
1745         for (j = 0; j < ARRAY_SIZE(r->u32); j++) {
1746             t += a->u8[4 * i + j];
1747         }
1748         r->u32[i] = cvtuduw(t, &sat);
1749     }
1750
1751     if (sat) {
1752         set_vscr_sat(env);
1753     }
1754 }
1755
1756 #if defined(HOST_WORDS_BIGENDIAN)
1757 #define UPKHI 1
1758 #define UPKLO 0
1759 #else
1760 #define UPKHI 0
1761 #define UPKLO 1
1762 #endif
1763 #define VUPKPX(suffix, hi)                                              \
1764     void helper_vupk##suffix(ppc_avr_t *r, ppc_avr_t *b)                \
1765     {                                                                   \
1766         int i;                                                          \
1767         ppc_avr_t result;                                               \
1768                                                                         \
1769         for (i = 0; i < ARRAY_SIZE(r->u32); i++) {                      \
1770             uint16_t e = b->u16[hi ? i : i + 4];                        \
1771             uint8_t a = (e >> 15) ? 0xff : 0;                           \
1772             uint8_t r = (e >> 10) & 0x1f;                               \
1773             uint8_t g = (e >> 5) & 0x1f;                                \
1774             uint8_t b = e & 0x1f;                                       \
1775                                                                         \
1776             result.u32[i] = (a << 24) | (r << 16) | (g << 8) | b;       \
1777         }                                                               \
1778         *r = result;                                                    \
1779     }
1780 VUPKPX(lpx, UPKLO)
1781 VUPKPX(hpx, UPKHI)
1782 #undef VUPKPX
1783
1784 #define VUPK(suffix, unpacked, packee, hi)                              \
1785     void helper_vupk##suffix(ppc_avr_t *r, ppc_avr_t *b)                \
1786     {                                                                   \
1787         int i;                                                          \
1788         ppc_avr_t result;                                               \
1789                                                                         \
1790         if (hi) {                                                       \
1791             for (i = 0; i < ARRAY_SIZE(r->unpacked); i++) {             \
1792                 result.unpacked[i] = b->packee[i];                      \
1793             }                                                           \
1794         } else {                                                        \
1795             for (i = ARRAY_SIZE(r->unpacked); i < ARRAY_SIZE(r->packee); \
1796                  i++) {                                                 \
1797                 result.unpacked[i - ARRAY_SIZE(r->unpacked)] = b->packee[i]; \
1798             }                                                           \
1799         }                                                               \
1800         *r = result;                                                    \
1801     }
1802 VUPK(hsb, s16, s8, UPKHI)
1803 VUPK(hsh, s32, s16, UPKHI)
1804 VUPK(hsw, s64, s32, UPKHI)
1805 VUPK(lsb, s16, s8, UPKLO)
1806 VUPK(lsh, s32, s16, UPKLO)
1807 VUPK(lsw, s64, s32, UPKLO)
1808 #undef VUPK
1809 #undef UPKHI
1810 #undef UPKLO
1811
1812 #define VGENERIC_DO(name, element)                                      \
1813     void helper_v##name(ppc_avr_t *r, ppc_avr_t *b)                     \
1814     {                                                                   \
1815         int i;                                                          \
1816                                                                         \
1817         for (i = 0; i < ARRAY_SIZE(r->element); i++) {                  \
1818             r->element[i] = name(b->element[i]);                        \
1819         }                                                               \
1820     }
1821
1822 #define clzb(v) ((v) ? clz32((uint32_t)(v) << 24) : 8)
1823 #define clzh(v) ((v) ? clz32((uint32_t)(v) << 16) : 16)
1824
1825 VGENERIC_DO(clzb, u8)
1826 VGENERIC_DO(clzh, u16)
1827
1828 #undef clzb
1829 #undef clzh
1830
1831 #define ctzb(v) ((v) ? ctz32(v) : 8)
1832 #define ctzh(v) ((v) ? ctz32(v) : 16)
1833 #define ctzw(v) ctz32((v))
1834 #define ctzd(v) ctz64((v))
1835
1836 VGENERIC_DO(ctzb, u8)
1837 VGENERIC_DO(ctzh, u16)
1838 VGENERIC_DO(ctzw, u32)
1839 VGENERIC_DO(ctzd, u64)
1840
1841 #undef ctzb
1842 #undef ctzh
1843 #undef ctzw
1844 #undef ctzd
1845
1846 #define popcntb(v) ctpop8(v)
1847 #define popcnth(v) ctpop16(v)
1848 #define popcntw(v) ctpop32(v)
1849 #define popcntd(v) ctpop64(v)
1850
1851 VGENERIC_DO(popcntb, u8)
1852 VGENERIC_DO(popcnth, u16)
1853 VGENERIC_DO(popcntw, u32)
1854 VGENERIC_DO(popcntd, u64)
1855
1856 #undef popcntb
1857 #undef popcnth
1858 #undef popcntw
1859 #undef popcntd
1860
1861 #undef VGENERIC_DO
1862
1863 #if defined(HOST_WORDS_BIGENDIAN)
1864 #define QW_ONE { .u64 = { 0, 1 } }
1865 #else
1866 #define QW_ONE { .u64 = { 1, 0 } }
1867 #endif
1868
1869 #ifndef CONFIG_INT128
1870
1871 static inline void avr_qw_not(ppc_avr_t *t, ppc_avr_t a)
1872 {
1873     t->u64[0] = ~a.u64[0];
1874     t->u64[1] = ~a.u64[1];
1875 }
1876
1877 static int avr_qw_cmpu(ppc_avr_t a, ppc_avr_t b)
1878 {
1879     if (a.VsrD(0) < b.VsrD(0)) {
1880         return -1;
1881     } else if (a.VsrD(0) > b.VsrD(0)) {
1882         return 1;
1883     } else if (a.VsrD(1) < b.VsrD(1)) {
1884         return -1;
1885     } else if (a.VsrD(1) > b.VsrD(1)) {
1886         return 1;
1887     } else {
1888         return 0;
1889     }
1890 }
1891
1892 static void avr_qw_add(ppc_avr_t *t, ppc_avr_t a, ppc_avr_t b)
1893 {
1894     t->VsrD(1) = a.VsrD(1) + b.VsrD(1);
1895     t->VsrD(0) = a.VsrD(0) + b.VsrD(0) +
1896                      (~a.VsrD(1) < b.VsrD(1));
1897 }
1898
1899 static int avr_qw_addc(ppc_avr_t *t, ppc_avr_t a, ppc_avr_t b)
1900 {
1901     ppc_avr_t not_a;
1902     t->VsrD(1) = a.VsrD(1) + b.VsrD(1);
1903     t->VsrD(0) = a.VsrD(0) + b.VsrD(0) +
1904                      (~a.VsrD(1) < b.VsrD(1));
1905     avr_qw_not(&not_a, a);
1906     return avr_qw_cmpu(not_a, b) < 0;
1907 }
1908
1909 #endif
1910
1911 void helper_vadduqm(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1912 {
1913 #ifdef CONFIG_INT128
1914     r->u128 = a->u128 + b->u128;
1915 #else
1916     avr_qw_add(r, *a, *b);
1917 #endif
1918 }
1919
1920 void helper_vaddeuqm(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, ppc_avr_t *c)
1921 {
1922 #ifdef CONFIG_INT128
1923     r->u128 = a->u128 + b->u128 + (c->u128 & 1);
1924 #else
1925
1926     if (c->VsrD(1) & 1) {
1927         ppc_avr_t tmp;
1928
1929         tmp.VsrD(0) = 0;
1930         tmp.VsrD(1) = c->VsrD(1) & 1;
1931         avr_qw_add(&tmp, *a, tmp);
1932         avr_qw_add(r, tmp, *b);
1933     } else {
1934         avr_qw_add(r, *a, *b);
1935     }
1936 #endif
1937 }
1938
1939 void helper_vaddcuq(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1940 {
1941 #ifdef CONFIG_INT128
1942     r->u128 = (~a->u128 < b->u128);
1943 #else
1944     ppc_avr_t not_a;
1945
1946     avr_qw_not(&not_a, *a);
1947
1948     r->VsrD(0) = 0;
1949     r->VsrD(1) = (avr_qw_cmpu(not_a, *b) < 0);
1950 #endif
1951 }
1952
1953 void helper_vaddecuq(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, ppc_avr_t *c)
1954 {
1955 #ifdef CONFIG_INT128
1956     int carry_out = (~a->u128 < b->u128);
1957     if (!carry_out && (c->u128 & 1)) {
1958         carry_out = ((a->u128 + b->u128 + 1) == 0) &&
1959                     ((a->u128 != 0) || (b->u128 != 0));
1960     }
1961     r->u128 = carry_out;
1962 #else
1963
1964     int carry_in = c->VsrD(1) & 1;
1965     int carry_out = 0;
1966     ppc_avr_t tmp;
1967
1968     carry_out = avr_qw_addc(&tmp, *a, *b);
1969
1970     if (!carry_out && carry_in) {
1971         ppc_avr_t one = QW_ONE;
1972         carry_out = avr_qw_addc(&tmp, tmp, one);
1973     }
1974     r->VsrD(0) = 0;
1975     r->VsrD(1) = carry_out;
1976 #endif
1977 }
1978
1979 void helper_vsubuqm(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
1980 {
1981 #ifdef CONFIG_INT128
1982     r->u128 = a->u128 - b->u128;
1983 #else
1984     ppc_avr_t tmp;
1985     ppc_avr_t one = QW_ONE;
1986
1987     avr_qw_not(&tmp, *b);
1988     avr_qw_add(&tmp, *a, tmp);
1989     avr_qw_add(r, tmp, one);
1990 #endif
1991 }
1992
1993 void helper_vsubeuqm(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, ppc_avr_t *c)
1994 {
1995 #ifdef CONFIG_INT128
1996     r->u128 = a->u128 + ~b->u128 + (c->u128 & 1);
1997 #else
1998     ppc_avr_t tmp, sum;
1999
2000     avr_qw_not(&tmp, *b);
2001     avr_qw_add(&sum, *a, tmp);
2002
2003     tmp.VsrD(0) = 0;
2004     tmp.VsrD(1) = c->VsrD(1) & 1;
2005     avr_qw_add(r, sum, tmp);
2006 #endif
2007 }
2008
2009 void helper_vsubcuq(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
2010 {
2011 #ifdef CONFIG_INT128
2012     r->u128 = (~a->u128 < ~b->u128) ||
2013                  (a->u128 + ~b->u128 == (__uint128_t)-1);
2014 #else
2015     int carry = (avr_qw_cmpu(*a, *b) > 0);
2016     if (!carry) {
2017         ppc_avr_t tmp;
2018         avr_qw_not(&tmp, *b);
2019         avr_qw_add(&tmp, *a, tmp);
2020         carry = ((tmp.VsrSD(0) == -1ull) && (tmp.VsrSD(1) == -1ull));
2021     }
2022     r->VsrD(0) = 0;
2023     r->VsrD(1) = carry;
2024 #endif
2025 }
2026
2027 void helper_vsubecuq(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, ppc_avr_t *c)
2028 {
2029 #ifdef CONFIG_INT128
2030     r->u128 =
2031         (~a->u128 < ~b->u128) ||
2032         ((c->u128 & 1) && (a->u128 + ~b->u128 == (__uint128_t)-1));
2033 #else
2034     int carry_in = c->VsrD(1) & 1;
2035     int carry_out = (avr_qw_cmpu(*a, *b) > 0);
2036     if (!carry_out && carry_in) {
2037         ppc_avr_t tmp;
2038         avr_qw_not(&tmp, *b);
2039         avr_qw_add(&tmp, *a, tmp);
2040         carry_out = ((tmp.VsrD(0) == -1ull) && (tmp.VsrD(1) == -1ull));
2041     }
2042
2043     r->VsrD(0) = 0;
2044     r->VsrD(1) = carry_out;
2045 #endif
2046 }
2047
2048 #define BCD_PLUS_PREF_1 0xC
2049 #define BCD_PLUS_PREF_2 0xF
2050 #define BCD_PLUS_ALT_1  0xA
2051 #define BCD_NEG_PREF    0xD
2052 #define BCD_NEG_ALT     0xB
2053 #define BCD_PLUS_ALT_2  0xE
2054 #define NATIONAL_PLUS   0x2B
2055 #define NATIONAL_NEG    0x2D
2056
2057 #define BCD_DIG_BYTE(n) (15 - ((n) / 2))
2058
2059 static int bcd_get_sgn(ppc_avr_t *bcd)
2060 {
2061     switch (bcd->VsrB(BCD_DIG_BYTE(0)) & 0xF) {
2062     case BCD_PLUS_PREF_1:
2063     case BCD_PLUS_PREF_2:
2064     case BCD_PLUS_ALT_1:
2065     case BCD_PLUS_ALT_2:
2066     {
2067         return 1;
2068     }
2069
2070     case BCD_NEG_PREF:
2071     case BCD_NEG_ALT:
2072     {
2073         return -1;
2074     }
2075
2076     default:
2077     {
2078         return 0;
2079     }
2080     }
2081 }
2082
2083 static int bcd_preferred_sgn(int sgn, int ps)
2084 {
2085     if (sgn >= 0) {
2086         return (ps == 0) ? BCD_PLUS_PREF_1 : BCD_PLUS_PREF_2;
2087     } else {
2088         return BCD_NEG_PREF;
2089     }
2090 }
2091
2092 static uint8_t bcd_get_digit(ppc_avr_t *bcd, int n, int *invalid)
2093 {
2094     uint8_t result;
2095     if (n & 1) {
2096         result = bcd->VsrB(BCD_DIG_BYTE(n)) >> 4;
2097     } else {
2098        result = bcd->VsrB(BCD_DIG_BYTE(n)) & 0xF;
2099     }
2100
2101     if (unlikely(result > 9)) {
2102         *invalid = true;
2103     }
2104     return result;
2105 }
2106
2107 static void bcd_put_digit(ppc_avr_t *bcd, uint8_t digit, int n)
2108 {
2109     if (n & 1) {
2110         bcd->VsrB(BCD_DIG_BYTE(n)) &= 0x0F;
2111         bcd->VsrB(BCD_DIG_BYTE(n)) |= (digit << 4);
2112     } else {
2113         bcd->VsrB(BCD_DIG_BYTE(n)) &= 0xF0;
2114         bcd->VsrB(BCD_DIG_BYTE(n)) |= digit;
2115     }
2116 }
2117
2118 static bool bcd_is_valid(ppc_avr_t *bcd)
2119 {
2120     int i;
2121     int invalid = 0;
2122
2123     if (bcd_get_sgn(bcd) == 0) {
2124         return false;
2125     }
2126
2127     for (i = 1; i < 32; i++) {
2128         bcd_get_digit(bcd, i, &invalid);
2129         if (unlikely(invalid)) {
2130             return false;
2131         }
2132     }
2133     return true;
2134 }
2135
2136 static int bcd_cmp_zero(ppc_avr_t *bcd)
2137 {
2138     if (bcd->VsrD(0) == 0 && (bcd->VsrD(1) >> 4) == 0) {
2139         return CRF_EQ;
2140     } else {
2141         return (bcd_get_sgn(bcd) == 1) ? CRF_GT : CRF_LT;
2142     }
2143 }
2144
2145 static uint16_t get_national_digit(ppc_avr_t *reg, int n)
2146 {
2147     return reg->VsrH(7 - n);
2148 }
2149
2150 static void set_national_digit(ppc_avr_t *reg, uint8_t val, int n)
2151 {
2152     reg->VsrH(7 - n) = val;
2153 }
2154
2155 static int bcd_cmp_mag(ppc_avr_t *a, ppc_avr_t *b)
2156 {
2157     int i;
2158     int invalid = 0;
2159     for (i = 31; i > 0; i--) {
2160         uint8_t dig_a = bcd_get_digit(a, i, &invalid);
2161         uint8_t dig_b = bcd_get_digit(b, i, &invalid);
2162         if (unlikely(invalid)) {
2163             return 0; /* doesn't matter */
2164         } else if (dig_a > dig_b) {
2165             return 1;
2166         } else if (dig_a < dig_b) {
2167             return -1;
2168         }
2169     }
2170
2171     return 0;
2172 }
2173
2174 static int bcd_add_mag(ppc_avr_t *t, ppc_avr_t *a, ppc_avr_t *b, int *invalid,
2175                        int *overflow)
2176 {
2177     int carry = 0;
2178     int i;
2179     int is_zero = 1;
2180
2181     for (i = 1; i <= 31; i++) {
2182         uint8_t digit = bcd_get_digit(a, i, invalid) +
2183                         bcd_get_digit(b, i, invalid) + carry;
2184         is_zero &= (digit == 0);
2185         if (digit > 9) {
2186             carry = 1;
2187             digit -= 10;
2188         } else {
2189             carry = 0;
2190         }
2191
2192         bcd_put_digit(t, digit, i);
2193     }
2194
2195     *overflow = carry;
2196     return is_zero;
2197 }
2198
2199 static void bcd_sub_mag(ppc_avr_t *t, ppc_avr_t *a, ppc_avr_t *b, int *invalid,
2200                        int *overflow)
2201 {
2202     int carry = 0;
2203     int i;
2204
2205     for (i = 1; i <= 31; i++) {
2206         uint8_t digit = bcd_get_digit(a, i, invalid) -
2207                         bcd_get_digit(b, i, invalid) + carry;
2208         if (digit & 0x80) {
2209             carry = -1;
2210             digit += 10;
2211         } else {
2212             carry = 0;
2213         }
2214
2215         bcd_put_digit(t, digit, i);
2216     }
2217
2218     *overflow = carry;
2219 }
2220
2221 uint32_t helper_bcdadd(ppc_avr_t *r,  ppc_avr_t *a, ppc_avr_t *b, uint32_t ps)
2222 {
2223
2224     int sgna = bcd_get_sgn(a);
2225     int sgnb = bcd_get_sgn(b);
2226     int invalid = (sgna == 0) || (sgnb == 0);
2227     int overflow = 0;
2228     int zero = 0;
2229     uint32_t cr = 0;
2230     ppc_avr_t result = { .u64 = { 0, 0 } };
2231
2232     if (!invalid) {
2233         if (sgna == sgnb) {
2234             result.VsrB(BCD_DIG_BYTE(0)) = bcd_preferred_sgn(sgna, ps);
2235             zero = bcd_add_mag(&result, a, b, &invalid, &overflow);
2236             cr = (sgna > 0) ? CRF_GT : CRF_LT;
2237         } else {
2238             int magnitude = bcd_cmp_mag(a, b);
2239             if (magnitude > 0) {
2240                 result.VsrB(BCD_DIG_BYTE(0)) = bcd_preferred_sgn(sgna, ps);
2241                 bcd_sub_mag(&result, a, b, &invalid, &overflow);
2242                 cr = (sgna > 0) ? CRF_GT : CRF_LT;
2243             } else if (magnitude < 0) {
2244                 result.VsrB(BCD_DIG_BYTE(0)) = bcd_preferred_sgn(sgnb, ps);
2245                 bcd_sub_mag(&result, b, a, &invalid, &overflow);
2246                 cr = (sgnb > 0) ? CRF_GT : CRF_LT;
2247             } else {
2248                 result.VsrB(BCD_DIG_BYTE(0)) = bcd_preferred_sgn(0, ps);
2249                 cr = CRF_EQ;
2250             }
2251         }
2252     }
2253
2254     if (unlikely(invalid)) {
2255         result.VsrD(0) = result.VsrD(1) = -1;
2256         cr = CRF_SO;
2257     } else if (overflow) {
2258         cr |= CRF_SO;
2259     } else if (zero) {
2260         cr |= CRF_EQ;
2261     }
2262
2263     *r = result;
2264
2265     return cr;
2266 }
2267
2268 uint32_t helper_bcdsub(ppc_avr_t *r,  ppc_avr_t *a, ppc_avr_t *b, uint32_t ps)
2269 {
2270     ppc_avr_t bcopy = *b;
2271     int sgnb = bcd_get_sgn(b);
2272     if (sgnb < 0) {
2273         bcd_put_digit(&bcopy, BCD_PLUS_PREF_1, 0);
2274     } else if (sgnb > 0) {
2275         bcd_put_digit(&bcopy, BCD_NEG_PREF, 0);
2276     }
2277     /* else invalid ... defer to bcdadd code for proper handling */
2278
2279     return helper_bcdadd(r, a, &bcopy, ps);
2280 }
2281
2282 uint32_t helper_bcdcfn(ppc_avr_t *r, ppc_avr_t *b, uint32_t ps)
2283 {
2284     int i;
2285     int cr = 0;
2286     uint16_t national = 0;
2287     uint16_t sgnb = get_national_digit(b, 0);
2288     ppc_avr_t ret = { .u64 = { 0, 0 } };
2289     int invalid = (sgnb != NATIONAL_PLUS && sgnb != NATIONAL_NEG);
2290
2291     for (i = 1; i < 8; i++) {
2292         national = get_national_digit(b, i);
2293         if (unlikely(national < 0x30 || national > 0x39)) {
2294             invalid = 1;
2295             break;
2296         }
2297
2298         bcd_put_digit(&ret, national & 0xf, i);
2299     }
2300
2301     if (sgnb == NATIONAL_PLUS) {
2302         bcd_put_digit(&ret, (ps == 0) ? BCD_PLUS_PREF_1 : BCD_PLUS_PREF_2, 0);
2303     } else {
2304         bcd_put_digit(&ret, BCD_NEG_PREF, 0);
2305     }
2306
2307     cr = bcd_cmp_zero(&ret);
2308
2309     if (unlikely(invalid)) {
2310         cr = CRF_SO;
2311     }
2312
2313     *r = ret;
2314
2315     return cr;
2316 }
2317
2318 uint32_t helper_bcdctn(ppc_avr_t *r, ppc_avr_t *b, uint32_t ps)
2319 {
2320     int i;
2321     int cr = 0;
2322     int sgnb = bcd_get_sgn(b);
2323     int invalid = (sgnb == 0);
2324     ppc_avr_t ret = { .u64 = { 0, 0 } };
2325
2326     int ox_flag = (b->VsrD(0) != 0) || ((b->VsrD(1) >> 32) != 0);
2327
2328     for (i = 1; i < 8; i++) {
2329         set_national_digit(&ret, 0x30 + bcd_get_digit(b, i, &invalid), i);
2330
2331         if (unlikely(invalid)) {
2332             break;
2333         }
2334     }
2335     set_national_digit(&ret, (sgnb == -1) ? NATIONAL_NEG : NATIONAL_PLUS, 0);
2336
2337     cr = bcd_cmp_zero(b);
2338
2339     if (ox_flag) {
2340         cr |= CRF_SO;
2341     }
2342
2343     if (unlikely(invalid)) {
2344         cr = CRF_SO;
2345     }
2346
2347     *r = ret;
2348
2349     return cr;
2350 }
2351
2352 uint32_t helper_bcdcfz(ppc_avr_t *r, ppc_avr_t *b, uint32_t ps)
2353 {
2354     int i;
2355     int cr = 0;
2356     int invalid = 0;
2357     int zone_digit = 0;
2358     int zone_lead = ps ? 0xF : 0x3;
2359     int digit = 0;
2360     ppc_avr_t ret = { .u64 = { 0, 0 } };
2361     int sgnb = b->VsrB(BCD_DIG_BYTE(0)) >> 4;
2362
2363     if (unlikely((sgnb < 0xA) && ps)) {
2364         invalid = 1;
2365     }
2366
2367     for (i = 0; i < 16; i++) {
2368         zone_digit = i ? b->VsrB(BCD_DIG_BYTE(i * 2)) >> 4 : zone_lead;
2369         digit = b->VsrB(BCD_DIG_BYTE(i * 2)) & 0xF;
2370         if (unlikely(zone_digit != zone_lead || digit > 0x9)) {
2371             invalid = 1;
2372             break;
2373         }
2374
2375         bcd_put_digit(&ret, digit, i + 1);
2376     }
2377
2378     if ((ps && (sgnb == 0xB || sgnb == 0xD)) ||
2379             (!ps && (sgnb & 0x4))) {
2380         bcd_put_digit(&ret, BCD_NEG_PREF, 0);
2381     } else {
2382         bcd_put_digit(&ret, BCD_PLUS_PREF_1, 0);
2383     }
2384
2385     cr = bcd_cmp_zero(&ret);
2386
2387     if (unlikely(invalid)) {
2388         cr = CRF_SO;
2389     }
2390
2391     *r = ret;
2392
2393     return cr;
2394 }
2395
2396 uint32_t helper_bcdctz(ppc_avr_t *r, ppc_avr_t *b, uint32_t ps)
2397 {
2398     int i;
2399     int cr = 0;
2400     uint8_t digit = 0;
2401     int sgnb = bcd_get_sgn(b);
2402     int zone_lead = (ps) ? 0xF0 : 0x30;
2403     int invalid = (sgnb == 0);
2404     ppc_avr_t ret = { .u64 = { 0, 0 } };
2405
2406     int ox_flag = ((b->VsrD(0) >> 4) != 0);
2407
2408     for (i = 0; i < 16; i++) {
2409         digit = bcd_get_digit(b, i + 1, &invalid);
2410
2411         if (unlikely(invalid)) {
2412             break;
2413         }
2414
2415         ret.VsrB(BCD_DIG_BYTE(i * 2)) = zone_lead + digit;
2416     }
2417
2418     if (ps) {
2419         bcd_put_digit(&ret, (sgnb == 1) ? 0xC : 0xD, 1);
2420     } else {
2421         bcd_put_digit(&ret, (sgnb == 1) ? 0x3 : 0x7, 1);
2422     }
2423
2424     cr = bcd_cmp_zero(b);
2425
2426     if (ox_flag) {
2427         cr |= CRF_SO;
2428     }
2429
2430     if (unlikely(invalid)) {
2431         cr = CRF_SO;
2432     }
2433
2434     *r = ret;
2435
2436     return cr;
2437 }
2438
2439 uint32_t helper_bcdcfsq(ppc_avr_t *r, ppc_avr_t *b, uint32_t ps)
2440 {
2441     int i;
2442     int cr = 0;
2443     uint64_t lo_value;
2444     uint64_t hi_value;
2445     ppc_avr_t ret = { .u64 = { 0, 0 } };
2446
2447     if (b->VsrSD(0) < 0) {
2448         lo_value = -b->VsrSD(1);
2449         hi_value = ~b->VsrD(0) + !lo_value;
2450         bcd_put_digit(&ret, 0xD, 0);
2451     } else {
2452         lo_value = b->VsrD(1);
2453         hi_value = b->VsrD(0);
2454         bcd_put_digit(&ret, bcd_preferred_sgn(0, ps), 0);
2455     }
2456
2457     if (divu128(&lo_value, &hi_value, 1000000000000000ULL) ||
2458             lo_value > 9999999999999999ULL) {
2459         cr = CRF_SO;
2460     }
2461
2462     for (i = 1; i < 16; hi_value /= 10, i++) {
2463         bcd_put_digit(&ret, hi_value % 10, i);
2464     }
2465
2466     for (; i < 32; lo_value /= 10, i++) {
2467         bcd_put_digit(&ret, lo_value % 10, i);
2468     }
2469
2470     cr |= bcd_cmp_zero(&ret);
2471
2472     *r = ret;
2473
2474     return cr;
2475 }
2476
2477 uint32_t helper_bcdctsq(ppc_avr_t *r, ppc_avr_t *b, uint32_t ps)
2478 {
2479     uint8_t i;
2480     int cr;
2481     uint64_t carry;
2482     uint64_t unused;
2483     uint64_t lo_value;
2484     uint64_t hi_value = 0;
2485     int sgnb = bcd_get_sgn(b);
2486     int invalid = (sgnb == 0);
2487
2488     lo_value = bcd_get_digit(b, 31, &invalid);
2489     for (i = 30; i > 0; i--) {
2490         mulu64(&lo_value, &carry, lo_value, 10ULL);
2491         mulu64(&hi_value, &unused, hi_value, 10ULL);
2492         lo_value += bcd_get_digit(b, i, &invalid);
2493         hi_value += carry;
2494
2495         if (unlikely(invalid)) {
2496             break;
2497         }
2498     }
2499
2500     if (sgnb == -1) {
2501         r->VsrSD(1) = -lo_value;
2502         r->VsrSD(0) = ~hi_value + !r->VsrSD(1);
2503     } else {
2504         r->VsrSD(1) = lo_value;
2505         r->VsrSD(0) = hi_value;
2506     }
2507
2508     cr = bcd_cmp_zero(b);
2509
2510     if (unlikely(invalid)) {
2511         cr = CRF_SO;
2512     }
2513
2514     return cr;
2515 }
2516
2517 uint32_t helper_bcdcpsgn(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, uint32_t ps)
2518 {
2519     int i;
2520     int invalid = 0;
2521
2522     if (bcd_get_sgn(a) == 0 || bcd_get_sgn(b) == 0) {
2523         return CRF_SO;
2524     }
2525
2526     *r = *a;
2527     bcd_put_digit(r, b->VsrB(BCD_DIG_BYTE(0)) & 0xF, 0);
2528
2529     for (i = 1; i < 32; i++) {
2530         bcd_get_digit(a, i, &invalid);
2531         bcd_get_digit(b, i, &invalid);
2532         if (unlikely(invalid)) {
2533             return CRF_SO;
2534         }
2535     }
2536
2537     return bcd_cmp_zero(r);
2538 }
2539
2540 uint32_t helper_bcdsetsgn(ppc_avr_t *r, ppc_avr_t *b, uint32_t ps)
2541 {
2542     int sgnb = bcd_get_sgn(b);
2543
2544     *r = *b;
2545     bcd_put_digit(r, bcd_preferred_sgn(sgnb, ps), 0);
2546
2547     if (bcd_is_valid(b) == false) {
2548         return CRF_SO;
2549     }
2550
2551     return bcd_cmp_zero(r);
2552 }
2553
2554 uint32_t helper_bcds(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, uint32_t ps)
2555 {
2556     int cr;
2557     int i = a->VsrSB(7);
2558     bool ox_flag = false;
2559     int sgnb = bcd_get_sgn(b);
2560     ppc_avr_t ret = *b;
2561     ret.VsrD(1) &= ~0xf;
2562
2563     if (bcd_is_valid(b) == false) {
2564         return CRF_SO;
2565     }
2566
2567     if (unlikely(i > 31)) {
2568         i = 31;
2569     } else if (unlikely(i < -31)) {
2570         i = -31;
2571     }
2572
2573     if (i > 0) {
2574         ulshift(&ret.VsrD(1), &ret.VsrD(0), i * 4, &ox_flag);
2575     } else {
2576         urshift(&ret.VsrD(1), &ret.VsrD(0), -i * 4);
2577     }
2578     bcd_put_digit(&ret, bcd_preferred_sgn(sgnb, ps), 0);
2579
2580     *r = ret;
2581
2582     cr = bcd_cmp_zero(r);
2583     if (ox_flag) {
2584         cr |= CRF_SO;
2585     }
2586
2587     return cr;
2588 }
2589
2590 uint32_t helper_bcdus(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, uint32_t ps)
2591 {
2592     int cr;
2593     int i;
2594     int invalid = 0;
2595     bool ox_flag = false;
2596     ppc_avr_t ret = *b;
2597
2598     for (i = 0; i < 32; i++) {
2599         bcd_get_digit(b, i, &invalid);
2600
2601         if (unlikely(invalid)) {
2602             return CRF_SO;
2603         }
2604     }
2605
2606     i = a->VsrSB(7);
2607     if (i >= 32) {
2608         ox_flag = true;
2609         ret.VsrD(1) = ret.VsrD(0) = 0;
2610     } else if (i <= -32) {
2611         ret.VsrD(1) = ret.VsrD(0) = 0;
2612     } else if (i > 0) {
2613         ulshift(&ret.VsrD(1), &ret.VsrD(0), i * 4, &ox_flag);
2614     } else {
2615         urshift(&ret.VsrD(1), &ret.VsrD(0), -i * 4);
2616     }
2617     *r = ret;
2618
2619     cr = bcd_cmp_zero(r);
2620     if (ox_flag) {
2621         cr |= CRF_SO;
2622     }
2623
2624     return cr;
2625 }
2626
2627 uint32_t helper_bcdsr(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, uint32_t ps)
2628 {
2629     int cr;
2630     int unused = 0;
2631     int invalid = 0;
2632     bool ox_flag = false;
2633     int sgnb = bcd_get_sgn(b);
2634     ppc_avr_t ret = *b;
2635     ret.VsrD(1) &= ~0xf;
2636
2637     int i = a->VsrSB(7);
2638     ppc_avr_t bcd_one;
2639
2640     bcd_one.VsrD(0) = 0;
2641     bcd_one.VsrD(1) = 0x10;
2642
2643     if (bcd_is_valid(b) == false) {
2644         return CRF_SO;
2645     }
2646
2647     if (unlikely(i > 31)) {
2648         i = 31;
2649     } else if (unlikely(i < -31)) {
2650         i = -31;
2651     }
2652
2653     if (i > 0) {
2654         ulshift(&ret.VsrD(1), &ret.VsrD(0), i * 4, &ox_flag);
2655     } else {
2656         urshift(&ret.VsrD(1), &ret.VsrD(0), -i * 4);
2657
2658         if (bcd_get_digit(&ret, 0, &invalid) >= 5) {
2659             bcd_add_mag(&ret, &ret, &bcd_one, &invalid, &unused);
2660         }
2661     }
2662     bcd_put_digit(&ret, bcd_preferred_sgn(sgnb, ps), 0);
2663
2664     cr = bcd_cmp_zero(&ret);
2665     if (ox_flag) {
2666         cr |= CRF_SO;
2667     }
2668     *r = ret;
2669
2670     return cr;
2671 }
2672
2673 uint32_t helper_bcdtrunc(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, uint32_t ps)
2674 {
2675     uint64_t mask;
2676     uint32_t ox_flag = 0;
2677     int i = a->VsrSH(3) + 1;
2678     ppc_avr_t ret = *b;
2679
2680     if (bcd_is_valid(b) == false) {
2681         return CRF_SO;
2682     }
2683
2684     if (i > 16 && i < 32) {
2685         mask = (uint64_t)-1 >> (128 - i * 4);
2686         if (ret.VsrD(0) & ~mask) {
2687             ox_flag = CRF_SO;
2688         }
2689
2690         ret.VsrD(0) &= mask;
2691     } else if (i >= 0 && i <= 16) {
2692         mask = (uint64_t)-1 >> (64 - i * 4);
2693         if (ret.VsrD(0) || (ret.VsrD(1) & ~mask)) {
2694             ox_flag = CRF_SO;
2695         }
2696
2697         ret.VsrD(1) &= mask;
2698         ret.VsrD(0) = 0;
2699     }
2700     bcd_put_digit(&ret, bcd_preferred_sgn(bcd_get_sgn(b), ps), 0);
2701     *r = ret;
2702
2703     return bcd_cmp_zero(&ret) | ox_flag;
2704 }
2705
2706 uint32_t helper_bcdutrunc(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b, uint32_t ps)
2707 {
2708     int i;
2709     uint64_t mask;
2710     uint32_t ox_flag = 0;
2711     int invalid = 0;
2712     ppc_avr_t ret = *b;
2713
2714     for (i = 0; i < 32; i++) {
2715         bcd_get_digit(b, i, &invalid);
2716
2717         if (unlikely(invalid)) {
2718             return CRF_SO;
2719         }
2720     }
2721
2722     i = a->VsrSH(3);
2723     if (i > 16 && i < 33) {
2724         mask = (uint64_t)-1 >> (128 - i * 4);
2725         if (ret.VsrD(0) & ~mask) {
2726             ox_flag = CRF_SO;
2727         }
2728
2729         ret.VsrD(0) &= mask;
2730     } else if (i > 0 && i <= 16) {
2731         mask = (uint64_t)-1 >> (64 - i * 4);
2732         if (ret.VsrD(0) || (ret.VsrD(1) & ~mask)) {
2733             ox_flag = CRF_SO;
2734         }
2735
2736         ret.VsrD(1) &= mask;
2737         ret.VsrD(0) = 0;
2738     } else if (i == 0) {
2739         if (ret.VsrD(0) || ret.VsrD(1)) {
2740             ox_flag = CRF_SO;
2741         }
2742         ret.VsrD(0) = ret.VsrD(1) = 0;
2743     }
2744
2745     *r = ret;
2746     if (r->VsrD(0) == 0 && r->VsrD(1) == 0) {
2747         return ox_flag | CRF_EQ;
2748     }
2749
2750     return ox_flag | CRF_GT;
2751 }
2752
2753 void helper_vsbox(ppc_avr_t *r, ppc_avr_t *a)
2754 {
2755     int i;
2756     VECTOR_FOR_INORDER_I(i, u8) {
2757         r->u8[i] = AES_sbox[a->u8[i]];
2758     }
2759 }
2760
2761 void helper_vcipher(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
2762 {
2763     ppc_avr_t result;
2764     int i;
2765
2766     VECTOR_FOR_INORDER_I(i, u32) {
2767         result.VsrW(i) = b->VsrW(i) ^
2768             (AES_Te0[a->VsrB(AES_shifts[4 * i + 0])] ^
2769              AES_Te1[a->VsrB(AES_shifts[4 * i + 1])] ^
2770              AES_Te2[a->VsrB(AES_shifts[4 * i + 2])] ^
2771              AES_Te3[a->VsrB(AES_shifts[4 * i + 3])]);
2772     }
2773     *r = result;
2774 }
2775
2776 void helper_vcipherlast(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
2777 {
2778     ppc_avr_t result;
2779     int i;
2780
2781     VECTOR_FOR_INORDER_I(i, u8) {
2782         result.VsrB(i) = b->VsrB(i) ^ (AES_sbox[a->VsrB(AES_shifts[i])]);
2783     }
2784     *r = result;
2785 }
2786
2787 void helper_vncipher(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
2788 {
2789     /* This differs from what is written in ISA V2.07.  The RTL is */
2790     /* incorrect and will be fixed in V2.07B.                      */
2791     int i;
2792     ppc_avr_t tmp;
2793
2794     VECTOR_FOR_INORDER_I(i, u8) {
2795         tmp.VsrB(i) = b->VsrB(i) ^ AES_isbox[a->VsrB(AES_ishifts[i])];
2796     }
2797
2798     VECTOR_FOR_INORDER_I(i, u32) {
2799         r->VsrW(i) =
2800             AES_imc[tmp.VsrB(4 * i + 0)][0] ^
2801             AES_imc[tmp.VsrB(4 * i + 1)][1] ^
2802             AES_imc[tmp.VsrB(4 * i + 2)][2] ^
2803             AES_imc[tmp.VsrB(4 * i + 3)][3];
2804     }
2805 }
2806
2807 void helper_vncipherlast(ppc_avr_t *r, ppc_avr_t *a, ppc_avr_t *b)
2808 {
2809     ppc_avr_t result;
2810     int i;
2811
2812     VECTOR_FOR_INORDER_I(i, u8) {
2813         result.VsrB(i) = b->VsrB(i) ^ (AES_isbox[a->VsrB(AES_ishifts[i])]);
2814     }
2815     *r = result;
2816 }
2817
2818 void helper_vshasigmaw(ppc_avr_t *r,  ppc_avr_t *a, uint32_t st_six)
2819 {
2820     int st = (st_six & 0x10) != 0;
2821     int six = st_six & 0xF;
2822     int i;
2823
2824     for (i = 0; i < ARRAY_SIZE(r->u32); i++) {
2825         if (st == 0) {
2826             if ((six & (0x8 >> i)) == 0) {
2827                 r->VsrW(i) = ror32(a->VsrW(i), 7) ^
2828                              ror32(a->VsrW(i), 18) ^
2829                              (a->VsrW(i) >> 3);
2830             } else { /* six.bit[i] == 1 */
2831                 r->VsrW(i) = ror32(a->VsrW(i), 17) ^
2832                              ror32(a->VsrW(i), 19) ^
2833                              (a->VsrW(i) >> 10);
2834             }
2835         } else { /* st == 1 */
2836             if ((six & (0x8 >> i)) == 0) {
2837                 r->VsrW(i) = ror32(a->VsrW(i), 2) ^
2838                              ror32(a->VsrW(i), 13) ^
2839                              ror32(a->VsrW(i), 22);
2840             } else { /* six.bit[i] == 1 */
2841                 r->VsrW(i) = ror32(a->VsrW(i), 6) ^
2842                              ror32(a->VsrW(i), 11) ^
2843                              ror32(a->VsrW(i), 25);
2844             }
2845         }
2846     }
2847 }
2848
2849 void helper_vshasigmad(ppc_avr_t *r,  ppc_avr_t *a, uint32_t st_six)
2850 {
2851     int st = (st_six & 0x10) != 0;
2852     int six = st_six & 0xF;
2853     int i;
2854
2855     for (i = 0; i < ARRAY_SIZE(r->u64); i++) {
2856         if (st == 0) {
2857             if ((six & (0x8 >> (2 * i))) == 0) {
2858                 r->VsrD(i) = ror64(a->VsrD(i), 1) ^
2859                              ror64(a->VsrD(i), 8) ^
2860                              (a->VsrD(i) >> 7);
2861             } else { /* six.bit[2*i] == 1 */
2862                 r->VsrD(i) = ror64(a->VsrD(i), 19) ^
2863                              ror64(a->VsrD(i), 61) ^
2864                              (a->VsrD(i) >> 6);
2865             }
2866         } else { /* st == 1 */
2867             if ((six & (0x8 >> (2 * i))) == 0) {
2868                 r->VsrD(i) = ror64(a->VsrD(i), 28) ^
2869                              ror64(a->VsrD(i), 34) ^
2870                              ror64(a->VsrD(i), 39);
2871             } else { /* six.bit[2*i] == 1 */
2872                 r->VsrD(i) = ror64(a->VsrD(i), 14) ^
2873                              ror64(a->VsrD(i), 18) ^
2874                              ror64(a->VsrD(i), 41);
2875             }
2876         }
2877     }
2878 }
2879
2880 void helper_vpermxor(ppc_avr_t *r,  ppc_avr_t *a, ppc_avr_t *b, ppc_avr_t *c)
2881 {
2882     ppc_avr_t result;
2883     int i;
2884
2885     for (i = 0; i < ARRAY_SIZE(r->u8); i++) {
2886         int indexA = c->VsrB(i) >> 4;
2887         int indexB = c->VsrB(i) & 0xF;
2888
2889         result.VsrB(i) = a->VsrB(indexA) ^ b->VsrB(indexB);
2890     }
2891     *r = result;
2892 }
2893
2894 #undef VECTOR_FOR_INORDER_I
2895
2896 /*****************************************************************************/
2897 /* SPE extension helpers */
2898 /* Use a table to make this quicker */
2899 static const uint8_t hbrev[16] = {
2900     0x0, 0x8, 0x4, 0xC, 0x2, 0xA, 0x6, 0xE,
2901     0x1, 0x9, 0x5, 0xD, 0x3, 0xB, 0x7, 0xF,
2902 };
2903
2904 static inline uint8_t byte_reverse(uint8_t val)
2905 {
2906     return hbrev[val >> 4] | (hbrev[val & 0xF] << 4);
2907 }
2908
2909 static inline uint32_t word_reverse(uint32_t val)
2910 {
2911     return byte_reverse(val >> 24) | (byte_reverse(val >> 16) << 8) |
2912         (byte_reverse(val >> 8) << 16) | (byte_reverse(val) << 24);
2913 }
2914
2915 #define MASKBITS 16 /* Random value - to be fixed (implementation dependent) */
2916 target_ulong helper_brinc(target_ulong arg1, target_ulong arg2)
2917 {
2918     uint32_t a, b, d, mask;
2919
2920     mask = UINT32_MAX >> (32 - MASKBITS);
2921     a = arg1 & mask;
2922     b = arg2 & mask;
2923     d = word_reverse(1 + word_reverse(a | ~b));
2924     return (arg1 & ~mask) | (d & b);
2925 }
2926
2927 uint32_t helper_cntlsw32(uint32_t val)
2928 {
2929     if (val & 0x80000000) {
2930         return clz32(~val);
2931     } else {
2932         return clz32(val);
2933     }
2934 }
2935
2936 uint32_t helper_cntlzw32(uint32_t val)
2937 {
2938     return clz32(val);
2939 }
2940
2941 /* 440 specific */
2942 target_ulong helper_dlmzb(CPUPPCState *env, target_ulong high,
2943                           target_ulong low, uint32_t update_Rc)
2944 {
2945     target_ulong mask;
2946     int i;
2947
2948     i = 1;
2949     for (mask = 0xFF000000; mask != 0; mask = mask >> 8) {
2950         if ((high & mask) == 0) {
2951             if (update_Rc) {
2952                 env->crf[0] = 0x4;
2953             }
2954             goto done;
2955         }
2956         i++;
2957     }
2958     for (mask = 0xFF000000; mask != 0; mask = mask >> 8) {
2959         if ((low & mask) == 0) {
2960             if (update_Rc) {
2961                 env->crf[0] = 0x8;
2962             }
2963             goto done;
2964         }
2965         i++;
2966     }
2967     i = 8;
2968     if (update_Rc) {
2969         env->crf[0] = 0x2;
2970     }
2971  done:
2972     env->xer = (env->xer & ~0x7F) | i;
2973     if (update_Rc) {
2974         env->crf[0] |= xer_so;
2975     }
2976     return i;
2977 }