target/arm/vec_helper.c

   1 /*
   2  * ARM AdvSIMD / SVE Vector Operations
   3  *
   4  * Copyright (c) 2018 Linaro
   5  *
   6  * This library is free software; you can redistribute it and/or
   7  * modify it under the terms of the GNU Lesser General Public
   8  * License as published by the Free Software Foundation; either
   9  * version 2.1 of the License, or (at your option) any later version.
  10  *
  11  * This library is distributed in the hope that it will be useful,
  12  * but WITHOUT ANY WARRANTY; without even the implied warranty of
  13  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
  14  * Lesser General Public License for more details.
  15  *
  16  * You should have received a copy of the GNU Lesser General Public
  17  * License along with this library; if not, see <http://www.gnu.org/licenses/>.
  18  */
  19
  20 #include "qemu/osdep.h"
  21 #include "cpu.h"
  22 #include "exec/helper-proto.h"
  23 #include "tcg/tcg-gvec-desc.h"
  24 #include "fpu/softfloat.h"
  25 #include "qemu/int128.h"
  26 #include "vec_internal.h"
  27
  28 /* Signed saturating rounding doubling multiply-accumulate high half, 8-bit */
  29 int8_t do_sqrdmlah_b(int8_t src1, int8_t src2, int8_t src3,
  30                      bool neg, bool round)
  31 {
  32     /*
  33      * Simplify:
  34      * = ((a3 << 8) + ((e1 * e2) << 1) + (round << 7)) >> 8
  35      * = ((a3 << 7) + (e1 * e2) + (round << 6)) >> 7
  36      */
  37     int32_t ret = (int32_t)src1 * src2;
  38     if (neg) {
  39         ret = -ret;
  40     }
  41     ret += ((int32_t)src3 << 7) + (round << 6);
  42     ret >>= 7;
  43
  44     if (ret != (int8_t)ret) {
  45         ret = (ret < 0 ? INT8_MIN : INT8_MAX);
  46     }
  47     return ret;
  48 }
  49
  50 void HELPER(sve2_sqrdmlah_b)(void *vd, void *vn, void *vm,
  51                              void *va, uint32_t desc)
  52 {
  53     intptr_t i, opr_sz = simd_oprsz(desc);
  54     int8_t *d = vd, *n = vn, *m = vm, *a = va;
  55
  56     for (i = 0; i < opr_sz; ++i) {
  57         d[i] = do_sqrdmlah_b(n[i], m[i], a[i], false, true);
  58     }
  59 }
  60
  61 void HELPER(sve2_sqrdmlsh_b)(void *vd, void *vn, void *vm,
  62                              void *va, uint32_t desc)
  63 {
  64     intptr_t i, opr_sz = simd_oprsz(desc);
  65     int8_t *d = vd, *n = vn, *m = vm, *a = va;
  66
  67     for (i = 0; i < opr_sz; ++i) {
  68         d[i] = do_sqrdmlah_b(n[i], m[i], a[i], true, true);
  69     }
  70 }
  71
  72 void HELPER(sve2_sqdmulh_b)(void *vd, void *vn, void *vm, uint32_t desc)
  73 {
  74     intptr_t i, opr_sz = simd_oprsz(desc);
  75     int8_t *d = vd, *n = vn, *m = vm;
  76
  77     for (i = 0; i < opr_sz; ++i) {
  78         d[i] = do_sqrdmlah_b(n[i], m[i], 0, false, false);
  79     }
  80 }
  81
  82 void HELPER(sve2_sqrdmulh_b)(void *vd, void *vn, void *vm, uint32_t desc)
  83 {
  84     intptr_t i, opr_sz = simd_oprsz(desc);
  85     int8_t *d = vd, *n = vn, *m = vm;
  86
  87     for (i = 0; i < opr_sz; ++i) {
  88         d[i] = do_sqrdmlah_b(n[i], m[i], 0, false, true);
  89     }
  90 }
  91
  92 /* Signed saturating rounding doubling multiply-accumulate high half, 16-bit */
  93 int16_t do_sqrdmlah_h(int16_t src1, int16_t src2, int16_t src3,
  94                       bool neg, bool round, uint32_t *sat)
  95 {
  96     /* Simplify similarly to do_sqrdmlah_b above.  */
  97     int32_t ret = (int32_t)src1 * src2;
  98     if (neg) {
  99         ret = -ret;
 100     }
 101     ret += ((int32_t)src3 << 15) + (round << 14);
 102     ret >>= 15;
 103
 104     if (ret != (int16_t)ret) {
 105         *sat = 1;
 106         ret = (ret < 0 ? INT16_MIN : INT16_MAX);
 107     }
 108     return ret;
 109 }
 110
 111 uint32_t HELPER(neon_qrdmlah_s16)(CPUARMState *env, uint32_t src1,
 112                                   uint32_t src2, uint32_t src3)
 113 {
 114     uint32_t *sat = &env->vfp.qc[0];
 115     uint16_t e1 = do_sqrdmlah_h(src1, src2, src3, false, true, sat);
 116     uint16_t e2 = do_sqrdmlah_h(src1 >> 16, src2 >> 16, src3 >> 16,
 117                                 false, true, sat);
 118     return deposit32(e1, 16, 16, e2);
 119 }
 120
 121 void HELPER(gvec_qrdmlah_s16)(void *vd, void *vn, void *vm,
 122                               void *vq, uint32_t desc)
 123 {
 124     uintptr_t opr_sz = simd_oprsz(desc);
 125     int16_t *d = vd;
 126     int16_t *n = vn;
 127     int16_t *m = vm;
 128     uintptr_t i;
 129
 130     for (i = 0; i < opr_sz / 2; ++i) {
 131         d[i] = do_sqrdmlah_h(n[i], m[i], d[i], false, true, vq);
 132     }
 133     clear_tail(d, opr_sz, simd_maxsz(desc));
 134 }
 135
 136 uint32_t HELPER(neon_qrdmlsh_s16)(CPUARMState *env, uint32_t src1,
 137                                   uint32_t src2, uint32_t src3)
 138 {
 139     uint32_t *sat = &env->vfp.qc[0];
 140     uint16_t e1 = do_sqrdmlah_h(src1, src2, src3, true, true, sat);
 141     uint16_t e2 = do_sqrdmlah_h(src1 >> 16, src2 >> 16, src3 >> 16,
 142                                 true, true, sat);
 143     return deposit32(e1, 16, 16, e2);
 144 }
 145
 146 void HELPER(gvec_qrdmlsh_s16)(void *vd, void *vn, void *vm,
 147                               void *vq, uint32_t desc)
 148 {
 149     uintptr_t opr_sz = simd_oprsz(desc);
 150     int16_t *d = vd;
 151     int16_t *n = vn;
 152     int16_t *m = vm;
 153     uintptr_t i;
 154
 155     for (i = 0; i < opr_sz / 2; ++i) {
 156         d[i] = do_sqrdmlah_h(n[i], m[i], d[i], true, true, vq);
 157     }
 158     clear_tail(d, opr_sz, simd_maxsz(desc));
 159 }
 160
 161 void HELPER(neon_sqdmulh_h)(void *vd, void *vn, void *vm,
 162                             void *vq, uint32_t desc)
 163 {
 164     intptr_t i, opr_sz = simd_oprsz(desc);
 165     int16_t *d = vd, *n = vn, *m = vm;
 166
 167     for (i = 0; i < opr_sz / 2; ++i) {
 168         d[i] = do_sqrdmlah_h(n[i], m[i], 0, false, false, vq);
 169     }
 170     clear_tail(d, opr_sz, simd_maxsz(desc));
 171 }
 172
 173 void HELPER(neon_sqrdmulh_h)(void *vd, void *vn, void *vm,
 174                              void *vq, uint32_t desc)
 175 {
 176     intptr_t i, opr_sz = simd_oprsz(desc);
 177     int16_t *d = vd, *n = vn, *m = vm;
 178
 179     for (i = 0; i < opr_sz / 2; ++i) {
 180         d[i] = do_sqrdmlah_h(n[i], m[i], 0, false, true, vq);
 181     }
 182     clear_tail(d, opr_sz, simd_maxsz(desc));
 183 }
 184
 185 void HELPER(sve2_sqrdmlah_h)(void *vd, void *vn, void *vm,
 186                              void *va, uint32_t desc)
 187 {
 188     intptr_t i, opr_sz = simd_oprsz(desc);
 189     int16_t *d = vd, *n = vn, *m = vm, *a = va;
 190     uint32_t discard;
 191
 192     for (i = 0; i < opr_sz / 2; ++i) {
 193         d[i] = do_sqrdmlah_h(n[i], m[i], a[i], false, true, &discard);
 194     }
 195 }
 196
 197 void HELPER(sve2_sqrdmlsh_h)(void *vd, void *vn, void *vm,
 198                              void *va, uint32_t desc)
 199 {
 200     intptr_t i, opr_sz = simd_oprsz(desc);
 201     int16_t *d = vd, *n = vn, *m = vm, *a = va;
 202     uint32_t discard;
 203
 204     for (i = 0; i < opr_sz / 2; ++i) {
 205         d[i] = do_sqrdmlah_h(n[i], m[i], a[i], true, true, &discard);
 206     }
 207 }
 208
 209 void HELPER(sve2_sqdmulh_h)(void *vd, void *vn, void *vm, uint32_t desc)
 210 {
 211     intptr_t i, opr_sz = simd_oprsz(desc);
 212     int16_t *d = vd, *n = vn, *m = vm;
 213     uint32_t discard;
 214
 215     for (i = 0; i < opr_sz / 2; ++i) {
 216         d[i] = do_sqrdmlah_h(n[i], m[i], 0, false, false, &discard);
 217     }
 218 }
 219
 220 void HELPER(sve2_sqrdmulh_h)(void *vd, void *vn, void *vm, uint32_t desc)
 221 {
 222     intptr_t i, opr_sz = simd_oprsz(desc);
 223     int16_t *d = vd, *n = vn, *m = vm;
 224     uint32_t discard;
 225
 226     for (i = 0; i < opr_sz / 2; ++i) {
 227         d[i] = do_sqrdmlah_h(n[i], m[i], 0, false, true, &discard);
 228     }
 229 }
 230
 231 void HELPER(sve2_sqdmulh_idx_h)(void *vd, void *vn, void *vm, uint32_t desc)
 232 {
 233     intptr_t i, j, opr_sz = simd_oprsz(desc);
 234     int idx = simd_data(desc);
 235     int16_t *d = vd, *n = vn, *m = (int16_t *)vm + H2(idx);
 236     uint32_t discard;
 237
 238     for (i = 0; i < opr_sz / 2; i += 16 / 2) {
 239         int16_t mm = m[i];
 240         for (j = 0; j < 16 / 2; ++j) {
 241             d[i + j] = do_sqrdmlah_h(n[i + j], mm, 0, false, false, &discard);
 242         }
 243     }
 244 }
 245
 246 void HELPER(sve2_sqrdmulh_idx_h)(void *vd, void *vn, void *vm, uint32_t desc)
 247 {
 248     intptr_t i, j, opr_sz = simd_oprsz(desc);
 249     int idx = simd_data(desc);
 250     int16_t *d = vd, *n = vn, *m = (int16_t *)vm + H2(idx);
 251     uint32_t discard;
 252
 253     for (i = 0; i < opr_sz / 2; i += 16 / 2) {
 254         int16_t mm = m[i];
 255         for (j = 0; j < 16 / 2; ++j) {
 256             d[i + j] = do_sqrdmlah_h(n[i + j], mm, 0, false, true, &discard);
 257         }
 258     }
 259 }
 260
 261 /* Signed saturating rounding doubling multiply-accumulate high half, 32-bit */
 262 int32_t do_sqrdmlah_s(int32_t src1, int32_t src2, int32_t src3,
 263                       bool neg, bool round, uint32_t *sat)
 264 {
 265     /* Simplify similarly to do_sqrdmlah_b above.  */
 266     int64_t ret = (int64_t)src1 * src2;
 267     if (neg) {
 268         ret = -ret;
 269     }
 270     ret += ((int64_t)src3 << 31) + (round << 30);
 271     ret >>= 31;
 272
 273     if (ret != (int32_t)ret) {
 274         *sat = 1;
 275         ret = (ret < 0 ? INT32_MIN : INT32_MAX);
 276     }
 277     return ret;
 278 }
 279
 280 uint32_t HELPER(neon_qrdmlah_s32)(CPUARMState *env, int32_t src1,
 281                                   int32_t src2, int32_t src3)
 282 {
 283     uint32_t *sat = &env->vfp.qc[0];
 284     return do_sqrdmlah_s(src1, src2, src3, false, true, sat);
 285 }
 286
 287 void HELPER(gvec_qrdmlah_s32)(void *vd, void *vn, void *vm,
 288                               void *vq, uint32_t desc)
 289 {
 290     uintptr_t opr_sz = simd_oprsz(desc);
 291     int32_t *d = vd;
 292     int32_t *n = vn;
 293     int32_t *m = vm;
 294     uintptr_t i;
 295
 296     for (i = 0; i < opr_sz / 4; ++i) {
 297         d[i] = do_sqrdmlah_s(n[i], m[i], d[i], false, true, vq);
 298     }
 299     clear_tail(d, opr_sz, simd_maxsz(desc));
 300 }
 301
 302 uint32_t HELPER(neon_qrdmlsh_s32)(CPUARMState *env, int32_t src1,
 303                                   int32_t src2, int32_t src3)
 304 {
 305     uint32_t *sat = &env->vfp.qc[0];
 306     return do_sqrdmlah_s(src1, src2, src3, true, true, sat);
 307 }
 308
 309 void HELPER(gvec_qrdmlsh_s32)(void *vd, void *vn, void *vm,
 310                               void *vq, uint32_t desc)
 311 {
 312     uintptr_t opr_sz = simd_oprsz(desc);
 313     int32_t *d = vd;
 314     int32_t *n = vn;
 315     int32_t *m = vm;
 316     uintptr_t i;
 317
 318     for (i = 0; i < opr_sz / 4; ++i) {
 319         d[i] = do_sqrdmlah_s(n[i], m[i], d[i], true, true, vq);
 320     }
 321     clear_tail(d, opr_sz, simd_maxsz(desc));
 322 }
 323
 324 void HELPER(neon_sqdmulh_s)(void *vd, void *vn, void *vm,
 325                             void *vq, uint32_t desc)
 326 {
 327     intptr_t i, opr_sz = simd_oprsz(desc);
 328     int32_t *d = vd, *n = vn, *m = vm;
 329
 330     for (i = 0; i < opr_sz / 4; ++i) {
 331         d[i] = do_sqrdmlah_s(n[i], m[i], 0, false, false, vq);
 332     }
 333     clear_tail(d, opr_sz, simd_maxsz(desc));
 334 }
 335
 336 void HELPER(neon_sqrdmulh_s)(void *vd, void *vn, void *vm,
 337                              void *vq, uint32_t desc)
 338 {
 339     intptr_t i, opr_sz = simd_oprsz(desc);
 340     int32_t *d = vd, *n = vn, *m = vm;
 341
 342     for (i = 0; i < opr_sz / 4; ++i) {
 343         d[i] = do_sqrdmlah_s(n[i], m[i], 0, false, true, vq);
 344     }
 345     clear_tail(d, opr_sz, simd_maxsz(desc));
 346 }
 347
 348 void HELPER(sve2_sqrdmlah_s)(void *vd, void *vn, void *vm,
 349                              void *va, uint32_t desc)
 350 {
 351     intptr_t i, opr_sz = simd_oprsz(desc);
 352     int32_t *d = vd, *n = vn, *m = vm, *a = va;
 353     uint32_t discard;
 354
 355     for (i = 0; i < opr_sz / 4; ++i) {
 356         d[i] = do_sqrdmlah_s(n[i], m[i], a[i], false, true, &discard);
 357     }
 358 }
 359
 360 void HELPER(sve2_sqrdmlsh_s)(void *vd, void *vn, void *vm,
 361                              void *va, uint32_t desc)
 362 {
 363     intptr_t i, opr_sz = simd_oprsz(desc);
 364     int32_t *d = vd, *n = vn, *m = vm, *a = va;
 365     uint32_t discard;
 366
 367     for (i = 0; i < opr_sz / 4; ++i) {
 368         d[i] = do_sqrdmlah_s(n[i], m[i], a[i], true, true, &discard);
 369     }
 370 }
 371
 372 void HELPER(sve2_sqdmulh_s)(void *vd, void *vn, void *vm, uint32_t desc)
 373 {
 374     intptr_t i, opr_sz = simd_oprsz(desc);
 375     int32_t *d = vd, *n = vn, *m = vm;
 376     uint32_t discard;
 377
 378     for (i = 0; i < opr_sz / 4; ++i) {
 379         d[i] = do_sqrdmlah_s(n[i], m[i], 0, false, false, &discard);
 380     }
 381 }
 382
 383 void HELPER(sve2_sqrdmulh_s)(void *vd, void *vn, void *vm, uint32_t desc)
 384 {
 385     intptr_t i, opr_sz = simd_oprsz(desc);
 386     int32_t *d = vd, *n = vn, *m = vm;
 387     uint32_t discard;
 388
 389     for (i = 0; i < opr_sz / 4; ++i) {
 390         d[i] = do_sqrdmlah_s(n[i], m[i], 0, false, true, &discard);
 391     }
 392 }
 393
 394 void HELPER(sve2_sqdmulh_idx_s)(void *vd, void *vn, void *vm, uint32_t desc)
 395 {
 396     intptr_t i, j, opr_sz = simd_oprsz(desc);
 397     int idx = simd_data(desc);
 398     int32_t *d = vd, *n = vn, *m = (int32_t *)vm + H4(idx);
 399     uint32_t discard;
 400
 401     for (i = 0; i < opr_sz / 4; i += 16 / 4) {
 402         int32_t mm = m[i];
 403         for (j = 0; j < 16 / 4; ++j) {
 404             d[i + j] = do_sqrdmlah_s(n[i + j], mm, 0, false, false, &discard);
 405         }
 406     }
 407 }
 408
 409 void HELPER(sve2_sqrdmulh_idx_s)(void *vd, void *vn, void *vm, uint32_t desc)
 410 {
 411     intptr_t i, j, opr_sz = simd_oprsz(desc);
 412     int idx = simd_data(desc);
 413     int32_t *d = vd, *n = vn, *m = (int32_t *)vm + H4(idx);
 414     uint32_t discard;
 415
 416     for (i = 0; i < opr_sz / 4; i += 16 / 4) {
 417         int32_t mm = m[i];
 418         for (j = 0; j < 16 / 4; ++j) {
 419             d[i + j] = do_sqrdmlah_s(n[i + j], mm, 0, false, true, &discard);
 420         }
 421     }
 422 }
 423
 424 /* Signed saturating rounding doubling multiply-accumulate high half, 64-bit */
 425 static int64_t do_sat128_d(Int128 r)
 426 {
 427     int64_t ls = int128_getlo(r);
 428     int64_t hs = int128_gethi(r);
 429
 430     if (unlikely(hs != (ls >> 63))) {
 431         return hs < 0 ? INT64_MIN : INT64_MAX;
 432     }
 433     return ls;
 434 }
 435
 436 int64_t do_sqrdmlah_d(int64_t n, int64_t m, int64_t a, bool neg, bool round)
 437 {
 438     uint64_t l, h;
 439     Int128 r, t;
 440
 441     /* As in do_sqrdmlah_b, but with 128-bit arithmetic. */
 442     muls64(&l, &h, m, n);
 443     r = int128_make128(l, h);
 444     if (neg) {
 445         r = int128_neg(r);
 446     }
 447     if (a) {
 448         t = int128_exts64(a);
 449         t = int128_lshift(t, 63);
 450         r = int128_add(r, t);
 451     }
 452     if (round) {
 453         t = int128_exts64(1ll << 62);
 454         r = int128_add(r, t);
 455     }
 456     r = int128_rshift(r, 63);
 457
 458     return do_sat128_d(r);
 459 }
 460
 461 void HELPER(sve2_sqrdmlah_d)(void *vd, void *vn, void *vm,
 462                              void *va, uint32_t desc)
 463 {
 464     intptr_t i, opr_sz = simd_oprsz(desc);
 465     int64_t *d = vd, *n = vn, *m = vm, *a = va;
 466
 467     for (i = 0; i < opr_sz / 8; ++i) {
 468         d[i] = do_sqrdmlah_d(n[i], m[i], a[i], false, true);
 469     }
 470 }
 471
 472 void HELPER(sve2_sqrdmlsh_d)(void *vd, void *vn, void *vm,
 473                              void *va, uint32_t desc)
 474 {
 475     intptr_t i, opr_sz = simd_oprsz(desc);
 476     int64_t *d = vd, *n = vn, *m = vm, *a = va;
 477
 478     for (i = 0; i < opr_sz / 8; ++i) {
 479         d[i] = do_sqrdmlah_d(n[i], m[i], a[i], true, true);
 480     }
 481 }
 482
 483 void HELPER(sve2_sqdmulh_d)(void *vd, void *vn, void *vm, uint32_t desc)
 484 {
 485     intptr_t i, opr_sz = simd_oprsz(desc);
 486     int64_t *d = vd, *n = vn, *m = vm;
 487
 488     for (i = 0; i < opr_sz / 8; ++i) {
 489         d[i] = do_sqrdmlah_d(n[i], m[i], 0, false, false);
 490     }
 491 }
 492
 493 void HELPER(sve2_sqrdmulh_d)(void *vd, void *vn, void *vm, uint32_t desc)
 494 {
 495     intptr_t i, opr_sz = simd_oprsz(desc);
 496     int64_t *d = vd, *n = vn, *m = vm;
 497
 498     for (i = 0; i < opr_sz / 8; ++i) {
 499         d[i] = do_sqrdmlah_d(n[i], m[i], 0, false, true);
 500     }
 501 }
 502
 503 void HELPER(sve2_sqdmulh_idx_d)(void *vd, void *vn, void *vm, uint32_t desc)
 504 {
 505     intptr_t i, j, opr_sz = simd_oprsz(desc);
 506     int idx = simd_data(desc);
 507     int64_t *d = vd, *n = vn, *m = (int64_t *)vm + idx;
 508
 509     for (i = 0; i < opr_sz / 8; i += 16 / 8) {
 510         int64_t mm = m[i];
 511         for (j = 0; j < 16 / 8; ++j) {
 512             d[i + j] = do_sqrdmlah_d(n[i + j], mm, 0, false, false);
 513         }
 514     }
 515 }
 516
 517 void HELPER(sve2_sqrdmulh_idx_d)(void *vd, void *vn, void *vm, uint32_t desc)
 518 {
 519     intptr_t i, j, opr_sz = simd_oprsz(desc);
 520     int idx = simd_data(desc);
 521     int64_t *d = vd, *n = vn, *m = (int64_t *)vm + idx;
 522
 523     for (i = 0; i < opr_sz / 8; i += 16 / 8) {
 524         int64_t mm = m[i];
 525         for (j = 0; j < 16 / 8; ++j) {
 526             d[i + j] = do_sqrdmlah_d(n[i + j], mm, 0, false, true);
 527         }
 528     }
 529 }
 530
 531 /* Integer 8 and 16-bit dot-product.
 532  *
 533  * Note that for the loops herein, host endianness does not matter
 534  * with respect to the ordering of data within the quad-width lanes.
 535  * All elements are treated equally, no matter where they are.
 536  */
 537
 538 #define DO_DOT(NAME, TYPED, TYPEN, TYPEM) \
 539 void HELPER(NAME)(void *vd, void *vn, void *vm, void *va, uint32_t desc)  \
 540 {                                                                         \
 541     intptr_t i, opr_sz = simd_oprsz(desc);                                \
 542     TYPED *d = vd, *a = va;                                               \
 543     TYPEN *n = vn;                                                        \
 544     TYPEM *m = vm;                                                        \
 545     for (i = 0; i < opr_sz / sizeof(TYPED); ++i) {                        \
 546         d[i] = (a[i] +                                                    \
 547                 (TYPED)n[i * 4 + 0] * m[i * 4 + 0] +                      \
 548                 (TYPED)n[i * 4 + 1] * m[i * 4 + 1] +                      \
 549                 (TYPED)n[i * 4 + 2] * m[i * 4 + 2] +                      \
 550                 (TYPED)n[i * 4 + 3] * m[i * 4 + 3]);                      \
 551     }                                                                     \
 552     clear_tail(d, opr_sz, simd_maxsz(desc));                              \
 553 }
 554
 555 DO_DOT(gvec_sdot_b, int32_t, int8_t, int8_t)
 556 DO_DOT(gvec_udot_b, uint32_t, uint8_t, uint8_t)
 557 DO_DOT(gvec_usdot_b, uint32_t, uint8_t, int8_t)
 558 DO_DOT(gvec_sdot_h, int64_t, int16_t, int16_t)
 559 DO_DOT(gvec_udot_h, uint64_t, uint16_t, uint16_t)
 560
 561 #define DO_DOT_IDX(NAME, TYPED, TYPEN, TYPEM, HD) \
 562 void HELPER(NAME)(void *vd, void *vn, void *vm, void *va, uint32_t desc)  \
 563 {                                                                         \
 564     intptr_t i = 0, opr_sz = simd_oprsz(desc);                            \
 565     intptr_t opr_sz_n = opr_sz / sizeof(TYPED);                           \
 566     intptr_t segend = MIN(16 / sizeof(TYPED), opr_sz_n);                  \
 567     intptr_t index = simd_data(desc);                                     \
 568     TYPED *d = vd, *a = va;                                               \
 569     TYPEN *n = vn;                                                        \
 570     TYPEM *m_indexed = (TYPEM *)vm + HD(index) * 4;                       \
 571     do {                                                                  \
 572         TYPED m0 = m_indexed[i * 4 + 0];                                  \
 573         TYPED m1 = m_indexed[i * 4 + 1];                                  \
 574         TYPED m2 = m_indexed[i * 4 + 2];                                  \
 575         TYPED m3 = m_indexed[i * 4 + 3];                                  \
 576         do {                                                              \
 577             d[i] = (a[i] +                                                \
 578                     n[i * 4 + 0] * m0 +                                   \
 579                     n[i * 4 + 1] * m1 +                                   \
 580                     n[i * 4 + 2] * m2 +                                   \
 581                     n[i * 4 + 3] * m3);                                   \
 582         } while (++i < segend);                                           \
 583         segend = i + 4;                                                   \
 584     } while (i < opr_sz_n);                                               \
 585     clear_tail(d, opr_sz, simd_maxsz(desc));                              \
 586 }
 587
 588 DO_DOT_IDX(gvec_sdot_idx_b, int32_t, int8_t, int8_t, H4)
 589 DO_DOT_IDX(gvec_udot_idx_b, uint32_t, uint8_t, uint8_t, H4)
 590 DO_DOT_IDX(gvec_sudot_idx_b, int32_t, int8_t, uint8_t, H4)
 591 DO_DOT_IDX(gvec_usdot_idx_b, int32_t, uint8_t, int8_t, H4)
 592 DO_DOT_IDX(gvec_sdot_idx_h, int64_t, int16_t, int16_t, )
 593 DO_DOT_IDX(gvec_udot_idx_h, uint64_t, uint16_t, uint16_t, )
 594
 595 void HELPER(gvec_fcaddh)(void *vd, void *vn, void *vm,
 596                          void *vfpst, uint32_t desc)
 597 {
 598     uintptr_t opr_sz = simd_oprsz(desc);
 599     float16 *d = vd;
 600     float16 *n = vn;
 601     float16 *m = vm;
 602     float_status *fpst = vfpst;
 603     uint32_t neg_real = extract32(desc, SIMD_DATA_SHIFT, 1);
 604     uint32_t neg_imag = neg_real ^ 1;
 605     uintptr_t i;
 606
 607     /* Shift boolean to the sign bit so we can xor to negate.  */
 608     neg_real <<= 15;
 609     neg_imag <<= 15;
 610
 611     for (i = 0; i < opr_sz / 2; i += 2) {
 612         float16 e0 = n[H2(i)];
 613         float16 e1 = m[H2(i + 1)] ^ neg_imag;
 614         float16 e2 = n[H2(i + 1)];
 615         float16 e3 = m[H2(i)] ^ neg_real;
 616
 617         d[H2(i)] = float16_add(e0, e1, fpst);
 618         d[H2(i + 1)] = float16_add(e2, e3, fpst);
 619     }
 620     clear_tail(d, opr_sz, simd_maxsz(desc));
 621 }
 622
 623 void HELPER(gvec_fcadds)(void *vd, void *vn, void *vm,
 624                          void *vfpst, uint32_t desc)
 625 {
 626     uintptr_t opr_sz = simd_oprsz(desc);
 627     float32 *d = vd;
 628     float32 *n = vn;
 629     float32 *m = vm;
 630     float_status *fpst = vfpst;
 631     uint32_t neg_real = extract32(desc, SIMD_DATA_SHIFT, 1);
 632     uint32_t neg_imag = neg_real ^ 1;
 633     uintptr_t i;
 634
 635     /* Shift boolean to the sign bit so we can xor to negate.  */
 636     neg_real <<= 31;
 637     neg_imag <<= 31;
 638
 639     for (i = 0; i < opr_sz / 4; i += 2) {
 640         float32 e0 = n[H4(i)];
 641         float32 e1 = m[H4(i + 1)] ^ neg_imag;
 642         float32 e2 = n[H4(i + 1)];
 643         float32 e3 = m[H4(i)] ^ neg_real;
 644
 645         d[H4(i)] = float32_add(e0, e1, fpst);
 646         d[H4(i + 1)] = float32_add(e2, e3, fpst);
 647     }
 648     clear_tail(d, opr_sz, simd_maxsz(desc));
 649 }
 650
 651 void HELPER(gvec_fcaddd)(void *vd, void *vn, void *vm,
 652                          void *vfpst, uint32_t desc)
 653 {
 654     uintptr_t opr_sz = simd_oprsz(desc);
 655     float64 *d = vd;
 656     float64 *n = vn;
 657     float64 *m = vm;
 658     float_status *fpst = vfpst;
 659     uint64_t neg_real = extract64(desc, SIMD_DATA_SHIFT, 1);
 660     uint64_t neg_imag = neg_real ^ 1;
 661     uintptr_t i;
 662
 663     /* Shift boolean to the sign bit so we can xor to negate.  */
 664     neg_real <<= 63;
 665     neg_imag <<= 63;
 666
 667     for (i = 0; i < opr_sz / 8; i += 2) {
 668         float64 e0 = n[i];
 669         float64 e1 = m[i + 1] ^ neg_imag;
 670         float64 e2 = n[i + 1];
 671         float64 e3 = m[i] ^ neg_real;
 672
 673         d[i] = float64_add(e0, e1, fpst);
 674         d[i + 1] = float64_add(e2, e3, fpst);
 675     }
 676     clear_tail(d, opr_sz, simd_maxsz(desc));
 677 }
 678
 679 void HELPER(gvec_fcmlah)(void *vd, void *vn, void *vm, void *va,
 680                          void *vfpst, uint32_t desc)
 681 {
 682     uintptr_t opr_sz = simd_oprsz(desc);
 683     float16 *d = vd, *n = vn, *m = vm, *a = va;
 684     float_status *fpst = vfpst;
 685     intptr_t flip = extract32(desc, SIMD_DATA_SHIFT, 1);
 686     uint32_t neg_imag = extract32(desc, SIMD_DATA_SHIFT + 1, 1);
 687     uint32_t neg_real = flip ^ neg_imag;
 688     uintptr_t i;
 689
 690     /* Shift boolean to the sign bit so we can xor to negate.  */
 691     neg_real <<= 15;
 692     neg_imag <<= 15;
 693
 694     for (i = 0; i < opr_sz / 2; i += 2) {
 695         float16 e2 = n[H2(i + flip)];
 696         float16 e1 = m[H2(i + flip)] ^ neg_real;
 697         float16 e4 = e2;
 698         float16 e3 = m[H2(i + 1 - flip)] ^ neg_imag;
 699
 700         d[H2(i)] = float16_muladd(e2, e1, a[H2(i)], 0, fpst);
 701         d[H2(i + 1)] = float16_muladd(e4, e3, a[H2(i + 1)], 0, fpst);
 702     }
 703     clear_tail(d, opr_sz, simd_maxsz(desc));
 704 }
 705
 706 void HELPER(gvec_fcmlah_idx)(void *vd, void *vn, void *vm, void *va,
 707                              void *vfpst, uint32_t desc)
 708 {
 709     uintptr_t opr_sz = simd_oprsz(desc);
 710     float16 *d = vd, *n = vn, *m = vm, *a = va;
 711     float_status *fpst = vfpst;
 712     intptr_t flip = extract32(desc, SIMD_DATA_SHIFT, 1);
 713     uint32_t neg_imag = extract32(desc, SIMD_DATA_SHIFT + 1, 1);
 714     intptr_t index = extract32(desc, SIMD_DATA_SHIFT + 2, 2);
 715     uint32_t neg_real = flip ^ neg_imag;
 716     intptr_t elements = opr_sz / sizeof(float16);
 717     intptr_t eltspersegment = 16 / sizeof(float16);
 718     intptr_t i, j;
 719
 720     /* Shift boolean to the sign bit so we can xor to negate.  */
 721     neg_real <<= 15;
 722     neg_imag <<= 15;
 723
 724     for (i = 0; i < elements; i += eltspersegment) {
 725         float16 mr = m[H2(i + 2 * index + 0)];
 726         float16 mi = m[H2(i + 2 * index + 1)];
 727         float16 e1 = neg_real ^ (flip ? mi : mr);
 728         float16 e3 = neg_imag ^ (flip ? mr : mi);
 729
 730         for (j = i; j < i + eltspersegment; j += 2) {
 731             float16 e2 = n[H2(j + flip)];
 732             float16 e4 = e2;
 733
 734             d[H2(j)] = float16_muladd(e2, e1, a[H2(j)], 0, fpst);
 735             d[H2(j + 1)] = float16_muladd(e4, e3, a[H2(j + 1)], 0, fpst);
 736         }
 737     }
 738     clear_tail(d, opr_sz, simd_maxsz(desc));
 739 }
 740
 741 void HELPER(gvec_fcmlas)(void *vd, void *vn, void *vm, void *va,
 742                          void *vfpst, uint32_t desc)
 743 {
 744     uintptr_t opr_sz = simd_oprsz(desc);
 745     float32 *d = vd, *n = vn, *m = vm, *a = va;
 746     float_status *fpst = vfpst;
 747     intptr_t flip = extract32(desc, SIMD_DATA_SHIFT, 1);
 748     uint32_t neg_imag = extract32(desc, SIMD_DATA_SHIFT + 1, 1);
 749     uint32_t neg_real = flip ^ neg_imag;
 750     uintptr_t i;
 751
 752     /* Shift boolean to the sign bit so we can xor to negate.  */
 753     neg_real <<= 31;
 754     neg_imag <<= 31;
 755
 756     for (i = 0; i < opr_sz / 4; i += 2) {
 757         float32 e2 = n[H4(i + flip)];
 758         float32 e1 = m[H4(i + flip)] ^ neg_real;
 759         float32 e4 = e2;
 760         float32 e3 = m[H4(i + 1 - flip)] ^ neg_imag;
 761
 762         d[H4(i)] = float32_muladd(e2, e1, a[H4(i)], 0, fpst);
 763         d[H4(i + 1)] = float32_muladd(e4, e3, a[H4(i + 1)], 0, fpst);
 764     }
 765     clear_tail(d, opr_sz, simd_maxsz(desc));
 766 }
 767
 768 void HELPER(gvec_fcmlas_idx)(void *vd, void *vn, void *vm, void *va,
 769                              void *vfpst, uint32_t desc)
 770 {
 771     uintptr_t opr_sz = simd_oprsz(desc);
 772     float32 *d = vd, *n = vn, *m = vm, *a = va;
 773     float_status *fpst = vfpst;
 774     intptr_t flip = extract32(desc, SIMD_DATA_SHIFT, 1);
 775     uint32_t neg_imag = extract32(desc, SIMD_DATA_SHIFT + 1, 1);
 776     intptr_t index = extract32(desc, SIMD_DATA_SHIFT + 2, 2);
 777     uint32_t neg_real = flip ^ neg_imag;
 778     intptr_t elements = opr_sz / sizeof(float32);
 779     intptr_t eltspersegment = 16 / sizeof(float32);
 780     intptr_t i, j;
 781
 782     /* Shift boolean to the sign bit so we can xor to negate.  */
 783     neg_real <<= 31;
 784     neg_imag <<= 31;
 785
 786     for (i = 0; i < elements; i += eltspersegment) {
 787         float32 mr = m[H4(i + 2 * index + 0)];
 788         float32 mi = m[H4(i + 2 * index + 1)];
 789         float32 e1 = neg_real ^ (flip ? mi : mr);
 790         float32 e3 = neg_imag ^ (flip ? mr : mi);
 791
 792         for (j = i; j < i + eltspersegment; j += 2) {
 793             float32 e2 = n[H4(j + flip)];
 794             float32 e4 = e2;
 795
 796             d[H4(j)] = float32_muladd(e2, e1, a[H4(j)], 0, fpst);
 797             d[H4(j + 1)] = float32_muladd(e4, e3, a[H4(j + 1)], 0, fpst);
 798         }
 799     }
 800     clear_tail(d, opr_sz, simd_maxsz(desc));
 801 }
 802
 803 void HELPER(gvec_fcmlad)(void *vd, void *vn, void *vm, void *va,
 804                          void *vfpst, uint32_t desc)
 805 {
 806     uintptr_t opr_sz = simd_oprsz(desc);
 807     float64 *d = vd, *n = vn, *m = vm, *a = va;
 808     float_status *fpst = vfpst;
 809     intptr_t flip = extract32(desc, SIMD_DATA_SHIFT, 1);
 810     uint64_t neg_imag = extract32(desc, SIMD_DATA_SHIFT + 1, 1);
 811     uint64_t neg_real = flip ^ neg_imag;
 812     uintptr_t i;
 813
 814     /* Shift boolean to the sign bit so we can xor to negate.  */
 815     neg_real <<= 63;
 816     neg_imag <<= 63;
 817
 818     for (i = 0; i < opr_sz / 8; i += 2) {
 819         float64 e2 = n[i + flip];
 820         float64 e1 = m[i + flip] ^ neg_real;
 821         float64 e4 = e2;
 822         float64 e3 = m[i + 1 - flip] ^ neg_imag;
 823
 824         d[i] = float64_muladd(e2, e1, a[i], 0, fpst);
 825         d[i + 1] = float64_muladd(e4, e3, a[i + 1], 0, fpst);
 826     }
 827     clear_tail(d, opr_sz, simd_maxsz(desc));
 828 }
 829
 830 /*
 831  * Floating point comparisons producing an integer result (all 1s or all 0s).
 832  * Note that EQ doesn't signal InvalidOp for QNaNs but GE and GT do.
 833  * Softfloat routines return 0/1, which we convert to the 0/-1 Neon requires.
 834  */
 835 static uint16_t float16_ceq(float16 op1, float16 op2, float_status *stat)
 836 {
 837     return -float16_eq_quiet(op1, op2, stat);
 838 }
 839
 840 static uint32_t float32_ceq(float32 op1, float32 op2, float_status *stat)
 841 {
 842     return -float32_eq_quiet(op1, op2, stat);
 843 }
 844
 845 static uint16_t float16_cge(float16 op1, float16 op2, float_status *stat)
 846 {
 847     return -float16_le(op2, op1, stat);
 848 }
 849
 850 static uint32_t float32_cge(float32 op1, float32 op2, float_status *stat)
 851 {
 852     return -float32_le(op2, op1, stat);
 853 }
 854
 855 static uint16_t float16_cgt(float16 op1, float16 op2, float_status *stat)
 856 {
 857     return -float16_lt(op2, op1, stat);
 858 }
 859
 860 static uint32_t float32_cgt(float32 op1, float32 op2, float_status *stat)
 861 {
 862     return -float32_lt(op2, op1, stat);
 863 }
 864
 865 static uint16_t float16_acge(float16 op1, float16 op2, float_status *stat)
 866 {
 867     return -float16_le(float16_abs(op2), float16_abs(op1), stat);
 868 }
 869
 870 static uint32_t float32_acge(float32 op1, float32 op2, float_status *stat)
 871 {
 872     return -float32_le(float32_abs(op2), float32_abs(op1), stat);
 873 }
 874
 875 static uint16_t float16_acgt(float16 op1, float16 op2, float_status *stat)
 876 {
 877     return -float16_lt(float16_abs(op2), float16_abs(op1), stat);
 878 }
 879
 880 static uint32_t float32_acgt(float32 op1, float32 op2, float_status *stat)
 881 {
 882     return -float32_lt(float32_abs(op2), float32_abs(op1), stat);
 883 }
 884
 885 static int16_t vfp_tosszh(float16 x, void *fpstp)
 886 {
 887     float_status *fpst = fpstp;
 888     if (float16_is_any_nan(x)) {
 889         float_raise(float_flag_invalid, fpst);
 890         return 0;
 891     }
 892     return float16_to_int16_round_to_zero(x, fpst);
 893 }
 894
 895 static uint16_t vfp_touszh(float16 x, void *fpstp)
 896 {
 897     float_status *fpst = fpstp;
 898     if (float16_is_any_nan(x)) {
 899         float_raise(float_flag_invalid, fpst);
 900         return 0;
 901     }
 902     return float16_to_uint16_round_to_zero(x, fpst);
 903 }
 904
 905 #define DO_2OP(NAME, FUNC, TYPE) \
 906 void HELPER(NAME)(void *vd, void *vn, void *stat, uint32_t desc)  \
 907 {                                                                 \
 908     intptr_t i, oprsz = simd_oprsz(desc);                         \
 909     TYPE *d = vd, *n = vn;                                        \
 910     for (i = 0; i < oprsz / sizeof(TYPE); i++) {                  \
 911         d[i] = FUNC(n[i], stat);                                  \
 912     }                                                             \
 913     clear_tail(d, oprsz, simd_maxsz(desc));                       \
 914 }
 915
 916 DO_2OP(gvec_frecpe_h, helper_recpe_f16, float16)
 917 DO_2OP(gvec_frecpe_s, helper_recpe_f32, float32)
 918 DO_2OP(gvec_frecpe_d, helper_recpe_f64, float64)
 919
 920 DO_2OP(gvec_frsqrte_h, helper_rsqrte_f16, float16)
 921 DO_2OP(gvec_frsqrte_s, helper_rsqrte_f32, float32)
 922 DO_2OP(gvec_frsqrte_d, helper_rsqrte_f64, float64)
 923
 924 DO_2OP(gvec_vrintx_h, float16_round_to_int, float16)
 925 DO_2OP(gvec_vrintx_s, float32_round_to_int, float32)
 926
 927 DO_2OP(gvec_sitos, helper_vfp_sitos, int32_t)
 928 DO_2OP(gvec_uitos, helper_vfp_uitos, uint32_t)
 929 DO_2OP(gvec_tosizs, helper_vfp_tosizs, float32)
 930 DO_2OP(gvec_touizs, helper_vfp_touizs, float32)
 931 DO_2OP(gvec_sstoh, int16_to_float16, int16_t)
 932 DO_2OP(gvec_ustoh, uint16_to_float16, uint16_t)
 933 DO_2OP(gvec_tosszh, vfp_tosszh, float16)
 934 DO_2OP(gvec_touszh, vfp_touszh, float16)
 935
 936 #define WRAP_CMP0_FWD(FN, CMPOP, TYPE)                          \
 937     static TYPE TYPE##_##FN##0(TYPE op, float_status *stat)     \
 938     {                                                           \
 939         return TYPE##_##CMPOP(op, TYPE##_zero, stat);           \
 940     }
 941
 942 #define WRAP_CMP0_REV(FN, CMPOP, TYPE)                          \
 943     static TYPE TYPE##_##FN##0(TYPE op, float_status *stat)    \
 944     {                                                           \
 945         return TYPE##_##CMPOP(TYPE##_zero, op, stat);           \
 946     }
 947
 948 #define DO_2OP_CMP0(FN, CMPOP, DIRN)                    \
 949     WRAP_CMP0_##DIRN(FN, CMPOP, float16)                \
 950     WRAP_CMP0_##DIRN(FN, CMPOP, float32)                \
 951     DO_2OP(gvec_f##FN##0_h, float16_##FN##0, float16)   \
 952     DO_2OP(gvec_f##FN##0_s, float32_##FN##0, float32)
 953
 954 DO_2OP_CMP0(cgt, cgt, FWD)
 955 DO_2OP_CMP0(cge, cge, FWD)
 956 DO_2OP_CMP0(ceq, ceq, FWD)
 957 DO_2OP_CMP0(clt, cgt, REV)
 958 DO_2OP_CMP0(cle, cge, REV)
 959
 960 #undef DO_2OP
 961 #undef DO_2OP_CMP0
 962
 963 /* Floating-point trigonometric starting value.
 964  * See the ARM ARM pseudocode function FPTrigSMul.
 965  */
 966 static float16 float16_ftsmul(float16 op1, uint16_t op2, float_status *stat)
 967 {
 968     float16 result = float16_mul(op1, op1, stat);
 969     if (!float16_is_any_nan(result)) {
 970         result = float16_set_sign(result, op2 & 1);
 971     }
 972     return result;
 973 }
 974
 975 static float32 float32_ftsmul(float32 op1, uint32_t op2, float_status *stat)
 976 {
 977     float32 result = float32_mul(op1, op1, stat);
 978     if (!float32_is_any_nan(result)) {
 979         result = float32_set_sign(result, op2 & 1);
 980     }
 981     return result;
 982 }
 983
 984 static float64 float64_ftsmul(float64 op1, uint64_t op2, float_status *stat)
 985 {
 986     float64 result = float64_mul(op1, op1, stat);
 987     if (!float64_is_any_nan(result)) {
 988         result = float64_set_sign(result, op2 & 1);
 989     }
 990     return result;
 991 }
 992
 993 static float16 float16_abd(float16 op1, float16 op2, float_status *stat)
 994 {
 995     return float16_abs(float16_sub(op1, op2, stat));
 996 }
 997
 998 static float32 float32_abd(float32 op1, float32 op2, float_status *stat)
 999 {
1000     return float32_abs(float32_sub(op1, op2, stat));
1001 }
1002
1003 /*
1004  * Reciprocal step. These are the AArch32 version which uses a
1005  * non-fused multiply-and-subtract.
1006  */
1007 static float16 float16_recps_nf(float16 op1, float16 op2, float_status *stat)
1008 {
1009     op1 = float16_squash_input_denormal(op1, stat);
1010     op2 = float16_squash_input_denormal(op2, stat);
1011
1012     if ((float16_is_infinity(op1) && float16_is_zero(op2)) ||
1013         (float16_is_infinity(op2) && float16_is_zero(op1))) {
1014         return float16_two;
1015     }
1016     return float16_sub(float16_two, float16_mul(op1, op2, stat), stat);
1017 }
1018
1019 static float32 float32_recps_nf(float32 op1, float32 op2, float_status *stat)
1020 {
1021     op1 = float32_squash_input_denormal(op1, stat);
1022     op2 = float32_squash_input_denormal(op2, stat);
1023
1024     if ((float32_is_infinity(op1) && float32_is_zero(op2)) ||
1025         (float32_is_infinity(op2) && float32_is_zero(op1))) {
1026         return float32_two;
1027     }
1028     return float32_sub(float32_two, float32_mul(op1, op2, stat), stat);
1029 }
1030
1031 /* Reciprocal square-root step. AArch32 non-fused semantics. */
1032 static float16 float16_rsqrts_nf(float16 op1, float16 op2, float_status *stat)
1033 {
1034     op1 = float16_squash_input_denormal(op1, stat);
1035     op2 = float16_squash_input_denormal(op2, stat);
1036
1037     if ((float16_is_infinity(op1) && float16_is_zero(op2)) ||
1038         (float16_is_infinity(op2) && float16_is_zero(op1))) {
1039         return float16_one_point_five;
1040     }
1041     op1 = float16_sub(float16_three, float16_mul(op1, op2, stat), stat);
1042     return float16_div(op1, float16_two, stat);
1043 }
1044
1045 static float32 float32_rsqrts_nf(float32 op1, float32 op2, float_status *stat)
1046 {
1047     op1 = float32_squash_input_denormal(op1, stat);
1048     op2 = float32_squash_input_denormal(op2, stat);
1049
1050     if ((float32_is_infinity(op1) && float32_is_zero(op2)) ||
1051         (float32_is_infinity(op2) && float32_is_zero(op1))) {
1052         return float32_one_point_five;
1053     }
1054     op1 = float32_sub(float32_three, float32_mul(op1, op2, stat), stat);
1055     return float32_div(op1, float32_two, stat);
1056 }
1057
1058 #define DO_3OP(NAME, FUNC, TYPE) \
1059 void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
1060 {                                                                          \
1061     intptr_t i, oprsz = simd_oprsz(desc);                                  \
1062     TYPE *d = vd, *n = vn, *m = vm;                                        \
1063     for (i = 0; i < oprsz / sizeof(TYPE); i++) {                           \
1064         d[i] = FUNC(n[i], m[i], stat);                                     \
1065     }                                                                      \
1066     clear_tail(d, oprsz, simd_maxsz(desc));                                \
1067 }
1068
1069 DO_3OP(gvec_fadd_h, float16_add, float16)
1070 DO_3OP(gvec_fadd_s, float32_add, float32)
1071 DO_3OP(gvec_fadd_d, float64_add, float64)
1072
1073 DO_3OP(gvec_fsub_h, float16_sub, float16)
1074 DO_3OP(gvec_fsub_s, float32_sub, float32)
1075 DO_3OP(gvec_fsub_d, float64_sub, float64)
1076
1077 DO_3OP(gvec_fmul_h, float16_mul, float16)
1078 DO_3OP(gvec_fmul_s, float32_mul, float32)
1079 DO_3OP(gvec_fmul_d, float64_mul, float64)
1080
1081 DO_3OP(gvec_ftsmul_h, float16_ftsmul, float16)
1082 DO_3OP(gvec_ftsmul_s, float32_ftsmul, float32)
1083 DO_3OP(gvec_ftsmul_d, float64_ftsmul, float64)
1084
1085 DO_3OP(gvec_fabd_h, float16_abd, float16)
1086 DO_3OP(gvec_fabd_s, float32_abd, float32)
1087
1088 DO_3OP(gvec_fceq_h, float16_ceq, float16)
1089 DO_3OP(gvec_fceq_s, float32_ceq, float32)
1090
1091 DO_3OP(gvec_fcge_h, float16_cge, float16)
1092 DO_3OP(gvec_fcge_s, float32_cge, float32)
1093
1094 DO_3OP(gvec_fcgt_h, float16_cgt, float16)
1095 DO_3OP(gvec_fcgt_s, float32_cgt, float32)
1096
1097 DO_3OP(gvec_facge_h, float16_acge, float16)
1098 DO_3OP(gvec_facge_s, float32_acge, float32)
1099
1100 DO_3OP(gvec_facgt_h, float16_acgt, float16)
1101 DO_3OP(gvec_facgt_s, float32_acgt, float32)
1102
1103 DO_3OP(gvec_fmax_h, float16_max, float16)
1104 DO_3OP(gvec_fmax_s, float32_max, float32)
1105
1106 DO_3OP(gvec_fmin_h, float16_min, float16)
1107 DO_3OP(gvec_fmin_s, float32_min, float32)
1108
1109 DO_3OP(gvec_fmaxnum_h, float16_maxnum, float16)
1110 DO_3OP(gvec_fmaxnum_s, float32_maxnum, float32)
1111
1112 DO_3OP(gvec_fminnum_h, float16_minnum, float16)
1113 DO_3OP(gvec_fminnum_s, float32_minnum, float32)
1114
1115 DO_3OP(gvec_recps_nf_h, float16_recps_nf, float16)
1116 DO_3OP(gvec_recps_nf_s, float32_recps_nf, float32)
1117
1118 DO_3OP(gvec_rsqrts_nf_h, float16_rsqrts_nf, float16)
1119 DO_3OP(gvec_rsqrts_nf_s, float32_rsqrts_nf, float32)
1120
1121 #ifdef TARGET_AARCH64
1122
1123 DO_3OP(gvec_recps_h, helper_recpsf_f16, float16)
1124 DO_3OP(gvec_recps_s, helper_recpsf_f32, float32)
1125 DO_3OP(gvec_recps_d, helper_recpsf_f64, float64)
1126
1127 DO_3OP(gvec_rsqrts_h, helper_rsqrtsf_f16, float16)
1128 DO_3OP(gvec_rsqrts_s, helper_rsqrtsf_f32, float32)
1129 DO_3OP(gvec_rsqrts_d, helper_rsqrtsf_f64, float64)
1130
1131 #endif
1132 #undef DO_3OP
1133
1134 /* Non-fused multiply-add (unlike float16_muladd etc, which are fused) */
1135 static float16 float16_muladd_nf(float16 dest, float16 op1, float16 op2,
1136                                  float_status *stat)
1137 {
1138     return float16_add(dest, float16_mul(op1, op2, stat), stat);
1139 }
1140
1141 static float32 float32_muladd_nf(float32 dest, float32 op1, float32 op2,
1142                                  float_status *stat)
1143 {
1144     return float32_add(dest, float32_mul(op1, op2, stat), stat);
1145 }
1146
1147 static float16 float16_mulsub_nf(float16 dest, float16 op1, float16 op2,
1148                                  float_status *stat)
1149 {
1150     return float16_sub(dest, float16_mul(op1, op2, stat), stat);
1151 }
1152
1153 static float32 float32_mulsub_nf(float32 dest, float32 op1, float32 op2,
1154                                  float_status *stat)
1155 {
1156     return float32_sub(dest, float32_mul(op1, op2, stat), stat);
1157 }
1158
1159 /* Fused versions; these have the semantics Neon VFMA/VFMS want */
1160 static float16 float16_muladd_f(float16 dest, float16 op1, float16 op2,
1161                                 float_status *stat)
1162 {
1163     return float16_muladd(op1, op2, dest, 0, stat);
1164 }
1165
1166 static float32 float32_muladd_f(float32 dest, float32 op1, float32 op2,
1167                                  float_status *stat)
1168 {
1169     return float32_muladd(op1, op2, dest, 0, stat);
1170 }
1171
1172 static float16 float16_mulsub_f(float16 dest, float16 op1, float16 op2,
1173                                  float_status *stat)
1174 {
1175     return float16_muladd(float16_chs(op1), op2, dest, 0, stat);
1176 }
1177
1178 static float32 float32_mulsub_f(float32 dest, float32 op1, float32 op2,
1179                                  float_status *stat)
1180 {
1181     return float32_muladd(float32_chs(op1), op2, dest, 0, stat);
1182 }
1183
1184 #define DO_MULADD(NAME, FUNC, TYPE)                                     \
1185 void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
1186 {                                                                          \
1187     intptr_t i, oprsz = simd_oprsz(desc);                                  \
1188     TYPE *d = vd, *n = vn, *m = vm;                                        \
1189     for (i = 0; i < oprsz / sizeof(TYPE); i++) {                           \
1190         d[i] = FUNC(d[i], n[i], m[i], stat);                               \
1191     }                                                                      \
1192     clear_tail(d, oprsz, simd_maxsz(desc));                                \
1193 }
1194
1195 DO_MULADD(gvec_fmla_h, float16_muladd_nf, float16)
1196 DO_MULADD(gvec_fmla_s, float32_muladd_nf, float32)
1197
1198 DO_MULADD(gvec_fmls_h, float16_mulsub_nf, float16)
1199 DO_MULADD(gvec_fmls_s, float32_mulsub_nf, float32)
1200
1201 DO_MULADD(gvec_vfma_h, float16_muladd_f, float16)
1202 DO_MULADD(gvec_vfma_s, float32_muladd_f, float32)
1203
1204 DO_MULADD(gvec_vfms_h, float16_mulsub_f, float16)
1205 DO_MULADD(gvec_vfms_s, float32_mulsub_f, float32)
1206
1207 /* For the indexed ops, SVE applies the index per 128-bit vector segment.
1208  * For AdvSIMD, there is of course only one such vector segment.
1209  */
1210
1211 #define DO_MUL_IDX(NAME, TYPE, H) \
1212 void HELPER(NAME)(void *vd, void *vn, void *vm, uint32_t desc) \
1213 {                                                                          \
1214     intptr_t i, j, oprsz = simd_oprsz(desc);                               \
1215     intptr_t segment = MIN(16, oprsz) / sizeof(TYPE);                      \
1216     intptr_t idx = simd_data(desc);                                        \
1217     TYPE *d = vd, *n = vn, *m = vm;                                        \
1218     for (i = 0; i < oprsz / sizeof(TYPE); i += segment) {                  \
1219         TYPE mm = m[H(i + idx)];                                           \
1220         for (j = 0; j < segment; j++) {                                    \
1221             d[i + j] = n[i + j] * mm;                                      \
1222         }                                                                  \
1223     }                                                                      \
1224     clear_tail(d, oprsz, simd_maxsz(desc));                                \
1225 }
1226
1227 DO_MUL_IDX(gvec_mul_idx_h, uint16_t, H2)
1228 DO_MUL_IDX(gvec_mul_idx_s, uint32_t, H4)
1229 DO_MUL_IDX(gvec_mul_idx_d, uint64_t, )
1230
1231 #undef DO_MUL_IDX
1232
1233 #define DO_MLA_IDX(NAME, TYPE, OP, H) \
1234 void HELPER(NAME)(void *vd, void *vn, void *vm, void *va, uint32_t desc)   \
1235 {                                                                          \
1236     intptr_t i, j, oprsz = simd_oprsz(desc);                               \
1237     intptr_t segment = MIN(16, oprsz) / sizeof(TYPE);                      \
1238     intptr_t idx = simd_data(desc);                                        \
1239     TYPE *d = vd, *n = vn, *m = vm, *a = va;                               \
1240     for (i = 0; i < oprsz / sizeof(TYPE); i += segment) {                  \
1241         TYPE mm = m[H(i + idx)];                                           \
1242         for (j = 0; j < segment; j++) {                                    \
1243             d[i + j] = a[i + j] OP n[i + j] * mm;                          \
1244         }                                                                  \
1245     }                                                                      \
1246     clear_tail(d, oprsz, simd_maxsz(desc));                                \
1247 }
1248
1249 DO_MLA_IDX(gvec_mla_idx_h, uint16_t, +, H2)
1250 DO_MLA_IDX(gvec_mla_idx_s, uint32_t, +, H4)
1251 DO_MLA_IDX(gvec_mla_idx_d, uint64_t, +,   )
1252
1253 DO_MLA_IDX(gvec_mls_idx_h, uint16_t, -, H2)
1254 DO_MLA_IDX(gvec_mls_idx_s, uint32_t, -, H4)
1255 DO_MLA_IDX(gvec_mls_idx_d, uint64_t, -,   )
1256
1257 #undef DO_MLA_IDX
1258
1259 #define DO_FMUL_IDX(NAME, ADD, TYPE, H)                                    \
1260 void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
1261 {                                                                          \
1262     intptr_t i, j, oprsz = simd_oprsz(desc);                               \
1263     intptr_t segment = MIN(16, oprsz) / sizeof(TYPE);                      \
1264     intptr_t idx = simd_data(desc);                                        \
1265     TYPE *d = vd, *n = vn, *m = vm;                                        \
1266     for (i = 0; i < oprsz / sizeof(TYPE); i += segment) {                  \
1267         TYPE mm = m[H(i + idx)];                                           \
1268         for (j = 0; j < segment; j++) {                                    \
1269             d[i + j] = TYPE##_##ADD(d[i + j],                              \
1270                                     TYPE##_mul(n[i + j], mm, stat), stat); \
1271         }                                                                  \
1272     }                                                                      \
1273     clear_tail(d, oprsz, simd_maxsz(desc));                                \
1274 }
1275
1276 #define float16_nop(N, M, S) (M)
1277 #define float32_nop(N, M, S) (M)
1278 #define float64_nop(N, M, S) (M)
1279
1280 DO_FMUL_IDX(gvec_fmul_idx_h, nop, float16, H2)
1281 DO_FMUL_IDX(gvec_fmul_idx_s, nop, float32, H4)
1282 DO_FMUL_IDX(gvec_fmul_idx_d, nop, float64, )
1283
1284 /*
1285  * Non-fused multiply-accumulate operations, for Neon. NB that unlike
1286  * the fused ops below they assume accumulate both from and into Vd.
1287  */
1288 DO_FMUL_IDX(gvec_fmla_nf_idx_h, add, float16, H2)
1289 DO_FMUL_IDX(gvec_fmla_nf_idx_s, add, float32, H4)
1290 DO_FMUL_IDX(gvec_fmls_nf_idx_h, sub, float16, H2)
1291 DO_FMUL_IDX(gvec_fmls_nf_idx_s, sub, float32, H4)
1292
1293 #undef float16_nop
1294 #undef float32_nop
1295 #undef float64_nop
1296 #undef DO_FMUL_IDX
1297
1298 #define DO_FMLA_IDX(NAME, TYPE, H)                                         \
1299 void HELPER(NAME)(void *vd, void *vn, void *vm, void *va,                  \
1300                   void *stat, uint32_t desc)                               \
1301 {                                                                          \
1302     intptr_t i, j, oprsz = simd_oprsz(desc);                               \
1303     intptr_t segment = MIN(16, oprsz) / sizeof(TYPE);                      \
1304     TYPE op1_neg = extract32(desc, SIMD_DATA_SHIFT, 1);                    \
1305     intptr_t idx = desc >> (SIMD_DATA_SHIFT + 1);                          \
1306     TYPE *d = vd, *n = vn, *m = vm, *a = va;                               \
1307     op1_neg <<= (8 * sizeof(TYPE) - 1);                                    \
1308     for (i = 0; i < oprsz / sizeof(TYPE); i += segment) {                  \
1309         TYPE mm = m[H(i + idx)];                                           \
1310         for (j = 0; j < segment; j++) {                                    \
1311             d[i + j] = TYPE##_muladd(n[i + j] ^ op1_neg,                   \
1312                                      mm, a[i + j], 0, stat);               \
1313         }                                                                  \
1314     }                                                                      \
1315     clear_tail(d, oprsz, simd_maxsz(desc));                                \
1316 }
1317
1318 DO_FMLA_IDX(gvec_fmla_idx_h, float16, H2)
1319 DO_FMLA_IDX(gvec_fmla_idx_s, float32, H4)
1320 DO_FMLA_IDX(gvec_fmla_idx_d, float64, )
1321
1322 #undef DO_FMLA_IDX
1323
1324 #define DO_SAT(NAME, WTYPE, TYPEN, TYPEM, OP, MIN, MAX) \
1325 void HELPER(NAME)(void *vd, void *vq, void *vn, void *vm, uint32_t desc)   \
1326 {                                                                          \
1327     intptr_t i, oprsz = simd_oprsz(desc);                                  \
1328     TYPEN *d = vd, *n = vn; TYPEM *m = vm;                                 \
1329     bool q = false;                                                        \
1330     for (i = 0; i < oprsz / sizeof(TYPEN); i++) {                          \
1331         WTYPE dd = (WTYPE)n[i] OP m[i];                                    \
1332         if (dd < MIN) {                                                    \
1333             dd = MIN;                                                      \
1334             q = true;                                                      \
1335         } else if (dd > MAX) {                                             \
1336             dd = MAX;                                                      \
1337             q = true;                                                      \
1338         }                                                                  \
1339         d[i] = dd;                                                         \
1340     }                                                                      \
1341     if (q) {                                                               \
1342         uint32_t *qc = vq;                                                 \
1343         qc[0] = 1;                                                         \
1344     }                                                                      \
1345     clear_tail(d, oprsz, simd_maxsz(desc));                                \
1346 }
1347
1348 DO_SAT(gvec_uqadd_b, int, uint8_t, uint8_t, +, 0, UINT8_MAX)
1349 DO_SAT(gvec_uqadd_h, int, uint16_t, uint16_t, +, 0, UINT16_MAX)
1350 DO_SAT(gvec_uqadd_s, int64_t, uint32_t, uint32_t, +, 0, UINT32_MAX)
1351
1352 DO_SAT(gvec_sqadd_b, int, int8_t, int8_t, +, INT8_MIN, INT8_MAX)
1353 DO_SAT(gvec_sqadd_h, int, int16_t, int16_t, +, INT16_MIN, INT16_MAX)
1354 DO_SAT(gvec_sqadd_s, int64_t, int32_t, int32_t, +, INT32_MIN, INT32_MAX)
1355
1356 DO_SAT(gvec_uqsub_b, int, uint8_t, uint8_t, -, 0, UINT8_MAX)
1357 DO_SAT(gvec_uqsub_h, int, uint16_t, uint16_t, -, 0, UINT16_MAX)
1358 DO_SAT(gvec_uqsub_s, int64_t, uint32_t, uint32_t, -, 0, UINT32_MAX)
1359
1360 DO_SAT(gvec_sqsub_b, int, int8_t, int8_t, -, INT8_MIN, INT8_MAX)
1361 DO_SAT(gvec_sqsub_h, int, int16_t, int16_t, -, INT16_MIN, INT16_MAX)
1362 DO_SAT(gvec_sqsub_s, int64_t, int32_t, int32_t, -, INT32_MIN, INT32_MAX)
1363
1364 #undef DO_SAT
1365
1366 void HELPER(gvec_uqadd_d)(void *vd, void *vq, void *vn,
1367                           void *vm, uint32_t desc)
1368 {
1369     intptr_t i, oprsz = simd_oprsz(desc);
1370     uint64_t *d = vd, *n = vn, *m = vm;
1371     bool q = false;
1372
1373     for (i = 0; i < oprsz / 8; i++) {
1374         uint64_t nn = n[i], mm = m[i], dd = nn + mm;
1375         if (dd < nn) {
1376             dd = UINT64_MAX;
1377             q = true;
1378         }
1379         d[i] = dd;
1380     }
1381     if (q) {
1382         uint32_t *qc = vq;
1383         qc[0] = 1;
1384     }
1385     clear_tail(d, oprsz, simd_maxsz(desc));
1386 }
1387
1388 void HELPER(gvec_uqsub_d)(void *vd, void *vq, void *vn,
1389                           void *vm, uint32_t desc)
1390 {
1391     intptr_t i, oprsz = simd_oprsz(desc);
1392     uint64_t *d = vd, *n = vn, *m = vm;
1393     bool q = false;
1394
1395     for (i = 0; i < oprsz / 8; i++) {
1396         uint64_t nn = n[i], mm = m[i], dd = nn - mm;
1397         if (nn < mm) {
1398             dd = 0;
1399             q = true;
1400         }
1401         d[i] = dd;
1402     }
1403     if (q) {
1404         uint32_t *qc = vq;
1405         qc[0] = 1;
1406     }
1407     clear_tail(d, oprsz, simd_maxsz(desc));
1408 }
1409
1410 void HELPER(gvec_sqadd_d)(void *vd, void *vq, void *vn,
1411                           void *vm, uint32_t desc)
1412 {
1413     intptr_t i, oprsz = simd_oprsz(desc);
1414     int64_t *d = vd, *n = vn, *m = vm;
1415     bool q = false;
1416
1417     for (i = 0; i < oprsz / 8; i++) {
1418         int64_t nn = n[i], mm = m[i], dd = nn + mm;
1419         if (((dd ^ nn) & ~(nn ^ mm)) & INT64_MIN) {
1420             dd = (nn >> 63) ^ ~INT64_MIN;
1421             q = true;
1422         }
1423         d[i] = dd;
1424     }
1425     if (q) {
1426         uint32_t *qc = vq;
1427         qc[0] = 1;
1428     }
1429     clear_tail(d, oprsz, simd_maxsz(desc));
1430 }
1431
1432 void HELPER(gvec_sqsub_d)(void *vd, void *vq, void *vn,
1433                           void *vm, uint32_t desc)
1434 {
1435     intptr_t i, oprsz = simd_oprsz(desc);
1436     int64_t *d = vd, *n = vn, *m = vm;
1437     bool q = false;
1438
1439     for (i = 0; i < oprsz / 8; i++) {
1440         int64_t nn = n[i], mm = m[i], dd = nn - mm;
1441         if (((dd ^ nn) & (nn ^ mm)) & INT64_MIN) {
1442             dd = (nn >> 63) ^ ~INT64_MIN;
1443             q = true;
1444         }
1445         d[i] = dd;
1446     }
1447     if (q) {
1448         uint32_t *qc = vq;
1449         qc[0] = 1;
1450     }
1451     clear_tail(d, oprsz, simd_maxsz(desc));
1452 }
1453
1454
1455 #define DO_SRA(NAME, TYPE)                              \
1456 void HELPER(NAME)(void *vd, void *vn, uint32_t desc)    \
1457 {                                                       \
1458     intptr_t i, oprsz = simd_oprsz(desc);               \
1459     int shift = simd_data(desc);                        \
1460     TYPE *d = vd, *n = vn;                              \
1461     for (i = 0; i < oprsz / sizeof(TYPE); i++) {        \
1462         d[i] += n[i] >> shift;                          \
1463     }                                                   \
1464     clear_tail(d, oprsz, simd_maxsz(desc));             \
1465 }
1466
1467 DO_SRA(gvec_ssra_b, int8_t)
1468 DO_SRA(gvec_ssra_h, int16_t)
1469 DO_SRA(gvec_ssra_s, int32_t)
1470 DO_SRA(gvec_ssra_d, int64_t)
1471
1472 DO_SRA(gvec_usra_b, uint8_t)
1473 DO_SRA(gvec_usra_h, uint16_t)
1474 DO_SRA(gvec_usra_s, uint32_t)
1475 DO_SRA(gvec_usra_d, uint64_t)
1476
1477 #undef DO_SRA
1478
1479 #define DO_RSHR(NAME, TYPE)                             \
1480 void HELPER(NAME)(void *vd, void *vn, uint32_t desc)    \
1481 {                                                       \
1482     intptr_t i, oprsz = simd_oprsz(desc);               \
1483     int shift = simd_data(desc);                        \
1484     TYPE *d = vd, *n = vn;                              \
1485     for (i = 0; i < oprsz / sizeof(TYPE); i++) {        \
1486         TYPE tmp = n[i] >> (shift - 1);                 \
1487         d[i] = (tmp >> 1) + (tmp & 1);                  \
1488     }                                                   \
1489     clear_tail(d, oprsz, simd_maxsz(desc));             \
1490 }
1491
1492 DO_RSHR(gvec_srshr_b, int8_t)
1493 DO_RSHR(gvec_srshr_h, int16_t)
1494 DO_RSHR(gvec_srshr_s, int32_t)
1495 DO_RSHR(gvec_srshr_d, int64_t)
1496
1497 DO_RSHR(gvec_urshr_b, uint8_t)
1498 DO_RSHR(gvec_urshr_h, uint16_t)
1499 DO_RSHR(gvec_urshr_s, uint32_t)
1500 DO_RSHR(gvec_urshr_d, uint64_t)
1501
1502 #undef DO_RSHR
1503
1504 #define DO_RSRA(NAME, TYPE)                             \
1505 void HELPER(NAME)(void *vd, void *vn, uint32_t desc)    \
1506 {                                                       \
1507     intptr_t i, oprsz = simd_oprsz(desc);               \
1508     int shift = simd_data(desc);                        \
1509     TYPE *d = vd, *n = vn;                              \
1510     for (i = 0; i < oprsz / sizeof(TYPE); i++) {        \
1511         TYPE tmp = n[i] >> (shift - 1);                 \
1512         d[i] += (tmp >> 1) + (tmp & 1);                 \
1513     }                                                   \
1514     clear_tail(d, oprsz, simd_maxsz(desc));             \
1515 }
1516
1517 DO_RSRA(gvec_srsra_b, int8_t)
1518 DO_RSRA(gvec_srsra_h, int16_t)
1519 DO_RSRA(gvec_srsra_s, int32_t)
1520 DO_RSRA(gvec_srsra_d, int64_t)
1521
1522 DO_RSRA(gvec_ursra_b, uint8_t)
1523 DO_RSRA(gvec_ursra_h, uint16_t)
1524 DO_RSRA(gvec_ursra_s, uint32_t)
1525 DO_RSRA(gvec_ursra_d, uint64_t)
1526
1527 #undef DO_RSRA
1528
1529 #define DO_SRI(NAME, TYPE)                              \
1530 void HELPER(NAME)(void *vd, void *vn, uint32_t desc)    \
1531 {                                                       \
1532     intptr_t i, oprsz = simd_oprsz(desc);               \
1533     int shift = simd_data(desc);                        \
1534     TYPE *d = vd, *n = vn;                              \
1535     for (i = 0; i < oprsz / sizeof(TYPE); i++) {        \
1536         d[i] = deposit64(d[i], 0, sizeof(TYPE) * 8 - shift, n[i] >> shift); \
1537     }                                                   \
1538     clear_tail(d, oprsz, simd_maxsz(desc));             \
1539 }
1540
1541 DO_SRI(gvec_sri_b, uint8_t)
1542 DO_SRI(gvec_sri_h, uint16_t)
1543 DO_SRI(gvec_sri_s, uint32_t)
1544 DO_SRI(gvec_sri_d, uint64_t)
1545
1546 #undef DO_SRI
1547
1548 #define DO_SLI(NAME, TYPE)                              \
1549 void HELPER(NAME)(void *vd, void *vn, uint32_t desc)    \
1550 {                                                       \
1551     intptr_t i, oprsz = simd_oprsz(desc);               \
1552     int shift = simd_data(desc);                        \
1553     TYPE *d = vd, *n = vn;                              \
1554     for (i = 0; i < oprsz / sizeof(TYPE); i++) {        \
1555         d[i] = deposit64(d[i], shift, sizeof(TYPE) * 8 - shift, n[i]); \
1556     }                                                   \
1557     clear_tail(d, oprsz, simd_maxsz(desc));             \
1558 }
1559
1560 DO_SLI(gvec_sli_b, uint8_t)
1561 DO_SLI(gvec_sli_h, uint16_t)
1562 DO_SLI(gvec_sli_s, uint32_t)
1563 DO_SLI(gvec_sli_d, uint64_t)
1564
1565 #undef DO_SLI
1566
1567 /*
1568  * Convert float16 to float32, raising no exceptions and
1569  * preserving exceptional values, including SNaN.
1570  * This is effectively an unpack+repack operation.
1571  */
1572 static float32 float16_to_float32_by_bits(uint32_t f16, bool fz16)
1573 {
1574     const int f16_bias = 15;
1575     const int f32_bias = 127;
1576     uint32_t sign = extract32(f16, 15, 1);
1577     uint32_t exp = extract32(f16, 10, 5);
1578     uint32_t frac = extract32(f16, 0, 10);
1579
1580     if (exp == 0x1f) {
1581         /* Inf or NaN */
1582         exp = 0xff;
1583     } else if (exp == 0) {
1584         /* Zero or denormal.  */
1585         if (frac != 0) {
1586             if (fz16) {
1587                 frac = 0;
1588             } else {
1589                 /*
1590                  * Denormal; these are all normal float32.
1591                  * Shift the fraction so that the msb is at bit 11,
1592                  * then remove bit 11 as the implicit bit of the
1593                  * normalized float32.  Note that we still go through
1594                  * the shift for normal numbers below, to put the
1595                  * float32 fraction at the right place.
1596                  */
1597                 int shift = clz32(frac) - 21;
1598                 frac = (frac << shift) & 0x3ff;
1599                 exp = f32_bias - f16_bias - shift + 1;
1600             }
1601         }
1602     } else {
1603         /* Normal number; adjust the bias.  */
1604         exp += f32_bias - f16_bias;
1605     }
1606     sign <<= 31;
1607     exp <<= 23;
1608     frac <<= 23 - 10;
1609
1610     return sign | exp | frac;
1611 }
1612
1613 static uint64_t load4_f16(uint64_t *ptr, int is_q, int is_2)
1614 {
1615     /*
1616      * Branchless load of u32[0], u64[0], u32[1], or u64[1].
1617      * Load the 2nd qword iff is_q & is_2.
1618      * Shift to the 2nd dword iff !is_q & is_2.
1619      * For !is_q & !is_2, the upper bits of the result are garbage.
1620      */
1621     return ptr[is_q & is_2] >> ((is_2 & ~is_q) << 5);
1622 }
1623
1624 /*
1625  * Note that FMLAL requires oprsz == 8 or oprsz == 16,
1626  * as there is not yet SVE versions that might use blocking.
1627  */
1628
1629 static void do_fmlal(float32 *d, void *vn, void *vm, float_status *fpst,
1630                      uint32_t desc, bool fz16)
1631 {
1632     intptr_t i, oprsz = simd_oprsz(desc);
1633     int is_s = extract32(desc, SIMD_DATA_SHIFT, 1);
1634     int is_2 = extract32(desc, SIMD_DATA_SHIFT + 1, 1);
1635     int is_q = oprsz == 16;
1636     uint64_t n_4, m_4;
1637
1638     /* Pre-load all of the f16 data, avoiding overlap issues.  */
1639     n_4 = load4_f16(vn, is_q, is_2);
1640     m_4 = load4_f16(vm, is_q, is_2);
1641
1642     /* Negate all inputs for FMLSL at once.  */
1643     if (is_s) {
1644         n_4 ^= 0x8000800080008000ull;
1645     }
1646
1647     for (i = 0; i < oprsz / 4; i++) {
1648         float32 n_1 = float16_to_float32_by_bits(n_4 >> (i * 16), fz16);
1649         float32 m_1 = float16_to_float32_by_bits(m_4 >> (i * 16), fz16);
1650         d[H4(i)] = float32_muladd(n_1, m_1, d[H4(i)], 0, fpst);
1651     }
1652     clear_tail(d, oprsz, simd_maxsz(desc));
1653 }
1654
1655 void HELPER(gvec_fmlal_a32)(void *vd, void *vn, void *vm,
1656                             void *venv, uint32_t desc)
1657 {
1658     CPUARMState *env = venv;
1659     do_fmlal(vd, vn, vm, &env->vfp.standard_fp_status, desc,
1660              get_flush_inputs_to_zero(&env->vfp.fp_status_f16));
1661 }
1662
1663 void HELPER(gvec_fmlal_a64)(void *vd, void *vn, void *vm,
1664                             void *venv, uint32_t desc)
1665 {
1666     CPUARMState *env = venv;
1667     do_fmlal(vd, vn, vm, &env->vfp.fp_status, desc,
1668              get_flush_inputs_to_zero(&env->vfp.fp_status_f16));
1669 }
1670
1671 void HELPER(sve2_fmlal_zzzw_s)(void *vd, void *vn, void *vm, void *va,
1672                                void *venv, uint32_t desc)
1673 {
1674     intptr_t i, oprsz = simd_oprsz(desc);
1675     uint16_t negn = extract32(desc, SIMD_DATA_SHIFT, 1) << 15;
1676     intptr_t sel = extract32(desc, SIMD_DATA_SHIFT + 1, 1) * sizeof(float16);
1677     CPUARMState *env = venv;
1678     float_status *status = &env->vfp.fp_status;
1679     bool fz16 = get_flush_inputs_to_zero(&env->vfp.fp_status_f16);
1680
1681     for (i = 0; i < oprsz; i += sizeof(float32)) {
1682         float16 nn_16 = *(float16 *)(vn + H1_2(i + sel)) ^ negn;
1683         float16 mm_16 = *(float16 *)(vm + H1_2(i + sel));
1684         float32 nn = float16_to_float32_by_bits(nn_16, fz16);
1685         float32 mm = float16_to_float32_by_bits(mm_16, fz16);
1686         float32 aa = *(float32 *)(va + H1_4(i));
1687
1688         *(float32 *)(vd + H1_4(i)) = float32_muladd(nn, mm, aa, 0, status);
1689     }
1690 }
1691
1692 static void do_fmlal_idx(float32 *d, void *vn, void *vm, float_status *fpst,
1693                          uint32_t desc, bool fz16)
1694 {
1695     intptr_t i, oprsz = simd_oprsz(desc);
1696     int is_s = extract32(desc, SIMD_DATA_SHIFT, 1);
1697     int is_2 = extract32(desc, SIMD_DATA_SHIFT + 1, 1);
1698     int index = extract32(desc, SIMD_DATA_SHIFT + 2, 3);
1699     int is_q = oprsz == 16;
1700     uint64_t n_4;
1701     float32 m_1;
1702
1703     /* Pre-load all of the f16 data, avoiding overlap issues.  */
1704     n_4 = load4_f16(vn, is_q, is_2);
1705
1706     /* Negate all inputs for FMLSL at once.  */
1707     if (is_s) {
1708         n_4 ^= 0x8000800080008000ull;
1709     }
1710
1711     m_1 = float16_to_float32_by_bits(((float16 *)vm)[H2(index)], fz16);
1712
1713     for (i = 0; i < oprsz / 4; i++) {
1714         float32 n_1 = float16_to_float32_by_bits(n_4 >> (i * 16), fz16);
1715         d[H4(i)] = float32_muladd(n_1, m_1, d[H4(i)], 0, fpst);
1716     }
1717     clear_tail(d, oprsz, simd_maxsz(desc));
1718 }
1719
1720 void HELPER(gvec_fmlal_idx_a32)(void *vd, void *vn, void *vm,
1721                                 void *venv, uint32_t desc)
1722 {
1723     CPUARMState *env = venv;
1724     do_fmlal_idx(vd, vn, vm, &env->vfp.standard_fp_status, desc,
1725                  get_flush_inputs_to_zero(&env->vfp.fp_status_f16));
1726 }
1727
1728 void HELPER(gvec_fmlal_idx_a64)(void *vd, void *vn, void *vm,
1729                                 void *venv, uint32_t desc)
1730 {
1731     CPUARMState *env = venv;
1732     do_fmlal_idx(vd, vn, vm, &env->vfp.fp_status, desc,
1733                  get_flush_inputs_to_zero(&env->vfp.fp_status_f16));
1734 }
1735
1736 void HELPER(sve2_fmlal_zzxw_s)(void *vd, void *vn, void *vm, void *va,
1737                                void *venv, uint32_t desc)
1738 {
1739     intptr_t i, j, oprsz = simd_oprsz(desc);
1740     uint16_t negn = extract32(desc, SIMD_DATA_SHIFT, 1) << 15;
1741     intptr_t sel = extract32(desc, SIMD_DATA_SHIFT + 1, 1) * sizeof(float16);
1742     intptr_t idx = extract32(desc, SIMD_DATA_SHIFT + 2, 3) * sizeof(float16);
1743     CPUARMState *env = venv;
1744     float_status *status = &env->vfp.fp_status;
1745     bool fz16 = get_flush_inputs_to_zero(&env->vfp.fp_status_f16);
1746
1747     for (i = 0; i < oprsz; i += 16) {
1748         float16 mm_16 = *(float16 *)(vm + i + idx);
1749         float32 mm = float16_to_float32_by_bits(mm_16, fz16);
1750
1751         for (j = 0; j < 16; j += sizeof(float32)) {
1752             float16 nn_16 = *(float16 *)(vn + H1_2(i + j + sel)) ^ negn;
1753             float32 nn = float16_to_float32_by_bits(nn_16, fz16);
1754             float32 aa = *(float32 *)(va + H1_4(i + j));
1755
1756             *(float32 *)(vd + H1_4(i + j)) =
1757                 float32_muladd(nn, mm, aa, 0, status);
1758         }
1759     }
1760 }
1761
1762 void HELPER(gvec_sshl_b)(void *vd, void *vn, void *vm, uint32_t desc)
1763 {
1764     intptr_t i, opr_sz = simd_oprsz(desc);
1765     int8_t *d = vd, *n = vn, *m = vm;
1766
1767     for (i = 0; i < opr_sz; ++i) {
1768         int8_t mm = m[i];
1769         int8_t nn = n[i];
1770         int8_t res = 0;
1771         if (mm >= 0) {
1772             if (mm < 8) {
1773                 res = nn << mm;
1774             }
1775         } else {
1776             res = nn >> (mm > -8 ? -mm : 7);
1777         }
1778         d[i] = res;
1779     }
1780     clear_tail(d, opr_sz, simd_maxsz(desc));
1781 }
1782
1783 void HELPER(gvec_sshl_h)(void *vd, void *vn, void *vm, uint32_t desc)
1784 {
1785     intptr_t i, opr_sz = simd_oprsz(desc);
1786     int16_t *d = vd, *n = vn, *m = vm;
1787
1788     for (i = 0; i < opr_sz / 2; ++i) {
1789         int8_t mm = m[i];   /* only 8 bits of shift are significant */
1790         int16_t nn = n[i];
1791         int16_t res = 0;
1792         if (mm >= 0) {
1793             if (mm < 16) {
1794                 res = nn << mm;
1795             }
1796         } else {
1797             res = nn >> (mm > -16 ? -mm : 15);
1798         }
1799         d[i] = res;
1800     }
1801     clear_tail(d, opr_sz, simd_maxsz(desc));
1802 }
1803
1804 void HELPER(gvec_ushl_b)(void *vd, void *vn, void *vm, uint32_t desc)
1805 {
1806     intptr_t i, opr_sz = simd_oprsz(desc);
1807     uint8_t *d = vd, *n = vn, *m = vm;
1808
1809     for (i = 0; i < opr_sz; ++i) {
1810         int8_t mm = m[i];
1811         uint8_t nn = n[i];
1812         uint8_t res = 0;
1813         if (mm >= 0) {
1814             if (mm < 8) {
1815                 res = nn << mm;
1816             }
1817         } else {
1818             if (mm > -8) {
1819                 res = nn >> -mm;
1820             }
1821         }
1822         d[i] = res;
1823     }
1824     clear_tail(d, opr_sz, simd_maxsz(desc));
1825 }
1826
1827 void HELPER(gvec_ushl_h)(void *vd, void *vn, void *vm, uint32_t desc)
1828 {
1829     intptr_t i, opr_sz = simd_oprsz(desc);
1830     uint16_t *d = vd, *n = vn, *m = vm;
1831
1832     for (i = 0; i < opr_sz / 2; ++i) {
1833         int8_t mm = m[i];   /* only 8 bits of shift are significant */
1834         uint16_t nn = n[i];
1835         uint16_t res = 0;
1836         if (mm >= 0) {
1837             if (mm < 16) {
1838                 res = nn << mm;
1839             }
1840         } else {
1841             if (mm > -16) {
1842                 res = nn >> -mm;
1843             }
1844         }
1845         d[i] = res;
1846     }
1847     clear_tail(d, opr_sz, simd_maxsz(desc));
1848 }
1849
1850 /*
1851  * 8x8->8 polynomial multiply.
1852  *
1853  * Polynomial multiplication is like integer multiplication except the
1854  * partial products are XORed, not added.
1855  *
1856  * TODO: expose this as a generic vector operation, as it is a common
1857  * crypto building block.
1858  */
1859 void HELPER(gvec_pmul_b)(void *vd, void *vn, void *vm, uint32_t desc)
1860 {
1861     intptr_t i, j, opr_sz = simd_oprsz(desc);
1862     uint64_t *d = vd, *n = vn, *m = vm;
1863
1864     for (i = 0; i < opr_sz / 8; ++i) {
1865         uint64_t nn = n[i];
1866         uint64_t mm = m[i];
1867         uint64_t rr = 0;
1868
1869         for (j = 0; j < 8; ++j) {
1870             uint64_t mask = (nn & 0x0101010101010101ull) * 0xff;
1871             rr ^= mm & mask;
1872             mm = (mm << 1) & 0xfefefefefefefefeull;
1873             nn >>= 1;
1874         }
1875         d[i] = rr;
1876     }
1877     clear_tail(d, opr_sz, simd_maxsz(desc));
1878 }
1879
1880 /*
1881  * 64x64->128 polynomial multiply.
1882  * Because of the lanes are not accessed in strict columns,
1883  * this probably cannot be turned into a generic helper.
1884  */
1885 void HELPER(gvec_pmull_q)(void *vd, void *vn, void *vm, uint32_t desc)
1886 {
1887     intptr_t i, j, opr_sz = simd_oprsz(desc);
1888     intptr_t hi = simd_data(desc);
1889     uint64_t *d = vd, *n = vn, *m = vm;
1890
1891     for (i = 0; i < opr_sz / 8; i += 2) {
1892         uint64_t nn = n[i + hi];
1893         uint64_t mm = m[i + hi];
1894         uint64_t rhi = 0;
1895         uint64_t rlo = 0;
1896
1897         /* Bit 0 can only influence the low 64-bit result.  */
1898         if (nn & 1) {
1899             rlo = mm;
1900         }
1901
1902         for (j = 1; j < 64; ++j) {
1903             uint64_t mask = -((nn >> j) & 1);
1904             rlo ^= (mm << j) & mask;
1905             rhi ^= (mm >> (64 - j)) & mask;
1906         }
1907         d[i] = rlo;
1908         d[i + 1] = rhi;
1909     }
1910     clear_tail(d, opr_sz, simd_maxsz(desc));
1911 }
1912
1913 /*
1914  * 8x8->16 polynomial multiply.
1915  *
1916  * The byte inputs are expanded to (or extracted from) half-words.
1917  * Note that neon and sve2 get the inputs from different positions.
1918  * This allows 4 bytes to be processed in parallel with uint64_t.
1919  */
1920
1921 static uint64_t expand_byte_to_half(uint64_t x)
1922 {
1923     return  (x & 0x000000ff)
1924          | ((x & 0x0000ff00) << 8)
1925          | ((x & 0x00ff0000) << 16)
1926          | ((x & 0xff000000) << 24);
1927 }
1928
1929 static uint64_t pmull_h(uint64_t op1, uint64_t op2)
1930 {
1931     uint64_t result = 0;
1932     int i;
1933
1934     for (i = 0; i < 8; ++i) {
1935         uint64_t mask = (op1 & 0x0001000100010001ull) * 0xffff;
1936         result ^= op2 & mask;
1937         op1 >>= 1;
1938         op2 <<= 1;
1939     }
1940     return result;
1941 }
1942
1943 void HELPER(neon_pmull_h)(void *vd, void *vn, void *vm, uint32_t desc)
1944 {
1945     int hi = simd_data(desc);
1946     uint64_t *d = vd, *n = vn, *m = vm;
1947     uint64_t nn = n[hi], mm = m[hi];
1948
1949     d[0] = pmull_h(expand_byte_to_half(nn), expand_byte_to_half(mm));
1950     nn >>= 32;
1951     mm >>= 32;
1952     d[1] = pmull_h(expand_byte_to_half(nn), expand_byte_to_half(mm));
1953
1954     clear_tail(d, 16, simd_maxsz(desc));
1955 }
1956
1957 #ifdef TARGET_AARCH64
1958 void HELPER(sve2_pmull_h)(void *vd, void *vn, void *vm, uint32_t desc)
1959 {
1960     int shift = simd_data(desc) * 8;
1961     intptr_t i, opr_sz = simd_oprsz(desc);
1962     uint64_t *d = vd, *n = vn, *m = vm;
1963
1964     for (i = 0; i < opr_sz / 8; ++i) {
1965         uint64_t nn = (n[i] >> shift) & 0x00ff00ff00ff00ffull;
1966         uint64_t mm = (m[i] >> shift) & 0x00ff00ff00ff00ffull;
1967
1968         d[i] = pmull_h(nn, mm);
1969     }
1970 }
1971
1972 static uint64_t pmull_d(uint64_t op1, uint64_t op2)
1973 {
1974     uint64_t result = 0;
1975     int i;
1976
1977     for (i = 0; i < 32; ++i) {
1978         uint64_t mask = -((op1 >> i) & 1);
1979         result ^= (op2 << i) & mask;
1980     }
1981     return result;
1982 }
1983
1984 void HELPER(sve2_pmull_d)(void *vd, void *vn, void *vm, uint32_t desc)
1985 {
1986     intptr_t sel = H4(simd_data(desc));
1987     intptr_t i, opr_sz = simd_oprsz(desc);
1988     uint32_t *n = vn, *m = vm;
1989     uint64_t *d = vd;
1990
1991     for (i = 0; i < opr_sz / 8; ++i) {
1992         d[i] = pmull_d(n[2 * i + sel], m[2 * i + sel]);
1993     }
1994 }
1995 #endif
1996
1997 #define DO_CMP0(NAME, TYPE, OP)                         \
1998 void HELPER(NAME)(void *vd, void *vn, uint32_t desc)    \
1999 {                                                       \
2000     intptr_t i, opr_sz = simd_oprsz(desc);              \
2001     for (i = 0; i < opr_sz; i += sizeof(TYPE)) {        \
2002         TYPE nn = *(TYPE *)(vn + i);                    \
2003         *(TYPE *)(vd + i) = -(nn OP 0);                 \
2004     }                                                   \
2005     clear_tail(vd, opr_sz, simd_maxsz(desc));           \
2006 }
2007
2008 DO_CMP0(gvec_ceq0_b, int8_t, ==)
2009 DO_CMP0(gvec_clt0_b, int8_t, <)
2010 DO_CMP0(gvec_cle0_b, int8_t, <=)
2011 DO_CMP0(gvec_cgt0_b, int8_t, >)
2012 DO_CMP0(gvec_cge0_b, int8_t, >=)
2013
2014 DO_CMP0(gvec_ceq0_h, int16_t, ==)
2015 DO_CMP0(gvec_clt0_h, int16_t, <)
2016 DO_CMP0(gvec_cle0_h, int16_t, <=)
2017 DO_CMP0(gvec_cgt0_h, int16_t, >)
2018 DO_CMP0(gvec_cge0_h, int16_t, >=)
2019
2020 #undef DO_CMP0
2021
2022 #define DO_ABD(NAME, TYPE)                                      \
2023 void HELPER(NAME)(void *vd, void *vn, void *vm, uint32_t desc)  \
2024 {                                                               \
2025     intptr_t i, opr_sz = simd_oprsz(desc);                      \
2026     TYPE *d = vd, *n = vn, *m = vm;                             \
2027                                                                 \
2028     for (i = 0; i < opr_sz / sizeof(TYPE); ++i) {               \
2029         d[i] = n[i] < m[i] ? m[i] - n[i] : n[i] - m[i];         \
2030     }                                                           \
2031     clear_tail(d, opr_sz, simd_maxsz(desc));                    \
2032 }
2033
2034 DO_ABD(gvec_sabd_b, int8_t)
2035 DO_ABD(gvec_sabd_h, int16_t)
2036 DO_ABD(gvec_sabd_s, int32_t)
2037 DO_ABD(gvec_sabd_d, int64_t)
2038
2039 DO_ABD(gvec_uabd_b, uint8_t)
2040 DO_ABD(gvec_uabd_h, uint16_t)
2041 DO_ABD(gvec_uabd_s, uint32_t)
2042 DO_ABD(gvec_uabd_d, uint64_t)
2043
2044 #undef DO_ABD
2045
2046 #define DO_ABA(NAME, TYPE)                                      \
2047 void HELPER(NAME)(void *vd, void *vn, void *vm, uint32_t desc)  \
2048 {                                                               \
2049     intptr_t i, opr_sz = simd_oprsz(desc);                      \
2050     TYPE *d = vd, *n = vn, *m = vm;                             \
2051                                                                 \
2052     for (i = 0; i < opr_sz / sizeof(TYPE); ++i) {               \
2053         d[i] += n[i] < m[i] ? m[i] - n[i] : n[i] - m[i];        \
2054     }                                                           \
2055     clear_tail(d, opr_sz, simd_maxsz(desc));                    \
2056 }
2057
2058 DO_ABA(gvec_saba_b, int8_t)
2059 DO_ABA(gvec_saba_h, int16_t)
2060 DO_ABA(gvec_saba_s, int32_t)
2061 DO_ABA(gvec_saba_d, int64_t)
2062
2063 DO_ABA(gvec_uaba_b, uint8_t)
2064 DO_ABA(gvec_uaba_h, uint16_t)
2065 DO_ABA(gvec_uaba_s, uint32_t)
2066 DO_ABA(gvec_uaba_d, uint64_t)
2067
2068 #undef DO_ABA
2069
2070 #define DO_NEON_PAIRWISE(NAME, OP)                                      \
2071     void HELPER(NAME##s)(void *vd, void *vn, void *vm,                  \
2072                          void *stat, uint32_t oprsz)                    \
2073     {                                                                   \
2074         float_status *fpst = stat;                                      \
2075         float32 *d = vd;                                                \
2076         float32 *n = vn;                                                \
2077         float32 *m = vm;                                                \
2078         float32 r0, r1;                                                 \
2079                                                                         \
2080         /* Read all inputs before writing outputs in case vm == vd */   \
2081         r0 = float32_##OP(n[H4(0)], n[H4(1)], fpst);                    \
2082         r1 = float32_##OP(m[H4(0)], m[H4(1)], fpst);                    \
2083                                                                         \
2084         d[H4(0)] = r0;                                                  \
2085         d[H4(1)] = r1;                                                  \
2086     }                                                                   \
2087                                                                         \
2088     void HELPER(NAME##h)(void *vd, void *vn, void *vm,                  \
2089                          void *stat, uint32_t oprsz)                    \
2090     {                                                                   \
2091         float_status *fpst = stat;                                      \
2092         float16 *d = vd;                                                \
2093         float16 *n = vn;                                                \
2094         float16 *m = vm;                                                \
2095         float16 r0, r1, r2, r3;                                         \
2096                                                                         \
2097         /* Read all inputs before writing outputs in case vm == vd */   \
2098         r0 = float16_##OP(n[H2(0)], n[H2(1)], fpst);                    \
2099         r1 = float16_##OP(n[H2(2)], n[H2(3)], fpst);                    \
2100         r2 = float16_##OP(m[H2(0)], m[H2(1)], fpst);                    \
2101         r3 = float16_##OP(m[H2(2)], m[H2(3)], fpst);                    \
2102                                                                         \
2103         d[H2(0)] = r0;                                                  \
2104         d[H2(1)] = r1;                                                  \
2105         d[H2(2)] = r2;                                                  \
2106         d[H2(3)] = r3;                                                  \
2107     }
2108
2109 DO_NEON_PAIRWISE(neon_padd, add)
2110 DO_NEON_PAIRWISE(neon_pmax, max)
2111 DO_NEON_PAIRWISE(neon_pmin, min)
2112
2113 #undef DO_NEON_PAIRWISE
2114
2115 #define DO_VCVT_FIXED(NAME, FUNC, TYPE)                                 \
2116     void HELPER(NAME)(void *vd, void *vn, void *stat, uint32_t desc)    \
2117     {                                                                   \
2118         intptr_t i, oprsz = simd_oprsz(desc);                           \
2119         int shift = simd_data(desc);                                    \
2120         TYPE *d = vd, *n = vn;                                          \
2121         float_status *fpst = stat;                                      \
2122         for (i = 0; i < oprsz / sizeof(TYPE); i++) {                    \
2123             d[i] = FUNC(n[i], shift, fpst);                             \
2124         }                                                               \
2125         clear_tail(d, oprsz, simd_maxsz(desc));                         \
2126     }
2127
2128 DO_VCVT_FIXED(gvec_vcvt_sf, helper_vfp_sltos, uint32_t)
2129 DO_VCVT_FIXED(gvec_vcvt_uf, helper_vfp_ultos, uint32_t)
2130 DO_VCVT_FIXED(gvec_vcvt_fs, helper_vfp_tosls_round_to_zero, uint32_t)
2131 DO_VCVT_FIXED(gvec_vcvt_fu, helper_vfp_touls_round_to_zero, uint32_t)
2132 DO_VCVT_FIXED(gvec_vcvt_sh, helper_vfp_shtoh, uint16_t)
2133 DO_VCVT_FIXED(gvec_vcvt_uh, helper_vfp_uhtoh, uint16_t)
2134 DO_VCVT_FIXED(gvec_vcvt_hs, helper_vfp_toshh_round_to_zero, uint16_t)
2135 DO_VCVT_FIXED(gvec_vcvt_hu, helper_vfp_touhh_round_to_zero, uint16_t)
2136
2137 #undef DO_VCVT_FIXED
2138
2139 #define DO_VCVT_RMODE(NAME, FUNC, TYPE)                                 \
2140     void HELPER(NAME)(void *vd, void *vn, void *stat, uint32_t desc)    \
2141     {                                                                   \
2142         float_status *fpst = stat;                                      \
2143         intptr_t i, oprsz = simd_oprsz(desc);                           \
2144         uint32_t rmode = simd_data(desc);                               \
2145         uint32_t prev_rmode = get_float_rounding_mode(fpst);            \
2146         TYPE *d = vd, *n = vn;                                          \
2147         set_float_rounding_mode(rmode, fpst);                           \
2148         for (i = 0; i < oprsz / sizeof(TYPE); i++) {                    \
2149             d[i] = FUNC(n[i], 0, fpst);                                 \
2150         }                                                               \
2151         set_float_rounding_mode(prev_rmode, fpst);                      \
2152         clear_tail(d, oprsz, simd_maxsz(desc));                         \
2153     }
2154
2155 DO_VCVT_RMODE(gvec_vcvt_rm_ss, helper_vfp_tosls, uint32_t)
2156 DO_VCVT_RMODE(gvec_vcvt_rm_us, helper_vfp_touls, uint32_t)
2157 DO_VCVT_RMODE(gvec_vcvt_rm_sh, helper_vfp_toshh, uint16_t)
2158 DO_VCVT_RMODE(gvec_vcvt_rm_uh, helper_vfp_touhh, uint16_t)
2159
2160 #undef DO_VCVT_RMODE
2161
2162 #define DO_VRINT_RMODE(NAME, FUNC, TYPE)                                \
2163     void HELPER(NAME)(void *vd, void *vn, void *stat, uint32_t desc)    \
2164     {                                                                   \
2165         float_status *fpst = stat;                                      \
2166         intptr_t i, oprsz = simd_oprsz(desc);                           \
2167         uint32_t rmode = simd_data(desc);                               \
2168         uint32_t prev_rmode = get_float_rounding_mode(fpst);            \
2169         TYPE *d = vd, *n = vn;                                          \
2170         set_float_rounding_mode(rmode, fpst);                           \
2171         for (i = 0; i < oprsz / sizeof(TYPE); i++) {                    \
2172             d[i] = FUNC(n[i], fpst);                                    \
2173         }                                                               \
2174         set_float_rounding_mode(prev_rmode, fpst);                      \
2175         clear_tail(d, oprsz, simd_maxsz(desc));                         \
2176     }
2177
2178 DO_VRINT_RMODE(gvec_vrint_rm_h, helper_rinth, uint16_t)
2179 DO_VRINT_RMODE(gvec_vrint_rm_s, helper_rints, uint32_t)
2180
2181 #undef DO_VRINT_RMODE
2182
2183 #ifdef TARGET_AARCH64
2184 void HELPER(simd_tblx)(void *vd, void *vm, void *venv, uint32_t desc)
2185 {
2186     const uint8_t *indices = vm;
2187     CPUARMState *env = venv;
2188     size_t oprsz = simd_oprsz(desc);
2189     uint32_t rn = extract32(desc, SIMD_DATA_SHIFT, 5);
2190     bool is_tbx = extract32(desc, SIMD_DATA_SHIFT + 5, 1);
2191     uint32_t table_len = desc >> (SIMD_DATA_SHIFT + 6);
2192     union {
2193         uint8_t b[16];
2194         uint64_t d[2];
2195     } result;
2196
2197     /*
2198      * We must construct the final result in a temp, lest the output
2199      * overlaps the input table.  For TBL, begin with zero; for TBX,
2200      * begin with the original register contents.  Note that we always
2201      * copy 16 bytes here to avoid an extra branch; clearing the high
2202      * bits of the register for oprsz == 8 is handled below.
2203      */
2204     if (is_tbx) {
2205         memcpy(&result, vd, 16);
2206     } else {
2207         memset(&result, 0, 16);
2208     }
2209
2210     for (size_t i = 0; i < oprsz; ++i) {
2211         uint32_t index = indices[H1(i)];
2212
2213         if (index < table_len) {
2214             /*
2215              * Convert index (a byte offset into the virtual table
2216              * which is a series of 128-bit vectors concatenated)
2217              * into the correct register element, bearing in mind
2218              * that the table can wrap around from V31 to V0.
2219              */
2220             const uint8_t *table = (const uint8_t *)
2221                 aa64_vfp_qreg(env, (rn + (index >> 4)) % 32);
2222             result.b[H1(i)] = table[H1(index % 16)];
2223         }
2224     }
2225
2226     memcpy(vd, &result, 16);
2227     clear_tail(vd, oprsz, simd_maxsz(desc));
2228 }
2229 #endif
2230
2231 /*
2232  * NxN -> N highpart multiply
2233  *
2234  * TODO: expose this as a generic vector operation.
2235  */
2236
2237 void HELPER(gvec_smulh_b)(void *vd, void *vn, void *vm, uint32_t desc)
2238 {
2239     intptr_t i, opr_sz = simd_oprsz(desc);
2240     int8_t *d = vd, *n = vn, *m = vm;
2241
2242     for (i = 0; i < opr_sz; ++i) {
2243         d[i] = ((int32_t)n[i] * m[i]) >> 8;
2244     }
2245     clear_tail(d, opr_sz, simd_maxsz(desc));
2246 }
2247
2248 void HELPER(gvec_smulh_h)(void *vd, void *vn, void *vm, uint32_t desc)
2249 {
2250     intptr_t i, opr_sz = simd_oprsz(desc);
2251     int16_t *d = vd, *n = vn, *m = vm;
2252
2253     for (i = 0; i < opr_sz / 2; ++i) {
2254         d[i] = ((int32_t)n[i] * m[i]) >> 16;
2255     }
2256     clear_tail(d, opr_sz, simd_maxsz(desc));
2257 }
2258
2259 void HELPER(gvec_smulh_s)(void *vd, void *vn, void *vm, uint32_t desc)
2260 {
2261     intptr_t i, opr_sz = simd_oprsz(desc);
2262     int32_t *d = vd, *n = vn, *m = vm;
2263
2264     for (i = 0; i < opr_sz / 4; ++i) {
2265         d[i] = ((int64_t)n[i] * m[i]) >> 32;
2266     }
2267     clear_tail(d, opr_sz, simd_maxsz(desc));
2268 }
2269
2270 void HELPER(gvec_smulh_d)(void *vd, void *vn, void *vm, uint32_t desc)
2271 {
2272     intptr_t i, opr_sz = simd_oprsz(desc);
2273     uint64_t *d = vd, *n = vn, *m = vm;
2274     uint64_t discard;
2275
2276     for (i = 0; i < opr_sz / 8; ++i) {
2277         muls64(&discard, &d[i], n[i], m[i]);
2278     }
2279     clear_tail(d, opr_sz, simd_maxsz(desc));
2280 }
2281
2282 void HELPER(gvec_umulh_b)(void *vd, void *vn, void *vm, uint32_t desc)
2283 {
2284     intptr_t i, opr_sz = simd_oprsz(desc);
2285     uint8_t *d = vd, *n = vn, *m = vm;
2286
2287     for (i = 0; i < opr_sz; ++i) {
2288         d[i] = ((uint32_t)n[i] * m[i]) >> 8;
2289     }
2290     clear_tail(d, opr_sz, simd_maxsz(desc));
2291 }
2292
2293 void HELPER(gvec_umulh_h)(void *vd, void *vn, void *vm, uint32_t desc)
2294 {
2295     intptr_t i, opr_sz = simd_oprsz(desc);
2296     uint16_t *d = vd, *n = vn, *m = vm;
2297
2298     for (i = 0; i < opr_sz / 2; ++i) {
2299         d[i] = ((uint32_t)n[i] * m[i]) >> 16;
2300     }
2301     clear_tail(d, opr_sz, simd_maxsz(desc));
2302 }
2303
2304 void HELPER(gvec_umulh_s)(void *vd, void *vn, void *vm, uint32_t desc)
2305 {
2306     intptr_t i, opr_sz = simd_oprsz(desc);
2307     uint32_t *d = vd, *n = vn, *m = vm;
2308
2309     for (i = 0; i < opr_sz / 4; ++i) {
2310         d[i] = ((uint64_t)n[i] * m[i]) >> 32;
2311     }
2312     clear_tail(d, opr_sz, simd_maxsz(desc));
2313 }
2314
2315 void HELPER(gvec_umulh_d)(void *vd, void *vn, void *vm, uint32_t desc)
2316 {
2317     intptr_t i, opr_sz = simd_oprsz(desc);
2318     uint64_t *d = vd, *n = vn, *m = vm;
2319     uint64_t discard;
2320
2321     for (i = 0; i < opr_sz / 8; ++i) {
2322         mulu64(&discard, &d[i], n[i], m[i]);
2323     }
2324     clear_tail(d, opr_sz, simd_maxsz(desc));
2325 }
2326
2327 void HELPER(gvec_xar_d)(void *vd, void *vn, void *vm, uint32_t desc)
2328 {
2329     intptr_t i, opr_sz = simd_oprsz(desc) / 8;
2330     int shr = simd_data(desc);
2331     uint64_t *d = vd, *n = vn, *m = vm;
2332
2333     for (i = 0; i < opr_sz; ++i) {
2334         d[i] = ror64(n[i] ^ m[i], shr);
2335     }
2336     clear_tail(d, opr_sz * 8, simd_maxsz(desc));
2337 }
2338
2339 /*
2340  * Integer matrix-multiply accumulate
2341  */
2342
2343 static uint32_t do_smmla_b(uint32_t sum, void *vn, void *vm)
2344 {
2345     int8_t *n = vn, *m = vm;
2346
2347     for (intptr_t k = 0; k < 8; ++k) {
2348         sum += n[H1(k)] * m[H1(k)];
2349     }
2350     return sum;
2351 }
2352
2353 static uint32_t do_ummla_b(uint32_t sum, void *vn, void *vm)
2354 {
2355     uint8_t *n = vn, *m = vm;
2356
2357     for (intptr_t k = 0; k < 8; ++k) {
2358         sum += n[H1(k)] * m[H1(k)];
2359     }
2360     return sum;
2361 }
2362
2363 static uint32_t do_usmmla_b(uint32_t sum, void *vn, void *vm)
2364 {
2365     uint8_t *n = vn;
2366     int8_t *m = vm;
2367
2368     for (intptr_t k = 0; k < 8; ++k) {
2369         sum += n[H1(k)] * m[H1(k)];
2370     }
2371     return sum;
2372 }
2373
2374 static void do_mmla_b(void *vd, void *vn, void *vm, void *va, uint32_t desc,
2375                       uint32_t (*inner_loop)(uint32_t, void *, void *))
2376 {
2377     intptr_t seg, opr_sz = simd_oprsz(desc);
2378
2379     for (seg = 0; seg < opr_sz; seg += 16) {
2380         uint32_t *d = vd + seg;
2381         uint32_t *a = va + seg;
2382         uint32_t sum0, sum1, sum2, sum3;
2383
2384         /*
2385          * Process the entire segment at once, writing back the
2386          * results only after we've consumed all of the inputs.
2387          *
2388          * Key to indices by column:
2389          *          i   j                  i             j
2390          */
2391         sum0 = a[H4(0 + 0)];
2392         sum0 = inner_loop(sum0, vn + seg + 0, vm + seg + 0);
2393         sum1 = a[H4(0 + 1)];
2394         sum1 = inner_loop(sum1, vn + seg + 0, vm + seg + 8);
2395         sum2 = a[H4(2 + 0)];
2396         sum2 = inner_loop(sum2, vn + seg + 8, vm + seg + 0);
2397         sum3 = a[H4(2 + 1)];
2398         sum3 = inner_loop(sum3, vn + seg + 8, vm + seg + 8);
2399
2400         d[H4(0)] = sum0;
2401         d[H4(1)] = sum1;
2402         d[H4(2)] = sum2;
2403         d[H4(3)] = sum3;
2404     }
2405     clear_tail(vd, opr_sz, simd_maxsz(desc));
2406 }
2407
2408 #define DO_MMLA_B(NAME, INNER) \
2409     void HELPER(NAME)(void *vd, void *vn, void *vm, void *va, uint32_t desc) \
2410     { do_mmla_b(vd, vn, vm, va, desc, INNER); }
2411
2412 DO_MMLA_B(gvec_smmla_b, do_smmla_b)
2413 DO_MMLA_B(gvec_ummla_b, do_ummla_b)
2414 DO_MMLA_B(gvec_usmmla_b, do_usmmla_b)
2415
2416 /*
2417  * BFloat16 Dot Product
2418  */
2419
2420 static float32 bfdotadd(float32 sum, uint32_t e1, uint32_t e2)
2421 {
2422     /* FPCR is ignored for BFDOT and BFMMLA. */
2423     float_status bf_status = {
2424         .tininess_before_rounding = float_tininess_before_rounding,
2425         .float_rounding_mode = float_round_to_odd_inf,
2426         .flush_to_zero = true,
2427         .flush_inputs_to_zero = true,
2428         .default_nan_mode = true,
2429     };
2430     float32 t1, t2;
2431
2432     /*
2433      * Extract each BFloat16 from the element pair, and shift
2434      * them such that they become float32.
2435      */
2436     t1 = float32_mul(e1 << 16, e2 << 16, &bf_status);
2437     t2 = float32_mul(e1 & 0xffff0000u, e2 & 0xffff0000u, &bf_status);
2438     t1 = float32_add(t1, t2, &bf_status);
2439     t1 = float32_add(sum, t1, &bf_status);
2440
2441     return t1;
2442 }
2443
2444 void HELPER(gvec_bfdot)(void *vd, void *vn, void *vm, void *va, uint32_t desc)
2445 {
2446     intptr_t i, opr_sz = simd_oprsz(desc);
2447     float32 *d = vd, *a = va;
2448     uint32_t *n = vn, *m = vm;
2449
2450     for (i = 0; i < opr_sz / 4; ++i) {
2451         d[i] = bfdotadd(a[i], n[i], m[i]);
2452     }
2453     clear_tail(d, opr_sz, simd_maxsz(desc));
2454 }
2455
2456 void HELPER(gvec_bfdot_idx)(void *vd, void *vn, void *vm,
2457                             void *va, uint32_t desc)
2458 {
2459     intptr_t i, j, opr_sz = simd_oprsz(desc);
2460     intptr_t index = simd_data(desc);
2461     intptr_t elements = opr_sz / 4;
2462     intptr_t eltspersegment = MIN(16 / 4, elements);
2463     float32 *d = vd, *a = va;
2464     uint32_t *n = vn, *m = vm;
2465
2466     for (i = 0; i < elements; i += eltspersegment) {
2467         uint32_t m_idx = m[i + H4(index)];
2468
2469         for (j = i; j < i + eltspersegment; j++) {
2470             d[j] = bfdotadd(a[j], n[j], m_idx);
2471         }
2472     }
2473     clear_tail(d, opr_sz, simd_maxsz(desc));
2474 }
2475
2476 void HELPER(gvec_bfmmla)(void *vd, void *vn, void *vm, void *va, uint32_t desc)
2477 {
2478     intptr_t s, opr_sz = simd_oprsz(desc);
2479     float32 *d = vd, *a = va;
2480     uint32_t *n = vn, *m = vm;
2481
2482     for (s = 0; s < opr_sz / 4; s += 4) {
2483         float32 sum00, sum01, sum10, sum11;
2484
2485         /*
2486          * Process the entire segment at once, writing back the
2487          * results only after we've consumed all of the inputs.
2488          *
2489          * Key to indicies by column:
2490          *               i   j           i   k             j   k
2491          */
2492         sum00 = a[s + H4(0 + 0)];
2493         sum00 = bfdotadd(sum00, n[s + H4(0 + 0)], m[s + H4(0 + 0)]);
2494         sum00 = bfdotadd(sum00, n[s + H4(0 + 1)], m[s + H4(0 + 1)]);
2495
2496         sum01 = a[s + H4(0 + 1)];
2497         sum01 = bfdotadd(sum01, n[s + H4(0 + 0)], m[s + H4(2 + 0)]);
2498         sum01 = bfdotadd(sum01, n[s + H4(0 + 1)], m[s + H4(2 + 1)]);
2499
2500         sum10 = a[s + H4(2 + 0)];
2501         sum10 = bfdotadd(sum10, n[s + H4(2 + 0)], m[s + H4(0 + 0)]);
2502         sum10 = bfdotadd(sum10, n[s + H4(2 + 1)], m[s + H4(0 + 1)]);
2503
2504         sum11 = a[s + H4(2 + 1)];
2505         sum11 = bfdotadd(sum11, n[s + H4(2 + 0)], m[s + H4(2 + 0)]);
2506         sum11 = bfdotadd(sum11, n[s + H4(2 + 1)], m[s + H4(2 + 1)]);
2507
2508         d[s + H4(0 + 0)] = sum00;
2509         d[s + H4(0 + 1)] = sum01;
2510         d[s + H4(2 + 0)] = sum10;
2511         d[s + H4(2 + 1)] = sum11;
2512     }
2513     clear_tail(d, opr_sz, simd_maxsz(desc));
2514 }
2515
2516 void HELPER(gvec_bfmlal)(void *vd, void *vn, void *vm, void *va,
2517                          void *stat, uint32_t desc)
2518 {
2519     intptr_t i, opr_sz = simd_oprsz(desc);
2520     intptr_t sel = simd_data(desc);
2521     float32 *d = vd, *a = va;
2522     bfloat16 *n = vn, *m = vm;
2523
2524     for (i = 0; i < opr_sz / 4; ++i) {
2525         float32 nn = n[H2(i * 2 + sel)] << 16;
2526         float32 mm = m[H2(i * 2 + sel)] << 16;
2527         d[H4(i)] = float32_muladd(nn, mm, a[H4(i)], 0, stat);
2528     }
2529     clear_tail(d, opr_sz, simd_maxsz(desc));
2530 }
2531
2532 void HELPER(gvec_bfmlal_idx)(void *vd, void *vn, void *vm,
2533                              void *va, void *stat, uint32_t desc)
2534 {
2535     intptr_t i, j, opr_sz = simd_oprsz(desc);
2536     intptr_t sel = extract32(desc, SIMD_DATA_SHIFT, 1);
2537     intptr_t index = extract32(desc, SIMD_DATA_SHIFT + 1, 3);
2538     intptr_t elements = opr_sz / 4;
2539     intptr_t eltspersegment = MIN(16 / 4, elements);
2540     float32 *d = vd, *a = va;
2541     bfloat16 *n = vn, *m = vm;
2542
2543     for (i = 0; i < elements; i += eltspersegment) {
2544         float32 m_idx = m[H2(2 * i + index)] << 16;
2545
2546         for (j = i; j < i + eltspersegment; j++) {
2547             float32 n_j = n[H2(2 * j + sel)] << 16;
2548             d[H4(j)] = float32_muladd(n_j, m_idx, a[H4(j)], 0, stat);
2549         }
2550     }
2551     clear_tail(d, opr_sz, simd_maxsz(desc));
2552 }