target/arm/translate-a64.c

   1 /*
   2  *  AArch64 translation
   3  *
   4  *  Copyright (c) 2013 Alexander Graf <agraf@suse.de>
   5  *
   6  * This library is free software; you can redistribute it and/or
   7  * modify it under the terms of the GNU Lesser General Public
   8  * License as published by the Free Software Foundation; either
   9  * version 2.1 of the License, or (at your option) any later version.
  10  *
  11  * This library is distributed in the hope that it will be useful,
  12  * but WITHOUT ANY WARRANTY; without even the implied warranty of
  13  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
  14  * Lesser General Public License for more details.
  15  *
  16  * You should have received a copy of the GNU Lesser General Public
  17  * License along with this library; if not, see <http://www.gnu.org/licenses/>.
  18  */
  19 #include "qemu/osdep.h"
  20
  21 #include "cpu.h"
  22 #include "exec/exec-all.h"
  23 #include "tcg/tcg-op.h"
  24 #include "tcg/tcg-op-gvec.h"
  25 #include "qemu/log.h"
  26 #include "arm_ldst.h"
  27 #include "translate.h"
  28 #include "internals.h"
  29 #include "qemu/host-utils.h"
  30
  31 #include "semihosting/semihost.h"
  32 #include "exec/gen-icount.h"
  33
  34 #include "exec/helper-proto.h"
  35 #include "exec/helper-gen.h"
  36 #include "exec/log.h"
  37
  38 #include "trace-tcg.h"
  39 #include "translate-a64.h"
  40 #include "qemu/atomic128.h"
  41
  42 static TCGv_i64 cpu_X[32];
  43 static TCGv_i64 cpu_pc;
  44
  45 /* Load/store exclusive handling */
  46 static TCGv_i64 cpu_exclusive_high;
  47
  48 static const char *regnames[] = {
  49     "x0", "x1", "x2", "x3", "x4", "x5", "x6", "x7",
  50     "x8", "x9", "x10", "x11", "x12", "x13", "x14", "x15",
  51     "x16", "x17", "x18", "x19", "x20", "x21", "x22", "x23",
  52     "x24", "x25", "x26", "x27", "x28", "x29", "lr", "sp"
  53 };
  54
  55 enum a64_shift_type {
  56     A64_SHIFT_TYPE_LSL = 0,
  57     A64_SHIFT_TYPE_LSR = 1,
  58     A64_SHIFT_TYPE_ASR = 2,
  59     A64_SHIFT_TYPE_ROR = 3
  60 };
  61
  62 /* Table based decoder typedefs - used when the relevant bits for decode
  63  * are too awkwardly scattered across the instruction (eg SIMD).
  64  */
  65 typedef void AArch64DecodeFn(DisasContext *s, uint32_t insn);
  66
  67 typedef struct AArch64DecodeTable {
  68     uint32_t pattern;
  69     uint32_t mask;
  70     AArch64DecodeFn *disas_fn;
  71 } AArch64DecodeTable;
  72
  73 /* initialize TCG globals.  */
  74 void a64_translate_init(void)
  75 {
  76     int i;
  77
  78     cpu_pc = tcg_global_mem_new_i64(cpu_env,
  79                                     offsetof(CPUARMState, pc),
  80                                     "pc");
  81     for (i = 0; i < 32; i++) {
  82         cpu_X[i] = tcg_global_mem_new_i64(cpu_env,
  83                                           offsetof(CPUARMState, xregs[i]),
  84                                           regnames[i]);
  85     }
  86
  87     cpu_exclusive_high = tcg_global_mem_new_i64(cpu_env,
  88         offsetof(CPUARMState, exclusive_high), "exclusive_high");
  89 }
  90
  91 /*
  92  * Return the core mmu_idx to use for A64 "unprivileged load/store" insns
  93  */
  94 static int get_a64_user_mem_index(DisasContext *s)
  95 {
  96     /*
  97      * If AccType_UNPRIV is not used, the insn uses AccType_NORMAL,
  98      * which is the usual mmu_idx for this cpu state.
  99      */
 100     ARMMMUIdx useridx = s->mmu_idx;
 101
 102     if (s->unpriv) {
 103         /*
 104          * We have pre-computed the condition for AccType_UNPRIV.
 105          * Therefore we should never get here with a mmu_idx for
 106          * which we do not know the corresponding user mmu_idx.
 107          */
 108         switch (useridx) {
 109         case ARMMMUIdx_E10_1:
 110         case ARMMMUIdx_E10_1_PAN:
 111             useridx = ARMMMUIdx_E10_0;
 112             break;
 113         case ARMMMUIdx_E20_2:
 114         case ARMMMUIdx_E20_2_PAN:
 115             useridx = ARMMMUIdx_E20_0;
 116             break;
 117         case ARMMMUIdx_SE10_1:
 118         case ARMMMUIdx_SE10_1_PAN:
 119             useridx = ARMMMUIdx_SE10_0;
 120             break;
 121         case ARMMMUIdx_SE20_2:
 122         case ARMMMUIdx_SE20_2_PAN:
 123             useridx = ARMMMUIdx_SE20_0;
 124             break;
 125         default:
 126             g_assert_not_reached();
 127         }
 128     }
 129     return arm_to_core_mmu_idx(useridx);
 130 }
 131
 132 static void reset_btype(DisasContext *s)
 133 {
 134     if (s->btype != 0) {
 135         TCGv_i32 zero = tcg_const_i32(0);
 136         tcg_gen_st_i32(zero, cpu_env, offsetof(CPUARMState, btype));
 137         tcg_temp_free_i32(zero);
 138         s->btype = 0;
 139     }
 140 }
 141
 142 static void set_btype(DisasContext *s, int val)
 143 {
 144     TCGv_i32 tcg_val;
 145
 146     /* BTYPE is a 2-bit field, and 0 should be done with reset_btype.  */
 147     tcg_debug_assert(val >= 1 && val <= 3);
 148
 149     tcg_val = tcg_const_i32(val);
 150     tcg_gen_st_i32(tcg_val, cpu_env, offsetof(CPUARMState, btype));
 151     tcg_temp_free_i32(tcg_val);
 152     s->btype = -1;
 153 }
 154
 155 void gen_a64_set_pc_im(uint64_t val)
 156 {
 157     tcg_gen_movi_i64(cpu_pc, val);
 158 }
 159
 160 /*
 161  * Handle Top Byte Ignore (TBI) bits.
 162  *
 163  * If address tagging is enabled via the TCR TBI bits:
 164  *  + for EL2 and EL3 there is only one TBI bit, and if it is set
 165  *    then the address is zero-extended, clearing bits [63:56]
 166  *  + for EL0 and EL1, TBI0 controls addresses with bit 55 == 0
 167  *    and TBI1 controls addressses with bit 55 == 1.
 168  *    If the appropriate TBI bit is set for the address then
 169  *    the address is sign-extended from bit 55 into bits [63:56]
 170  *
 171  * Here We have concatenated TBI{1,0} into tbi.
 172  */
 173 static void gen_top_byte_ignore(DisasContext *s, TCGv_i64 dst,
 174                                 TCGv_i64 src, int tbi)
 175 {
 176     if (tbi == 0) {
 177         /* Load unmodified address */
 178         tcg_gen_mov_i64(dst, src);
 179     } else if (!regime_has_2_ranges(s->mmu_idx)) {
 180         /* Force tag byte to all zero */
 181         tcg_gen_extract_i64(dst, src, 0, 56);
 182     } else {
 183         /* Sign-extend from bit 55.  */
 184         tcg_gen_sextract_i64(dst, src, 0, 56);
 185
 186         switch (tbi) {
 187         case 1:
 188             /* tbi0 but !tbi1: only use the extension if positive */
 189             tcg_gen_and_i64(dst, dst, src);
 190             break;
 191         case 2:
 192             /* !tbi0 but tbi1: only use the extension if negative */
 193             tcg_gen_or_i64(dst, dst, src);
 194             break;
 195         case 3:
 196             /* tbi0 and tbi1: always use the extension */
 197             break;
 198         default:
 199             g_assert_not_reached();
 200         }
 201     }
 202 }
 203
 204 static void gen_a64_set_pc(DisasContext *s, TCGv_i64 src)
 205 {
 206     /*
 207      * If address tagging is enabled for instructions via the TCR TBI bits,
 208      * then loading an address into the PC will clear out any tag.
 209      */
 210     gen_top_byte_ignore(s, cpu_pc, src, s->tbii);
 211 }
 212
 213 /*
 214  * Handle MTE and/or TBI.
 215  *
 216  * For TBI, ideally, we would do nothing.  Proper behaviour on fault is
 217  * for the tag to be present in the FAR_ELx register.  But for user-only
 218  * mode we do not have a TLB with which to implement this, so we must
 219  * remove the top byte now.
 220  *
 221  * Always return a fresh temporary that we can increment independently
 222  * of the write-back address.
 223  */
 224
 225 TCGv_i64 clean_data_tbi(DisasContext *s, TCGv_i64 addr)
 226 {
 227     TCGv_i64 clean = new_tmp_a64(s);
 228 #ifdef CONFIG_USER_ONLY
 229     gen_top_byte_ignore(s, clean, addr, s->tbid);
 230 #else
 231     tcg_gen_mov_i64(clean, addr);
 232 #endif
 233     return clean;
 234 }
 235
 236 /* Insert a zero tag into src, with the result at dst. */
 237 static void gen_address_with_allocation_tag0(TCGv_i64 dst, TCGv_i64 src)
 238 {
 239     tcg_gen_andi_i64(dst, src, ~MAKE_64BIT_MASK(56, 4));
 240 }
 241
 242 static void gen_probe_access(DisasContext *s, TCGv_i64 ptr,
 243                              MMUAccessType acc, int log2_size)
 244 {
 245     TCGv_i32 t_acc = tcg_const_i32(acc);
 246     TCGv_i32 t_idx = tcg_const_i32(get_mem_index(s));
 247     TCGv_i32 t_size = tcg_const_i32(1 << log2_size);
 248
 249     gen_helper_probe_access(cpu_env, ptr, t_acc, t_idx, t_size);
 250     tcg_temp_free_i32(t_acc);
 251     tcg_temp_free_i32(t_idx);
 252     tcg_temp_free_i32(t_size);
 253 }
 254
 255 /*
 256  * For MTE, check a single logical or atomic access.  This probes a single
 257  * address, the exact one specified.  The size and alignment of the access
 258  * is not relevant to MTE, per se, but watchpoints do require the size,
 259  * and we want to recognize those before making any other changes to state.
 260  */
 261 static TCGv_i64 gen_mte_check1_mmuidx(DisasContext *s, TCGv_i64 addr,
 262                                       bool is_write, bool tag_checked,
 263                                       int log2_size, bool is_unpriv,
 264                                       int core_idx)
 265 {
 266     if (tag_checked && s->mte_active[is_unpriv]) {
 267         TCGv_i32 tcg_desc;
 268         TCGv_i64 ret;
 269         int desc = 0;
 270
 271         desc = FIELD_DP32(desc, MTEDESC, MIDX, core_idx);
 272         desc = FIELD_DP32(desc, MTEDESC, TBI, s->tbid);
 273         desc = FIELD_DP32(desc, MTEDESC, TCMA, s->tcma);
 274         desc = FIELD_DP32(desc, MTEDESC, WRITE, is_write);
 275         desc = FIELD_DP32(desc, MTEDESC, SIZEM1, (1 << log2_size) - 1);
 276         tcg_desc = tcg_const_i32(desc);
 277
 278         ret = new_tmp_a64(s);
 279         gen_helper_mte_check(ret, cpu_env, tcg_desc, addr);
 280         tcg_temp_free_i32(tcg_desc);
 281
 282         return ret;
 283     }
 284     return clean_data_tbi(s, addr);
 285 }
 286
 287 TCGv_i64 gen_mte_check1(DisasContext *s, TCGv_i64 addr, bool is_write,
 288                         bool tag_checked, int log2_size)
 289 {
 290     return gen_mte_check1_mmuidx(s, addr, is_write, tag_checked, log2_size,
 291                                  false, get_mem_index(s));
 292 }
 293
 294 /*
 295  * For MTE, check multiple logical sequential accesses.
 296  */
 297 TCGv_i64 gen_mte_checkN(DisasContext *s, TCGv_i64 addr, bool is_write,
 298                         bool tag_checked, int size)
 299 {
 300     if (tag_checked && s->mte_active[0]) {
 301         TCGv_i32 tcg_desc;
 302         TCGv_i64 ret;
 303         int desc = 0;
 304
 305         desc = FIELD_DP32(desc, MTEDESC, MIDX, get_mem_index(s));
 306         desc = FIELD_DP32(desc, MTEDESC, TBI, s->tbid);
 307         desc = FIELD_DP32(desc, MTEDESC, TCMA, s->tcma);
 308         desc = FIELD_DP32(desc, MTEDESC, WRITE, is_write);
 309         desc = FIELD_DP32(desc, MTEDESC, SIZEM1, size - 1);
 310         tcg_desc = tcg_const_i32(desc);
 311
 312         ret = new_tmp_a64(s);
 313         gen_helper_mte_check(ret, cpu_env, tcg_desc, addr);
 314         tcg_temp_free_i32(tcg_desc);
 315
 316         return ret;
 317     }
 318     return clean_data_tbi(s, addr);
 319 }
 320
 321 typedef struct DisasCompare64 {
 322     TCGCond cond;
 323     TCGv_i64 value;
 324 } DisasCompare64;
 325
 326 static void a64_test_cc(DisasCompare64 *c64, int cc)
 327 {
 328     DisasCompare c32;
 329
 330     arm_test_cc(&c32, cc);
 331
 332     /* Sign-extend the 32-bit value so that the GE/LT comparisons work
 333        * properly.  The NE/EQ comparisons are also fine with this choice.  */
 334     c64->cond = c32.cond;
 335     c64->value = tcg_temp_new_i64();
 336     tcg_gen_ext_i32_i64(c64->value, c32.value);
 337
 338     arm_free_cc(&c32);
 339 }
 340
 341 static void a64_free_cc(DisasCompare64 *c64)
 342 {
 343     tcg_temp_free_i64(c64->value);
 344 }
 345
 346 static void gen_exception_internal(int excp)
 347 {
 348     TCGv_i32 tcg_excp = tcg_const_i32(excp);
 349
 350     assert(excp_is_internal(excp));
 351     gen_helper_exception_internal(cpu_env, tcg_excp);
 352     tcg_temp_free_i32(tcg_excp);
 353 }
 354
 355 static void gen_exception_internal_insn(DisasContext *s, uint64_t pc, int excp)
 356 {
 357     gen_a64_set_pc_im(pc);
 358     gen_exception_internal(excp);
 359     s->base.is_jmp = DISAS_NORETURN;
 360 }
 361
 362 static void gen_exception_bkpt_insn(DisasContext *s, uint32_t syndrome)
 363 {
 364     TCGv_i32 tcg_syn;
 365
 366     gen_a64_set_pc_im(s->pc_curr);
 367     tcg_syn = tcg_const_i32(syndrome);
 368     gen_helper_exception_bkpt_insn(cpu_env, tcg_syn);
 369     tcg_temp_free_i32(tcg_syn);
 370     s->base.is_jmp = DISAS_NORETURN;
 371 }
 372
 373 static void gen_step_complete_exception(DisasContext *s)
 374 {
 375     /* We just completed step of an insn. Move from Active-not-pending
 376      * to Active-pending, and then also take the swstep exception.
 377      * This corresponds to making the (IMPDEF) choice to prioritize
 378      * swstep exceptions over asynchronous exceptions taken to an exception
 379      * level where debug is disabled. This choice has the advantage that
 380      * we do not need to maintain internal state corresponding to the
 381      * ISV/EX syndrome bits between completion of the step and generation
 382      * of the exception, and our syndrome information is always correct.
 383      */
 384     gen_ss_advance(s);
 385     gen_swstep_exception(s, 1, s->is_ldex);
 386     s->base.is_jmp = DISAS_NORETURN;
 387 }
 388
 389 static inline bool use_goto_tb(DisasContext *s, int n, uint64_t dest)
 390 {
 391     /* No direct tb linking with singlestep (either QEMU's or the ARM
 392      * debug architecture kind) or deterministic io
 393      */
 394     if (s->base.singlestep_enabled || s->ss_active ||
 395         (tb_cflags(s->base.tb) & CF_LAST_IO)) {
 396         return false;
 397     }
 398
 399 #ifndef CONFIG_USER_ONLY
 400     /* Only link tbs from inside the same guest page */
 401     if ((s->base.tb->pc & TARGET_PAGE_MASK) != (dest & TARGET_PAGE_MASK)) {
 402         return false;
 403     }
 404 #endif
 405
 406     return true;
 407 }
 408
 409 static inline void gen_goto_tb(DisasContext *s, int n, uint64_t dest)
 410 {
 411     const TranslationBlock *tb;
 412
 413     tb = s->base.tb;
 414     if (use_goto_tb(s, n, dest)) {
 415         tcg_gen_goto_tb(n);
 416         gen_a64_set_pc_im(dest);
 417         tcg_gen_exit_tb(tb, n);
 418         s->base.is_jmp = DISAS_NORETURN;
 419     } else {
 420         gen_a64_set_pc_im(dest);
 421         if (s->ss_active) {
 422             gen_step_complete_exception(s);
 423         } else if (s->base.singlestep_enabled) {
 424             gen_exception_internal(EXCP_DEBUG);
 425         } else {
 426             tcg_gen_lookup_and_goto_ptr();
 427             s->base.is_jmp = DISAS_NORETURN;
 428         }
 429     }
 430 }
 431
 432 static void init_tmp_a64_array(DisasContext *s)
 433 {
 434 #ifdef CONFIG_DEBUG_TCG
 435     memset(s->tmp_a64, 0, sizeof(s->tmp_a64));
 436 #endif
 437     s->tmp_a64_count = 0;
 438 }
 439
 440 static void free_tmp_a64(DisasContext *s)
 441 {
 442     int i;
 443     for (i = 0; i < s->tmp_a64_count; i++) {
 444         tcg_temp_free_i64(s->tmp_a64[i]);
 445     }
 446     init_tmp_a64_array(s);
 447 }
 448
 449 TCGv_i64 new_tmp_a64(DisasContext *s)
 450 {
 451     assert(s->tmp_a64_count < TMP_A64_MAX);
 452     return s->tmp_a64[s->tmp_a64_count++] = tcg_temp_new_i64();
 453 }
 454
 455 TCGv_i64 new_tmp_a64_local(DisasContext *s)
 456 {
 457     assert(s->tmp_a64_count < TMP_A64_MAX);
 458     return s->tmp_a64[s->tmp_a64_count++] = tcg_temp_local_new_i64();
 459 }
 460
 461 TCGv_i64 new_tmp_a64_zero(DisasContext *s)
 462 {
 463     TCGv_i64 t = new_tmp_a64(s);
 464     tcg_gen_movi_i64(t, 0);
 465     return t;
 466 }
 467
 468 /*
 469  * Register access functions
 470  *
 471  * These functions are used for directly accessing a register in where
 472  * changes to the final register value are likely to be made. If you
 473  * need to use a register for temporary calculation (e.g. index type
 474  * operations) use the read_* form.
 475  *
 476  * B1.2.1 Register mappings
 477  *
 478  * In instruction register encoding 31 can refer to ZR (zero register) or
 479  * the SP (stack pointer) depending on context. In QEMU's case we map SP
 480  * to cpu_X[31] and ZR accesses to a temporary which can be discarded.
 481  * This is the point of the _sp forms.
 482  */
 483 TCGv_i64 cpu_reg(DisasContext *s, int reg)
 484 {
 485     if (reg == 31) {
 486         return new_tmp_a64_zero(s);
 487     } else {
 488         return cpu_X[reg];
 489     }
 490 }
 491
 492 /* register access for when 31 == SP */
 493 TCGv_i64 cpu_reg_sp(DisasContext *s, int reg)
 494 {
 495     return cpu_X[reg];
 496 }
 497
 498 /* read a cpu register in 32bit/64bit mode. Returns a TCGv_i64
 499  * representing the register contents. This TCGv is an auto-freed
 500  * temporary so it need not be explicitly freed, and may be modified.
 501  */
 502 TCGv_i64 read_cpu_reg(DisasContext *s, int reg, int sf)
 503 {
 504     TCGv_i64 v = new_tmp_a64(s);
 505     if (reg != 31) {
 506         if (sf) {
 507             tcg_gen_mov_i64(v, cpu_X[reg]);
 508         } else {
 509             tcg_gen_ext32u_i64(v, cpu_X[reg]);
 510         }
 511     } else {
 512         tcg_gen_movi_i64(v, 0);
 513     }
 514     return v;
 515 }
 516
 517 TCGv_i64 read_cpu_reg_sp(DisasContext *s, int reg, int sf)
 518 {
 519     TCGv_i64 v = new_tmp_a64(s);
 520     if (sf) {
 521         tcg_gen_mov_i64(v, cpu_X[reg]);
 522     } else {
 523         tcg_gen_ext32u_i64(v, cpu_X[reg]);
 524     }
 525     return v;
 526 }
 527
 528 /* Return the offset into CPUARMState of a slice (from
 529  * the least significant end) of FP register Qn (ie
 530  * Dn, Sn, Hn or Bn).
 531  * (Note that this is not the same mapping as for A32; see cpu.h)
 532  */
 533 static inline int fp_reg_offset(DisasContext *s, int regno, MemOp size)
 534 {
 535     return vec_reg_offset(s, regno, 0, size);
 536 }
 537
 538 /* Offset of the high half of the 128 bit vector Qn */
 539 static inline int fp_reg_hi_offset(DisasContext *s, int regno)
 540 {
 541     return vec_reg_offset(s, regno, 1, MO_64);
 542 }
 543
 544 /* Convenience accessors for reading and writing single and double
 545  * FP registers. Writing clears the upper parts of the associated
 546  * 128 bit vector register, as required by the architecture.
 547  * Note that unlike the GP register accessors, the values returned
 548  * by the read functions must be manually freed.
 549  */
 550 static TCGv_i64 read_fp_dreg(DisasContext *s, int reg)
 551 {
 552     TCGv_i64 v = tcg_temp_new_i64();
 553
 554     tcg_gen_ld_i64(v, cpu_env, fp_reg_offset(s, reg, MO_64));
 555     return v;
 556 }
 557
 558 static TCGv_i32 read_fp_sreg(DisasContext *s, int reg)
 559 {
 560     TCGv_i32 v = tcg_temp_new_i32();
 561
 562     tcg_gen_ld_i32(v, cpu_env, fp_reg_offset(s, reg, MO_32));
 563     return v;
 564 }
 565
 566 static TCGv_i32 read_fp_hreg(DisasContext *s, int reg)
 567 {
 568     TCGv_i32 v = tcg_temp_new_i32();
 569
 570     tcg_gen_ld16u_i32(v, cpu_env, fp_reg_offset(s, reg, MO_16));
 571     return v;
 572 }
 573
 574 /* Clear the bits above an N-bit vector, for N = (is_q ? 128 : 64).
 575  * If SVE is not enabled, then there are only 128 bits in the vector.
 576  */
 577 static void clear_vec_high(DisasContext *s, bool is_q, int rd)
 578 {
 579     unsigned ofs = fp_reg_offset(s, rd, MO_64);
 580     unsigned vsz = vec_full_reg_size(s);
 581
 582     /* Nop move, with side effect of clearing the tail. */
 583     tcg_gen_gvec_mov(MO_64, ofs, ofs, is_q ? 16 : 8, vsz);
 584 }
 585
 586 void write_fp_dreg(DisasContext *s, int reg, TCGv_i64 v)
 587 {
 588     unsigned ofs = fp_reg_offset(s, reg, MO_64);
 589
 590     tcg_gen_st_i64(v, cpu_env, ofs);
 591     clear_vec_high(s, false, reg);
 592 }
 593
 594 static void write_fp_sreg(DisasContext *s, int reg, TCGv_i32 v)
 595 {
 596     TCGv_i64 tmp = tcg_temp_new_i64();
 597
 598     tcg_gen_extu_i32_i64(tmp, v);
 599     write_fp_dreg(s, reg, tmp);
 600     tcg_temp_free_i64(tmp);
 601 }
 602
 603 /* Expand a 2-operand AdvSIMD vector operation using an expander function.  */
 604 static void gen_gvec_fn2(DisasContext *s, bool is_q, int rd, int rn,
 605                          GVecGen2Fn *gvec_fn, int vece)
 606 {
 607     gvec_fn(vece, vec_full_reg_offset(s, rd), vec_full_reg_offset(s, rn),
 608             is_q ? 16 : 8, vec_full_reg_size(s));
 609 }
 610
 611 /* Expand a 2-operand + immediate AdvSIMD vector operation using
 612  * an expander function.
 613  */
 614 static void gen_gvec_fn2i(DisasContext *s, bool is_q, int rd, int rn,
 615                           int64_t imm, GVecGen2iFn *gvec_fn, int vece)
 616 {
 617     gvec_fn(vece, vec_full_reg_offset(s, rd), vec_full_reg_offset(s, rn),
 618             imm, is_q ? 16 : 8, vec_full_reg_size(s));
 619 }
 620
 621 /* Expand a 3-operand AdvSIMD vector operation using an expander function.  */
 622 static void gen_gvec_fn3(DisasContext *s, bool is_q, int rd, int rn, int rm,
 623                          GVecGen3Fn *gvec_fn, int vece)
 624 {
 625     gvec_fn(vece, vec_full_reg_offset(s, rd), vec_full_reg_offset(s, rn),
 626             vec_full_reg_offset(s, rm), is_q ? 16 : 8, vec_full_reg_size(s));
 627 }
 628
 629 /* Expand a 4-operand AdvSIMD vector operation using an expander function.  */
 630 static void gen_gvec_fn4(DisasContext *s, bool is_q, int rd, int rn, int rm,
 631                          int rx, GVecGen4Fn *gvec_fn, int vece)
 632 {
 633     gvec_fn(vece, vec_full_reg_offset(s, rd), vec_full_reg_offset(s, rn),
 634             vec_full_reg_offset(s, rm), vec_full_reg_offset(s, rx),
 635             is_q ? 16 : 8, vec_full_reg_size(s));
 636 }
 637
 638 /* Expand a 2-operand operation using an out-of-line helper.  */
 639 static void gen_gvec_op2_ool(DisasContext *s, bool is_q, int rd,
 640                              int rn, int data, gen_helper_gvec_2 *fn)
 641 {
 642     tcg_gen_gvec_2_ool(vec_full_reg_offset(s, rd),
 643                        vec_full_reg_offset(s, rn),
 644                        is_q ? 16 : 8, vec_full_reg_size(s), data, fn);
 645 }
 646
 647 /* Expand a 3-operand operation using an out-of-line helper.  */
 648 static void gen_gvec_op3_ool(DisasContext *s, bool is_q, int rd,
 649                              int rn, int rm, int data, gen_helper_gvec_3 *fn)
 650 {
 651     tcg_gen_gvec_3_ool(vec_full_reg_offset(s, rd),
 652                        vec_full_reg_offset(s, rn),
 653                        vec_full_reg_offset(s, rm),
 654                        is_q ? 16 : 8, vec_full_reg_size(s), data, fn);
 655 }
 656
 657 /* Expand a 3-operand + fpstatus pointer + simd data value operation using
 658  * an out-of-line helper.
 659  */
 660 static void gen_gvec_op3_fpst(DisasContext *s, bool is_q, int rd, int rn,
 661                               int rm, bool is_fp16, int data,
 662                               gen_helper_gvec_3_ptr *fn)
 663 {
 664     TCGv_ptr fpst = fpstatus_ptr(is_fp16 ? FPST_FPCR_F16 : FPST_FPCR);
 665     tcg_gen_gvec_3_ptr(vec_full_reg_offset(s, rd),
 666                        vec_full_reg_offset(s, rn),
 667                        vec_full_reg_offset(s, rm), fpst,
 668                        is_q ? 16 : 8, vec_full_reg_size(s), data, fn);
 669     tcg_temp_free_ptr(fpst);
 670 }
 671
 672 /* Expand a 3-operand + qc + operation using an out-of-line helper.  */
 673 static void gen_gvec_op3_qc(DisasContext *s, bool is_q, int rd, int rn,
 674                             int rm, gen_helper_gvec_3_ptr *fn)
 675 {
 676     TCGv_ptr qc_ptr = tcg_temp_new_ptr();
 677
 678     tcg_gen_addi_ptr(qc_ptr, cpu_env, offsetof(CPUARMState, vfp.qc));
 679     tcg_gen_gvec_3_ptr(vec_full_reg_offset(s, rd),
 680                        vec_full_reg_offset(s, rn),
 681                        vec_full_reg_offset(s, rm), qc_ptr,
 682                        is_q ? 16 : 8, vec_full_reg_size(s), 0, fn);
 683     tcg_temp_free_ptr(qc_ptr);
 684 }
 685
 686 /* Expand a 4-operand operation using an out-of-line helper.  */
 687 static void gen_gvec_op4_ool(DisasContext *s, bool is_q, int rd, int rn,
 688                              int rm, int ra, int data, gen_helper_gvec_4 *fn)
 689 {
 690     tcg_gen_gvec_4_ool(vec_full_reg_offset(s, rd),
 691                        vec_full_reg_offset(s, rn),
 692                        vec_full_reg_offset(s, rm),
 693                        vec_full_reg_offset(s, ra),
 694                        is_q ? 16 : 8, vec_full_reg_size(s), data, fn);
 695 }
 696
 697 /*
 698  * Expand a 4-operand + fpstatus pointer + simd data value operation using
 699  * an out-of-line helper.
 700  */
 701 static void gen_gvec_op4_fpst(DisasContext *s, bool is_q, int rd, int rn,
 702                               int rm, int ra, bool is_fp16, int data,
 703                               gen_helper_gvec_4_ptr *fn)
 704 {
 705     TCGv_ptr fpst = fpstatus_ptr(is_fp16 ? FPST_FPCR_F16 : FPST_FPCR);
 706     tcg_gen_gvec_4_ptr(vec_full_reg_offset(s, rd),
 707                        vec_full_reg_offset(s, rn),
 708                        vec_full_reg_offset(s, rm),
 709                        vec_full_reg_offset(s, ra), fpst,
 710                        is_q ? 16 : 8, vec_full_reg_size(s), data, fn);
 711     tcg_temp_free_ptr(fpst);
 712 }
 713
 714 /* Set ZF and NF based on a 64 bit result. This is alas fiddlier
 715  * than the 32 bit equivalent.
 716  */
 717 static inline void gen_set_NZ64(TCGv_i64 result)
 718 {
 719     tcg_gen_extr_i64_i32(cpu_ZF, cpu_NF, result);
 720     tcg_gen_or_i32(cpu_ZF, cpu_ZF, cpu_NF);
 721 }
 722
 723 /* Set NZCV as for a logical operation: NZ as per result, CV cleared. */
 724 static inline void gen_logic_CC(int sf, TCGv_i64 result)
 725 {
 726     if (sf) {
 727         gen_set_NZ64(result);
 728     } else {
 729         tcg_gen_extrl_i64_i32(cpu_ZF, result);
 730         tcg_gen_mov_i32(cpu_NF, cpu_ZF);
 731     }
 732     tcg_gen_movi_i32(cpu_CF, 0);
 733     tcg_gen_movi_i32(cpu_VF, 0);
 734 }
 735
 736 /* dest = T0 + T1; compute C, N, V and Z flags */
 737 static void gen_add_CC(int sf, TCGv_i64 dest, TCGv_i64 t0, TCGv_i64 t1)
 738 {
 739     if (sf) {
 740         TCGv_i64 result, flag, tmp;
 741         result = tcg_temp_new_i64();
 742         flag = tcg_temp_new_i64();
 743         tmp = tcg_temp_new_i64();
 744
 745         tcg_gen_movi_i64(tmp, 0);
 746         tcg_gen_add2_i64(result, flag, t0, tmp, t1, tmp);
 747
 748         tcg_gen_extrl_i64_i32(cpu_CF, flag);
 749
 750         gen_set_NZ64(result);
 751
 752         tcg_gen_xor_i64(flag, result, t0);
 753         tcg_gen_xor_i64(tmp, t0, t1);
 754         tcg_gen_andc_i64(flag, flag, tmp);
 755         tcg_temp_free_i64(tmp);
 756         tcg_gen_extrh_i64_i32(cpu_VF, flag);
 757
 758         tcg_gen_mov_i64(dest, result);
 759         tcg_temp_free_i64(result);
 760         tcg_temp_free_i64(flag);
 761     } else {
 762         /* 32 bit arithmetic */
 763         TCGv_i32 t0_32 = tcg_temp_new_i32();
 764         TCGv_i32 t1_32 = tcg_temp_new_i32();
 765         TCGv_i32 tmp = tcg_temp_new_i32();
 766
 767         tcg_gen_movi_i32(tmp, 0);
 768         tcg_gen_extrl_i64_i32(t0_32, t0);
 769         tcg_gen_extrl_i64_i32(t1_32, t1);
 770         tcg_gen_add2_i32(cpu_NF, cpu_CF, t0_32, tmp, t1_32, tmp);
 771         tcg_gen_mov_i32(cpu_ZF, cpu_NF);
 772         tcg_gen_xor_i32(cpu_VF, cpu_NF, t0_32);
 773         tcg_gen_xor_i32(tmp, t0_32, t1_32);
 774         tcg_gen_andc_i32(cpu_VF, cpu_VF, tmp);
 775         tcg_gen_extu_i32_i64(dest, cpu_NF);
 776
 777         tcg_temp_free_i32(tmp);
 778         tcg_temp_free_i32(t0_32);
 779         tcg_temp_free_i32(t1_32);
 780     }
 781 }
 782
 783 /* dest = T0 - T1; compute C, N, V and Z flags */
 784 static void gen_sub_CC(int sf, TCGv_i64 dest, TCGv_i64 t0, TCGv_i64 t1)
 785 {
 786     if (sf) {
 787         /* 64 bit arithmetic */
 788         TCGv_i64 result, flag, tmp;
 789
 790         result = tcg_temp_new_i64();
 791         flag = tcg_temp_new_i64();
 792         tcg_gen_sub_i64(result, t0, t1);
 793
 794         gen_set_NZ64(result);
 795
 796         tcg_gen_setcond_i64(TCG_COND_GEU, flag, t0, t1);
 797         tcg_gen_extrl_i64_i32(cpu_CF, flag);
 798
 799         tcg_gen_xor_i64(flag, result, t0);
 800         tmp = tcg_temp_new_i64();
 801         tcg_gen_xor_i64(tmp, t0, t1);
 802         tcg_gen_and_i64(flag, flag, tmp);
 803         tcg_temp_free_i64(tmp);
 804         tcg_gen_extrh_i64_i32(cpu_VF, flag);
 805         tcg_gen_mov_i64(dest, result);
 806         tcg_temp_free_i64(flag);
 807         tcg_temp_free_i64(result);
 808     } else {
 809         /* 32 bit arithmetic */
 810         TCGv_i32 t0_32 = tcg_temp_new_i32();
 811         TCGv_i32 t1_32 = tcg_temp_new_i32();
 812         TCGv_i32 tmp;
 813
 814         tcg_gen_extrl_i64_i32(t0_32, t0);
 815         tcg_gen_extrl_i64_i32(t1_32, t1);
 816         tcg_gen_sub_i32(cpu_NF, t0_32, t1_32);
 817         tcg_gen_mov_i32(cpu_ZF, cpu_NF);
 818         tcg_gen_setcond_i32(TCG_COND_GEU, cpu_CF, t0_32, t1_32);
 819         tcg_gen_xor_i32(cpu_VF, cpu_NF, t0_32);
 820         tmp = tcg_temp_new_i32();
 821         tcg_gen_xor_i32(tmp, t0_32, t1_32);
 822         tcg_temp_free_i32(t0_32);
 823         tcg_temp_free_i32(t1_32);
 824         tcg_gen_and_i32(cpu_VF, cpu_VF, tmp);
 825         tcg_temp_free_i32(tmp);
 826         tcg_gen_extu_i32_i64(dest, cpu_NF);
 827     }
 828 }
 829
 830 /* dest = T0 + T1 + CF; do not compute flags. */
 831 static void gen_adc(int sf, TCGv_i64 dest, TCGv_i64 t0, TCGv_i64 t1)
 832 {
 833     TCGv_i64 flag = tcg_temp_new_i64();
 834     tcg_gen_extu_i32_i64(flag, cpu_CF);
 835     tcg_gen_add_i64(dest, t0, t1);
 836     tcg_gen_add_i64(dest, dest, flag);
 837     tcg_temp_free_i64(flag);
 838
 839     if (!sf) {
 840         tcg_gen_ext32u_i64(dest, dest);
 841     }
 842 }
 843
 844 /* dest = T0 + T1 + CF; compute C, N, V and Z flags. */
 845 static void gen_adc_CC(int sf, TCGv_i64 dest, TCGv_i64 t0, TCGv_i64 t1)
 846 {
 847     if (sf) {
 848         TCGv_i64 result, cf_64, vf_64, tmp;
 849         result = tcg_temp_new_i64();
 850         cf_64 = tcg_temp_new_i64();
 851         vf_64 = tcg_temp_new_i64();
 852         tmp = tcg_const_i64(0);
 853
 854         tcg_gen_extu_i32_i64(cf_64, cpu_CF);
 855         tcg_gen_add2_i64(result, cf_64, t0, tmp, cf_64, tmp);
 856         tcg_gen_add2_i64(result, cf_64, result, cf_64, t1, tmp);
 857         tcg_gen_extrl_i64_i32(cpu_CF, cf_64);
 858         gen_set_NZ64(result);
 859
 860         tcg_gen_xor_i64(vf_64, result, t0);
 861         tcg_gen_xor_i64(tmp, t0, t1);
 862         tcg_gen_andc_i64(vf_64, vf_64, tmp);
 863         tcg_gen_extrh_i64_i32(cpu_VF, vf_64);
 864
 865         tcg_gen_mov_i64(dest, result);
 866
 867         tcg_temp_free_i64(tmp);
 868         tcg_temp_free_i64(vf_64);
 869         tcg_temp_free_i64(cf_64);
 870         tcg_temp_free_i64(result);
 871     } else {
 872         TCGv_i32 t0_32, t1_32, tmp;
 873         t0_32 = tcg_temp_new_i32();
 874         t1_32 = tcg_temp_new_i32();
 875         tmp = tcg_const_i32(0);
 876
 877         tcg_gen_extrl_i64_i32(t0_32, t0);
 878         tcg_gen_extrl_i64_i32(t1_32, t1);
 879         tcg_gen_add2_i32(cpu_NF, cpu_CF, t0_32, tmp, cpu_CF, tmp);
 880         tcg_gen_add2_i32(cpu_NF, cpu_CF, cpu_NF, cpu_CF, t1_32, tmp);
 881
 882         tcg_gen_mov_i32(cpu_ZF, cpu_NF);
 883         tcg_gen_xor_i32(cpu_VF, cpu_NF, t0_32);
 884         tcg_gen_xor_i32(tmp, t0_32, t1_32);
 885         tcg_gen_andc_i32(cpu_VF, cpu_VF, tmp);
 886         tcg_gen_extu_i32_i64(dest, cpu_NF);
 887
 888         tcg_temp_free_i32(tmp);
 889         tcg_temp_free_i32(t1_32);
 890         tcg_temp_free_i32(t0_32);
 891     }
 892 }
 893
 894 /*
 895  * Load/Store generators
 896  */
 897
 898 /*
 899  * Store from GPR register to memory.
 900  */
 901 static void do_gpr_st_memidx(DisasContext *s, TCGv_i64 source,
 902                              TCGv_i64 tcg_addr, MemOp memop, int memidx,
 903                              bool iss_valid,
 904                              unsigned int iss_srt,
 905                              bool iss_sf, bool iss_ar)
 906 {
 907     memop = finalize_memop(s, memop);
 908     tcg_gen_qemu_st_i64(source, tcg_addr, memidx, memop);
 909
 910     if (iss_valid) {
 911         uint32_t syn;
 912
 913         syn = syn_data_abort_with_iss(0,
 914                                       (memop & MO_SIZE),
 915                                       false,
 916                                       iss_srt,
 917                                       iss_sf,
 918                                       iss_ar,
 919                                       0, 0, 0, 0, 0, false);
 920         disas_set_insn_syndrome(s, syn);
 921     }
 922 }
 923
 924 static void do_gpr_st(DisasContext *s, TCGv_i64 source,
 925                       TCGv_i64 tcg_addr, MemOp memop,
 926                       bool iss_valid,
 927                       unsigned int iss_srt,
 928                       bool iss_sf, bool iss_ar)
 929 {
 930     do_gpr_st_memidx(s, source, tcg_addr, memop, get_mem_index(s),
 931                      iss_valid, iss_srt, iss_sf, iss_ar);
 932 }
 933
 934 /*
 935  * Load from memory to GPR register
 936  */
 937 static void do_gpr_ld_memidx(DisasContext *s, TCGv_i64 dest, TCGv_i64 tcg_addr,
 938                              MemOp memop, bool extend, int memidx,
 939                              bool iss_valid, unsigned int iss_srt,
 940                              bool iss_sf, bool iss_ar)
 941 {
 942     memop = finalize_memop(s, memop);
 943     tcg_gen_qemu_ld_i64(dest, tcg_addr, memidx, memop);
 944
 945     if (extend && (memop & MO_SIGN)) {
 946         g_assert((memop & MO_SIZE) <= MO_32);
 947         tcg_gen_ext32u_i64(dest, dest);
 948     }
 949
 950     if (iss_valid) {
 951         uint32_t syn;
 952
 953         syn = syn_data_abort_with_iss(0,
 954                                       (memop & MO_SIZE),
 955                                       (memop & MO_SIGN) != 0,
 956                                       iss_srt,
 957                                       iss_sf,
 958                                       iss_ar,
 959                                       0, 0, 0, 0, 0, false);
 960         disas_set_insn_syndrome(s, syn);
 961     }
 962 }
 963
 964 static void do_gpr_ld(DisasContext *s, TCGv_i64 dest, TCGv_i64 tcg_addr,
 965                       MemOp memop, bool extend,
 966                       bool iss_valid, unsigned int iss_srt,
 967                       bool iss_sf, bool iss_ar)
 968 {
 969     do_gpr_ld_memidx(s, dest, tcg_addr, memop, extend, get_mem_index(s),
 970                      iss_valid, iss_srt, iss_sf, iss_ar);
 971 }
 972
 973 /*
 974  * Store from FP register to memory
 975  */
 976 static void do_fp_st(DisasContext *s, int srcidx, TCGv_i64 tcg_addr, int size)
 977 {
 978     /* This writes the bottom N bits of a 128 bit wide vector to memory */
 979     TCGv_i64 tmplo = tcg_temp_new_i64();
 980     MemOp mop;
 981
 982     tcg_gen_ld_i64(tmplo, cpu_env, fp_reg_offset(s, srcidx, MO_64));
 983
 984     if (size < 4) {
 985         mop = finalize_memop(s, size);
 986         tcg_gen_qemu_st_i64(tmplo, tcg_addr, get_mem_index(s), mop);
 987     } else {
 988         bool be = s->be_data == MO_BE;
 989         TCGv_i64 tcg_hiaddr = tcg_temp_new_i64();
 990         TCGv_i64 tmphi = tcg_temp_new_i64();
 991
 992         tcg_gen_ld_i64(tmphi, cpu_env, fp_reg_hi_offset(s, srcidx));
 993
 994         mop = s->be_data | MO_Q;
 995         tcg_gen_qemu_st_i64(be ? tmphi : tmplo, tcg_addr, get_mem_index(s),
 996                             mop | (s->align_mem ? MO_ALIGN_16 : 0));
 997         tcg_gen_addi_i64(tcg_hiaddr, tcg_addr, 8);
 998         tcg_gen_qemu_st_i64(be ? tmplo : tmphi, tcg_hiaddr,
 999                             get_mem_index(s), mop);
1000
1001         tcg_temp_free_i64(tcg_hiaddr);
1002         tcg_temp_free_i64(tmphi);
1003     }
1004
1005     tcg_temp_free_i64(tmplo);
1006 }
1007
1008 /*
1009  * Load from memory to FP register
1010  */
1011 static void do_fp_ld(DisasContext *s, int destidx, TCGv_i64 tcg_addr, int size)
1012 {
1013     /* This always zero-extends and writes to a full 128 bit wide vector */
1014     TCGv_i64 tmplo = tcg_temp_new_i64();
1015     TCGv_i64 tmphi = NULL;
1016     MemOp mop;
1017
1018     if (size < 4) {
1019         mop = finalize_memop(s, size);
1020         tcg_gen_qemu_ld_i64(tmplo, tcg_addr, get_mem_index(s), mop);
1021     } else {
1022         bool be = s->be_data == MO_BE;
1023         TCGv_i64 tcg_hiaddr;
1024
1025         tmphi = tcg_temp_new_i64();
1026         tcg_hiaddr = tcg_temp_new_i64();
1027
1028         mop = s->be_data | MO_Q;
1029         tcg_gen_qemu_ld_i64(be ? tmphi : tmplo, tcg_addr, get_mem_index(s),
1030                             mop | (s->align_mem ? MO_ALIGN_16 : 0));
1031         tcg_gen_addi_i64(tcg_hiaddr, tcg_addr, 8);
1032         tcg_gen_qemu_ld_i64(be ? tmplo : tmphi, tcg_hiaddr,
1033                             get_mem_index(s), mop);
1034         tcg_temp_free_i64(tcg_hiaddr);
1035     }
1036
1037     tcg_gen_st_i64(tmplo, cpu_env, fp_reg_offset(s, destidx, MO_64));
1038     tcg_temp_free_i64(tmplo);
1039
1040     if (tmphi) {
1041         tcg_gen_st_i64(tmphi, cpu_env, fp_reg_hi_offset(s, destidx));
1042         tcg_temp_free_i64(tmphi);
1043     }
1044     clear_vec_high(s, tmphi != NULL, destidx);
1045 }
1046
1047 /*
1048  * Vector load/store helpers.
1049  *
1050  * The principal difference between this and a FP load is that we don't
1051  * zero extend as we are filling a partial chunk of the vector register.
1052  * These functions don't support 128 bit loads/stores, which would be
1053  * normal load/store operations.
1054  *
1055  * The _i32 versions are useful when operating on 32 bit quantities
1056  * (eg for floating point single or using Neon helper functions).
1057  */
1058
1059 /* Get value of an element within a vector register */
1060 static void read_vec_element(DisasContext *s, TCGv_i64 tcg_dest, int srcidx,
1061                              int element, MemOp memop)
1062 {
1063     int vect_off = vec_reg_offset(s, srcidx, element, memop & MO_SIZE);
1064     switch (memop) {
1065     case MO_8:
1066         tcg_gen_ld8u_i64(tcg_dest, cpu_env, vect_off);
1067         break;
1068     case MO_16:
1069         tcg_gen_ld16u_i64(tcg_dest, cpu_env, vect_off);
1070         break;
1071     case MO_32:
1072         tcg_gen_ld32u_i64(tcg_dest, cpu_env, vect_off);
1073         break;
1074     case MO_8|MO_SIGN:
1075         tcg_gen_ld8s_i64(tcg_dest, cpu_env, vect_off);
1076         break;
1077     case MO_16|MO_SIGN:
1078         tcg_gen_ld16s_i64(tcg_dest, cpu_env, vect_off);
1079         break;
1080     case MO_32|MO_SIGN:
1081         tcg_gen_ld32s_i64(tcg_dest, cpu_env, vect_off);
1082         break;
1083     case MO_64:
1084     case MO_64|MO_SIGN:
1085         tcg_gen_ld_i64(tcg_dest, cpu_env, vect_off);
1086         break;
1087     default:
1088         g_assert_not_reached();
1089     }
1090 }
1091
1092 static void read_vec_element_i32(DisasContext *s, TCGv_i32 tcg_dest, int srcidx,
1093                                  int element, MemOp memop)
1094 {
1095     int vect_off = vec_reg_offset(s, srcidx, element, memop & MO_SIZE);
1096     switch (memop) {
1097     case MO_8:
1098         tcg_gen_ld8u_i32(tcg_dest, cpu_env, vect_off);
1099         break;
1100     case MO_16:
1101         tcg_gen_ld16u_i32(tcg_dest, cpu_env, vect_off);
1102         break;
1103     case MO_8|MO_SIGN:
1104         tcg_gen_ld8s_i32(tcg_dest, cpu_env, vect_off);
1105         break;
1106     case MO_16|MO_SIGN:
1107         tcg_gen_ld16s_i32(tcg_dest, cpu_env, vect_off);
1108         break;
1109     case MO_32:
1110     case MO_32|MO_SIGN:
1111         tcg_gen_ld_i32(tcg_dest, cpu_env, vect_off);
1112         break;
1113     default:
1114         g_assert_not_reached();
1115     }
1116 }
1117
1118 /* Set value of an element within a vector register */
1119 static void write_vec_element(DisasContext *s, TCGv_i64 tcg_src, int destidx,
1120                               int element, MemOp memop)
1121 {
1122     int vect_off = vec_reg_offset(s, destidx, element, memop & MO_SIZE);
1123     switch (memop) {
1124     case MO_8:
1125         tcg_gen_st8_i64(tcg_src, cpu_env, vect_off);
1126         break;
1127     case MO_16:
1128         tcg_gen_st16_i64(tcg_src, cpu_env, vect_off);
1129         break;
1130     case MO_32:
1131         tcg_gen_st32_i64(tcg_src, cpu_env, vect_off);
1132         break;
1133     case MO_64:
1134         tcg_gen_st_i64(tcg_src, cpu_env, vect_off);
1135         break;
1136     default:
1137         g_assert_not_reached();
1138     }
1139 }
1140
1141 static void write_vec_element_i32(DisasContext *s, TCGv_i32 tcg_src,
1142                                   int destidx, int element, MemOp memop)
1143 {
1144     int vect_off = vec_reg_offset(s, destidx, element, memop & MO_SIZE);
1145     switch (memop) {
1146     case MO_8:
1147         tcg_gen_st8_i32(tcg_src, cpu_env, vect_off);
1148         break;
1149     case MO_16:
1150         tcg_gen_st16_i32(tcg_src, cpu_env, vect_off);
1151         break;
1152     case MO_32:
1153         tcg_gen_st_i32(tcg_src, cpu_env, vect_off);
1154         break;
1155     default:
1156         g_assert_not_reached();
1157     }
1158 }
1159
1160 /* Store from vector register to memory */
1161 static void do_vec_st(DisasContext *s, int srcidx, int element,
1162                       TCGv_i64 tcg_addr, MemOp mop)
1163 {
1164     TCGv_i64 tcg_tmp = tcg_temp_new_i64();
1165
1166     read_vec_element(s, tcg_tmp, srcidx, element, mop & MO_SIZE);
1167     tcg_gen_qemu_st_i64(tcg_tmp, tcg_addr, get_mem_index(s), mop);
1168
1169     tcg_temp_free_i64(tcg_tmp);
1170 }
1171
1172 /* Load from memory to vector register */
1173 static void do_vec_ld(DisasContext *s, int destidx, int element,
1174                       TCGv_i64 tcg_addr, MemOp mop)
1175 {
1176     TCGv_i64 tcg_tmp = tcg_temp_new_i64();
1177
1178     tcg_gen_qemu_ld_i64(tcg_tmp, tcg_addr, get_mem_index(s), mop);
1179     write_vec_element(s, tcg_tmp, destidx, element, mop & MO_SIZE);
1180
1181     tcg_temp_free_i64(tcg_tmp);
1182 }
1183
1184 /* Check that FP/Neon access is enabled. If it is, return
1185  * true. If not, emit code to generate an appropriate exception,
1186  * and return false; the caller should not emit any code for
1187  * the instruction. Note that this check must happen after all
1188  * unallocated-encoding checks (otherwise the syndrome information
1189  * for the resulting exception will be incorrect).
1190  */
1191 static bool fp_access_check(DisasContext *s)
1192 {
1193     if (s->fp_excp_el) {
1194         assert(!s->fp_access_checked);
1195         s->fp_access_checked = true;
1196
1197         gen_exception_insn(s, s->pc_curr, EXCP_UDEF,
1198                            syn_fp_access_trap(1, 0xe, false), s->fp_excp_el);
1199         return false;
1200     }
1201     s->fp_access_checked = true;
1202     return true;
1203 }
1204
1205 /* Check that SVE access is enabled.  If it is, return true.
1206  * If not, emit code to generate an appropriate exception and return false.
1207  */
1208 bool sve_access_check(DisasContext *s)
1209 {
1210     if (s->sve_excp_el) {
1211         assert(!s->sve_access_checked);
1212         s->sve_access_checked = true;
1213
1214         gen_exception_insn(s, s->pc_curr, EXCP_UDEF,
1215                            syn_sve_access_trap(), s->sve_excp_el);
1216         return false;
1217     }
1218     s->sve_access_checked = true;
1219     return fp_access_check(s);
1220 }
1221
1222 /*
1223  * This utility function is for doing register extension with an
1224  * optional shift. You will likely want to pass a temporary for the
1225  * destination register. See DecodeRegExtend() in the ARM ARM.
1226  */
1227 static void ext_and_shift_reg(TCGv_i64 tcg_out, TCGv_i64 tcg_in,
1228                               int option, unsigned int shift)
1229 {
1230     int extsize = extract32(option, 0, 2);
1231     bool is_signed = extract32(option, 2, 1);
1232
1233     if (is_signed) {
1234         switch (extsize) {
1235         case 0:
1236             tcg_gen_ext8s_i64(tcg_out, tcg_in);
1237             break;
1238         case 1:
1239             tcg_gen_ext16s_i64(tcg_out, tcg_in);
1240             break;
1241         case 2:
1242             tcg_gen_ext32s_i64(tcg_out, tcg_in);
1243             break;
1244         case 3:
1245             tcg_gen_mov_i64(tcg_out, tcg_in);
1246             break;
1247         }
1248     } else {
1249         switch (extsize) {
1250         case 0:
1251             tcg_gen_ext8u_i64(tcg_out, tcg_in);
1252             break;
1253         case 1:
1254             tcg_gen_ext16u_i64(tcg_out, tcg_in);
1255             break;
1256         case 2:
1257             tcg_gen_ext32u_i64(tcg_out, tcg_in);
1258             break;
1259         case 3:
1260             tcg_gen_mov_i64(tcg_out, tcg_in);
1261             break;
1262         }
1263     }
1264
1265     if (shift) {
1266         tcg_gen_shli_i64(tcg_out, tcg_out, shift);
1267     }
1268 }
1269
1270 static inline void gen_check_sp_alignment(DisasContext *s)
1271 {
1272     /* The AArch64 architecture mandates that (if enabled via PSTATE
1273      * or SCTLR bits) there is a check that SP is 16-aligned on every
1274      * SP-relative load or store (with an exception generated if it is not).
1275      * In line with general QEMU practice regarding misaligned accesses,
1276      * we omit these checks for the sake of guest program performance.
1277      * This function is provided as a hook so we can more easily add these
1278      * checks in future (possibly as a "favour catching guest program bugs
1279      * over speed" user selectable option).
1280      */
1281 }
1282
1283 /*
1284  * This provides a simple table based table lookup decoder. It is
1285  * intended to be used when the relevant bits for decode are too
1286  * awkwardly placed and switch/if based logic would be confusing and
1287  * deeply nested. Since it's a linear search through the table, tables
1288  * should be kept small.
1289  *
1290  * It returns the first handler where insn & mask == pattern, or
1291  * NULL if there is no match.
1292  * The table is terminated by an empty mask (i.e. 0)
1293  */
1294 static inline AArch64DecodeFn *lookup_disas_fn(const AArch64DecodeTable *table,
1295                                                uint32_t insn)
1296 {
1297     const AArch64DecodeTable *tptr = table;
1298
1299     while (tptr->mask) {
1300         if ((insn & tptr->mask) == tptr->pattern) {
1301             return tptr->disas_fn;
1302         }
1303         tptr++;
1304     }
1305     return NULL;
1306 }
1307
1308 /*
1309  * The instruction disassembly implemented here matches
1310  * the instruction encoding classifications in chapter C4
1311  * of the ARM Architecture Reference Manual (DDI0487B_a);
1312  * classification names and decode diagrams here should generally
1313  * match up with those in the manual.
1314  */
1315
1316 /* Unconditional branch (immediate)
1317  *   31  30       26 25                                  0
1318  * +----+-----------+-------------------------------------+
1319  * | op | 0 0 1 0 1 |                 imm26               |
1320  * +----+-----------+-------------------------------------+
1321  */
1322 static void disas_uncond_b_imm(DisasContext *s, uint32_t insn)
1323 {
1324     uint64_t addr = s->pc_curr + sextract32(insn, 0, 26) * 4;
1325
1326     if (insn & (1U << 31)) {
1327         /* BL Branch with link */
1328         tcg_gen_movi_i64(cpu_reg(s, 30), s->base.pc_next);
1329     }
1330
1331     /* B Branch / BL Branch with link */
1332     reset_btype(s);
1333     gen_goto_tb(s, 0, addr);
1334 }
1335
1336 /* Compare and branch (immediate)
1337  *   31  30         25  24  23                  5 4      0
1338  * +----+-------------+----+---------------------+--------+
1339  * | sf | 0 1 1 0 1 0 | op |         imm19       |   Rt   |
1340  * +----+-------------+----+---------------------+--------+
1341  */
1342 static void disas_comp_b_imm(DisasContext *s, uint32_t insn)
1343 {
1344     unsigned int sf, op, rt;
1345     uint64_t addr;
1346     TCGLabel *label_match;
1347     TCGv_i64 tcg_cmp;
1348
1349     sf = extract32(insn, 31, 1);
1350     op = extract32(insn, 24, 1); /* 0: CBZ; 1: CBNZ */
1351     rt = extract32(insn, 0, 5);
1352     addr = s->pc_curr + sextract32(insn, 5, 19) * 4;
1353
1354     tcg_cmp = read_cpu_reg(s, rt, sf);
1355     label_match = gen_new_label();
1356
1357     reset_btype(s);
1358     tcg_gen_brcondi_i64(op ? TCG_COND_NE : TCG_COND_EQ,
1359                         tcg_cmp, 0, label_match);
1360
1361     gen_goto_tb(s, 0, s->base.pc_next);
1362     gen_set_label(label_match);
1363     gen_goto_tb(s, 1, addr);
1364 }
1365
1366 /* Test and branch (immediate)
1367  *   31  30         25  24  23   19 18          5 4    0
1368  * +----+-------------+----+-------+-------------+------+
1369  * | b5 | 0 1 1 0 1 1 | op |  b40  |    imm14    |  Rt  |
1370  * +----+-------------+----+-------+-------------+------+
1371  */
1372 static void disas_test_b_imm(DisasContext *s, uint32_t insn)
1373 {
1374     unsigned int bit_pos, op, rt;
1375     uint64_t addr;
1376     TCGLabel *label_match;
1377     TCGv_i64 tcg_cmp;
1378
1379     bit_pos = (extract32(insn, 31, 1) << 5) | extract32(insn, 19, 5);
1380     op = extract32(insn, 24, 1); /* 0: TBZ; 1: TBNZ */
1381     addr = s->pc_curr + sextract32(insn, 5, 14) * 4;
1382     rt = extract32(insn, 0, 5);
1383
1384     tcg_cmp = tcg_temp_new_i64();
1385     tcg_gen_andi_i64(tcg_cmp, cpu_reg(s, rt), (1ULL << bit_pos));
1386     label_match = gen_new_label();
1387
1388     reset_btype(s);
1389     tcg_gen_brcondi_i64(op ? TCG_COND_NE : TCG_COND_EQ,
1390                         tcg_cmp, 0, label_match);
1391     tcg_temp_free_i64(tcg_cmp);
1392     gen_goto_tb(s, 0, s->base.pc_next);
1393     gen_set_label(label_match);
1394     gen_goto_tb(s, 1, addr);
1395 }
1396
1397 /* Conditional branch (immediate)
1398  *  31           25  24  23                  5   4  3    0
1399  * +---------------+----+---------------------+----+------+
1400  * | 0 1 0 1 0 1 0 | o1 |         imm19       | o0 | cond |
1401  * +---------------+----+---------------------+----+------+
1402  */
1403 static void disas_cond_b_imm(DisasContext *s, uint32_t insn)
1404 {
1405     unsigned int cond;
1406     uint64_t addr;
1407
1408     if ((insn & (1 << 4)) || (insn & (1 << 24))) {
1409         unallocated_encoding(s);
1410         return;
1411     }
1412     addr = s->pc_curr + sextract32(insn, 5, 19) * 4;
1413     cond = extract32(insn, 0, 4);
1414
1415     reset_btype(s);
1416     if (cond < 0x0e) {
1417         /* genuinely conditional branches */
1418         TCGLabel *label_match = gen_new_label();
1419         arm_gen_test_cc(cond, label_match);
1420         gen_goto_tb(s, 0, s->base.pc_next);
1421         gen_set_label(label_match);
1422         gen_goto_tb(s, 1, addr);
1423     } else {
1424         /* 0xe and 0xf are both "always" conditions */
1425         gen_goto_tb(s, 0, addr);
1426     }
1427 }
1428
1429 /* HINT instruction group, including various allocated HINTs */
1430 static void handle_hint(DisasContext *s, uint32_t insn,
1431                         unsigned int op1, unsigned int op2, unsigned int crm)
1432 {
1433     unsigned int selector = crm << 3 | op2;
1434
1435     if (op1 != 3) {
1436         unallocated_encoding(s);
1437         return;
1438     }
1439
1440     switch (selector) {
1441     case 0b00000: /* NOP */
1442         break;
1443     case 0b00011: /* WFI */
1444         s->base.is_jmp = DISAS_WFI;
1445         break;
1446     case 0b00001: /* YIELD */
1447         /* When running in MTTCG we don't generate jumps to the yield and
1448          * WFE helpers as it won't affect the scheduling of other vCPUs.
1449          * If we wanted to more completely model WFE/SEV so we don't busy
1450          * spin unnecessarily we would need to do something more involved.
1451          */
1452         if (!(tb_cflags(s->base.tb) & CF_PARALLEL)) {
1453             s->base.is_jmp = DISAS_YIELD;
1454         }
1455         break;
1456     case 0b00010: /* WFE */
1457         if (!(tb_cflags(s->base.tb) & CF_PARALLEL)) {
1458             s->base.is_jmp = DISAS_WFE;
1459         }
1460         break;
1461     case 0b00100: /* SEV */
1462     case 0b00101: /* SEVL */
1463         /* we treat all as NOP at least for now */
1464         break;
1465     case 0b00111: /* XPACLRI */
1466         if (s->pauth_active) {
1467             gen_helper_xpaci(cpu_X[30], cpu_env, cpu_X[30]);
1468         }
1469         break;
1470     case 0b01000: /* PACIA1716 */
1471         if (s->pauth_active) {
1472             gen_helper_pacia(cpu_X[17], cpu_env, cpu_X[17], cpu_X[16]);
1473         }
1474         break;
1475     case 0b01010: /* PACIB1716 */
1476         if (s->pauth_active) {
1477             gen_helper_pacib(cpu_X[17], cpu_env, cpu_X[17], cpu_X[16]);
1478         }
1479         break;
1480     case 0b01100: /* AUTIA1716 */
1481         if (s->pauth_active) {
1482             gen_helper_autia(cpu_X[17], cpu_env, cpu_X[17], cpu_X[16]);
1483         }
1484         break;
1485     case 0b01110: /* AUTIB1716 */
1486         if (s->pauth_active) {
1487             gen_helper_autib(cpu_X[17], cpu_env, cpu_X[17], cpu_X[16]);
1488         }
1489         break;
1490     case 0b11000: /* PACIAZ */
1491         if (s->pauth_active) {
1492             gen_helper_pacia(cpu_X[30], cpu_env, cpu_X[30],
1493                                 new_tmp_a64_zero(s));
1494         }
1495         break;
1496     case 0b11001: /* PACIASP */
1497         if (s->pauth_active) {
1498             gen_helper_pacia(cpu_X[30], cpu_env, cpu_X[30], cpu_X[31]);
1499         }
1500         break;
1501     case 0b11010: /* PACIBZ */
1502         if (s->pauth_active) {
1503             gen_helper_pacib(cpu_X[30], cpu_env, cpu_X[30],
1504                                 new_tmp_a64_zero(s));
1505         }
1506         break;
1507     case 0b11011: /* PACIBSP */
1508         if (s->pauth_active) {
1509             gen_helper_pacib(cpu_X[30], cpu_env, cpu_X[30], cpu_X[31]);
1510         }
1511         break;
1512     case 0b11100: /* AUTIAZ */
1513         if (s->pauth_active) {
1514             gen_helper_autia(cpu_X[30], cpu_env, cpu_X[30],
1515                               new_tmp_a64_zero(s));
1516         }
1517         break;
1518     case 0b11101: /* AUTIASP */
1519         if (s->pauth_active) {
1520             gen_helper_autia(cpu_X[30], cpu_env, cpu_X[30], cpu_X[31]);
1521         }
1522         break;
1523     case 0b11110: /* AUTIBZ */
1524         if (s->pauth_active) {
1525             gen_helper_autib(cpu_X[30], cpu_env, cpu_X[30],
1526                               new_tmp_a64_zero(s));
1527         }
1528         break;
1529     case 0b11111: /* AUTIBSP */
1530         if (s->pauth_active) {
1531             gen_helper_autib(cpu_X[30], cpu_env, cpu_X[30], cpu_X[31]);
1532         }
1533         break;
1534     default:
1535         /* default specified as NOP equivalent */
1536         break;
1537     }
1538 }
1539
1540 static void gen_clrex(DisasContext *s, uint32_t insn)
1541 {
1542     tcg_gen_movi_i64(cpu_exclusive_addr, -1);
1543 }
1544
1545 /* CLREX, DSB, DMB, ISB */
1546 static void handle_sync(DisasContext *s, uint32_t insn,
1547                         unsigned int op1, unsigned int op2, unsigned int crm)
1548 {
1549     TCGBar bar;
1550
1551     if (op1 != 3) {
1552         unallocated_encoding(s);
1553         return;
1554     }
1555
1556     switch (op2) {
1557     case 2: /* CLREX */
1558         gen_clrex(s, insn);
1559         return;
1560     case 4: /* DSB */
1561     case 5: /* DMB */
1562         switch (crm & 3) {
1563         case 1: /* MBReqTypes_Reads */
1564             bar = TCG_BAR_SC | TCG_MO_LD_LD | TCG_MO_LD_ST;
1565             break;
1566         case 2: /* MBReqTypes_Writes */
1567             bar = TCG_BAR_SC | TCG_MO_ST_ST;
1568             break;
1569         default: /* MBReqTypes_All */
1570             bar = TCG_BAR_SC | TCG_MO_ALL;
1571             break;
1572         }
1573         tcg_gen_mb(bar);
1574         return;
1575     case 6: /* ISB */
1576         /* We need to break the TB after this insn to execute
1577          * a self-modified code correctly and also to take
1578          * any pending interrupts immediately.
1579          */
1580         reset_btype(s);
1581         gen_goto_tb(s, 0, s->base.pc_next);
1582         return;
1583
1584     case 7: /* SB */
1585         if (crm != 0 || !dc_isar_feature(aa64_sb, s)) {
1586             goto do_unallocated;
1587         }
1588         /*
1589          * TODO: There is no speculation barrier opcode for TCG;
1590          * MB and end the TB instead.
1591          */
1592         tcg_gen_mb(TCG_MO_ALL | TCG_BAR_SC);
1593         gen_goto_tb(s, 0, s->base.pc_next);
1594         return;
1595
1596     default:
1597     do_unallocated:
1598         unallocated_encoding(s);
1599         return;
1600     }
1601 }
1602
1603 static void gen_xaflag(void)
1604 {
1605     TCGv_i32 z = tcg_temp_new_i32();
1606
1607     tcg_gen_setcondi_i32(TCG_COND_EQ, z, cpu_ZF, 0);
1608
1609     /*
1610      * (!C & !Z) << 31
1611      * (!(C | Z)) << 31
1612      * ~((C | Z) << 31)
1613      * ~-(C | Z)
1614      * (C | Z) - 1
1615      */
1616     tcg_gen_or_i32(cpu_NF, cpu_CF, z);
1617     tcg_gen_subi_i32(cpu_NF, cpu_NF, 1);
1618
1619     /* !(Z & C) */
1620     tcg_gen_and_i32(cpu_ZF, z, cpu_CF);
1621     tcg_gen_xori_i32(cpu_ZF, cpu_ZF, 1);
1622
1623     /* (!C & Z) << 31 -> -(Z & ~C) */
1624     tcg_gen_andc_i32(cpu_VF, z, cpu_CF);
1625     tcg_gen_neg_i32(cpu_VF, cpu_VF);
1626
1627     /* C | Z */
1628     tcg_gen_or_i32(cpu_CF, cpu_CF, z);
1629
1630     tcg_temp_free_i32(z);
1631 }
1632
1633 static void gen_axflag(void)
1634 {
1635     tcg_gen_sari_i32(cpu_VF, cpu_VF, 31);         /* V ? -1 : 0 */
1636     tcg_gen_andc_i32(cpu_CF, cpu_CF, cpu_VF);     /* C & !V */
1637
1638     /* !(Z | V) -> !(!ZF | V) -> ZF & !V -> ZF & ~VF */
1639     tcg_gen_andc_i32(cpu_ZF, cpu_ZF, cpu_VF);
1640
1641     tcg_gen_movi_i32(cpu_NF, 0);
1642     tcg_gen_movi_i32(cpu_VF, 0);
1643 }
1644
1645 /* MSR (immediate) - move immediate to processor state field */
1646 static void handle_msr_i(DisasContext *s, uint32_t insn,
1647                          unsigned int op1, unsigned int op2, unsigned int crm)
1648 {
1649     TCGv_i32 t1;
1650     int op = op1 << 3 | op2;
1651
1652     /* End the TB by default, chaining is ok.  */
1653     s->base.is_jmp = DISAS_TOO_MANY;
1654
1655     switch (op) {
1656     case 0x00: /* CFINV */
1657         if (crm != 0 || !dc_isar_feature(aa64_condm_4, s)) {
1658             goto do_unallocated;
1659         }
1660         tcg_gen_xori_i32(cpu_CF, cpu_CF, 1);
1661         s->base.is_jmp = DISAS_NEXT;
1662         break;
1663
1664     case 0x01: /* XAFlag */
1665         if (crm != 0 || !dc_isar_feature(aa64_condm_5, s)) {
1666             goto do_unallocated;
1667         }
1668         gen_xaflag();
1669         s->base.is_jmp = DISAS_NEXT;
1670         break;
1671
1672     case 0x02: /* AXFlag */
1673         if (crm != 0 || !dc_isar_feature(aa64_condm_5, s)) {
1674             goto do_unallocated;
1675         }
1676         gen_axflag();
1677         s->base.is_jmp = DISAS_NEXT;
1678         break;
1679
1680     case 0x03: /* UAO */
1681         if (!dc_isar_feature(aa64_uao, s) || s->current_el == 0) {
1682             goto do_unallocated;
1683         }
1684         if (crm & 1) {
1685             set_pstate_bits(PSTATE_UAO);
1686         } else {
1687             clear_pstate_bits(PSTATE_UAO);
1688         }
1689         t1 = tcg_const_i32(s->current_el);
1690         gen_helper_rebuild_hflags_a64(cpu_env, t1);
1691         tcg_temp_free_i32(t1);
1692         break;
1693
1694     case 0x04: /* PAN */
1695         if (!dc_isar_feature(aa64_pan, s) || s->current_el == 0) {
1696             goto do_unallocated;
1697         }
1698         if (crm & 1) {
1699             set_pstate_bits(PSTATE_PAN);
1700         } else {
1701             clear_pstate_bits(PSTATE_PAN);
1702         }
1703         t1 = tcg_const_i32(s->current_el);
1704         gen_helper_rebuild_hflags_a64(cpu_env, t1);
1705         tcg_temp_free_i32(t1);
1706         break;
1707
1708     case 0x05: /* SPSel */
1709         if (s->current_el == 0) {
1710             goto do_unallocated;
1711         }
1712         t1 = tcg_const_i32(crm & PSTATE_SP);
1713         gen_helper_msr_i_spsel(cpu_env, t1);
1714         tcg_temp_free_i32(t1);
1715         break;
1716
1717     case 0x19: /* SSBS */
1718         if (!dc_isar_feature(aa64_ssbs, s)) {
1719             goto do_unallocated;
1720         }
1721         if (crm & 1) {
1722             set_pstate_bits(PSTATE_SSBS);
1723         } else {
1724             clear_pstate_bits(PSTATE_SSBS);
1725         }
1726         /* Don't need to rebuild hflags since SSBS is a nop */
1727         break;
1728
1729     case 0x1a: /* DIT */
1730         if (!dc_isar_feature(aa64_dit, s)) {
1731             goto do_unallocated;
1732         }
1733         if (crm & 1) {
1734             set_pstate_bits(PSTATE_DIT);
1735         } else {
1736             clear_pstate_bits(PSTATE_DIT);
1737         }
1738         /* There's no need to rebuild hflags because DIT is a nop */
1739         break;
1740
1741     case 0x1e: /* DAIFSet */
1742         t1 = tcg_const_i32(crm);
1743         gen_helper_msr_i_daifset(cpu_env, t1);
1744         tcg_temp_free_i32(t1);
1745         break;
1746
1747     case 0x1f: /* DAIFClear */
1748         t1 = tcg_const_i32(crm);
1749         gen_helper_msr_i_daifclear(cpu_env, t1);
1750         tcg_temp_free_i32(t1);
1751         /* For DAIFClear, exit the cpu loop to re-evaluate pending IRQs.  */
1752         s->base.is_jmp = DISAS_UPDATE_EXIT;
1753         break;
1754
1755     case 0x1c: /* TCO */
1756         if (dc_isar_feature(aa64_mte, s)) {
1757             /* Full MTE is enabled -- set the TCO bit as directed. */
1758             if (crm & 1) {
1759                 set_pstate_bits(PSTATE_TCO);
1760             } else {
1761                 clear_pstate_bits(PSTATE_TCO);
1762             }
1763             t1 = tcg_const_i32(s->current_el);
1764             gen_helper_rebuild_hflags_a64(cpu_env, t1);
1765             tcg_temp_free_i32(t1);
1766             /* Many factors, including TCO, go into MTE_ACTIVE. */
1767             s->base.is_jmp = DISAS_UPDATE_NOCHAIN;
1768         } else if (dc_isar_feature(aa64_mte_insn_reg, s)) {
1769             /* Only "instructions accessible at EL0" -- PSTATE.TCO is WI.  */
1770             s->base.is_jmp = DISAS_NEXT;
1771         } else {
1772             goto do_unallocated;
1773         }
1774         break;
1775
1776     default:
1777     do_unallocated:
1778         unallocated_encoding(s);
1779         return;
1780     }
1781 }
1782
1783 static void gen_get_nzcv(TCGv_i64 tcg_rt)
1784 {
1785     TCGv_i32 tmp = tcg_temp_new_i32();
1786     TCGv_i32 nzcv = tcg_temp_new_i32();
1787
1788     /* build bit 31, N */
1789     tcg_gen_andi_i32(nzcv, cpu_NF, (1U << 31));
1790     /* build bit 30, Z */
1791     tcg_gen_setcondi_i32(TCG_COND_EQ, tmp, cpu_ZF, 0);
1792     tcg_gen_deposit_i32(nzcv, nzcv, tmp, 30, 1);
1793     /* build bit 29, C */
1794     tcg_gen_deposit_i32(nzcv, nzcv, cpu_CF, 29, 1);
1795     /* build bit 28, V */
1796     tcg_gen_shri_i32(tmp, cpu_VF, 31);
1797     tcg_gen_deposit_i32(nzcv, nzcv, tmp, 28, 1);
1798     /* generate result */
1799     tcg_gen_extu_i32_i64(tcg_rt, nzcv);
1800
1801     tcg_temp_free_i32(nzcv);
1802     tcg_temp_free_i32(tmp);
1803 }
1804
1805 static void gen_set_nzcv(TCGv_i64 tcg_rt)
1806 {
1807     TCGv_i32 nzcv = tcg_temp_new_i32();
1808
1809     /* take NZCV from R[t] */
1810     tcg_gen_extrl_i64_i32(nzcv, tcg_rt);
1811
1812     /* bit 31, N */
1813     tcg_gen_andi_i32(cpu_NF, nzcv, (1U << 31));
1814     /* bit 30, Z */
1815     tcg_gen_andi_i32(cpu_ZF, nzcv, (1 << 30));
1816     tcg_gen_setcondi_i32(TCG_COND_EQ, cpu_ZF, cpu_ZF, 0);
1817     /* bit 29, C */
1818     tcg_gen_andi_i32(cpu_CF, nzcv, (1 << 29));
1819     tcg_gen_shri_i32(cpu_CF, cpu_CF, 29);
1820     /* bit 28, V */
1821     tcg_gen_andi_i32(cpu_VF, nzcv, (1 << 28));
1822     tcg_gen_shli_i32(cpu_VF, cpu_VF, 3);
1823     tcg_temp_free_i32(nzcv);
1824 }
1825
1826 /* MRS - move from system register
1827  * MSR (register) - move to system register
1828  * SYS
1829  * SYSL
1830  * These are all essentially the same insn in 'read' and 'write'
1831  * versions, with varying op0 fields.
1832  */
1833 static void handle_sys(DisasContext *s, uint32_t insn, bool isread,
1834                        unsigned int op0, unsigned int op1, unsigned int op2,
1835                        unsigned int crn, unsigned int crm, unsigned int rt)
1836 {
1837     const ARMCPRegInfo *ri;
1838     TCGv_i64 tcg_rt;
1839
1840     ri = get_arm_cp_reginfo(s->cp_regs,
1841                             ENCODE_AA64_CP_REG(CP_REG_ARM64_SYSREG_CP,
1842                                                crn, crm, op0, op1, op2));
1843
1844     if (!ri) {
1845         /* Unknown register; this might be a guest error or a QEMU
1846          * unimplemented feature.
1847          */
1848         qemu_log_mask(LOG_UNIMP, "%s access to unsupported AArch64 "
1849                       "system register op0:%d op1:%d crn:%d crm:%d op2:%d\n",
1850                       isread ? "read" : "write", op0, op1, crn, crm, op2);
1851         unallocated_encoding(s);
1852         return;
1853     }
1854
1855     /* Check access permissions */
1856     if (!cp_access_ok(s->current_el, ri, isread)) {
1857         unallocated_encoding(s);
1858         return;
1859     }
1860
1861     if (ri->accessfn) {
1862         /* Emit code to perform further access permissions checks at
1863          * runtime; this may result in an exception.
1864          */
1865         TCGv_ptr tmpptr;
1866         TCGv_i32 tcg_syn, tcg_isread;
1867         uint32_t syndrome;
1868
1869         gen_a64_set_pc_im(s->pc_curr);
1870         tmpptr = tcg_const_ptr(ri);
1871         syndrome = syn_aa64_sysregtrap(op0, op1, op2, crn, crm, rt, isread);
1872         tcg_syn = tcg_const_i32(syndrome);
1873         tcg_isread = tcg_const_i32(isread);
1874         gen_helper_access_check_cp_reg(cpu_env, tmpptr, tcg_syn, tcg_isread);
1875         tcg_temp_free_ptr(tmpptr);
1876         tcg_temp_free_i32(tcg_syn);
1877         tcg_temp_free_i32(tcg_isread);
1878     } else if (ri->type & ARM_CP_RAISES_EXC) {
1879         /*
1880          * The readfn or writefn might raise an exception;
1881          * synchronize the CPU state in case it does.
1882          */
1883         gen_a64_set_pc_im(s->pc_curr);
1884     }
1885
1886     /* Handle special cases first */
1887     switch (ri->type & ~(ARM_CP_FLAG_MASK & ~ARM_CP_SPECIAL)) {
1888     case ARM_CP_NOP:
1889         return;
1890     case ARM_CP_NZCV:
1891         tcg_rt = cpu_reg(s, rt);
1892         if (isread) {
1893             gen_get_nzcv(tcg_rt);
1894         } else {
1895             gen_set_nzcv(tcg_rt);
1896         }
1897         return;
1898     case ARM_CP_CURRENTEL:
1899         /* Reads as current EL value from pstate, which is
1900          * guaranteed to be constant by the tb flags.
1901          */
1902         tcg_rt = cpu_reg(s, rt);
1903         tcg_gen_movi_i64(tcg_rt, s->current_el << 2);
1904         return;
1905     case ARM_CP_DC_ZVA:
1906         /* Writes clear the aligned block of memory which rt points into. */
1907         if (s->mte_active[0]) {
1908             TCGv_i32 t_desc;
1909             int desc = 0;
1910
1911             desc = FIELD_DP32(desc, MTEDESC, MIDX, get_mem_index(s));
1912             desc = FIELD_DP32(desc, MTEDESC, TBI, s->tbid);
1913             desc = FIELD_DP32(desc, MTEDESC, TCMA, s->tcma);
1914             t_desc = tcg_const_i32(desc);
1915
1916             tcg_rt = new_tmp_a64(s);
1917             gen_helper_mte_check_zva(tcg_rt, cpu_env, t_desc, cpu_reg(s, rt));
1918             tcg_temp_free_i32(t_desc);
1919         } else {
1920             tcg_rt = clean_data_tbi(s, cpu_reg(s, rt));
1921         }
1922         gen_helper_dc_zva(cpu_env, tcg_rt);
1923         return;
1924     case ARM_CP_DC_GVA:
1925         {
1926             TCGv_i64 clean_addr, tag;
1927
1928             /*
1929              * DC_GVA, like DC_ZVA, requires that we supply the original
1930              * pointer for an invalid page.  Probe that address first.
1931              */
1932             tcg_rt = cpu_reg(s, rt);
1933             clean_addr = clean_data_tbi(s, tcg_rt);
1934             gen_probe_access(s, clean_addr, MMU_DATA_STORE, MO_8);
1935
1936             if (s->ata) {
1937                 /* Extract the tag from the register to match STZGM.  */
1938                 tag = tcg_temp_new_i64();
1939                 tcg_gen_shri_i64(tag, tcg_rt, 56);
1940                 gen_helper_stzgm_tags(cpu_env, clean_addr, tag);
1941                 tcg_temp_free_i64(tag);
1942             }
1943         }
1944         return;
1945     case ARM_CP_DC_GZVA:
1946         {
1947             TCGv_i64 clean_addr, tag;
1948
1949             /* For DC_GZVA, we can rely on DC_ZVA for the proper fault. */
1950             tcg_rt = cpu_reg(s, rt);
1951             clean_addr = clean_data_tbi(s, tcg_rt);
1952             gen_helper_dc_zva(cpu_env, clean_addr);
1953
1954             if (s->ata) {
1955                 /* Extract the tag from the register to match STZGM.  */
1956                 tag = tcg_temp_new_i64();
1957                 tcg_gen_shri_i64(tag, tcg_rt, 56);
1958                 gen_helper_stzgm_tags(cpu_env, clean_addr, tag);
1959                 tcg_temp_free_i64(tag);
1960             }
1961         }
1962         return;
1963     default:
1964         break;
1965     }
1966     if ((ri->type & ARM_CP_FPU) && !fp_access_check(s)) {
1967         return;
1968     } else if ((ri->type & ARM_CP_SVE) && !sve_access_check(s)) {
1969         return;
1970     }
1971
1972     if ((tb_cflags(s->base.tb) & CF_USE_ICOUNT) && (ri->type & ARM_CP_IO)) {
1973         gen_io_start();
1974     }
1975
1976     tcg_rt = cpu_reg(s, rt);
1977
1978     if (isread) {
1979         if (ri->type & ARM_CP_CONST) {
1980             tcg_gen_movi_i64(tcg_rt, ri->resetvalue);
1981         } else if (ri->readfn) {
1982             TCGv_ptr tmpptr;
1983             tmpptr = tcg_const_ptr(ri);
1984             gen_helper_get_cp_reg64(tcg_rt, cpu_env, tmpptr);
1985             tcg_temp_free_ptr(tmpptr);
1986         } else {
1987             tcg_gen_ld_i64(tcg_rt, cpu_env, ri->fieldoffset);
1988         }
1989     } else {
1990         if (ri->type & ARM_CP_CONST) {
1991             /* If not forbidden by access permissions, treat as WI */
1992             return;
1993         } else if (ri->writefn) {
1994             TCGv_ptr tmpptr;
1995             tmpptr = tcg_const_ptr(ri);
1996             gen_helper_set_cp_reg64(cpu_env, tmpptr, tcg_rt);
1997             tcg_temp_free_ptr(tmpptr);
1998         } else {
1999             tcg_gen_st_i64(tcg_rt, cpu_env, ri->fieldoffset);
2000         }
2001     }
2002
2003     if ((tb_cflags(s->base.tb) & CF_USE_ICOUNT) && (ri->type & ARM_CP_IO)) {
2004         /* I/O operations must end the TB here (whether read or write) */
2005         s->base.is_jmp = DISAS_UPDATE_EXIT;
2006     }
2007     if (!isread && !(ri->type & ARM_CP_SUPPRESS_TB_END)) {
2008         /*
2009          * A write to any coprocessor regiser that ends a TB
2010          * must rebuild the hflags for the next TB.
2011          */
2012         TCGv_i32 tcg_el = tcg_const_i32(s->current_el);
2013         gen_helper_rebuild_hflags_a64(cpu_env, tcg_el);
2014         tcg_temp_free_i32(tcg_el);
2015         /*
2016          * We default to ending the TB on a coprocessor register write,
2017          * but allow this to be suppressed by the register definition
2018          * (usually only necessary to work around guest bugs).
2019          */
2020         s->base.is_jmp = DISAS_UPDATE_EXIT;
2021     }
2022 }
2023
2024 /* System
2025  *  31                 22 21  20 19 18 16 15   12 11    8 7   5 4    0
2026  * +---------------------+---+-----+-----+-------+-------+-----+------+
2027  * | 1 1 0 1 0 1 0 1 0 0 | L | op0 | op1 |  CRn  |  CRm  | op2 |  Rt  |
2028  * +---------------------+---+-----+-----+-------+-------+-----+------+
2029  */
2030 static void disas_system(DisasContext *s, uint32_t insn)
2031 {
2032     unsigned int l, op0, op1, crn, crm, op2, rt;
2033     l = extract32(insn, 21, 1);
2034     op0 = extract32(insn, 19, 2);
2035     op1 = extract32(insn, 16, 3);
2036     crn = extract32(insn, 12, 4);
2037     crm = extract32(insn, 8, 4);
2038     op2 = extract32(insn, 5, 3);
2039     rt = extract32(insn, 0, 5);
2040
2041     if (op0 == 0) {
2042         if (l || rt != 31) {
2043             unallocated_encoding(s);
2044             return;
2045         }
2046         switch (crn) {
2047         case 2: /* HINT (including allocated hints like NOP, YIELD, etc) */
2048             handle_hint(s, insn, op1, op2, crm);
2049             break;
2050         case 3: /* CLREX, DSB, DMB, ISB */
2051             handle_sync(s, insn, op1, op2, crm);
2052             break;
2053         case 4: /* MSR (immediate) */
2054             handle_msr_i(s, insn, op1, op2, crm);
2055             break;
2056         default:
2057             unallocated_encoding(s);
2058             break;
2059         }
2060         return;
2061     }
2062     handle_sys(s, insn, l, op0, op1, op2, crn, crm, rt);
2063 }
2064
2065 /* Exception generation
2066  *
2067  *  31             24 23 21 20                     5 4   2 1  0
2068  * +-----------------+-----+------------------------+-----+----+
2069  * | 1 1 0 1 0 1 0 0 | opc |          imm16         | op2 | LL |
2070  * +-----------------------+------------------------+----------+
2071  */
2072 static void disas_exc(DisasContext *s, uint32_t insn)
2073 {
2074     int opc = extract32(insn, 21, 3);
2075     int op2_ll = extract32(insn, 0, 5);
2076     int imm16 = extract32(insn, 5, 16);
2077     TCGv_i32 tmp;
2078
2079     switch (opc) {
2080     case 0:
2081         /* For SVC, HVC and SMC we advance the single-step state
2082          * machine before taking the exception. This is architecturally
2083          * mandated, to ensure that single-stepping a system call
2084          * instruction works properly.
2085          */
2086         switch (op2_ll) {
2087         case 1:                                                     /* SVC */
2088             gen_ss_advance(s);
2089             gen_exception_insn(s, s->base.pc_next, EXCP_SWI,
2090                                syn_aa64_svc(imm16), default_exception_el(s));
2091             break;
2092         case 2:                                                     /* HVC */
2093             if (s->current_el == 0) {
2094                 unallocated_encoding(s);
2095                 break;
2096             }
2097             /* The pre HVC helper handles cases when HVC gets trapped
2098              * as an undefined insn by runtime configuration.
2099              */
2100             gen_a64_set_pc_im(s->pc_curr);
2101             gen_helper_pre_hvc(cpu_env);
2102             gen_ss_advance(s);
2103             gen_exception_insn(s, s->base.pc_next, EXCP_HVC,
2104                                syn_aa64_hvc(imm16), 2);
2105             break;
2106         case 3:                                                     /* SMC */
2107             if (s->current_el == 0) {
2108                 unallocated_encoding(s);
2109                 break;
2110             }
2111             gen_a64_set_pc_im(s->pc_curr);
2112             tmp = tcg_const_i32(syn_aa64_smc(imm16));
2113             gen_helper_pre_smc(cpu_env, tmp);
2114             tcg_temp_free_i32(tmp);
2115             gen_ss_advance(s);
2116             gen_exception_insn(s, s->base.pc_next, EXCP_SMC,
2117                                syn_aa64_smc(imm16), 3);
2118             break;
2119         default:
2120             unallocated_encoding(s);
2121             break;
2122         }
2123         break;
2124     case 1:
2125         if (op2_ll != 0) {
2126             unallocated_encoding(s);
2127             break;
2128         }
2129         /* BRK */
2130         gen_exception_bkpt_insn(s, syn_aa64_bkpt(imm16));
2131         break;
2132     case 2:
2133         if (op2_ll != 0) {
2134             unallocated_encoding(s);
2135             break;
2136         }
2137         /* HLT. This has two purposes.
2138          * Architecturally, it is an external halting debug instruction.
2139          * Since QEMU doesn't implement external debug, we treat this as
2140          * it is required for halting debug disabled: it will UNDEF.
2141          * Secondly, "HLT 0xf000" is the A64 semihosting syscall instruction.
2142          */
2143         if (semihosting_enabled() && imm16 == 0xf000) {
2144 #ifndef CONFIG_USER_ONLY
2145             /* In system mode, don't allow userspace access to semihosting,
2146              * to provide some semblance of security (and for consistency
2147              * with our 32-bit semihosting).
2148              */
2149             if (s->current_el == 0) {
2150                 unsupported_encoding(s, insn);
2151                 break;
2152             }
2153 #endif
2154             gen_exception_internal_insn(s, s->pc_curr, EXCP_SEMIHOST);
2155         } else {
2156             unsupported_encoding(s, insn);
2157         }
2158         break;
2159     case 5:
2160         if (op2_ll < 1 || op2_ll > 3) {
2161             unallocated_encoding(s);
2162             break;
2163         }
2164         /* DCPS1, DCPS2, DCPS3 */
2165         unsupported_encoding(s, insn);
2166         break;
2167     default:
2168         unallocated_encoding(s);
2169         break;
2170     }
2171 }
2172
2173 /* Unconditional branch (register)
2174  *  31           25 24   21 20   16 15   10 9    5 4     0
2175  * +---------------+-------+-------+-------+------+-------+
2176  * | 1 1 0 1 0 1 1 |  opc  |  op2  |  op3  |  Rn  |  op4  |
2177  * +---------------+-------+-------+-------+------+-------+
2178  */
2179 static void disas_uncond_b_reg(DisasContext *s, uint32_t insn)
2180 {
2181     unsigned int opc, op2, op3, rn, op4;
2182     unsigned btype_mod = 2;   /* 0: BR, 1: BLR, 2: other */
2183     TCGv_i64 dst;
2184     TCGv_i64 modifier;
2185
2186     opc = extract32(insn, 21, 4);
2187     op2 = extract32(insn, 16, 5);
2188     op3 = extract32(insn, 10, 6);
2189     rn = extract32(insn, 5, 5);
2190     op4 = extract32(insn, 0, 5);
2191
2192     if (op2 != 0x1f) {
2193         goto do_unallocated;
2194     }
2195
2196     switch (opc) {
2197     case 0: /* BR */
2198     case 1: /* BLR */
2199     case 2: /* RET */
2200         btype_mod = opc;
2201         switch (op3) {
2202         case 0:
2203             /* BR, BLR, RET */
2204             if (op4 != 0) {
2205                 goto do_unallocated;
2206             }
2207             dst = cpu_reg(s, rn);
2208             break;
2209
2210         case 2:
2211         case 3:
2212             if (!dc_isar_feature(aa64_pauth, s)) {
2213                 goto do_unallocated;
2214             }
2215             if (opc == 2) {
2216                 /* RETAA, RETAB */
2217                 if (rn != 0x1f || op4 != 0x1f) {
2218                     goto do_unallocated;
2219                 }
2220                 rn = 30;
2221                 modifier = cpu_X[31];
2222             } else {
2223                 /* BRAAZ, BRABZ, BLRAAZ, BLRABZ */
2224                 if (op4 != 0x1f) {
2225                     goto do_unallocated;
2226                 }
2227                 modifier = new_tmp_a64_zero(s);
2228             }
2229             if (s->pauth_active) {
2230                 dst = new_tmp_a64(s);
2231                 if (op3 == 2) {
2232                     gen_helper_autia(dst, cpu_env, cpu_reg(s, rn), modifier);
2233                 } else {
2234                     gen_helper_autib(dst, cpu_env, cpu_reg(s, rn), modifier);
2235                 }
2236             } else {
2237                 dst = cpu_reg(s, rn);
2238             }
2239             break;
2240
2241         default:
2242             goto do_unallocated;
2243         }
2244         gen_a64_set_pc(s, dst);
2245         /* BLR also needs to load return address */
2246         if (opc == 1) {
2247             tcg_gen_movi_i64(cpu_reg(s, 30), s->base.pc_next);
2248         }
2249         break;
2250
2251     case 8: /* BRAA */
2252     case 9: /* BLRAA */
2253         if (!dc_isar_feature(aa64_pauth, s)) {
2254             goto do_unallocated;
2255         }
2256         if ((op3 & ~1) != 2) {
2257             goto do_unallocated;
2258         }
2259         btype_mod = opc & 1;
2260         if (s->pauth_active) {
2261             dst = new_tmp_a64(s);
2262             modifier = cpu_reg_sp(s, op4);
2263             if (op3 == 2) {
2264                 gen_helper_autia(dst, cpu_env, cpu_reg(s, rn), modifier);
2265             } else {
2266                 gen_helper_autib(dst, cpu_env, cpu_reg(s, rn), modifier);
2267             }
2268         } else {
2269             dst = cpu_reg(s, rn);
2270         }
2271         gen_a64_set_pc(s, dst);
2272         /* BLRAA also needs to load return address */
2273         if (opc == 9) {
2274             tcg_gen_movi_i64(cpu_reg(s, 30), s->base.pc_next);
2275         }
2276         break;
2277
2278     case 4: /* ERET */
2279         if (s->current_el == 0) {
2280             goto do_unallocated;
2281         }
2282         switch (op3) {
2283         case 0: /* ERET */
2284             if (op4 != 0) {
2285                 goto do_unallocated;
2286             }
2287             dst = tcg_temp_new_i64();
2288             tcg_gen_ld_i64(dst, cpu_env,
2289                            offsetof(CPUARMState, elr_el[s->current_el]));
2290             break;
2291
2292         case 2: /* ERETAA */
2293         case 3: /* ERETAB */
2294             if (!dc_isar_feature(aa64_pauth, s)) {
2295                 goto do_unallocated;
2296             }
2297             if (rn != 0x1f || op4 != 0x1f) {
2298                 goto do_unallocated;
2299             }
2300             dst = tcg_temp_new_i64();
2301             tcg_gen_ld_i64(dst, cpu_env,
2302                            offsetof(CPUARMState, elr_el[s->current_el]));
2303             if (s->pauth_active) {
2304                 modifier = cpu_X[31];
2305                 if (op3 == 2) {
2306                     gen_helper_autia(dst, cpu_env, dst, modifier);
2307                 } else {
2308                     gen_helper_autib(dst, cpu_env, dst, modifier);
2309                 }
2310             }
2311             break;
2312
2313         default:
2314             goto do_unallocated;
2315         }
2316         if (tb_cflags(s->base.tb) & CF_USE_ICOUNT) {
2317             gen_io_start();
2318         }
2319
2320         gen_helper_exception_return(cpu_env, dst);
2321         tcg_temp_free_i64(dst);
2322         /* Must exit loop to check un-masked IRQs */
2323         s->base.is_jmp = DISAS_EXIT;
2324         return;
2325
2326     case 5: /* DRPS */
2327         if (op3 != 0 || op4 != 0 || rn != 0x1f) {
2328             goto do_unallocated;
2329         } else {
2330             unsupported_encoding(s, insn);
2331         }
2332         return;
2333
2334     default:
2335     do_unallocated:
2336         unallocated_encoding(s);
2337         return;
2338     }
2339
2340     switch (btype_mod) {
2341     case 0: /* BR */
2342         if (dc_isar_feature(aa64_bti, s)) {
2343             /* BR to {x16,x17} or !guard -> 1, else 3.  */
2344             set_btype(s, rn == 16 || rn == 17 || !s->guarded_page ? 1 : 3);
2345         }
2346         break;
2347
2348     case 1: /* BLR */
2349         if (dc_isar_feature(aa64_bti, s)) {
2350             /* BLR sets BTYPE to 2, regardless of source guarded page.  */
2351             set_btype(s, 2);
2352         }
2353         break;
2354
2355     default: /* RET or none of the above.  */
2356         /* BTYPE will be set to 0 by normal end-of-insn processing.  */
2357         break;
2358     }
2359
2360     s->base.is_jmp = DISAS_JUMP;
2361 }
2362
2363 /* Branches, exception generating and system instructions */
2364 static void disas_b_exc_sys(DisasContext *s, uint32_t insn)
2365 {
2366     switch (extract32(insn, 25, 7)) {
2367     case 0x0a: case 0x0b:
2368     case 0x4a: case 0x4b: /* Unconditional branch (immediate) */
2369         disas_uncond_b_imm(s, insn);
2370         break;
2371     case 0x1a: case 0x5a: /* Compare & branch (immediate) */
2372         disas_comp_b_imm(s, insn);
2373         break;
2374     case 0x1b: case 0x5b: /* Test & branch (immediate) */
2375         disas_test_b_imm(s, insn);
2376         break;
2377     case 0x2a: /* Conditional branch (immediate) */
2378         disas_cond_b_imm(s, insn);
2379         break;
2380     case 0x6a: /* Exception generation / System */
2381         if (insn & (1 << 24)) {
2382             if (extract32(insn, 22, 2) == 0) {
2383                 disas_system(s, insn);
2384             } else {
2385                 unallocated_encoding(s);
2386             }
2387         } else {
2388             disas_exc(s, insn);
2389         }
2390         break;
2391     case 0x6b: /* Unconditional branch (register) */
2392         disas_uncond_b_reg(s, insn);
2393         break;
2394     default:
2395         unallocated_encoding(s);
2396         break;
2397     }
2398 }
2399
2400 /*
2401  * Load/Store exclusive instructions are implemented by remembering
2402  * the value/address loaded, and seeing if these are the same
2403  * when the store is performed. This is not actually the architecturally
2404  * mandated semantics, but it works for typical guest code sequences
2405  * and avoids having to monitor regular stores.
2406  *
2407  * The store exclusive uses the atomic cmpxchg primitives to avoid
2408  * races in multi-threaded linux-user and when MTTCG softmmu is
2409  * enabled.
2410  */
2411 static void gen_load_exclusive(DisasContext *s, int rt, int rt2,
2412                                TCGv_i64 addr, int size, bool is_pair)
2413 {
2414     int idx = get_mem_index(s);
2415     MemOp memop = s->be_data;
2416
2417     g_assert(size <= 3);
2418     if (is_pair) {
2419         g_assert(size >= 2);
2420         if (size == 2) {
2421             /* The pair must be single-copy atomic for the doubleword.  */
2422             memop |= MO_64 | MO_ALIGN;
2423             tcg_gen_qemu_ld_i64(cpu_exclusive_val, addr, idx, memop);
2424             if (s->be_data == MO_LE) {
2425                 tcg_gen_extract_i64(cpu_reg(s, rt), cpu_exclusive_val, 0, 32);
2426                 tcg_gen_extract_i64(cpu_reg(s, rt2), cpu_exclusive_val, 32, 32);
2427             } else {
2428                 tcg_gen_extract_i64(cpu_reg(s, rt), cpu_exclusive_val, 32, 32);
2429                 tcg_gen_extract_i64(cpu_reg(s, rt2), cpu_exclusive_val, 0, 32);
2430             }
2431         } else {
2432             /* The pair must be single-copy atomic for *each* doubleword, not
2433                the entire quadword, however it must be quadword aligned.  */
2434             memop |= MO_64;
2435             tcg_gen_qemu_ld_i64(cpu_exclusive_val, addr, idx,
2436                                 memop | MO_ALIGN_16);
2437
2438             TCGv_i64 addr2 = tcg_temp_new_i64();
2439             tcg_gen_addi_i64(addr2, addr, 8);
2440             tcg_gen_qemu_ld_i64(cpu_exclusive_high, addr2, idx, memop);
2441             tcg_temp_free_i64(addr2);
2442
2443             tcg_gen_mov_i64(cpu_reg(s, rt), cpu_exclusive_val);
2444             tcg_gen_mov_i64(cpu_reg(s, rt2), cpu_exclusive_high);
2445         }
2446     } else {
2447         memop |= size | MO_ALIGN;
2448         tcg_gen_qemu_ld_i64(cpu_exclusive_val, addr, idx, memop);
2449         tcg_gen_mov_i64(cpu_reg(s, rt), cpu_exclusive_val);
2450     }
2451     tcg_gen_mov_i64(cpu_exclusive_addr, addr);
2452 }
2453
2454 static void gen_store_exclusive(DisasContext *s, int rd, int rt, int rt2,
2455                                 TCGv_i64 addr, int size, int is_pair)
2456 {
2457     /* if (env->exclusive_addr == addr && env->exclusive_val == [addr]
2458      *     && (!is_pair || env->exclusive_high == [addr + datasize])) {
2459      *     [addr] = {Rt};
2460      *     if (is_pair) {
2461      *         [addr + datasize] = {Rt2};
2462      *     }
2463      *     {Rd} = 0;
2464      * } else {
2465      *     {Rd} = 1;
2466      * }
2467      * env->exclusive_addr = -1;
2468      */
2469     TCGLabel *fail_label = gen_new_label();
2470     TCGLabel *done_label = gen_new_label();
2471     TCGv_i64 tmp;
2472
2473     tcg_gen_brcond_i64(TCG_COND_NE, addr, cpu_exclusive_addr, fail_label);
2474
2475     tmp = tcg_temp_new_i64();
2476     if (is_pair) {
2477         if (size == 2) {
2478             if (s->be_data == MO_LE) {
2479                 tcg_gen_concat32_i64(tmp, cpu_reg(s, rt), cpu_reg(s, rt2));
2480             } else {
2481                 tcg_gen_concat32_i64(tmp, cpu_reg(s, rt2), cpu_reg(s, rt));
2482             }
2483             tcg_gen_atomic_cmpxchg_i64(tmp, cpu_exclusive_addr,
2484                                        cpu_exclusive_val, tmp,
2485                                        get_mem_index(s),
2486                                        MO_64 | MO_ALIGN | s->be_data);
2487             tcg_gen_setcond_i64(TCG_COND_NE, tmp, tmp, cpu_exclusive_val);
2488         } else if (tb_cflags(s->base.tb) & CF_PARALLEL) {
2489             if (!HAVE_CMPXCHG128) {
2490                 gen_helper_exit_atomic(cpu_env);
2491                 s->base.is_jmp = DISAS_NORETURN;
2492             } else if (s->be_data == MO_LE) {
2493                 gen_helper_paired_cmpxchg64_le_parallel(tmp, cpu_env,
2494                                                         cpu_exclusive_addr,
2495                                                         cpu_reg(s, rt),
2496                                                         cpu_reg(s, rt2));
2497             } else {
2498                 gen_helper_paired_cmpxchg64_be_parallel(tmp, cpu_env,
2499                                                         cpu_exclusive_addr,
2500                                                         cpu_reg(s, rt),
2501                                                         cpu_reg(s, rt2));
2502             }
2503         } else if (s->be_data == MO_LE) {
2504             gen_helper_paired_cmpxchg64_le(tmp, cpu_env, cpu_exclusive_addr,
2505                                            cpu_reg(s, rt), cpu_reg(s, rt2));
2506         } else {
2507             gen_helper_paired_cmpxchg64_be(tmp, cpu_env, cpu_exclusive_addr,
2508                                            cpu_reg(s, rt), cpu_reg(s, rt2));
2509         }
2510     } else {
2511         tcg_gen_atomic_cmpxchg_i64(tmp, cpu_exclusive_addr, cpu_exclusive_val,
2512                                    cpu_reg(s, rt), get_mem_index(s),
2513                                    size | MO_ALIGN | s->be_data);
2514         tcg_gen_setcond_i64(TCG_COND_NE, tmp, tmp, cpu_exclusive_val);
2515     }
2516     tcg_gen_mov_i64(cpu_reg(s, rd), tmp);
2517     tcg_temp_free_i64(tmp);
2518     tcg_gen_br(done_label);
2519
2520     gen_set_label(fail_label);
2521     tcg_gen_movi_i64(cpu_reg(s, rd), 1);
2522     gen_set_label(done_label);
2523     tcg_gen_movi_i64(cpu_exclusive_addr, -1);
2524 }
2525
2526 static void gen_compare_and_swap(DisasContext *s, int rs, int rt,
2527                                  int rn, int size)
2528 {
2529     TCGv_i64 tcg_rs = cpu_reg(s, rs);
2530     TCGv_i64 tcg_rt = cpu_reg(s, rt);
2531     int memidx = get_mem_index(s);
2532     TCGv_i64 clean_addr;
2533
2534     if (rn == 31) {
2535         gen_check_sp_alignment(s);
2536     }
2537     clean_addr = gen_mte_check1(s, cpu_reg_sp(s, rn), true, rn != 31, size);
2538     tcg_gen_atomic_cmpxchg_i64(tcg_rs, clean_addr, tcg_rs, tcg_rt, memidx,
2539                                size | MO_ALIGN | s->be_data);
2540 }
2541
2542 static void gen_compare_and_swap_pair(DisasContext *s, int rs, int rt,
2543                                       int rn, int size)
2544 {
2545     TCGv_i64 s1 = cpu_reg(s, rs);
2546     TCGv_i64 s2 = cpu_reg(s, rs + 1);
2547     TCGv_i64 t1 = cpu_reg(s, rt);
2548     TCGv_i64 t2 = cpu_reg(s, rt + 1);
2549     TCGv_i64 clean_addr;
2550     int memidx = get_mem_index(s);
2551
2552     if (rn == 31) {
2553         gen_check_sp_alignment(s);
2554     }
2555
2556     /* This is a single atomic access, despite the "pair". */
2557     clean_addr = gen_mte_check1(s, cpu_reg_sp(s, rn), true, rn != 31, size + 1);
2558
2559     if (size == 2) {
2560         TCGv_i64 cmp = tcg_temp_new_i64();
2561         TCGv_i64 val = tcg_temp_new_i64();
2562
2563         if (s->be_data == MO_LE) {
2564             tcg_gen_concat32_i64(val, t1, t2);
2565             tcg_gen_concat32_i64(cmp, s1, s2);
2566         } else {
2567             tcg_gen_concat32_i64(val, t2, t1);
2568             tcg_gen_concat32_i64(cmp, s2, s1);
2569         }
2570
2571         tcg_gen_atomic_cmpxchg_i64(cmp, clean_addr, cmp, val, memidx,
2572                                    MO_64 | MO_ALIGN | s->be_data);
2573         tcg_temp_free_i64(val);
2574
2575         if (s->be_data == MO_LE) {
2576             tcg_gen_extr32_i64(s1, s2, cmp);
2577         } else {
2578             tcg_gen_extr32_i64(s2, s1, cmp);
2579         }
2580         tcg_temp_free_i64(cmp);
2581     } else if (tb_cflags(s->base.tb) & CF_PARALLEL) {
2582         if (HAVE_CMPXCHG128) {
2583             TCGv_i32 tcg_rs = tcg_const_i32(rs);
2584             if (s->be_data == MO_LE) {
2585                 gen_helper_casp_le_parallel(cpu_env, tcg_rs,
2586                                             clean_addr, t1, t2);
2587             } else {
2588                 gen_helper_casp_be_parallel(cpu_env, tcg_rs,
2589                                             clean_addr, t1, t2);
2590             }
2591             tcg_temp_free_i32(tcg_rs);
2592         } else {
2593             gen_helper_exit_atomic(cpu_env);
2594             s->base.is_jmp = DISAS_NORETURN;
2595         }
2596     } else {
2597         TCGv_i64 d1 = tcg_temp_new_i64();
2598         TCGv_i64 d2 = tcg_temp_new_i64();
2599         TCGv_i64 a2 = tcg_temp_new_i64();
2600         TCGv_i64 c1 = tcg_temp_new_i64();
2601         TCGv_i64 c2 = tcg_temp_new_i64();
2602         TCGv_i64 zero = tcg_const_i64(0);
2603
2604         /* Load the two words, in memory order.  */
2605         tcg_gen_qemu_ld_i64(d1, clean_addr, memidx,
2606                             MO_64 | MO_ALIGN_16 | s->be_data);
2607         tcg_gen_addi_i64(a2, clean_addr, 8);
2608         tcg_gen_qemu_ld_i64(d2, a2, memidx, MO_64 | s->be_data);
2609
2610         /* Compare the two words, also in memory order.  */
2611         tcg_gen_setcond_i64(TCG_COND_EQ, c1, d1, s1);
2612         tcg_gen_setcond_i64(TCG_COND_EQ, c2, d2, s2);
2613         tcg_gen_and_i64(c2, c2, c1);
2614
2615         /* If compare equal, write back new data, else write back old data.  */
2616         tcg_gen_movcond_i64(TCG_COND_NE, c1, c2, zero, t1, d1);
2617         tcg_gen_movcond_i64(TCG_COND_NE, c2, c2, zero, t2, d2);
2618         tcg_gen_qemu_st_i64(c1, clean_addr, memidx, MO_64 | s->be_data);
2619         tcg_gen_qemu_st_i64(c2, a2, memidx, MO_64 | s->be_data);
2620         tcg_temp_free_i64(a2);
2621         tcg_temp_free_i64(c1);
2622         tcg_temp_free_i64(c2);
2623         tcg_temp_free_i64(zero);
2624
2625         /* Write back the data from memory to Rs.  */
2626         tcg_gen_mov_i64(s1, d1);
2627         tcg_gen_mov_i64(s2, d2);
2628         tcg_temp_free_i64(d1);
2629         tcg_temp_free_i64(d2);
2630     }
2631 }
2632
2633 /* Update the Sixty-Four bit (SF) registersize. This logic is derived
2634  * from the ARMv8 specs for LDR (Shared decode for all encodings).
2635  */
2636 static bool disas_ldst_compute_iss_sf(int size, bool is_signed, int opc)
2637 {
2638     int opc0 = extract32(opc, 0, 1);
2639     int regsize;
2640
2641     if (is_signed) {
2642         regsize = opc0 ? 32 : 64;
2643     } else {
2644         regsize = size == 3 ? 64 : 32;
2645     }
2646     return regsize == 64;
2647 }
2648
2649 /* Load/store exclusive
2650  *
2651  *  31 30 29         24  23  22   21  20  16  15  14   10 9    5 4    0
2652  * +-----+-------------+----+---+----+------+----+-------+------+------+
2653  * | sz  | 0 0 1 0 0 0 | o2 | L | o1 |  Rs  | o0 |  Rt2  |  Rn  | Rt   |
2654  * +-----+-------------+----+---+----+------+----+-------+------+------+
2655  *
2656  *  sz: 00 -> 8 bit, 01 -> 16 bit, 10 -> 32 bit, 11 -> 64 bit
2657  *   L: 0 -> store, 1 -> load
2658  *  o2: 0 -> exclusive, 1 -> not
2659  *  o1: 0 -> single register, 1 -> register pair
2660  *  o0: 1 -> load-acquire/store-release, 0 -> not
2661  */
2662 static void disas_ldst_excl(DisasContext *s, uint32_t insn)
2663 {
2664     int rt = extract32(insn, 0, 5);
2665     int rn = extract32(insn, 5, 5);
2666     int rt2 = extract32(insn, 10, 5);
2667     int rs = extract32(insn, 16, 5);
2668     int is_lasr = extract32(insn, 15, 1);
2669     int o2_L_o1_o0 = extract32(insn, 21, 3) * 2 | is_lasr;
2670     int size = extract32(insn, 30, 2);
2671     TCGv_i64 clean_addr;
2672
2673     switch (o2_L_o1_o0) {
2674     case 0x0: /* STXR */
2675     case 0x1: /* STLXR */
2676         if (rn == 31) {
2677             gen_check_sp_alignment(s);
2678         }
2679         if (is_lasr) {
2680             tcg_gen_mb(TCG_MO_ALL | TCG_BAR_STRL);
2681         }
2682         clean_addr = gen_mte_check1(s, cpu_reg_sp(s, rn),
2683                                     true, rn != 31, size);
2684         gen_store_exclusive(s, rs, rt, rt2, clean_addr, size, false);
2685         return;
2686
2687     case 0x4: /* LDXR */
2688     case 0x5: /* LDAXR */
2689         if (rn == 31) {
2690             gen_check_sp_alignment(s);
2691         }
2692         clean_addr = gen_mte_check1(s, cpu_reg_sp(s, rn),
2693                                     false, rn != 31, size);
2694         s->is_ldex = true;
2695         gen_load_exclusive(s, rt, rt2, clean_addr, size, false);
2696         if (is_lasr) {
2697             tcg_gen_mb(TCG_MO_ALL | TCG_BAR_LDAQ);
2698         }
2699         return;
2700
2701     case 0x8: /* STLLR */
2702         if (!dc_isar_feature(aa64_lor, s)) {
2703             break;
2704         }
2705         /* StoreLORelease is the same as Store-Release for QEMU.  */
2706         /* fall through */
2707     case 0x9: /* STLR */
2708         /* Generate ISS for non-exclusive accesses including LASR.  */
2709         if (rn == 31) {
2710             gen_check_sp_alignment(s);
2711         }
2712         tcg_gen_mb(TCG_MO_ALL | TCG_BAR_STRL);
2713         clean_addr = gen_mte_check1(s, cpu_reg_sp(s, rn),
2714                                     true, rn != 31, size);
2715         /* TODO: ARMv8.4-LSE SCTLR.nAA */
2716         do_gpr_st(s, cpu_reg(s, rt), clean_addr, size | MO_ALIGN, true, rt,
2717                   disas_ldst_compute_iss_sf(size, false, 0), is_lasr);
2718         return;
2719
2720     case 0xc: /* LDLAR */
2721         if (!dc_isar_feature(aa64_lor, s)) {
2722             break;
2723         }
2724         /* LoadLOAcquire is the same as Load-Acquire for QEMU.  */
2725         /* fall through */
2726     case 0xd: /* LDAR */
2727         /* Generate ISS for non-exclusive accesses including LASR.  */
2728         if (rn == 31) {
2729             gen_check_sp_alignment(s);
2730         }
2731         clean_addr = gen_mte_check1(s, cpu_reg_sp(s, rn),
2732                                     false, rn != 31, size);
2733         /* TODO: ARMv8.4-LSE SCTLR.nAA */
2734         do_gpr_ld(s, cpu_reg(s, rt), clean_addr, size | MO_ALIGN, false, true,
2735                   rt, disas_ldst_compute_iss_sf(size, false, 0), is_lasr);
2736         tcg_gen_mb(TCG_MO_ALL | TCG_BAR_LDAQ);
2737         return;
2738
2739     case 0x2: case 0x3: /* CASP / STXP */
2740         if (size & 2) { /* STXP / STLXP */
2741             if (rn == 31) {
2742                 gen_check_sp_alignment(s);
2743             }
2744             if (is_lasr) {
2745                 tcg_gen_mb(TCG_MO_ALL | TCG_BAR_STRL);
2746             }
2747             clean_addr = gen_mte_check1(s, cpu_reg_sp(s, rn),
2748                                         true, rn != 31, size);
2749             gen_store_exclusive(s, rs, rt, rt2, clean_addr, size, true);
2750             return;
2751         }
2752         if (rt2 == 31
2753             && ((rt | rs) & 1) == 0
2754             && dc_isar_feature(aa64_atomics, s)) {
2755             /* CASP / CASPL */
2756             gen_compare_and_swap_pair(s, rs, rt, rn, size | 2);
2757             return;
2758         }
2759         break;
2760
2761     case 0x6: case 0x7: /* CASPA / LDXP */
2762         if (size & 2) { /* LDXP / LDAXP */
2763             if (rn == 31) {
2764                 gen_check_sp_alignment(s);
2765             }
2766             clean_addr = gen_mte_check1(s, cpu_reg_sp(s, rn),
2767                                         false, rn != 31, size);
2768             s->is_ldex = true;
2769             gen_load_exclusive(s, rt, rt2, clean_addr, size, true);
2770             if (is_lasr) {
2771                 tcg_gen_mb(TCG_MO_ALL | TCG_BAR_LDAQ);
2772             }
2773             return;
2774         }
2775         if (rt2 == 31
2776             && ((rt | rs) & 1) == 0
2777             && dc_isar_feature(aa64_atomics, s)) {
2778             /* CASPA / CASPAL */
2779             gen_compare_and_swap_pair(s, rs, rt, rn, size | 2);
2780             return;
2781         }
2782         break;
2783
2784     case 0xa: /* CAS */
2785     case 0xb: /* CASL */
2786     case 0xe: /* CASA */
2787     case 0xf: /* CASAL */
2788         if (rt2 == 31 && dc_isar_feature(aa64_atomics, s)) {
2789             gen_compare_and_swap(s, rs, rt, rn, size);
2790             return;
2791         }
2792         break;
2793     }
2794     unallocated_encoding(s);
2795 }
2796
2797 /*
2798  * Load register (literal)
2799  *
2800  *  31 30 29   27  26 25 24 23                5 4     0
2801  * +-----+-------+---+-----+-------------------+-------+
2802  * | opc | 0 1 1 | V | 0 0 |     imm19         |  Rt   |
2803  * +-----+-------+---+-----+-------------------+-------+
2804  *
2805  * V: 1 -> vector (simd/fp)
2806  * opc (non-vector): 00 -> 32 bit, 01 -> 64 bit,
2807  *                   10-> 32 bit signed, 11 -> prefetch
2808  * opc (vector): 00 -> 32 bit, 01 -> 64 bit, 10 -> 128 bit (11 unallocated)
2809  */
2810 static void disas_ld_lit(DisasContext *s, uint32_t insn)
2811 {
2812     int rt = extract32(insn, 0, 5);
2813     int64_t imm = sextract32(insn, 5, 19) << 2;
2814     bool is_vector = extract32(insn, 26, 1);
2815     int opc = extract32(insn, 30, 2);
2816     bool is_signed = false;
2817     int size = 2;
2818     TCGv_i64 tcg_rt, clean_addr;
2819
2820     if (is_vector) {
2821         if (opc == 3) {
2822             unallocated_encoding(s);
2823             return;
2824         }
2825         size = 2 + opc;
2826         if (!fp_access_check(s)) {
2827             return;
2828         }
2829     } else {
2830         if (opc == 3) {
2831             /* PRFM (literal) : prefetch */
2832             return;
2833         }
2834         size = 2 + extract32(opc, 0, 1);
2835         is_signed = extract32(opc, 1, 1);
2836     }
2837
2838     tcg_rt = cpu_reg(s, rt);
2839
2840     clean_addr = tcg_const_i64(s->pc_curr + imm);
2841     if (is_vector) {
2842         do_fp_ld(s, rt, clean_addr, size);
2843     } else {
2844         /* Only unsigned 32bit loads target 32bit registers.  */
2845         bool iss_sf = opc != 0;
2846
2847         do_gpr_ld(s, tcg_rt, clean_addr, size + is_signed * MO_SIGN,
2848                   false, true, rt, iss_sf, false);
2849     }
2850     tcg_temp_free_i64(clean_addr);
2851 }
2852
2853 /*
2854  * LDNP (Load Pair - non-temporal hint)
2855  * LDP (Load Pair - non vector)
2856  * LDPSW (Load Pair Signed Word - non vector)
2857  * STNP (Store Pair - non-temporal hint)
2858  * STP (Store Pair - non vector)
2859  * LDNP (Load Pair of SIMD&FP - non-temporal hint)
2860  * LDP (Load Pair of SIMD&FP)
2861  * STNP (Store Pair of SIMD&FP - non-temporal hint)
2862  * STP (Store Pair of SIMD&FP)
2863  *
2864  *  31 30 29   27  26  25 24   23  22 21   15 14   10 9    5 4    0
2865  * +-----+-------+---+---+-------+---+-----------------------------+
2866  * | opc | 1 0 1 | V | 0 | index | L |  imm7 |  Rt2  |  Rn  | Rt   |
2867  * +-----+-------+---+---+-------+---+-------+-------+------+------+
2868  *
2869  * opc: LDP/STP/LDNP/STNP        00 -> 32 bit, 10 -> 64 bit
2870  *      LDPSW/STGP               01
2871  *      LDP/STP/LDNP/STNP (SIMD) 00 -> 32 bit, 01 -> 64 bit, 10 -> 128 bit
2872  *   V: 0 -> GPR, 1 -> Vector
2873  * idx: 00 -> signed offset with non-temporal hint, 01 -> post-index,
2874  *      10 -> signed offset, 11 -> pre-index
2875  *   L: 0 -> Store 1 -> Load
2876  *
2877  * Rt, Rt2 = GPR or SIMD registers to be stored
2878  * Rn = general purpose register containing address
2879  * imm7 = signed offset (multiple of 4 or 8 depending on size)
2880  */
2881 static void disas_ldst_pair(DisasContext *s, uint32_t insn)
2882 {
2883     int rt = extract32(insn, 0, 5);
2884     int rn = extract32(insn, 5, 5);
2885     int rt2 = extract32(insn, 10, 5);
2886     uint64_t offset = sextract64(insn, 15, 7);
2887     int index = extract32(insn, 23, 2);
2888     bool is_vector = extract32(insn, 26, 1);
2889     bool is_load = extract32(insn, 22, 1);
2890     int opc = extract32(insn, 30, 2);
2891
2892     bool is_signed = false;
2893     bool postindex = false;
2894     bool wback = false;
2895     bool set_tag = false;
2896
2897     TCGv_i64 clean_addr, dirty_addr;
2898
2899     int size;
2900
2901     if (opc == 3) {
2902         unallocated_encoding(s);
2903         return;
2904     }
2905
2906     if (is_vector) {
2907         size = 2 + opc;
2908     } else if (opc == 1 && !is_load) {
2909         /* STGP */
2910         if (!dc_isar_feature(aa64_mte_insn_reg, s) || index == 0) {
2911             unallocated_encoding(s);
2912             return;
2913         }
2914         size = 3;
2915         set_tag = true;
2916     } else {
2917         size = 2 + extract32(opc, 1, 1);
2918         is_signed = extract32(opc, 0, 1);
2919         if (!is_load && is_signed) {
2920             unallocated_encoding(s);
2921             return;
2922         }
2923     }
2924
2925     switch (index) {
2926     case 1: /* post-index */
2927         postindex = true;
2928         wback = true;
2929         break;
2930     case 0:
2931         /* signed offset with "non-temporal" hint. Since we don't emulate
2932          * caches we don't care about hints to the cache system about
2933          * data access patterns, and handle this identically to plain
2934          * signed offset.
2935          */
2936         if (is_signed) {
2937             /* There is no non-temporal-hint version of LDPSW */
2938             unallocated_encoding(s);
2939             return;
2940         }
2941         postindex = false;
2942         break;
2943     case 2: /* signed offset, rn not updated */
2944         postindex = false;
2945         break;
2946     case 3: /* pre-index */
2947         postindex = false;
2948         wback = true;
2949         break;
2950     }
2951
2952     if (is_vector && !fp_access_check(s)) {
2953         return;
2954     }
2955
2956     offset <<= (set_tag ? LOG2_TAG_GRANULE : size);
2957
2958     if (rn == 31) {
2959         gen_check_sp_alignment(s);
2960     }
2961
2962     dirty_addr = read_cpu_reg_sp(s, rn, 1);
2963     if (!postindex) {
2964         tcg_gen_addi_i64(dirty_addr, dirty_addr, offset);
2965     }
2966
2967     if (set_tag) {
2968         if (!s->ata) {
2969             /*
2970              * TODO: We could rely on the stores below, at least for
2971              * system mode, if we arrange to add MO_ALIGN_16.
2972              */
2973             gen_helper_stg_stub(cpu_env, dirty_addr);
2974         } else if (tb_cflags(s->base.tb) & CF_PARALLEL) {
2975             gen_helper_stg_parallel(cpu_env, dirty_addr, dirty_addr);
2976         } else {
2977             gen_helper_stg(cpu_env, dirty_addr, dirty_addr);
2978         }
2979     }
2980
2981     clean_addr = gen_mte_checkN(s, dirty_addr, !is_load,
2982                                 (wback || rn != 31) && !set_tag, 2 << size);
2983
2984     if (is_vector) {
2985         if (is_load) {
2986             do_fp_ld(s, rt, clean_addr, size);
2987         } else {
2988             do_fp_st(s, rt, clean_addr, size);
2989         }
2990         tcg_gen_addi_i64(clean_addr, clean_addr, 1 << size);
2991         if (is_load) {
2992             do_fp_ld(s, rt2, clean_addr, size);
2993         } else {
2994             do_fp_st(s, rt2, clean_addr, size);
2995         }
2996     } else {
2997         TCGv_i64 tcg_rt = cpu_reg(s, rt);
2998         TCGv_i64 tcg_rt2 = cpu_reg(s, rt2);
2999
3000         if (is_load) {
3001             TCGv_i64 tmp = tcg_temp_new_i64();
3002
3003             /* Do not modify tcg_rt before recognizing any exception
3004              * from the second load.
3005              */
3006             do_gpr_ld(s, tmp, clean_addr, size + is_signed * MO_SIGN,
3007                       false, false, 0, false, false);
3008             tcg_gen_addi_i64(clean_addr, clean_addr, 1 << size);
3009             do_gpr_ld(s, tcg_rt2, clean_addr, size + is_signed * MO_SIGN,
3010                       false, false, 0, false, false);
3011
3012             tcg_gen_mov_i64(tcg_rt, tmp);
3013             tcg_temp_free_i64(tmp);
3014         } else {
3015             do_gpr_st(s, tcg_rt, clean_addr, size,
3016                       false, 0, false, false);
3017             tcg_gen_addi_i64(clean_addr, clean_addr, 1 << size);
3018             do_gpr_st(s, tcg_rt2, clean_addr, size,
3019                       false, 0, false, false);
3020         }
3021     }
3022
3023     if (wback) {
3024         if (postindex) {
3025             tcg_gen_addi_i64(dirty_addr, dirty_addr, offset);
3026         }
3027         tcg_gen_mov_i64(cpu_reg_sp(s, rn), dirty_addr);
3028     }
3029 }
3030
3031 /*
3032  * Load/store (immediate post-indexed)
3033  * Load/store (immediate pre-indexed)
3034  * Load/store (unscaled immediate)
3035  *
3036  * 31 30 29   27  26 25 24 23 22 21  20    12 11 10 9    5 4    0
3037  * +----+-------+---+-----+-----+---+--------+-----+------+------+
3038  * |size| 1 1 1 | V | 0 0 | opc | 0 |  imm9  | idx |  Rn  |  Rt  |
3039  * +----+-------+---+-----+-----+---+--------+-----+------+------+
3040  *
3041  * idx = 01 -> post-indexed, 11 pre-indexed, 00 unscaled imm. (no writeback)
3042          10 -> unprivileged
3043  * V = 0 -> non-vector
3044  * size: 00 -> 8 bit, 01 -> 16 bit, 10 -> 32 bit, 11 -> 64bit
3045  * opc: 00 -> store, 01 -> loadu, 10 -> loads 64, 11 -> loads 32
3046  */
3047 static void disas_ldst_reg_imm9(DisasContext *s, uint32_t insn,
3048                                 int opc,
3049                                 int size,
3050                                 int rt,
3051                                 bool is_vector)
3052 {
3053     int rn = extract32(insn, 5, 5);
3054     int imm9 = sextract32(insn, 12, 9);
3055     int idx = extract32(insn, 10, 2);
3056     bool is_signed = false;
3057     bool is_store = false;
3058     bool is_extended = false;
3059     bool is_unpriv = (idx == 2);
3060     bool iss_valid = !is_vector;
3061     bool post_index;
3062     bool writeback;
3063     int memidx;
3064
3065     TCGv_i64 clean_addr, dirty_addr;
3066
3067     if (is_vector) {
3068         size |= (opc & 2) << 1;
3069         if (size > 4 || is_unpriv) {
3070             unallocated_encoding(s);
3071             return;
3072         }
3073         is_store = ((opc & 1) == 0);
3074         if (!fp_access_check(s)) {
3075             return;
3076         }
3077     } else {
3078         if (size == 3 && opc == 2) {
3079             /* PRFM - prefetch */
3080             if (idx != 0) {
3081                 unallocated_encoding(s);
3082                 return;
3083             }
3084             return;
3085         }
3086         if (opc == 3 && size > 1) {
3087             unallocated_encoding(s);
3088             return;
3089         }
3090         is_store = (opc == 0);
3091         is_signed = extract32(opc, 1, 1);
3092         is_extended = (size < 3) && extract32(opc, 0, 1);
3093     }
3094
3095     switch (idx) {
3096     case 0:
3097     case 2:
3098         post_index = false;
3099         writeback = false;
3100         break;
3101     case 1:
3102         post_index = true;
3103         writeback = true;
3104         break;
3105     case 3:
3106         post_index = false;
3107         writeback = true;
3108         break;
3109     default:
3110         g_assert_not_reached();
3111     }
3112
3113     if (rn == 31) {
3114         gen_check_sp_alignment(s);
3115     }
3116
3117     dirty_addr = read_cpu_reg_sp(s, rn, 1);
3118     if (!post_index) {
3119         tcg_gen_addi_i64(dirty_addr, dirty_addr, imm9);
3120     }
3121
3122     memidx = is_unpriv ? get_a64_user_mem_index(s) : get_mem_index(s);
3123     clean_addr = gen_mte_check1_mmuidx(s, dirty_addr, is_store,
3124                                        writeback || rn != 31,
3125                                        size, is_unpriv, memidx);
3126
3127     if (is_vector) {
3128         if (is_store) {
3129             do_fp_st(s, rt, clean_addr, size);
3130         } else {
3131             do_fp_ld(s, rt, clean_addr, size);
3132         }
3133     } else {
3134         TCGv_i64 tcg_rt = cpu_reg(s, rt);
3135         bool iss_sf = disas_ldst_compute_iss_sf(size, is_signed, opc);
3136
3137         if (is_store) {
3138             do_gpr_st_memidx(s, tcg_rt, clean_addr, size, memidx,
3139                              iss_valid, rt, iss_sf, false);
3140         } else {
3141             do_gpr_ld_memidx(s, tcg_rt, clean_addr, size + is_signed * MO_SIGN,
3142                              is_extended, memidx,
3143                              iss_valid, rt, iss_sf, false);
3144         }
3145     }
3146
3147     if (writeback) {
3148         TCGv_i64 tcg_rn = cpu_reg_sp(s, rn);
3149         if (post_index) {
3150             tcg_gen_addi_i64(dirty_addr, dirty_addr, imm9);
3151         }
3152         tcg_gen_mov_i64(tcg_rn, dirty_addr);
3153     }
3154 }
3155
3156 /*
3157  * Load/store (register offset)
3158  *
3159  * 31 30 29   27  26 25 24 23 22 21  20  16 15 13 12 11 10 9  5 4  0
3160  * +----+-------+---+-----+-----+---+------+-----+--+-----+----+----+
3161  * |size| 1 1 1 | V | 0 0 | opc | 1 |  Rm  | opt | S| 1 0 | Rn | Rt |
3162  * +----+-------+---+-----+-----+---+------+-----+--+-----+----+----+
3163  *
3164  * For non-vector:
3165  *   size: 00-> byte, 01 -> 16 bit, 10 -> 32bit, 11 -> 64bit
3166  *   opc: 00 -> store, 01 -> loadu, 10 -> loads 64, 11 -> loads 32
3167  * For vector:
3168  *   size is opc<1>:size<1:0> so 100 -> 128 bit; 110 and 111 unallocated
3169  *   opc<0>: 0 -> store, 1 -> load
3170  * V: 1 -> vector/simd
3171  * opt: extend encoding (see DecodeRegExtend)
3172  * S: if S=1 then scale (essentially index by sizeof(size))
3173  * Rt: register to transfer into/out of
3174  * Rn: address register or SP for base
3175  * Rm: offset register or ZR for offset
3176  */
3177 static void disas_ldst_reg_roffset(DisasContext *s, uint32_t insn,
3178                                    int opc,
3179                                    int size,
3180                                    int rt,
3181                                    bool is_vector)
3182 {
3183     int rn = extract32(insn, 5, 5);
3184     int shift = extract32(insn, 12, 1);
3185     int rm = extract32(insn, 16, 5);
3186     int opt = extract32(insn, 13, 3);
3187     bool is_signed = false;
3188     bool is_store = false;
3189     bool is_extended = false;
3190
3191     TCGv_i64 tcg_rm, clean_addr, dirty_addr;
3192
3193     if (extract32(opt, 1, 1) == 0) {
3194         unallocated_encoding(s);
3195         return;
3196     }
3197
3198     if (is_vector) {
3199         size |= (opc & 2) << 1;
3200         if (size > 4) {
3201             unallocated_encoding(s);
3202             return;
3203         }
3204         is_store = !extract32(opc, 0, 1);
3205         if (!fp_access_check(s)) {
3206             return;
3207         }
3208     } else {
3209         if (size == 3 && opc == 2) {
3210             /* PRFM - prefetch */
3211             return;
3212         }
3213         if (opc == 3 && size > 1) {
3214             unallocated_encoding(s);
3215             return;
3216         }
3217         is_store = (opc == 0);
3218         is_signed = extract32(opc, 1, 1);
3219         is_extended = (size < 3) && extract32(opc, 0, 1);
3220     }
3221
3222     if (rn == 31) {
3223         gen_check_sp_alignment(s);
3224     }
3225     dirty_addr = read_cpu_reg_sp(s, rn, 1);
3226
3227     tcg_rm = read_cpu_reg(s, rm, 1);
3228     ext_and_shift_reg(tcg_rm, tcg_rm, opt, shift ? size : 0);
3229
3230     tcg_gen_add_i64(dirty_addr, dirty_addr, tcg_rm);
3231     clean_addr = gen_mte_check1(s, dirty_addr, is_store, true, size);
3232
3233     if (is_vector) {
3234         if (is_store) {
3235             do_fp_st(s, rt, clean_addr, size);
3236         } else {
3237             do_fp_ld(s, rt, clean_addr, size);
3238         }
3239     } else {
3240         TCGv_i64 tcg_rt = cpu_reg(s, rt);
3241         bool iss_sf = disas_ldst_compute_iss_sf(size, is_signed, opc);
3242         if (is_store) {
3243             do_gpr_st(s, tcg_rt, clean_addr, size,
3244                       true, rt, iss_sf, false);
3245         } else {
3246             do_gpr_ld(s, tcg_rt, clean_addr, size + is_signed * MO_SIGN,
3247                       is_extended, true, rt, iss_sf, false);
3248         }
3249     }
3250 }
3251
3252 /*
3253  * Load/store (unsigned immediate)
3254  *
3255  * 31 30 29   27  26 25 24 23 22 21        10 9     5
3256  * +----+-------+---+-----+-----+------------+-------+------+
3257  * |size| 1 1 1 | V | 0 1 | opc |   imm12    |  Rn   |  Rt  |
3258  * +----+-------+---+-----+-----+------------+-------+------+
3259  *
3260  * For non-vector:
3261  *   size: 00-> byte, 01 -> 16 bit, 10 -> 32bit, 11 -> 64bit
3262  *   opc: 00 -> store, 01 -> loadu, 10 -> loads 64, 11 -> loads 32
3263  * For vector:
3264  *   size is opc<1>:size<1:0> so 100 -> 128 bit; 110 and 111 unallocated
3265  *   opc<0>: 0 -> store, 1 -> load
3266  * Rn: base address register (inc SP)
3267  * Rt: target register
3268  */
3269 static void disas_ldst_reg_unsigned_imm(DisasContext *s, uint32_t insn,
3270                                         int opc,
3271                                         int size,
3272                                         int rt,
3273                                         bool is_vector)
3274 {
3275     int rn = extract32(insn, 5, 5);
3276     unsigned int imm12 = extract32(insn, 10, 12);
3277     unsigned int offset;
3278
3279     TCGv_i64 clean_addr, dirty_addr;
3280
3281     bool is_store;
3282     bool is_signed = false;
3283     bool is_extended = false;
3284
3285     if (is_vector) {
3286         size |= (opc & 2) << 1;
3287         if (size > 4) {
3288             unallocated_encoding(s);
3289             return;
3290         }
3291         is_store = !extract32(opc, 0, 1);
3292         if (!fp_access_check(s)) {
3293             return;
3294         }
3295     } else {
3296         if (size == 3 && opc == 2) {
3297             /* PRFM - prefetch */
3298             return;
3299         }
3300         if (opc == 3 && size > 1) {
3301             unallocated_encoding(s);
3302             return;
3303         }
3304         is_store = (opc == 0);
3305         is_signed = extract32(opc, 1, 1);
3306         is_extended = (size < 3) && extract32(opc, 0, 1);
3307     }
3308
3309     if (rn == 31) {
3310         gen_check_sp_alignment(s);
3311     }
3312     dirty_addr = read_cpu_reg_sp(s, rn, 1);
3313     offset = imm12 << size;
3314     tcg_gen_addi_i64(dirty_addr, dirty_addr, offset);
3315     clean_addr = gen_mte_check1(s, dirty_addr, is_store, rn != 31, size);
3316
3317     if (is_vector) {
3318         if (is_store) {
3319             do_fp_st(s, rt, clean_addr, size);
3320         } else {
3321             do_fp_ld(s, rt, clean_addr, size);
3322         }
3323     } else {
3324         TCGv_i64 tcg_rt = cpu_reg(s, rt);
3325         bool iss_sf = disas_ldst_compute_iss_sf(size, is_signed, opc);
3326         if (is_store) {
3327             do_gpr_st(s, tcg_rt, clean_addr, size,
3328                       true, rt, iss_sf, false);
3329         } else {
3330             do_gpr_ld(s, tcg_rt, clean_addr, size + is_signed * MO_SIGN,
3331                       is_extended, true, rt, iss_sf, false);
3332         }
3333     }
3334 }
3335
3336 /* Atomic memory operations
3337  *
3338  *  31  30      27  26    24    22  21   16   15    12    10    5     0
3339  * +------+-------+---+-----+-----+---+----+----+-----+-----+----+-----+
3340  * | size | 1 1 1 | V | 0 0 | A R | 1 | Rs | o3 | opc | 0 0 | Rn |  Rt |
3341  * +------+-------+---+-----+-----+--------+----+-----+-----+----+-----+
3342  *
3343  * Rt: the result register
3344  * Rn: base address or SP
3345  * Rs: the source register for the operation
3346  * V: vector flag (always 0 as of v8.3)
3347  * A: acquire flag
3348  * R: release flag
3349  */
3350 static void disas_ldst_atomic(DisasContext *s, uint32_t insn,
3351                               int size, int rt, bool is_vector)
3352 {
3353     int rs = extract32(insn, 16, 5);
3354     int rn = extract32(insn, 5, 5);
3355     int o3_opc = extract32(insn, 12, 4);
3356     bool r = extract32(insn, 22, 1);
3357     bool a = extract32(insn, 23, 1);
3358     TCGv_i64 tcg_rs, clean_addr;
3359     AtomicThreeOpFn *fn = NULL;
3360
3361     if (is_vector || !dc_isar_feature(aa64_atomics, s)) {
3362         unallocated_encoding(s);
3363         return;
3364     }
3365     switch (o3_opc) {
3366     case 000: /* LDADD */
3367         fn = tcg_gen_atomic_fetch_add_i64;
3368         break;
3369     case 001: /* LDCLR */
3370         fn = tcg_gen_atomic_fetch_and_i64;
3371         break;
3372     case 002: /* LDEOR */
3373         fn = tcg_gen_atomic_fetch_xor_i64;
3374         break;
3375     case 003: /* LDSET */
3376         fn = tcg_gen_atomic_fetch_or_i64;
3377         break;
3378     case 004: /* LDSMAX */
3379         fn = tcg_gen_atomic_fetch_smax_i64;
3380         break;
3381     case 005: /* LDSMIN */
3382         fn = tcg_gen_atomic_fetch_smin_i64;
3383         break;
3384     case 006: /* LDUMAX */
3385         fn = tcg_gen_atomic_fetch_umax_i64;
3386         break;
3387     case 007: /* LDUMIN */
3388         fn = tcg_gen_atomic_fetch_umin_i64;
3389         break;
3390     case 010: /* SWP */
3391         fn = tcg_gen_atomic_xchg_i64;
3392         break;
3393     case 014: /* LDAPR, LDAPRH, LDAPRB */
3394         if (!dc_isar_feature(aa64_rcpc_8_3, s) ||
3395             rs != 31 || a != 1 || r != 0) {
3396             unallocated_encoding(s);
3397             return;
3398         }
3399         break;
3400     default:
3401         unallocated_encoding(s);
3402         return;
3403     }
3404
3405     if (rn == 31) {
3406         gen_check_sp_alignment(s);
3407     }
3408     clean_addr = gen_mte_check1(s, cpu_reg_sp(s, rn), false, rn != 31, size);
3409
3410     if (o3_opc == 014) {
3411         /*
3412          * LDAPR* are a special case because they are a simple load, not a
3413          * fetch-and-do-something op.
3414          * The architectural consistency requirements here are weaker than
3415          * full load-acquire (we only need "load-acquire processor consistent"),
3416          * but we choose to implement them as full LDAQ.
3417          */
3418         do_gpr_ld(s, cpu_reg(s, rt), clean_addr, size, false,
3419                   true, rt, disas_ldst_compute_iss_sf(size, false, 0), true);
3420         tcg_gen_mb(TCG_MO_ALL | TCG_BAR_LDAQ);
3421         return;
3422     }
3423
3424     tcg_rs = read_cpu_reg(s, rs, true);
3425
3426     if (o3_opc == 1) { /* LDCLR */
3427         tcg_gen_not_i64(tcg_rs, tcg_rs);
3428     }
3429
3430     /* The tcg atomic primitives are all full barriers.  Therefore we
3431      * can ignore the Acquire and Release bits of this instruction.
3432      */
3433     fn(cpu_reg(s, rt), clean_addr, tcg_rs, get_mem_index(s),
3434        s->be_data | size | MO_ALIGN);
3435 }
3436
3437 /*
3438  * PAC memory operations
3439  *
3440  *  31  30      27  26    24    22  21       12  11  10    5     0
3441  * +------+-------+---+-----+-----+---+--------+---+---+----+-----+
3442  * | size | 1 1 1 | V | 0 0 | M S | 1 |  imm9  | W | 1 | Rn |  Rt |
3443  * +------+-------+---+-----+-----+---+--------+---+---+----+-----+
3444  *
3445  * Rt: the result register
3446  * Rn: base address or SP
3447  * V: vector flag (always 0 as of v8.3)
3448  * M: clear for key DA, set for key DB
3449  * W: pre-indexing flag
3450  * S: sign for imm9.
3451  */
3452 static void disas_ldst_pac(DisasContext *s, uint32_t insn,
3453                            int size, int rt, bool is_vector)
3454 {
3455     int rn = extract32(insn, 5, 5);
3456     bool is_wback = extract32(insn, 11, 1);
3457     bool use_key_a = !extract32(insn, 23, 1);
3458     int offset;
3459     TCGv_i64 clean_addr, dirty_addr, tcg_rt;
3460
3461     if (size != 3 || is_vector || !dc_isar_feature(aa64_pauth, s)) {
3462         unallocated_encoding(s);
3463         return;
3464     }
3465
3466     if (rn == 31) {
3467         gen_check_sp_alignment(s);
3468     }
3469     dirty_addr = read_cpu_reg_sp(s, rn, 1);
3470
3471     if (s->pauth_active) {
3472         if (use_key_a) {
3473             gen_helper_autda(dirty_addr, cpu_env, dirty_addr,
3474                              new_tmp_a64_zero(s));
3475         } else {
3476             gen_helper_autdb(dirty_addr, cpu_env, dirty_addr,
3477                              new_tmp_a64_zero(s));
3478         }
3479     }
3480
3481     /* Form the 10-bit signed, scaled offset.  */
3482     offset = (extract32(insn, 22, 1) << 9) | extract32(insn, 12, 9);
3483     offset = sextract32(offset << size, 0, 10 + size);
3484     tcg_gen_addi_i64(dirty_addr, dirty_addr, offset);
3485
3486     /* Note that "clean" and "dirty" here refer to TBI not PAC.  */
3487     clean_addr = gen_mte_check1(s, dirty_addr, false,
3488                                 is_wback || rn != 31, size);
3489
3490     tcg_rt = cpu_reg(s, rt);
3491     do_gpr_ld(s, tcg_rt, clean_addr, size,
3492               /* extend */ false, /* iss_valid */ !is_wback,
3493               /* iss_srt */ rt, /* iss_sf */ true, /* iss_ar */ false);
3494
3495     if (is_wback) {
3496         tcg_gen_mov_i64(cpu_reg_sp(s, rn), dirty_addr);
3497     }
3498 }
3499
3500 /*
3501  * LDAPR/STLR (unscaled immediate)
3502  *
3503  *  31  30            24    22  21       12    10    5     0
3504  * +------+-------------+-----+---+--------+-----+----+-----+
3505  * | size | 0 1 1 0 0 1 | opc | 0 |  imm9  | 0 0 | Rn |  Rt |
3506  * +------+-------------+-----+---+--------+-----+----+-----+
3507  *
3508  * Rt: source or destination register
3509  * Rn: base register
3510  * imm9: unscaled immediate offset
3511  * opc: 00: STLUR*, 01/10/11: various LDAPUR*
3512  * size: size of load/store
3513  */
3514 static void disas_ldst_ldapr_stlr(DisasContext *s, uint32_t insn)
3515 {
3516     int rt = extract32(insn, 0, 5);
3517     int rn = extract32(insn, 5, 5);
3518     int offset = sextract32(insn, 12, 9);
3519     int opc = extract32(insn, 22, 2);
3520     int size = extract32(insn, 30, 2);
3521     TCGv_i64 clean_addr, dirty_addr;
3522     bool is_store = false;
3523     bool extend = false;
3524     bool iss_sf;
3525     MemOp mop;
3526
3527     if (!dc_isar_feature(aa64_rcpc_8_4, s)) {
3528         unallocated_encoding(s);
3529         return;
3530     }
3531
3532     /* TODO: ARMv8.4-LSE SCTLR.nAA */
3533     mop = size | MO_ALIGN;
3534
3535     switch (opc) {
3536     case 0: /* STLURB */
3537         is_store = true;
3538         break;
3539     case 1: /* LDAPUR* */
3540         break;
3541     case 2: /* LDAPURS* 64-bit variant */
3542         if (size == 3) {
3543             unallocated_encoding(s);
3544             return;
3545         }
3546         mop |= MO_SIGN;
3547         break;
3548     case 3: /* LDAPURS* 32-bit variant */
3549         if (size > 1) {
3550             unallocated_encoding(s);
3551             return;
3552         }
3553         mop |= MO_SIGN;
3554         extend = true; /* zero-extend 32->64 after signed load */
3555         break;
3556     default:
3557         g_assert_not_reached();
3558     }
3559
3560     iss_sf = disas_ldst_compute_iss_sf(size, (mop & MO_SIGN) != 0, opc);
3561
3562     if (rn == 31) {
3563         gen_check_sp_alignment(s);
3564     }
3565
3566     dirty_addr = read_cpu_reg_sp(s, rn, 1);
3567     tcg_gen_addi_i64(dirty_addr, dirty_addr, offset);
3568     clean_addr = clean_data_tbi(s, dirty_addr);
3569
3570     if (is_store) {
3571         /* Store-Release semantics */
3572         tcg_gen_mb(TCG_MO_ALL | TCG_BAR_STRL);
3573         do_gpr_st(s, cpu_reg(s, rt), clean_addr, mop, true, rt, iss_sf, true);
3574     } else {
3575         /*
3576          * Load-AcquirePC semantics; we implement as the slightly more
3577          * restrictive Load-Acquire.
3578          */
3579         do_gpr_ld(s, cpu_reg(s, rt), clean_addr, mop,
3580                   extend, true, rt, iss_sf, true);
3581         tcg_gen_mb(TCG_MO_ALL | TCG_BAR_LDAQ);
3582     }
3583 }
3584
3585 /* Load/store register (all forms) */
3586 static void disas_ldst_reg(DisasContext *s, uint32_t insn)
3587 {
3588     int rt = extract32(insn, 0, 5);
3589     int opc = extract32(insn, 22, 2);
3590     bool is_vector = extract32(insn, 26, 1);
3591     int size = extract32(insn, 30, 2);
3592
3593     switch (extract32(insn, 24, 2)) {
3594     case 0:
3595         if (extract32(insn, 21, 1) == 0) {
3596             /* Load/store register (unscaled immediate)
3597              * Load/store immediate pre/post-indexed
3598              * Load/store register unprivileged
3599              */
3600             disas_ldst_reg_imm9(s, insn, opc, size, rt, is_vector);
3601             return;
3602         }
3603         switch (extract32(insn, 10, 2)) {
3604         case 0:
3605             disas_ldst_atomic(s, insn, size, rt, is_vector);
3606             return;
3607         case 2:
3608             disas_ldst_reg_roffset(s, insn, opc, size, rt, is_vector);
3609             return;
3610         default:
3611             disas_ldst_pac(s, insn, size, rt, is_vector);
3612             return;
3613         }
3614         break;
3615     case 1:
3616         disas_ldst_reg_unsigned_imm(s, insn, opc, size, rt, is_vector);
3617         return;
3618     }
3619     unallocated_encoding(s);
3620 }
3621
3622 /* AdvSIMD load/store multiple structures
3623  *
3624  *  31  30  29           23 22  21         16 15    12 11  10 9    5 4    0
3625  * +---+---+---------------+---+-------------+--------+------+------+------+
3626  * | 0 | Q | 0 0 1 1 0 0 0 | L | 0 0 0 0 0 0 | opcode | size |  Rn  |  Rt  |
3627  * +---+---+---------------+---+-------------+--------+------+------+------+
3628  *
3629  * AdvSIMD load/store multiple structures (post-indexed)
3630  *
3631  *  31  30  29           23 22  21  20     16 15    12 11  10 9    5 4    0
3632  * +---+---+---------------+---+---+---------+--------+------+------+------+
3633  * | 0 | Q | 0 0 1 1 0 0 1 | L | 0 |   Rm    | opcode | size |  Rn  |  Rt  |
3634  * +---+---+---------------+---+---+---------+--------+------+------+------+
3635  *
3636  * Rt: first (or only) SIMD&FP register to be transferred
3637  * Rn: base address or SP
3638  * Rm (post-index only): post-index register (when !31) or size dependent #imm
3639  */
3640 static void disas_ldst_multiple_struct(DisasContext *s, uint32_t insn)
3641 {
3642     int rt = extract32(insn, 0, 5);
3643     int rn = extract32(insn, 5, 5);
3644     int rm = extract32(insn, 16, 5);
3645     int size = extract32(insn, 10, 2);
3646     int opcode = extract32(insn, 12, 4);
3647     bool is_store = !extract32(insn, 22, 1);
3648     bool is_postidx = extract32(insn, 23, 1);
3649     bool is_q = extract32(insn, 30, 1);
3650     TCGv_i64 clean_addr, tcg_rn, tcg_ebytes;
3651     MemOp endian, align, mop;
3652
3653     int total;    /* total bytes */
3654     int elements; /* elements per vector */
3655     int rpt;    /* num iterations */
3656     int selem;  /* structure elements */
3657     int r;
3658
3659     if (extract32(insn, 31, 1) || extract32(insn, 21, 1)) {
3660         unallocated_encoding(s);
3661         return;
3662     }
3663
3664     if (!is_postidx && rm != 0) {
3665         unallocated_encoding(s);
3666         return;
3667     }
3668
3669     /* From the shared decode logic */
3670     switch (opcode) {
3671     case 0x0:
3672         rpt = 1;
3673         selem = 4;
3674         break;
3675     case 0x2:
3676         rpt = 4;
3677         selem = 1;
3678         break;
3679     case 0x4:
3680         rpt = 1;
3681         selem = 3;
3682         break;
3683     case 0x6:
3684         rpt = 3;
3685         selem = 1;
3686         break;
3687     case 0x7:
3688         rpt = 1;
3689         selem = 1;
3690         break;
3691     case 0x8:
3692         rpt = 1;
3693         selem = 2;
3694         break;
3695     case 0xa:
3696         rpt = 2;
3697         selem = 1;
3698         break;
3699     default:
3700         unallocated_encoding(s);
3701         return;
3702     }
3703
3704     if (size == 3 && !is_q && selem != 1) {
3705         /* reserved */
3706         unallocated_encoding(s);
3707         return;
3708     }
3709
3710     if (!fp_access_check(s)) {
3711         return;
3712     }
3713
3714     if (rn == 31) {
3715         gen_check_sp_alignment(s);
3716     }
3717
3718     /* For our purposes, bytes are always little-endian.  */
3719     endian = s->be_data;
3720     if (size == 0) {
3721         endian = MO_LE;
3722     }
3723
3724     total = rpt * selem * (is_q ? 16 : 8);
3725     tcg_rn = cpu_reg_sp(s, rn);
3726
3727     /*
3728      * Issue the MTE check vs the logical repeat count, before we
3729      * promote consecutive little-endian elements below.
3730      */
3731     clean_addr = gen_mte_checkN(s, tcg_rn, is_store, is_postidx || rn != 31,
3732                                 total);
3733
3734     /*
3735      * Consecutive little-endian elements from a single register
3736      * can be promoted to a larger little-endian operation.
3737      */
3738     align = MO_ALIGN;
3739     if (selem == 1 && endian == MO_LE) {
3740         align = pow2_align(size);
3741         size = 3;
3742     }
3743     if (!s->align_mem) {
3744         align = 0;
3745     }
3746     mop = endian | size | align;
3747
3748     elements = (is_q ? 16 : 8) >> size;
3749     tcg_ebytes = tcg_const_i64(1 << size);
3750     for (r = 0; r < rpt; r++) {
3751         int e;
3752         for (e = 0; e < elements; e++) {
3753             int xs;
3754             for (xs = 0; xs < selem; xs++) {
3755                 int tt = (rt + r + xs) % 32;
3756                 if (is_store) {
3757                     do_vec_st(s, tt, e, clean_addr, mop);
3758                 } else {
3759                     do_vec_ld(s, tt, e, clean_addr, mop);
3760                 }
3761                 tcg_gen_add_i64(clean_addr, clean_addr, tcg_ebytes);
3762             }
3763         }
3764     }
3765     tcg_temp_free_i64(tcg_ebytes);
3766
3767     if (!is_store) {
3768         /* For non-quad operations, setting a slice of the low
3769          * 64 bits of the register clears the high 64 bits (in
3770          * the ARM ARM pseudocode this is implicit in the fact
3771          * that 'rval' is a 64 bit wide variable).
3772          * For quad operations, we might still need to zero the
3773          * high bits of SVE.
3774          */
3775         for (r = 0; r < rpt * selem; r++) {
3776             int tt = (rt + r) % 32;
3777             clear_vec_high(s, is_q, tt);
3778         }
3779     }
3780
3781     if (is_postidx) {
3782         if (rm == 31) {
3783             tcg_gen_addi_i64(tcg_rn, tcg_rn, total);
3784         } else {
3785             tcg_gen_add_i64(tcg_rn, tcg_rn, cpu_reg(s, rm));
3786         }
3787     }
3788 }
3789
3790 /* AdvSIMD load/store single structure
3791  *
3792  *  31  30  29           23 22 21 20       16 15 13 12  11  10 9    5 4    0
3793  * +---+---+---------------+-----+-----------+-----+---+------+------+------+
3794  * | 0 | Q | 0 0 1 1 0 1 0 | L R | 0 0 0 0 0 | opc | S | size |  Rn  |  Rt  |
3795  * +---+---+---------------+-----+-----------+-----+---+------+------+------+
3796  *
3797  * AdvSIMD load/store single structure (post-indexed)
3798  *
3799  *  31  30  29           23 22 21 20       16 15 13 12  11  10 9    5 4    0
3800  * +---+---+---------------+-----+-----------+-----+---+------+------+------+
3801  * | 0 | Q | 0 0 1 1 0 1 1 | L R |     Rm    | opc | S | size |  Rn  |  Rt  |
3802  * +---+---+---------------+-----+-----------+-----+---+------+------+------+
3803  *
3804  * Rt: first (or only) SIMD&FP register to be transferred
3805  * Rn: base address or SP
3806  * Rm (post-index only): post-index register (when !31) or size dependent #imm
3807  * index = encoded in Q:S:size dependent on size
3808  *
3809  * lane_size = encoded in R, opc
3810  * transfer width = encoded in opc, S, size
3811  */
3812 static void disas_ldst_single_struct(DisasContext *s, uint32_t insn)
3813 {
3814     int rt = extract32(insn, 0, 5);
3815     int rn = extract32(insn, 5, 5);
3816     int rm = extract32(insn, 16, 5);
3817     int size = extract32(insn, 10, 2);
3818     int S = extract32(insn, 12, 1);
3819     int opc = extract32(insn, 13, 3);
3820     int R = extract32(insn, 21, 1);
3821     int is_load = extract32(insn, 22, 1);
3822     int is_postidx = extract32(insn, 23, 1);
3823     int is_q = extract32(insn, 30, 1);
3824
3825     int scale = extract32(opc, 1, 2);
3826     int selem = (extract32(opc, 0, 1) << 1 | R) + 1;
3827     bool replicate = false;
3828     int index = is_q << 3 | S << 2 | size;
3829     int xs, total;
3830     TCGv_i64 clean_addr, tcg_rn, tcg_ebytes;
3831     MemOp mop;
3832
3833     if (extract32(insn, 31, 1)) {
3834         unallocated_encoding(s);
3835         return;
3836     }
3837     if (!is_postidx && rm != 0) {
3838         unallocated_encoding(s);
3839         return;
3840     }
3841
3842     switch (scale) {
3843     case 3:
3844         if (!is_load || S) {
3845             unallocated_encoding(s);
3846             return;
3847         }
3848         scale = size;
3849         replicate = true;
3850         break;
3851     case 0:
3852         break;
3853     case 1:
3854         if (extract32(size, 0, 1)) {
3855             unallocated_encoding(s);
3856             return;
3857         }
3858         index >>= 1;
3859         break;
3860     case 2:
3861         if (extract32(size, 1, 1)) {
3862             unallocated_encoding(s);
3863             return;
3864         }
3865         if (!extract32(size, 0, 1)) {
3866             index >>= 2;
3867         } else {
3868             if (S) {
3869                 unallocated_encoding(s);
3870                 return;
3871             }
3872             index >>= 3;
3873             scale = 3;
3874         }
3875         break;
3876     default:
3877         g_assert_not_reached();
3878     }
3879
3880     if (!fp_access_check(s)) {
3881         return;
3882     }
3883
3884     if (rn == 31) {
3885         gen_check_sp_alignment(s);
3886     }
3887
3888     total = selem << scale;
3889     tcg_rn = cpu_reg_sp(s, rn);
3890
3891     clean_addr = gen_mte_checkN(s, tcg_rn, !is_load, is_postidx || rn != 31,
3892                                 total);
3893     mop = finalize_memop(s, scale);
3894
3895     tcg_ebytes = tcg_const_i64(1 << scale);
3896     for (xs = 0; xs < selem; xs++) {
3897         if (replicate) {
3898             /* Load and replicate to all elements */
3899             TCGv_i64 tcg_tmp = tcg_temp_new_i64();
3900
3901             tcg_gen_qemu_ld_i64(tcg_tmp, clean_addr, get_mem_index(s), mop);
3902             tcg_gen_gvec_dup_i64(scale, vec_full_reg_offset(s, rt),
3903                                  (is_q + 1) * 8, vec_full_reg_size(s),
3904                                  tcg_tmp);
3905             tcg_temp_free_i64(tcg_tmp);
3906         } else {
3907             /* Load/store one element per register */
3908             if (is_load) {
3909                 do_vec_ld(s, rt, index, clean_addr, mop);
3910             } else {
3911                 do_vec_st(s, rt, index, clean_addr, mop);
3912             }
3913         }
3914         tcg_gen_add_i64(clean_addr, clean_addr, tcg_ebytes);
3915         rt = (rt + 1) % 32;
3916     }
3917     tcg_temp_free_i64(tcg_ebytes);
3918
3919     if (is_postidx) {
3920         if (rm == 31) {
3921             tcg_gen_addi_i64(tcg_rn, tcg_rn, total);
3922         } else {
3923             tcg_gen_add_i64(tcg_rn, tcg_rn, cpu_reg(s, rm));
3924         }
3925     }
3926 }
3927
3928 /*
3929  * Load/Store memory tags
3930  *
3931  *  31 30 29         24     22  21     12    10      5      0
3932  * +-----+-------------+-----+---+------+-----+------+------+
3933  * | 1 1 | 0 1 1 0 0 1 | op1 | 1 | imm9 | op2 |  Rn  |  Rt  |
3934  * +-----+-------------+-----+---+------+-----+------+------+
3935  */
3936 static void disas_ldst_tag(DisasContext *s, uint32_t insn)
3937 {
3938     int rt = extract32(insn, 0, 5);
3939     int rn = extract32(insn, 5, 5);
3940     uint64_t offset = sextract64(insn, 12, 9) << LOG2_TAG_GRANULE;
3941     int op2 = extract32(insn, 10, 2);
3942     int op1 = extract32(insn, 22, 2);
3943     bool is_load = false, is_pair = false, is_zero = false, is_mult = false;
3944     int index = 0;
3945     TCGv_i64 addr, clean_addr, tcg_rt;
3946
3947     /* We checked insn bits [29:24,21] in the caller.  */
3948     if (extract32(insn, 30, 2) != 3) {
3949         goto do_unallocated;
3950     }
3951
3952     /*
3953      * @index is a tri-state variable which has 3 states:
3954      * < 0 : post-index, writeback
3955      * = 0 : signed offset
3956      * > 0 : pre-index, writeback
3957      */
3958     switch (op1) {
3959     case 0:
3960         if (op2 != 0) {
3961             /* STG */
3962             index = op2 - 2;
3963         } else {
3964             /* STZGM */
3965             if (s->current_el == 0 || offset != 0) {
3966                 goto do_unallocated;
3967             }
3968             is_mult = is_zero = true;
3969         }
3970         break;
3971     case 1:
3972         if (op2 != 0) {
3973             /* STZG */
3974             is_zero = true;
3975             index = op2 - 2;
3976         } else {
3977             /* LDG */
3978             is_load = true;
3979         }
3980         break;
3981     case 2:
3982         if (op2 != 0) {
3983             /* ST2G */
3984             is_pair = true;
3985             index = op2 - 2;
3986         } else {
3987             /* STGM */
3988             if (s->current_el == 0 || offset != 0) {
3989                 goto do_unallocated;
3990             }
3991             is_mult = true;
3992         }
3993         break;
3994     case 3:
3995         if (op2 != 0) {
3996             /* STZ2G */
3997             is_pair = is_zero = true;
3998             index = op2 - 2;
3999         } else {
4000             /* LDGM */
4001             if (s->current_el == 0 || offset != 0) {
4002                 goto do_unallocated;
4003             }
4004             is_mult = is_load = true;
4005         }
4006         break;
4007
4008     default:
4009     do_unallocated:
4010         unallocated_encoding(s);
4011         return;
4012     }
4013
4014     if (is_mult
4015         ? !dc_isar_feature(aa64_mte, s)
4016         : !dc_isar_feature(aa64_mte_insn_reg, s)) {
4017         goto do_unallocated;
4018     }
4019
4020     if (rn == 31) {
4021         gen_check_sp_alignment(s);
4022     }
4023
4024     addr = read_cpu_reg_sp(s, rn, true);
4025     if (index >= 0) {
4026         /* pre-index or signed offset */
4027         tcg_gen_addi_i64(addr, addr, offset);
4028     }
4029
4030     if (is_mult) {
4031         tcg_rt = cpu_reg(s, rt);
4032
4033         if (is_zero) {
4034             int size = 4 << s->dcz_blocksize;
4035
4036             if (s->ata) {
4037                 gen_helper_stzgm_tags(cpu_env, addr, tcg_rt);
4038             }
4039             /*
4040              * The non-tags portion of STZGM is mostly like DC_ZVA,
4041              * except the alignment happens before the access.
4042              */
4043             clean_addr = clean_data_tbi(s, addr);
4044             tcg_gen_andi_i64(clean_addr, clean_addr, -size);
4045             gen_helper_dc_zva(cpu_env, clean_addr);
4046         } else if (s->ata) {
4047             if (is_load) {
4048                 gen_helper_ldgm(tcg_rt, cpu_env, addr);
4049             } else {
4050                 gen_helper_stgm(cpu_env, addr, tcg_rt);
4051             }
4052         } else {
4053             MMUAccessType acc = is_load ? MMU_DATA_LOAD : MMU_DATA_STORE;
4054             int size = 4 << GMID_EL1_BS;
4055
4056             clean_addr = clean_data_tbi(s, addr);
4057             tcg_gen_andi_i64(clean_addr, clean_addr, -size);
4058             gen_probe_access(s, clean_addr, acc, size);
4059
4060             if (is_load) {
4061                 /* The result tags are zeros.  */
4062                 tcg_gen_movi_i64(tcg_rt, 0);
4063             }
4064         }
4065         return;
4066     }
4067
4068     if (is_load) {
4069         tcg_gen_andi_i64(addr, addr, -TAG_GRANULE);
4070         tcg_rt = cpu_reg(s, rt);
4071         if (s->ata) {
4072             gen_helper_ldg(tcg_rt, cpu_env, addr, tcg_rt);
4073         } else {
4074             clean_addr = clean_data_tbi(s, addr);
4075             gen_probe_access(s, clean_addr, MMU_DATA_LOAD, MO_8);
4076             gen_address_with_allocation_tag0(tcg_rt, addr);
4077         }
4078     } else {
4079         tcg_rt = cpu_reg_sp(s, rt);
4080         if (!s->ata) {
4081             /*
4082              * For STG and ST2G, we need to check alignment and probe memory.
4083              * TODO: For STZG and STZ2G, we could rely on the stores below,
4084              * at least for system mode; user-only won't enforce alignment.
4085              */
4086             if (is_pair) {
4087                 gen_helper_st2g_stub(cpu_env, addr);
4088             } else {
4089                 gen_helper_stg_stub(cpu_env, addr);
4090             }
4091         } else if (tb_cflags(s->base.tb) & CF_PARALLEL) {
4092             if (is_pair) {
4093                 gen_helper_st2g_parallel(cpu_env, addr, tcg_rt);
4094             } else {
4095                 gen_helper_stg_parallel(cpu_env, addr, tcg_rt);
4096             }
4097         } else {
4098             if (is_pair) {
4099                 gen_helper_st2g(cpu_env, addr, tcg_rt);
4100             } else {
4101                 gen_helper_stg(cpu_env, addr, tcg_rt);
4102             }
4103         }
4104     }
4105
4106     if (is_zero) {
4107         TCGv_i64 clean_addr = clean_data_tbi(s, addr);
4108         TCGv_i64 tcg_zero = tcg_const_i64(0);
4109         int mem_index = get_mem_index(s);
4110         int i, n = (1 + is_pair) << LOG2_TAG_GRANULE;
4111
4112         tcg_gen_qemu_st_i64(tcg_zero, clean_addr, mem_index,
4113                             MO_Q | MO_ALIGN_16);
4114         for (i = 8; i < n; i += 8) {
4115             tcg_gen_addi_i64(clean_addr, clean_addr, 8);
4116             tcg_gen_qemu_st_i64(tcg_zero, clean_addr, mem_index, MO_Q);
4117         }
4118         tcg_temp_free_i64(tcg_zero);
4119     }
4120
4121     if (index != 0) {
4122         /* pre-index or post-index */
4123         if (index < 0) {
4124             /* post-index */
4125             tcg_gen_addi_i64(addr, addr, offset);
4126         }
4127         tcg_gen_mov_i64(cpu_reg_sp(s, rn), addr);
4128     }
4129 }
4130
4131 /* Loads and stores */
4132 static void disas_ldst(DisasContext *s, uint32_t insn)
4133 {
4134     switch (extract32(insn, 24, 6)) {
4135     case 0x08: /* Load/store exclusive */
4136         disas_ldst_excl(s, insn);
4137         break;
4138     case 0x18: case 0x1c: /* Load register (literal) */
4139         disas_ld_lit(s, insn);
4140         break;
4141     case 0x28: case 0x29:
4142     case 0x2c: case 0x2d: /* Load/store pair (all forms) */
4143         disas_ldst_pair(s, insn);
4144         break;
4145     case 0x38: case 0x39:
4146     case 0x3c: case 0x3d: /* Load/store register (all forms) */
4147         disas_ldst_reg(s, insn);
4148         break;
4149     case 0x0c: /* AdvSIMD load/store multiple structures */
4150         disas_ldst_multiple_struct(s, insn);
4151         break;
4152     case 0x0d: /* AdvSIMD load/store single structure */
4153         disas_ldst_single_struct(s, insn);
4154         break;
4155     case 0x19:
4156         if (extract32(insn, 21, 1) != 0) {
4157             disas_ldst_tag(s, insn);
4158         } else if (extract32(insn, 10, 2) == 0) {
4159             disas_ldst_ldapr_stlr(s, insn);
4160         } else {
4161             unallocated_encoding(s);
4162         }
4163         break;
4164     default:
4165         unallocated_encoding(s);
4166         break;
4167     }
4168 }
4169
4170 /* PC-rel. addressing
4171  *   31  30   29 28       24 23                5 4    0
4172  * +----+-------+-----------+-------------------+------+
4173  * | op | immlo | 1 0 0 0 0 |       immhi       |  Rd  |
4174  * +----+-------+-----------+-------------------+------+
4175  */
4176 static void disas_pc_rel_adr(DisasContext *s, uint32_t insn)
4177 {
4178     unsigned int page, rd;
4179     uint64_t base;
4180     uint64_t offset;
4181
4182     page = extract32(insn, 31, 1);
4183     /* SignExtend(immhi:immlo) -> offset */
4184     offset = sextract64(insn, 5, 19);
4185     offset = offset << 2 | extract32(insn, 29, 2);
4186     rd = extract32(insn, 0, 5);
4187     base = s->pc_curr;
4188
4189     if (page) {
4190         /* ADRP (page based) */
4191         base &= ~0xfff;
4192         offset <<= 12;
4193     }
4194
4195     tcg_gen_movi_i64(cpu_reg(s, rd), base + offset);
4196 }
4197
4198 /*
4199  * Add/subtract (immediate)
4200  *
4201  *  31 30 29 28         23 22 21         10 9   5 4   0
4202  * +--+--+--+-------------+--+-------------+-----+-----+
4203  * |sf|op| S| 1 0 0 0 1 0 |sh|    imm12    |  Rn | Rd  |
4204  * +--+--+--+-------------+--+-------------+-----+-----+
4205  *
4206  *    sf: 0 -> 32bit, 1 -> 64bit
4207  *    op: 0 -> add  , 1 -> sub
4208  *     S: 1 -> set flags
4209  *    sh: 1 -> LSL imm by 12
4210  */
4211 static void disas_add_sub_imm(DisasContext *s, uint32_t insn)
4212 {
4213     int rd = extract32(insn, 0, 5);
4214     int rn = extract32(insn, 5, 5);
4215     uint64_t imm = extract32(insn, 10, 12);
4216     bool shift = extract32(insn, 22, 1);
4217     bool setflags = extract32(insn, 29, 1);
4218     bool sub_op = extract32(insn, 30, 1);
4219     bool is_64bit = extract32(insn, 31, 1);
4220
4221     TCGv_i64 tcg_rn = cpu_reg_sp(s, rn);
4222     TCGv_i64 tcg_rd = setflags ? cpu_reg(s, rd) : cpu_reg_sp(s, rd);
4223     TCGv_i64 tcg_result;
4224
4225     if (shift) {
4226         imm <<= 12;
4227     }
4228
4229     tcg_result = tcg_temp_new_i64();
4230     if (!setflags) {
4231         if (sub_op) {
4232             tcg_gen_subi_i64(tcg_result, tcg_rn, imm);
4233         } else {
4234             tcg_gen_addi_i64(tcg_result, tcg_rn, imm);
4235         }
4236     } else {
4237         TCGv_i64 tcg_imm = tcg_const_i64(imm);
4238         if (sub_op) {
4239             gen_sub_CC(is_64bit, tcg_result, tcg_rn, tcg_imm);
4240         } else {
4241             gen_add_CC(is_64bit, tcg_result, tcg_rn, tcg_imm);
4242         }
4243         tcg_temp_free_i64(tcg_imm);
4244     }
4245
4246     if (is_64bit) {
4247         tcg_gen_mov_i64(tcg_rd, tcg_result);
4248     } else {
4249         tcg_gen_ext32u_i64(tcg_rd, tcg_result);
4250     }
4251
4252     tcg_temp_free_i64(tcg_result);
4253 }
4254
4255 /*
4256  * Add/subtract (immediate, with tags)
4257  *
4258  *  31 30 29 28         23 22 21     16 14      10 9   5 4   0
4259  * +--+--+--+-------------+--+---------+--+-------+-----+-----+
4260  * |sf|op| S| 1 0 0 0 1 1 |o2|  uimm6  |o3| uimm4 |  Rn | Rd  |
4261  * +--+--+--+-------------+--+---------+--+-------+-----+-----+
4262  *
4263  *    op: 0 -> add, 1 -> sub
4264  */
4265 static void disas_add_sub_imm_with_tags(DisasContext *s, uint32_t insn)
4266 {
4267     int rd = extract32(insn, 0, 5);
4268     int rn = extract32(insn, 5, 5);
4269     int uimm4 = extract32(insn, 10, 4);
4270     int uimm6 = extract32(insn, 16, 6);
4271     bool sub_op = extract32(insn, 30, 1);
4272     TCGv_i64 tcg_rn, tcg_rd;
4273     int imm;
4274
4275     /* Test all of sf=1, S=0, o2=0, o3=0.  */
4276     if ((insn & 0xa040c000u) != 0x80000000u ||
4277         !dc_isar_feature(aa64_mte_insn_reg, s)) {
4278         unallocated_encoding(s);
4279         return;
4280     }
4281
4282     imm = uimm6 << LOG2_TAG_GRANULE;
4283     if (sub_op) {
4284         imm = -imm;
4285     }
4286
4287     tcg_rn = cpu_reg_sp(s, rn);
4288     tcg_rd = cpu_reg_sp(s, rd);
4289
4290     if (s->ata) {
4291         TCGv_i32 offset = tcg_const_i32(imm);
4292         TCGv_i32 tag_offset = tcg_const_i32(uimm4);
4293
4294         gen_helper_addsubg(tcg_rd, cpu_env, tcg_rn, offset, tag_offset);
4295         tcg_temp_free_i32(tag_offset);
4296         tcg_temp_free_i32(offset);
4297     } else {
4298         tcg_gen_addi_i64(tcg_rd, tcg_rn, imm);
4299         gen_address_with_allocation_tag0(tcg_rd, tcg_rd);
4300     }
4301 }
4302
4303 /* The input should be a value in the bottom e bits (with higher
4304  * bits zero); returns that value replicated into every element
4305  * of size e in a 64 bit integer.
4306  */
4307 static uint64_t bitfield_replicate(uint64_t mask, unsigned int e)
4308 {
4309     assert(e != 0);
4310     while (e < 64) {
4311         mask |= mask << e;
4312         e *= 2;
4313     }
4314     return mask;
4315 }
4316
4317 /* Return a value with the bottom len bits set (where 0 < len <= 64) */
4318 static inline uint64_t bitmask64(unsigned int length)
4319 {
4320     assert(length > 0 && length <= 64);
4321     return ~0ULL >> (64 - length);
4322 }
4323
4324 /* Simplified variant of pseudocode DecodeBitMasks() for the case where we
4325  * only require the wmask. Returns false if the imms/immr/immn are a reserved
4326  * value (ie should cause a guest UNDEF exception), and true if they are
4327  * valid, in which case the decoded bit pattern is written to result.
4328  */
4329 bool logic_imm_decode_wmask(uint64_t *result, unsigned int immn,
4330                             unsigned int imms, unsigned int immr)
4331 {
4332     uint64_t mask;
4333     unsigned e, levels, s, r;
4334     int len;
4335
4336     assert(immn < 2 && imms < 64 && immr < 64);
4337
4338     /* The bit patterns we create here are 64 bit patterns which
4339      * are vectors of identical elements of size e = 2, 4, 8, 16, 32 or
4340      * 64 bits each. Each element contains the same value: a run
4341      * of between 1 and e-1 non-zero bits, rotated within the
4342      * element by between 0 and e-1 bits.
4343      *
4344      * The element size and run length are encoded into immn (1 bit)
4345      * and imms (6 bits) as follows:
4346      * 64 bit elements: immn = 1, imms = <length of run - 1>
4347      * 32 bit elements: immn = 0, imms = 0 : <length of run - 1>
4348      * 16 bit elements: immn = 0, imms = 10 : <length of run - 1>
4349      *  8 bit elements: immn = 0, imms = 110 : <length of run - 1>
4350      *  4 bit elements: immn = 0, imms = 1110 : <length of run - 1>
4351      *  2 bit elements: immn = 0, imms = 11110 : <length of run - 1>
4352      * Notice that immn = 0, imms = 11111x is the only combination
4353      * not covered by one of the above options; this is reserved.
4354      * Further, <length of run - 1> all-ones is a reserved pattern.
4355      *
4356      * In all cases the rotation is by immr % e (and immr is 6 bits).
4357      */
4358
4359     /* First determine the element size */
4360     len = 31 - clz32((immn << 6) | (~imms & 0x3f));
4361     if (len < 1) {
4362         /* This is the immn == 0, imms == 0x11111x case */
4363         return false;
4364     }
4365     e = 1 << len;
4366
4367     levels = e - 1;
4368     s = imms & levels;
4369     r = immr & levels;
4370
4371     if (s == levels) {
4372         /* <length of run - 1> mustn't be all-ones. */
4373         return false;
4374     }
4375
4376     /* Create the value of one element: s+1 set bits rotated
4377      * by r within the element (which is e bits wide)...
4378      */
4379     mask = bitmask64(s + 1);
4380     if (r) {
4381         mask = (mask >> r) | (mask << (e - r));
4382         mask &= bitmask64(e);
4383     }
4384     /* ...then replicate the element over the whole 64 bit value */
4385     mask = bitfield_replicate(mask, e);
4386     *result = mask;
4387     return true;
4388 }
4389
4390 /* Logical (immediate)
4391  *   31  30 29 28         23 22  21  16 15  10 9    5 4    0
4392  * +----+-----+-------------+---+------+------+------+------+
4393  * | sf | opc | 1 0 0 1 0 0 | N | immr | imms |  Rn  |  Rd  |
4394  * +----+-----+-------------+---+------+------+------+------+
4395  */
4396 static void disas_logic_imm(DisasContext *s, uint32_t insn)
4397 {
4398     unsigned int sf, opc, is_n, immr, imms, rn, rd;
4399     TCGv_i64 tcg_rd, tcg_rn;
4400     uint64_t wmask;
4401     bool is_and = false;
4402
4403     sf = extract32(insn, 31, 1);
4404     opc = extract32(insn, 29, 2);
4405     is_n = extract32(insn, 22, 1);
4406     immr = extract32(insn, 16, 6);
4407     imms = extract32(insn, 10, 6);
4408     rn = extract32(insn, 5, 5);
4409     rd = extract32(insn, 0, 5);
4410
4411     if (!sf && is_n) {
4412         unallocated_encoding(s);
4413         return;
4414     }
4415
4416     if (opc == 0x3) { /* ANDS */
4417         tcg_rd = cpu_reg(s, rd);
4418     } else {
4419         tcg_rd = cpu_reg_sp(s, rd);
4420     }
4421     tcg_rn = cpu_reg(s, rn);
4422
4423     if (!logic_imm_decode_wmask(&wmask, is_n, imms, immr)) {
4424         /* some immediate field values are reserved */
4425         unallocated_encoding(s);
4426         return;
4427     }
4428
4429     if (!sf) {
4430         wmask &= 0xffffffff;
4431     }
4432
4433     switch (opc) {
4434     case 0x3: /* ANDS */
4435     case 0x0: /* AND */
4436         tcg_gen_andi_i64(tcg_rd, tcg_rn, wmask);
4437         is_and = true;
4438         break;
4439     case 0x1: /* ORR */
4440         tcg_gen_ori_i64(tcg_rd, tcg_rn, wmask);
4441         break;
4442     case 0x2: /* EOR */
4443         tcg_gen_xori_i64(tcg_rd, tcg_rn, wmask);
4444         break;
4445     default:
4446         assert(FALSE); /* must handle all above */
4447         break;
4448     }
4449
4450     if (!sf && !is_and) {
4451         /* zero extend final result; we know we can skip this for AND
4452          * since the immediate had the high 32 bits clear.
4453          */
4454         tcg_gen_ext32u_i64(tcg_rd, tcg_rd);
4455     }
4456
4457     if (opc == 3) { /* ANDS */
4458         gen_logic_CC(sf, tcg_rd);
4459     }
4460 }
4461
4462 /*
4463  * Move wide (immediate)
4464  *
4465  *  31 30 29 28         23 22 21 20             5 4    0
4466  * +--+-----+-------------+-----+----------------+------+
4467  * |sf| opc | 1 0 0 1 0 1 |  hw |  imm16         |  Rd  |
4468  * +--+-----+-------------+-----+----------------+------+
4469  *
4470  * sf: 0 -> 32 bit, 1 -> 64 bit
4471  * opc: 00 -> N, 10 -> Z, 11 -> K
4472  * hw: shift/16 (0,16, and sf only 32, 48)
4473  */
4474 static void disas_movw_imm(DisasContext *s, uint32_t insn)
4475 {
4476     int rd = extract32(insn, 0, 5);
4477     uint64_t imm = extract32(insn, 5, 16);
4478     int sf = extract32(insn, 31, 1);
4479     int opc = extract32(insn, 29, 2);
4480     int pos = extract32(insn, 21, 2) << 4;
4481     TCGv_i64 tcg_rd = cpu_reg(s, rd);
4482     TCGv_i64 tcg_imm;
4483
4484     if (!sf && (pos >= 32)) {
4485         unallocated_encoding(s);
4486         return;
4487     }
4488
4489     switch (opc) {
4490     case 0: /* MOVN */
4491     case 2: /* MOVZ */
4492         imm <<= pos;
4493         if (opc == 0) {
4494             imm = ~imm;
4495         }
4496         if (!sf) {
4497             imm &= 0xffffffffu;
4498         }
4499         tcg_gen_movi_i64(tcg_rd, imm);
4500         break;
4501     case 3: /* MOVK */
4502         tcg_imm = tcg_const_i64(imm);
4503         tcg_gen_deposit_i64(tcg_rd, tcg_rd, tcg_imm, pos, 16);
4504         tcg_temp_free_i64(tcg_imm);
4505         if (!sf) {
4506             tcg_gen_ext32u_i64(tcg_rd, tcg_rd);
4507         }
4508         break;
4509     default:
4510         unallocated_encoding(s);
4511         break;
4512     }
4513 }
4514
4515 /* Bitfield
4516  *   31  30 29 28         23 22  21  16 15  10 9    5 4    0
4517  * +----+-----+-------------+---+------+------+------+------+
4518  * | sf | opc | 1 0 0 1 1 0 | N | immr | imms |  Rn  |  Rd  |
4519  * +----+-----+-------------+---+------+------+------+------+
4520  */
4521 static void disas_bitfield(DisasContext *s, uint32_t insn)
4522 {
4523     unsigned int sf, n, opc, ri, si, rn, rd, bitsize, pos, len;
4524     TCGv_i64 tcg_rd, tcg_tmp;
4525
4526     sf = extract32(insn, 31, 1);
4527     opc = extract32(insn, 29, 2);
4528     n = extract32(insn, 22, 1);
4529     ri = extract32(insn, 16, 6);
4530     si = extract32(insn, 10, 6);
4531     rn = extract32(insn, 5, 5);
4532     rd = extract32(insn, 0, 5);
4533     bitsize = sf ? 64 : 32;
4534
4535     if (sf != n || ri >= bitsize || si >= bitsize || opc > 2) {
4536         unallocated_encoding(s);
4537         return;
4538     }
4539
4540     tcg_rd = cpu_reg(s, rd);
4541
4542     /* Suppress the zero-extend for !sf.  Since RI and SI are constrained
4543        to be smaller than bitsize, we'll never reference data outside the
4544        low 32-bits anyway.  */
4545     tcg_tmp = read_cpu_reg(s, rn, 1);
4546
4547     /* Recognize simple(r) extractions.  */
4548     if (si >= ri) {
4549         /* Wd<s-r:0> = Wn<s:r> */
4550         len = (si - ri) + 1;
4551         if (opc == 0) { /* SBFM: ASR, SBFX, SXTB, SXTH, SXTW */
4552             tcg_gen_sextract_i64(tcg_rd, tcg_tmp, ri, len);
4553             goto done;
4554         } else if (opc == 2) { /* UBFM: UBFX, LSR, UXTB, UXTH */
4555             tcg_gen_extract_i64(tcg_rd, tcg_tmp, ri, len);
4556             return;
4557         }
4558         /* opc == 1, BFXIL fall through to deposit */
4559         tcg_gen_shri_i64(tcg_tmp, tcg_tmp, ri);
4560         pos = 0;
4561     } else {
4562         /* Handle the ri > si case with a deposit
4563          * Wd<32+s-r,32-r> = Wn<s:0>
4564          */
4565         len = si + 1;
4566         pos = (bitsize - ri) & (bitsize - 1);
4567     }
4568
4569     if (opc == 0 && len < ri) {
4570         /* SBFM: sign extend the destination field from len to fill
4571            the balance of the word.  Let the deposit below insert all
4572            of those sign bits.  */
4573         tcg_gen_sextract_i64(tcg_tmp, tcg_tmp, 0, len);
4574         len = ri;
4575     }
4576
4577     if (opc == 1) { /* BFM, BFXIL */
4578         tcg_gen_deposit_i64(tcg_rd, tcg_rd, tcg_tmp, pos, len);
4579     } else {
4580         /* SBFM or UBFM: We start with zero, and we haven't modified
4581            any bits outside bitsize, therefore the zero-extension
4582            below is unneeded.  */
4583         tcg_gen_deposit_z_i64(tcg_rd, tcg_tmp, pos, len);
4584         return;
4585     }
4586
4587  done:
4588     if (!sf) { /* zero extend final result */
4589         tcg_gen_ext32u_i64(tcg_rd, tcg_rd);
4590     }
4591 }
4592
4593 /* Extract
4594  *   31  30  29 28         23 22   21  20  16 15    10 9    5 4    0
4595  * +----+------+-------------+---+----+------+--------+------+------+
4596  * | sf | op21 | 1 0 0 1 1 1 | N | o0 |  Rm  |  imms  |  Rn  |  Rd  |
4597  * +----+------+-------------+---+----+------+--------+------+------+
4598  */
4599 static void disas_extract(DisasContext *s, uint32_t insn)
4600 {
4601     unsigned int sf, n, rm, imm, rn, rd, bitsize, op21, op0;
4602
4603     sf = extract32(insn, 31, 1);
4604     n = extract32(insn, 22, 1);
4605     rm = extract32(insn, 16, 5);
4606     imm = extract32(insn, 10, 6);
4607     rn = extract32(insn, 5, 5);
4608     rd = extract32(insn, 0, 5);
4609     op21 = extract32(insn, 29, 2);
4610     op0 = extract32(insn, 21, 1);
4611     bitsize = sf ? 64 : 32;
4612
4613     if (sf != n || op21 || op0 || imm >= bitsize) {
4614         unallocated_encoding(s);
4615     } else {
4616         TCGv_i64 tcg_rd, tcg_rm, tcg_rn;
4617
4618         tcg_rd = cpu_reg(s, rd);
4619
4620         if (unlikely(imm == 0)) {
4621             /* tcg shl_i32/shl_i64 is undefined for 32/64 bit shifts,
4622              * so an extract from bit 0 is a special case.
4623              */
4624             if (sf) {
4625                 tcg_gen_mov_i64(tcg_rd, cpu_reg(s, rm));
4626             } else {
4627                 tcg_gen_ext32u_i64(tcg_rd, cpu_reg(s, rm));
4628             }
4629         } else {
4630             tcg_rm = cpu_reg(s, rm);
4631             tcg_rn = cpu_reg(s, rn);
4632
4633             if (sf) {
4634                 /* Specialization to ROR happens in EXTRACT2.  */
4635                 tcg_gen_extract2_i64(tcg_rd, tcg_rm, tcg_rn, imm);
4636             } else {
4637                 TCGv_i32 t0 = tcg_temp_new_i32();
4638
4639                 tcg_gen_extrl_i64_i32(t0, tcg_rm);
4640                 if (rm == rn) {
4641                     tcg_gen_rotri_i32(t0, t0, imm);
4642                 } else {
4643                     TCGv_i32 t1 = tcg_temp_new_i32();
4644                     tcg_gen_extrl_i64_i32(t1, tcg_rn);
4645                     tcg_gen_extract2_i32(t0, t0, t1, imm);
4646                     tcg_temp_free_i32(t1);
4647                 }
4648                 tcg_gen_extu_i32_i64(tcg_rd, t0);
4649                 tcg_temp_free_i32(t0);
4650             }
4651         }
4652     }
4653 }
4654
4655 /* Data processing - immediate */
4656 static void disas_data_proc_imm(DisasContext *s, uint32_t insn)
4657 {
4658     switch (extract32(insn, 23, 6)) {
4659     case 0x20: case 0x21: /* PC-rel. addressing */
4660         disas_pc_rel_adr(s, insn);
4661         break;
4662     case 0x22: /* Add/subtract (immediate) */
4663         disas_add_sub_imm(s, insn);
4664         break;
4665     case 0x23: /* Add/subtract (immediate, with tags) */
4666         disas_add_sub_imm_with_tags(s, insn);
4667         break;
4668     case 0x24: /* Logical (immediate) */
4669         disas_logic_imm(s, insn);
4670         break;
4671     case 0x25: /* Move wide (immediate) */
4672         disas_movw_imm(s, insn);
4673         break;
4674     case 0x26: /* Bitfield */
4675         disas_bitfield(s, insn);
4676         break;
4677     case 0x27: /* Extract */
4678         disas_extract(s, insn);
4679         break;
4680     default:
4681         unallocated_encoding(s);
4682         break;
4683     }
4684 }
4685
4686 /* Shift a TCGv src by TCGv shift_amount, put result in dst.
4687  * Note that it is the caller's responsibility to ensure that the
4688  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
4689  * mandated semantics for out of range shifts.
4690  */
4691 static void shift_reg(TCGv_i64 dst, TCGv_i64 src, int sf,
4692                       enum a64_shift_type shift_type, TCGv_i64 shift_amount)
4693 {
4694     switch (shift_type) {
4695     case A64_SHIFT_TYPE_LSL:
4696         tcg_gen_shl_i64(dst, src, shift_amount);
4697         break;
4698     case A64_SHIFT_TYPE_LSR:
4699         tcg_gen_shr_i64(dst, src, shift_amount);
4700         break;
4701     case A64_SHIFT_TYPE_ASR:
4702         if (!sf) {
4703             tcg_gen_ext32s_i64(dst, src);
4704         }
4705         tcg_gen_sar_i64(dst, sf ? src : dst, shift_amount);
4706         break;
4707     case A64_SHIFT_TYPE_ROR:
4708         if (sf) {
4709             tcg_gen_rotr_i64(dst, src, shift_amount);
4710         } else {
4711             TCGv_i32 t0, t1;
4712             t0 = tcg_temp_new_i32();
4713             t1 = tcg_temp_new_i32();
4714             tcg_gen_extrl_i64_i32(t0, src);
4715             tcg_gen_extrl_i64_i32(t1, shift_amount);
4716             tcg_gen_rotr_i32(t0, t0, t1);
4717             tcg_gen_extu_i32_i64(dst, t0);
4718             tcg_temp_free_i32(t0);
4719             tcg_temp_free_i32(t1);
4720         }
4721         break;
4722     default:
4723         assert(FALSE); /* all shift types should be handled */
4724         break;
4725     }
4726
4727     if (!sf) { /* zero extend final result */
4728         tcg_gen_ext32u_i64(dst, dst);
4729     }
4730 }
4731
4732 /* Shift a TCGv src by immediate, put result in dst.
4733  * The shift amount must be in range (this should always be true as the
4734  * relevant instructions will UNDEF on bad shift immediates).
4735  */
4736 static void shift_reg_imm(TCGv_i64 dst, TCGv_i64 src, int sf,
4737                           enum a64_shift_type shift_type, unsigned int shift_i)
4738 {
4739     assert(shift_i < (sf ? 64 : 32));
4740
4741     if (shift_i == 0) {
4742         tcg_gen_mov_i64(dst, src);
4743     } else {
4744         TCGv_i64 shift_const;
4745
4746         shift_const = tcg_const_i64(shift_i);
4747         shift_reg(dst, src, sf, shift_type, shift_const);
4748         tcg_temp_free_i64(shift_const);
4749     }
4750 }
4751
4752 /* Logical (shifted register)
4753  *   31  30 29 28       24 23   22 21  20  16 15    10 9    5 4    0
4754  * +----+-----+-----------+-------+---+------+--------+------+------+
4755  * | sf | opc | 0 1 0 1 0 | shift | N |  Rm  |  imm6  |  Rn  |  Rd  |
4756  * +----+-----+-----------+-------+---+------+--------+------+------+
4757  */
4758 static void disas_logic_reg(DisasContext *s, uint32_t insn)
4759 {
4760     TCGv_i64 tcg_rd, tcg_rn, tcg_rm;
4761     unsigned int sf, opc, shift_type, invert, rm, shift_amount, rn, rd;
4762
4763     sf = extract32(insn, 31, 1);
4764     opc = extract32(insn, 29, 2);
4765     shift_type = extract32(insn, 22, 2);
4766     invert = extract32(insn, 21, 1);
4767     rm = extract32(insn, 16, 5);
4768     shift_amount = extract32(insn, 10, 6);
4769     rn = extract32(insn, 5, 5);
4770     rd = extract32(insn, 0, 5);
4771
4772     if (!sf && (shift_amount & (1 << 5))) {
4773         unallocated_encoding(s);
4774         return;
4775     }
4776
4777     tcg_rd = cpu_reg(s, rd);
4778
4779     if (opc == 1 && shift_amount == 0 && shift_type == 0 && rn == 31) {
4780         /* Unshifted ORR and ORN with WZR/XZR is the standard encoding for
4781          * register-register MOV and MVN, so it is worth special casing.
4782          */
4783         tcg_rm = cpu_reg(s, rm);
4784         if (invert) {
4785             tcg_gen_not_i64(tcg_rd, tcg_rm);
4786             if (!sf) {
4787                 tcg_gen_ext32u_i64(tcg_rd, tcg_rd);
4788             }
4789         } else {
4790             if (sf) {
4791                 tcg_gen_mov_i64(tcg_rd, tcg_rm);
4792             } else {
4793                 tcg_gen_ext32u_i64(tcg_rd, tcg_rm);
4794             }
4795         }
4796         return;
4797     }
4798
4799     tcg_rm = read_cpu_reg(s, rm, sf);
4800
4801     if (shift_amount) {
4802         shift_reg_imm(tcg_rm, tcg_rm, sf, shift_type, shift_amount);
4803     }
4804
4805     tcg_rn = cpu_reg(s, rn);
4806
4807     switch (opc | (invert << 2)) {
4808     case 0: /* AND */
4809     case 3: /* ANDS */
4810         tcg_gen_and_i64(tcg_rd, tcg_rn, tcg_rm);
4811         break;
4812     case 1: /* ORR */
4813         tcg_gen_or_i64(tcg_rd, tcg_rn, tcg_rm);
4814         break;
4815     case 2: /* EOR */
4816         tcg_gen_xor_i64(tcg_rd, tcg_rn, tcg_rm);
4817         break;
4818     case 4: /* BIC */
4819     case 7: /* BICS */
4820         tcg_gen_andc_i64(tcg_rd, tcg_rn, tcg_rm);
4821         break;
4822     case 5: /* ORN */
4823         tcg_gen_orc_i64(tcg_rd, tcg_rn, tcg_rm);
4824         break;
4825     case 6: /* EON */
4826         tcg_gen_eqv_i64(tcg_rd, tcg_rn, tcg_rm);
4827         break;
4828     default:
4829         assert(FALSE);
4830         break;
4831     }
4832
4833     if (!sf) {
4834         tcg_gen_ext32u_i64(tcg_rd, tcg_rd);
4835     }
4836
4837     if (opc == 3) {
4838         gen_logic_CC(sf, tcg_rd);
4839     }
4840 }
4841
4842 /*
4843  * Add/subtract (extended register)
4844  *
4845  *  31|30|29|28       24|23 22|21|20   16|15  13|12  10|9  5|4  0|
4846  * +--+--+--+-----------+-----+--+-------+------+------+----+----+
4847  * |sf|op| S| 0 1 0 1 1 | opt | 1|  Rm   |option| imm3 | Rn | Rd |
4848  * +--+--+--+-----------+-----+--+-------+------+------+----+----+
4849  *
4850  *  sf: 0 -> 32bit, 1 -> 64bit
4851  *  op: 0 -> add  , 1 -> sub
4852  *   S: 1 -> set flags
4853  * opt: 00
4854  * option: extension type (see DecodeRegExtend)
4855  * imm3: optional shift to Rm
4856  *
4857  * Rd = Rn + LSL(extend(Rm), amount)
4858  */
4859 static void disas_add_sub_ext_reg(DisasContext *s, uint32_t insn)
4860 {
4861     int rd = extract32(insn, 0, 5);
4862     int rn = extract32(insn, 5, 5);
4863     int imm3 = extract32(insn, 10, 3);
4864     int option = extract32(insn, 13, 3);
4865     int rm = extract32(insn, 16, 5);
4866     int opt = extract32(insn, 22, 2);
4867     bool setflags = extract32(insn, 29, 1);
4868     bool sub_op = extract32(insn, 30, 1);
4869     bool sf = extract32(insn, 31, 1);
4870
4871     TCGv_i64 tcg_rm, tcg_rn; /* temps */
4872     TCGv_i64 tcg_rd;
4873     TCGv_i64 tcg_result;
4874
4875     if (imm3 > 4 || opt != 0) {
4876         unallocated_encoding(s);
4877         return;
4878     }
4879
4880     /* non-flag setting ops may use SP */
4881     if (!setflags) {
4882         tcg_rd = cpu_reg_sp(s, rd);
4883     } else {
4884         tcg_rd = cpu_reg(s, rd);
4885     }
4886     tcg_rn = read_cpu_reg_sp(s, rn, sf);
4887
4888     tcg_rm = read_cpu_reg(s, rm, sf);
4889     ext_and_shift_reg(tcg_rm, tcg_rm, option, imm3);
4890
4891     tcg_result = tcg_temp_new_i64();
4892
4893     if (!setflags) {
4894         if (sub_op) {
4895             tcg_gen_sub_i64(tcg_result, tcg_rn, tcg_rm);
4896         } else {
4897             tcg_gen_add_i64(tcg_result, tcg_rn, tcg_rm);
4898         }
4899     } else {
4900         if (sub_op) {
4901             gen_sub_CC(sf, tcg_result, tcg_rn, tcg_rm);
4902         } else {
4903             gen_add_CC(sf, tcg_result, tcg_rn, tcg_rm);
4904         }
4905     }
4906
4907     if (sf) {
4908         tcg_gen_mov_i64(tcg_rd, tcg_result);
4909     } else {
4910         tcg_gen_ext32u_i64(tcg_rd, tcg_result);
4911     }
4912
4913     tcg_temp_free_i64(tcg_result);
4914 }
4915
4916 /*
4917  * Add/subtract (shifted register)
4918  *
4919  *  31 30 29 28       24 23 22 21 20   16 15     10 9    5 4    0
4920  * +--+--+--+-----------+-----+--+-------+---------+------+------+
4921  * |sf|op| S| 0 1 0 1 1 |shift| 0|  Rm   |  imm6   |  Rn  |  Rd  |
4922  * +--+--+--+-----------+-----+--+-------+---------+------+------+
4923  *
4924  *    sf: 0 -> 32bit, 1 -> 64bit
4925  *    op: 0 -> add  , 1 -> sub
4926  *     S: 1 -> set flags
4927  * shift: 00 -> LSL, 01 -> LSR, 10 -> ASR, 11 -> RESERVED
4928  *  imm6: Shift amount to apply to Rm before the add/sub
4929  */
4930 static void disas_add_sub_reg(DisasContext *s, uint32_t insn)
4931 {
4932     int rd = extract32(insn, 0, 5);
4933     int rn = extract32(insn, 5, 5);
4934     int imm6 = extract32(insn, 10, 6);
4935     int rm = extract32(insn, 16, 5);
4936     int shift_type = extract32(insn, 22, 2);
4937     bool setflags = extract32(insn, 29, 1);
4938     bool sub_op = extract32(insn, 30, 1);
4939     bool sf = extract32(insn, 31, 1);
4940
4941     TCGv_i64 tcg_rd = cpu_reg(s, rd);
4942     TCGv_i64 tcg_rn, tcg_rm;
4943     TCGv_i64 tcg_result;
4944
4945     if ((shift_type == 3) || (!sf && (imm6 > 31))) {
4946         unallocated_encoding(s);
4947         return;
4948     }
4949
4950     tcg_rn = read_cpu_reg(s, rn, sf);
4951     tcg_rm = read_cpu_reg(s, rm, sf);
4952
4953     shift_reg_imm(tcg_rm, tcg_rm, sf, shift_type, imm6);
4954
4955     tcg_result = tcg_temp_new_i64();
4956
4957     if (!setflags) {
4958         if (sub_op) {
4959             tcg_gen_sub_i64(tcg_result, tcg_rn, tcg_rm);
4960         } else {
4961             tcg_gen_add_i64(tcg_result, tcg_rn, tcg_rm);
4962         }
4963     } else {
4964         if (sub_op) {
4965             gen_sub_CC(sf, tcg_result, tcg_rn, tcg_rm);
4966         } else {
4967             gen_add_CC(sf, tcg_result, tcg_rn, tcg_rm);
4968         }
4969     }
4970
4971     if (sf) {
4972         tcg_gen_mov_i64(tcg_rd, tcg_result);
4973     } else {
4974         tcg_gen_ext32u_i64(tcg_rd, tcg_result);
4975     }
4976
4977     tcg_temp_free_i64(tcg_result);
4978 }
4979
4980 /* Data-processing (3 source)
4981  *
4982  *    31 30  29 28       24 23 21  20  16  15  14  10 9    5 4    0
4983  *  +--+------+-----------+------+------+----+------+------+------+
4984  *  |sf| op54 | 1 1 0 1 1 | op31 |  Rm  | o0 |  Ra  |  Rn  |  Rd  |
4985  *  +--+------+-----------+------+------+----+------+------+------+
4986  */
4987 static void disas_data_proc_3src(DisasContext *s, uint32_t insn)
4988 {
4989     int rd = extract32(insn, 0, 5);
4990     int rn = extract32(insn, 5, 5);
4991     int ra = extract32(insn, 10, 5);
4992     int rm = extract32(insn, 16, 5);
4993     int op_id = (extract32(insn, 29, 3) << 4) |
4994         (extract32(insn, 21, 3) << 1) |
4995         extract32(insn, 15, 1);
4996     bool sf = extract32(insn, 31, 1);
4997     bool is_sub = extract32(op_id, 0, 1);
4998     bool is_high = extract32(op_id, 2, 1);
4999     bool is_signed = false;
5000     TCGv_i64 tcg_op1;
5001     TCGv_i64 tcg_op2;
5002     TCGv_i64 tcg_tmp;
5003
5004     /* Note that op_id is sf:op54:op31:o0 so it includes the 32/64 size flag */
5005     switch (op_id) {
5006     case 0x42: /* SMADDL */
5007     case 0x43: /* SMSUBL */
5008     case 0x44: /* SMULH */
5009         is_signed = true;
5010         break;
5011     case 0x0: /* MADD (32bit) */
5012     case 0x1: /* MSUB (32bit) */
5013     case 0x40: /* MADD (64bit) */
5014     case 0x41: /* MSUB (64bit) */
5015     case 0x4a: /* UMADDL */
5016     case 0x4b: /* UMSUBL */
5017     case 0x4c: /* UMULH */
5018         break;
5019     default:
5020         unallocated_encoding(s);
5021         return;
5022     }
5023
5024     if (is_high) {
5025         TCGv_i64 low_bits = tcg_temp_new_i64(); /* low bits discarded */
5026         TCGv_i64 tcg_rd = cpu_reg(s, rd);
5027         TCGv_i64 tcg_rn = cpu_reg(s, rn);
5028         TCGv_i64 tcg_rm = cpu_reg(s, rm);
5029
5030         if (is_signed) {
5031             tcg_gen_muls2_i64(low_bits, tcg_rd, tcg_rn, tcg_rm);
5032         } else {
5033             tcg_gen_mulu2_i64(low_bits, tcg_rd, tcg_rn, tcg_rm);
5034         }
5035
5036         tcg_temp_free_i64(low_bits);
5037         return;
5038     }
5039
5040     tcg_op1 = tcg_temp_new_i64();
5041     tcg_op2 = tcg_temp_new_i64();
5042     tcg_tmp = tcg_temp_new_i64();
5043
5044     if (op_id < 0x42) {
5045         tcg_gen_mov_i64(tcg_op1, cpu_reg(s, rn));
5046         tcg_gen_mov_i64(tcg_op2, cpu_reg(s, rm));
5047     } else {
5048         if (is_signed) {
5049             tcg_gen_ext32s_i64(tcg_op1, cpu_reg(s, rn));
5050             tcg_gen_ext32s_i64(tcg_op2, cpu_reg(s, rm));
5051         } else {
5052             tcg_gen_ext32u_i64(tcg_op1, cpu_reg(s, rn));
5053             tcg_gen_ext32u_i64(tcg_op2, cpu_reg(s, rm));
5054         }
5055     }
5056
5057     if (ra == 31 && !is_sub) {
5058         /* Special-case MADD with rA == XZR; it is the standard MUL alias */
5059         tcg_gen_mul_i64(cpu_reg(s, rd), tcg_op1, tcg_op2);
5060     } else {
5061         tcg_gen_mul_i64(tcg_tmp, tcg_op1, tcg_op2);
5062         if (is_sub) {
5063             tcg_gen_sub_i64(cpu_reg(s, rd), cpu_reg(s, ra), tcg_tmp);
5064         } else {
5065             tcg_gen_add_i64(cpu_reg(s, rd), cpu_reg(s, ra), tcg_tmp);
5066         }
5067     }
5068
5069     if (!sf) {
5070         tcg_gen_ext32u_i64(cpu_reg(s, rd), cpu_reg(s, rd));
5071     }
5072
5073     tcg_temp_free_i64(tcg_op1);
5074     tcg_temp_free_i64(tcg_op2);
5075     tcg_temp_free_i64(tcg_tmp);
5076 }
5077
5078 /* Add/subtract (with carry)
5079  *  31 30 29 28 27 26 25 24 23 22 21  20  16  15       10  9    5 4   0
5080  * +--+--+--+------------------------+------+-------------+------+-----+
5081  * |sf|op| S| 1  1  0  1  0  0  0  0 |  rm  | 0 0 0 0 0 0 |  Rn  |  Rd |
5082  * +--+--+--+------------------------+------+-------------+------+-----+
5083  */
5084
5085 static void disas_adc_sbc(DisasContext *s, uint32_t insn)
5086 {
5087     unsigned int sf, op, setflags, rm, rn, rd;
5088     TCGv_i64 tcg_y, tcg_rn, tcg_rd;
5089
5090     sf = extract32(insn, 31, 1);
5091     op = extract32(insn, 30, 1);
5092     setflags = extract32(insn, 29, 1);
5093     rm = extract32(insn, 16, 5);
5094     rn = extract32(insn, 5, 5);
5095     rd = extract32(insn, 0, 5);
5096
5097     tcg_rd = cpu_reg(s, rd);
5098     tcg_rn = cpu_reg(s, rn);
5099
5100     if (op) {
5101         tcg_y = new_tmp_a64(s);
5102         tcg_gen_not_i64(tcg_y, cpu_reg(s, rm));
5103     } else {
5104         tcg_y = cpu_reg(s, rm);
5105     }
5106
5107     if (setflags) {
5108         gen_adc_CC(sf, tcg_rd, tcg_rn, tcg_y);
5109     } else {
5110         gen_adc(sf, tcg_rd, tcg_rn, tcg_y);
5111     }
5112 }
5113
5114 /*
5115  * Rotate right into flags
5116  *  31 30 29                21       15          10      5  4      0
5117  * +--+--+--+-----------------+--------+-----------+------+--+------+
5118  * |sf|op| S| 1 1 0 1 0 0 0 0 |  imm6  | 0 0 0 0 1 |  Rn  |o2| mask |
5119  * +--+--+--+-----------------+--------+-----------+------+--+------+
5120  */
5121 static void disas_rotate_right_into_flags(DisasContext *s, uint32_t insn)
5122 {
5123     int mask = extract32(insn, 0, 4);
5124     int o2 = extract32(insn, 4, 1);
5125     int rn = extract32(insn, 5, 5);
5126     int imm6 = extract32(insn, 15, 6);
5127     int sf_op_s = extract32(insn, 29, 3);
5128     TCGv_i64 tcg_rn;
5129     TCGv_i32 nzcv;
5130
5131     if (sf_op_s != 5 || o2 != 0 || !dc_isar_feature(aa64_condm_4, s)) {
5132         unallocated_encoding(s);
5133         return;
5134     }
5135
5136     tcg_rn = read_cpu_reg(s, rn, 1);
5137     tcg_gen_rotri_i64(tcg_rn, tcg_rn, imm6);
5138
5139     nzcv = tcg_temp_new_i32();
5140     tcg_gen_extrl_i64_i32(nzcv, tcg_rn);
5141
5142     if (mask & 8) { /* N */
5143         tcg_gen_shli_i32(cpu_NF, nzcv, 31 - 3);
5144     }
5145     if (mask & 4) { /* Z */
5146         tcg_gen_not_i32(cpu_ZF, nzcv);
5147         tcg_gen_andi_i32(cpu_ZF, cpu_ZF, 4);
5148     }
5149     if (mask & 2) { /* C */
5150         tcg_gen_extract_i32(cpu_CF, nzcv, 1, 1);
5151     }
5152     if (mask & 1) { /* V */
5153         tcg_gen_shli_i32(cpu_VF, nzcv, 31 - 0);
5154     }
5155
5156     tcg_temp_free_i32(nzcv);
5157 }
5158
5159 /*
5160  * Evaluate into flags
5161  *  31 30 29                21        15   14        10      5  4      0
5162  * +--+--+--+-----------------+---------+----+---------+------+--+------+
5163  * |sf|op| S| 1 1 0 1 0 0 0 0 | opcode2 | sz | 0 0 1 0 |  Rn  |o3| mask |
5164  * +--+--+--+-----------------+---------+----+---------+------+--+------+
5165  */
5166 static void disas_evaluate_into_flags(DisasContext *s, uint32_t insn)
5167 {
5168     int o3_mask = extract32(insn, 0, 5);
5169     int rn = extract32(insn, 5, 5);
5170     int o2 = extract32(insn, 15, 6);
5171     int sz = extract32(insn, 14, 1);
5172     int sf_op_s = extract32(insn, 29, 3);
5173     TCGv_i32 tmp;
5174     int shift;
5175
5176     if (sf_op_s != 1 || o2 != 0 || o3_mask != 0xd ||
5177         !dc_isar_feature(aa64_condm_4, s)) {
5178         unallocated_encoding(s);
5179         return;
5180     }
5181     shift = sz ? 16 : 24;  /* SETF16 or SETF8 */
5182
5183     tmp = tcg_temp_new_i32();
5184     tcg_gen_extrl_i64_i32(tmp, cpu_reg(s, rn));
5185     tcg_gen_shli_i32(cpu_NF, tmp, shift);
5186     tcg_gen_shli_i32(cpu_VF, tmp, shift - 1);
5187     tcg_gen_mov_i32(cpu_ZF, cpu_NF);
5188     tcg_gen_xor_i32(cpu_VF, cpu_VF, cpu_NF);
5189     tcg_temp_free_i32(tmp);
5190 }
5191
5192 /* Conditional compare (immediate / register)
5193  *  31 30 29 28 27 26 25 24 23 22 21  20    16 15  12  11  10  9   5  4 3   0
5194  * +--+--+--+------------------------+--------+------+----+--+------+--+-----+
5195  * |sf|op| S| 1  1  0  1  0  0  1  0 |imm5/rm | cond |i/r |o2|  Rn  |o3|nzcv |
5196  * +--+--+--+------------------------+--------+------+----+--+------+--+-----+
5197  *        [1]                             y                [0]       [0]
5198  */
5199 static void disas_cc(DisasContext *s, uint32_t insn)
5200 {
5201     unsigned int sf, op, y, cond, rn, nzcv, is_imm;
5202     TCGv_i32 tcg_t0, tcg_t1, tcg_t2;
5203     TCGv_i64 tcg_tmp, tcg_y, tcg_rn;
5204     DisasCompare c;
5205
5206     if (!extract32(insn, 29, 1)) {
5207         unallocated_encoding(s);
5208         return;
5209     }
5210     if (insn & (1 << 10 | 1 << 4)) {
5211         unallocated_encoding(s);
5212         return;
5213     }
5214     sf = extract32(insn, 31, 1);
5215     op = extract32(insn, 30, 1);
5216     is_imm = extract32(insn, 11, 1);
5217     y = extract32(insn, 16, 5); /* y = rm (reg) or imm5 (imm) */
5218     cond = extract32(insn, 12, 4);
5219     rn = extract32(insn, 5, 5);
5220     nzcv = extract32(insn, 0, 4);
5221
5222     /* Set T0 = !COND.  */
5223     tcg_t0 = tcg_temp_new_i32();
5224     arm_test_cc(&c, cond);
5225     tcg_gen_setcondi_i32(tcg_invert_cond(c.cond), tcg_t0, c.value, 0);
5226     arm_free_cc(&c);
5227
5228     /* Load the arguments for the new comparison.  */
5229     if (is_imm) {
5230         tcg_y = new_tmp_a64(s);
5231         tcg_gen_movi_i64(tcg_y, y);
5232     } else {
5233         tcg_y = cpu_reg(s, y);
5234     }
5235     tcg_rn = cpu_reg(s, rn);
5236
5237     /* Set the flags for the new comparison.  */
5238     tcg_tmp = tcg_temp_new_i64();
5239     if (op) {
5240         gen_sub_CC(sf, tcg_tmp, tcg_rn, tcg_y);
5241     } else {
5242         gen_add_CC(sf, tcg_tmp, tcg_rn, tcg_y);
5243     }
5244     tcg_temp_free_i64(tcg_tmp);
5245
5246     /* If COND was false, force the flags to #nzcv.  Compute two masks
5247      * to help with this: T1 = (COND ? 0 : -1), T2 = (COND ? -1 : 0).
5248      * For tcg hosts that support ANDC, we can make do with just T1.
5249      * In either case, allow the tcg optimizer to delete any unused mask.
5250      */
5251     tcg_t1 = tcg_temp_new_i32();
5252     tcg_t2 = tcg_temp_new_i32();
5253     tcg_gen_neg_i32(tcg_t1, tcg_t0);
5254     tcg_gen_subi_i32(tcg_t2, tcg_t0, 1);
5255
5256     if (nzcv & 8) { /* N */
5257         tcg_gen_or_i32(cpu_NF, cpu_NF, tcg_t1);
5258     } else {
5259         if (TCG_TARGET_HAS_andc_i32) {
5260             tcg_gen_andc_i32(cpu_NF, cpu_NF, tcg_t1);
5261         } else {
5262             tcg_gen_and_i32(cpu_NF, cpu_NF, tcg_t2);
5263         }
5264     }
5265     if (nzcv & 4) { /* Z */
5266         if (TCG_TARGET_HAS_andc_i32) {
5267             tcg_gen_andc_i32(cpu_ZF, cpu_ZF, tcg_t1);
5268         } else {
5269             tcg_gen_and_i32(cpu_ZF, cpu_ZF, tcg_t2);
5270         }
5271     } else {
5272         tcg_gen_or_i32(cpu_ZF, cpu_ZF, tcg_t0);
5273     }
5274     if (nzcv & 2) { /* C */
5275         tcg_gen_or_i32(cpu_CF, cpu_CF, tcg_t0);
5276     } else {
5277         if (TCG_TARGET_HAS_andc_i32) {
5278             tcg_gen_andc_i32(cpu_CF, cpu_CF, tcg_t1);
5279         } else {
5280             tcg_gen_and_i32(cpu_CF, cpu_CF, tcg_t2);
5281         }
5282     }
5283     if (nzcv & 1) { /* V */
5284         tcg_gen_or_i32(cpu_VF, cpu_VF, tcg_t1);
5285     } else {
5286         if (TCG_TARGET_HAS_andc_i32) {
5287             tcg_gen_andc_i32(cpu_VF, cpu_VF, tcg_t1);
5288         } else {
5289             tcg_gen_and_i32(cpu_VF, cpu_VF, tcg_t2);
5290         }
5291     }
5292     tcg_temp_free_i32(tcg_t0);
5293     tcg_temp_free_i32(tcg_t1);
5294     tcg_temp_free_i32(tcg_t2);
5295 }
5296
5297 /* Conditional select
5298  *   31   30  29  28             21 20  16 15  12 11 10 9    5 4    0
5299  * +----+----+---+-----------------+------+------+-----+------+------+
5300  * | sf | op | S | 1 1 0 1 0 1 0 0 |  Rm  | cond | op2 |  Rn  |  Rd  |
5301  * +----+----+---+-----------------+------+------+-----+------+------+
5302  */
5303 static void disas_cond_select(DisasContext *s, uint32_t insn)
5304 {
5305     unsigned int sf, else_inv, rm, cond, else_inc, rn, rd;
5306     TCGv_i64 tcg_rd, zero;
5307     DisasCompare64 c;
5308
5309     if (extract32(insn, 29, 1) || extract32(insn, 11, 1)) {
5310         /* S == 1 or op2<1> == 1 */
5311         unallocated_encoding(s);
5312         return;
5313     }
5314     sf = extract32(insn, 31, 1);
5315     else_inv = extract32(insn, 30, 1);
5316     rm = extract32(insn, 16, 5);
5317     cond = extract32(insn, 12, 4);
5318     else_inc = extract32(insn, 10, 1);
5319     rn = extract32(insn, 5, 5);
5320     rd = extract32(insn, 0, 5);
5321
5322     tcg_rd = cpu_reg(s, rd);
5323
5324     a64_test_cc(&c, cond);
5325     zero = tcg_const_i64(0);
5326
5327     if (rn == 31 && rm == 31 && (else_inc ^ else_inv)) {
5328         /* CSET & CSETM.  */
5329         tcg_gen_setcond_i64(tcg_invert_cond(c.cond), tcg_rd, c.value, zero);
5330         if (else_inv) {
5331             tcg_gen_neg_i64(tcg_rd, tcg_rd);
5332         }
5333     } else {
5334         TCGv_i64 t_true = cpu_reg(s, rn);
5335         TCGv_i64 t_false = read_cpu_reg(s, rm, 1);
5336         if (else_inv && else_inc) {
5337             tcg_gen_neg_i64(t_false, t_false);
5338         } else if (else_inv) {
5339             tcg_gen_not_i64(t_false, t_false);
5340         } else if (else_inc) {
5341             tcg_gen_addi_i64(t_false, t_false, 1);
5342         }
5343         tcg_gen_movcond_i64(c.cond, tcg_rd, c.value, zero, t_true, t_false);
5344     }
5345
5346     tcg_temp_free_i64(zero);
5347     a64_free_cc(&c);
5348
5349     if (!sf) {
5350         tcg_gen_ext32u_i64(tcg_rd, tcg_rd);
5351     }
5352 }
5353
5354 static void handle_clz(DisasContext *s, unsigned int sf,
5355                        unsigned int rn, unsigned int rd)
5356 {
5357     TCGv_i64 tcg_rd, tcg_rn;
5358     tcg_rd = cpu_reg(s, rd);
5359     tcg_rn = cpu_reg(s, rn);
5360
5361     if (sf) {
5362         tcg_gen_clzi_i64(tcg_rd, tcg_rn, 64);
5363     } else {
5364         TCGv_i32 tcg_tmp32 = tcg_temp_new_i32();
5365         tcg_gen_extrl_i64_i32(tcg_tmp32, tcg_rn);
5366         tcg_gen_clzi_i32(tcg_tmp32, tcg_tmp32, 32);
5367         tcg_gen_extu_i32_i64(tcg_rd, tcg_tmp32);
5368         tcg_temp_free_i32(tcg_tmp32);
5369     }
5370 }
5371
5372 static void handle_cls(DisasContext *s, unsigned int sf,
5373                        unsigned int rn, unsigned int rd)
5374 {
5375     TCGv_i64 tcg_rd, tcg_rn;
5376     tcg_rd = cpu_reg(s, rd);
5377     tcg_rn = cpu_reg(s, rn);
5378
5379     if (sf) {
5380         tcg_gen_clrsb_i64(tcg_rd, tcg_rn);
5381     } else {
5382         TCGv_i32 tcg_tmp32 = tcg_temp_new_i32();
5383         tcg_gen_extrl_i64_i32(tcg_tmp32, tcg_rn);
5384         tcg_gen_clrsb_i32(tcg_tmp32, tcg_tmp32);
5385         tcg_gen_extu_i32_i64(tcg_rd, tcg_tmp32);
5386         tcg_temp_free_i32(tcg_tmp32);
5387     }
5388 }
5389
5390 static void handle_rbit(DisasContext *s, unsigned int sf,
5391                         unsigned int rn, unsigned int rd)
5392 {
5393     TCGv_i64 tcg_rd, tcg_rn;
5394     tcg_rd = cpu_reg(s, rd);
5395     tcg_rn = cpu_reg(s, rn);
5396
5397     if (sf) {
5398         gen_helper_rbit64(tcg_rd, tcg_rn);
5399     } else {
5400         TCGv_i32 tcg_tmp32 = tcg_temp_new_i32();
5401         tcg_gen_extrl_i64_i32(tcg_tmp32, tcg_rn);
5402         gen_helper_rbit(tcg_tmp32, tcg_tmp32);
5403         tcg_gen_extu_i32_i64(tcg_rd, tcg_tmp32);
5404         tcg_temp_free_i32(tcg_tmp32);
5405     }
5406 }
5407
5408 /* REV with sf==1, opcode==3 ("REV64") */
5409 static void handle_rev64(DisasContext *s, unsigned int sf,
5410                          unsigned int rn, unsigned int rd)
5411 {
5412     if (!sf) {
5413         unallocated_encoding(s);
5414         return;
5415     }
5416     tcg_gen_bswap64_i64(cpu_reg(s, rd), cpu_reg(s, rn));
5417 }
5418
5419 /* REV with sf==0, opcode==2
5420  * REV32 (sf==1, opcode==2)
5421  */
5422 static void handle_rev32(DisasContext *s, unsigned int sf,
5423                          unsigned int rn, unsigned int rd)
5424 {
5425     TCGv_i64 tcg_rd = cpu_reg(s, rd);
5426
5427     if (sf) {
5428         TCGv_i64 tcg_tmp = tcg_temp_new_i64();
5429         TCGv_i64 tcg_rn = read_cpu_reg(s, rn, sf);
5430
5431         /* bswap32_i64 requires zero high word */
5432         tcg_gen_ext32u_i64(tcg_tmp, tcg_rn);
5433         tcg_gen_bswap32_i64(tcg_rd, tcg_tmp);
5434         tcg_gen_shri_i64(tcg_tmp, tcg_rn, 32);
5435         tcg_gen_bswap32_i64(tcg_tmp, tcg_tmp);
5436         tcg_gen_concat32_i64(tcg_rd, tcg_rd, tcg_tmp);
5437
5438         tcg_temp_free_i64(tcg_tmp);
5439     } else {
5440         tcg_gen_ext32u_i64(tcg_rd, cpu_reg(s, rn));
5441         tcg_gen_bswap32_i64(tcg_rd, tcg_rd);
5442     }
5443 }
5444
5445 /* REV16 (opcode==1) */
5446 static void handle_rev16(DisasContext *s, unsigned int sf,
5447                          unsigned int rn, unsigned int rd)
5448 {
5449     TCGv_i64 tcg_rd = cpu_reg(s, rd);
5450     TCGv_i64 tcg_tmp = tcg_temp_new_i64();
5451     TCGv_i64 tcg_rn = read_cpu_reg(s, rn, sf);
5452     TCGv_i64 mask = tcg_const_i64(sf ? 0x00ff00ff00ff00ffull : 0x00ff00ff);
5453
5454     tcg_gen_shri_i64(tcg_tmp, tcg_rn, 8);
5455     tcg_gen_and_i64(tcg_rd, tcg_rn, mask);
5456     tcg_gen_and_i64(tcg_tmp, tcg_tmp, mask);
5457     tcg_gen_shli_i64(tcg_rd, tcg_rd, 8);
5458     tcg_gen_or_i64(tcg_rd, tcg_rd, tcg_tmp);
5459
5460     tcg_temp_free_i64(mask);
5461     tcg_temp_free_i64(tcg_tmp);
5462 }
5463
5464 /* Data-processing (1 source)
5465  *   31  30  29  28             21 20     16 15    10 9    5 4    0
5466  * +----+---+---+-----------------+---------+--------+------+------+
5467  * | sf | 1 | S | 1 1 0 1 0 1 1 0 | opcode2 | opcode |  Rn  |  Rd  |
5468  * +----+---+---+-----------------+---------+--------+------+------+
5469  */
5470 static void disas_data_proc_1src(DisasContext *s, uint32_t insn)
5471 {
5472     unsigned int sf, opcode, opcode2, rn, rd;
5473     TCGv_i64 tcg_rd;
5474
5475     if (extract32(insn, 29, 1)) {
5476         unallocated_encoding(s);
5477         return;
5478     }
5479
5480     sf = extract32(insn, 31, 1);
5481     opcode = extract32(insn, 10, 6);
5482     opcode2 = extract32(insn, 16, 5);
5483     rn = extract32(insn, 5, 5);
5484     rd = extract32(insn, 0, 5);
5485
5486 #define MAP(SF, O2, O1) ((SF) | (O1 << 1) | (O2 << 7))
5487
5488     switch (MAP(sf, opcode2, opcode)) {
5489     case MAP(0, 0x00, 0x00): /* RBIT */
5490     case MAP(1, 0x00, 0x00):
5491         handle_rbit(s, sf, rn, rd);
5492         break;
5493     case MAP(0, 0x00, 0x01): /* REV16 */
5494     case MAP(1, 0x00, 0x01):
5495         handle_rev16(s, sf, rn, rd);
5496         break;
5497     case MAP(0, 0x00, 0x02): /* REV/REV32 */
5498     case MAP(1, 0x00, 0x02):
5499         handle_rev32(s, sf, rn, rd);
5500         break;
5501     case MAP(1, 0x00, 0x03): /* REV64 */
5502         handle_rev64(s, sf, rn, rd);
5503         break;
5504     case MAP(0, 0x00, 0x04): /* CLZ */
5505     case MAP(1, 0x00, 0x04):
5506         handle_clz(s, sf, rn, rd);
5507         break;
5508     case MAP(0, 0x00, 0x05): /* CLS */
5509     case MAP(1, 0x00, 0x05):
5510         handle_cls(s, sf, rn, rd);
5511         break;
5512     case MAP(1, 0x01, 0x00): /* PACIA */
5513         if (s->pauth_active) {
5514             tcg_rd = cpu_reg(s, rd);
5515             gen_helper_pacia(tcg_rd, cpu_env, tcg_rd, cpu_reg_sp(s, rn));
5516         } else if (!dc_isar_feature(aa64_pauth, s)) {
5517             goto do_unallocated;
5518         }
5519         break;
5520     case MAP(1, 0x01, 0x01): /* PACIB */
5521         if (s->pauth_active) {
5522             tcg_rd = cpu_reg(s, rd);
5523             gen_helper_pacib(tcg_rd, cpu_env, tcg_rd, cpu_reg_sp(s, rn));
5524         } else if (!dc_isar_feature(aa64_pauth, s)) {
5525             goto do_unallocated;
5526         }
5527         break;
5528     case MAP(1, 0x01, 0x02): /* PACDA */
5529         if (s->pauth_active) {
5530             tcg_rd = cpu_reg(s, rd);
5531             gen_helper_pacda(tcg_rd, cpu_env, tcg_rd, cpu_reg_sp(s, rn));
5532         } else if (!dc_isar_feature(aa64_pauth, s)) {
5533             goto do_unallocated;
5534         }
5535         break;
5536     case MAP(1, 0x01, 0x03): /* PACDB */
5537         if (s->pauth_active) {
5538             tcg_rd = cpu_reg(s, rd);
5539             gen_helper_pacdb(tcg_rd, cpu_env, tcg_rd, cpu_reg_sp(s, rn));
5540         } else if (!dc_isar_feature(aa64_pauth, s)) {
5541             goto do_unallocated;
5542         }
5543         break;
5544     case MAP(1, 0x01, 0x04): /* AUTIA */
5545         if (s->pauth_active) {
5546             tcg_rd = cpu_reg(s, rd);
5547             gen_helper_autia(tcg_rd, cpu_env, tcg_rd, cpu_reg_sp(s, rn));
5548         } else if (!dc_isar_feature(aa64_pauth, s)) {
5549             goto do_unallocated;
5550         }
5551         break;
5552     case MAP(1, 0x01, 0x05): /* AUTIB */
5553         if (s->pauth_active) {
5554             tcg_rd = cpu_reg(s, rd);
5555             gen_helper_autib(tcg_rd, cpu_env, tcg_rd, cpu_reg_sp(s, rn));
5556         } else if (!dc_isar_feature(aa64_pauth, s)) {
5557             goto do_unallocated;
5558         }
5559         break;
5560     case MAP(1, 0x01, 0x06): /* AUTDA */
5561         if (s->pauth_active) {
5562             tcg_rd = cpu_reg(s, rd);
5563             gen_helper_autda(tcg_rd, cpu_env, tcg_rd, cpu_reg_sp(s, rn));
5564         } else if (!dc_isar_feature(aa64_pauth, s)) {
5565             goto do_unallocated;
5566         }
5567         break;
5568     case MAP(1, 0x01, 0x07): /* AUTDB */
5569         if (s->pauth_active) {
5570             tcg_rd = cpu_reg(s, rd);
5571             gen_helper_autdb(tcg_rd, cpu_env, tcg_rd, cpu_reg_sp(s, rn));
5572         } else if (!dc_isar_feature(aa64_pauth, s)) {
5573             goto do_unallocated;
5574         }
5575         break;
5576     case MAP(1, 0x01, 0x08): /* PACIZA */
5577         if (!dc_isar_feature(aa64_pauth, s) || rn != 31) {
5578             goto do_unallocated;
5579         } else if (s->pauth_active) {
5580             tcg_rd = cpu_reg(s, rd);
5581             gen_helper_pacia(tcg_rd, cpu_env, tcg_rd, new_tmp_a64_zero(s));
5582         }
5583         break;
5584     case MAP(1, 0x01, 0x09): /* PACIZB */
5585         if (!dc_isar_feature(aa64_pauth, s) || rn != 31) {
5586             goto do_unallocated;
5587         } else if (s->pauth_active) {
5588             tcg_rd = cpu_reg(s, rd);
5589             gen_helper_pacib(tcg_rd, cpu_env, tcg_rd, new_tmp_a64_zero(s));
5590         }
5591         break;
5592     case MAP(1, 0x01, 0x0a): /* PACDZA */
5593         if (!dc_isar_feature(aa64_pauth, s) || rn != 31) {
5594             goto do_unallocated;
5595         } else if (s->pauth_active) {
5596             tcg_rd = cpu_reg(s, rd);
5597             gen_helper_pacda(tcg_rd, cpu_env, tcg_rd, new_tmp_a64_zero(s));
5598         }
5599         break;
5600     case MAP(1, 0x01, 0x0b): /* PACDZB */
5601         if (!dc_isar_feature(aa64_pauth, s) || rn != 31) {
5602             goto do_unallocated;
5603         } else if (s->pauth_active) {
5604             tcg_rd = cpu_reg(s, rd);
5605             gen_helper_pacdb(tcg_rd, cpu_env, tcg_rd, new_tmp_a64_zero(s));
5606         }
5607         break;
5608     case MAP(1, 0x01, 0x0c): /* AUTIZA */
5609         if (!dc_isar_feature(aa64_pauth, s) || rn != 31) {
5610             goto do_unallocated;
5611         } else if (s->pauth_active) {
5612             tcg_rd = cpu_reg(s, rd);
5613             gen_helper_autia(tcg_rd, cpu_env, tcg_rd, new_tmp_a64_zero(s));
5614         }
5615         break;
5616     case MAP(1, 0x01, 0x0d): /* AUTIZB */
5617         if (!dc_isar_feature(aa64_pauth, s) || rn != 31) {
5618             goto do_unallocated;
5619         } else if (s->pauth_active) {
5620             tcg_rd = cpu_reg(s, rd);
5621             gen_helper_autib(tcg_rd, cpu_env, tcg_rd, new_tmp_a64_zero(s));
5622         }
5623         break;
5624     case MAP(1, 0x01, 0x0e): /* AUTDZA */
5625         if (!dc_isar_feature(aa64_pauth, s) || rn != 31) {
5626             goto do_unallocated;
5627         } else if (s->pauth_active) {
5628             tcg_rd = cpu_reg(s, rd);
5629             gen_helper_autda(tcg_rd, cpu_env, tcg_rd, new_tmp_a64_zero(s));
5630         }
5631         break;
5632     case MAP(1, 0x01, 0x0f): /* AUTDZB */
5633         if (!dc_isar_feature(aa64_pauth, s) || rn != 31) {
5634             goto do_unallocated;
5635         } else if (s->pauth_active) {
5636             tcg_rd = cpu_reg(s, rd);
5637             gen_helper_autdb(tcg_rd, cpu_env, tcg_rd, new_tmp_a64_zero(s));
5638         }
5639         break;
5640     case MAP(1, 0x01, 0x10): /* XPACI */
5641         if (!dc_isar_feature(aa64_pauth, s) || rn != 31) {
5642             goto do_unallocated;
5643         } else if (s->pauth_active) {
5644             tcg_rd = cpu_reg(s, rd);
5645             gen_helper_xpaci(tcg_rd, cpu_env, tcg_rd);
5646         }
5647         break;
5648     case MAP(1, 0x01, 0x11): /* XPACD */
5649         if (!dc_isar_feature(aa64_pauth, s) || rn != 31) {
5650             goto do_unallocated;
5651         } else if (s->pauth_active) {
5652             tcg_rd = cpu_reg(s, rd);
5653             gen_helper_xpacd(tcg_rd, cpu_env, tcg_rd);
5654         }
5655         break;
5656     default:
5657     do_unallocated:
5658         unallocated_encoding(s);
5659         break;
5660     }
5661
5662 #undef MAP
5663 }
5664
5665 static void handle_div(DisasContext *s, bool is_signed, unsigned int sf,
5666                        unsigned int rm, unsigned int rn, unsigned int rd)
5667 {
5668     TCGv_i64 tcg_n, tcg_m, tcg_rd;
5669     tcg_rd = cpu_reg(s, rd);
5670
5671     if (!sf && is_signed) {
5672         tcg_n = new_tmp_a64(s);
5673         tcg_m = new_tmp_a64(s);
5674         tcg_gen_ext32s_i64(tcg_n, cpu_reg(s, rn));
5675         tcg_gen_ext32s_i64(tcg_m, cpu_reg(s, rm));
5676     } else {
5677         tcg_n = read_cpu_reg(s, rn, sf);
5678         tcg_m = read_cpu_reg(s, rm, sf);
5679     }
5680
5681     if (is_signed) {
5682         gen_helper_sdiv64(tcg_rd, tcg_n, tcg_m);
5683     } else {
5684         gen_helper_udiv64(tcg_rd, tcg_n, tcg_m);
5685     }
5686
5687     if (!sf) { /* zero extend final result */
5688         tcg_gen_ext32u_i64(tcg_rd, tcg_rd);
5689     }
5690 }
5691
5692 /* LSLV, LSRV, ASRV, RORV */
5693 static void handle_shift_reg(DisasContext *s,
5694                              enum a64_shift_type shift_type, unsigned int sf,
5695                              unsigned int rm, unsigned int rn, unsigned int rd)
5696 {
5697     TCGv_i64 tcg_shift = tcg_temp_new_i64();
5698     TCGv_i64 tcg_rd = cpu_reg(s, rd);
5699     TCGv_i64 tcg_rn = read_cpu_reg(s, rn, sf);
5700
5701     tcg_gen_andi_i64(tcg_shift, cpu_reg(s, rm), sf ? 63 : 31);
5702     shift_reg(tcg_rd, tcg_rn, sf, shift_type, tcg_shift);
5703     tcg_temp_free_i64(tcg_shift);
5704 }
5705
5706 /* CRC32[BHWX], CRC32C[BHWX] */
5707 static void handle_crc32(DisasContext *s,
5708                          unsigned int sf, unsigned int sz, bool crc32c,
5709                          unsigned int rm, unsigned int rn, unsigned int rd)
5710 {
5711     TCGv_i64 tcg_acc, tcg_val;
5712     TCGv_i32 tcg_bytes;
5713
5714     if (!dc_isar_feature(aa64_crc32, s)
5715         || (sf == 1 && sz != 3)
5716         || (sf == 0 && sz == 3)) {
5717         unallocated_encoding(s);
5718         return;
5719     }
5720
5721     if (sz == 3) {
5722         tcg_val = cpu_reg(s, rm);
5723     } else {
5724         uint64_t mask;
5725         switch (sz) {
5726         case 0:
5727             mask = 0xFF;
5728             break;
5729         case 1:
5730             mask = 0xFFFF;
5731             break;
5732         case 2:
5733             mask = 0xFFFFFFFF;
5734             break;
5735         default:
5736             g_assert_not_reached();
5737         }
5738         tcg_val = new_tmp_a64(s);
5739         tcg_gen_andi_i64(tcg_val, cpu_reg(s, rm), mask);
5740     }
5741
5742     tcg_acc = cpu_reg(s, rn);
5743     tcg_bytes = tcg_const_i32(1 << sz);
5744
5745     if (crc32c) {
5746         gen_helper_crc32c_64(cpu_reg(s, rd), tcg_acc, tcg_val, tcg_bytes);
5747     } else {
5748         gen_helper_crc32_64(cpu_reg(s, rd), tcg_acc, tcg_val, tcg_bytes);
5749     }
5750
5751     tcg_temp_free_i32(tcg_bytes);
5752 }
5753
5754 /* Data-processing (2 source)
5755  *   31   30  29 28             21 20  16 15    10 9    5 4    0
5756  * +----+---+---+-----------------+------+--------+------+------+
5757  * | sf | 0 | S | 1 1 0 1 0 1 1 0 |  Rm  | opcode |  Rn  |  Rd  |
5758  * +----+---+---+-----------------+------+--------+------+------+
5759  */
5760 static void disas_data_proc_2src(DisasContext *s, uint32_t insn)
5761 {
5762     unsigned int sf, rm, opcode, rn, rd, setflag;
5763     sf = extract32(insn, 31, 1);
5764     setflag = extract32(insn, 29, 1);
5765     rm = extract32(insn, 16, 5);
5766     opcode = extract32(insn, 10, 6);
5767     rn = extract32(insn, 5, 5);
5768     rd = extract32(insn, 0, 5);
5769
5770     if (setflag && opcode != 0) {
5771         unallocated_encoding(s);
5772         return;
5773     }
5774
5775     switch (opcode) {
5776     case 0: /* SUBP(S) */
5777         if (sf == 0 || !dc_isar_feature(aa64_mte_insn_reg, s)) {
5778             goto do_unallocated;
5779         } else {
5780             TCGv_i64 tcg_n, tcg_m, tcg_d;
5781
5782             tcg_n = read_cpu_reg_sp(s, rn, true);
5783             tcg_m = read_cpu_reg_sp(s, rm, true);
5784             tcg_gen_sextract_i64(tcg_n, tcg_n, 0, 56);
5785             tcg_gen_sextract_i64(tcg_m, tcg_m, 0, 56);
5786             tcg_d = cpu_reg(s, rd);
5787
5788             if (setflag) {
5789                 gen_sub_CC(true, tcg_d, tcg_n, tcg_m);
5790             } else {
5791                 tcg_gen_sub_i64(tcg_d, tcg_n, tcg_m);
5792             }
5793         }
5794         break;
5795     case 2: /* UDIV */
5796         handle_div(s, false, sf, rm, rn, rd);
5797         break;
5798     case 3: /* SDIV */
5799         handle_div(s, true, sf, rm, rn, rd);
5800         break;
5801     case 4: /* IRG */
5802         if (sf == 0 || !dc_isar_feature(aa64_mte_insn_reg, s)) {
5803             goto do_unallocated;
5804         }
5805         if (s->ata) {
5806             gen_helper_irg(cpu_reg_sp(s, rd), cpu_env,
5807                            cpu_reg_sp(s, rn), cpu_reg(s, rm));
5808         } else {
5809             gen_address_with_allocation_tag0(cpu_reg_sp(s, rd),
5810                                              cpu_reg_sp(s, rn));
5811         }
5812         break;
5813     case 5: /* GMI */
5814         if (sf == 0 || !dc_isar_feature(aa64_mte_insn_reg, s)) {
5815             goto do_unallocated;
5816         } else {
5817             TCGv_i64 t1 = tcg_const_i64(1);
5818             TCGv_i64 t2 = tcg_temp_new_i64();
5819
5820             tcg_gen_extract_i64(t2, cpu_reg_sp(s, rn), 56, 4);
5821             tcg_gen_shl_i64(t1, t1, t2);
5822             tcg_gen_or_i64(cpu_reg(s, rd), cpu_reg(s, rm), t1);
5823
5824             tcg_temp_free_i64(t1);
5825             tcg_temp_free_i64(t2);
5826         }
5827         break;
5828     case 8: /* LSLV */
5829         handle_shift_reg(s, A64_SHIFT_TYPE_LSL, sf, rm, rn, rd);
5830         break;
5831     case 9: /* LSRV */
5832         handle_shift_reg(s, A64_SHIFT_TYPE_LSR, sf, rm, rn, rd);
5833         break;
5834     case 10: /* ASRV */
5835         handle_shift_reg(s, A64_SHIFT_TYPE_ASR, sf, rm, rn, rd);
5836         break;
5837     case 11: /* RORV */
5838         handle_shift_reg(s, A64_SHIFT_TYPE_ROR, sf, rm, rn, rd);
5839         break;
5840     case 12: /* PACGA */
5841         if (sf == 0 || !dc_isar_feature(aa64_pauth, s)) {
5842             goto do_unallocated;
5843         }
5844         gen_helper_pacga(cpu_reg(s, rd), cpu_env,
5845                          cpu_reg(s, rn), cpu_reg_sp(s, rm));
5846         break;
5847     case 16:
5848     case 17:
5849     case 18:
5850     case 19:
5851     case 20:
5852     case 21:
5853     case 22:
5854     case 23: /* CRC32 */
5855     {
5856         int sz = extract32(opcode, 0, 2);
5857         bool crc32c = extract32(opcode, 2, 1);
5858         handle_crc32(s, sf, sz, crc32c, rm, rn, rd);
5859         break;
5860     }
5861     default:
5862     do_unallocated:
5863         unallocated_encoding(s);
5864         break;
5865     }
5866 }
5867
5868 /*
5869  * Data processing - register
5870  *  31  30 29  28      25    21  20  16      10         0
5871  * +--+---+--+---+-------+-----+-------+-------+---------+
5872  * |  |op0|  |op1| 1 0 1 | op2 |       |  op3  |         |
5873  * +--+---+--+---+-------+-----+-------+-------+---------+
5874  */
5875 static void disas_data_proc_reg(DisasContext *s, uint32_t insn)
5876 {
5877     int op0 = extract32(insn, 30, 1);
5878     int op1 = extract32(insn, 28, 1);
5879     int op2 = extract32(insn, 21, 4);
5880     int op3 = extract32(insn, 10, 6);
5881
5882     if (!op1) {
5883         if (op2 & 8) {
5884             if (op2 & 1) {
5885                 /* Add/sub (extended register) */
5886                 disas_add_sub_ext_reg(s, insn);
5887             } else {
5888                 /* Add/sub (shifted register) */
5889                 disas_add_sub_reg(s, insn);
5890             }
5891         } else {
5892             /* Logical (shifted register) */
5893             disas_logic_reg(s, insn);
5894         }
5895         return;
5896     }
5897
5898     switch (op2) {
5899     case 0x0:
5900         switch (op3) {
5901         case 0x00: /* Add/subtract (with carry) */
5902             disas_adc_sbc(s, insn);
5903             break;
5904
5905         case 0x01: /* Rotate right into flags */
5906         case 0x21:
5907             disas_rotate_right_into_flags(s, insn);
5908             break;
5909
5910         case 0x02: /* Evaluate into flags */
5911         case 0x12:
5912         case 0x22:
5913         case 0x32:
5914             disas_evaluate_into_flags(s, insn);
5915             break;
5916
5917         default:
5918             goto do_unallocated;
5919         }
5920         break;
5921
5922     case 0x2: /* Conditional compare */
5923         disas_cc(s, insn); /* both imm and reg forms */
5924         break;
5925
5926     case 0x4: /* Conditional select */
5927         disas_cond_select(s, insn);
5928         break;
5929
5930     case 0x6: /* Data-processing */
5931         if (op0) {    /* (1 source) */
5932             disas_data_proc_1src(s, insn);
5933         } else {      /* (2 source) */
5934             disas_data_proc_2src(s, insn);
5935         }
5936         break;
5937     case 0x8 ... 0xf: /* (3 source) */
5938         disas_data_proc_3src(s, insn);
5939         break;
5940
5941     default:
5942     do_unallocated:
5943         unallocated_encoding(s);
5944         break;
5945     }
5946 }
5947
5948 static void handle_fp_compare(DisasContext *s, int size,
5949                               unsigned int rn, unsigned int rm,
5950                               bool cmp_with_zero, bool signal_all_nans)
5951 {
5952     TCGv_i64 tcg_flags = tcg_temp_new_i64();
5953     TCGv_ptr fpst = fpstatus_ptr(size == MO_16 ? FPST_FPCR_F16 : FPST_FPCR);
5954
5955     if (size == MO_64) {
5956         TCGv_i64 tcg_vn, tcg_vm;
5957
5958         tcg_vn = read_fp_dreg(s, rn);
5959         if (cmp_with_zero) {
5960             tcg_vm = tcg_const_i64(0);
5961         } else {
5962             tcg_vm = read_fp_dreg(s, rm);
5963         }
5964         if (signal_all_nans) {
5965             gen_helper_vfp_cmped_a64(tcg_flags, tcg_vn, tcg_vm, fpst);
5966         } else {
5967             gen_helper_vfp_cmpd_a64(tcg_flags, tcg_vn, tcg_vm, fpst);
5968         }
5969         tcg_temp_free_i64(tcg_vn);
5970         tcg_temp_free_i64(tcg_vm);
5971     } else {
5972         TCGv_i32 tcg_vn = tcg_temp_new_i32();
5973         TCGv_i32 tcg_vm = tcg_temp_new_i32();
5974
5975         read_vec_element_i32(s, tcg_vn, rn, 0, size);
5976         if (cmp_with_zero) {
5977             tcg_gen_movi_i32(tcg_vm, 0);
5978         } else {
5979             read_vec_element_i32(s, tcg_vm, rm, 0, size);
5980         }
5981
5982         switch (size) {
5983         case MO_32:
5984             if (signal_all_nans) {
5985                 gen_helper_vfp_cmpes_a64(tcg_flags, tcg_vn, tcg_vm, fpst);
5986             } else {
5987                 gen_helper_vfp_cmps_a64(tcg_flags, tcg_vn, tcg_vm, fpst);
5988             }
5989             break;
5990         case MO_16:
5991             if (signal_all_nans) {
5992                 gen_helper_vfp_cmpeh_a64(tcg_flags, tcg_vn, tcg_vm, fpst);
5993             } else {
5994                 gen_helper_vfp_cmph_a64(tcg_flags, tcg_vn, tcg_vm, fpst);
5995             }
5996             break;
5997         default:
5998             g_assert_not_reached();
5999         }
6000
6001         tcg_temp_free_i32(tcg_vn);
6002         tcg_temp_free_i32(tcg_vm);
6003     }
6004
6005     tcg_temp_free_ptr(fpst);
6006
6007     gen_set_nzcv(tcg_flags);
6008
6009     tcg_temp_free_i64(tcg_flags);
6010 }
6011
6012 /* Floating point compare
6013  *   31  30  29 28       24 23  22  21 20  16 15 14 13  10    9    5 4     0
6014  * +---+---+---+-----------+------+---+------+-----+---------+------+-------+
6015  * | M | 0 | S | 1 1 1 1 0 | type | 1 |  Rm  | op  | 1 0 0 0 |  Rn  |  op2  |
6016  * +---+---+---+-----------+------+---+------+-----+---------+------+-------+
6017  */
6018 static void disas_fp_compare(DisasContext *s, uint32_t insn)
6019 {
6020     unsigned int mos, type, rm, op, rn, opc, op2r;
6021     int size;
6022
6023     mos = extract32(insn, 29, 3);
6024     type = extract32(insn, 22, 2);
6025     rm = extract32(insn, 16, 5);
6026     op = extract32(insn, 14, 2);
6027     rn = extract32(insn, 5, 5);
6028     opc = extract32(insn, 3, 2);
6029     op2r = extract32(insn, 0, 3);
6030
6031     if (mos || op || op2r) {
6032         unallocated_encoding(s);
6033         return;
6034     }
6035
6036     switch (type) {
6037     case 0:
6038         size = MO_32;
6039         break;
6040     case 1:
6041         size = MO_64;
6042         break;
6043     case 3:
6044         size = MO_16;
6045         if (dc_isar_feature(aa64_fp16, s)) {
6046             break;
6047         }
6048         /* fallthru */
6049     default:
6050         unallocated_encoding(s);
6051         return;
6052     }
6053
6054     if (!fp_access_check(s)) {
6055         return;
6056     }
6057
6058     handle_fp_compare(s, size, rn, rm, opc & 1, opc & 2);
6059 }
6060
6061 /* Floating point conditional compare
6062  *   31  30  29 28       24 23  22  21 20  16 15  12 11 10 9    5  4   3    0
6063  * +---+---+---+-----------+------+---+------+------+-----+------+----+------+
6064  * | M | 0 | S | 1 1 1 1 0 | type | 1 |  Rm  | cond | 0 1 |  Rn  | op | nzcv |
6065  * +---+---+---+-----------+------+---+------+------+-----+------+----+------+
6066  */
6067 static void disas_fp_ccomp(DisasContext *s, uint32_t insn)
6068 {
6069     unsigned int mos, type, rm, cond, rn, op, nzcv;
6070     TCGv_i64 tcg_flags;
6071     TCGLabel *label_continue = NULL;
6072     int size;
6073
6074     mos = extract32(insn, 29, 3);
6075     type = extract32(insn, 22, 2);
6076     rm = extract32(insn, 16, 5);
6077     cond = extract32(insn, 12, 4);
6078     rn = extract32(insn, 5, 5);
6079     op = extract32(insn, 4, 1);
6080     nzcv = extract32(insn, 0, 4);
6081
6082     if (mos) {
6083         unallocated_encoding(s);
6084         return;
6085     }
6086
6087     switch (type) {
6088     case 0:
6089         size = MO_32;
6090         break;
6091     case 1:
6092         size = MO_64;
6093         break;
6094     case 3:
6095         size = MO_16;
6096         if (dc_isar_feature(aa64_fp16, s)) {
6097             break;
6098         }
6099         /* fallthru */
6100     default:
6101         unallocated_encoding(s);
6102         return;
6103     }
6104
6105     if (!fp_access_check(s)) {
6106         return;
6107     }
6108
6109     if (cond < 0x0e) { /* not always */
6110         TCGLabel *label_match = gen_new_label();
6111         label_continue = gen_new_label();
6112         arm_gen_test_cc(cond, label_match);
6113         /* nomatch: */
6114         tcg_flags = tcg_const_i64(nzcv << 28);
6115         gen_set_nzcv(tcg_flags);
6116         tcg_temp_free_i64(tcg_flags);
6117         tcg_gen_br(label_continue);
6118         gen_set_label(label_match);
6119     }
6120
6121     handle_fp_compare(s, size, rn, rm, false, op);
6122
6123     if (cond < 0x0e) {
6124         gen_set_label(label_continue);
6125     }
6126 }
6127
6128 /* Floating point conditional select
6129  *   31  30  29 28       24 23  22  21 20  16 15  12 11 10 9    5 4    0
6130  * +---+---+---+-----------+------+---+------+------+-----+------+------+
6131  * | M | 0 | S | 1 1 1 1 0 | type | 1 |  Rm  | cond | 1 1 |  Rn  |  Rd  |
6132  * +---+---+---+-----------+------+---+------+------+-----+------+------+
6133  */
6134 static void disas_fp_csel(DisasContext *s, uint32_t insn)
6135 {
6136     unsigned int mos, type, rm, cond, rn, rd;
6137     TCGv_i64 t_true, t_false, t_zero;
6138     DisasCompare64 c;
6139     MemOp sz;
6140
6141     mos = extract32(insn, 29, 3);
6142     type = extract32(insn, 22, 2);
6143     rm = extract32(insn, 16, 5);
6144     cond = extract32(insn, 12, 4);
6145     rn = extract32(insn, 5, 5);
6146     rd = extract32(insn, 0, 5);
6147
6148     if (mos) {
6149         unallocated_encoding(s);
6150         return;
6151     }
6152
6153     switch (type) {
6154     case 0:
6155         sz = MO_32;
6156         break;
6157     case 1:
6158         sz = MO_64;
6159         break;
6160     case 3:
6161         sz = MO_16;
6162         if (dc_isar_feature(aa64_fp16, s)) {
6163             break;
6164         }
6165         /* fallthru */
6166     default:
6167         unallocated_encoding(s);
6168         return;
6169     }
6170
6171     if (!fp_access_check(s)) {
6172         return;
6173     }
6174
6175     /* Zero extend sreg & hreg inputs to 64 bits now.  */
6176     t_true = tcg_temp_new_i64();
6177     t_false = tcg_temp_new_i64();
6178     read_vec_element(s, t_true, rn, 0, sz);
6179     read_vec_element(s, t_false, rm, 0, sz);
6180
6181     a64_test_cc(&c, cond);
6182     t_zero = tcg_const_i64(0);
6183     tcg_gen_movcond_i64(c.cond, t_true, c.value, t_zero, t_true, t_false);
6184     tcg_temp_free_i64(t_zero);
6185     tcg_temp_free_i64(t_false);
6186     a64_free_cc(&c);
6187
6188     /* Note that sregs & hregs write back zeros to the high bits,
6189        and we've already done the zero-extension.  */
6190     write_fp_dreg(s, rd, t_true);
6191     tcg_temp_free_i64(t_true);
6192 }
6193
6194 /* Floating-point data-processing (1 source) - half precision */
6195 static void handle_fp_1src_half(DisasContext *s, int opcode, int rd, int rn)
6196 {
6197     TCGv_ptr fpst = NULL;
6198     TCGv_i32 tcg_op = read_fp_hreg(s, rn);
6199     TCGv_i32 tcg_res = tcg_temp_new_i32();
6200
6201     switch (opcode) {
6202     case 0x0: /* FMOV */
6203         tcg_gen_mov_i32(tcg_res, tcg_op);
6204         break;
6205     case 0x1: /* FABS */
6206         tcg_gen_andi_i32(tcg_res, tcg_op, 0x7fff);
6207         break;
6208     case 0x2: /* FNEG */
6209         tcg_gen_xori_i32(tcg_res, tcg_op, 0x8000);
6210         break;
6211     case 0x3: /* FSQRT */
6212         fpst = fpstatus_ptr(FPST_FPCR_F16);
6213         gen_helper_sqrt_f16(tcg_res, tcg_op, fpst);
6214         break;
6215     case 0x8: /* FRINTN */
6216     case 0x9: /* FRINTP */
6217     case 0xa: /* FRINTM */
6218     case 0xb: /* FRINTZ */
6219     case 0xc: /* FRINTA */
6220     {
6221         TCGv_i32 tcg_rmode = tcg_const_i32(arm_rmode_to_sf(opcode & 7));
6222         fpst = fpstatus_ptr(FPST_FPCR_F16);
6223
6224         gen_helper_set_rmode(tcg_rmode, tcg_rmode, fpst);
6225         gen_helper_advsimd_rinth(tcg_res, tcg_op, fpst);
6226
6227         gen_helper_set_rmode(tcg_rmode, tcg_rmode, fpst);
6228         tcg_temp_free_i32(tcg_rmode);
6229         break;
6230     }
6231     case 0xe: /* FRINTX */
6232         fpst = fpstatus_ptr(FPST_FPCR_F16);
6233         gen_helper_advsimd_rinth_exact(tcg_res, tcg_op, fpst);
6234         break;
6235     case 0xf: /* FRINTI */
6236         fpst = fpstatus_ptr(FPST_FPCR_F16);
6237         gen_helper_advsimd_rinth(tcg_res, tcg_op, fpst);
6238         break;
6239     default:
6240         abort();
6241     }
6242
6243     write_fp_sreg(s, rd, tcg_res);
6244
6245     if (fpst) {
6246         tcg_temp_free_ptr(fpst);
6247     }
6248     tcg_temp_free_i32(tcg_op);
6249     tcg_temp_free_i32(tcg_res);
6250 }
6251
6252 /* Floating-point data-processing (1 source) - single precision */
6253 static void handle_fp_1src_single(DisasContext *s, int opcode, int rd, int rn)
6254 {
6255     void (*gen_fpst)(TCGv_i32, TCGv_i32, TCGv_ptr);
6256     TCGv_i32 tcg_op, tcg_res;
6257     TCGv_ptr fpst;
6258     int rmode = -1;
6259
6260     tcg_op = read_fp_sreg(s, rn);
6261     tcg_res = tcg_temp_new_i32();
6262
6263     switch (opcode) {
6264     case 0x0: /* FMOV */
6265         tcg_gen_mov_i32(tcg_res, tcg_op);
6266         goto done;
6267     case 0x1: /* FABS */
6268         gen_helper_vfp_abss(tcg_res, tcg_op);
6269         goto done;
6270     case 0x2: /* FNEG */
6271         gen_helper_vfp_negs(tcg_res, tcg_op);
6272         goto done;
6273     case 0x3: /* FSQRT */
6274         gen_helper_vfp_sqrts(tcg_res, tcg_op, cpu_env);
6275         goto done;
6276     case 0x8: /* FRINTN */
6277     case 0x9: /* FRINTP */
6278     case 0xa: /* FRINTM */
6279     case 0xb: /* FRINTZ */
6280     case 0xc: /* FRINTA */
6281         rmode = arm_rmode_to_sf(opcode & 7);
6282         gen_fpst = gen_helper_rints;
6283         break;
6284     case 0xe: /* FRINTX */
6285         gen_fpst = gen_helper_rints_exact;
6286         break;
6287     case 0xf: /* FRINTI */
6288         gen_fpst = gen_helper_rints;
6289         break;
6290     case 0x10: /* FRINT32Z */
6291         rmode = float_round_to_zero;
6292         gen_fpst = gen_helper_frint32_s;
6293         break;
6294     case 0x11: /* FRINT32X */
6295         gen_fpst = gen_helper_frint32_s;
6296         break;
6297     case 0x12: /* FRINT64Z */
6298         rmode = float_round_to_zero;
6299         gen_fpst = gen_helper_frint64_s;
6300         break;
6301     case 0x13: /* FRINT64X */
6302         gen_fpst = gen_helper_frint64_s;
6303         break;
6304     default:
6305         g_assert_not_reached();
6306     }
6307
6308     fpst = fpstatus_ptr(FPST_FPCR);
6309     if (rmode >= 0) {
6310         TCGv_i32 tcg_rmode = tcg_const_i32(rmode);
6311         gen_helper_set_rmode(tcg_rmode, tcg_rmode, fpst);
6312         gen_fpst(tcg_res, tcg_op, fpst);
6313         gen_helper_set_rmode(tcg_rmode, tcg_rmode, fpst);
6314         tcg_temp_free_i32(tcg_rmode);
6315     } else {
6316         gen_fpst(tcg_res, tcg_op, fpst);
6317     }
6318     tcg_temp_free_ptr(fpst);
6319
6320  done:
6321     write_fp_sreg(s, rd, tcg_res);
6322     tcg_temp_free_i32(tcg_op);
6323     tcg_temp_free_i32(tcg_res);
6324 }
6325
6326 /* Floating-point data-processing (1 source) - double precision */
6327 static void handle_fp_1src_double(DisasContext *s, int opcode, int rd, int rn)
6328 {
6329     void (*gen_fpst)(TCGv_i64, TCGv_i64, TCGv_ptr);
6330     TCGv_i64 tcg_op, tcg_res;
6331     TCGv_ptr fpst;
6332     int rmode = -1;
6333
6334     switch (opcode) {
6335     case 0x0: /* FMOV */
6336         gen_gvec_fn2(s, false, rd, rn, tcg_gen_gvec_mov, 0);
6337         return;
6338     }
6339
6340     tcg_op = read_fp_dreg(s, rn);
6341     tcg_res = tcg_temp_new_i64();
6342
6343     switch (opcode) {
6344     case 0x1: /* FABS */
6345         gen_helper_vfp_absd(tcg_res, tcg_op);
6346         goto done;
6347     case 0x2: /* FNEG */
6348         gen_helper_vfp_negd(tcg_res, tcg_op);
6349         goto done;
6350     case 0x3: /* FSQRT */
6351         gen_helper_vfp_sqrtd(tcg_res, tcg_op, cpu_env);
6352         goto done;
6353     case 0x8: /* FRINTN */
6354     case 0x9: /* FRINTP */
6355     case 0xa: /* FRINTM */
6356     case 0xb: /* FRINTZ */
6357     case 0xc: /* FRINTA */
6358         rmode = arm_rmode_to_sf(opcode & 7);
6359         gen_fpst = gen_helper_rintd;
6360         break;
6361     case 0xe: /* FRINTX */
6362         gen_fpst = gen_helper_rintd_exact;
6363         break;
6364     case 0xf: /* FRINTI */
6365         gen_fpst = gen_helper_rintd;
6366         break;
6367     case 0x10: /* FRINT32Z */
6368         rmode = float_round_to_zero;
6369         gen_fpst = gen_helper_frint32_d;
6370         break;
6371     case 0x11: /* FRINT32X */
6372         gen_fpst = gen_helper_frint32_d;
6373         break;
6374     case 0x12: /* FRINT64Z */
6375         rmode = float_round_to_zero;
6376         gen_fpst = gen_helper_frint64_d;
6377         break;
6378     case 0x13: /* FRINT64X */
6379         gen_fpst = gen_helper_frint64_d;
6380         break;
6381     default:
6382         g_assert_not_reached();
6383     }
6384
6385     fpst = fpstatus_ptr(FPST_FPCR);
6386     if (rmode >= 0) {
6387         TCGv_i32 tcg_rmode = tcg_const_i32(rmode);
6388         gen_helper_set_rmode(tcg_rmode, tcg_rmode, fpst);
6389         gen_fpst(tcg_res, tcg_op, fpst);
6390         gen_helper_set_rmode(tcg_rmode, tcg_rmode, fpst);
6391         tcg_temp_free_i32(tcg_rmode);
6392     } else {
6393         gen_fpst(tcg_res, tcg_op, fpst);
6394     }
6395     tcg_temp_free_ptr(fpst);
6396
6397  done:
6398     write_fp_dreg(s, rd, tcg_res);
6399     tcg_temp_free_i64(tcg_op);
6400     tcg_temp_free_i64(tcg_res);
6401 }
6402
6403 static void handle_fp_fcvt(DisasContext *s, int opcode,
6404                            int rd, int rn, int dtype, int ntype)
6405 {
6406     switch (ntype) {
6407     case 0x0:
6408     {
6409         TCGv_i32 tcg_rn = read_fp_sreg(s, rn);
6410         if (dtype == 1) {
6411             /* Single to double */
6412             TCGv_i64 tcg_rd = tcg_temp_new_i64();
6413             gen_helper_vfp_fcvtds(tcg_rd, tcg_rn, cpu_env);
6414             write_fp_dreg(s, rd, tcg_rd);
6415             tcg_temp_free_i64(tcg_rd);
6416         } else {
6417             /* Single to half */
6418             TCGv_i32 tcg_rd = tcg_temp_new_i32();
6419             TCGv_i32 ahp = get_ahp_flag();
6420             TCGv_ptr fpst = fpstatus_ptr(FPST_FPCR);
6421
6422             gen_helper_vfp_fcvt_f32_to_f16(tcg_rd, tcg_rn, fpst, ahp);
6423             /* write_fp_sreg is OK here because top half of tcg_rd is zero */
6424             write_fp_sreg(s, rd, tcg_rd);
6425             tcg_temp_free_i32(tcg_rd);
6426             tcg_temp_free_i32(ahp);
6427             tcg_temp_free_ptr(fpst);
6428         }
6429         tcg_temp_free_i32(tcg_rn);
6430         break;
6431     }
6432     case 0x1:
6433     {
6434         TCGv_i64 tcg_rn = read_fp_dreg(s, rn);
6435         TCGv_i32 tcg_rd = tcg_temp_new_i32();
6436         if (dtype == 0) {
6437             /* Double to single */
6438             gen_helper_vfp_fcvtsd(tcg_rd, tcg_rn, cpu_env);
6439         } else {
6440             TCGv_ptr fpst = fpstatus_ptr(FPST_FPCR);
6441             TCGv_i32 ahp = get_ahp_flag();
6442             /* Double to half */
6443             gen_helper_vfp_fcvt_f64_to_f16(tcg_rd, tcg_rn, fpst, ahp);
6444             /* write_fp_sreg is OK here because top half of tcg_rd is zero */
6445             tcg_temp_free_ptr(fpst);
6446             tcg_temp_free_i32(ahp);
6447         }
6448         write_fp_sreg(s, rd, tcg_rd);
6449         tcg_temp_free_i32(tcg_rd);
6450         tcg_temp_free_i64(tcg_rn);
6451         break;
6452     }
6453     case 0x3:
6454     {
6455         TCGv_i32 tcg_rn = read_fp_sreg(s, rn);
6456         TCGv_ptr tcg_fpst = fpstatus_ptr(FPST_FPCR);
6457         TCGv_i32 tcg_ahp = get_ahp_flag();
6458         tcg_gen_ext16u_i32(tcg_rn, tcg_rn);
6459         if (dtype == 0) {
6460             /* Half to single */
6461             TCGv_i32 tcg_rd = tcg_temp_new_i32();
6462             gen_helper_vfp_fcvt_f16_to_f32(tcg_rd, tcg_rn, tcg_fpst, tcg_ahp);
6463             write_fp_sreg(s, rd, tcg_rd);
6464             tcg_temp_free_i32(tcg_rd);
6465         } else {
6466             /* Half to double */
6467             TCGv_i64 tcg_rd = tcg_temp_new_i64();
6468             gen_helper_vfp_fcvt_f16_to_f64(tcg_rd, tcg_rn, tcg_fpst, tcg_ahp);
6469             write_fp_dreg(s, rd, tcg_rd);
6470             tcg_temp_free_i64(tcg_rd);
6471         }
6472         tcg_temp_free_i32(tcg_rn);
6473         tcg_temp_free_ptr(tcg_fpst);
6474         tcg_temp_free_i32(tcg_ahp);
6475         break;
6476     }
6477     default:
6478         abort();
6479     }
6480 }
6481
6482 /* Floating point data-processing (1 source)
6483  *   31  30  29 28       24 23  22  21 20    15 14       10 9    5 4    0
6484  * +---+---+---+-----------+------+---+--------+-----------+------+------+
6485  * | M | 0 | S | 1 1 1 1 0 | type | 1 | opcode | 1 0 0 0 0 |  Rn  |  Rd  |
6486  * +---+---+---+-----------+------+---+--------+-----------+------+------+
6487  */
6488 static void disas_fp_1src(DisasContext *s, uint32_t insn)
6489 {
6490     int mos = extract32(insn, 29, 3);
6491     int type = extract32(insn, 22, 2);
6492     int opcode = extract32(insn, 15, 6);
6493     int rn = extract32(insn, 5, 5);
6494     int rd = extract32(insn, 0, 5);
6495
6496     if (mos) {
6497         unallocated_encoding(s);
6498         return;
6499     }
6500
6501     switch (opcode) {
6502     case 0x4: case 0x5: case 0x7:
6503     {
6504         /* FCVT between half, single and double precision */
6505         int dtype = extract32(opcode, 0, 2);
6506         if (type == 2 || dtype == type) {
6507             unallocated_encoding(s);
6508             return;
6509         }
6510         if (!fp_access_check(s)) {
6511             return;
6512         }
6513
6514         handle_fp_fcvt(s, opcode, rd, rn, dtype, type);
6515         break;
6516     }
6517
6518     case 0x10 ... 0x13: /* FRINT{32,64}{X,Z} */
6519         if (type > 1 || !dc_isar_feature(aa64_frint, s)) {
6520             unallocated_encoding(s);
6521             return;
6522         }
6523         /* fall through */
6524     case 0x0 ... 0x3:
6525     case 0x8 ... 0xc:
6526     case 0xe ... 0xf:
6527         /* 32-to-32 and 64-to-64 ops */
6528         switch (type) {
6529         case 0:
6530             if (!fp_access_check(s)) {
6531                 return;
6532             }
6533             handle_fp_1src_single(s, opcode, rd, rn);
6534             break;
6535         case 1:
6536             if (!fp_access_check(s)) {
6537                 return;
6538             }
6539             handle_fp_1src_double(s, opcode, rd, rn);
6540             break;
6541         case 3:
6542             if (!dc_isar_feature(aa64_fp16, s)) {
6543                 unallocated_encoding(s);
6544                 return;
6545             }
6546
6547             if (!fp_access_check(s)) {
6548                 return;
6549             }
6550             handle_fp_1src_half(s, opcode, rd, rn);
6551             break;
6552         default:
6553             unallocated_encoding(s);
6554         }
6555         break;
6556
6557     default:
6558         unallocated_encoding(s);
6559         break;
6560     }
6561 }
6562
6563 /* Floating-point data-processing (2 source) - single precision */
6564 static void handle_fp_2src_single(DisasContext *s, int opcode,
6565                                   int rd, int rn, int rm)
6566 {
6567     TCGv_i32 tcg_op1;
6568     TCGv_i32 tcg_op2;
6569     TCGv_i32 tcg_res;
6570     TCGv_ptr fpst;
6571
6572     tcg_res = tcg_temp_new_i32();
6573     fpst = fpstatus_ptr(FPST_FPCR);
6574     tcg_op1 = read_fp_sreg(s, rn);
6575     tcg_op2 = read_fp_sreg(s, rm);
6576
6577     switch (opcode) {
6578     case 0x0: /* FMUL */
6579         gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
6580         break;
6581     case 0x1: /* FDIV */
6582         gen_helper_vfp_divs(tcg_res, tcg_op1, tcg_op2, fpst);
6583         break;
6584     case 0x2: /* FADD */
6585         gen_helper_vfp_adds(tcg_res, tcg_op1, tcg_op2, fpst);
6586         break;
6587     case 0x3: /* FSUB */
6588         gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
6589         break;
6590     case 0x4: /* FMAX */
6591         gen_helper_vfp_maxs(tcg_res, tcg_op1, tcg_op2, fpst);
6592         break;
6593     case 0x5: /* FMIN */
6594         gen_helper_vfp_mins(tcg_res, tcg_op1, tcg_op2, fpst);
6595         break;
6596     case 0x6: /* FMAXNM */
6597         gen_helper_vfp_maxnums(tcg_res, tcg_op1, tcg_op2, fpst);
6598         break;
6599     case 0x7: /* FMINNM */
6600         gen_helper_vfp_minnums(tcg_res, tcg_op1, tcg_op2, fpst);
6601         break;
6602     case 0x8: /* FNMUL */
6603         gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
6604         gen_helper_vfp_negs(tcg_res, tcg_res);
6605         break;
6606     }
6607
6608     write_fp_sreg(s, rd, tcg_res);
6609
6610     tcg_temp_free_ptr(fpst);
6611     tcg_temp_free_i32(tcg_op1);
6612     tcg_temp_free_i32(tcg_op2);
6613     tcg_temp_free_i32(tcg_res);
6614 }
6615
6616 /* Floating-point data-processing (2 source) - double precision */
6617 static void handle_fp_2src_double(DisasContext *s, int opcode,
6618                                   int rd, int rn, int rm)
6619 {
6620     TCGv_i64 tcg_op1;
6621     TCGv_i64 tcg_op2;
6622     TCGv_i64 tcg_res;
6623     TCGv_ptr fpst;
6624
6625     tcg_res = tcg_temp_new_i64();
6626     fpst = fpstatus_ptr(FPST_FPCR);
6627     tcg_op1 = read_fp_dreg(s, rn);
6628     tcg_op2 = read_fp_dreg(s, rm);
6629
6630     switch (opcode) {
6631     case 0x0: /* FMUL */
6632         gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
6633         break;
6634     case 0x1: /* FDIV */
6635         gen_helper_vfp_divd(tcg_res, tcg_op1, tcg_op2, fpst);
6636         break;
6637     case 0x2: /* FADD */
6638         gen_helper_vfp_addd(tcg_res, tcg_op1, tcg_op2, fpst);
6639         break;
6640     case 0x3: /* FSUB */
6641         gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
6642         break;
6643     case 0x4: /* FMAX */
6644         gen_helper_vfp_maxd(tcg_res, tcg_op1, tcg_op2, fpst);
6645         break;
6646     case 0x5: /* FMIN */
6647         gen_helper_vfp_mind(tcg_res, tcg_op1, tcg_op2, fpst);
6648         break;
6649     case 0x6: /* FMAXNM */
6650         gen_helper_vfp_maxnumd(tcg_res, tcg_op1, tcg_op2, fpst);
6651         break;
6652     case 0x7: /* FMINNM */
6653         gen_helper_vfp_minnumd(tcg_res, tcg_op1, tcg_op2, fpst);
6654         break;
6655     case 0x8: /* FNMUL */
6656         gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
6657         gen_helper_vfp_negd(tcg_res, tcg_res);
6658         break;
6659     }
6660
6661     write_fp_dreg(s, rd, tcg_res);
6662
6663     tcg_temp_free_ptr(fpst);
6664     tcg_temp_free_i64(tcg_op1);
6665     tcg_temp_free_i64(tcg_op2);
6666     tcg_temp_free_i64(tcg_res);
6667 }
6668
6669 /* Floating-point data-processing (2 source) - half precision */
6670 static void handle_fp_2src_half(DisasContext *s, int opcode,
6671                                 int rd, int rn, int rm)
6672 {
6673     TCGv_i32 tcg_op1;
6674     TCGv_i32 tcg_op2;
6675     TCGv_i32 tcg_res;
6676     TCGv_ptr fpst;
6677
6678     tcg_res = tcg_temp_new_i32();
6679     fpst = fpstatus_ptr(FPST_FPCR_F16);
6680     tcg_op1 = read_fp_hreg(s, rn);
6681     tcg_op2 = read_fp_hreg(s, rm);
6682
6683     switch (opcode) {
6684     case 0x0: /* FMUL */
6685         gen_helper_advsimd_mulh(tcg_res, tcg_op1, tcg_op2, fpst);
6686         break;
6687     case 0x1: /* FDIV */
6688         gen_helper_advsimd_divh(tcg_res, tcg_op1, tcg_op2, fpst);
6689         break;
6690     case 0x2: /* FADD */
6691         gen_helper_advsimd_addh(tcg_res, tcg_op1, tcg_op2, fpst);
6692         break;
6693     case 0x3: /* FSUB */
6694         gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
6695         break;
6696     case 0x4: /* FMAX */
6697         gen_helper_advsimd_maxh(tcg_res, tcg_op1, tcg_op2, fpst);
6698         break;
6699     case 0x5: /* FMIN */
6700         gen_helper_advsimd_minh(tcg_res, tcg_op1, tcg_op2, fpst);
6701         break;
6702     case 0x6: /* FMAXNM */
6703         gen_helper_advsimd_maxnumh(tcg_res, tcg_op1, tcg_op2, fpst);
6704         break;
6705     case 0x7: /* FMINNM */
6706         gen_helper_advsimd_minnumh(tcg_res, tcg_op1, tcg_op2, fpst);
6707         break;
6708     case 0x8: /* FNMUL */
6709         gen_helper_advsimd_mulh(tcg_res, tcg_op1, tcg_op2, fpst);
6710         tcg_gen_xori_i32(tcg_res, tcg_res, 0x8000);
6711         break;
6712     default:
6713         g_assert_not_reached();
6714     }
6715
6716     write_fp_sreg(s, rd, tcg_res);
6717
6718     tcg_temp_free_ptr(fpst);
6719     tcg_temp_free_i32(tcg_op1);
6720     tcg_temp_free_i32(tcg_op2);
6721     tcg_temp_free_i32(tcg_res);
6722 }
6723
6724 /* Floating point data-processing (2 source)
6725  *   31  30  29 28       24 23  22  21 20  16 15    12 11 10 9    5 4    0
6726  * +---+---+---+-----------+------+---+------+--------+-----+------+------+
6727  * | M | 0 | S | 1 1 1 1 0 | type | 1 |  Rm  | opcode | 1 0 |  Rn  |  Rd  |
6728  * +---+---+---+-----------+------+---+------+--------+-----+------+------+
6729  */
6730 static void disas_fp_2src(DisasContext *s, uint32_t insn)
6731 {
6732     int mos = extract32(insn, 29, 3);
6733     int type = extract32(insn, 22, 2);
6734     int rd = extract32(insn, 0, 5);
6735     int rn = extract32(insn, 5, 5);
6736     int rm = extract32(insn, 16, 5);
6737     int opcode = extract32(insn, 12, 4);
6738
6739     if (opcode > 8 || mos) {
6740         unallocated_encoding(s);
6741         return;
6742     }
6743
6744     switch (type) {
6745     case 0:
6746         if (!fp_access_check(s)) {
6747             return;
6748         }
6749         handle_fp_2src_single(s, opcode, rd, rn, rm);
6750         break;
6751     case 1:
6752         if (!fp_access_check(s)) {
6753             return;
6754         }
6755         handle_fp_2src_double(s, opcode, rd, rn, rm);
6756         break;
6757     case 3:
6758         if (!dc_isar_feature(aa64_fp16, s)) {
6759             unallocated_encoding(s);
6760             return;
6761         }
6762         if (!fp_access_check(s)) {
6763             return;
6764         }
6765         handle_fp_2src_half(s, opcode, rd, rn, rm);
6766         break;
6767     default:
6768         unallocated_encoding(s);
6769     }
6770 }
6771
6772 /* Floating-point data-processing (3 source) - single precision */
6773 static void handle_fp_3src_single(DisasContext *s, bool o0, bool o1,
6774                                   int rd, int rn, int rm, int ra)
6775 {
6776     TCGv_i32 tcg_op1, tcg_op2, tcg_op3;
6777     TCGv_i32 tcg_res = tcg_temp_new_i32();
6778     TCGv_ptr fpst = fpstatus_ptr(FPST_FPCR);
6779
6780     tcg_op1 = read_fp_sreg(s, rn);
6781     tcg_op2 = read_fp_sreg(s, rm);
6782     tcg_op3 = read_fp_sreg(s, ra);
6783
6784     /* These are fused multiply-add, and must be done as one
6785      * floating point operation with no rounding between the
6786      * multiplication and addition steps.
6787      * NB that doing the negations here as separate steps is
6788      * correct : an input NaN should come out with its sign bit
6789      * flipped if it is a negated-input.
6790      */
6791     if (o1 == true) {
6792         gen_helper_vfp_negs(tcg_op3, tcg_op3);
6793     }
6794
6795     if (o0 != o1) {
6796         gen_helper_vfp_negs(tcg_op1, tcg_op1);
6797     }
6798
6799     gen_helper_vfp_muladds(tcg_res, tcg_op1, tcg_op2, tcg_op3, fpst);
6800
6801     write_fp_sreg(s, rd, tcg_res);
6802
6803     tcg_temp_free_ptr(fpst);
6804     tcg_temp_free_i32(tcg_op1);
6805     tcg_temp_free_i32(tcg_op2);
6806     tcg_temp_free_i32(tcg_op3);
6807     tcg_temp_free_i32(tcg_res);
6808 }
6809
6810 /* Floating-point data-processing (3 source) - double precision */
6811 static void handle_fp_3src_double(DisasContext *s, bool o0, bool o1,
6812                                   int rd, int rn, int rm, int ra)
6813 {
6814     TCGv_i64 tcg_op1, tcg_op2, tcg_op3;
6815     TCGv_i64 tcg_res = tcg_temp_new_i64();
6816     TCGv_ptr fpst = fpstatus_ptr(FPST_FPCR);
6817
6818     tcg_op1 = read_fp_dreg(s, rn);
6819     tcg_op2 = read_fp_dreg(s, rm);
6820     tcg_op3 = read_fp_dreg(s, ra);
6821
6822     /* These are fused multiply-add, and must be done as one
6823      * floating point operation with no rounding between the
6824      * multiplication and addition steps.
6825      * NB that doing the negations here as separate steps is
6826      * correct : an input NaN should come out with its sign bit
6827      * flipped if it is a negated-input.
6828      */
6829     if (o1 == true) {
6830         gen_helper_vfp_negd(tcg_op3, tcg_op3);
6831     }
6832
6833     if (o0 != o1) {
6834         gen_helper_vfp_negd(tcg_op1, tcg_op1);
6835     }
6836
6837     gen_helper_vfp_muladdd(tcg_res, tcg_op1, tcg_op2, tcg_op3, fpst);
6838
6839     write_fp_dreg(s, rd, tcg_res);
6840
6841     tcg_temp_free_ptr(fpst);
6842     tcg_temp_free_i64(tcg_op1);
6843     tcg_temp_free_i64(tcg_op2);
6844     tcg_temp_free_i64(tcg_op3);
6845     tcg_temp_free_i64(tcg_res);
6846 }
6847
6848 /* Floating-point data-processing (3 source) - half precision */
6849 static void handle_fp_3src_half(DisasContext *s, bool o0, bool o1,
6850                                 int rd, int rn, int rm, int ra)
6851 {
6852     TCGv_i32 tcg_op1, tcg_op2, tcg_op3;
6853     TCGv_i32 tcg_res = tcg_temp_new_i32();
6854     TCGv_ptr fpst = fpstatus_ptr(FPST_FPCR_F16);
6855
6856     tcg_op1 = read_fp_hreg(s, rn);
6857     tcg_op2 = read_fp_hreg(s, rm);
6858     tcg_op3 = read_fp_hreg(s, ra);
6859
6860     /* These are fused multiply-add, and must be done as one
6861      * floating point operation with no rounding between the
6862      * multiplication and addition steps.
6863      * NB that doing the negations here as separate steps is
6864      * correct : an input NaN should come out with its sign bit
6865      * flipped if it is a negated-input.
6866      */
6867     if (o1 == true) {
6868         tcg_gen_xori_i32(tcg_op3, tcg_op3, 0x8000);
6869     }
6870
6871     if (o0 != o1) {
6872         tcg_gen_xori_i32(tcg_op1, tcg_op1, 0x8000);
6873     }
6874
6875     gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_op3, fpst);
6876
6877     write_fp_sreg(s, rd, tcg_res);
6878
6879     tcg_temp_free_ptr(fpst);
6880     tcg_temp_free_i32(tcg_op1);
6881     tcg_temp_free_i32(tcg_op2);
6882     tcg_temp_free_i32(tcg_op3);
6883     tcg_temp_free_i32(tcg_res);
6884 }
6885
6886 /* Floating point data-processing (3 source)
6887  *   31  30  29 28       24 23  22  21  20  16  15  14  10 9    5 4    0
6888  * +---+---+---+-----------+------+----+------+----+------+------+------+
6889  * | M | 0 | S | 1 1 1 1 1 | type | o1 |  Rm  | o0 |  Ra  |  Rn  |  Rd  |
6890  * +---+---+---+-----------+------+----+------+----+------+------+------+
6891  */
6892 static void disas_fp_3src(DisasContext *s, uint32_t insn)
6893 {
6894     int mos = extract32(insn, 29, 3);
6895     int type = extract32(insn, 22, 2);
6896     int rd = extract32(insn, 0, 5);
6897     int rn = extract32(insn, 5, 5);
6898     int ra = extract32(insn, 10, 5);
6899     int rm = extract32(insn, 16, 5);
6900     bool o0 = extract32(insn, 15, 1);
6901     bool o1 = extract32(insn, 21, 1);
6902
6903     if (mos) {
6904         unallocated_encoding(s);
6905         return;
6906     }
6907
6908     switch (type) {
6909     case 0:
6910         if (!fp_access_check(s)) {
6911             return;
6912         }
6913         handle_fp_3src_single(s, o0, o1, rd, rn, rm, ra);
6914         break;
6915     case 1:
6916         if (!fp_access_check(s)) {
6917             return;
6918         }
6919         handle_fp_3src_double(s, o0, o1, rd, rn, rm, ra);
6920         break;
6921     case 3:
6922         if (!dc_isar_feature(aa64_fp16, s)) {
6923             unallocated_encoding(s);
6924             return;
6925         }
6926         if (!fp_access_check(s)) {
6927             return;
6928         }
6929         handle_fp_3src_half(s, o0, o1, rd, rn, rm, ra);
6930         break;
6931     default:
6932         unallocated_encoding(s);
6933     }
6934 }
6935
6936 /* Floating point immediate
6937  *   31  30  29 28       24 23  22  21 20        13 12   10 9    5 4    0
6938  * +---+---+---+-----------+------+---+------------+-------+------+------+
6939  * | M | 0 | S | 1 1 1 1 0 | type | 1 |    imm8    | 1 0 0 | imm5 |  Rd  |
6940  * +---+---+---+-----------+------+---+------------+-------+------+------+
6941  */
6942 static void disas_fp_imm(DisasContext *s, uint32_t insn)
6943 {
6944     int rd = extract32(insn, 0, 5);
6945     int imm5 = extract32(insn, 5, 5);
6946     int imm8 = extract32(insn, 13, 8);
6947     int type = extract32(insn, 22, 2);
6948     int mos = extract32(insn, 29, 3);
6949     uint64_t imm;
6950     TCGv_i64 tcg_res;
6951     MemOp sz;
6952
6953     if (mos || imm5) {
6954         unallocated_encoding(s);
6955         return;
6956     }
6957
6958     switch (type) {
6959     case 0:
6960         sz = MO_32;
6961         break;
6962     case 1:
6963         sz = MO_64;
6964         break;
6965     case 3:
6966         sz = MO_16;
6967         if (dc_isar_feature(aa64_fp16, s)) {
6968             break;
6969         }
6970         /* fallthru */
6971     default:
6972         unallocated_encoding(s);
6973         return;
6974     }
6975
6976     if (!fp_access_check(s)) {
6977         return;
6978     }
6979
6980     imm = vfp_expand_imm(sz, imm8);
6981
6982     tcg_res = tcg_const_i64(imm);
6983     write_fp_dreg(s, rd, tcg_res);
6984     tcg_temp_free_i64(tcg_res);
6985 }
6986
6987 /* Handle floating point <=> fixed point conversions. Note that we can
6988  * also deal with fp <=> integer conversions as a special case (scale == 64)
6989  * OPTME: consider handling that special case specially or at least skipping
6990  * the call to scalbn in the helpers for zero shifts.
6991  */
6992 static void handle_fpfpcvt(DisasContext *s, int rd, int rn, int opcode,
6993                            bool itof, int rmode, int scale, int sf, int type)
6994 {
6995     bool is_signed = !(opcode & 1);
6996     TCGv_ptr tcg_fpstatus;
6997     TCGv_i32 tcg_shift, tcg_single;
6998     TCGv_i64 tcg_double;
6999
7000     tcg_fpstatus = fpstatus_ptr(type == 3 ? FPST_FPCR_F16 : FPST_FPCR);
7001
7002     tcg_shift = tcg_const_i32(64 - scale);
7003
7004     if (itof) {
7005         TCGv_i64 tcg_int = cpu_reg(s, rn);
7006         if (!sf) {
7007             TCGv_i64 tcg_extend = new_tmp_a64(s);
7008
7009             if (is_signed) {
7010                 tcg_gen_ext32s_i64(tcg_extend, tcg_int);
7011             } else {
7012                 tcg_gen_ext32u_i64(tcg_extend, tcg_int);
7013             }
7014
7015             tcg_int = tcg_extend;
7016         }
7017
7018         switch (type) {
7019         case 1: /* float64 */
7020             tcg_double = tcg_temp_new_i64();
7021             if (is_signed) {
7022                 gen_helper_vfp_sqtod(tcg_double, tcg_int,
7023                                      tcg_shift, tcg_fpstatus);
7024             } else {
7025                 gen_helper_vfp_uqtod(tcg_double, tcg_int,
7026                                      tcg_shift, tcg_fpstatus);
7027             }
7028             write_fp_dreg(s, rd, tcg_double);
7029             tcg_temp_free_i64(tcg_double);
7030             break;
7031
7032         case 0: /* float32 */
7033             tcg_single = tcg_temp_new_i32();
7034             if (is_signed) {
7035                 gen_helper_vfp_sqtos(tcg_single, tcg_int,
7036                                      tcg_shift, tcg_fpstatus);
7037             } else {
7038                 gen_helper_vfp_uqtos(tcg_single, tcg_int,
7039                                      tcg_shift, tcg_fpstatus);
7040             }
7041             write_fp_sreg(s, rd, tcg_single);
7042             tcg_temp_free_i32(tcg_single);
7043             break;
7044
7045         case 3: /* float16 */
7046             tcg_single = tcg_temp_new_i32();
7047             if (is_signed) {
7048                 gen_helper_vfp_sqtoh(tcg_single, tcg_int,
7049                                      tcg_shift, tcg_fpstatus);
7050             } else {
7051                 gen_helper_vfp_uqtoh(tcg_single, tcg_int,
7052                                      tcg_shift, tcg_fpstatus);
7053             }
7054             write_fp_sreg(s, rd, tcg_single);
7055             tcg_temp_free_i32(tcg_single);
7056             break;
7057
7058         default:
7059             g_assert_not_reached();
7060         }
7061     } else {
7062         TCGv_i64 tcg_int = cpu_reg(s, rd);
7063         TCGv_i32 tcg_rmode;
7064
7065         if (extract32(opcode, 2, 1)) {
7066             /* There are too many rounding modes to all fit into rmode,
7067              * so FCVTA[US] is a special case.
7068              */
7069             rmode = FPROUNDING_TIEAWAY;
7070         }
7071
7072         tcg_rmode = tcg_const_i32(arm_rmode_to_sf(rmode));
7073
7074         gen_helper_set_rmode(tcg_rmode, tcg_rmode, tcg_fpstatus);
7075
7076         switch (type) {
7077         case 1: /* float64 */
7078             tcg_double = read_fp_dreg(s, rn);
7079             if (is_signed) {
7080                 if (!sf) {
7081                     gen_helper_vfp_tosld(tcg_int, tcg_double,
7082                                          tcg_shift, tcg_fpstatus);
7083                 } else {
7084                     gen_helper_vfp_tosqd(tcg_int, tcg_double,
7085                                          tcg_shift, tcg_fpstatus);
7086                 }
7087             } else {
7088                 if (!sf) {
7089                     gen_helper_vfp_tould(tcg_int, tcg_double,
7090                                          tcg_shift, tcg_fpstatus);
7091                 } else {
7092                     gen_helper_vfp_touqd(tcg_int, tcg_double,
7093                                          tcg_shift, tcg_fpstatus);
7094                 }
7095             }
7096             if (!sf) {
7097                 tcg_gen_ext32u_i64(tcg_int, tcg_int);
7098             }
7099             tcg_temp_free_i64(tcg_double);
7100             break;
7101
7102         case 0: /* float32 */
7103             tcg_single = read_fp_sreg(s, rn);
7104             if (sf) {
7105                 if (is_signed) {
7106                     gen_helper_vfp_tosqs(tcg_int, tcg_single,
7107                                          tcg_shift, tcg_fpstatus);
7108                 } else {
7109                     gen_helper_vfp_touqs(tcg_int, tcg_single,
7110                                          tcg_shift, tcg_fpstatus);
7111                 }
7112             } else {
7113                 TCGv_i32 tcg_dest = tcg_temp_new_i32();
7114                 if (is_signed) {
7115                     gen_helper_vfp_tosls(tcg_dest, tcg_single,
7116                                          tcg_shift, tcg_fpstatus);
7117                 } else {
7118                     gen_helper_vfp_touls(tcg_dest, tcg_single,
7119                                          tcg_shift, tcg_fpstatus);
7120                 }
7121                 tcg_gen_extu_i32_i64(tcg_int, tcg_dest);
7122                 tcg_temp_free_i32(tcg_dest);
7123             }
7124             tcg_temp_free_i32(tcg_single);
7125             break;
7126
7127         case 3: /* float16 */
7128             tcg_single = read_fp_sreg(s, rn);
7129             if (sf) {
7130                 if (is_signed) {
7131                     gen_helper_vfp_tosqh(tcg_int, tcg_single,
7132                                          tcg_shift, tcg_fpstatus);
7133                 } else {
7134                     gen_helper_vfp_touqh(tcg_int, tcg_single,
7135                                          tcg_shift, tcg_fpstatus);
7136                 }
7137             } else {
7138                 TCGv_i32 tcg_dest = tcg_temp_new_i32();
7139                 if (is_signed) {
7140                     gen_helper_vfp_toslh(tcg_dest, tcg_single,
7141                                          tcg_shift, tcg_fpstatus);
7142                 } else {
7143                     gen_helper_vfp_toulh(tcg_dest, tcg_single,
7144                                          tcg_shift, tcg_fpstatus);
7145                 }
7146                 tcg_gen_extu_i32_i64(tcg_int, tcg_dest);
7147                 tcg_temp_free_i32(tcg_dest);
7148             }
7149             tcg_temp_free_i32(tcg_single);
7150             break;
7151
7152         default:
7153             g_assert_not_reached();
7154         }
7155
7156         gen_helper_set_rmode(tcg_rmode, tcg_rmode, tcg_fpstatus);
7157         tcg_temp_free_i32(tcg_rmode);
7158     }
7159
7160     tcg_temp_free_ptr(tcg_fpstatus);
7161     tcg_temp_free_i32(tcg_shift);
7162 }
7163
7164 /* Floating point <-> fixed point conversions
7165  *   31   30  29 28       24 23  22  21 20   19 18    16 15   10 9    5 4    0
7166  * +----+---+---+-----------+------+---+-------+--------+-------+------+------+
7167  * | sf | 0 | S | 1 1 1 1 0 | type | 0 | rmode | opcode | scale |  Rn  |  Rd  |
7168  * +----+---+---+-----------+------+---+-------+--------+-------+------+------+
7169  */
7170 static void disas_fp_fixed_conv(DisasContext *s, uint32_t insn)
7171 {
7172     int rd = extract32(insn, 0, 5);
7173     int rn = extract32(insn, 5, 5);
7174     int scale = extract32(insn, 10, 6);
7175     int opcode = extract32(insn, 16, 3);
7176     int rmode = extract32(insn, 19, 2);
7177     int type = extract32(insn, 22, 2);
7178     bool sbit = extract32(insn, 29, 1);
7179     bool sf = extract32(insn, 31, 1);
7180     bool itof;
7181
7182     if (sbit || (!sf && scale < 32)) {
7183         unallocated_encoding(s);
7184         return;
7185     }
7186
7187     switch (type) {
7188     case 0: /* float32 */
7189     case 1: /* float64 */
7190         break;
7191     case 3: /* float16 */
7192         if (dc_isar_feature(aa64_fp16, s)) {
7193             break;
7194         }
7195         /* fallthru */
7196     default:
7197         unallocated_encoding(s);
7198         return;
7199     }
7200
7201     switch ((rmode << 3) | opcode) {
7202     case 0x2: /* SCVTF */
7203     case 0x3: /* UCVTF */
7204         itof = true;
7205         break;
7206     case 0x18: /* FCVTZS */
7207     case 0x19: /* FCVTZU */
7208         itof = false;
7209         break;
7210     default:
7211         unallocated_encoding(s);
7212         return;
7213     }
7214
7215     if (!fp_access_check(s)) {
7216         return;
7217     }
7218
7219     handle_fpfpcvt(s, rd, rn, opcode, itof, FPROUNDING_ZERO, scale, sf, type);
7220 }
7221
7222 static void handle_fmov(DisasContext *s, int rd, int rn, int type, bool itof)
7223 {
7224     /* FMOV: gpr to or from float, double, or top half of quad fp reg,
7225      * without conversion.
7226      */
7227
7228     if (itof) {
7229         TCGv_i64 tcg_rn = cpu_reg(s, rn);
7230         TCGv_i64 tmp;
7231
7232         switch (type) {
7233         case 0:
7234             /* 32 bit */
7235             tmp = tcg_temp_new_i64();
7236             tcg_gen_ext32u_i64(tmp, tcg_rn);
7237             write_fp_dreg(s, rd, tmp);
7238             tcg_temp_free_i64(tmp);
7239             break;
7240         case 1:
7241             /* 64 bit */
7242             write_fp_dreg(s, rd, tcg_rn);
7243             break;
7244         case 2:
7245             /* 64 bit to top half. */
7246             tcg_gen_st_i64(tcg_rn, cpu_env, fp_reg_hi_offset(s, rd));
7247             clear_vec_high(s, true, rd);
7248             break;
7249         case 3:
7250             /* 16 bit */
7251             tmp = tcg_temp_new_i64();
7252             tcg_gen_ext16u_i64(tmp, tcg_rn);
7253             write_fp_dreg(s, rd, tmp);
7254             tcg_temp_free_i64(tmp);
7255             break;
7256         default:
7257             g_assert_not_reached();
7258         }
7259     } else {
7260         TCGv_i64 tcg_rd = cpu_reg(s, rd);
7261
7262         switch (type) {
7263         case 0:
7264             /* 32 bit */
7265             tcg_gen_ld32u_i64(tcg_rd, cpu_env, fp_reg_offset(s, rn, MO_32));
7266             break;
7267         case 1:
7268             /* 64 bit */
7269             tcg_gen_ld_i64(tcg_rd, cpu_env, fp_reg_offset(s, rn, MO_64));
7270             break;
7271         case 2:
7272             /* 64 bits from top half */
7273             tcg_gen_ld_i64(tcg_rd, cpu_env, fp_reg_hi_offset(s, rn));
7274             break;
7275         case 3:
7276             /* 16 bit */
7277             tcg_gen_ld16u_i64(tcg_rd, cpu_env, fp_reg_offset(s, rn, MO_16));
7278             break;
7279         default:
7280             g_assert_not_reached();
7281         }
7282     }
7283 }
7284
7285 static void handle_fjcvtzs(DisasContext *s, int rd, int rn)
7286 {
7287     TCGv_i64 t = read_fp_dreg(s, rn);
7288     TCGv_ptr fpstatus = fpstatus_ptr(FPST_FPCR);
7289
7290     gen_helper_fjcvtzs(t, t, fpstatus);
7291
7292     tcg_temp_free_ptr(fpstatus);
7293
7294     tcg_gen_ext32u_i64(cpu_reg(s, rd), t);
7295     tcg_gen_extrh_i64_i32(cpu_ZF, t);
7296     tcg_gen_movi_i32(cpu_CF, 0);
7297     tcg_gen_movi_i32(cpu_NF, 0);
7298     tcg_gen_movi_i32(cpu_VF, 0);
7299
7300     tcg_temp_free_i64(t);
7301 }
7302
7303 /* Floating point <-> integer conversions
7304  *   31   30  29 28       24 23  22  21 20   19 18 16 15         10 9  5 4  0
7305  * +----+---+---+-----------+------+---+-------+-----+-------------+----+----+
7306  * | sf | 0 | S | 1 1 1 1 0 | type | 1 | rmode | opc | 0 0 0 0 0 0 | Rn | Rd |
7307  * +----+---+---+-----------+------+---+-------+-----+-------------+----+----+
7308  */
7309 static void disas_fp_int_conv(DisasContext *s, uint32_t insn)
7310 {
7311     int rd = extract32(insn, 0, 5);
7312     int rn = extract32(insn, 5, 5);
7313     int opcode = extract32(insn, 16, 3);
7314     int rmode = extract32(insn, 19, 2);
7315     int type = extract32(insn, 22, 2);
7316     bool sbit = extract32(insn, 29, 1);
7317     bool sf = extract32(insn, 31, 1);
7318     bool itof = false;
7319
7320     if (sbit) {
7321         goto do_unallocated;
7322     }
7323
7324     switch (opcode) {
7325     case 2: /* SCVTF */
7326     case 3: /* UCVTF */
7327         itof = true;
7328         /* fallthru */
7329     case 4: /* FCVTAS */
7330     case 5: /* FCVTAU */
7331         if (rmode != 0) {
7332             goto do_unallocated;
7333         }
7334         /* fallthru */
7335     case 0: /* FCVT[NPMZ]S */
7336     case 1: /* FCVT[NPMZ]U */
7337         switch (type) {
7338         case 0: /* float32 */
7339         case 1: /* float64 */
7340             break;
7341         case 3: /* float16 */
7342             if (!dc_isar_feature(aa64_fp16, s)) {
7343                 goto do_unallocated;
7344             }
7345             break;
7346         default:
7347             goto do_unallocated;
7348         }
7349         if (!fp_access_check(s)) {
7350             return;
7351         }
7352         handle_fpfpcvt(s, rd, rn, opcode, itof, rmode, 64, sf, type);
7353         break;
7354
7355     default:
7356         switch (sf << 7 | type << 5 | rmode << 3 | opcode) {
7357         case 0b01100110: /* FMOV half <-> 32-bit int */
7358         case 0b01100111:
7359         case 0b11100110: /* FMOV half <-> 64-bit int */
7360         case 0b11100111:
7361             if (!dc_isar_feature(aa64_fp16, s)) {
7362                 goto do_unallocated;
7363             }
7364             /* fallthru */
7365         case 0b00000110: /* FMOV 32-bit */
7366         case 0b00000111:
7367         case 0b10100110: /* FMOV 64-bit */
7368         case 0b10100111:
7369         case 0b11001110: /* FMOV top half of 128-bit */
7370         case 0b11001111:
7371             if (!fp_access_check(s)) {
7372                 return;
7373             }
7374             itof = opcode & 1;
7375             handle_fmov(s, rd, rn, type, itof);
7376             break;
7377
7378         case 0b00111110: /* FJCVTZS */
7379             if (!dc_isar_feature(aa64_jscvt, s)) {
7380                 goto do_unallocated;
7381             } else if (fp_access_check(s)) {
7382                 handle_fjcvtzs(s, rd, rn);
7383             }
7384             break;
7385
7386         default:
7387         do_unallocated:
7388             unallocated_encoding(s);
7389             return;
7390         }
7391         break;
7392     }
7393 }
7394
7395 /* FP-specific subcases of table C3-6 (SIMD and FP data processing)
7396  *   31  30  29 28     25 24                          0
7397  * +---+---+---+---------+-----------------------------+
7398  * |   | 0 |   | 1 1 1 1 |                             |
7399  * +---+---+---+---------+-----------------------------+
7400  */
7401 static void disas_data_proc_fp(DisasContext *s, uint32_t insn)
7402 {
7403     if (extract32(insn, 24, 1)) {
7404         /* Floating point data-processing (3 source) */
7405         disas_fp_3src(s, insn);
7406     } else if (extract32(insn, 21, 1) == 0) {
7407         /* Floating point to fixed point conversions */
7408         disas_fp_fixed_conv(s, insn);
7409     } else {
7410         switch (extract32(insn, 10, 2)) {
7411         case 1:
7412             /* Floating point conditional compare */
7413             disas_fp_ccomp(s, insn);
7414             break;
7415         case 2:
7416             /* Floating point data-processing (2 source) */
7417             disas_fp_2src(s, insn);
7418             break;
7419         case 3:
7420             /* Floating point conditional select */
7421             disas_fp_csel(s, insn);
7422             break;
7423         case 0:
7424             switch (ctz32(extract32(insn, 12, 4))) {
7425             case 0: /* [15:12] == xxx1 */
7426                 /* Floating point immediate */
7427                 disas_fp_imm(s, insn);
7428                 break;
7429             case 1: /* [15:12] == xx10 */
7430                 /* Floating point compare */
7431                 disas_fp_compare(s, insn);
7432                 break;
7433             case 2: /* [15:12] == x100 */
7434                 /* Floating point data-processing (1 source) */
7435                 disas_fp_1src(s, insn);
7436                 break;
7437             case 3: /* [15:12] == 1000 */
7438                 unallocated_encoding(s);
7439                 break;
7440             default: /* [15:12] == 0000 */
7441                 /* Floating point <-> integer conversions */
7442                 disas_fp_int_conv(s, insn);
7443                 break;
7444             }
7445             break;
7446         }
7447     }
7448 }
7449
7450 static void do_ext64(DisasContext *s, TCGv_i64 tcg_left, TCGv_i64 tcg_right,
7451                      int pos)
7452 {
7453     /* Extract 64 bits from the middle of two concatenated 64 bit
7454      * vector register slices left:right. The extracted bits start
7455      * at 'pos' bits into the right (least significant) side.
7456      * We return the result in tcg_right, and guarantee not to
7457      * trash tcg_left.
7458      */
7459     TCGv_i64 tcg_tmp = tcg_temp_new_i64();
7460     assert(pos > 0 && pos < 64);
7461
7462     tcg_gen_shri_i64(tcg_right, tcg_right, pos);
7463     tcg_gen_shli_i64(tcg_tmp, tcg_left, 64 - pos);
7464     tcg_gen_or_i64(tcg_right, tcg_right, tcg_tmp);
7465
7466     tcg_temp_free_i64(tcg_tmp);
7467 }
7468
7469 /* EXT
7470  *   31  30 29         24 23 22  21 20  16 15  14  11 10  9    5 4    0
7471  * +---+---+-------------+-----+---+------+---+------+---+------+------+
7472  * | 0 | Q | 1 0 1 1 1 0 | op2 | 0 |  Rm  | 0 | imm4 | 0 |  Rn  |  Rd  |
7473  * +---+---+-------------+-----+---+------+---+------+---+------+------+
7474  */
7475 static void disas_simd_ext(DisasContext *s, uint32_t insn)
7476 {
7477     int is_q = extract32(insn, 30, 1);
7478     int op2 = extract32(insn, 22, 2);
7479     int imm4 = extract32(insn, 11, 4);
7480     int rm = extract32(insn, 16, 5);
7481     int rn = extract32(insn, 5, 5);
7482     int rd = extract32(insn, 0, 5);
7483     int pos = imm4 << 3;
7484     TCGv_i64 tcg_resl, tcg_resh;
7485
7486     if (op2 != 0 || (!is_q && extract32(imm4, 3, 1))) {
7487         unallocated_encoding(s);
7488         return;
7489     }
7490
7491     if (!fp_access_check(s)) {
7492         return;
7493     }
7494
7495     tcg_resh = tcg_temp_new_i64();
7496     tcg_resl = tcg_temp_new_i64();
7497
7498     /* Vd gets bits starting at pos bits into Vm:Vn. This is
7499      * either extracting 128 bits from a 128:128 concatenation, or
7500      * extracting 64 bits from a 64:64 concatenation.
7501      */
7502     if (!is_q) {
7503         read_vec_element(s, tcg_resl, rn, 0, MO_64);
7504         if (pos != 0) {
7505             read_vec_element(s, tcg_resh, rm, 0, MO_64);
7506             do_ext64(s, tcg_resh, tcg_resl, pos);
7507         }
7508     } else {
7509         TCGv_i64 tcg_hh;
7510         typedef struct {
7511             int reg;
7512             int elt;
7513         } EltPosns;
7514         EltPosns eltposns[] = { {rn, 0}, {rn, 1}, {rm, 0}, {rm, 1} };
7515         EltPosns *elt = eltposns;
7516
7517         if (pos >= 64) {
7518             elt++;
7519             pos -= 64;
7520         }
7521
7522         read_vec_element(s, tcg_resl, elt->reg, elt->elt, MO_64);
7523         elt++;
7524         read_vec_element(s, tcg_resh, elt->reg, elt->elt, MO_64);
7525         elt++;
7526         if (pos != 0) {
7527             do_ext64(s, tcg_resh, tcg_resl, pos);
7528             tcg_hh = tcg_temp_new_i64();
7529             read_vec_element(s, tcg_hh, elt->reg, elt->elt, MO_64);
7530             do_ext64(s, tcg_hh, tcg_resh, pos);
7531             tcg_temp_free_i64(tcg_hh);
7532         }
7533     }
7534
7535     write_vec_element(s, tcg_resl, rd, 0, MO_64);
7536     tcg_temp_free_i64(tcg_resl);
7537     if (is_q) {
7538         write_vec_element(s, tcg_resh, rd, 1, MO_64);
7539     }
7540     tcg_temp_free_i64(tcg_resh);
7541     clear_vec_high(s, is_q, rd);
7542 }
7543
7544 /* TBL/TBX
7545  *   31  30 29         24 23 22  21 20  16 15  14 13  12  11 10 9    5 4    0
7546  * +---+---+-------------+-----+---+------+---+-----+----+-----+------+------+
7547  * | 0 | Q | 0 0 1 1 1 0 | op2 | 0 |  Rm  | 0 | len | op | 0 0 |  Rn  |  Rd  |
7548  * +---+---+-------------+-----+---+------+---+-----+----+-----+------+------+
7549  */
7550 static void disas_simd_tb(DisasContext *s, uint32_t insn)
7551 {
7552     int op2 = extract32(insn, 22, 2);
7553     int is_q = extract32(insn, 30, 1);
7554     int rm = extract32(insn, 16, 5);
7555     int rn = extract32(insn, 5, 5);
7556     int rd = extract32(insn, 0, 5);
7557     int is_tbx = extract32(insn, 12, 1);
7558     int len = (extract32(insn, 13, 2) + 1) * 16;
7559
7560     if (op2 != 0) {
7561         unallocated_encoding(s);
7562         return;
7563     }
7564
7565     if (!fp_access_check(s)) {
7566         return;
7567     }
7568
7569     tcg_gen_gvec_2_ptr(vec_full_reg_offset(s, rd),
7570                        vec_full_reg_offset(s, rm), cpu_env,
7571                        is_q ? 16 : 8, vec_full_reg_size(s),
7572                        (len << 6) | (is_tbx << 5) | rn,
7573                        gen_helper_simd_tblx);
7574 }
7575
7576 /* ZIP/UZP/TRN
7577  *   31  30 29         24 23  22  21 20   16 15 14 12 11 10 9    5 4    0
7578  * +---+---+-------------+------+---+------+---+------------------+------+
7579  * | 0 | Q | 0 0 1 1 1 0 | size | 0 |  Rm  | 0 | opc | 1 0 |  Rn  |  Rd  |
7580  * +---+---+-------------+------+---+------+---+------------------+------+
7581  */
7582 static void disas_simd_zip_trn(DisasContext *s, uint32_t insn)
7583 {
7584     int rd = extract32(insn, 0, 5);
7585     int rn = extract32(insn, 5, 5);
7586     int rm = extract32(insn, 16, 5);
7587     int size = extract32(insn, 22, 2);
7588     /* opc field bits [1:0] indicate ZIP/UZP/TRN;
7589      * bit 2 indicates 1 vs 2 variant of the insn.
7590      */
7591     int opcode = extract32(insn, 12, 2);
7592     bool part = extract32(insn, 14, 1);
7593     bool is_q = extract32(insn, 30, 1);
7594     int esize = 8 << size;
7595     int i, ofs;
7596     int datasize = is_q ? 128 : 64;
7597     int elements = datasize / esize;
7598     TCGv_i64 tcg_res, tcg_resl, tcg_resh;
7599
7600     if (opcode == 0 || (size == 3 && !is_q)) {
7601         unallocated_encoding(s);
7602         return;
7603     }
7604
7605     if (!fp_access_check(s)) {
7606         return;
7607     }
7608
7609     tcg_resl = tcg_const_i64(0);
7610     tcg_resh = is_q ? tcg_const_i64(0) : NULL;
7611     tcg_res = tcg_temp_new_i64();
7612
7613     for (i = 0; i < elements; i++) {
7614         switch (opcode) {
7615         case 1: /* UZP1/2 */
7616         {
7617             int midpoint = elements / 2;
7618             if (i < midpoint) {
7619                 read_vec_element(s, tcg_res, rn, 2 * i + part, size);
7620             } else {
7621                 read_vec_element(s, tcg_res, rm,
7622                                  2 * (i - midpoint) + part, size);
7623             }
7624             break;
7625         }
7626         case 2: /* TRN1/2 */
7627             if (i & 1) {
7628                 read_vec_element(s, tcg_res, rm, (i & ~1) + part, size);
7629             } else {
7630                 read_vec_element(s, tcg_res, rn, (i & ~1) + part, size);
7631             }
7632             break;
7633         case 3: /* ZIP1/2 */
7634         {
7635             int base = part * elements / 2;
7636             if (i & 1) {
7637                 read_vec_element(s, tcg_res, rm, base + (i >> 1), size);
7638             } else {
7639                 read_vec_element(s, tcg_res, rn, base + (i >> 1), size);
7640             }
7641             break;
7642         }
7643         default:
7644             g_assert_not_reached();
7645         }
7646
7647         ofs = i * esize;
7648         if (ofs < 64) {
7649             tcg_gen_shli_i64(tcg_res, tcg_res, ofs);
7650             tcg_gen_or_i64(tcg_resl, tcg_resl, tcg_res);
7651         } else {
7652             tcg_gen_shli_i64(tcg_res, tcg_res, ofs - 64);
7653             tcg_gen_or_i64(tcg_resh, tcg_resh, tcg_res);
7654         }
7655     }
7656
7657     tcg_temp_free_i64(tcg_res);
7658
7659     write_vec_element(s, tcg_resl, rd, 0, MO_64);
7660     tcg_temp_free_i64(tcg_resl);
7661
7662     if (is_q) {
7663         write_vec_element(s, tcg_resh, rd, 1, MO_64);
7664         tcg_temp_free_i64(tcg_resh);
7665     }
7666     clear_vec_high(s, is_q, rd);
7667 }
7668
7669 /*
7670  * do_reduction_op helper
7671  *
7672  * This mirrors the Reduce() pseudocode in the ARM ARM. It is
7673  * important for correct NaN propagation that we do these
7674  * operations in exactly the order specified by the pseudocode.
7675  *
7676  * This is a recursive function, TCG temps should be freed by the
7677  * calling function once it is done with the values.
7678  */
7679 static TCGv_i32 do_reduction_op(DisasContext *s, int fpopcode, int rn,
7680                                 int esize, int size, int vmap, TCGv_ptr fpst)
7681 {
7682     if (esize == size) {
7683         int element;
7684         MemOp msize = esize == 16 ? MO_16 : MO_32;
7685         TCGv_i32 tcg_elem;
7686
7687         /* We should have one register left here */
7688         assert(ctpop8(vmap) == 1);
7689         element = ctz32(vmap);
7690         assert(element < 8);
7691
7692         tcg_elem = tcg_temp_new_i32();
7693         read_vec_element_i32(s, tcg_elem, rn, element, msize);
7694         return tcg_elem;
7695     } else {
7696         int bits = size / 2;
7697         int shift = ctpop8(vmap) / 2;
7698         int vmap_lo = (vmap >> shift) & vmap;
7699         int vmap_hi = (vmap & ~vmap_lo);
7700         TCGv_i32 tcg_hi, tcg_lo, tcg_res;
7701
7702         tcg_hi = do_reduction_op(s, fpopcode, rn, esize, bits, vmap_hi, fpst);
7703         tcg_lo = do_reduction_op(s, fpopcode, rn, esize, bits, vmap_lo, fpst);
7704         tcg_res = tcg_temp_new_i32();
7705
7706         switch (fpopcode) {
7707         case 0x0c: /* fmaxnmv half-precision */
7708             gen_helper_advsimd_maxnumh(tcg_res, tcg_lo, tcg_hi, fpst);
7709             break;
7710         case 0x0f: /* fmaxv half-precision */
7711             gen_helper_advsimd_maxh(tcg_res, tcg_lo, tcg_hi, fpst);
7712             break;
7713         case 0x1c: /* fminnmv half-precision */
7714             gen_helper_advsimd_minnumh(tcg_res, tcg_lo, tcg_hi, fpst);
7715             break;
7716         case 0x1f: /* fminv half-precision */
7717             gen_helper_advsimd_minh(tcg_res, tcg_lo, tcg_hi, fpst);
7718             break;
7719         case 0x2c: /* fmaxnmv */
7720             gen_helper_vfp_maxnums(tcg_res, tcg_lo, tcg_hi, fpst);
7721             break;
7722         case 0x2f: /* fmaxv */
7723             gen_helper_vfp_maxs(tcg_res, tcg_lo, tcg_hi, fpst);
7724             break;
7725         case 0x3c: /* fminnmv */
7726             gen_helper_vfp_minnums(tcg_res, tcg_lo, tcg_hi, fpst);
7727             break;
7728         case 0x3f: /* fminv */
7729             gen_helper_vfp_mins(tcg_res, tcg_lo, tcg_hi, fpst);
7730             break;
7731         default:
7732             g_assert_not_reached();
7733         }
7734
7735         tcg_temp_free_i32(tcg_hi);
7736         tcg_temp_free_i32(tcg_lo);
7737         return tcg_res;
7738     }
7739 }
7740
7741 /* AdvSIMD across lanes
7742  *   31  30  29 28       24 23  22 21       17 16    12 11 10 9    5 4    0
7743  * +---+---+---+-----------+------+-----------+--------+-----+------+------+
7744  * | 0 | Q | U | 0 1 1 1 0 | size | 1 1 0 0 0 | opcode | 1 0 |  Rn  |  Rd  |
7745  * +---+---+---+-----------+------+-----------+--------+-----+------+------+
7746  */
7747 static void disas_simd_across_lanes(DisasContext *s, uint32_t insn)
7748 {
7749     int rd = extract32(insn, 0, 5);
7750     int rn = extract32(insn, 5, 5);
7751     int size = extract32(insn, 22, 2);
7752     int opcode = extract32(insn, 12, 5);
7753     bool is_q = extract32(insn, 30, 1);
7754     bool is_u = extract32(insn, 29, 1);
7755     bool is_fp = false;
7756     bool is_min = false;
7757     int esize;
7758     int elements;
7759     int i;
7760     TCGv_i64 tcg_res, tcg_elt;
7761
7762     switch (opcode) {
7763     case 0x1b: /* ADDV */
7764         if (is_u) {
7765             unallocated_encoding(s);
7766             return;
7767         }
7768         /* fall through */
7769     case 0x3: /* SADDLV, UADDLV */
7770     case 0xa: /* SMAXV, UMAXV */
7771     case 0x1a: /* SMINV, UMINV */
7772         if (size == 3 || (size == 2 && !is_q)) {
7773             unallocated_encoding(s);
7774             return;
7775         }
7776         break;
7777     case 0xc: /* FMAXNMV, FMINNMV */
7778     case 0xf: /* FMAXV, FMINV */
7779         /* Bit 1 of size field encodes min vs max and the actual size
7780          * depends on the encoding of the U bit. If not set (and FP16
7781          * enabled) then we do half-precision float instead of single
7782          * precision.
7783          */
7784         is_min = extract32(size, 1, 1);
7785         is_fp = true;
7786         if (!is_u && dc_isar_feature(aa64_fp16, s)) {
7787             size = 1;
7788         } else if (!is_u || !is_q || extract32(size, 0, 1)) {
7789             unallocated_encoding(s);
7790             return;
7791         } else {
7792             size = 2;
7793         }
7794         break;
7795     default:
7796         unallocated_encoding(s);
7797         return;
7798     }
7799
7800     if (!fp_access_check(s)) {
7801         return;
7802     }
7803
7804     esize = 8 << size;
7805     elements = (is_q ? 128 : 64) / esize;
7806
7807     tcg_res = tcg_temp_new_i64();
7808     tcg_elt = tcg_temp_new_i64();
7809
7810     /* These instructions operate across all lanes of a vector
7811      * to produce a single result. We can guarantee that a 64
7812      * bit intermediate is sufficient:
7813      *  + for [US]ADDLV the maximum element size is 32 bits, and
7814      *    the result type is 64 bits
7815      *  + for FMAX*V, FMIN*V, ADDV the intermediate type is the
7816      *    same as the element size, which is 32 bits at most
7817      * For the integer operations we can choose to work at 64
7818      * or 32 bits and truncate at the end; for simplicity
7819      * we use 64 bits always. The floating point
7820      * ops do require 32 bit intermediates, though.
7821      */
7822     if (!is_fp) {
7823         read_vec_element(s, tcg_res, rn, 0, size | (is_u ? 0 : MO_SIGN));
7824
7825         for (i = 1; i < elements; i++) {
7826             read_vec_element(s, tcg_elt, rn, i, size | (is_u ? 0 : MO_SIGN));
7827
7828             switch (opcode) {
7829             case 0x03: /* SADDLV / UADDLV */
7830             case 0x1b: /* ADDV */
7831                 tcg_gen_add_i64(tcg_res, tcg_res, tcg_elt);
7832                 break;
7833             case 0x0a: /* SMAXV / UMAXV */
7834                 if (is_u) {
7835                     tcg_gen_umax_i64(tcg_res, tcg_res, tcg_elt);
7836                 } else {
7837                     tcg_gen_smax_i64(tcg_res, tcg_res, tcg_elt);
7838                 }
7839                 break;
7840             case 0x1a: /* SMINV / UMINV */
7841                 if (is_u) {
7842                     tcg_gen_umin_i64(tcg_res, tcg_res, tcg_elt);
7843                 } else {
7844                     tcg_gen_smin_i64(tcg_res, tcg_res, tcg_elt);
7845                 }
7846                 break;
7847             default:
7848                 g_assert_not_reached();
7849             }
7850
7851         }
7852     } else {
7853         /* Floating point vector reduction ops which work across 32
7854          * bit (single) or 16 bit (half-precision) intermediates.
7855          * Note that correct NaN propagation requires that we do these
7856          * operations in exactly the order specified by the pseudocode.
7857          */
7858         TCGv_ptr fpst = fpstatus_ptr(size == MO_16 ? FPST_FPCR_F16 : FPST_FPCR);
7859         int fpopcode = opcode | is_min << 4 | is_u << 5;
7860         int vmap = (1 << elements) - 1;
7861         TCGv_i32 tcg_res32 = do_reduction_op(s, fpopcode, rn, esize,
7862                                              (is_q ? 128 : 64), vmap, fpst);
7863         tcg_gen_extu_i32_i64(tcg_res, tcg_res32);
7864         tcg_temp_free_i32(tcg_res32);
7865         tcg_temp_free_ptr(fpst);
7866     }
7867
7868     tcg_temp_free_i64(tcg_elt);
7869
7870     /* Now truncate the result to the width required for the final output */
7871     if (opcode == 0x03) {
7872         /* SADDLV, UADDLV: result is 2*esize */
7873         size++;
7874     }
7875
7876     switch (size) {
7877     case 0:
7878         tcg_gen_ext8u_i64(tcg_res, tcg_res);
7879         break;
7880     case 1:
7881         tcg_gen_ext16u_i64(tcg_res, tcg_res);
7882         break;
7883     case 2:
7884         tcg_gen_ext32u_i64(tcg_res, tcg_res);
7885         break;
7886     case 3:
7887         break;
7888     default:
7889         g_assert_not_reached();
7890     }
7891
7892     write_fp_dreg(s, rd, tcg_res);
7893     tcg_temp_free_i64(tcg_res);
7894 }
7895
7896 /* DUP (Element, Vector)
7897  *
7898  *  31  30   29              21 20    16 15        10  9    5 4    0
7899  * +---+---+-------------------+--------+-------------+------+------+
7900  * | 0 | Q | 0 0 1 1 1 0 0 0 0 |  imm5  | 0 0 0 0 0 1 |  Rn  |  Rd  |
7901  * +---+---+-------------------+--------+-------------+------+------+
7902  *
7903  * size: encoded in imm5 (see ARM ARM LowestSetBit())
7904  */
7905 static void handle_simd_dupe(DisasContext *s, int is_q, int rd, int rn,
7906                              int imm5)
7907 {
7908     int size = ctz32(imm5);
7909     int index;
7910
7911     if (size > 3 || (size == 3 && !is_q)) {
7912         unallocated_encoding(s);
7913         return;
7914     }
7915
7916     if (!fp_access_check(s)) {
7917         return;
7918     }
7919
7920     index = imm5 >> (size + 1);
7921     tcg_gen_gvec_dup_mem(size, vec_full_reg_offset(s, rd),
7922                          vec_reg_offset(s, rn, index, size),
7923                          is_q ? 16 : 8, vec_full_reg_size(s));
7924 }
7925
7926 /* DUP (element, scalar)
7927  *  31                   21 20    16 15        10  9    5 4    0
7928  * +-----------------------+--------+-------------+------+------+
7929  * | 0 1 0 1 1 1 1 0 0 0 0 |  imm5  | 0 0 0 0 0 1 |  Rn  |  Rd  |
7930  * +-----------------------+--------+-------------+------+------+
7931  */
7932 static void handle_simd_dupes(DisasContext *s, int rd, int rn,
7933                               int imm5)
7934 {
7935     int size = ctz32(imm5);
7936     int index;
7937     TCGv_i64 tmp;
7938
7939     if (size > 3) {
7940         unallocated_encoding(s);
7941         return;
7942     }
7943
7944     if (!fp_access_check(s)) {
7945         return;
7946     }
7947
7948     index = imm5 >> (size + 1);
7949
7950     /* This instruction just extracts the specified element and
7951      * zero-extends it into the bottom of the destination register.
7952      */
7953     tmp = tcg_temp_new_i64();
7954     read_vec_element(s, tmp, rn, index, size);
7955     write_fp_dreg(s, rd, tmp);
7956     tcg_temp_free_i64(tmp);
7957 }
7958
7959 /* DUP (General)
7960  *
7961  *  31  30   29              21 20    16 15        10  9    5 4    0
7962  * +---+---+-------------------+--------+-------------+------+------+
7963  * | 0 | Q | 0 0 1 1 1 0 0 0 0 |  imm5  | 0 0 0 0 1 1 |  Rn  |  Rd  |
7964  * +---+---+-------------------+--------+-------------+------+------+
7965  *
7966  * size: encoded in imm5 (see ARM ARM LowestSetBit())
7967  */
7968 static void handle_simd_dupg(DisasContext *s, int is_q, int rd, int rn,
7969                              int imm5)
7970 {
7971     int size = ctz32(imm5);
7972     uint32_t dofs, oprsz, maxsz;
7973
7974     if (size > 3 || ((size == 3) && !is_q)) {
7975         unallocated_encoding(s);
7976         return;
7977     }
7978
7979     if (!fp_access_check(s)) {
7980         return;
7981     }
7982
7983     dofs = vec_full_reg_offset(s, rd);
7984     oprsz = is_q ? 16 : 8;
7985     maxsz = vec_full_reg_size(s);
7986
7987     tcg_gen_gvec_dup_i64(size, dofs, oprsz, maxsz, cpu_reg(s, rn));
7988 }
7989
7990 /* INS (Element)
7991  *
7992  *  31                   21 20    16 15  14    11  10 9    5 4    0
7993  * +-----------------------+--------+------------+---+------+------+
7994  * | 0 1 1 0 1 1 1 0 0 0 0 |  imm5  | 0 |  imm4  | 1 |  Rn  |  Rd  |
7995  * +-----------------------+--------+------------+---+------+------+
7996  *
7997  * size: encoded in imm5 (see ARM ARM LowestSetBit())
7998  * index: encoded in imm5<4:size+1>
7999  */
8000 static void handle_simd_inse(DisasContext *s, int rd, int rn,
8001                              int imm4, int imm5)
8002 {
8003     int size = ctz32(imm5);
8004     int src_index, dst_index;
8005     TCGv_i64 tmp;
8006
8007     if (size > 3) {
8008         unallocated_encoding(s);
8009         return;
8010     }
8011
8012     if (!fp_access_check(s)) {
8013         return;
8014     }
8015
8016     dst_index = extract32(imm5, 1+size, 5);
8017     src_index = extract32(imm4, size, 4);
8018
8019     tmp = tcg_temp_new_i64();
8020
8021     read_vec_element(s, tmp, rn, src_index, size);
8022     write_vec_element(s, tmp, rd, dst_index, size);
8023
8024     tcg_temp_free_i64(tmp);
8025
8026     /* INS is considered a 128-bit write for SVE. */
8027     clear_vec_high(s, true, rd);
8028 }
8029
8030
8031 /* INS (General)
8032  *
8033  *  31                   21 20    16 15        10  9    5 4    0
8034  * +-----------------------+--------+-------------+------+------+
8035  * | 0 1 0 0 1 1 1 0 0 0 0 |  imm5  | 0 0 0 1 1 1 |  Rn  |  Rd  |
8036  * +-----------------------+--------+-------------+------+------+
8037  *
8038  * size: encoded in imm5 (see ARM ARM LowestSetBit())
8039  * index: encoded in imm5<4:size+1>
8040  */
8041 static void handle_simd_insg(DisasContext *s, int rd, int rn, int imm5)
8042 {
8043     int size = ctz32(imm5);
8044     int idx;
8045
8046     if (size > 3) {
8047         unallocated_encoding(s);
8048         return;
8049     }
8050
8051     if (!fp_access_check(s)) {
8052         return;
8053     }
8054
8055     idx = extract32(imm5, 1 + size, 4 - size);
8056     write_vec_element(s, cpu_reg(s, rn), rd, idx, size);
8057
8058     /* INS is considered a 128-bit write for SVE. */
8059     clear_vec_high(s, true, rd);
8060 }
8061
8062 /*
8063  * UMOV (General)
8064  * SMOV (General)
8065  *
8066  *  31  30   29              21 20    16 15    12   10 9    5 4    0
8067  * +---+---+-------------------+--------+-------------+------+------+
8068  * | 0 | Q | 0 0 1 1 1 0 0 0 0 |  imm5  | 0 0 1 U 1 1 |  Rn  |  Rd  |
8069  * +---+---+-------------------+--------+-------------+------+------+
8070  *
8071  * U: unsigned when set
8072  * size: encoded in imm5 (see ARM ARM LowestSetBit())
8073  */
8074 static void handle_simd_umov_smov(DisasContext *s, int is_q, int is_signed,
8075                                   int rn, int rd, int imm5)
8076 {
8077     int size = ctz32(imm5);
8078     int element;
8079     TCGv_i64 tcg_rd;
8080
8081     /* Check for UnallocatedEncodings */
8082     if (is_signed) {
8083         if (size > 2 || (size == 2 && !is_q)) {
8084             unallocated_encoding(s);
8085             return;
8086         }
8087     } else {
8088         if (size > 3
8089             || (size < 3 && is_q)
8090             || (size == 3 && !is_q)) {
8091             unallocated_encoding(s);
8092             return;
8093         }
8094     }
8095
8096     if (!fp_access_check(s)) {
8097         return;
8098     }
8099
8100     element = extract32(imm5, 1+size, 4);
8101
8102     tcg_rd = cpu_reg(s, rd);
8103     read_vec_element(s, tcg_rd, rn, element, size | (is_signed ? MO_SIGN : 0));
8104     if (is_signed && !is_q) {
8105         tcg_gen_ext32u_i64(tcg_rd, tcg_rd);
8106     }
8107 }
8108
8109 /* AdvSIMD copy
8110  *   31  30  29  28             21 20  16 15  14  11 10  9    5 4    0
8111  * +---+---+----+-----------------+------+---+------+---+------+------+
8112  * | 0 | Q | op | 0 1 1 1 0 0 0 0 | imm5 | 0 | imm4 | 1 |  Rn  |  Rd  |
8113  * +---+---+----+-----------------+------+---+------+---+------+------+
8114  */
8115 static void disas_simd_copy(DisasContext *s, uint32_t insn)
8116 {
8117     int rd = extract32(insn, 0, 5);
8118     int rn = extract32(insn, 5, 5);
8119     int imm4 = extract32(insn, 11, 4);
8120     int op = extract32(insn, 29, 1);
8121     int is_q = extract32(insn, 30, 1);
8122     int imm5 = extract32(insn, 16, 5);
8123
8124     if (op) {
8125         if (is_q) {
8126             /* INS (element) */
8127             handle_simd_inse(s, rd, rn, imm4, imm5);
8128         } else {
8129             unallocated_encoding(s);
8130         }
8131     } else {
8132         switch (imm4) {
8133         case 0:
8134             /* DUP (element - vector) */
8135             handle_simd_dupe(s, is_q, rd, rn, imm5);
8136             break;
8137         case 1:
8138             /* DUP (general) */
8139             handle_simd_dupg(s, is_q, rd, rn, imm5);
8140             break;
8141         case 3:
8142             if (is_q) {
8143                 /* INS (general) */
8144                 handle_simd_insg(s, rd, rn, imm5);
8145             } else {
8146                 unallocated_encoding(s);
8147             }
8148             break;
8149         case 5:
8150         case 7:
8151             /* UMOV/SMOV (is_q indicates 32/64; imm4 indicates signedness) */
8152             handle_simd_umov_smov(s, is_q, (imm4 == 5), rn, rd, imm5);
8153             break;
8154         default:
8155             unallocated_encoding(s);
8156             break;
8157         }
8158     }
8159 }
8160
8161 /* AdvSIMD modified immediate
8162  *  31  30   29  28                 19 18 16 15   12  11  10  9     5 4    0
8163  * +---+---+----+---------------------+-----+-------+----+---+-------+------+
8164  * | 0 | Q | op | 0 1 1 1 1 0 0 0 0 0 | abc | cmode | o2 | 1 | defgh |  Rd  |
8165  * +---+---+----+---------------------+-----+-------+----+---+-------+------+
8166  *
8167  * There are a number of operations that can be carried out here:
8168  *   MOVI - move (shifted) imm into register
8169  *   MVNI - move inverted (shifted) imm into register
8170  *   ORR  - bitwise OR of (shifted) imm with register
8171  *   BIC  - bitwise clear of (shifted) imm with register
8172  * With ARMv8.2 we also have:
8173  *   FMOV half-precision
8174  */
8175 static void disas_simd_mod_imm(DisasContext *s, uint32_t insn)
8176 {
8177     int rd = extract32(insn, 0, 5);
8178     int cmode = extract32(insn, 12, 4);
8179     int cmode_3_1 = extract32(cmode, 1, 3);
8180     int cmode_0 = extract32(cmode, 0, 1);
8181     int o2 = extract32(insn, 11, 1);
8182     uint64_t abcdefgh = extract32(insn, 5, 5) | (extract32(insn, 16, 3) << 5);
8183     bool is_neg = extract32(insn, 29, 1);
8184     bool is_q = extract32(insn, 30, 1);
8185     uint64_t imm = 0;
8186
8187     if (o2 != 0 || ((cmode == 0xf) && is_neg && !is_q)) {
8188         /* Check for FMOV (vector, immediate) - half-precision */
8189         if (!(dc_isar_feature(aa64_fp16, s) && o2 && cmode == 0xf)) {
8190             unallocated_encoding(s);
8191             return;
8192         }
8193     }
8194
8195     if (!fp_access_check(s)) {
8196         return;
8197     }
8198
8199     /* See AdvSIMDExpandImm() in ARM ARM */
8200     switch (cmode_3_1) {
8201     case 0: /* Replicate(Zeros(24):imm8, 2) */
8202     case 1: /* Replicate(Zeros(16):imm8:Zeros(8), 2) */
8203     case 2: /* Replicate(Zeros(8):imm8:Zeros(16), 2) */
8204     case 3: /* Replicate(imm8:Zeros(24), 2) */
8205     {
8206         int shift = cmode_3_1 * 8;
8207         imm = bitfield_replicate(abcdefgh << shift, 32);
8208         break;
8209     }
8210     case 4: /* Replicate(Zeros(8):imm8, 4) */
8211     case 5: /* Replicate(imm8:Zeros(8), 4) */
8212     {
8213         int shift = (cmode_3_1 & 0x1) * 8;
8214         imm = bitfield_replicate(abcdefgh << shift, 16);
8215         break;
8216     }
8217     case 6:
8218         if (cmode_0) {
8219             /* Replicate(Zeros(8):imm8:Ones(16), 2) */
8220             imm = (abcdefgh << 16) | 0xffff;
8221         } else {
8222             /* Replicate(Zeros(16):imm8:Ones(8), 2) */
8223             imm = (abcdefgh << 8) | 0xff;
8224         }
8225         imm = bitfield_replicate(imm, 32);
8226         break;
8227     case 7:
8228         if (!cmode_0 && !is_neg) {
8229             imm = bitfield_replicate(abcdefgh, 8);
8230         } else if (!cmode_0 && is_neg) {
8231             int i;
8232             imm = 0;
8233             for (i = 0; i < 8; i++) {
8234                 if ((abcdefgh) & (1 << i)) {
8235                     imm |= 0xffULL << (i * 8);
8236                 }
8237             }
8238         } else if (cmode_0) {
8239             if (is_neg) {
8240                 imm = (abcdefgh & 0x3f) << 48;
8241                 if (abcdefgh & 0x80) {
8242                     imm |= 0x8000000000000000ULL;
8243                 }
8244                 if (abcdefgh & 0x40) {
8245                     imm |= 0x3fc0000000000000ULL;
8246                 } else {
8247                     imm |= 0x4000000000000000ULL;
8248                 }
8249             } else {
8250                 if (o2) {
8251                     /* FMOV (vector, immediate) - half-precision */
8252                     imm = vfp_expand_imm(MO_16, abcdefgh);
8253                     /* now duplicate across the lanes */
8254                     imm = bitfield_replicate(imm, 16);
8255                 } else {
8256                     imm = (abcdefgh & 0x3f) << 19;
8257                     if (abcdefgh & 0x80) {
8258                         imm |= 0x80000000;
8259                     }
8260                     if (abcdefgh & 0x40) {
8261                         imm |= 0x3e000000;
8262                     } else {
8263                         imm |= 0x40000000;
8264                     }
8265                     imm |= (imm << 32);
8266                 }
8267             }
8268         }
8269         break;
8270     default:
8271         fprintf(stderr, "%s: cmode_3_1: %x\n", __func__, cmode_3_1);
8272         g_assert_not_reached();
8273     }
8274
8275     if (cmode_3_1 != 7 && is_neg) {
8276         imm = ~imm;
8277     }
8278
8279     if (!((cmode & 0x9) == 0x1 || (cmode & 0xd) == 0x9)) {
8280         /* MOVI or MVNI, with MVNI negation handled above.  */
8281         tcg_gen_gvec_dup_imm(MO_64, vec_full_reg_offset(s, rd), is_q ? 16 : 8,
8282                              vec_full_reg_size(s), imm);
8283     } else {
8284         /* ORR or BIC, with BIC negation to AND handled above.  */
8285         if (is_neg) {
8286             gen_gvec_fn2i(s, is_q, rd, rd, imm, tcg_gen_gvec_andi, MO_64);
8287         } else {
8288             gen_gvec_fn2i(s, is_q, rd, rd, imm, tcg_gen_gvec_ori, MO_64);
8289         }
8290     }
8291 }
8292
8293 /* AdvSIMD scalar copy
8294  *  31 30  29  28             21 20  16 15  14  11 10  9    5 4    0
8295  * +-----+----+-----------------+------+---+------+---+------+------+
8296  * | 0 1 | op | 1 1 1 1 0 0 0 0 | imm5 | 0 | imm4 | 1 |  Rn  |  Rd  |
8297  * +-----+----+-----------------+------+---+------+---+------+------+
8298  */
8299 static void disas_simd_scalar_copy(DisasContext *s, uint32_t insn)
8300 {
8301     int rd = extract32(insn, 0, 5);
8302     int rn = extract32(insn, 5, 5);
8303     int imm4 = extract32(insn, 11, 4);
8304     int imm5 = extract32(insn, 16, 5);
8305     int op = extract32(insn, 29, 1);
8306
8307     if (op != 0 || imm4 != 0) {
8308         unallocated_encoding(s);
8309         return;
8310     }
8311
8312     /* DUP (element, scalar) */
8313     handle_simd_dupes(s, rd, rn, imm5);
8314 }
8315
8316 /* AdvSIMD scalar pairwise
8317  *  31 30  29 28       24 23  22 21       17 16    12 11 10 9    5 4    0
8318  * +-----+---+-----------+------+-----------+--------+-----+------+------+
8319  * | 0 1 | U | 1 1 1 1 0 | size | 1 1 0 0 0 | opcode | 1 0 |  Rn  |  Rd  |
8320  * +-----+---+-----------+------+-----------+--------+-----+------+------+
8321  */
8322 static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
8323 {
8324     int u = extract32(insn, 29, 1);
8325     int size = extract32(insn, 22, 2);
8326     int opcode = extract32(insn, 12, 5);
8327     int rn = extract32(insn, 5, 5);
8328     int rd = extract32(insn, 0, 5);
8329     TCGv_ptr fpst;
8330
8331     /* For some ops (the FP ones), size[1] is part of the encoding.
8332      * For ADDP strictly it is not but size[1] is always 1 for valid
8333      * encodings.
8334      */
8335     opcode |= (extract32(size, 1, 1) << 5);
8336
8337     switch (opcode) {
8338     case 0x3b: /* ADDP */
8339         if (u || size != 3) {
8340             unallocated_encoding(s);
8341             return;
8342         }
8343         if (!fp_access_check(s)) {
8344             return;
8345         }
8346
8347         fpst = NULL;
8348         break;
8349     case 0xc: /* FMAXNMP */
8350     case 0xd: /* FADDP */
8351     case 0xf: /* FMAXP */
8352     case 0x2c: /* FMINNMP */
8353     case 0x2f: /* FMINP */
8354         /* FP op, size[0] is 32 or 64 bit*/
8355         if (!u) {
8356             if (!dc_isar_feature(aa64_fp16, s)) {
8357                 unallocated_encoding(s);
8358                 return;
8359             } else {
8360                 size = MO_16;
8361             }
8362         } else {
8363             size = extract32(size, 0, 1) ? MO_64 : MO_32;
8364         }
8365
8366         if (!fp_access_check(s)) {
8367             return;
8368         }
8369
8370         fpst = fpstatus_ptr(size == MO_16 ? FPST_FPCR_F16 : FPST_FPCR);
8371         break;
8372     default:
8373         unallocated_encoding(s);
8374         return;
8375     }
8376
8377     if (size == MO_64) {
8378         TCGv_i64 tcg_op1 = tcg_temp_new_i64();
8379         TCGv_i64 tcg_op2 = tcg_temp_new_i64();
8380         TCGv_i64 tcg_res = tcg_temp_new_i64();
8381
8382         read_vec_element(s, tcg_op1, rn, 0, MO_64);
8383         read_vec_element(s, tcg_op2, rn, 1, MO_64);
8384
8385         switch (opcode) {
8386         case 0x3b: /* ADDP */
8387             tcg_gen_add_i64(tcg_res, tcg_op1, tcg_op2);
8388             break;
8389         case 0xc: /* FMAXNMP */
8390             gen_helper_vfp_maxnumd(tcg_res, tcg_op1, tcg_op2, fpst);
8391             break;
8392         case 0xd: /* FADDP */
8393             gen_helper_vfp_addd(tcg_res, tcg_op1, tcg_op2, fpst);
8394             break;
8395         case 0xf: /* FMAXP */
8396             gen_helper_vfp_maxd(tcg_res, tcg_op1, tcg_op2, fpst);
8397             break;
8398         case 0x2c: /* FMINNMP */
8399             gen_helper_vfp_minnumd(tcg_res, tcg_op1, tcg_op2, fpst);
8400             break;
8401         case 0x2f: /* FMINP */
8402             gen_helper_vfp_mind(tcg_res, tcg_op1, tcg_op2, fpst);
8403             break;
8404         default:
8405             g_assert_not_reached();
8406         }
8407
8408         write_fp_dreg(s, rd, tcg_res);
8409
8410         tcg_temp_free_i64(tcg_op1);
8411         tcg_temp_free_i64(tcg_op2);
8412         tcg_temp_free_i64(tcg_res);
8413     } else {
8414         TCGv_i32 tcg_op1 = tcg_temp_new_i32();
8415         TCGv_i32 tcg_op2 = tcg_temp_new_i32();
8416         TCGv_i32 tcg_res = tcg_temp_new_i32();
8417
8418         read_vec_element_i32(s, tcg_op1, rn, 0, size);
8419         read_vec_element_i32(s, tcg_op2, rn, 1, size);
8420
8421         if (size == MO_16) {
8422             switch (opcode) {
8423             case 0xc: /* FMAXNMP */
8424                 gen_helper_advsimd_maxnumh(tcg_res, tcg_op1, tcg_op2, fpst);
8425                 break;
8426             case 0xd: /* FADDP */
8427                 gen_helper_advsimd_addh(tcg_res, tcg_op1, tcg_op2, fpst);
8428                 break;
8429             case 0xf: /* FMAXP */
8430                 gen_helper_advsimd_maxh(tcg_res, tcg_op1, tcg_op2, fpst);
8431                 break;
8432             case 0x2c: /* FMINNMP */
8433                 gen_helper_advsimd_minnumh(tcg_res, tcg_op1, tcg_op2, fpst);
8434                 break;
8435             case 0x2f: /* FMINP */
8436                 gen_helper_advsimd_minh(tcg_res, tcg_op1, tcg_op2, fpst);
8437                 break;
8438             default:
8439                 g_assert_not_reached();
8440             }
8441         } else {
8442             switch (opcode) {
8443             case 0xc: /* FMAXNMP */
8444                 gen_helper_vfp_maxnums(tcg_res, tcg_op1, tcg_op2, fpst);
8445                 break;
8446             case 0xd: /* FADDP */
8447                 gen_helper_vfp_adds(tcg_res, tcg_op1, tcg_op2, fpst);
8448                 break;
8449             case 0xf: /* FMAXP */
8450                 gen_helper_vfp_maxs(tcg_res, tcg_op1, tcg_op2, fpst);
8451                 break;
8452             case 0x2c: /* FMINNMP */
8453                 gen_helper_vfp_minnums(tcg_res, tcg_op1, tcg_op2, fpst);
8454                 break;
8455             case 0x2f: /* FMINP */
8456                 gen_helper_vfp_mins(tcg_res, tcg_op1, tcg_op2, fpst);
8457                 break;
8458             default:
8459                 g_assert_not_reached();
8460             }
8461         }
8462
8463         write_fp_sreg(s, rd, tcg_res);
8464
8465         tcg_temp_free_i32(tcg_op1);
8466         tcg_temp_free_i32(tcg_op2);
8467         tcg_temp_free_i32(tcg_res);
8468     }
8469
8470     if (fpst) {
8471         tcg_temp_free_ptr(fpst);
8472     }
8473 }
8474
8475 /*
8476  * Common SSHR[RA]/USHR[RA] - Shift right (optional rounding/accumulate)
8477  *
8478  * This code is handles the common shifting code and is used by both
8479  * the vector and scalar code.
8480  */
8481 static void handle_shri_with_rndacc(TCGv_i64 tcg_res, TCGv_i64 tcg_src,
8482                                     TCGv_i64 tcg_rnd, bool accumulate,
8483                                     bool is_u, int size, int shift)
8484 {
8485     bool extended_result = false;
8486     bool round = tcg_rnd != NULL;
8487     int ext_lshift = 0;
8488     TCGv_i64 tcg_src_hi;
8489
8490     if (round && size == 3) {
8491         extended_result = true;
8492         ext_lshift = 64 - shift;
8493         tcg_src_hi = tcg_temp_new_i64();
8494     } else if (shift == 64) {
8495         if (!accumulate && is_u) {
8496             /* result is zero */
8497             tcg_gen_movi_i64(tcg_res, 0);
8498             return;
8499         }
8500     }
8501
8502     /* Deal with the rounding step */
8503     if (round) {
8504         if (extended_result) {
8505             TCGv_i64 tcg_zero = tcg_const_i64(0);
8506             if (!is_u) {
8507                 /* take care of sign extending tcg_res */
8508                 tcg_gen_sari_i64(tcg_src_hi, tcg_src, 63);
8509                 tcg_gen_add2_i64(tcg_src, tcg_src_hi,
8510                                  tcg_src, tcg_src_hi,
8511                                  tcg_rnd, tcg_zero);
8512             } else {
8513                 tcg_gen_add2_i64(tcg_src, tcg_src_hi,
8514                                  tcg_src, tcg_zero,
8515                                  tcg_rnd, tcg_zero);
8516             }
8517             tcg_temp_free_i64(tcg_zero);
8518         } else {
8519             tcg_gen_add_i64(tcg_src, tcg_src, tcg_rnd);
8520         }
8521     }
8522
8523     /* Now do the shift right */
8524     if (round && extended_result) {
8525         /* extended case, >64 bit precision required */
8526         if (ext_lshift == 0) {
8527             /* special case, only high bits matter */
8528             tcg_gen_mov_i64(tcg_src, tcg_src_hi);
8529         } else {
8530             tcg_gen_shri_i64(tcg_src, tcg_src, shift);
8531             tcg_gen_shli_i64(tcg_src_hi, tcg_src_hi, ext_lshift);
8532             tcg_gen_or_i64(tcg_src, tcg_src, tcg_src_hi);
8533         }
8534     } else {
8535         if (is_u) {
8536             if (shift == 64) {
8537                 /* essentially shifting in 64 zeros */
8538                 tcg_gen_movi_i64(tcg_src, 0);
8539             } else {
8540                 tcg_gen_shri_i64(tcg_src, tcg_src, shift);
8541             }
8542         } else {
8543             if (shift == 64) {
8544                 /* effectively extending the sign-bit */
8545                 tcg_gen_sari_i64(tcg_src, tcg_src, 63);
8546             } else {
8547                 tcg_gen_sari_i64(tcg_src, tcg_src, shift);
8548             }
8549         }
8550     }
8551
8552     if (accumulate) {
8553         tcg_gen_add_i64(tcg_res, tcg_res, tcg_src);
8554     } else {
8555         tcg_gen_mov_i64(tcg_res, tcg_src);
8556     }
8557
8558     if (extended_result) {
8559         tcg_temp_free_i64(tcg_src_hi);
8560     }
8561 }
8562
8563 /* SSHR[RA]/USHR[RA] - Scalar shift right (optional rounding/accumulate) */
8564 static void handle_scalar_simd_shri(DisasContext *s,
8565                                     bool is_u, int immh, int immb,
8566                                     int opcode, int rn, int rd)
8567 {
8568     const int size = 3;
8569     int immhb = immh << 3 | immb;
8570     int shift = 2 * (8 << size) - immhb;
8571     bool accumulate = false;
8572     bool round = false;
8573     bool insert = false;
8574     TCGv_i64 tcg_rn;
8575     TCGv_i64 tcg_rd;
8576     TCGv_i64 tcg_round;
8577
8578     if (!extract32(immh, 3, 1)) {
8579         unallocated_encoding(s);
8580         return;
8581     }
8582
8583     if (!fp_access_check(s)) {
8584         return;
8585     }
8586
8587     switch (opcode) {
8588     case 0x02: /* SSRA / USRA (accumulate) */
8589         accumulate = true;
8590         break;
8591     case 0x04: /* SRSHR / URSHR (rounding) */
8592         round = true;
8593         break;
8594     case 0x06: /* SRSRA / URSRA (accum + rounding) */
8595         accumulate = round = true;
8596         break;
8597     case 0x08: /* SRI */
8598         insert = true;
8599         break;
8600     }
8601
8602     if (round) {
8603         uint64_t round_const = 1ULL << (shift - 1);
8604         tcg_round = tcg_const_i64(round_const);
8605     } else {
8606         tcg_round = NULL;
8607     }
8608
8609     tcg_rn = read_fp_dreg(s, rn);
8610     tcg_rd = (accumulate || insert) ? read_fp_dreg(s, rd) : tcg_temp_new_i64();
8611
8612     if (insert) {
8613         /* shift count same as element size is valid but does nothing;
8614          * special case to avoid potential shift by 64.
8615          */
8616         int esize = 8 << size;
8617         if (shift != esize) {
8618             tcg_gen_shri_i64(tcg_rn, tcg_rn, shift);
8619             tcg_gen_deposit_i64(tcg_rd, tcg_rd, tcg_rn, 0, esize - shift);
8620         }
8621     } else {
8622         handle_shri_with_rndacc(tcg_rd, tcg_rn, tcg_round,
8623                                 accumulate, is_u, size, shift);
8624     }
8625
8626     write_fp_dreg(s, rd, tcg_rd);
8627
8628     tcg_temp_free_i64(tcg_rn);
8629     tcg_temp_free_i64(tcg_rd);
8630     if (round) {
8631         tcg_temp_free_i64(tcg_round);
8632     }
8633 }
8634
8635 /* SHL/SLI - Scalar shift left */
8636 static void handle_scalar_simd_shli(DisasContext *s, bool insert,
8637                                     int immh, int immb, int opcode,
8638                                     int rn, int rd)
8639 {
8640     int size = 32 - clz32(immh) - 1;
8641     int immhb = immh << 3 | immb;
8642     int shift = immhb - (8 << size);
8643     TCGv_i64 tcg_rn;
8644     TCGv_i64 tcg_rd;
8645
8646     if (!extract32(immh, 3, 1)) {
8647         unallocated_encoding(s);
8648         return;
8649     }
8650
8651     if (!fp_access_check(s)) {
8652         return;
8653     }
8654
8655     tcg_rn = read_fp_dreg(s, rn);
8656     tcg_rd = insert ? read_fp_dreg(s, rd) : tcg_temp_new_i64();
8657
8658     if (insert) {
8659         tcg_gen_deposit_i64(tcg_rd, tcg_rd, tcg_rn, shift, 64 - shift);
8660     } else {
8661         tcg_gen_shli_i64(tcg_rd, tcg_rn, shift);
8662     }
8663
8664     write_fp_dreg(s, rd, tcg_rd);
8665
8666     tcg_temp_free_i64(tcg_rn);
8667     tcg_temp_free_i64(tcg_rd);
8668 }
8669
8670 /* SQSHRN/SQSHRUN - Saturating (signed/unsigned) shift right with
8671  * (signed/unsigned) narrowing */
8672 static void handle_vec_simd_sqshrn(DisasContext *s, bool is_scalar, bool is_q,
8673                                    bool is_u_shift, bool is_u_narrow,
8674                                    int immh, int immb, int opcode,
8675                                    int rn, int rd)
8676 {
8677     int immhb = immh << 3 | immb;
8678     int size = 32 - clz32(immh) - 1;
8679     int esize = 8 << size;
8680     int shift = (2 * esize) - immhb;
8681     int elements = is_scalar ? 1 : (64 / esize);
8682     bool round = extract32(opcode, 0, 1);
8683     MemOp ldop = (size + 1) | (is_u_shift ? 0 : MO_SIGN);
8684     TCGv_i64 tcg_rn, tcg_rd, tcg_round;
8685     TCGv_i32 tcg_rd_narrowed;
8686     TCGv_i64 tcg_final;
8687
8688     static NeonGenNarrowEnvFn * const signed_narrow_fns[4][2] = {
8689         { gen_helper_neon_narrow_sat_s8,
8690           gen_helper_neon_unarrow_sat8 },
8691         { gen_helper_neon_narrow_sat_s16,
8692           gen_helper_neon_unarrow_sat16 },
8693         { gen_helper_neon_narrow_sat_s32,
8694           gen_helper_neon_unarrow_sat32 },
8695         { NULL, NULL },
8696     };
8697     static NeonGenNarrowEnvFn * const unsigned_narrow_fns[4] = {
8698         gen_helper_neon_narrow_sat_u8,
8699         gen_helper_neon_narrow_sat_u16,
8700         gen_helper_neon_narrow_sat_u32,
8701         NULL
8702     };
8703     NeonGenNarrowEnvFn *narrowfn;
8704
8705     int i;
8706
8707     assert(size < 4);
8708
8709     if (extract32(immh, 3, 1)) {
8710         unallocated_encoding(s);
8711         return;
8712     }
8713
8714     if (!fp_access_check(s)) {
8715         return;
8716     }
8717
8718     if (is_u_shift) {
8719         narrowfn = unsigned_narrow_fns[size];
8720     } else {
8721         narrowfn = signed_narrow_fns[size][is_u_narrow ? 1 : 0];
8722     }
8723
8724     tcg_rn = tcg_temp_new_i64();
8725     tcg_rd = tcg_temp_new_i64();
8726     tcg_rd_narrowed = tcg_temp_new_i32();
8727     tcg_final = tcg_const_i64(0);
8728
8729     if (round) {
8730         uint64_t round_const = 1ULL << (shift - 1);
8731         tcg_round = tcg_const_i64(round_const);
8732     } else {
8733         tcg_round = NULL;
8734     }
8735
8736     for (i = 0; i < elements; i++) {
8737         read_vec_element(s, tcg_rn, rn, i, ldop);
8738         handle_shri_with_rndacc(tcg_rd, tcg_rn, tcg_round,
8739                                 false, is_u_shift, size+1, shift);
8740         narrowfn(tcg_rd_narrowed, cpu_env, tcg_rd);
8741         tcg_gen_extu_i32_i64(tcg_rd, tcg_rd_narrowed);
8742         tcg_gen_deposit_i64(tcg_final, tcg_final, tcg_rd, esize * i, esize);
8743     }
8744
8745     if (!is_q) {
8746         write_vec_element(s, tcg_final, rd, 0, MO_64);
8747     } else {
8748         write_vec_element(s, tcg_final, rd, 1, MO_64);
8749     }
8750
8751     if (round) {
8752         tcg_temp_free_i64(tcg_round);
8753     }
8754     tcg_temp_free_i64(tcg_rn);
8755     tcg_temp_free_i64(tcg_rd);
8756     tcg_temp_free_i32(tcg_rd_narrowed);
8757     tcg_temp_free_i64(tcg_final);
8758
8759     clear_vec_high(s, is_q, rd);
8760 }
8761
8762 /* SQSHLU, UQSHL, SQSHL: saturating left shifts */
8763 static void handle_simd_qshl(DisasContext *s, bool scalar, bool is_q,
8764                              bool src_unsigned, bool dst_unsigned,
8765                              int immh, int immb, int rn, int rd)
8766 {
8767     int immhb = immh << 3 | immb;
8768     int size = 32 - clz32(immh) - 1;
8769     int shift = immhb - (8 << size);
8770     int pass;
8771
8772     assert(immh != 0);
8773     assert(!(scalar && is_q));
8774
8775     if (!scalar) {
8776         if (!is_q && extract32(immh, 3, 1)) {
8777             unallocated_encoding(s);
8778             return;
8779         }
8780
8781         /* Since we use the variable-shift helpers we must
8782          * replicate the shift count into each element of
8783          * the tcg_shift value.
8784          */
8785         switch (size) {
8786         case 0:
8787             shift |= shift << 8;
8788             /* fall through */
8789         case 1:
8790             shift |= shift << 16;
8791             break;
8792         case 2:
8793         case 3:
8794             break;
8795         default:
8796             g_assert_not_reached();
8797         }
8798     }
8799
8800     if (!fp_access_check(s)) {
8801         return;
8802     }
8803
8804     if (size == 3) {
8805         TCGv_i64 tcg_shift = tcg_const_i64(shift);
8806         static NeonGenTwo64OpEnvFn * const fns[2][2] = {
8807             { gen_helper_neon_qshl_s64, gen_helper_neon_qshlu_s64 },
8808             { NULL, gen_helper_neon_qshl_u64 },
8809         };
8810         NeonGenTwo64OpEnvFn *genfn = fns[src_unsigned][dst_unsigned];
8811         int maxpass = is_q ? 2 : 1;
8812
8813         for (pass = 0; pass < maxpass; pass++) {
8814             TCGv_i64 tcg_op = tcg_temp_new_i64();
8815
8816             read_vec_element(s, tcg_op, rn, pass, MO_64);
8817             genfn(tcg_op, cpu_env, tcg_op, tcg_shift);
8818             write_vec_element(s, tcg_op, rd, pass, MO_64);
8819
8820             tcg_temp_free_i64(tcg_op);
8821         }
8822         tcg_temp_free_i64(tcg_shift);
8823         clear_vec_high(s, is_q, rd);
8824     } else {
8825         TCGv_i32 tcg_shift = tcg_const_i32(shift);
8826         static NeonGenTwoOpEnvFn * const fns[2][2][3] = {
8827             {
8828                 { gen_helper_neon_qshl_s8,
8829                   gen_helper_neon_qshl_s16,
8830                   gen_helper_neon_qshl_s32 },
8831                 { gen_helper_neon_qshlu_s8,
8832                   gen_helper_neon_qshlu_s16,
8833                   gen_helper_neon_qshlu_s32 }
8834             }, {
8835                 { NULL, NULL, NULL },
8836                 { gen_helper_neon_qshl_u8,
8837                   gen_helper_neon_qshl_u16,
8838                   gen_helper_neon_qshl_u32 }
8839             }
8840         };
8841         NeonGenTwoOpEnvFn *genfn = fns[src_unsigned][dst_unsigned][size];
8842         MemOp memop = scalar ? size : MO_32;
8843         int maxpass = scalar ? 1 : is_q ? 4 : 2;
8844
8845         for (pass = 0; pass < maxpass; pass++) {
8846             TCGv_i32 tcg_op = tcg_temp_new_i32();
8847
8848             read_vec_element_i32(s, tcg_op, rn, pass, memop);
8849             genfn(tcg_op, cpu_env, tcg_op, tcg_shift);
8850             if (scalar) {
8851                 switch (size) {
8852                 case 0:
8853                     tcg_gen_ext8u_i32(tcg_op, tcg_op);
8854                     break;
8855                 case 1:
8856                     tcg_gen_ext16u_i32(tcg_op, tcg_op);
8857                     break;
8858                 case 2:
8859                     break;
8860                 default:
8861                     g_assert_not_reached();
8862                 }
8863                 write_fp_sreg(s, rd, tcg_op);
8864             } else {
8865                 write_vec_element_i32(s, tcg_op, rd, pass, MO_32);
8866             }
8867
8868             tcg_temp_free_i32(tcg_op);
8869         }
8870         tcg_temp_free_i32(tcg_shift);
8871
8872         if (!scalar) {
8873             clear_vec_high(s, is_q, rd);
8874         }
8875     }
8876 }
8877
8878 /* Common vector code for handling integer to FP conversion */
8879 static void handle_simd_intfp_conv(DisasContext *s, int rd, int rn,
8880                                    int elements, int is_signed,
8881                                    int fracbits, int size)
8882 {
8883     TCGv_ptr tcg_fpst = fpstatus_ptr(size == MO_16 ? FPST_FPCR_F16 : FPST_FPCR);
8884     TCGv_i32 tcg_shift = NULL;
8885
8886     MemOp mop = size | (is_signed ? MO_SIGN : 0);
8887     int pass;
8888
8889     if (fracbits || size == MO_64) {
8890         tcg_shift = tcg_const_i32(fracbits);
8891     }
8892
8893     if (size == MO_64) {
8894         TCGv_i64 tcg_int64 = tcg_temp_new_i64();
8895         TCGv_i64 tcg_double = tcg_temp_new_i64();
8896
8897         for (pass = 0; pass < elements; pass++) {
8898             read_vec_element(s, tcg_int64, rn, pass, mop);
8899
8900             if (is_signed) {
8901                 gen_helper_vfp_sqtod(tcg_double, tcg_int64,
8902                                      tcg_shift, tcg_fpst);
8903             } else {
8904                 gen_helper_vfp_uqtod(tcg_double, tcg_int64,
8905                                      tcg_shift, tcg_fpst);
8906             }
8907             if (elements == 1) {
8908                 write_fp_dreg(s, rd, tcg_double);
8909             } else {
8910                 write_vec_element(s, tcg_double, rd, pass, MO_64);
8911             }
8912         }
8913
8914         tcg_temp_free_i64(tcg_int64);
8915         tcg_temp_free_i64(tcg_double);
8916
8917     } else {
8918         TCGv_i32 tcg_int32 = tcg_temp_new_i32();
8919         TCGv_i32 tcg_float = tcg_temp_new_i32();
8920
8921         for (pass = 0; pass < elements; pass++) {
8922             read_vec_element_i32(s, tcg_int32, rn, pass, mop);
8923
8924             switch (size) {
8925             case MO_32:
8926                 if (fracbits) {
8927                     if (is_signed) {
8928                         gen_helper_vfp_sltos(tcg_float, tcg_int32,
8929                                              tcg_shift, tcg_fpst);
8930                     } else {
8931                         gen_helper_vfp_ultos(tcg_float, tcg_int32,
8932                                              tcg_shift, tcg_fpst);
8933                     }
8934                 } else {
8935                     if (is_signed) {
8936                         gen_helper_vfp_sitos(tcg_float, tcg_int32, tcg_fpst);
8937                     } else {
8938                         gen_helper_vfp_uitos(tcg_float, tcg_int32, tcg_fpst);
8939                     }
8940                 }
8941                 break;
8942             case MO_16:
8943                 if (fracbits) {
8944                     if (is_signed) {
8945                         gen_helper_vfp_sltoh(tcg_float, tcg_int32,
8946                                              tcg_shift, tcg_fpst);
8947                     } else {
8948                         gen_helper_vfp_ultoh(tcg_float, tcg_int32,
8949                                              tcg_shift, tcg_fpst);
8950                     }
8951                 } else {
8952                     if (is_signed) {
8953                         gen_helper_vfp_sitoh(tcg_float, tcg_int32, tcg_fpst);
8954                     } else {
8955                         gen_helper_vfp_uitoh(tcg_float, tcg_int32, tcg_fpst);
8956                     }
8957                 }
8958                 break;
8959             default:
8960                 g_assert_not_reached();
8961             }
8962
8963             if (elements == 1) {
8964                 write_fp_sreg(s, rd, tcg_float);
8965             } else {
8966                 write_vec_element_i32(s, tcg_float, rd, pass, size);
8967             }
8968         }
8969
8970         tcg_temp_free_i32(tcg_int32);
8971         tcg_temp_free_i32(tcg_float);
8972     }
8973
8974     tcg_temp_free_ptr(tcg_fpst);
8975     if (tcg_shift) {
8976         tcg_temp_free_i32(tcg_shift);
8977     }
8978
8979     clear_vec_high(s, elements << size == 16, rd);
8980 }
8981
8982 /* UCVTF/SCVTF - Integer to FP conversion */
8983 static void handle_simd_shift_intfp_conv(DisasContext *s, bool is_scalar,
8984                                          bool is_q, bool is_u,
8985                                          int immh, int immb, int opcode,
8986                                          int rn, int rd)
8987 {
8988     int size, elements, fracbits;
8989     int immhb = immh << 3 | immb;
8990
8991     if (immh & 8) {
8992         size = MO_64;
8993         if (!is_scalar && !is_q) {
8994             unallocated_encoding(s);
8995             return;
8996         }
8997     } else if (immh & 4) {
8998         size = MO_32;
8999     } else if (immh & 2) {
9000         size = MO_16;
9001         if (!dc_isar_feature(aa64_fp16, s)) {
9002             unallocated_encoding(s);
9003             return;
9004         }
9005     } else {
9006         /* immh == 0 would be a failure of the decode logic */
9007         g_assert(immh == 1);
9008         unallocated_encoding(s);
9009         return;
9010     }
9011
9012     if (is_scalar) {
9013         elements = 1;
9014     } else {
9015         elements = (8 << is_q) >> size;
9016     }
9017     fracbits = (16 << size) - immhb;
9018
9019     if (!fp_access_check(s)) {
9020         return;
9021     }
9022
9023     handle_simd_intfp_conv(s, rd, rn, elements, !is_u, fracbits, size);
9024 }
9025
9026 /* FCVTZS, FVCVTZU - FP to fixedpoint conversion */
9027 static void handle_simd_shift_fpint_conv(DisasContext *s, bool is_scalar,
9028                                          bool is_q, bool is_u,
9029                                          int immh, int immb, int rn, int rd)
9030 {
9031     int immhb = immh << 3 | immb;
9032     int pass, size, fracbits;
9033     TCGv_ptr tcg_fpstatus;
9034     TCGv_i32 tcg_rmode, tcg_shift;
9035
9036     if (immh & 0x8) {
9037         size = MO_64;
9038         if (!is_scalar && !is_q) {
9039             unallocated_encoding(s);
9040             return;
9041         }
9042     } else if (immh & 0x4) {
9043         size = MO_32;
9044     } else if (immh & 0x2) {
9045         size = MO_16;
9046         if (!dc_isar_feature(aa64_fp16, s)) {
9047             unallocated_encoding(s);
9048             return;
9049         }
9050     } else {
9051         /* Should have split out AdvSIMD modified immediate earlier.  */
9052         assert(immh == 1);
9053         unallocated_encoding(s);
9054         return;
9055     }
9056
9057     if (!fp_access_check(s)) {
9058         return;
9059     }
9060
9061     assert(!(is_scalar && is_q));
9062
9063     tcg_rmode = tcg_const_i32(arm_rmode_to_sf(FPROUNDING_ZERO));
9064     tcg_fpstatus = fpstatus_ptr(size == MO_16 ? FPST_FPCR_F16 : FPST_FPCR);
9065     gen_helper_set_rmode(tcg_rmode, tcg_rmode, tcg_fpstatus);
9066     fracbits = (16 << size) - immhb;
9067     tcg_shift = tcg_const_i32(fracbits);
9068
9069     if (size == MO_64) {
9070         int maxpass = is_scalar ? 1 : 2;
9071
9072         for (pass = 0; pass < maxpass; pass++) {
9073             TCGv_i64 tcg_op = tcg_temp_new_i64();
9074
9075             read_vec_element(s, tcg_op, rn, pass, MO_64);
9076             if (is_u) {
9077                 gen_helper_vfp_touqd(tcg_op, tcg_op, tcg_shift, tcg_fpstatus);
9078             } else {
9079                 gen_helper_vfp_tosqd(tcg_op, tcg_op, tcg_shift, tcg_fpstatus);
9080             }
9081             write_vec_element(s, tcg_op, rd, pass, MO_64);
9082             tcg_temp_free_i64(tcg_op);
9083         }
9084         clear_vec_high(s, is_q, rd);
9085     } else {
9086         void (*fn)(TCGv_i32, TCGv_i32, TCGv_i32, TCGv_ptr);
9087         int maxpass = is_scalar ? 1 : ((8 << is_q) >> size);
9088
9089         switch (size) {
9090         case MO_16:
9091             if (is_u) {
9092                 fn = gen_helper_vfp_touhh;
9093             } else {
9094                 fn = gen_helper_vfp_toshh;
9095             }
9096             break;
9097         case MO_32:
9098             if (is_u) {
9099                 fn = gen_helper_vfp_touls;
9100             } else {
9101                 fn = gen_helper_vfp_tosls;
9102             }
9103             break;
9104         default:
9105             g_assert_not_reached();
9106         }
9107
9108         for (pass = 0; pass < maxpass; pass++) {
9109             TCGv_i32 tcg_op = tcg_temp_new_i32();
9110
9111             read_vec_element_i32(s, tcg_op, rn, pass, size);
9112             fn(tcg_op, tcg_op, tcg_shift, tcg_fpstatus);
9113             if (is_scalar) {
9114                 write_fp_sreg(s, rd, tcg_op);
9115             } else {
9116                 write_vec_element_i32(s, tcg_op, rd, pass, size);
9117             }
9118             tcg_temp_free_i32(tcg_op);
9119         }
9120         if (!is_scalar) {
9121             clear_vec_high(s, is_q, rd);
9122         }
9123     }
9124
9125     tcg_temp_free_ptr(tcg_fpstatus);
9126     tcg_temp_free_i32(tcg_shift);
9127     gen_helper_set_rmode(tcg_rmode, tcg_rmode, tcg_fpstatus);
9128     tcg_temp_free_i32(tcg_rmode);
9129 }
9130
9131 /* AdvSIMD scalar shift by immediate
9132  *  31 30  29 28         23 22  19 18  16 15    11  10 9    5 4    0
9133  * +-----+---+-------------+------+------+--------+---+------+------+
9134  * | 0 1 | U | 1 1 1 1 1 0 | immh | immb | opcode | 1 |  Rn  |  Rd  |
9135  * +-----+---+-------------+------+------+--------+---+------+------+
9136  *
9137  * This is the scalar version so it works on a fixed sized registers
9138  */
9139 static void disas_simd_scalar_shift_imm(DisasContext *s, uint32_t insn)
9140 {
9141     int rd = extract32(insn, 0, 5);
9142     int rn = extract32(insn, 5, 5);
9143     int opcode = extract32(insn, 11, 5);
9144     int immb = extract32(insn, 16, 3);
9145     int immh = extract32(insn, 19, 4);
9146     bool is_u = extract32(insn, 29, 1);
9147
9148     if (immh == 0) {
9149         unallocated_encoding(s);
9150         return;
9151     }
9152
9153     switch (opcode) {
9154     case 0x08: /* SRI */
9155         if (!is_u) {
9156             unallocated_encoding(s);
9157             return;
9158         }
9159         /* fall through */
9160     case 0x00: /* SSHR / USHR */
9161     case 0x02: /* SSRA / USRA */
9162     case 0x04: /* SRSHR / URSHR */
9163     case 0x06: /* SRSRA / URSRA */
9164         handle_scalar_simd_shri(s, is_u, immh, immb, opcode, rn, rd);
9165         break;
9166     case 0x0a: /* SHL / SLI */
9167         handle_scalar_simd_shli(s, is_u, immh, immb, opcode, rn, rd);
9168         break;
9169     case 0x1c: /* SCVTF, UCVTF */
9170         handle_simd_shift_intfp_conv(s, true, false, is_u, immh, immb,
9171                                      opcode, rn, rd);
9172         break;
9173     case 0x10: /* SQSHRUN, SQSHRUN2 */
9174     case 0x11: /* SQRSHRUN, SQRSHRUN2 */
9175         if (!is_u) {
9176             unallocated_encoding(s);
9177             return;
9178         }
9179         handle_vec_simd_sqshrn(s, true, false, false, true,
9180                                immh, immb, opcode, rn, rd);
9181         break;
9182     case 0x12: /* SQSHRN, SQSHRN2, UQSHRN */
9183     case 0x13: /* SQRSHRN, SQRSHRN2, UQRSHRN, UQRSHRN2 */
9184         handle_vec_simd_sqshrn(s, true, false, is_u, is_u,
9185                                immh, immb, opcode, rn, rd);
9186         break;
9187     case 0xc: /* SQSHLU */
9188         if (!is_u) {
9189             unallocated_encoding(s);
9190             return;
9191         }
9192         handle_simd_qshl(s, true, false, false, true, immh, immb, rn, rd);
9193         break;
9194     case 0xe: /* SQSHL, UQSHL */
9195         handle_simd_qshl(s, true, false, is_u, is_u, immh, immb, rn, rd);
9196         break;
9197     case 0x1f: /* FCVTZS, FCVTZU */
9198         handle_simd_shift_fpint_conv(s, true, false, is_u, immh, immb, rn, rd);
9199         break;
9200     default:
9201         unallocated_encoding(s);
9202         break;
9203     }
9204 }
9205
9206 /* AdvSIMD scalar three different
9207  *  31 30  29 28       24 23  22  21 20  16 15    12 11 10 9    5 4    0
9208  * +-----+---+-----------+------+---+------+--------+-----+------+------+
9209  * | 0 1 | U | 1 1 1 1 0 | size | 1 |  Rm  | opcode | 0 0 |  Rn  |  Rd  |
9210  * +-----+---+-----------+------+---+------+--------+-----+------+------+
9211  */
9212 static void disas_simd_scalar_three_reg_diff(DisasContext *s, uint32_t insn)
9213 {
9214     bool is_u = extract32(insn, 29, 1);
9215     int size = extract32(insn, 22, 2);
9216     int opcode = extract32(insn, 12, 4);
9217     int rm = extract32(insn, 16, 5);
9218     int rn = extract32(insn, 5, 5);
9219     int rd = extract32(insn, 0, 5);
9220
9221     if (is_u) {
9222         unallocated_encoding(s);
9223         return;
9224     }
9225
9226     switch (opcode) {
9227     case 0x9: /* SQDMLAL, SQDMLAL2 */
9228     case 0xb: /* SQDMLSL, SQDMLSL2 */
9229     case 0xd: /* SQDMULL, SQDMULL2 */
9230         if (size == 0 || size == 3) {
9231             unallocated_encoding(s);
9232             return;
9233         }
9234         break;
9235     default:
9236         unallocated_encoding(s);
9237         return;
9238     }
9239
9240     if (!fp_access_check(s)) {
9241         return;
9242     }
9243
9244     if (size == 2) {
9245         TCGv_i64 tcg_op1 = tcg_temp_new_i64();
9246         TCGv_i64 tcg_op2 = tcg_temp_new_i64();
9247         TCGv_i64 tcg_res = tcg_temp_new_i64();
9248
9249         read_vec_element(s, tcg_op1, rn, 0, MO_32 | MO_SIGN);
9250         read_vec_element(s, tcg_op2, rm, 0, MO_32 | MO_SIGN);
9251
9252         tcg_gen_mul_i64(tcg_res, tcg_op1, tcg_op2);
9253         gen_helper_neon_addl_saturate_s64(tcg_res, cpu_env, tcg_res, tcg_res);
9254
9255         switch (opcode) {
9256         case 0xd: /* SQDMULL, SQDMULL2 */
9257             break;
9258         case 0xb: /* SQDMLSL, SQDMLSL2 */
9259             tcg_gen_neg_i64(tcg_res, tcg_res);
9260             /* fall through */
9261         case 0x9: /* SQDMLAL, SQDMLAL2 */
9262             read_vec_element(s, tcg_op1, rd, 0, MO_64);
9263             gen_helper_neon_addl_saturate_s64(tcg_res, cpu_env,
9264                                               tcg_res, tcg_op1);
9265             break;
9266         default:
9267             g_assert_not_reached();
9268         }
9269
9270         write_fp_dreg(s, rd, tcg_res);
9271
9272         tcg_temp_free_i64(tcg_op1);
9273         tcg_temp_free_i64(tcg_op2);
9274         tcg_temp_free_i64(tcg_res);
9275     } else {
9276         TCGv_i32 tcg_op1 = read_fp_hreg(s, rn);
9277         TCGv_i32 tcg_op2 = read_fp_hreg(s, rm);
9278         TCGv_i64 tcg_res = tcg_temp_new_i64();
9279
9280         gen_helper_neon_mull_s16(tcg_res, tcg_op1, tcg_op2);
9281         gen_helper_neon_addl_saturate_s32(tcg_res, cpu_env, tcg_res, tcg_res);
9282
9283         switch (opcode) {
9284         case 0xd: /* SQDMULL, SQDMULL2 */
9285             break;
9286         case 0xb: /* SQDMLSL, SQDMLSL2 */
9287             gen_helper_neon_negl_u32(tcg_res, tcg_res);
9288             /* fall through */
9289         case 0x9: /* SQDMLAL, SQDMLAL2 */
9290         {
9291             TCGv_i64 tcg_op3 = tcg_temp_new_i64();
9292             read_vec_element(s, tcg_op3, rd, 0, MO_32);
9293             gen_helper_neon_addl_saturate_s32(tcg_res, cpu_env,
9294                                               tcg_res, tcg_op3);
9295             tcg_temp_free_i64(tcg_op3);
9296             break;
9297         }
9298         default:
9299             g_assert_not_reached();
9300         }
9301
9302         tcg_gen_ext32u_i64(tcg_res, tcg_res);
9303         write_fp_dreg(s, rd, tcg_res);
9304
9305         tcg_temp_free_i32(tcg_op1);
9306         tcg_temp_free_i32(tcg_op2);
9307         tcg_temp_free_i64(tcg_res);
9308     }
9309 }
9310
9311 static void handle_3same_64(DisasContext *s, int opcode, bool u,
9312                             TCGv_i64 tcg_rd, TCGv_i64 tcg_rn, TCGv_i64 tcg_rm)
9313 {
9314     /* Handle 64x64->64 opcodes which are shared between the scalar
9315      * and vector 3-same groups. We cover every opcode where size == 3
9316      * is valid in either the three-reg-same (integer, not pairwise)
9317      * or scalar-three-reg-same groups.
9318      */
9319     TCGCond cond;
9320
9321     switch (opcode) {
9322     case 0x1: /* SQADD */
9323         if (u) {
9324             gen_helper_neon_qadd_u64(tcg_rd, cpu_env, tcg_rn, tcg_rm);
9325         } else {
9326             gen_helper_neon_qadd_s64(tcg_rd, cpu_env, tcg_rn, tcg_rm);
9327         }
9328         break;
9329     case 0x5: /* SQSUB */
9330         if (u) {
9331             gen_helper_neon_qsub_u64(tcg_rd, cpu_env, tcg_rn, tcg_rm);
9332         } else {
9333             gen_helper_neon_qsub_s64(tcg_rd, cpu_env, tcg_rn, tcg_rm);
9334         }
9335         break;
9336     case 0x6: /* CMGT, CMHI */
9337         /* 64 bit integer comparison, result = test ? (2^64 - 1) : 0.
9338          * We implement this using setcond (test) and then negating.
9339          */
9340         cond = u ? TCG_COND_GTU : TCG_COND_GT;
9341     do_cmop:
9342         tcg_gen_setcond_i64(cond, tcg_rd, tcg_rn, tcg_rm);
9343         tcg_gen_neg_i64(tcg_rd, tcg_rd);
9344         break;
9345     case 0x7: /* CMGE, CMHS */
9346         cond = u ? TCG_COND_GEU : TCG_COND_GE;
9347         goto do_cmop;
9348     case 0x11: /* CMTST, CMEQ */
9349         if (u) {
9350             cond = TCG_COND_EQ;
9351             goto do_cmop;
9352         }
9353         gen_cmtst_i64(tcg_rd, tcg_rn, tcg_rm);
9354         break;
9355     case 0x8: /* SSHL, USHL */
9356         if (u) {
9357             gen_ushl_i64(tcg_rd, tcg_rn, tcg_rm);
9358         } else {
9359             gen_sshl_i64(tcg_rd, tcg_rn, tcg_rm);
9360         }
9361         break;
9362     case 0x9: /* SQSHL, UQSHL */
9363         if (u) {
9364             gen_helper_neon_qshl_u64(tcg_rd, cpu_env, tcg_rn, tcg_rm);
9365         } else {
9366             gen_helper_neon_qshl_s64(tcg_rd, cpu_env, tcg_rn, tcg_rm);
9367         }
9368         break;
9369     case 0xa: /* SRSHL, URSHL */
9370         if (u) {
9371             gen_helper_neon_rshl_u64(tcg_rd, tcg_rn, tcg_rm);
9372         } else {
9373             gen_helper_neon_rshl_s64(tcg_rd, tcg_rn, tcg_rm);
9374         }
9375         break;
9376     case 0xb: /* SQRSHL, UQRSHL */
9377         if (u) {
9378             gen_helper_neon_qrshl_u64(tcg_rd, cpu_env, tcg_rn, tcg_rm);
9379         } else {
9380             gen_helper_neon_qrshl_s64(tcg_rd, cpu_env, tcg_rn, tcg_rm);
9381         }
9382         break;
9383     case 0x10: /* ADD, SUB */
9384         if (u) {
9385             tcg_gen_sub_i64(tcg_rd, tcg_rn, tcg_rm);
9386         } else {
9387             tcg_gen_add_i64(tcg_rd, tcg_rn, tcg_rm);
9388         }
9389         break;
9390     default:
9391         g_assert_not_reached();
9392     }
9393 }
9394
9395 /* Handle the 3-same-operands float operations; shared by the scalar
9396  * and vector encodings. The caller must filter out any encodings
9397  * not allocated for the encoding it is dealing with.
9398  */
9399 static void handle_3same_float(DisasContext *s, int size, int elements,
9400                                int fpopcode, int rd, int rn, int rm)
9401 {
9402     int pass;
9403     TCGv_ptr fpst = fpstatus_ptr(FPST_FPCR);
9404
9405     for (pass = 0; pass < elements; pass++) {
9406         if (size) {
9407             /* Double */
9408             TCGv_i64 tcg_op1 = tcg_temp_new_i64();
9409             TCGv_i64 tcg_op2 = tcg_temp_new_i64();
9410             TCGv_i64 tcg_res = tcg_temp_new_i64();
9411
9412             read_vec_element(s, tcg_op1, rn, pass, MO_64);
9413             read_vec_element(s, tcg_op2, rm, pass, MO_64);
9414
9415             switch (fpopcode) {
9416             case 0x39: /* FMLS */
9417                 /* As usual for ARM, separate negation for fused multiply-add */
9418                 gen_helper_vfp_negd(tcg_op1, tcg_op1);
9419                 /* fall through */
9420             case 0x19: /* FMLA */
9421                 read_vec_element(s, tcg_res, rd, pass, MO_64);
9422                 gen_helper_vfp_muladdd(tcg_res, tcg_op1, tcg_op2,
9423                                        tcg_res, fpst);
9424                 break;
9425             case 0x18: /* FMAXNM */
9426                 gen_helper_vfp_maxnumd(tcg_res, tcg_op1, tcg_op2, fpst);
9427                 break;
9428             case 0x1a: /* FADD */
9429                 gen_helper_vfp_addd(tcg_res, tcg_op1, tcg_op2, fpst);
9430                 break;
9431             case 0x1b: /* FMULX */
9432                 gen_helper_vfp_mulxd(tcg_res, tcg_op1, tcg_op2, fpst);
9433                 break;
9434             case 0x1c: /* FCMEQ */
9435                 gen_helper_neon_ceq_f64(tcg_res, tcg_op1, tcg_op2, fpst);
9436                 break;
9437             case 0x1e: /* FMAX */
9438                 gen_helper_vfp_maxd(tcg_res, tcg_op1, tcg_op2, fpst);
9439                 break;
9440             case 0x1f: /* FRECPS */
9441                 gen_helper_recpsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
9442                 break;
9443             case 0x38: /* FMINNM */
9444                 gen_helper_vfp_minnumd(tcg_res, tcg_op1, tcg_op2, fpst);
9445                 break;
9446             case 0x3a: /* FSUB */
9447                 gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
9448                 break;
9449             case 0x3e: /* FMIN */
9450                 gen_helper_vfp_mind(tcg_res, tcg_op1, tcg_op2, fpst);
9451                 break;
9452             case 0x3f: /* FRSQRTS */
9453                 gen_helper_rsqrtsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
9454                 break;
9455             case 0x5b: /* FMUL */
9456                 gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
9457                 break;
9458             case 0x5c: /* FCMGE */
9459                 gen_helper_neon_cge_f64(tcg_res, tcg_op1, tcg_op2, fpst);
9460                 break;
9461             case 0x5d: /* FACGE */
9462                 gen_helper_neon_acge_f64(tcg_res, tcg_op1, tcg_op2, fpst);
9463                 break;
9464             case 0x5f: /* FDIV */
9465                 gen_helper_vfp_divd(tcg_res, tcg_op1, tcg_op2, fpst);
9466                 break;
9467             case 0x7a: /* FABD */
9468                 gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
9469                 gen_helper_vfp_absd(tcg_res, tcg_res);
9470                 break;
9471             case 0x7c: /* FCMGT */
9472                 gen_helper_neon_cgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
9473                 break;
9474             case 0x7d: /* FACGT */
9475                 gen_helper_neon_acgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
9476                 break;
9477             default:
9478                 g_assert_not_reached();
9479             }
9480
9481             write_vec_element(s, tcg_res, rd, pass, MO_64);
9482
9483             tcg_temp_free_i64(tcg_res);
9484             tcg_temp_free_i64(tcg_op1);
9485             tcg_temp_free_i64(tcg_op2);
9486         } else {
9487             /* Single */
9488             TCGv_i32 tcg_op1 = tcg_temp_new_i32();
9489             TCGv_i32 tcg_op2 = tcg_temp_new_i32();
9490             TCGv_i32 tcg_res = tcg_temp_new_i32();
9491
9492             read_vec_element_i32(s, tcg_op1, rn, pass, MO_32);
9493             read_vec_element_i32(s, tcg_op2, rm, pass, MO_32);
9494
9495             switch (fpopcode) {
9496             case 0x39: /* FMLS */
9497                 /* As usual for ARM, separate negation for fused multiply-add */
9498                 gen_helper_vfp_negs(tcg_op1, tcg_op1);
9499                 /* fall through */
9500             case 0x19: /* FMLA */
9501                 read_vec_element_i32(s, tcg_res, rd, pass, MO_32);
9502                 gen_helper_vfp_muladds(tcg_res, tcg_op1, tcg_op2,
9503                                        tcg_res, fpst);
9504                 break;
9505             case 0x1a: /* FADD */
9506                 gen_helper_vfp_adds(tcg_res, tcg_op1, tcg_op2, fpst);
9507                 break;
9508             case 0x1b: /* FMULX */
9509                 gen_helper_vfp_mulxs(tcg_res, tcg_op1, tcg_op2, fpst);
9510                 break;
9511             case 0x1c: /* FCMEQ */
9512                 gen_helper_neon_ceq_f32(tcg_res, tcg_op1, tcg_op2, fpst);
9513                 break;
9514             case 0x1e: /* FMAX */
9515                 gen_helper_vfp_maxs(tcg_res, tcg_op1, tcg_op2, fpst);
9516                 break;
9517             case 0x1f: /* FRECPS */
9518                 gen_helper_recpsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
9519                 break;
9520             case 0x18: /* FMAXNM */
9521                 gen_helper_vfp_maxnums(tcg_res, tcg_op1, tcg_op2, fpst);
9522                 break;
9523             case 0x38: /* FMINNM */
9524                 gen_helper_vfp_minnums(tcg_res, tcg_op1, tcg_op2, fpst);
9525                 break;
9526             case 0x3a: /* FSUB */
9527                 gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
9528                 break;
9529             case 0x3e: /* FMIN */
9530                 gen_helper_vfp_mins(tcg_res, tcg_op1, tcg_op2, fpst);
9531                 break;
9532             case 0x3f: /* FRSQRTS */
9533                 gen_helper_rsqrtsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
9534                 break;
9535             case 0x5b: /* FMUL */
9536                 gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
9537                 break;
9538             case 0x5c: /* FCMGE */
9539                 gen_helper_neon_cge_f32(tcg_res, tcg_op1, tcg_op2, fpst);
9540                 break;
9541             case 0x5d: /* FACGE */
9542                 gen_helper_neon_acge_f32(tcg_res, tcg_op1, tcg_op2, fpst);
9543                 break;
9544             case 0x5f: /* FDIV */
9545                 gen_helper_vfp_divs(tcg_res, tcg_op1, tcg_op2, fpst);
9546                 break;
9547             case 0x7a: /* FABD */
9548                 gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
9549                 gen_helper_vfp_abss(tcg_res, tcg_res);
9550                 break;
9551             case 0x7c: /* FCMGT */
9552                 gen_helper_neon_cgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
9553                 break;
9554             case 0x7d: /* FACGT */
9555                 gen_helper_neon_acgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
9556                 break;
9557             default:
9558                 g_assert_not_reached();
9559             }
9560
9561             if (elements == 1) {
9562                 /* scalar single so clear high part */
9563                 TCGv_i64 tcg_tmp = tcg_temp_new_i64();
9564
9565                 tcg_gen_extu_i32_i64(tcg_tmp, tcg_res);
9566                 write_vec_element(s, tcg_tmp, rd, pass, MO_64);
9567                 tcg_temp_free_i64(tcg_tmp);
9568             } else {
9569                 write_vec_element_i32(s, tcg_res, rd, pass, MO_32);
9570             }
9571
9572             tcg_temp_free_i32(tcg_res);
9573             tcg_temp_free_i32(tcg_op1);
9574             tcg_temp_free_i32(tcg_op2);
9575         }
9576     }
9577
9578     tcg_temp_free_ptr(fpst);
9579
9580     clear_vec_high(s, elements * (size ? 8 : 4) > 8, rd);
9581 }
9582
9583 /* AdvSIMD scalar three same
9584  *  31 30  29 28       24 23  22  21 20  16 15    11  10 9    5 4    0
9585  * +-----+---+-----------+------+---+------+--------+---+------+------+
9586  * | 0 1 | U | 1 1 1 1 0 | size | 1 |  Rm  | opcode | 1 |  Rn  |  Rd  |
9587  * +-----+---+-----------+------+---+------+--------+---+------+------+
9588  */
9589 static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
9590 {
9591     int rd = extract32(insn, 0, 5);
9592     int rn = extract32(insn, 5, 5);
9593     int opcode = extract32(insn, 11, 5);
9594     int rm = extract32(insn, 16, 5);
9595     int size = extract32(insn, 22, 2);
9596     bool u = extract32(insn, 29, 1);
9597     TCGv_i64 tcg_rd;
9598
9599     if (opcode >= 0x18) {
9600         /* Floating point: U, size[1] and opcode indicate operation */
9601         int fpopcode = opcode | (extract32(size, 1, 1) << 5) | (u << 6);
9602         switch (fpopcode) {
9603         case 0x1b: /* FMULX */
9604         case 0x1f: /* FRECPS */
9605         case 0x3f: /* FRSQRTS */
9606         case 0x5d: /* FACGE */
9607         case 0x7d: /* FACGT */
9608         case 0x1c: /* FCMEQ */
9609         case 0x5c: /* FCMGE */
9610         case 0x7c: /* FCMGT */
9611         case 0x7a: /* FABD */
9612             break;
9613         default:
9614             unallocated_encoding(s);
9615             return;
9616         }
9617
9618         if (!fp_access_check(s)) {
9619             return;
9620         }
9621
9622         handle_3same_float(s, extract32(size, 0, 1), 1, fpopcode, rd, rn, rm);
9623         return;
9624     }
9625
9626     switch (opcode) {
9627     case 0x1: /* SQADD, UQADD */
9628     case 0x5: /* SQSUB, UQSUB */
9629     case 0x9: /* SQSHL, UQSHL */
9630     case 0xb: /* SQRSHL, UQRSHL */
9631         break;
9632     case 0x8: /* SSHL, USHL */
9633     case 0xa: /* SRSHL, URSHL */
9634     case 0x6: /* CMGT, CMHI */
9635     case 0x7: /* CMGE, CMHS */
9636     case 0x11: /* CMTST, CMEQ */
9637     case 0x10: /* ADD, SUB (vector) */
9638         if (size != 3) {
9639             unallocated_encoding(s);
9640             return;
9641         }
9642         break;
9643     case 0x16: /* SQDMULH, SQRDMULH (vector) */
9644         if (size != 1 && size != 2) {
9645             unallocated_encoding(s);
9646             return;
9647         }
9648         break;
9649     default:
9650         unallocated_encoding(s);
9651         return;
9652     }
9653
9654     if (!fp_access_check(s)) {
9655         return;
9656     }
9657
9658     tcg_rd = tcg_temp_new_i64();
9659
9660     if (size == 3) {
9661         TCGv_i64 tcg_rn = read_fp_dreg(s, rn);
9662         TCGv_i64 tcg_rm = read_fp_dreg(s, rm);
9663
9664         handle_3same_64(s, opcode, u, tcg_rd, tcg_rn, tcg_rm);
9665         tcg_temp_free_i64(tcg_rn);
9666         tcg_temp_free_i64(tcg_rm);
9667     } else {
9668         /* Do a single operation on the lowest element in the vector.
9669          * We use the standard Neon helpers and rely on 0 OP 0 == 0 with
9670          * no side effects for all these operations.
9671          * OPTME: special-purpose helpers would avoid doing some
9672          * unnecessary work in the helper for the 8 and 16 bit cases.
9673          */
9674         NeonGenTwoOpEnvFn *genenvfn;
9675         TCGv_i32 tcg_rn = tcg_temp_new_i32();
9676         TCGv_i32 tcg_rm = tcg_temp_new_i32();
9677         TCGv_i32 tcg_rd32 = tcg_temp_new_i32();
9678
9679         read_vec_element_i32(s, tcg_rn, rn, 0, size);
9680         read_vec_element_i32(s, tcg_rm, rm, 0, size);
9681
9682         switch (opcode) {
9683         case 0x1: /* SQADD, UQADD */
9684         {
9685             static NeonGenTwoOpEnvFn * const fns[3][2] = {
9686                 { gen_helper_neon_qadd_s8, gen_helper_neon_qadd_u8 },
9687                 { gen_helper_neon_qadd_s16, gen_helper_neon_qadd_u16 },
9688                 { gen_helper_neon_qadd_s32, gen_helper_neon_qadd_u32 },
9689             };
9690             genenvfn = fns[size][u];
9691             break;
9692         }
9693         case 0x5: /* SQSUB, UQSUB */
9694         {
9695             static NeonGenTwoOpEnvFn * const fns[3][2] = {
9696                 { gen_helper_neon_qsub_s8, gen_helper_neon_qsub_u8 },
9697                 { gen_helper_neon_qsub_s16, gen_helper_neon_qsub_u16 },
9698                 { gen_helper_neon_qsub_s32, gen_helper_neon_qsub_u32 },
9699             };
9700             genenvfn = fns[size][u];
9701             break;
9702         }
9703         case 0x9: /* SQSHL, UQSHL */
9704         {
9705             static NeonGenTwoOpEnvFn * const fns[3][2] = {
9706                 { gen_helper_neon_qshl_s8, gen_helper_neon_qshl_u8 },
9707                 { gen_helper_neon_qshl_s16, gen_helper_neon_qshl_u16 },
9708                 { gen_helper_neon_qshl_s32, gen_helper_neon_qshl_u32 },
9709             };
9710             genenvfn = fns[size][u];
9711             break;
9712         }
9713         case 0xb: /* SQRSHL, UQRSHL */
9714         {
9715             static NeonGenTwoOpEnvFn * const fns[3][2] = {
9716                 { gen_helper_neon_qrshl_s8, gen_helper_neon_qrshl_u8 },
9717                 { gen_helper_neon_qrshl_s16, gen_helper_neon_qrshl_u16 },
9718                 { gen_helper_neon_qrshl_s32, gen_helper_neon_qrshl_u32 },
9719             };
9720             genenvfn = fns[size][u];
9721             break;
9722         }
9723         case 0x16: /* SQDMULH, SQRDMULH */
9724         {
9725             static NeonGenTwoOpEnvFn * const fns[2][2] = {
9726                 { gen_helper_neon_qdmulh_s16, gen_helper_neon_qrdmulh_s16 },
9727                 { gen_helper_neon_qdmulh_s32, gen_helper_neon_qrdmulh_s32 },
9728             };
9729             assert(size == 1 || size == 2);
9730             genenvfn = fns[size - 1][u];
9731             break;
9732         }
9733         default:
9734             g_assert_not_reached();
9735         }
9736
9737         genenvfn(tcg_rd32, cpu_env, tcg_rn, tcg_rm);
9738         tcg_gen_extu_i32_i64(tcg_rd, tcg_rd32);
9739         tcg_temp_free_i32(tcg_rd32);
9740         tcg_temp_free_i32(tcg_rn);
9741         tcg_temp_free_i32(tcg_rm);
9742     }
9743
9744     write_fp_dreg(s, rd, tcg_rd);
9745
9746     tcg_temp_free_i64(tcg_rd);
9747 }
9748
9749 /* AdvSIMD scalar three same FP16
9750  *  31 30  29 28       24 23  22 21 20  16 15 14 13    11 10  9  5 4  0
9751  * +-----+---+-----------+---+-----+------+-----+--------+---+----+----+
9752  * | 0 1 | U | 1 1 1 1 0 | a | 1 0 |  Rm  | 0 0 | opcode | 1 | Rn | Rd |
9753  * +-----+---+-----------+---+-----+------+-----+--------+---+----+----+
9754  * v: 0101 1110 0100 0000 0000 0100 0000 0000 => 5e400400
9755  * m: 1101 1111 0110 0000 1100 0100 0000 0000 => df60c400
9756  */
9757 static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
9758                                                   uint32_t insn)
9759 {
9760     int rd = extract32(insn, 0, 5);
9761     int rn = extract32(insn, 5, 5);
9762     int opcode = extract32(insn, 11, 3);
9763     int rm = extract32(insn, 16, 5);
9764     bool u = extract32(insn, 29, 1);
9765     bool a = extract32(insn, 23, 1);
9766     int fpopcode = opcode | (a << 3) |  (u << 4);
9767     TCGv_ptr fpst;
9768     TCGv_i32 tcg_op1;
9769     TCGv_i32 tcg_op2;
9770     TCGv_i32 tcg_res;
9771
9772     switch (fpopcode) {
9773     case 0x03: /* FMULX */
9774     case 0x04: /* FCMEQ (reg) */
9775     case 0x07: /* FRECPS */
9776     case 0x0f: /* FRSQRTS */
9777     case 0x14: /* FCMGE (reg) */
9778     case 0x15: /* FACGE */
9779     case 0x1a: /* FABD */
9780     case 0x1c: /* FCMGT (reg) */
9781     case 0x1d: /* FACGT */
9782         break;
9783     default:
9784         unallocated_encoding(s);
9785         return;
9786     }
9787
9788     if (!dc_isar_feature(aa64_fp16, s)) {
9789         unallocated_encoding(s);
9790     }
9791
9792     if (!fp_access_check(s)) {
9793         return;
9794     }
9795
9796     fpst = fpstatus_ptr(FPST_FPCR_F16);
9797
9798     tcg_op1 = read_fp_hreg(s, rn);
9799     tcg_op2 = read_fp_hreg(s, rm);
9800     tcg_res = tcg_temp_new_i32();
9801
9802     switch (fpopcode) {
9803     case 0x03: /* FMULX */
9804         gen_helper_advsimd_mulxh(tcg_res, tcg_op1, tcg_op2, fpst);
9805         break;
9806     case 0x04: /* FCMEQ (reg) */
9807         gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
9808         break;
9809     case 0x07: /* FRECPS */
9810         gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
9811         break;
9812     case 0x0f: /* FRSQRTS */
9813         gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
9814         break;
9815     case 0x14: /* FCMGE (reg) */
9816         gen_helper_advsimd_cge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
9817         break;
9818     case 0x15: /* FACGE */
9819         gen_helper_advsimd_acge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
9820         break;
9821     case 0x1a: /* FABD */
9822         gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
9823         tcg_gen_andi_i32(tcg_res, tcg_res, 0x7fff);
9824         break;
9825     case 0x1c: /* FCMGT (reg) */
9826         gen_helper_advsimd_cgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
9827         break;
9828     case 0x1d: /* FACGT */
9829         gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
9830         break;
9831     default:
9832         g_assert_not_reached();
9833     }
9834
9835     write_fp_sreg(s, rd, tcg_res);
9836
9837
9838     tcg_temp_free_i32(tcg_res);
9839     tcg_temp_free_i32(tcg_op1);
9840     tcg_temp_free_i32(tcg_op2);
9841     tcg_temp_free_ptr(fpst);
9842 }
9843
9844 /* AdvSIMD scalar three same extra
9845  *  31 30  29 28       24 23  22  21 20  16  15 14    11  10 9  5 4  0
9846  * +-----+---+-----------+------+---+------+---+--------+---+----+----+
9847  * | 0 1 | U | 1 1 1 1 0 | size | 0 |  Rm  | 1 | opcode | 1 | Rn | Rd |
9848  * +-----+---+-----------+------+---+------+---+--------+---+----+----+
9849  */
9850 static void disas_simd_scalar_three_reg_same_extra(DisasContext *s,
9851                                                    uint32_t insn)
9852 {
9853     int rd = extract32(insn, 0, 5);
9854     int rn = extract32(insn, 5, 5);
9855     int opcode = extract32(insn, 11, 4);
9856     int rm = extract32(insn, 16, 5);
9857     int size = extract32(insn, 22, 2);
9858     bool u = extract32(insn, 29, 1);
9859     TCGv_i32 ele1, ele2, ele3;
9860     TCGv_i64 res;
9861     bool feature;
9862
9863     switch (u * 16 + opcode) {
9864     case 0x10: /* SQRDMLAH (vector) */
9865     case 0x11: /* SQRDMLSH (vector) */
9866         if (size != 1 && size != 2) {
9867             unallocated_encoding(s);
9868             return;
9869         }
9870         feature = dc_isar_feature(aa64_rdm, s);
9871         break;
9872     default:
9873         unallocated_encoding(s);
9874         return;
9875     }
9876     if (!feature) {
9877         unallocated_encoding(s);
9878         return;
9879     }
9880     if (!fp_access_check(s)) {
9881         return;
9882     }
9883
9884     /* Do a single operation on the lowest element in the vector.
9885      * We use the standard Neon helpers and rely on 0 OP 0 == 0
9886      * with no side effects for all these operations.
9887      * OPTME: special-purpose helpers would avoid doing some
9888      * unnecessary work in the helper for the 16 bit cases.
9889      */
9890     ele1 = tcg_temp_new_i32();
9891     ele2 = tcg_temp_new_i32();
9892     ele3 = tcg_temp_new_i32();
9893
9894     read_vec_element_i32(s, ele1, rn, 0, size);
9895     read_vec_element_i32(s, ele2, rm, 0, size);
9896     read_vec_element_i32(s, ele3, rd, 0, size);
9897
9898     switch (opcode) {
9899     case 0x0: /* SQRDMLAH */
9900         if (size == 1) {
9901             gen_helper_neon_qrdmlah_s16(ele3, cpu_env, ele1, ele2, ele3);
9902         } else {
9903             gen_helper_neon_qrdmlah_s32(ele3, cpu_env, ele1, ele2, ele3);
9904         }
9905         break;
9906     case 0x1: /* SQRDMLSH */
9907         if (size == 1) {
9908             gen_helper_neon_qrdmlsh_s16(ele3, cpu_env, ele1, ele2, ele3);
9909         } else {
9910             gen_helper_neon_qrdmlsh_s32(ele3, cpu_env, ele1, ele2, ele3);
9911         }
9912         break;
9913     default:
9914         g_assert_not_reached();
9915     }
9916     tcg_temp_free_i32(ele1);
9917     tcg_temp_free_i32(ele2);
9918
9919     res = tcg_temp_new_i64();
9920     tcg_gen_extu_i32_i64(res, ele3);
9921     tcg_temp_free_i32(ele3);
9922
9923     write_fp_dreg(s, rd, res);
9924     tcg_temp_free_i64(res);
9925 }
9926
9927 static void handle_2misc_64(DisasContext *s, int opcode, bool u,
9928                             TCGv_i64 tcg_rd, TCGv_i64 tcg_rn,
9929                             TCGv_i32 tcg_rmode, TCGv_ptr tcg_fpstatus)
9930 {
9931     /* Handle 64->64 opcodes which are shared between the scalar and
9932      * vector 2-reg-misc groups. We cover every integer opcode where size == 3
9933      * is valid in either group and also the double-precision fp ops.
9934      * The caller only need provide tcg_rmode and tcg_fpstatus if the op
9935      * requires them.
9936      */
9937     TCGCond cond;
9938
9939     switch (opcode) {
9940     case 0x4: /* CLS, CLZ */
9941         if (u) {
9942             tcg_gen_clzi_i64(tcg_rd, tcg_rn, 64);
9943         } else {
9944             tcg_gen_clrsb_i64(tcg_rd, tcg_rn);
9945         }
9946         break;
9947     case 0x5: /* NOT */
9948         /* This opcode is shared with CNT and RBIT but we have earlier
9949          * enforced that size == 3 if and only if this is the NOT insn.
9950          */
9951         tcg_gen_not_i64(tcg_rd, tcg_rn);
9952         break;
9953     case 0x7: /* SQABS, SQNEG */
9954         if (u) {
9955             gen_helper_neon_qneg_s64(tcg_rd, cpu_env, tcg_rn);
9956         } else {
9957             gen_helper_neon_qabs_s64(tcg_rd, cpu_env, tcg_rn);
9958         }
9959         break;
9960     case 0xa: /* CMLT */
9961         /* 64 bit integer comparison against zero, result is
9962          * test ? (2^64 - 1) : 0. We implement via setcond(!test) and
9963          * subtracting 1.
9964          */
9965         cond = TCG_COND_LT;
9966     do_cmop:
9967         tcg_gen_setcondi_i64(cond, tcg_rd, tcg_rn, 0);
9968         tcg_gen_neg_i64(tcg_rd, tcg_rd);
9969         break;
9970     case 0x8: /* CMGT, CMGE */
9971         cond = u ? TCG_COND_GE : TCG_COND_GT;
9972         goto do_cmop;
9973     case 0x9: /* CMEQ, CMLE */
9974         cond = u ? TCG_COND_LE : TCG_COND_EQ;
9975         goto do_cmop;
9976     case 0xb: /* ABS, NEG */
9977         if (u) {
9978             tcg_gen_neg_i64(tcg_rd, tcg_rn);
9979         } else {
9980             tcg_gen_abs_i64(tcg_rd, tcg_rn);
9981         }
9982         break;
9983     case 0x2f: /* FABS */
9984         gen_helper_vfp_absd(tcg_rd, tcg_rn);
9985         break;
9986     case 0x6f: /* FNEG */
9987         gen_helper_vfp_negd(tcg_rd, tcg_rn);
9988         break;
9989     case 0x7f: /* FSQRT */
9990         gen_helper_vfp_sqrtd(tcg_rd, tcg_rn, cpu_env);
9991         break;
9992     case 0x1a: /* FCVTNS */
9993     case 0x1b: /* FCVTMS */
9994     case 0x1c: /* FCVTAS */
9995     case 0x3a: /* FCVTPS */
9996     case 0x3b: /* FCVTZS */
9997     {
9998         TCGv_i32 tcg_shift = tcg_const_i32(0);
9999         gen_helper_vfp_tosqd(tcg_rd, tcg_rn, tcg_shift, tcg_fpstatus);
10000         tcg_temp_free_i32(tcg_shift);
10001         break;
10002     }
10003     case 0x5a: /* FCVTNU */
10004     case 0x5b: /* FCVTMU */
10005     case 0x5c: /* FCVTAU */
10006     case 0x7a: /* FCVTPU */
10007     case 0x7b: /* FCVTZU */
10008     {
10009         TCGv_i32 tcg_shift = tcg_const_i32(0);
10010         gen_helper_vfp_touqd(tcg_rd, tcg_rn, tcg_shift, tcg_fpstatus);
10011         tcg_temp_free_i32(tcg_shift);
10012         break;
10013     }
10014     case 0x18: /* FRINTN */
10015     case 0x19: /* FRINTM */
10016     case 0x38: /* FRINTP */
10017     case 0x39: /* FRINTZ */
10018     case 0x58: /* FRINTA */
10019     case 0x79: /* FRINTI */
10020         gen_helper_rintd(tcg_rd, tcg_rn, tcg_fpstatus);
10021         break;
10022     case 0x59: /* FRINTX */
10023         gen_helper_rintd_exact(tcg_rd, tcg_rn, tcg_fpstatus);
10024         break;
10025     case 0x1e: /* FRINT32Z */
10026     case 0x5e: /* FRINT32X */
10027         gen_helper_frint32_d(tcg_rd, tcg_rn, tcg_fpstatus);
10028         break;
10029     case 0x1f: /* FRINT64Z */
10030     case 0x5f: /* FRINT64X */
10031         gen_helper_frint64_d(tcg_rd, tcg_rn, tcg_fpstatus);
10032         break;
10033     default:
10034         g_assert_not_reached();
10035     }
10036 }
10037
10038 static void handle_2misc_fcmp_zero(DisasContext *s, int opcode,
10039                                    bool is_scalar, bool is_u, bool is_q,
10040                                    int size, int rn, int rd)
10041 {
10042     bool is_double = (size == MO_64);
10043     TCGv_ptr fpst;
10044
10045     if (!fp_access_check(s)) {
10046         return;
10047     }
10048
10049     fpst = fpstatus_ptr(size == MO_16 ? FPST_FPCR_F16 : FPST_FPCR);
10050
10051     if (is_double) {
10052         TCGv_i64 tcg_op = tcg_temp_new_i64();
10053         TCGv_i64 tcg_zero = tcg_const_i64(0);
10054         TCGv_i64 tcg_res = tcg_temp_new_i64();
10055         NeonGenTwoDoubleOpFn *genfn;
10056         bool swap = false;
10057         int pass;
10058
10059         switch (opcode) {
10060         case 0x2e: /* FCMLT (zero) */
10061             swap = true;
10062             /* fallthrough */
10063         case 0x2c: /* FCMGT (zero) */
10064             genfn = gen_helper_neon_cgt_f64;
10065             break;
10066         case 0x2d: /* FCMEQ (zero) */
10067             genfn = gen_helper_neon_ceq_f64;
10068             break;
10069         case 0x6d: /* FCMLE (zero) */
10070             swap = true;
10071             /* fall through */
10072         case 0x6c: /* FCMGE (zero) */
10073             genfn = gen_helper_neon_cge_f64;
10074             break;
10075         default:
10076             g_assert_not_reached();
10077         }
10078
10079         for (pass = 0; pass < (is_scalar ? 1 : 2); pass++) {
10080             read_vec_element(s, tcg_op, rn, pass, MO_64);
10081             if (swap) {
10082                 genfn(tcg_res, tcg_zero, tcg_op, fpst);
10083             } else {
10084                 genfn(tcg_res, tcg_op, tcg_zero, fpst);
10085             }
10086             write_vec_element(s, tcg_res, rd, pass, MO_64);
10087         }
10088         tcg_temp_free_i64(tcg_res);
10089         tcg_temp_free_i64(tcg_zero);
10090         tcg_temp_free_i64(tcg_op);
10091
10092         clear_vec_high(s, !is_scalar, rd);
10093     } else {
10094         TCGv_i32 tcg_op = tcg_temp_new_i32();
10095         TCGv_i32 tcg_zero = tcg_const_i32(0);
10096         TCGv_i32 tcg_res = tcg_temp_new_i32();
10097         NeonGenTwoSingleOpFn *genfn;
10098         bool swap = false;
10099         int pass, maxpasses;
10100
10101         if (size == MO_16) {
10102             switch (opcode) {
10103             case 0x2e: /* FCMLT (zero) */
10104                 swap = true;
10105                 /* fall through */
10106             case 0x2c: /* FCMGT (zero) */
10107                 genfn = gen_helper_advsimd_cgt_f16;
10108                 break;
10109             case 0x2d: /* FCMEQ (zero) */
10110                 genfn = gen_helper_advsimd_ceq_f16;
10111                 break;
10112             case 0x6d: /* FCMLE (zero) */
10113                 swap = true;
10114                 /* fall through */
10115             case 0x6c: /* FCMGE (zero) */
10116                 genfn = gen_helper_advsimd_cge_f16;
10117                 break;
10118             default:
10119                 g_assert_not_reached();
10120             }
10121         } else {
10122             switch (opcode) {
10123             case 0x2e: /* FCMLT (zero) */
10124                 swap = true;
10125                 /* fall through */
10126             case 0x2c: /* FCMGT (zero) */
10127                 genfn = gen_helper_neon_cgt_f32;
10128                 break;
10129             case 0x2d: /* FCMEQ (zero) */
10130                 genfn = gen_helper_neon_ceq_f32;
10131                 break;
10132             case 0x6d: /* FCMLE (zero) */
10133                 swap = true;
10134                 /* fall through */
10135             case 0x6c: /* FCMGE (zero) */
10136                 genfn = gen_helper_neon_cge_f32;
10137                 break;
10138             default:
10139                 g_assert_not_reached();
10140             }
10141         }
10142
10143         if (is_scalar) {
10144             maxpasses = 1;
10145         } else {
10146             int vector_size = 8 << is_q;
10147             maxpasses = vector_size >> size;
10148         }
10149
10150         for (pass = 0; pass < maxpasses; pass++) {
10151             read_vec_element_i32(s, tcg_op, rn, pass, size);
10152             if (swap) {
10153                 genfn(tcg_res, tcg_zero, tcg_op, fpst);
10154             } else {
10155                 genfn(tcg_res, tcg_op, tcg_zero, fpst);
10156             }
10157             if (is_scalar) {
10158                 write_fp_sreg(s, rd, tcg_res);
10159             } else {
10160                 write_vec_element_i32(s, tcg_res, rd, pass, size);
10161             }
10162         }
10163         tcg_temp_free_i32(tcg_res);
10164         tcg_temp_free_i32(tcg_zero);
10165         tcg_temp_free_i32(tcg_op);
10166         if (!is_scalar) {
10167             clear_vec_high(s, is_q, rd);
10168         }
10169     }
10170
10171     tcg_temp_free_ptr(fpst);
10172 }
10173
10174 static void handle_2misc_reciprocal(DisasContext *s, int opcode,
10175                                     bool is_scalar, bool is_u, bool is_q,
10176                                     int size, int rn, int rd)
10177 {
10178     bool is_double = (size == 3);
10179     TCGv_ptr fpst = fpstatus_ptr(FPST_FPCR);
10180
10181     if (is_double) {
10182         TCGv_i64 tcg_op = tcg_temp_new_i64();
10183         TCGv_i64 tcg_res = tcg_temp_new_i64();
10184         int pass;
10185
10186         for (pass = 0; pass < (is_scalar ? 1 : 2); pass++) {
10187             read_vec_element(s, tcg_op, rn, pass, MO_64);
10188             switch (opcode) {
10189             case 0x3d: /* FRECPE */
10190                 gen_helper_recpe_f64(tcg_res, tcg_op, fpst);
10191                 break;
10192             case 0x3f: /* FRECPX */
10193                 gen_helper_frecpx_f64(tcg_res, tcg_op, fpst);
10194                 break;
10195             case 0x7d: /* FRSQRTE */
10196                 gen_helper_rsqrte_f64(tcg_res, tcg_op, fpst);
10197                 break;
10198             default:
10199                 g_assert_not_reached();
10200             }
10201             write_vec_element(s, tcg_res, rd, pass, MO_64);
10202         }
10203         tcg_temp_free_i64(tcg_res);
10204         tcg_temp_free_i64(tcg_op);
10205         clear_vec_high(s, !is_scalar, rd);
10206     } else {
10207         TCGv_i32 tcg_op = tcg_temp_new_i32();
10208         TCGv_i32 tcg_res = tcg_temp_new_i32();
10209         int pass, maxpasses;
10210
10211         if (is_scalar) {
10212             maxpasses = 1;
10213         } else {
10214             maxpasses = is_q ? 4 : 2;
10215         }
10216
10217         for (pass = 0; pass < maxpasses; pass++) {
10218             read_vec_element_i32(s, tcg_op, rn, pass, MO_32);
10219
10220             switch (opcode) {
10221             case 0x3c: /* URECPE */
10222                 gen_helper_recpe_u32(tcg_res, tcg_op);
10223                 break;
10224             case 0x3d: /* FRECPE */
10225                 gen_helper_recpe_f32(tcg_res, tcg_op, fpst);
10226                 break;
10227             case 0x3f: /* FRECPX */
10228                 gen_helper_frecpx_f32(tcg_res, tcg_op, fpst);
10229                 break;
10230             case 0x7d: /* FRSQRTE */
10231                 gen_helper_rsqrte_f32(tcg_res, tcg_op, fpst);
10232                 break;
10233             default:
10234                 g_assert_not_reached();
10235             }
10236
10237             if (is_scalar) {
10238                 write_fp_sreg(s, rd, tcg_res);
10239             } else {
10240                 write_vec_element_i32(s, tcg_res, rd, pass, MO_32);
10241             }
10242         }
10243         tcg_temp_free_i32(tcg_res);
10244         tcg_temp_free_i32(tcg_op);
10245         if (!is_scalar) {
10246             clear_vec_high(s, is_q, rd);
10247         }
10248     }
10249     tcg_temp_free_ptr(fpst);
10250 }
10251
10252 static void handle_2misc_narrow(DisasContext *s, bool scalar,
10253                                 int opcode, bool u, bool is_q,
10254                                 int size, int rn, int rd)
10255 {
10256     /* Handle 2-reg-misc ops which are narrowing (so each 2*size element
10257      * in the source becomes a size element in the destination).
10258      */
10259     int pass;
10260     TCGv_i32 tcg_res[2];
10261     int destelt = is_q ? 2 : 0;
10262     int passes = scalar ? 1 : 2;
10263
10264     if (scalar) {
10265         tcg_res[1] = tcg_const_i32(0);
10266     }
10267
10268     for (pass = 0; pass < passes; pass++) {
10269         TCGv_i64 tcg_op = tcg_temp_new_i64();
10270         NeonGenNarrowFn *genfn = NULL;
10271         NeonGenNarrowEnvFn *genenvfn = NULL;
10272
10273         if (scalar) {
10274             read_vec_element(s, tcg_op, rn, pass, size + 1);
10275         } else {
10276             read_vec_element(s, tcg_op, rn, pass, MO_64);
10277         }
10278         tcg_res[pass] = tcg_temp_new_i32();
10279
10280         switch (opcode) {
10281         case 0x12: /* XTN, SQXTUN */
10282         {
10283             static NeonGenNarrowFn * const xtnfns[3] = {
10284                 gen_helper_neon_narrow_u8,
10285                 gen_helper_neon_narrow_u16,
10286                 tcg_gen_extrl_i64_i32,
10287             };
10288             static NeonGenNarrowEnvFn * const sqxtunfns[3] = {
10289                 gen_helper_neon_unarrow_sat8,
10290                 gen_helper_neon_unarrow_sat16,
10291                 gen_helper_neon_unarrow_sat32,
10292             };
10293             if (u) {
10294                 genenvfn = sqxtunfns[size];
10295             } else {
10296                 genfn = xtnfns[size];
10297             }
10298             break;
10299         }
10300         case 0x14: /* SQXTN, UQXTN */
10301         {
10302             static NeonGenNarrowEnvFn * const fns[3][2] = {
10303                 { gen_helper_neon_narrow_sat_s8,
10304                   gen_helper_neon_narrow_sat_u8 },
10305                 { gen_helper_neon_narrow_sat_s16,
10306                   gen_helper_neon_narrow_sat_u16 },
10307                 { gen_helper_neon_narrow_sat_s32,
10308                   gen_helper_neon_narrow_sat_u32 },
10309             };
10310             genenvfn = fns[size][u];
10311             break;
10312         }
10313         case 0x16: /* FCVTN, FCVTN2 */
10314             /* 32 bit to 16 bit or 64 bit to 32 bit float conversion */
10315             if (size == 2) {
10316                 gen_helper_vfp_fcvtsd(tcg_res[pass], tcg_op, cpu_env);
10317             } else {
10318                 TCGv_i32 tcg_lo = tcg_temp_new_i32();
10319                 TCGv_i32 tcg_hi = tcg_temp_new_i32();
10320                 TCGv_ptr fpst = fpstatus_ptr(FPST_FPCR);
10321                 TCGv_i32 ahp = get_ahp_flag();
10322
10323                 tcg_gen_extr_i64_i32(tcg_lo, tcg_hi, tcg_op);
10324                 gen_helper_vfp_fcvt_f32_to_f16(tcg_lo, tcg_lo, fpst, ahp);
10325                 gen_helper_vfp_fcvt_f32_to_f16(tcg_hi, tcg_hi, fpst, ahp);
10326                 tcg_gen_deposit_i32(tcg_res[pass], tcg_lo, tcg_hi, 16, 16);
10327                 tcg_temp_free_i32(tcg_lo);
10328                 tcg_temp_free_i32(tcg_hi);
10329                 tcg_temp_free_ptr(fpst);
10330                 tcg_temp_free_i32(ahp);
10331             }
10332             break;
10333         case 0x56:  /* FCVTXN, FCVTXN2 */
10334             /* 64 bit to 32 bit float conversion
10335              * with von Neumann rounding (round to odd)
10336              */
10337             assert(size == 2);
10338             gen_helper_fcvtx_f64_to_f32(tcg_res[pass], tcg_op, cpu_env);
10339             break;
10340         default:
10341             g_assert_not_reached();
10342         }
10343
10344         if (genfn) {
10345             genfn(tcg_res[pass], tcg_op);
10346         } else if (genenvfn) {
10347             genenvfn(tcg_res[pass], cpu_env, tcg_op);
10348         }
10349
10350         tcg_temp_free_i64(tcg_op);
10351     }
10352
10353     for (pass = 0; pass < 2; pass++) {
10354         write_vec_element_i32(s, tcg_res[pass], rd, destelt + pass, MO_32);
10355         tcg_temp_free_i32(tcg_res[pass]);
10356     }
10357     clear_vec_high(s, is_q, rd);
10358 }
10359
10360 /* Remaining saturating accumulating ops */
10361 static void handle_2misc_satacc(DisasContext *s, bool is_scalar, bool is_u,
10362                                 bool is_q, int size, int rn, int rd)
10363 {
10364     bool is_double = (size == 3);
10365
10366     if (is_double) {
10367         TCGv_i64 tcg_rn = tcg_temp_new_i64();
10368         TCGv_i64 tcg_rd = tcg_temp_new_i64();
10369         int pass;
10370
10371         for (pass = 0; pass < (is_scalar ? 1 : 2); pass++) {
10372             read_vec_element(s, tcg_rn, rn, pass, MO_64);
10373             read_vec_element(s, tcg_rd, rd, pass, MO_64);
10374
10375             if (is_u) { /* USQADD */
10376                 gen_helper_neon_uqadd_s64(tcg_rd, cpu_env, tcg_rn, tcg_rd);
10377             } else { /* SUQADD */
10378                 gen_helper_neon_sqadd_u64(tcg_rd, cpu_env, tcg_rn, tcg_rd);
10379             }
10380             write_vec_element(s, tcg_rd, rd, pass, MO_64);
10381         }
10382         tcg_temp_free_i64(tcg_rd);
10383         tcg_temp_free_i64(tcg_rn);
10384         clear_vec_high(s, !is_scalar, rd);
10385     } else {
10386         TCGv_i32 tcg_rn = tcg_temp_new_i32();
10387         TCGv_i32 tcg_rd = tcg_temp_new_i32();
10388         int pass, maxpasses;
10389
10390         if (is_scalar) {
10391             maxpasses = 1;
10392         } else {
10393             maxpasses = is_q ? 4 : 2;
10394         }
10395
10396         for (pass = 0; pass < maxpasses; pass++) {
10397             if (is_scalar) {
10398                 read_vec_element_i32(s, tcg_rn, rn, pass, size);
10399                 read_vec_element_i32(s, tcg_rd, rd, pass, size);
10400             } else {
10401                 read_vec_element_i32(s, tcg_rn, rn, pass, MO_32);
10402                 read_vec_element_i32(s, tcg_rd, rd, pass, MO_32);
10403             }
10404
10405             if (is_u) { /* USQADD */
10406                 switch (size) {
10407                 case 0:
10408                     gen_helper_neon_uqadd_s8(tcg_rd, cpu_env, tcg_rn, tcg_rd);
10409                     break;
10410                 case 1:
10411                     gen_helper_neon_uqadd_s16(tcg_rd, cpu_env, tcg_rn, tcg_rd);
10412                     break;
10413                 case 2:
10414                     gen_helper_neon_uqadd_s32(tcg_rd, cpu_env, tcg_rn, tcg_rd);
10415                     break;
10416                 default:
10417                     g_assert_not_reached();
10418                 }
10419             } else { /* SUQADD */
10420                 switch (size) {
10421                 case 0:
10422                     gen_helper_neon_sqadd_u8(tcg_rd, cpu_env, tcg_rn, tcg_rd);
10423                     break;
10424                 case 1:
10425                     gen_helper_neon_sqadd_u16(tcg_rd, cpu_env, tcg_rn, tcg_rd);
10426                     break;
10427                 case 2:
10428                     gen_helper_neon_sqadd_u32(tcg_rd, cpu_env, tcg_rn, tcg_rd);
10429                     break;
10430                 default:
10431                     g_assert_not_reached();
10432                 }
10433             }
10434
10435             if (is_scalar) {
10436                 TCGv_i64 tcg_zero = tcg_const_i64(0);
10437                 write_vec_element(s, tcg_zero, rd, 0, MO_64);
10438                 tcg_temp_free_i64(tcg_zero);
10439             }
10440             write_vec_element_i32(s, tcg_rd, rd, pass, MO_32);
10441         }
10442         tcg_temp_free_i32(tcg_rd);
10443         tcg_temp_free_i32(tcg_rn);
10444         clear_vec_high(s, is_q, rd);
10445     }
10446 }
10447
10448 /* AdvSIMD scalar two reg misc
10449  *  31 30  29 28       24 23  22 21       17 16    12 11 10 9    5 4    0
10450  * +-----+---+-----------+------+-----------+--------+-----+------+------+
10451  * | 0 1 | U | 1 1 1 1 0 | size | 1 0 0 0 0 | opcode | 1 0 |  Rn  |  Rd  |
10452  * +-----+---+-----------+------+-----------+--------+-----+------+------+
10453  */
10454 static void disas_simd_scalar_two_reg_misc(DisasContext *s, uint32_t insn)
10455 {
10456     int rd = extract32(insn, 0, 5);
10457     int rn = extract32(insn, 5, 5);
10458     int opcode = extract32(insn, 12, 5);
10459     int size = extract32(insn, 22, 2);
10460     bool u = extract32(insn, 29, 1);
10461     bool is_fcvt = false;
10462     int rmode;
10463     TCGv_i32 tcg_rmode;
10464     TCGv_ptr tcg_fpstatus;
10465
10466     switch (opcode) {
10467     case 0x3: /* USQADD / SUQADD*/
10468         if (!fp_access_check(s)) {
10469             return;
10470         }
10471         handle_2misc_satacc(s, true, u, false, size, rn, rd);
10472         return;
10473     case 0x7: /* SQABS / SQNEG */
10474         break;
10475     case 0xa: /* CMLT */
10476         if (u) {
10477             unallocated_encoding(s);
10478             return;
10479         }
10480         /* fall through */
10481     case 0x8: /* CMGT, CMGE */
10482     case 0x9: /* CMEQ, CMLE */
10483     case 0xb: /* ABS, NEG */
10484         if (size != 3) {
10485             unallocated_encoding(s);
10486             return;
10487         }
10488         break;
10489     case 0x12: /* SQXTUN */
10490         if (!u) {
10491             unallocated_encoding(s);
10492             return;
10493         }
10494         /* fall through */
10495     case 0x14: /* SQXTN, UQXTN */
10496         if (size == 3) {
10497             unallocated_encoding(s);
10498             return;
10499         }
10500         if (!fp_access_check(s)) {
10501             return;
10502         }
10503         handle_2misc_narrow(s, true, opcode, u, false, size, rn, rd);
10504         return;
10505     case 0xc ... 0xf:
10506     case 0x16 ... 0x1d:
10507     case 0x1f:
10508         /* Floating point: U, size[1] and opcode indicate operation;
10509          * size[0] indicates single or double precision.
10510          */
10511         opcode |= (extract32(size, 1, 1) << 5) | (u << 6);
10512         size = extract32(size, 0, 1) ? 3 : 2;
10513         switch (opcode) {
10514         case 0x2c: /* FCMGT (zero) */
10515         case 0x2d: /* FCMEQ (zero) */
10516         case 0x2e: /* FCMLT (zero) */
10517         case 0x6c: /* FCMGE (zero) */
10518         case 0x6d: /* FCMLE (zero) */
10519             handle_2misc_fcmp_zero(s, opcode, true, u, true, size, rn, rd);
10520             return;
10521         case 0x1d: /* SCVTF */
10522         case 0x5d: /* UCVTF */
10523         {
10524             bool is_signed = (opcode == 0x1d);
10525             if (!fp_access_check(s)) {
10526                 return;
10527             }
10528             handle_simd_intfp_conv(s, rd, rn, 1, is_signed, 0, size);
10529             return;
10530         }
10531         case 0x3d: /* FRECPE */
10532         case 0x3f: /* FRECPX */
10533         case 0x7d: /* FRSQRTE */
10534             if (!fp_access_check(s)) {
10535                 return;
10536             }
10537             handle_2misc_reciprocal(s, opcode, true, u, true, size, rn, rd);
10538             return;
10539         case 0x1a: /* FCVTNS */
10540         case 0x1b: /* FCVTMS */
10541         case 0x3a: /* FCVTPS */
10542         case 0x3b: /* FCVTZS */
10543         case 0x5a: /* FCVTNU */
10544         case 0x5b: /* FCVTMU */
10545         case 0x7a: /* FCVTPU */
10546         case 0x7b: /* FCVTZU */
10547             is_fcvt = true;
10548             rmode = extract32(opcode, 5, 1) | (extract32(opcode, 0, 1) << 1);
10549             break;
10550         case 0x1c: /* FCVTAS */
10551         case 0x5c: /* FCVTAU */
10552             /* TIEAWAY doesn't fit in the usual rounding mode encoding */
10553             is_fcvt = true;
10554             rmode = FPROUNDING_TIEAWAY;
10555             break;
10556         case 0x56: /* FCVTXN, FCVTXN2 */
10557             if (size == 2) {
10558                 unallocated_encoding(s);
10559                 return;
10560             }
10561             if (!fp_access_check(s)) {
10562                 return;
10563             }
10564             handle_2misc_narrow(s, true, opcode, u, false, size - 1, rn, rd);
10565             return;
10566         default:
10567             unallocated_encoding(s);
10568             return;
10569         }
10570         break;
10571     default:
10572         unallocated_encoding(s);
10573         return;
10574     }
10575
10576     if (!fp_access_check(s)) {
10577         return;
10578     }
10579
10580     if (is_fcvt) {
10581         tcg_rmode = tcg_const_i32(arm_rmode_to_sf(rmode));
10582         tcg_fpstatus = fpstatus_ptr(FPST_FPCR);
10583         gen_helper_set_rmode(tcg_rmode, tcg_rmode, tcg_fpstatus);
10584     } else {
10585         tcg_rmode = NULL;
10586         tcg_fpstatus = NULL;
10587     }
10588
10589     if (size == 3) {
10590         TCGv_i64 tcg_rn = read_fp_dreg(s, rn);
10591         TCGv_i64 tcg_rd = tcg_temp_new_i64();
10592
10593         handle_2misc_64(s, opcode, u, tcg_rd, tcg_rn, tcg_rmode, tcg_fpstatus);
10594         write_fp_dreg(s, rd, tcg_rd);
10595         tcg_temp_free_i64(tcg_rd);
10596         tcg_temp_free_i64(tcg_rn);
10597     } else {
10598         TCGv_i32 tcg_rn = tcg_temp_new_i32();
10599         TCGv_i32 tcg_rd = tcg_temp_new_i32();
10600
10601         read_vec_element_i32(s, tcg_rn, rn, 0, size);
10602
10603         switch (opcode) {
10604         case 0x7: /* SQABS, SQNEG */
10605         {
10606             NeonGenOneOpEnvFn *genfn;
10607             static NeonGenOneOpEnvFn * const fns[3][2] = {
10608                 { gen_helper_neon_qabs_s8, gen_helper_neon_qneg_s8 },
10609                 { gen_helper_neon_qabs_s16, gen_helper_neon_qneg_s16 },
10610                 { gen_helper_neon_qabs_s32, gen_helper_neon_qneg_s32 },
10611             };
10612             genfn = fns[size][u];
10613             genfn(tcg_rd, cpu_env, tcg_rn);
10614             break;
10615         }
10616         case 0x1a: /* FCVTNS */
10617         case 0x1b: /* FCVTMS */
10618         case 0x1c: /* FCVTAS */
10619         case 0x3a: /* FCVTPS */
10620         case 0x3b: /* FCVTZS */
10621         {
10622             TCGv_i32 tcg_shift = tcg_const_i32(0);
10623             gen_helper_vfp_tosls(tcg_rd, tcg_rn, tcg_shift, tcg_fpstatus);
10624             tcg_temp_free_i32(tcg_shift);
10625             break;
10626         }
10627         case 0x5a: /* FCVTNU */
10628         case 0x5b: /* FCVTMU */
10629         case 0x5c: /* FCVTAU */
10630         case 0x7a: /* FCVTPU */
10631         case 0x7b: /* FCVTZU */
10632         {
10633             TCGv_i32 tcg_shift = tcg_const_i32(0);
10634             gen_helper_vfp_touls(tcg_rd, tcg_rn, tcg_shift, tcg_fpstatus);
10635             tcg_temp_free_i32(tcg_shift);
10636             break;
10637         }
10638         default:
10639             g_assert_not_reached();
10640         }
10641
10642         write_fp_sreg(s, rd, tcg_rd);
10643         tcg_temp_free_i32(tcg_rd);
10644         tcg_temp_free_i32(tcg_rn);
10645     }
10646
10647     if (is_fcvt) {
10648         gen_helper_set_rmode(tcg_rmode, tcg_rmode, tcg_fpstatus);
10649         tcg_temp_free_i32(tcg_rmode);
10650         tcg_temp_free_ptr(tcg_fpstatus);
10651     }
10652 }
10653
10654 /* SSHR[RA]/USHR[RA] - Vector shift right (optional rounding/accumulate) */
10655 static void handle_vec_simd_shri(DisasContext *s, bool is_q, bool is_u,
10656                                  int immh, int immb, int opcode, int rn, int rd)
10657 {
10658     int size = 32 - clz32(immh) - 1;
10659     int immhb = immh << 3 | immb;
10660     int shift = 2 * (8 << size) - immhb;
10661     GVecGen2iFn *gvec_fn;
10662
10663     if (extract32(immh, 3, 1) && !is_q) {
10664         unallocated_encoding(s);
10665         return;
10666     }
10667     tcg_debug_assert(size <= 3);
10668
10669     if (!fp_access_check(s)) {
10670         return;
10671     }
10672
10673     switch (opcode) {
10674     case 0x02: /* SSRA / USRA (accumulate) */
10675         gvec_fn = is_u ? gen_gvec_usra : gen_gvec_ssra;
10676         break;
10677
10678     case 0x08: /* SRI */
10679         gvec_fn = gen_gvec_sri;
10680         break;
10681
10682     case 0x00: /* SSHR / USHR */
10683         if (is_u) {
10684             if (shift == 8 << size) {
10685                 /* Shift count the same size as element size produces zero.  */
10686                 tcg_gen_gvec_dup_imm(size, vec_full_reg_offset(s, rd),
10687                                      is_q ? 16 : 8, vec_full_reg_size(s), 0);
10688                 return;
10689             }
10690             gvec_fn = tcg_gen_gvec_shri;
10691         } else {
10692             /* Shift count the same size as element size produces all sign.  */
10693             if (shift == 8 << size) {
10694                 shift -= 1;
10695             }
10696             gvec_fn = tcg_gen_gvec_sari;
10697         }
10698         break;
10699
10700     case 0x04: /* SRSHR / URSHR (rounding) */
10701         gvec_fn = is_u ? gen_gvec_urshr : gen_gvec_srshr;
10702         break;
10703
10704     case 0x06: /* SRSRA / URSRA (accum + rounding) */
10705         gvec_fn = is_u ? gen_gvec_ursra : gen_gvec_srsra;
10706         break;
10707
10708     default:
10709         g_assert_not_reached();
10710     }
10711
10712     gen_gvec_fn2i(s, is_q, rd, rn, shift, gvec_fn, size);
10713 }
10714
10715 /* SHL/SLI - Vector shift left */
10716 static void handle_vec_simd_shli(DisasContext *s, bool is_q, bool insert,
10717                                  int immh, int immb, int opcode, int rn, int rd)
10718 {
10719     int size = 32 - clz32(immh) - 1;
10720     int immhb = immh << 3 | immb;
10721     int shift = immhb - (8 << size);
10722
10723     /* Range of size is limited by decode: immh is a non-zero 4 bit field */
10724     assert(size >= 0 && size <= 3);
10725
10726     if (extract32(immh, 3, 1) && !is_q) {
10727         unallocated_encoding(s);
10728         return;
10729     }
10730
10731     if (!fp_access_check(s)) {
10732         return;
10733     }
10734
10735     if (insert) {
10736         gen_gvec_fn2i(s, is_q, rd, rn, shift, gen_gvec_sli, size);
10737     } else {
10738         gen_gvec_fn2i(s, is_q, rd, rn, shift, tcg_gen_gvec_shli, size);
10739     }
10740 }
10741
10742 /* USHLL/SHLL - Vector shift left with widening */
10743 static void handle_vec_simd_wshli(DisasContext *s, bool is_q, bool is_u,
10744                                  int immh, int immb, int opcode, int rn, int rd)
10745 {
10746     int size = 32 - clz32(immh) - 1;
10747     int immhb = immh << 3 | immb;
10748     int shift = immhb - (8 << size);
10749     int dsize = 64;
10750     int esize = 8 << size;
10751     int elements = dsize/esize;
10752     TCGv_i64 tcg_rn = new_tmp_a64(s);
10753     TCGv_i64 tcg_rd = new_tmp_a64(s);
10754     int i;
10755
10756     if (size >= 3) {
10757         unallocated_encoding(s);
10758         return;
10759     }
10760
10761     if (!fp_access_check(s)) {
10762         return;
10763     }
10764
10765     /* For the LL variants the store is larger than the load,
10766      * so if rd == rn we would overwrite parts of our input.
10767      * So load everything right now and use shifts in the main loop.
10768      */
10769     read_vec_element(s, tcg_rn, rn, is_q ? 1 : 0, MO_64);
10770
10771     for (i = 0; i < elements; i++) {
10772         tcg_gen_shri_i64(tcg_rd, tcg_rn, i * esize);
10773         ext_and_shift_reg(tcg_rd, tcg_rd, size | (!is_u << 2), 0);
10774         tcg_gen_shli_i64(tcg_rd, tcg_rd, shift);
10775         write_vec_element(s, tcg_rd, rd, i, size + 1);
10776     }
10777 }
10778
10779 /* SHRN/RSHRN - Shift right with narrowing (and potential rounding) */
10780 static void handle_vec_simd_shrn(DisasContext *s, bool is_q,
10781                                  int immh, int immb, int opcode, int rn, int rd)
10782 {
10783     int immhb = immh << 3 | immb;
10784     int size = 32 - clz32(immh) - 1;
10785     int dsize = 64;
10786     int esize = 8 << size;
10787     int elements = dsize/esize;
10788     int shift = (2 * esize) - immhb;
10789     bool round = extract32(opcode, 0, 1);
10790     TCGv_i64 tcg_rn, tcg_rd, tcg_final;
10791     TCGv_i64 tcg_round;
10792     int i;
10793
10794     if (extract32(immh, 3, 1)) {
10795         unallocated_encoding(s);
10796         return;
10797     }
10798
10799     if (!fp_access_check(s)) {
10800         return;
10801     }
10802
10803     tcg_rn = tcg_temp_new_i64();
10804     tcg_rd = tcg_temp_new_i64();
10805     tcg_final = tcg_temp_new_i64();
10806     read_vec_element(s, tcg_final, rd, is_q ? 1 : 0, MO_64);
10807
10808     if (round) {
10809         uint64_t round_const = 1ULL << (shift - 1);
10810         tcg_round = tcg_const_i64(round_const);
10811     } else {
10812         tcg_round = NULL;
10813     }
10814
10815     for (i = 0; i < elements; i++) {
10816         read_vec_element(s, tcg_rn, rn, i, size+1);
10817         handle_shri_with_rndacc(tcg_rd, tcg_rn, tcg_round,
10818                                 false, true, size+1, shift);
10819
10820         tcg_gen_deposit_i64(tcg_final, tcg_final, tcg_rd, esize * i, esize);
10821     }
10822
10823     if (!is_q) {
10824         write_vec_element(s, tcg_final, rd, 0, MO_64);
10825     } else {
10826         write_vec_element(s, tcg_final, rd, 1, MO_64);
10827     }
10828     if (round) {
10829         tcg_temp_free_i64(tcg_round);
10830     }
10831     tcg_temp_free_i64(tcg_rn);
10832     tcg_temp_free_i64(tcg_rd);
10833     tcg_temp_free_i64(tcg_final);
10834
10835     clear_vec_high(s, is_q, rd);
10836 }
10837
10838
10839 /* AdvSIMD shift by immediate
10840  *  31  30   29 28         23 22  19 18  16 15    11  10 9    5 4    0
10841  * +---+---+---+-------------+------+------+--------+---+------+------+
10842  * | 0 | Q | U | 0 1 1 1 1 0 | immh | immb | opcode | 1 |  Rn  |  Rd  |
10843  * +---+---+---+-------------+------+------+--------+---+------+------+
10844  */
10845 static void disas_simd_shift_imm(DisasContext *s, uint32_t insn)
10846 {
10847     int rd = extract32(insn, 0, 5);
10848     int rn = extract32(insn, 5, 5);
10849     int opcode = extract32(insn, 11, 5);
10850     int immb = extract32(insn, 16, 3);
10851     int immh = extract32(insn, 19, 4);
10852     bool is_u = extract32(insn, 29, 1);
10853     bool is_q = extract32(insn, 30, 1);
10854
10855     /* data_proc_simd[] has sent immh == 0 to disas_simd_mod_imm. */
10856     assert(immh != 0);
10857
10858     switch (opcode) {
10859     case 0x08: /* SRI */
10860         if (!is_u) {
10861             unallocated_encoding(s);
10862             return;
10863         }
10864         /* fall through */
10865     case 0x00: /* SSHR / USHR */
10866     case 0x02: /* SSRA / USRA (accumulate) */
10867     case 0x04: /* SRSHR / URSHR (rounding) */
10868     case 0x06: /* SRSRA / URSRA (accum + rounding) */
10869         handle_vec_simd_shri(s, is_q, is_u, immh, immb, opcode, rn, rd);
10870         break;
10871     case 0x0a: /* SHL / SLI */
10872         handle_vec_simd_shli(s, is_q, is_u, immh, immb, opcode, rn, rd);
10873         break;
10874     case 0x10: /* SHRN */
10875     case 0x11: /* RSHRN / SQRSHRUN */
10876         if (is_u) {
10877             handle_vec_simd_sqshrn(s, false, is_q, false, true, immh, immb,
10878                                    opcode, rn, rd);
10879         } else {
10880             handle_vec_simd_shrn(s, is_q, immh, immb, opcode, rn, rd);
10881         }
10882         break;
10883     case 0x12: /* SQSHRN / UQSHRN */
10884     case 0x13: /* SQRSHRN / UQRSHRN */
10885         handle_vec_simd_sqshrn(s, false, is_q, is_u, is_u, immh, immb,
10886                                opcode, rn, rd);
10887         break;
10888     case 0x14: /* SSHLL / USHLL */
10889         handle_vec_simd_wshli(s, is_q, is_u, immh, immb, opcode, rn, rd);
10890         break;
10891     case 0x1c: /* SCVTF / UCVTF */
10892         handle_simd_shift_intfp_conv(s, false, is_q, is_u, immh, immb,
10893                                      opcode, rn, rd);
10894         break;
10895     case 0xc: /* SQSHLU */
10896         if (!is_u) {
10897             unallocated_encoding(s);
10898             return;
10899         }
10900         handle_simd_qshl(s, false, is_q, false, true, immh, immb, rn, rd);
10901         break;
10902     case 0xe: /* SQSHL, UQSHL */
10903         handle_simd_qshl(s, false, is_q, is_u, is_u, immh, immb, rn, rd);
10904         break;
10905     case 0x1f: /* FCVTZS/ FCVTZU */
10906         handle_simd_shift_fpint_conv(s, false, is_q, is_u, immh, immb, rn, rd);
10907         return;
10908     default:
10909         unallocated_encoding(s);
10910         return;
10911     }
10912 }
10913
10914 /* Generate code to do a "long" addition or subtraction, ie one done in
10915  * TCGv_i64 on vector lanes twice the width specified by size.
10916  */
10917 static void gen_neon_addl(int size, bool is_sub, TCGv_i64 tcg_res,
10918                           TCGv_i64 tcg_op1, TCGv_i64 tcg_op2)
10919 {
10920     static NeonGenTwo64OpFn * const fns[3][2] = {
10921         { gen_helper_neon_addl_u16, gen_helper_neon_subl_u16 },
10922         { gen_helper_neon_addl_u32, gen_helper_neon_subl_u32 },
10923         { tcg_gen_add_i64, tcg_gen_sub_i64 },
10924     };
10925     NeonGenTwo64OpFn *genfn;
10926     assert(size < 3);
10927
10928     genfn = fns[size][is_sub];
10929     genfn(tcg_res, tcg_op1, tcg_op2);
10930 }
10931
10932 static void handle_3rd_widening(DisasContext *s, int is_q, int is_u, int size,
10933                                 int opcode, int rd, int rn, int rm)
10934 {
10935     /* 3-reg-different widening insns: 64 x 64 -> 128 */
10936     TCGv_i64 tcg_res[2];
10937     int pass, accop;
10938
10939     tcg_res[0] = tcg_temp_new_i64();
10940     tcg_res[1] = tcg_temp_new_i64();
10941
10942     /* Does this op do an adding accumulate, a subtracting accumulate,
10943      * or no accumulate at all?
10944      */
10945     switch (opcode) {
10946     case 5:
10947     case 8:
10948     case 9:
10949         accop = 1;
10950         break;
10951     case 10:
10952     case 11:
10953         accop = -1;
10954         break;
10955     default:
10956         accop = 0;
10957         break;
10958     }
10959
10960     if (accop != 0) {
10961         read_vec_element(s, tcg_res[0], rd, 0, MO_64);
10962         read_vec_element(s, tcg_res[1], rd, 1, MO_64);
10963     }
10964
10965     /* size == 2 means two 32x32->64 operations; this is worth special
10966      * casing because we can generally handle it inline.
10967      */
10968     if (size == 2) {
10969         for (pass = 0; pass < 2; pass++) {
10970             TCGv_i64 tcg_op1 = tcg_temp_new_i64();
10971             TCGv_i64 tcg_op2 = tcg_temp_new_i64();
10972             TCGv_i64 tcg_passres;
10973             MemOp memop = MO_32 | (is_u ? 0 : MO_SIGN);
10974
10975             int elt = pass + is_q * 2;
10976
10977             read_vec_element(s, tcg_op1, rn, elt, memop);
10978             read_vec_element(s, tcg_op2, rm, elt, memop);
10979
10980             if (accop == 0) {
10981                 tcg_passres = tcg_res[pass];
10982             } else {
10983                 tcg_passres = tcg_temp_new_i64();
10984             }
10985
10986             switch (opcode) {
10987             case 0: /* SADDL, SADDL2, UADDL, UADDL2 */
10988                 tcg_gen_add_i64(tcg_passres, tcg_op1, tcg_op2);
10989                 break;
10990             case 2: /* SSUBL, SSUBL2, USUBL, USUBL2 */
10991                 tcg_gen_sub_i64(tcg_passres, tcg_op1, tcg_op2);
10992                 break;
10993             case 5: /* SABAL, SABAL2, UABAL, UABAL2 */
10994             case 7: /* SABDL, SABDL2, UABDL, UABDL2 */
10995             {
10996                 TCGv_i64 tcg_tmp1 = tcg_temp_new_i64();
10997                 TCGv_i64 tcg_tmp2 = tcg_temp_new_i64();
10998
10999                 tcg_gen_sub_i64(tcg_tmp1, tcg_op1, tcg_op2);
11000                 tcg_gen_sub_i64(tcg_tmp2, tcg_op2, tcg_op1);
11001                 tcg_gen_movcond_i64(is_u ? TCG_COND_GEU : TCG_COND_GE,
11002                                     tcg_passres,
11003                                     tcg_op1, tcg_op2, tcg_tmp1, tcg_tmp2);
11004                 tcg_temp_free_i64(tcg_tmp1);
11005                 tcg_temp_free_i64(tcg_tmp2);
11006                 break;
11007             }
11008             case 8: /* SMLAL, SMLAL2, UMLAL, UMLAL2 */
11009             case 10: /* SMLSL, SMLSL2, UMLSL, UMLSL2 */
11010             case 12: /* UMULL, UMULL2, SMULL, SMULL2 */
11011                 tcg_gen_mul_i64(tcg_passres, tcg_op1, tcg_op2);
11012                 break;
11013             case 9: /* SQDMLAL, SQDMLAL2 */
11014             case 11: /* SQDMLSL, SQDMLSL2 */
11015             case 13: /* SQDMULL, SQDMULL2 */
11016                 tcg_gen_mul_i64(tcg_passres, tcg_op1, tcg_op2);
11017                 gen_helper_neon_addl_saturate_s64(tcg_passres, cpu_env,
11018                                                   tcg_passres, tcg_passres);
11019                 break;
11020             default:
11021                 g_assert_not_reached();
11022             }
11023
11024             if (opcode == 9 || opcode == 11) {
11025                 /* saturating accumulate ops */
11026                 if (accop < 0) {
11027                     tcg_gen_neg_i64(tcg_passres, tcg_passres);
11028                 }
11029                 gen_helper_neon_addl_saturate_s64(tcg_res[pass], cpu_env,
11030                                                   tcg_res[pass], tcg_passres);
11031             } else if (accop > 0) {
11032                 tcg_gen_add_i64(tcg_res[pass], tcg_res[pass], tcg_passres);
11033             } else if (accop < 0) {
11034                 tcg_gen_sub_i64(tcg_res[pass], tcg_res[pass], tcg_passres);
11035             }
11036
11037             if (accop != 0) {
11038                 tcg_temp_free_i64(tcg_passres);
11039             }
11040
11041             tcg_temp_free_i64(tcg_op1);
11042             tcg_temp_free_i64(tcg_op2);
11043         }
11044     } else {
11045         /* size 0 or 1, generally helper functions */
11046         for (pass = 0; pass < 2; pass++) {
11047             TCGv_i32 tcg_op1 = tcg_temp_new_i32();
11048             TCGv_i32 tcg_op2 = tcg_temp_new_i32();
11049             TCGv_i64 tcg_passres;
11050             int elt = pass + is_q * 2;
11051
11052             read_vec_element_i32(s, tcg_op1, rn, elt, MO_32);
11053             read_vec_element_i32(s, tcg_op2, rm, elt, MO_32);
11054
11055             if (accop == 0) {
11056                 tcg_passres = tcg_res[pass];
11057             } else {
11058                 tcg_passres = tcg_temp_new_i64();
11059             }
11060
11061             switch (opcode) {
11062             case 0: /* SADDL, SADDL2, UADDL, UADDL2 */
11063             case 2: /* SSUBL, SSUBL2, USUBL, USUBL2 */
11064             {
11065                 TCGv_i64 tcg_op2_64 = tcg_temp_new_i64();
11066                 static NeonGenWidenFn * const widenfns[2][2] = {
11067                     { gen_helper_neon_widen_s8, gen_helper_neon_widen_u8 },
11068                     { gen_helper_neon_widen_s16, gen_helper_neon_widen_u16 },
11069                 };
11070                 NeonGenWidenFn *widenfn = widenfns[size][is_u];
11071
11072                 widenfn(tcg_op2_64, tcg_op2);
11073                 widenfn(tcg_passres, tcg_op1);
11074                 gen_neon_addl(size, (opcode == 2), tcg_passres,
11075                               tcg_passres, tcg_op2_64);
11076                 tcg_temp_free_i64(tcg_op2_64);
11077                 break;
11078             }
11079             case 5: /* SABAL, SABAL2, UABAL, UABAL2 */
11080             case 7: /* SABDL, SABDL2, UABDL, UABDL2 */
11081                 if (size == 0) {
11082                     if (is_u) {
11083                         gen_helper_neon_abdl_u16(tcg_passres, tcg_op1, tcg_op2);
11084                     } else {
11085                         gen_helper_neon_abdl_s16(tcg_passres, tcg_op1, tcg_op2);
11086                     }
11087                 } else {
11088                     if (is_u) {
11089                         gen_helper_neon_abdl_u32(tcg_passres, tcg_op1, tcg_op2);
11090                     } else {
11091                         gen_helper_neon_abdl_s32(tcg_passres, tcg_op1, tcg_op2);
11092                     }
11093                 }
11094                 break;
11095             case 8: /* SMLAL, SMLAL2, UMLAL, UMLAL2 */
11096             case 10: /* SMLSL, SMLSL2, UMLSL, UMLSL2 */
11097             case 12: /* UMULL, UMULL2, SMULL, SMULL2 */
11098                 if (size == 0) {
11099                     if (is_u) {
11100                         gen_helper_neon_mull_u8(tcg_passres, tcg_op1, tcg_op2);
11101                     } else {
11102                         gen_helper_neon_mull_s8(tcg_passres, tcg_op1, tcg_op2);
11103                     }
11104                 } else {
11105                     if (is_u) {
11106                         gen_helper_neon_mull_u16(tcg_passres, tcg_op1, tcg_op2);
11107                     } else {
11108                         gen_helper_neon_mull_s16(tcg_passres, tcg_op1, tcg_op2);
11109                     }
11110                 }
11111                 break;
11112             case 9: /* SQDMLAL, SQDMLAL2 */
11113             case 11: /* SQDMLSL, SQDMLSL2 */
11114             case 13: /* SQDMULL, SQDMULL2 */
11115                 assert(size == 1);
11116                 gen_helper_neon_mull_s16(tcg_passres, tcg_op1, tcg_op2);
11117                 gen_helper_neon_addl_saturate_s32(tcg_passres, cpu_env,
11118                                                   tcg_passres, tcg_passres);
11119                 break;
11120             default:
11121                 g_assert_not_reached();
11122             }
11123             tcg_temp_free_i32(tcg_op1);
11124             tcg_temp_free_i32(tcg_op2);
11125
11126             if (accop != 0) {
11127                 if (opcode == 9 || opcode == 11) {
11128                     /* saturating accumulate ops */
11129                     if (accop < 0) {
11130                         gen_helper_neon_negl_u32(tcg_passres, tcg_passres);
11131                     }
11132                     gen_helper_neon_addl_saturate_s32(tcg_res[pass], cpu_env,
11133                                                       tcg_res[pass],
11134                                                       tcg_passres);
11135                 } else {
11136                     gen_neon_addl(size, (accop < 0), tcg_res[pass],
11137                                   tcg_res[pass], tcg_passres);
11138                 }
11139                 tcg_temp_free_i64(tcg_passres);
11140             }
11141         }
11142     }
11143
11144     write_vec_element(s, tcg_res[0], rd, 0, MO_64);
11145     write_vec_element(s, tcg_res[1], rd, 1, MO_64);
11146     tcg_temp_free_i64(tcg_res[0]);
11147     tcg_temp_free_i64(tcg_res[1]);
11148 }
11149
11150 static void handle_3rd_wide(DisasContext *s, int is_q, int is_u, int size,
11151                             int opcode, int rd, int rn, int rm)
11152 {
11153     TCGv_i64 tcg_res[2];
11154     int part = is_q ? 2 : 0;
11155     int pass;
11156
11157     for (pass = 0; pass < 2; pass++) {
11158         TCGv_i64 tcg_op1 = tcg_temp_new_i64();
11159         TCGv_i32 tcg_op2 = tcg_temp_new_i32();
11160         TCGv_i64 tcg_op2_wide = tcg_temp_new_i64();
11161         static NeonGenWidenFn * const widenfns[3][2] = {
11162             { gen_helper_neon_widen_s8, gen_helper_neon_widen_u8 },
11163             { gen_helper_neon_widen_s16, gen_helper_neon_widen_u16 },
11164             { tcg_gen_ext_i32_i64, tcg_gen_extu_i32_i64 },
11165         };
11166         NeonGenWidenFn *widenfn = widenfns[size][is_u];
11167
11168         read_vec_element(s, tcg_op1, rn, pass, MO_64);
11169         read_vec_element_i32(s, tcg_op2, rm, part + pass, MO_32);
11170         widenfn(tcg_op2_wide, tcg_op2);
11171         tcg_temp_free_i32(tcg_op2);
11172         tcg_res[pass] = tcg_temp_new_i64();
11173         gen_neon_addl(size, (opcode == 3),
11174                       tcg_res[pass], tcg_op1, tcg_op2_wide);
11175         tcg_temp_free_i64(tcg_op1);
11176         tcg_temp_free_i64(tcg_op2_wide);
11177     }
11178
11179     for (pass = 0; pass < 2; pass++) {
11180         write_vec_element(s, tcg_res[pass], rd, pass, MO_64);
11181         tcg_temp_free_i64(tcg_res[pass]);
11182     }
11183 }
11184
11185 static void do_narrow_round_high_u32(TCGv_i32 res, TCGv_i64 in)
11186 {
11187     tcg_gen_addi_i64(in, in, 1U << 31);
11188     tcg_gen_extrh_i64_i32(res, in);
11189 }
11190
11191 static void handle_3rd_narrowing(DisasContext *s, int is_q, int is_u, int size,
11192                                  int opcode, int rd, int rn, int rm)
11193 {
11194     TCGv_i32 tcg_res[2];
11195     int part = is_q ? 2 : 0;
11196     int pass;
11197
11198     for (pass = 0; pass < 2; pass++) {
11199         TCGv_i64 tcg_op1 = tcg_temp_new_i64();
11200         TCGv_i64 tcg_op2 = tcg_temp_new_i64();
11201         TCGv_i64 tcg_wideres = tcg_temp_new_i64();
11202         static NeonGenNarrowFn * const narrowfns[3][2] = {
11203             { gen_helper_neon_narrow_high_u8,
11204               gen_helper_neon_narrow_round_high_u8 },
11205             { gen_helper_neon_narrow_high_u16,
11206               gen_helper_neon_narrow_round_high_u16 },
11207             { tcg_gen_extrh_i64_i32, do_narrow_round_high_u32 },
11208         };
11209         NeonGenNarrowFn *gennarrow = narrowfns[size][is_u];
11210
11211         read_vec_element(s, tcg_op1, rn, pass, MO_64);
11212         read_vec_element(s, tcg_op2, rm, pass, MO_64);
11213
11214         gen_neon_addl(size, (opcode == 6), tcg_wideres, tcg_op1, tcg_op2);
11215
11216         tcg_temp_free_i64(tcg_op1);
11217         tcg_temp_free_i64(tcg_op2);
11218
11219         tcg_res[pass] = tcg_temp_new_i32();
11220         gennarrow(tcg_res[pass], tcg_wideres);
11221         tcg_temp_free_i64(tcg_wideres);
11222     }
11223
11224     for (pass = 0; pass < 2; pass++) {
11225         write_vec_element_i32(s, tcg_res[pass], rd, pass + part, MO_32);
11226         tcg_temp_free_i32(tcg_res[pass]);
11227     }
11228     clear_vec_high(s, is_q, rd);
11229 }
11230
11231 /* AdvSIMD three different
11232  *   31  30  29 28       24 23  22  21 20  16 15    12 11 10 9    5 4    0
11233  * +---+---+---+-----------+------+---+------+--------+-----+------+------+
11234  * | 0 | Q | U | 0 1 1 1 0 | size | 1 |  Rm  | opcode | 0 0 |  Rn  |  Rd  |
11235  * +---+---+---+-----------+------+---+------+--------+-----+------+------+
11236  */
11237 static void disas_simd_three_reg_diff(DisasContext *s, uint32_t insn)
11238 {
11239     /* Instructions in this group fall into three basic classes
11240      * (in each case with the operation working on each element in
11241      * the input vectors):
11242      * (1) widening 64 x 64 -> 128 (with possibly Vd as an extra
11243      *     128 bit input)
11244      * (2) wide 64 x 128 -> 128
11245      * (3) narrowing 128 x 128 -> 64
11246      * Here we do initial decode, catch unallocated cases and
11247      * dispatch to separate functions for each class.
11248      */
11249     int is_q = extract32(insn, 30, 1);
11250     int is_u = extract32(insn, 29, 1);
11251     int size = extract32(insn, 22, 2);
11252     int opcode = extract32(insn, 12, 4);
11253     int rm = extract32(insn, 16, 5);
11254     int rn = extract32(insn, 5, 5);
11255     int rd = extract32(insn, 0, 5);
11256
11257     switch (opcode) {
11258     case 1: /* SADDW, SADDW2, UADDW, UADDW2 */
11259     case 3: /* SSUBW, SSUBW2, USUBW, USUBW2 */
11260         /* 64 x 128 -> 128 */
11261         if (size == 3) {
11262             unallocated_encoding(s);
11263             return;
11264         }
11265         if (!fp_access_check(s)) {
11266             return;
11267         }
11268         handle_3rd_wide(s, is_q, is_u, size, opcode, rd, rn, rm);
11269         break;
11270     case 4: /* ADDHN, ADDHN2, RADDHN, RADDHN2 */
11271     case 6: /* SUBHN, SUBHN2, RSUBHN, RSUBHN2 */
11272         /* 128 x 128 -> 64 */
11273         if (size == 3) {
11274             unallocated_encoding(s);
11275             return;
11276         }
11277         if (!fp_access_check(s)) {
11278             return;
11279         }
11280         handle_3rd_narrowing(s, is_q, is_u, size, opcode, rd, rn, rm);
11281         break;
11282     case 14: /* PMULL, PMULL2 */
11283         if (is_u) {
11284             unallocated_encoding(s);
11285             return;
11286         }
11287         switch (size) {
11288         case 0: /* PMULL.P8 */
11289             if (!fp_access_check(s)) {
11290                 return;
11291             }
11292             /* The Q field specifies lo/hi half input for this insn.  */
11293             gen_gvec_op3_ool(s, true, rd, rn, rm, is_q,
11294                              gen_helper_neon_pmull_h);
11295             break;
11296
11297         case 3: /* PMULL.P64 */
11298             if (!dc_isar_feature(aa64_pmull, s)) {
11299                 unallocated_encoding(s);
11300                 return;
11301             }
11302             if (!fp_access_check(s)) {
11303                 return;
11304             }
11305             /* The Q field specifies lo/hi half input for this insn.  */
11306             gen_gvec_op3_ool(s, true, rd, rn, rm, is_q,
11307                              gen_helper_gvec_pmull_q);
11308             break;
11309
11310         default:
11311             unallocated_encoding(s);
11312             break;
11313         }
11314         return;
11315     case 9: /* SQDMLAL, SQDMLAL2 */
11316     case 11: /* SQDMLSL, SQDMLSL2 */
11317     case 13: /* SQDMULL, SQDMULL2 */
11318         if (is_u || size == 0) {
11319             unallocated_encoding(s);
11320             return;
11321         }
11322         /* fall through */
11323     case 0: /* SADDL, SADDL2, UADDL, UADDL2 */
11324     case 2: /* SSUBL, SSUBL2, USUBL, USUBL2 */
11325     case 5: /* SABAL, SABAL2, UABAL, UABAL2 */
11326     case 7: /* SABDL, SABDL2, UABDL, UABDL2 */
11327     case 8: /* SMLAL, SMLAL2, UMLAL, UMLAL2 */
11328     case 10: /* SMLSL, SMLSL2, UMLSL, UMLSL2 */
11329     case 12: /* SMULL, SMULL2, UMULL, UMULL2 */
11330         /* 64 x 64 -> 128 */
11331         if (size == 3) {
11332             unallocated_encoding(s);
11333             return;
11334         }
11335         if (!fp_access_check(s)) {
11336             return;
11337         }
11338
11339         handle_3rd_widening(s, is_q, is_u, size, opcode, rd, rn, rm);
11340         break;
11341     default:
11342         /* opcode 15 not allocated */
11343         unallocated_encoding(s);
11344         break;
11345     }
11346 }
11347
11348 /* Logic op (opcode == 3) subgroup of C3.6.16. */
11349 static void disas_simd_3same_logic(DisasContext *s, uint32_t insn)
11350 {
11351     int rd = extract32(insn, 0, 5);
11352     int rn = extract32(insn, 5, 5);
11353     int rm = extract32(insn, 16, 5);
11354     int size = extract32(insn, 22, 2);
11355     bool is_u = extract32(insn, 29, 1);
11356     bool is_q = extract32(insn, 30, 1);
11357
11358     if (!fp_access_check(s)) {
11359         return;
11360     }
11361
11362     switch (size + 4 * is_u) {
11363     case 0: /* AND */
11364         gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_and, 0);
11365         return;
11366     case 1: /* BIC */
11367         gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_andc, 0);
11368         return;
11369     case 2: /* ORR */
11370         gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_or, 0);
11371         return;
11372     case 3: /* ORN */
11373         gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_orc, 0);
11374         return;
11375     case 4: /* EOR */
11376         gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_xor, 0);
11377         return;
11378
11379     case 5: /* BSL bitwise select */
11380         gen_gvec_fn4(s, is_q, rd, rd, rn, rm, tcg_gen_gvec_bitsel, 0);
11381         return;
11382     case 6: /* BIT, bitwise insert if true */
11383         gen_gvec_fn4(s, is_q, rd, rm, rn, rd, tcg_gen_gvec_bitsel, 0);
11384         return;
11385     case 7: /* BIF, bitwise insert if false */
11386         gen_gvec_fn4(s, is_q, rd, rm, rd, rn, tcg_gen_gvec_bitsel, 0);
11387         return;
11388
11389     default:
11390         g_assert_not_reached();
11391     }
11392 }
11393
11394 /* Pairwise op subgroup of C3.6.16.
11395  *
11396  * This is called directly or via the handle_3same_float for float pairwise
11397  * operations where the opcode and size are calculated differently.
11398  */
11399 static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
11400                                    int size, int rn, int rm, int rd)
11401 {
11402     TCGv_ptr fpst;
11403     int pass;
11404
11405     /* Floating point operations need fpst */
11406     if (opcode >= 0x58) {
11407         fpst = fpstatus_ptr(FPST_FPCR);
11408     } else {
11409         fpst = NULL;
11410     }
11411
11412     if (!fp_access_check(s)) {
11413         return;
11414     }
11415
11416     /* These operations work on the concatenated rm:rn, with each pair of
11417      * adjacent elements being operated on to produce an element in the result.
11418      */
11419     if (size == 3) {
11420         TCGv_i64 tcg_res[2];
11421
11422         for (pass = 0; pass < 2; pass++) {
11423             TCGv_i64 tcg_op1 = tcg_temp_new_i64();
11424             TCGv_i64 tcg_op2 = tcg_temp_new_i64();
11425             int passreg = (pass == 0) ? rn : rm;
11426
11427             read_vec_element(s, tcg_op1, passreg, 0, MO_64);
11428             read_vec_element(s, tcg_op2, passreg, 1, MO_64);
11429             tcg_res[pass] = tcg_temp_new_i64();
11430
11431             switch (opcode) {
11432             case 0x17: /* ADDP */
11433                 tcg_gen_add_i64(tcg_res[pass], tcg_op1, tcg_op2);
11434                 break;
11435             case 0x58: /* FMAXNMP */
11436                 gen_helper_vfp_maxnumd(tcg_res[pass], tcg_op1, tcg_op2, fpst);
11437                 break;
11438             case 0x5a: /* FADDP */
11439                 gen_helper_vfp_addd(tcg_res[pass], tcg_op1, tcg_op2, fpst);
11440                 break;
11441             case 0x5e: /* FMAXP */
11442                 gen_helper_vfp_maxd(tcg_res[pass], tcg_op1, tcg_op2, fpst);
11443                 break;
11444             case 0x78: /* FMINNMP */
11445                 gen_helper_vfp_minnumd(tcg_res[pass], tcg_op1, tcg_op2, fpst);
11446                 break;
11447             case 0x7e: /* FMINP */
11448                 gen_helper_vfp_mind(tcg_res[pass], tcg_op1, tcg_op2, fpst);
11449                 break;
11450             default:
11451                 g_assert_not_reached();
11452             }
11453
11454             tcg_temp_free_i64(tcg_op1);
11455             tcg_temp_free_i64(tcg_op2);
11456         }
11457
11458         for (pass = 0; pass < 2; pass++) {
11459             write_vec_element(s, tcg_res[pass], rd, pass, MO_64);
11460             tcg_temp_free_i64(tcg_res[pass]);
11461         }
11462     } else {
11463         int maxpass = is_q ? 4 : 2;
11464         TCGv_i32 tcg_res[4];
11465
11466         for (pass = 0; pass < maxpass; pass++) {
11467             TCGv_i32 tcg_op1 = tcg_temp_new_i32();
11468             TCGv_i32 tcg_op2 = tcg_temp_new_i32();
11469             NeonGenTwoOpFn *genfn = NULL;
11470             int passreg = pass < (maxpass / 2) ? rn : rm;
11471             int passelt = (is_q && (pass & 1)) ? 2 : 0;
11472
11473             read_vec_element_i32(s, tcg_op1, passreg, passelt, MO_32);
11474             read_vec_element_i32(s, tcg_op2, passreg, passelt + 1, MO_32);
11475             tcg_res[pass] = tcg_temp_new_i32();
11476
11477             switch (opcode) {
11478             case 0x17: /* ADDP */
11479             {
11480                 static NeonGenTwoOpFn * const fns[3] = {
11481                     gen_helper_neon_padd_u8,
11482                     gen_helper_neon_padd_u16,
11483                     tcg_gen_add_i32,
11484                 };
11485                 genfn = fns[size];
11486                 break;
11487             }
11488             case 0x14: /* SMAXP, UMAXP */
11489             {
11490                 static NeonGenTwoOpFn * const fns[3][2] = {
11491                     { gen_helper_neon_pmax_s8, gen_helper_neon_pmax_u8 },
11492                     { gen_helper_neon_pmax_s16, gen_helper_neon_pmax_u16 },
11493                     { tcg_gen_smax_i32, tcg_gen_umax_i32 },
11494                 };
11495                 genfn = fns[size][u];
11496                 break;
11497             }
11498             case 0x15: /* SMINP, UMINP */
11499             {
11500                 static NeonGenTwoOpFn * const fns[3][2] = {
11501                     { gen_helper_neon_pmin_s8, gen_helper_neon_pmin_u8 },
11502                     { gen_helper_neon_pmin_s16, gen_helper_neon_pmin_u16 },
11503                     { tcg_gen_smin_i32, tcg_gen_umin_i32 },
11504                 };
11505                 genfn = fns[size][u];
11506                 break;
11507             }
11508             /* The FP operations are all on single floats (32 bit) */
11509             case 0x58: /* FMAXNMP */
11510                 gen_helper_vfp_maxnums(tcg_res[pass], tcg_op1, tcg_op2, fpst);
11511                 break;
11512             case 0x5a: /* FADDP */
11513                 gen_helper_vfp_adds(tcg_res[pass], tcg_op1, tcg_op2, fpst);
11514                 break;
11515             case 0x5e: /* FMAXP */
11516                 gen_helper_vfp_maxs(tcg_res[pass], tcg_op1, tcg_op2, fpst);
11517                 break;
11518             case 0x78: /* FMINNMP */
11519                 gen_helper_vfp_minnums(tcg_res[pass], tcg_op1, tcg_op2, fpst);
11520                 break;
11521             case 0x7e: /* FMINP */
11522                 gen_helper_vfp_mins(tcg_res[pass], tcg_op1, tcg_op2, fpst);
11523                 break;
11524             default:
11525                 g_assert_not_reached();
11526             }
11527
11528             /* FP ops called directly, otherwise call now */
11529             if (genfn) {
11530                 genfn(tcg_res[pass], tcg_op1, tcg_op2);
11531             }
11532
11533             tcg_temp_free_i32(tcg_op1);
11534             tcg_temp_free_i32(tcg_op2);
11535         }
11536
11537         for (pass = 0; pass < maxpass; pass++) {
11538             write_vec_element_i32(s, tcg_res[pass], rd, pass, MO_32);
11539             tcg_temp_free_i32(tcg_res[pass]);
11540         }
11541         clear_vec_high(s, is_q, rd);
11542     }
11543
11544     if (fpst) {
11545         tcg_temp_free_ptr(fpst);
11546     }
11547 }
11548
11549 /* Floating point op subgroup of C3.6.16. */
11550 static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
11551 {
11552     /* For floating point ops, the U, size[1] and opcode bits
11553      * together indicate the operation. size[0] indicates single
11554      * or double.
11555      */
11556     int fpopcode = extract32(insn, 11, 5)
11557         | (extract32(insn, 23, 1) << 5)
11558         | (extract32(insn, 29, 1) << 6);
11559     int is_q = extract32(insn, 30, 1);
11560     int size = extract32(insn, 22, 1);
11561     int rm = extract32(insn, 16, 5);
11562     int rn = extract32(insn, 5, 5);
11563     int rd = extract32(insn, 0, 5);
11564
11565     int datasize = is_q ? 128 : 64;
11566     int esize = 32 << size;
11567     int elements = datasize / esize;
11568
11569     if (size == 1 && !is_q) {
11570         unallocated_encoding(s);
11571         return;
11572     }
11573
11574     switch (fpopcode) {
11575     case 0x58: /* FMAXNMP */
11576     case 0x5a: /* FADDP */
11577     case 0x5e: /* FMAXP */
11578     case 0x78: /* FMINNMP */
11579     case 0x7e: /* FMINP */
11580         if (size && !is_q) {
11581             unallocated_encoding(s);
11582             return;
11583         }
11584         handle_simd_3same_pair(s, is_q, 0, fpopcode, size ? MO_64 : MO_32,
11585                                rn, rm, rd);
11586         return;
11587     case 0x1b: /* FMULX */
11588     case 0x1f: /* FRECPS */
11589     case 0x3f: /* FRSQRTS */
11590     case 0x5d: /* FACGE */
11591     case 0x7d: /* FACGT */
11592     case 0x19: /* FMLA */
11593     case 0x39: /* FMLS */
11594     case 0x18: /* FMAXNM */
11595     case 0x1a: /* FADD */
11596     case 0x1c: /* FCMEQ */
11597     case 0x1e: /* FMAX */
11598     case 0x38: /* FMINNM */
11599     case 0x3a: /* FSUB */
11600     case 0x3e: /* FMIN */
11601     case 0x5b: /* FMUL */
11602     case 0x5c: /* FCMGE */
11603     case 0x5f: /* FDIV */
11604     case 0x7a: /* FABD */
11605     case 0x7c: /* FCMGT */
11606         if (!fp_access_check(s)) {
11607             return;
11608         }
11609         handle_3same_float(s, size, elements, fpopcode, rd, rn, rm);
11610         return;
11611
11612     case 0x1d: /* FMLAL  */
11613     case 0x3d: /* FMLSL  */
11614     case 0x59: /* FMLAL2 */
11615     case 0x79: /* FMLSL2 */
11616         if (size & 1 || !dc_isar_feature(aa64_fhm, s)) {
11617             unallocated_encoding(s);
11618             return;
11619         }
11620         if (fp_access_check(s)) {
11621             int is_s = extract32(insn, 23, 1);
11622             int is_2 = extract32(insn, 29, 1);
11623             int data = (is_2 << 1) | is_s;
11624             tcg_gen_gvec_3_ptr(vec_full_reg_offset(s, rd),
11625                                vec_full_reg_offset(s, rn),
11626                                vec_full_reg_offset(s, rm), cpu_env,
11627                                is_q ? 16 : 8, vec_full_reg_size(s),
11628                                data, gen_helper_gvec_fmlal_a64);
11629         }
11630         return;
11631
11632     default:
11633         unallocated_encoding(s);
11634         return;
11635     }
11636 }
11637
11638 /* Integer op subgroup of C3.6.16. */
11639 static void disas_simd_3same_int(DisasContext *s, uint32_t insn)
11640 {
11641     int is_q = extract32(insn, 30, 1);
11642     int u = extract32(insn, 29, 1);
11643     int size = extract32(insn, 22, 2);
11644     int opcode = extract32(insn, 11, 5);
11645     int rm = extract32(insn, 16, 5);
11646     int rn = extract32(insn, 5, 5);
11647     int rd = extract32(insn, 0, 5);
11648     int pass;
11649     TCGCond cond;
11650
11651     switch (opcode) {
11652     case 0x13: /* MUL, PMUL */
11653         if (u && size != 0) {
11654             unallocated_encoding(s);
11655             return;
11656         }
11657         /* fall through */
11658     case 0x0: /* SHADD, UHADD */
11659     case 0x2: /* SRHADD, URHADD */
11660     case 0x4: /* SHSUB, UHSUB */
11661     case 0xc: /* SMAX, UMAX */
11662     case 0xd: /* SMIN, UMIN */
11663     case 0xe: /* SABD, UABD */
11664     case 0xf: /* SABA, UABA */
11665     case 0x12: /* MLA, MLS */
11666         if (size == 3) {
11667             unallocated_encoding(s);
11668             return;
11669         }
11670         break;
11671     case 0x16: /* SQDMULH, SQRDMULH */
11672         if (size == 0 || size == 3) {
11673             unallocated_encoding(s);
11674             return;
11675         }
11676         break;
11677     default:
11678         if (size == 3 && !is_q) {
11679             unallocated_encoding(s);
11680             return;
11681         }
11682         break;
11683     }
11684
11685     if (!fp_access_check(s)) {
11686         return;
11687     }
11688
11689     switch (opcode) {
11690     case 0x01: /* SQADD, UQADD */
11691         if (u) {
11692             gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_uqadd_qc, size);
11693         } else {
11694             gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_sqadd_qc, size);
11695         }
11696         return;
11697     case 0x05: /* SQSUB, UQSUB */
11698         if (u) {
11699             gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_uqsub_qc, size);
11700         } else {
11701             gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_sqsub_qc, size);
11702         }
11703         return;
11704     case 0x08: /* SSHL, USHL */
11705         if (u) {
11706             gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_ushl, size);
11707         } else {
11708             gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_sshl, size);
11709         }
11710         return;
11711     case 0x0c: /* SMAX, UMAX */
11712         if (u) {
11713             gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_umax, size);
11714         } else {
11715             gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_smax, size);
11716         }
11717         return;
11718     case 0x0d: /* SMIN, UMIN */
11719         if (u) {
11720             gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_umin, size);
11721         } else {
11722             gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_smin, size);
11723         }
11724         return;
11725     case 0xe: /* SABD, UABD */
11726         if (u) {
11727             gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_uabd, size);
11728         } else {
11729             gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_sabd, size);
11730         }
11731         return;
11732     case 0xf: /* SABA, UABA */
11733         if (u) {
11734             gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_uaba, size);
11735         } else {
11736             gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_saba, size);
11737         }
11738         return;
11739     case 0x10: /* ADD, SUB */
11740         if (u) {
11741             gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_sub, size);
11742         } else {
11743             gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_add, size);
11744         }
11745         return;
11746     case 0x13: /* MUL, PMUL */
11747         if (!u) { /* MUL */
11748             gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_mul, size);
11749         } else {  /* PMUL */
11750             gen_gvec_op3_ool(s, is_q, rd, rn, rm, 0, gen_helper_gvec_pmul_b);
11751         }
11752         return;
11753     case 0x12: /* MLA, MLS */
11754         if (u) {
11755             gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_mls, size);
11756         } else {
11757             gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_mla, size);
11758         }
11759         return;
11760     case 0x16: /* SQDMULH, SQRDMULH */
11761         {
11762             static gen_helper_gvec_3_ptr * const fns[2][2] = {
11763                 { gen_helper_neon_sqdmulh_h, gen_helper_neon_sqrdmulh_h },
11764                 { gen_helper_neon_sqdmulh_s, gen_helper_neon_sqrdmulh_s },
11765             };
11766             gen_gvec_op3_qc(s, is_q, rd, rn, rm, fns[size - 1][u]);
11767         }
11768         return;
11769     case 0x11:
11770         if (!u) { /* CMTST */
11771             gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_cmtst, size);
11772             return;
11773         }
11774         /* else CMEQ */
11775         cond = TCG_COND_EQ;
11776         goto do_gvec_cmp;
11777     case 0x06: /* CMGT, CMHI */
11778         cond = u ? TCG_COND_GTU : TCG_COND_GT;
11779         goto do_gvec_cmp;
11780     case 0x07: /* CMGE, CMHS */
11781         cond = u ? TCG_COND_GEU : TCG_COND_GE;
11782     do_gvec_cmp:
11783         tcg_gen_gvec_cmp(cond, size, vec_full_reg_offset(s, rd),
11784                          vec_full_reg_offset(s, rn),
11785                          vec_full_reg_offset(s, rm),
11786                          is_q ? 16 : 8, vec_full_reg_size(s));
11787         return;
11788     }
11789
11790     if (size == 3) {
11791         assert(is_q);
11792         for (pass = 0; pass < 2; pass++) {
11793             TCGv_i64 tcg_op1 = tcg_temp_new_i64();
11794             TCGv_i64 tcg_op2 = tcg_temp_new_i64();
11795             TCGv_i64 tcg_res = tcg_temp_new_i64();
11796
11797             read_vec_element(s, tcg_op1, rn, pass, MO_64);
11798             read_vec_element(s, tcg_op2, rm, pass, MO_64);
11799
11800             handle_3same_64(s, opcode, u, tcg_res, tcg_op1, tcg_op2);
11801
11802             write_vec_element(s, tcg_res, rd, pass, MO_64);
11803
11804             tcg_temp_free_i64(tcg_res);
11805             tcg_temp_free_i64(tcg_op1);
11806             tcg_temp_free_i64(tcg_op2);
11807         }
11808     } else {
11809         for (pass = 0; pass < (is_q ? 4 : 2); pass++) {
11810             TCGv_i32 tcg_op1 = tcg_temp_new_i32();
11811             TCGv_i32 tcg_op2 = tcg_temp_new_i32();
11812             TCGv_i32 tcg_res = tcg_temp_new_i32();
11813             NeonGenTwoOpFn *genfn = NULL;
11814             NeonGenTwoOpEnvFn *genenvfn = NULL;
11815
11816             read_vec_element_i32(s, tcg_op1, rn, pass, MO_32);
11817             read_vec_element_i32(s, tcg_op2, rm, pass, MO_32);
11818
11819             switch (opcode) {
11820             case 0x0: /* SHADD, UHADD */
11821             {
11822                 static NeonGenTwoOpFn * const fns[3][2] = {
11823                     { gen_helper_neon_hadd_s8, gen_helper_neon_hadd_u8 },
11824                     { gen_helper_neon_hadd_s16, gen_helper_neon_hadd_u16 },
11825                     { gen_helper_neon_hadd_s32, gen_helper_neon_hadd_u32 },
11826                 };
11827                 genfn = fns[size][u];
11828                 break;
11829             }
11830             case 0x2: /* SRHADD, URHADD */
11831             {
11832                 static NeonGenTwoOpFn * const fns[3][2] = {
11833                     { gen_helper_neon_rhadd_s8, gen_helper_neon_rhadd_u8 },
11834                     { gen_helper_neon_rhadd_s16, gen_helper_neon_rhadd_u16 },
11835                     { gen_helper_neon_rhadd_s32, gen_helper_neon_rhadd_u32 },
11836                 };
11837                 genfn = fns[size][u];
11838                 break;
11839             }
11840             case 0x4: /* SHSUB, UHSUB */
11841             {
11842                 static NeonGenTwoOpFn * const fns[3][2] = {
11843                     { gen_helper_neon_hsub_s8, gen_helper_neon_hsub_u8 },
11844                     { gen_helper_neon_hsub_s16, gen_helper_neon_hsub_u16 },
11845                     { gen_helper_neon_hsub_s32, gen_helper_neon_hsub_u32 },
11846                 };
11847                 genfn = fns[size][u];
11848                 break;
11849             }
11850             case 0x9: /* SQSHL, UQSHL */
11851             {
11852                 static NeonGenTwoOpEnvFn * const fns[3][2] = {
11853                     { gen_helper_neon_qshl_s8, gen_helper_neon_qshl_u8 },
11854                     { gen_helper_neon_qshl_s16, gen_helper_neon_qshl_u16 },
11855                     { gen_helper_neon_qshl_s32, gen_helper_neon_qshl_u32 },
11856                 };
11857                 genenvfn = fns[size][u];
11858                 break;
11859             }
11860             case 0xa: /* SRSHL, URSHL */
11861             {
11862                 static NeonGenTwoOpFn * const fns[3][2] = {
11863                     { gen_helper_neon_rshl_s8, gen_helper_neon_rshl_u8 },
11864                     { gen_helper_neon_rshl_s16, gen_helper_neon_rshl_u16 },
11865                     { gen_helper_neon_rshl_s32, gen_helper_neon_rshl_u32 },
11866                 };
11867                 genfn = fns[size][u];
11868                 break;
11869             }
11870             case 0xb: /* SQRSHL, UQRSHL */
11871             {
11872                 static NeonGenTwoOpEnvFn * const fns[3][2] = {
11873                     { gen_helper_neon_qrshl_s8, gen_helper_neon_qrshl_u8 },
11874                     { gen_helper_neon_qrshl_s16, gen_helper_neon_qrshl_u16 },
11875                     { gen_helper_neon_qrshl_s32, gen_helper_neon_qrshl_u32 },
11876                 };
11877                 genenvfn = fns[size][u];
11878                 break;
11879             }
11880             default:
11881                 g_assert_not_reached();
11882             }
11883
11884             if (genenvfn) {
11885                 genenvfn(tcg_res, cpu_env, tcg_op1, tcg_op2);
11886             } else {
11887                 genfn(tcg_res, tcg_op1, tcg_op2);
11888             }
11889
11890             write_vec_element_i32(s, tcg_res, rd, pass, MO_32);
11891
11892             tcg_temp_free_i32(tcg_res);
11893             tcg_temp_free_i32(tcg_op1);
11894             tcg_temp_free_i32(tcg_op2);
11895         }
11896     }
11897     clear_vec_high(s, is_q, rd);
11898 }
11899
11900 /* AdvSIMD three same
11901  *  31  30  29  28       24 23  22  21 20  16 15    11  10 9    5 4    0
11902  * +---+---+---+-----------+------+---+------+--------+---+------+------+
11903  * | 0 | Q | U | 0 1 1 1 0 | size | 1 |  Rm  | opcode | 1 |  Rn  |  Rd  |
11904  * +---+---+---+-----------+------+---+------+--------+---+------+------+
11905  */
11906 static void disas_simd_three_reg_same(DisasContext *s, uint32_t insn)
11907 {
11908     int opcode = extract32(insn, 11, 5);
11909
11910     switch (opcode) {
11911     case 0x3: /* logic ops */
11912         disas_simd_3same_logic(s, insn);
11913         break;
11914     case 0x17: /* ADDP */
11915     case 0x14: /* SMAXP, UMAXP */
11916     case 0x15: /* SMINP, UMINP */
11917     {
11918         /* Pairwise operations */
11919         int is_q = extract32(insn, 30, 1);
11920         int u = extract32(insn, 29, 1);
11921         int size = extract32(insn, 22, 2);
11922         int rm = extract32(insn, 16, 5);
11923         int rn = extract32(insn, 5, 5);
11924         int rd = extract32(insn, 0, 5);
11925         if (opcode == 0x17) {
11926             if (u || (size == 3 && !is_q)) {
11927                 unallocated_encoding(s);
11928                 return;
11929             }
11930         } else {
11931             if (size == 3) {
11932                 unallocated_encoding(s);
11933                 return;
11934             }
11935         }
11936         handle_simd_3same_pair(s, is_q, u, opcode, size, rn, rm, rd);
11937         break;
11938     }
11939     case 0x18 ... 0x31:
11940         /* floating point ops, sz[1] and U are part of opcode */
11941         disas_simd_3same_float(s, insn);
11942         break;
11943     default:
11944         disas_simd_3same_int(s, insn);
11945         break;
11946     }
11947 }
11948
11949 /*
11950  * Advanced SIMD three same (ARMv8.2 FP16 variants)
11951  *
11952  *  31  30  29  28       24 23  22 21 20  16 15 14 13    11 10  9    5 4    0
11953  * +---+---+---+-----------+---------+------+-----+--------+---+------+------+
11954  * | 0 | Q | U | 0 1 1 1 0 | a | 1 0 |  Rm  | 0 0 | opcode | 1 |  Rn  |  Rd  |
11955  * +---+---+---+-----------+---------+------+-----+--------+---+------+------+
11956  *
11957  * This includes FMULX, FCMEQ (register), FRECPS, FRSQRTS, FCMGE
11958  * (register), FACGE, FABD, FCMGT (register) and FACGT.
11959  *
11960  */
11961 static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
11962 {
11963     int opcode, fpopcode;
11964     int is_q, u, a, rm, rn, rd;
11965     int datasize, elements;
11966     int pass;
11967     TCGv_ptr fpst;
11968     bool pairwise = false;
11969
11970     if (!dc_isar_feature(aa64_fp16, s)) {
11971         unallocated_encoding(s);
11972         return;
11973     }
11974
11975     if (!fp_access_check(s)) {
11976         return;
11977     }
11978
11979     /* For these floating point ops, the U, a and opcode bits
11980      * together indicate the operation.
11981      */
11982     opcode = extract32(insn, 11, 3);
11983     u = extract32(insn, 29, 1);
11984     a = extract32(insn, 23, 1);
11985     is_q = extract32(insn, 30, 1);
11986     rm = extract32(insn, 16, 5);
11987     rn = extract32(insn, 5, 5);
11988     rd = extract32(insn, 0, 5);
11989
11990     fpopcode = opcode | (a << 3) |  (u << 4);
11991     datasize = is_q ? 128 : 64;
11992     elements = datasize / 16;
11993
11994     switch (fpopcode) {
11995     case 0x10: /* FMAXNMP */
11996     case 0x12: /* FADDP */
11997     case 0x16: /* FMAXP */
11998     case 0x18: /* FMINNMP */
11999     case 0x1e: /* FMINP */
12000         pairwise = true;
12001         break;
12002     }
12003
12004     fpst = fpstatus_ptr(FPST_FPCR_F16);
12005
12006     if (pairwise) {
12007         int maxpass = is_q ? 8 : 4;
12008         TCGv_i32 tcg_op1 = tcg_temp_new_i32();
12009         TCGv_i32 tcg_op2 = tcg_temp_new_i32();
12010         TCGv_i32 tcg_res[8];
12011
12012         for (pass = 0; pass < maxpass; pass++) {
12013             int passreg = pass < (maxpass / 2) ? rn : rm;
12014             int passelt = (pass << 1) & (maxpass - 1);
12015
12016             read_vec_element_i32(s, tcg_op1, passreg, passelt, MO_16);
12017             read_vec_element_i32(s, tcg_op2, passreg, passelt + 1, MO_16);
12018             tcg_res[pass] = tcg_temp_new_i32();
12019
12020             switch (fpopcode) {
12021             case 0x10: /* FMAXNMP */
12022                 gen_helper_advsimd_maxnumh(tcg_res[pass], tcg_op1, tcg_op2,
12023                                            fpst);
12024                 break;
12025             case 0x12: /* FADDP */
12026                 gen_helper_advsimd_addh(tcg_res[pass], tcg_op1, tcg_op2, fpst);
12027                 break;
12028             case 0x16: /* FMAXP */
12029                 gen_helper_advsimd_maxh(tcg_res[pass], tcg_op1, tcg_op2, fpst);
12030                 break;
12031             case 0x18: /* FMINNMP */
12032                 gen_helper_advsimd_minnumh(tcg_res[pass], tcg_op1, tcg_op2,
12033                                            fpst);
12034                 break;
12035             case 0x1e: /* FMINP */
12036                 gen_helper_advsimd_minh(tcg_res[pass], tcg_op1, tcg_op2, fpst);
12037                 break;
12038             default:
12039                 g_assert_not_reached();
12040             }
12041         }
12042
12043         for (pass = 0; pass < maxpass; pass++) {
12044             write_vec_element_i32(s, tcg_res[pass], rd, pass, MO_16);
12045             tcg_temp_free_i32(tcg_res[pass]);
12046         }
12047
12048         tcg_temp_free_i32(tcg_op1);
12049         tcg_temp_free_i32(tcg_op2);
12050
12051     } else {
12052         for (pass = 0; pass < elements; pass++) {
12053             TCGv_i32 tcg_op1 = tcg_temp_new_i32();
12054             TCGv_i32 tcg_op2 = tcg_temp_new_i32();
12055             TCGv_i32 tcg_res = tcg_temp_new_i32();
12056
12057             read_vec_element_i32(s, tcg_op1, rn, pass, MO_16);
12058             read_vec_element_i32(s, tcg_op2, rm, pass, MO_16);
12059
12060             switch (fpopcode) {
12061             case 0x0: /* FMAXNM */
12062                 gen_helper_advsimd_maxnumh(tcg_res, tcg_op1, tcg_op2, fpst);
12063                 break;
12064             case 0x1: /* FMLA */
12065                 read_vec_element_i32(s, tcg_res, rd, pass, MO_16);
12066                 gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
12067                                            fpst);
12068                 break;
12069             case 0x2: /* FADD */
12070                 gen_helper_advsimd_addh(tcg_res, tcg_op1, tcg_op2, fpst);
12071                 break;
12072             case 0x3: /* FMULX */
12073                 gen_helper_advsimd_mulxh(tcg_res, tcg_op1, tcg_op2, fpst);
12074                 break;
12075             case 0x4: /* FCMEQ */
12076                 gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
12077                 break;
12078             case 0x6: /* FMAX */
12079                 gen_helper_advsimd_maxh(tcg_res, tcg_op1, tcg_op2, fpst);
12080                 break;
12081             case 0x7: /* FRECPS */
12082                 gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
12083                 break;
12084             case 0x8: /* FMINNM */
12085                 gen_helper_advsimd_minnumh(tcg_res, tcg_op1, tcg_op2, fpst);
12086                 break;
12087             case 0x9: /* FMLS */
12088                 /* As usual for ARM, separate negation for fused multiply-add */
12089                 tcg_gen_xori_i32(tcg_op1, tcg_op1, 0x8000);
12090                 read_vec_element_i32(s, tcg_res, rd, pass, MO_16);
12091                 gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
12092                                            fpst);
12093                 break;
12094             case 0xa: /* FSUB */
12095                 gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
12096                 break;
12097             case 0xe: /* FMIN */
12098                 gen_helper_advsimd_minh(tcg_res, tcg_op1, tcg_op2, fpst);
12099                 break;
12100             case 0xf: /* FRSQRTS */
12101                 gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
12102                 break;
12103             case 0x13: /* FMUL */
12104                 gen_helper_advsimd_mulh(tcg_res, tcg_op1, tcg_op2, fpst);
12105                 break;
12106             case 0x14: /* FCMGE */
12107                 gen_helper_advsimd_cge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
12108                 break;
12109             case 0x15: /* FACGE */
12110                 gen_helper_advsimd_acge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
12111                 break;
12112             case 0x17: /* FDIV */
12113                 gen_helper_advsimd_divh(tcg_res, tcg_op1, tcg_op2, fpst);
12114                 break;
12115             case 0x1a: /* FABD */
12116                 gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
12117                 tcg_gen_andi_i32(tcg_res, tcg_res, 0x7fff);
12118                 break;
12119             case 0x1c: /* FCMGT */
12120                 gen_helper_advsimd_cgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
12121                 break;
12122             case 0x1d: /* FACGT */
12123                 gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
12124                 break;
12125             default:
12126                 fprintf(stderr, "%s: insn 0x%04x, fpop 0x%2x @ 0x%" PRIx64 "\n",
12127                         __func__, insn, fpopcode, s->pc_curr);
12128                 g_assert_not_reached();
12129             }
12130
12131             write_vec_element_i32(s, tcg_res, rd, pass, MO_16);
12132             tcg_temp_free_i32(tcg_res);
12133             tcg_temp_free_i32(tcg_op1);
12134             tcg_temp_free_i32(tcg_op2);
12135         }
12136     }
12137
12138     tcg_temp_free_ptr(fpst);
12139
12140     clear_vec_high(s, is_q, rd);
12141 }
12142
12143 /* AdvSIMD three same extra
12144  *  31   30  29 28       24 23  22  21 20  16  15 14    11  10 9  5 4  0
12145  * +---+---+---+-----------+------+---+------+---+--------+---+----+----+
12146  * | 0 | Q | U | 0 1 1 1 0 | size | 0 |  Rm  | 1 | opcode | 1 | Rn | Rd |
12147  * +---+---+---+-----------+------+---+------+---+--------+---+----+----+
12148  */
12149 static void disas_simd_three_reg_same_extra(DisasContext *s, uint32_t insn)
12150 {
12151     int rd = extract32(insn, 0, 5);
12152     int rn = extract32(insn, 5, 5);
12153     int opcode = extract32(insn, 11, 4);
12154     int rm = extract32(insn, 16, 5);
12155     int size = extract32(insn, 22, 2);
12156     bool u = extract32(insn, 29, 1);
12157     bool is_q = extract32(insn, 30, 1);
12158     bool feature;
12159     int rot;
12160
12161     switch (u * 16 + opcode) {
12162     case 0x10: /* SQRDMLAH (vector) */
12163     case 0x11: /* SQRDMLSH (vector) */
12164         if (size != 1 && size != 2) {
12165             unallocated_encoding(s);
12166             return;
12167         }
12168         feature = dc_isar_feature(aa64_rdm, s);
12169         break;
12170     case 0x02: /* SDOT (vector) */
12171     case 0x12: /* UDOT (vector) */
12172         if (size != MO_32) {
12173             unallocated_encoding(s);
12174             return;
12175         }
12176         feature = dc_isar_feature(aa64_dp, s);
12177         break;
12178     case 0x03: /* USDOT */
12179         if (size != MO_32) {
12180             unallocated_encoding(s);
12181             return;
12182         }
12183         feature = dc_isar_feature(aa64_i8mm, s);
12184         break;
12185     case 0x04: /* SMMLA */
12186     case 0x14: /* UMMLA */
12187     case 0x05: /* USMMLA */
12188         if (!is_q || size != MO_32) {
12189             unallocated_encoding(s);
12190             return;
12191         }
12192         feature = dc_isar_feature(aa64_i8mm, s);
12193         break;
12194     case 0x18: /* FCMLA, #0 */
12195     case 0x19: /* FCMLA, #90 */
12196     case 0x1a: /* FCMLA, #180 */
12197     case 0x1b: /* FCMLA, #270 */
12198     case 0x1c: /* FCADD, #90 */
12199     case 0x1e: /* FCADD, #270 */
12200         if (size == 0
12201             || (size == 1 && !dc_isar_feature(aa64_fp16, s))
12202             || (size == 3 && !is_q)) {
12203             unallocated_encoding(s);
12204             return;
12205         }
12206         feature = dc_isar_feature(aa64_fcma, s);
12207         break;
12208     default:
12209         unallocated_encoding(s);
12210         return;
12211     }
12212     if (!feature) {
12213         unallocated_encoding(s);
12214         return;
12215     }
12216     if (!fp_access_check(s)) {
12217         return;
12218     }
12219
12220     switch (opcode) {
12221     case 0x0: /* SQRDMLAH (vector) */
12222         gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_sqrdmlah_qc, size);
12223         return;
12224
12225     case 0x1: /* SQRDMLSH (vector) */
12226         gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_sqrdmlsh_qc, size);
12227         return;
12228
12229     case 0x2: /* SDOT / UDOT */
12230         gen_gvec_op4_ool(s, is_q, rd, rn, rm, rd, 0,
12231                          u ? gen_helper_gvec_udot_b : gen_helper_gvec_sdot_b);
12232         return;
12233
12234     case 0x3: /* USDOT */
12235         gen_gvec_op4_ool(s, is_q, rd, rn, rm, rd, 0, gen_helper_gvec_usdot_b);
12236         return;
12237
12238     case 0x04: /* SMMLA, UMMLA */
12239         gen_gvec_op4_ool(s, 1, rd, rn, rm, rd, 0,
12240                          u ? gen_helper_gvec_ummla_b
12241                          : gen_helper_gvec_smmla_b);
12242         return;
12243     case 0x05: /* USMMLA */
12244         gen_gvec_op4_ool(s, 1, rd, rn, rm, rd, 0, gen_helper_gvec_usmmla_b);
12245         return;
12246
12247     case 0x8: /* FCMLA, #0 */
12248     case 0x9: /* FCMLA, #90 */
12249     case 0xa: /* FCMLA, #180 */
12250     case 0xb: /* FCMLA, #270 */
12251         rot = extract32(opcode, 0, 2);
12252         switch (size) {
12253         case 1:
12254             gen_gvec_op4_fpst(s, is_q, rd, rn, rm, rd, true, rot,
12255                               gen_helper_gvec_fcmlah);
12256             break;
12257         case 2:
12258             gen_gvec_op4_fpst(s, is_q, rd, rn, rm, rd, false, rot,
12259                               gen_helper_gvec_fcmlas);
12260             break;
12261         case 3:
12262             gen_gvec_op4_fpst(s, is_q, rd, rn, rm, rd, false, rot,
12263                               gen_helper_gvec_fcmlad);
12264             break;
12265         default:
12266             g_assert_not_reached();
12267         }
12268         return;
12269
12270     case 0xc: /* FCADD, #90 */
12271     case 0xe: /* FCADD, #270 */
12272         rot = extract32(opcode, 1, 1);
12273         switch (size) {
12274         case 1:
12275             gen_gvec_op3_fpst(s, is_q, rd, rn, rm, size == 1, rot,
12276                               gen_helper_gvec_fcaddh);
12277             break;
12278         case 2:
12279             gen_gvec_op3_fpst(s, is_q, rd, rn, rm, size == 1, rot,
12280                               gen_helper_gvec_fcadds);
12281             break;
12282         case 3:
12283             gen_gvec_op3_fpst(s, is_q, rd, rn, rm, size == 1, rot,
12284                               gen_helper_gvec_fcaddd);
12285             break;
12286         default:
12287             g_assert_not_reached();
12288         }
12289         return;
12290
12291     default:
12292         g_assert_not_reached();
12293     }
12294 }
12295
12296 static void handle_2misc_widening(DisasContext *s, int opcode, bool is_q,
12297                                   int size, int rn, int rd)
12298 {
12299     /* Handle 2-reg-misc ops which are widening (so each size element
12300      * in the source becomes a 2*size element in the destination.
12301      * The only instruction like this is FCVTL.
12302      */
12303     int pass;
12304
12305     if (size == 3) {
12306         /* 32 -> 64 bit fp conversion */
12307         TCGv_i64 tcg_res[2];
12308         int srcelt = is_q ? 2 : 0;
12309
12310         for (pass = 0; pass < 2; pass++) {
12311             TCGv_i32 tcg_op = tcg_temp_new_i32();
12312             tcg_res[pass] = tcg_temp_new_i64();
12313
12314             read_vec_element_i32(s, tcg_op, rn, srcelt + pass, MO_32);
12315             gen_helper_vfp_fcvtds(tcg_res[pass], tcg_op, cpu_env);
12316             tcg_temp_free_i32(tcg_op);
12317         }
12318         for (pass = 0; pass < 2; pass++) {
12319             write_vec_element(s, tcg_res[pass], rd, pass, MO_64);
12320             tcg_temp_free_i64(tcg_res[pass]);
12321         }
12322     } else {
12323         /* 16 -> 32 bit fp conversion */
12324         int srcelt = is_q ? 4 : 0;
12325         TCGv_i32 tcg_res[4];
12326         TCGv_ptr fpst = fpstatus_ptr(FPST_FPCR);
12327         TCGv_i32 ahp = get_ahp_flag();
12328
12329         for (pass = 0; pass < 4; pass++) {
12330             tcg_res[pass] = tcg_temp_new_i32();
12331
12332             read_vec_element_i32(s, tcg_res[pass], rn, srcelt + pass, MO_16);
12333             gen_helper_vfp_fcvt_f16_to_f32(tcg_res[pass], tcg_res[pass],
12334                                            fpst, ahp);
12335         }
12336         for (pass = 0; pass < 4; pass++) {
12337             write_vec_element_i32(s, tcg_res[pass], rd, pass, MO_32);
12338             tcg_temp_free_i32(tcg_res[pass]);
12339         }
12340
12341         tcg_temp_free_ptr(fpst);
12342         tcg_temp_free_i32(ahp);
12343     }
12344 }
12345
12346 static void handle_rev(DisasContext *s, int opcode, bool u,
12347                        bool is_q, int size, int rn, int rd)
12348 {
12349     int op = (opcode << 1) | u;
12350     int opsz = op + size;
12351     int grp_size = 3 - opsz;
12352     int dsize = is_q ? 128 : 64;
12353     int i;
12354
12355     if (opsz >= 3) {
12356         unallocated_encoding(s);
12357         return;
12358     }
12359
12360     if (!fp_access_check(s)) {
12361         return;
12362     }
12363
12364     if (size == 0) {
12365         /* Special case bytes, use bswap op on each group of elements */
12366         int groups = dsize / (8 << grp_size);
12367
12368         for (i = 0; i < groups; i++) {
12369             TCGv_i64 tcg_tmp = tcg_temp_new_i64();
12370
12371             read_vec_element(s, tcg_tmp, rn, i, grp_size);
12372             switch (grp_size) {
12373             case MO_16:
12374                 tcg_gen_bswap16_i64(tcg_tmp, tcg_tmp);
12375                 break;
12376             case MO_32:
12377                 tcg_gen_bswap32_i64(tcg_tmp, tcg_tmp);
12378                 break;
12379             case MO_64:
12380                 tcg_gen_bswap64_i64(tcg_tmp, tcg_tmp);
12381                 break;
12382             default:
12383                 g_assert_not_reached();
12384             }
12385             write_vec_element(s, tcg_tmp, rd, i, grp_size);
12386             tcg_temp_free_i64(tcg_tmp);
12387         }
12388         clear_vec_high(s, is_q, rd);
12389     } else {
12390         int revmask = (1 << grp_size) - 1;
12391         int esize = 8 << size;
12392         int elements = dsize / esize;
12393         TCGv_i64 tcg_rn = tcg_temp_new_i64();
12394         TCGv_i64 tcg_rd = tcg_const_i64(0);
12395         TCGv_i64 tcg_rd_hi = tcg_const_i64(0);
12396
12397         for (i = 0; i < elements; i++) {
12398             int e_rev = (i & 0xf) ^ revmask;
12399             int off = e_rev * esize;
12400             read_vec_element(s, tcg_rn, rn, i, size);
12401             if (off >= 64) {
12402                 tcg_gen_deposit_i64(tcg_rd_hi, tcg_rd_hi,
12403                                     tcg_rn, off - 64, esize);
12404             } else {
12405                 tcg_gen_deposit_i64(tcg_rd, tcg_rd, tcg_rn, off, esize);
12406             }
12407         }
12408         write_vec_element(s, tcg_rd, rd, 0, MO_64);
12409         write_vec_element(s, tcg_rd_hi, rd, 1, MO_64);
12410
12411         tcg_temp_free_i64(tcg_rd_hi);
12412         tcg_temp_free_i64(tcg_rd);
12413         tcg_temp_free_i64(tcg_rn);
12414     }
12415 }
12416
12417 static void handle_2misc_pairwise(DisasContext *s, int opcode, bool u,
12418                                   bool is_q, int size, int rn, int rd)
12419 {
12420     /* Implement the pairwise operations from 2-misc:
12421      * SADDLP, UADDLP, SADALP, UADALP.
12422      * These all add pairs of elements in the input to produce a
12423      * double-width result element in the output (possibly accumulating).
12424      */
12425     bool accum = (opcode == 0x6);
12426     int maxpass = is_q ? 2 : 1;
12427     int pass;
12428     TCGv_i64 tcg_res[2];
12429
12430     if (size == 2) {
12431         /* 32 + 32 -> 64 op */
12432         MemOp memop = size + (u ? 0 : MO_SIGN);
12433
12434         for (pass = 0; pass < maxpass; pass++) {
12435             TCGv_i64 tcg_op1 = tcg_temp_new_i64();
12436             TCGv_i64 tcg_op2 = tcg_temp_new_i64();
12437
12438             tcg_res[pass] = tcg_temp_new_i64();
12439
12440             read_vec_element(s, tcg_op1, rn, pass * 2, memop);
12441             read_vec_element(s, tcg_op2, rn, pass * 2 + 1, memop);
12442             tcg_gen_add_i64(tcg_res[pass], tcg_op1, tcg_op2);
12443             if (accum) {
12444                 read_vec_element(s, tcg_op1, rd, pass, MO_64);
12445                 tcg_gen_add_i64(tcg_res[pass], tcg_res[pass], tcg_op1);
12446             }
12447
12448             tcg_temp_free_i64(tcg_op1);
12449             tcg_temp_free_i64(tcg_op2);
12450         }
12451     } else {
12452         for (pass = 0; pass < maxpass; pass++) {
12453             TCGv_i64 tcg_op = tcg_temp_new_i64();
12454             NeonGenOne64OpFn *genfn;
12455             static NeonGenOne64OpFn * const fns[2][2] = {
12456                 { gen_helper_neon_addlp_s8,  gen_helper_neon_addlp_u8 },
12457                 { gen_helper_neon_addlp_s16,  gen_helper_neon_addlp_u16 },
12458             };
12459
12460             genfn = fns[size][u];
12461
12462             tcg_res[pass] = tcg_temp_new_i64();
12463
12464             read_vec_element(s, tcg_op, rn, pass, MO_64);
12465             genfn(tcg_res[pass], tcg_op);
12466
12467             if (accum) {
12468                 read_vec_element(s, tcg_op, rd, pass, MO_64);
12469                 if (size == 0) {
12470                     gen_helper_neon_addl_u16(tcg_res[pass],
12471                                              tcg_res[pass], tcg_op);
12472                 } else {
12473                     gen_helper_neon_addl_u32(tcg_res[pass],
12474                                              tcg_res[pass], tcg_op);
12475                 }
12476             }
12477             tcg_temp_free_i64(tcg_op);
12478         }
12479     }
12480     if (!is_q) {
12481         tcg_res[1] = tcg_const_i64(0);
12482     }
12483     for (pass = 0; pass < 2; pass++) {
12484         write_vec_element(s, tcg_res[pass], rd, pass, MO_64);
12485         tcg_temp_free_i64(tcg_res[pass]);
12486     }
12487 }
12488
12489 static void handle_shll(DisasContext *s, bool is_q, int size, int rn, int rd)
12490 {
12491     /* Implement SHLL and SHLL2 */
12492     int pass;
12493     int part = is_q ? 2 : 0;
12494     TCGv_i64 tcg_res[2];
12495
12496     for (pass = 0; pass < 2; pass++) {
12497         static NeonGenWidenFn * const widenfns[3] = {
12498             gen_helper_neon_widen_u8,
12499             gen_helper_neon_widen_u16,
12500             tcg_gen_extu_i32_i64,
12501         };
12502         NeonGenWidenFn *widenfn = widenfns[size];
12503         TCGv_i32 tcg_op = tcg_temp_new_i32();
12504
12505         read_vec_element_i32(s, tcg_op, rn, part + pass, MO_32);
12506         tcg_res[pass] = tcg_temp_new_i64();
12507         widenfn(tcg_res[pass], tcg_op);
12508         tcg_gen_shli_i64(tcg_res[pass], tcg_res[pass], 8 << size);
12509
12510         tcg_temp_free_i32(tcg_op);
12511     }
12512
12513     for (pass = 0; pass < 2; pass++) {
12514         write_vec_element(s, tcg_res[pass], rd, pass, MO_64);
12515         tcg_temp_free_i64(tcg_res[pass]);
12516     }
12517 }
12518
12519 /* AdvSIMD two reg misc
12520  *   31  30  29 28       24 23  22 21       17 16    12 11 10 9    5 4    0
12521  * +---+---+---+-----------+------+-----------+--------+-----+------+------+
12522  * | 0 | Q | U | 0 1 1 1 0 | size | 1 0 0 0 0 | opcode | 1 0 |  Rn  |  Rd  |
12523  * +---+---+---+-----------+------+-----------+--------+-----+------+------+
12524  */
12525 static void disas_simd_two_reg_misc(DisasContext *s, uint32_t insn)
12526 {
12527     int size = extract32(insn, 22, 2);
12528     int opcode = extract32(insn, 12, 5);
12529     bool u = extract32(insn, 29, 1);
12530     bool is_q = extract32(insn, 30, 1);
12531     int rn = extract32(insn, 5, 5);
12532     int rd = extract32(insn, 0, 5);
12533     bool need_fpstatus = false;
12534     bool need_rmode = false;
12535     int rmode = -1;
12536     TCGv_i32 tcg_rmode;
12537     TCGv_ptr tcg_fpstatus;
12538
12539     switch (opcode) {
12540     case 0x0: /* REV64, REV32 */
12541     case 0x1: /* REV16 */
12542         handle_rev(s, opcode, u, is_q, size, rn, rd);
12543         return;
12544     case 0x5: /* CNT, NOT, RBIT */
12545         if (u && size == 0) {
12546             /* NOT */
12547             break;
12548         } else if (u && size == 1) {
12549             /* RBIT */
12550             break;
12551         } else if (!u && size == 0) {
12552             /* CNT */
12553             break;
12554         }
12555         unallocated_encoding(s);
12556         return;
12557     case 0x12: /* XTN, XTN2, SQXTUN, SQXTUN2 */
12558     case 0x14: /* SQXTN, SQXTN2, UQXTN, UQXTN2 */
12559         if (size == 3) {
12560             unallocated_encoding(s);
12561             return;
12562         }
12563         if (!fp_access_check(s)) {
12564             return;
12565         }
12566
12567         handle_2misc_narrow(s, false, opcode, u, is_q, size, rn, rd);
12568         return;
12569     case 0x4: /* CLS, CLZ */
12570         if (size == 3) {
12571             unallocated_encoding(s);
12572             return;
12573         }
12574         break;
12575     case 0x2: /* SADDLP, UADDLP */
12576     case 0x6: /* SADALP, UADALP */
12577         if (size == 3) {
12578             unallocated_encoding(s);
12579             return;
12580         }
12581         if (!fp_access_check(s)) {
12582             return;
12583         }
12584         handle_2misc_pairwise(s, opcode, u, is_q, size, rn, rd);
12585         return;
12586     case 0x13: /* SHLL, SHLL2 */
12587         if (u == 0 || size == 3) {
12588             unallocated_encoding(s);
12589             return;
12590         }
12591         if (!fp_access_check(s)) {
12592             return;
12593         }
12594         handle_shll(s, is_q, size, rn, rd);
12595         return;
12596     case 0xa: /* CMLT */
12597         if (u == 1) {
12598             unallocated_encoding(s);
12599             return;
12600         }
12601         /* fall through */
12602     case 0x8: /* CMGT, CMGE */
12603     case 0x9: /* CMEQ, CMLE */
12604     case 0xb: /* ABS, NEG */
12605         if (size == 3 && !is_q) {
12606             unallocated_encoding(s);
12607             return;
12608         }
12609         break;
12610     case 0x3: /* SUQADD, USQADD */
12611         if (size == 3 && !is_q) {
12612             unallocated_encoding(s);
12613             return;
12614         }
12615         if (!fp_access_check(s)) {
12616             return;
12617         }
12618         handle_2misc_satacc(s, false, u, is_q, size, rn, rd);
12619         return;
12620     case 0x7: /* SQABS, SQNEG */
12621         if (size == 3 && !is_q) {
12622             unallocated_encoding(s);
12623             return;
12624         }
12625         break;
12626     case 0xc ... 0xf:
12627     case 0x16 ... 0x1f:
12628     {
12629         /* Floating point: U, size[1] and opcode indicate operation;
12630          * size[0] indicates single or double precision.
12631          */
12632         int is_double = extract32(size, 0, 1);
12633         opcode |= (extract32(size, 1, 1) << 5) | (u << 6);
12634         size = is_double ? 3 : 2;
12635         switch (opcode) {
12636         case 0x2f: /* FABS */
12637         case 0x6f: /* FNEG */
12638             if (size == 3 && !is_q) {
12639                 unallocated_encoding(s);
12640                 return;
12641             }
12642             break;
12643         case 0x1d: /* SCVTF */
12644         case 0x5d: /* UCVTF */
12645         {
12646             bool is_signed = (opcode == 0x1d) ? true : false;
12647             int elements = is_double ? 2 : is_q ? 4 : 2;
12648             if (is_double && !is_q) {
12649                 unallocated_encoding(s);
12650                 return;
12651             }
12652             if (!fp_access_check(s)) {
12653                 return;
12654             }
12655             handle_simd_intfp_conv(s, rd, rn, elements, is_signed, 0, size);
12656             return;
12657         }
12658         case 0x2c: /* FCMGT (zero) */
12659         case 0x2d: /* FCMEQ (zero) */
12660         case 0x2e: /* FCMLT (zero) */
12661         case 0x6c: /* FCMGE (zero) */
12662         case 0x6d: /* FCMLE (zero) */
12663             if (size == 3 && !is_q) {
12664                 unallocated_encoding(s);
12665                 return;
12666             }
12667             handle_2misc_fcmp_zero(s, opcode, false, u, is_q, size, rn, rd);
12668             return;
12669         case 0x7f: /* FSQRT */
12670             if (size == 3 && !is_q) {
12671                 unallocated_encoding(s);
12672                 return;
12673             }
12674             break;
12675         case 0x1a: /* FCVTNS */
12676         case 0x1b: /* FCVTMS */
12677         case 0x3a: /* FCVTPS */
12678         case 0x3b: /* FCVTZS */
12679         case 0x5a: /* FCVTNU */
12680         case 0x5b: /* FCVTMU */
12681         case 0x7a: /* FCVTPU */
12682         case 0x7b: /* FCVTZU */
12683             need_fpstatus = true;
12684             need_rmode = true;
12685             rmode = extract32(opcode, 5, 1) | (extract32(opcode, 0, 1) << 1);
12686             if (size == 3 && !is_q) {
12687                 unallocated_encoding(s);
12688                 return;
12689             }
12690             break;
12691         case 0x5c: /* FCVTAU */
12692         case 0x1c: /* FCVTAS */
12693             need_fpstatus = true;
12694             need_rmode = true;
12695             rmode = FPROUNDING_TIEAWAY;
12696             if (size == 3 && !is_q) {
12697                 unallocated_encoding(s);
12698                 return;
12699             }
12700             break;
12701         case 0x3c: /* URECPE */
12702             if (size == 3) {
12703                 unallocated_encoding(s);
12704                 return;
12705             }
12706             /* fall through */
12707         case 0x3d: /* FRECPE */
12708         case 0x7d: /* FRSQRTE */
12709             if (size == 3 && !is_q) {
12710                 unallocated_encoding(s);
12711                 return;
12712             }
12713             if (!fp_access_check(s)) {
12714                 return;
12715             }
12716             handle_2misc_reciprocal(s, opcode, false, u, is_q, size, rn, rd);
12717             return;
12718         case 0x56: /* FCVTXN, FCVTXN2 */
12719             if (size == 2) {
12720                 unallocated_encoding(s);
12721                 return;
12722             }
12723             /* fall through */
12724         case 0x16: /* FCVTN, FCVTN2 */
12725             /* handle_2misc_narrow does a 2*size -> size operation, but these
12726              * instructions encode the source size rather than dest size.
12727              */
12728             if (!fp_access_check(s)) {
12729                 return;
12730             }
12731             handle_2misc_narrow(s, false, opcode, 0, is_q, size - 1, rn, rd);
12732             return;
12733         case 0x17: /* FCVTL, FCVTL2 */
12734             if (!fp_access_check(s)) {
12735                 return;
12736             }
12737             handle_2misc_widening(s, opcode, is_q, size, rn, rd);
12738             return;
12739         case 0x18: /* FRINTN */
12740         case 0x19: /* FRINTM */
12741         case 0x38: /* FRINTP */
12742         case 0x39: /* FRINTZ */
12743             need_rmode = true;
12744             rmode = extract32(opcode, 5, 1) | (extract32(opcode, 0, 1) << 1);
12745             /* fall through */
12746         case 0x59: /* FRINTX */
12747         case 0x79: /* FRINTI */
12748             need_fpstatus = true;
12749             if (size == 3 && !is_q) {
12750                 unallocated_encoding(s);
12751                 return;
12752             }
12753             break;
12754         case 0x58: /* FRINTA */
12755             need_rmode = true;
12756             rmode = FPROUNDING_TIEAWAY;
12757             need_fpstatus = true;
12758             if (size == 3 && !is_q) {
12759                 unallocated_encoding(s);
12760                 return;
12761             }
12762             break;
12763         case 0x7c: /* URSQRTE */
12764             if (size == 3) {
12765                 unallocated_encoding(s);
12766                 return;
12767             }
12768             break;
12769         case 0x1e: /* FRINT32Z */
12770         case 0x1f: /* FRINT64Z */
12771             need_rmode = true;
12772             rmode = FPROUNDING_ZERO;
12773             /* fall through */
12774         case 0x5e: /* FRINT32X */
12775         case 0x5f: /* FRINT64X */
12776             need_fpstatus = true;
12777             if ((size == 3 && !is_q) || !dc_isar_feature(aa64_frint, s)) {
12778                 unallocated_encoding(s);
12779                 return;
12780             }
12781             break;
12782         default:
12783             unallocated_encoding(s);
12784             return;
12785         }
12786         break;
12787     }
12788     default:
12789         unallocated_encoding(s);
12790         return;
12791     }
12792
12793     if (!fp_access_check(s)) {
12794         return;
12795     }
12796
12797     if (need_fpstatus || need_rmode) {
12798         tcg_fpstatus = fpstatus_ptr(FPST_FPCR);
12799     } else {
12800         tcg_fpstatus = NULL;
12801     }
12802     if (need_rmode) {
12803         tcg_rmode = tcg_const_i32(arm_rmode_to_sf(rmode));
12804         gen_helper_set_rmode(tcg_rmode, tcg_rmode, tcg_fpstatus);
12805     } else {
12806         tcg_rmode = NULL;
12807     }
12808
12809     switch (opcode) {
12810     case 0x5:
12811         if (u && size == 0) { /* NOT */
12812             gen_gvec_fn2(s, is_q, rd, rn, tcg_gen_gvec_not, 0);
12813             return;
12814         }
12815         break;
12816     case 0x8: /* CMGT, CMGE */
12817         if (u) {
12818             gen_gvec_fn2(s, is_q, rd, rn, gen_gvec_cge0, size);
12819         } else {
12820             gen_gvec_fn2(s, is_q, rd, rn, gen_gvec_cgt0, size);
12821         }
12822         return;
12823     case 0x9: /* CMEQ, CMLE */
12824         if (u) {
12825             gen_gvec_fn2(s, is_q, rd, rn, gen_gvec_cle0, size);
12826         } else {
12827             gen_gvec_fn2(s, is_q, rd, rn, gen_gvec_ceq0, size);
12828         }
12829         return;
12830     case 0xa: /* CMLT */
12831         gen_gvec_fn2(s, is_q, rd, rn, gen_gvec_clt0, size);
12832         return;
12833     case 0xb:
12834         if (u) { /* ABS, NEG */
12835             gen_gvec_fn2(s, is_q, rd, rn, tcg_gen_gvec_neg, size);
12836         } else {
12837             gen_gvec_fn2(s, is_q, rd, rn, tcg_gen_gvec_abs, size);
12838         }
12839         return;
12840     }
12841
12842     if (size == 3) {
12843         /* All 64-bit element operations can be shared with scalar 2misc */
12844         int pass;
12845
12846         /* Coverity claims (size == 3 && !is_q) has been eliminated
12847          * from all paths leading to here.
12848          */
12849         tcg_debug_assert(is_q);
12850         for (pass = 0; pass < 2; pass++) {
12851             TCGv_i64 tcg_op = tcg_temp_new_i64();
12852             TCGv_i64 tcg_res = tcg_temp_new_i64();
12853
12854             read_vec_element(s, tcg_op, rn, pass, MO_64);
12855
12856             handle_2misc_64(s, opcode, u, tcg_res, tcg_op,
12857                             tcg_rmode, tcg_fpstatus);
12858
12859             write_vec_element(s, tcg_res, rd, pass, MO_64);
12860
12861             tcg_temp_free_i64(tcg_res);
12862             tcg_temp_free_i64(tcg_op);
12863         }
12864     } else {
12865         int pass;
12866
12867         for (pass = 0; pass < (is_q ? 4 : 2); pass++) {
12868             TCGv_i32 tcg_op = tcg_temp_new_i32();
12869             TCGv_i32 tcg_res = tcg_temp_new_i32();
12870
12871             read_vec_element_i32(s, tcg_op, rn, pass, MO_32);
12872
12873             if (size == 2) {
12874                 /* Special cases for 32 bit elements */
12875                 switch (opcode) {
12876                 case 0x4: /* CLS */
12877                     if (u) {
12878                         tcg_gen_clzi_i32(tcg_res, tcg_op, 32);
12879                     } else {
12880                         tcg_gen_clrsb_i32(tcg_res, tcg_op);
12881                     }
12882                     break;
12883                 case 0x7: /* SQABS, SQNEG */
12884                     if (u) {
12885                         gen_helper_neon_qneg_s32(tcg_res, cpu_env, tcg_op);
12886                     } else {
12887                         gen_helper_neon_qabs_s32(tcg_res, cpu_env, tcg_op);
12888                     }
12889                     break;
12890                 case 0x2f: /* FABS */
12891                     gen_helper_vfp_abss(tcg_res, tcg_op);
12892                     break;
12893                 case 0x6f: /* FNEG */
12894                     gen_helper_vfp_negs(tcg_res, tcg_op);
12895                     break;
12896                 case 0x7f: /* FSQRT */
12897                     gen_helper_vfp_sqrts(tcg_res, tcg_op, cpu_env);
12898                     break;
12899                 case 0x1a: /* FCVTNS */
12900                 case 0x1b: /* FCVTMS */
12901                 case 0x1c: /* FCVTAS */
12902                 case 0x3a: /* FCVTPS */
12903                 case 0x3b: /* FCVTZS */
12904                 {
12905                     TCGv_i32 tcg_shift = tcg_const_i32(0);
12906                     gen_helper_vfp_tosls(tcg_res, tcg_op,
12907                                          tcg_shift, tcg_fpstatus);
12908                     tcg_temp_free_i32(tcg_shift);
12909                     break;
12910                 }
12911                 case 0x5a: /* FCVTNU */
12912                 case 0x5b: /* FCVTMU */
12913                 case 0x5c: /* FCVTAU */
12914                 case 0x7a: /* FCVTPU */
12915                 case 0x7b: /* FCVTZU */
12916                 {
12917                     TCGv_i32 tcg_shift = tcg_const_i32(0);
12918                     gen_helper_vfp_touls(tcg_res, tcg_op,
12919                                          tcg_shift, tcg_fpstatus);
12920                     tcg_temp_free_i32(tcg_shift);
12921                     break;
12922                 }
12923                 case 0x18: /* FRINTN */
12924                 case 0x19: /* FRINTM */
12925                 case 0x38: /* FRINTP */
12926                 case 0x39: /* FRINTZ */
12927                 case 0x58: /* FRINTA */
12928                 case 0x79: /* FRINTI */
12929                     gen_helper_rints(tcg_res, tcg_op, tcg_fpstatus);
12930                     break;
12931                 case 0x59: /* FRINTX */
12932                     gen_helper_rints_exact(tcg_res, tcg_op, tcg_fpstatus);
12933                     break;
12934                 case 0x7c: /* URSQRTE */
12935                     gen_helper_rsqrte_u32(tcg_res, tcg_op);
12936                     break;
12937                 case 0x1e: /* FRINT32Z */
12938                 case 0x5e: /* FRINT32X */
12939                     gen_helper_frint32_s(tcg_res, tcg_op, tcg_fpstatus);
12940                     break;
12941                 case 0x1f: /* FRINT64Z */
12942                 case 0x5f: /* FRINT64X */
12943                     gen_helper_frint64_s(tcg_res, tcg_op, tcg_fpstatus);
12944                     break;
12945                 default:
12946                     g_assert_not_reached();
12947                 }
12948             } else {
12949                 /* Use helpers for 8 and 16 bit elements */
12950                 switch (opcode) {
12951                 case 0x5: /* CNT, RBIT */
12952                     /* For these two insns size is part of the opcode specifier
12953                      * (handled earlier); they always operate on byte elements.
12954                      */
12955                     if (u) {
12956                         gen_helper_neon_rbit_u8(tcg_res, tcg_op);
12957                     } else {
12958                         gen_helper_neon_cnt_u8(tcg_res, tcg_op);
12959                     }
12960                     break;
12961                 case 0x7: /* SQABS, SQNEG */
12962                 {
12963                     NeonGenOneOpEnvFn *genfn;
12964                     static NeonGenOneOpEnvFn * const fns[2][2] = {
12965                         { gen_helper_neon_qabs_s8, gen_helper_neon_qneg_s8 },
12966                         { gen_helper_neon_qabs_s16, gen_helper_neon_qneg_s16 },
12967                     };
12968                     genfn = fns[size][u];
12969                     genfn(tcg_res, cpu_env, tcg_op);
12970                     break;
12971                 }
12972                 case 0x4: /* CLS, CLZ */
12973                     if (u) {
12974                         if (size == 0) {
12975                             gen_helper_neon_clz_u8(tcg_res, tcg_op);
12976                         } else {
12977                             gen_helper_neon_clz_u16(tcg_res, tcg_op);
12978                         }
12979                     } else {
12980                         if (size == 0) {
12981                             gen_helper_neon_cls_s8(tcg_res, tcg_op);
12982                         } else {
12983                             gen_helper_neon_cls_s16(tcg_res, tcg_op);
12984                         }
12985                     }
12986                     break;
12987                 default:
12988                     g_assert_not_reached();
12989                 }
12990             }
12991
12992             write_vec_element_i32(s, tcg_res, rd, pass, MO_32);
12993
12994             tcg_temp_free_i32(tcg_res);
12995             tcg_temp_free_i32(tcg_op);
12996         }
12997     }
12998     clear_vec_high(s, is_q, rd);
12999
13000     if (need_rmode) {
13001         gen_helper_set_rmode(tcg_rmode, tcg_rmode, tcg_fpstatus);
13002         tcg_temp_free_i32(tcg_rmode);
13003     }
13004     if (need_fpstatus) {
13005         tcg_temp_free_ptr(tcg_fpstatus);
13006     }
13007 }
13008
13009 /* AdvSIMD [scalar] two register miscellaneous (FP16)
13010  *
13011  *   31  30  29 28  27     24  23 22 21       17 16    12 11 10 9    5 4    0
13012  * +---+---+---+---+---------+---+-------------+--------+-----+------+------+
13013  * | 0 | Q | U | S | 1 1 1 0 | a | 1 1 1 1 0 0 | opcode | 1 0 |  Rn  |  Rd  |
13014  * +---+---+---+---+---------+---+-------------+--------+-----+------+------+
13015  *   mask: 1000 1111 0111 1110 0000 1100 0000 0000 0x8f7e 0c00
13016  *   val:  0000 1110 0111 1000 0000 1000 0000 0000 0x0e78 0800
13017  *
13018  * This actually covers two groups where scalar access is governed by
13019  * bit 28. A bunch of the instructions (float to integral) only exist
13020  * in the vector form and are un-allocated for the scalar decode. Also
13021  * in the scalar decode Q is always 1.
13022  */
13023 static void disas_simd_two_reg_misc_fp16(DisasContext *s, uint32_t insn)
13024 {
13025     int fpop, opcode, a, u;
13026     int rn, rd;
13027     bool is_q;
13028     bool is_scalar;
13029     bool only_in_vector = false;
13030
13031     int pass;
13032     TCGv_i32 tcg_rmode = NULL;
13033     TCGv_ptr tcg_fpstatus = NULL;
13034     bool need_rmode = false;
13035     bool need_fpst = true;
13036     int rmode;
13037
13038     if (!dc_isar_feature(aa64_fp16, s)) {
13039         unallocated_encoding(s);
13040         return;
13041     }
13042
13043     rd = extract32(insn, 0, 5);
13044     rn = extract32(insn, 5, 5);
13045
13046     a = extract32(insn, 23, 1);
13047     u = extract32(insn, 29, 1);
13048     is_scalar = extract32(insn, 28, 1);
13049     is_q = extract32(insn, 30, 1);
13050
13051     opcode = extract32(insn, 12, 5);
13052     fpop = deposit32(opcode, 5, 1, a);
13053     fpop = deposit32(fpop, 6, 1, u);
13054
13055     switch (fpop) {
13056     case 0x1d: /* SCVTF */
13057     case 0x5d: /* UCVTF */
13058     {
13059         int elements;
13060
13061         if (is_scalar) {
13062             elements = 1;
13063         } else {
13064             elements = (is_q ? 8 : 4);
13065         }
13066
13067         if (!fp_access_check(s)) {
13068             return;
13069         }
13070         handle_simd_intfp_conv(s, rd, rn, elements, !u, 0, MO_16);
13071         return;
13072     }
13073     break;
13074     case 0x2c: /* FCMGT (zero) */
13075     case 0x2d: /* FCMEQ (zero) */
13076     case 0x2e: /* FCMLT (zero) */
13077     case 0x6c: /* FCMGE (zero) */
13078     case 0x6d: /* FCMLE (zero) */
13079         handle_2misc_fcmp_zero(s, fpop, is_scalar, 0, is_q, MO_16, rn, rd);
13080         return;
13081     case 0x3d: /* FRECPE */
13082     case 0x3f: /* FRECPX */
13083         break;
13084     case 0x18: /* FRINTN */
13085         need_rmode = true;
13086         only_in_vector = true;
13087         rmode = FPROUNDING_TIEEVEN;
13088         break;
13089     case 0x19: /* FRINTM */
13090         need_rmode = true;
13091         only_in_vector = true;
13092         rmode = FPROUNDING_NEGINF;
13093         break;
13094     case 0x38: /* FRINTP */
13095         need_rmode = true;
13096         only_in_vector = true;
13097         rmode = FPROUNDING_POSINF;
13098         break;
13099     case 0x39: /* FRINTZ */
13100         need_rmode = true;
13101         only_in_vector = true;
13102         rmode = FPROUNDING_ZERO;
13103         break;
13104     case 0x58: /* FRINTA */
13105         need_rmode = true;
13106         only_in_vector = true;
13107         rmode = FPROUNDING_TIEAWAY;
13108         break;
13109     case 0x59: /* FRINTX */
13110     case 0x79: /* FRINTI */
13111         only_in_vector = true;
13112         /* current rounding mode */
13113         break;
13114     case 0x1a: /* FCVTNS */
13115         need_rmode = true;
13116         rmode = FPROUNDING_TIEEVEN;
13117         break;
13118     case 0x1b: /* FCVTMS */
13119         need_rmode = true;
13120         rmode = FPROUNDING_NEGINF;
13121         break;
13122     case 0x1c: /* FCVTAS */
13123         need_rmode = true;
13124         rmode = FPROUNDING_TIEAWAY;
13125         break;
13126     case 0x3a: /* FCVTPS */
13127         need_rmode = true;
13128         rmode = FPROUNDING_POSINF;
13129         break;
13130     case 0x3b: /* FCVTZS */
13131         need_rmode = true;
13132         rmode = FPROUNDING_ZERO;
13133         break;
13134     case 0x5a: /* FCVTNU */
13135         need_rmode = true;
13136         rmode = FPROUNDING_TIEEVEN;
13137         break;
13138     case 0x5b: /* FCVTMU */
13139         need_rmode = true;
13140         rmode = FPROUNDING_NEGINF;
13141         break;
13142     case 0x5c: /* FCVTAU */
13143         need_rmode = true;
13144         rmode = FPROUNDING_TIEAWAY;
13145         break;
13146     case 0x7a: /* FCVTPU */
13147         need_rmode = true;
13148         rmode = FPROUNDING_POSINF;
13149         break;
13150     case 0x7b: /* FCVTZU */
13151         need_rmode = true;
13152         rmode = FPROUNDING_ZERO;
13153         break;
13154     case 0x2f: /* FABS */
13155     case 0x6f: /* FNEG */
13156         need_fpst = false;
13157         break;
13158     case 0x7d: /* FRSQRTE */
13159     case 0x7f: /* FSQRT (vector) */
13160         break;
13161     default:
13162         fprintf(stderr, "%s: insn 0x%04x fpop 0x%2x\n", __func__, insn, fpop);
13163         g_assert_not_reached();
13164     }
13165
13166
13167     /* Check additional constraints for the scalar encoding */
13168     if (is_scalar) {
13169         if (!is_q) {
13170             unallocated_encoding(s);
13171             return;
13172         }
13173         /* FRINTxx is only in the vector form */
13174         if (only_in_vector) {
13175             unallocated_encoding(s);
13176             return;
13177         }
13178     }
13179
13180     if (!fp_access_check(s)) {
13181         return;
13182     }
13183
13184     if (need_rmode || need_fpst) {
13185         tcg_fpstatus = fpstatus_ptr(FPST_FPCR_F16);
13186     }
13187
13188     if (need_rmode) {
13189         tcg_rmode = tcg_const_i32(arm_rmode_to_sf(rmode));
13190         gen_helper_set_rmode(tcg_rmode, tcg_rmode, tcg_fpstatus);
13191     }
13192
13193     if (is_scalar) {
13194         TCGv_i32 tcg_op = read_fp_hreg(s, rn);
13195         TCGv_i32 tcg_res = tcg_temp_new_i32();
13196
13197         switch (fpop) {
13198         case 0x1a: /* FCVTNS */
13199         case 0x1b: /* FCVTMS */
13200         case 0x1c: /* FCVTAS */
13201         case 0x3a: /* FCVTPS */
13202         case 0x3b: /* FCVTZS */
13203             gen_helper_advsimd_f16tosinth(tcg_res, tcg_op, tcg_fpstatus);
13204             break;
13205         case 0x3d: /* FRECPE */
13206             gen_helper_recpe_f16(tcg_res, tcg_op, tcg_fpstatus);
13207             break;
13208         case 0x3f: /* FRECPX */
13209             gen_helper_frecpx_f16(tcg_res, tcg_op, tcg_fpstatus);
13210             break;
13211         case 0x5a: /* FCVTNU */
13212         case 0x5b: /* FCVTMU */
13213         case 0x5c: /* FCVTAU */
13214         case 0x7a: /* FCVTPU */
13215         case 0x7b: /* FCVTZU */
13216             gen_helper_advsimd_f16touinth(tcg_res, tcg_op, tcg_fpstatus);
13217             break;
13218         case 0x6f: /* FNEG */
13219             tcg_gen_xori_i32(tcg_res, tcg_op, 0x8000);
13220             break;
13221         case 0x7d: /* FRSQRTE */
13222             gen_helper_rsqrte_f16(tcg_res, tcg_op, tcg_fpstatus);
13223             break;
13224         default:
13225             g_assert_not_reached();
13226         }
13227
13228         /* limit any sign extension going on */
13229         tcg_gen_andi_i32(tcg_res, tcg_res, 0xffff);
13230         write_fp_sreg(s, rd, tcg_res);
13231
13232         tcg_temp_free_i32(tcg_res);
13233         tcg_temp_free_i32(tcg_op);
13234     } else {
13235         for (pass = 0; pass < (is_q ? 8 : 4); pass++) {
13236             TCGv_i32 tcg_op = tcg_temp_new_i32();
13237             TCGv_i32 tcg_res = tcg_temp_new_i32();
13238
13239             read_vec_element_i32(s, tcg_op, rn, pass, MO_16);
13240
13241             switch (fpop) {
13242             case 0x1a: /* FCVTNS */
13243             case 0x1b: /* FCVTMS */
13244             case 0x1c: /* FCVTAS */
13245             case 0x3a: /* FCVTPS */
13246             case 0x3b: /* FCVTZS */
13247                 gen_helper_advsimd_f16tosinth(tcg_res, tcg_op, tcg_fpstatus);
13248                 break;
13249             case 0x3d: /* FRECPE */
13250                 gen_helper_recpe_f16(tcg_res, tcg_op, tcg_fpstatus);
13251                 break;
13252             case 0x5a: /* FCVTNU */
13253             case 0x5b: /* FCVTMU */
13254             case 0x5c: /* FCVTAU */
13255             case 0x7a: /* FCVTPU */
13256             case 0x7b: /* FCVTZU */
13257                 gen_helper_advsimd_f16touinth(tcg_res, tcg_op, tcg_fpstatus);
13258                 break;
13259             case 0x18: /* FRINTN */
13260             case 0x19: /* FRINTM */
13261             case 0x38: /* FRINTP */
13262             case 0x39: /* FRINTZ */
13263             case 0x58: /* FRINTA */
13264             case 0x79: /* FRINTI */
13265                 gen_helper_advsimd_rinth(tcg_res, tcg_op, tcg_fpstatus);
13266                 break;
13267             case 0x59: /* FRINTX */
13268                 gen_helper_advsimd_rinth_exact(tcg_res, tcg_op, tcg_fpstatus);
13269                 break;
13270             case 0x2f: /* FABS */
13271                 tcg_gen_andi_i32(tcg_res, tcg_op, 0x7fff);
13272                 break;
13273             case 0x6f: /* FNEG */
13274                 tcg_gen_xori_i32(tcg_res, tcg_op, 0x8000);
13275                 break;
13276             case 0x7d: /* FRSQRTE */
13277                 gen_helper_rsqrte_f16(tcg_res, tcg_op, tcg_fpstatus);
13278                 break;
13279             case 0x7f: /* FSQRT */
13280                 gen_helper_sqrt_f16(tcg_res, tcg_op, tcg_fpstatus);
13281                 break;
13282             default:
13283                 g_assert_not_reached();
13284             }
13285
13286             write_vec_element_i32(s, tcg_res, rd, pass, MO_16);
13287
13288             tcg_temp_free_i32(tcg_res);
13289             tcg_temp_free_i32(tcg_op);
13290         }
13291
13292         clear_vec_high(s, is_q, rd);
13293     }
13294
13295     if (tcg_rmode) {
13296         gen_helper_set_rmode(tcg_rmode, tcg_rmode, tcg_fpstatus);
13297         tcg_temp_free_i32(tcg_rmode);
13298     }
13299
13300     if (tcg_fpstatus) {
13301         tcg_temp_free_ptr(tcg_fpstatus);
13302     }
13303 }
13304
13305 /* AdvSIMD scalar x indexed element
13306  *  31 30  29 28       24 23  22 21  20  19  16 15 12  11  10 9    5 4    0
13307  * +-----+---+-----------+------+---+---+------+-----+---+---+------+------+
13308  * | 0 1 | U | 1 1 1 1 1 | size | L | M |  Rm  | opc | H | 0 |  Rn  |  Rd  |
13309  * +-----+---+-----------+------+---+---+------+-----+---+---+------+------+
13310  * AdvSIMD vector x indexed element
13311  *   31  30  29 28       24 23  22 21  20  19  16 15 12  11  10 9    5 4    0
13312  * +---+---+---+-----------+------+---+---+------+-----+---+---+------+------+
13313  * | 0 | Q | U | 0 1 1 1 1 | size | L | M |  Rm  | opc | H | 0 |  Rn  |  Rd  |
13314  * +---+---+---+-----------+------+---+---+------+-----+---+---+------+------+
13315  */
13316 static void disas_simd_indexed(DisasContext *s, uint32_t insn)
13317 {
13318     /* This encoding has two kinds of instruction:
13319      *  normal, where we perform elt x idxelt => elt for each
13320      *     element in the vector
13321      *  long, where we perform elt x idxelt and generate a result of
13322      *     double the width of the input element
13323      * The long ops have a 'part' specifier (ie come in INSN, INSN2 pairs).
13324      */
13325     bool is_scalar = extract32(insn, 28, 1);
13326     bool is_q = extract32(insn, 30, 1);
13327     bool u = extract32(insn, 29, 1);
13328     int size = extract32(insn, 22, 2);
13329     int l = extract32(insn, 21, 1);
13330     int m = extract32(insn, 20, 1);
13331     /* Note that the Rm field here is only 4 bits, not 5 as it usually is */
13332     int rm = extract32(insn, 16, 4);
13333     int opcode = extract32(insn, 12, 4);
13334     int h = extract32(insn, 11, 1);
13335     int rn = extract32(insn, 5, 5);
13336     int rd = extract32(insn, 0, 5);
13337     bool is_long = false;
13338     int is_fp = 0;
13339     bool is_fp16 = false;
13340     int index;
13341     TCGv_ptr fpst;
13342
13343     switch (16 * u + opcode) {
13344     case 0x08: /* MUL */
13345     case 0x10: /* MLA */
13346     case 0x14: /* MLS */
13347         if (is_scalar) {
13348             unallocated_encoding(s);
13349             return;
13350         }
13351         break;
13352     case 0x02: /* SMLAL, SMLAL2 */
13353     case 0x12: /* UMLAL, UMLAL2 */
13354     case 0x06: /* SMLSL, SMLSL2 */
13355     case 0x16: /* UMLSL, UMLSL2 */
13356     case 0x0a: /* SMULL, SMULL2 */
13357     case 0x1a: /* UMULL, UMULL2 */
13358         if (is_scalar) {
13359             unallocated_encoding(s);
13360             return;
13361         }
13362         is_long = true;
13363         break;
13364     case 0x03: /* SQDMLAL, SQDMLAL2 */
13365     case 0x07: /* SQDMLSL, SQDMLSL2 */
13366     case 0x0b: /* SQDMULL, SQDMULL2 */
13367         is_long = true;
13368         break;
13369     case 0x0c: /* SQDMULH */
13370     case 0x0d: /* SQRDMULH */
13371         break;
13372     case 0x01: /* FMLA */
13373     case 0x05: /* FMLS */
13374     case 0x09: /* FMUL */
13375     case 0x19: /* FMULX */
13376         is_fp = 1;
13377         break;
13378     case 0x1d: /* SQRDMLAH */
13379     case 0x1f: /* SQRDMLSH */
13380         if (!dc_isar_feature(aa64_rdm, s)) {
13381             unallocated_encoding(s);
13382             return;
13383         }
13384         break;
13385     case 0x0e: /* SDOT */
13386     case 0x1e: /* UDOT */
13387         if (is_scalar || size != MO_32 || !dc_isar_feature(aa64_dp, s)) {
13388             unallocated_encoding(s);
13389             return;
13390         }
13391         break;
13392     case 0x0f: /* SUDOT, USDOT */
13393         if (is_scalar || (size & 1) || !dc_isar_feature(aa64_i8mm, s)) {
13394             unallocated_encoding(s);
13395             return;
13396         }
13397         size = MO_32;
13398         break;
13399     case 0x11: /* FCMLA #0 */
13400     case 0x13: /* FCMLA #90 */
13401     case 0x15: /* FCMLA #180 */
13402     case 0x17: /* FCMLA #270 */
13403         if (is_scalar || !dc_isar_feature(aa64_fcma, s)) {
13404             unallocated_encoding(s);
13405             return;
13406         }
13407         is_fp = 2;
13408         break;
13409     case 0x00: /* FMLAL */
13410     case 0x04: /* FMLSL */
13411     case 0x18: /* FMLAL2 */
13412     case 0x1c: /* FMLSL2 */
13413         if (is_scalar || size != MO_32 || !dc_isar_feature(aa64_fhm, s)) {
13414             unallocated_encoding(s);
13415             return;
13416         }
13417         size = MO_16;
13418         /* is_fp, but we pass cpu_env not fp_status.  */
13419         break;
13420     default:
13421         unallocated_encoding(s);
13422         return;
13423     }
13424
13425     switch (is_fp) {
13426     case 1: /* normal fp */
13427         /* convert insn encoded size to MemOp size */
13428         switch (size) {
13429         case 0: /* half-precision */
13430             size = MO_16;
13431             is_fp16 = true;
13432             break;
13433         case MO_32: /* single precision */
13434         case MO_64: /* double precision */
13435             break;
13436         default:
13437             unallocated_encoding(s);
13438             return;
13439         }
13440         break;
13441
13442     case 2: /* complex fp */
13443         /* Each indexable element is a complex pair.  */
13444         size += 1;
13445         switch (size) {
13446         case MO_32:
13447             if (h && !is_q) {
13448                 unallocated_encoding(s);
13449                 return;
13450             }
13451             is_fp16 = true;
13452             break;
13453         case MO_64:
13454             break;
13455         default:
13456             unallocated_encoding(s);
13457             return;
13458         }
13459         break;
13460
13461     default: /* integer */
13462         switch (size) {
13463         case MO_8:
13464         case MO_64:
13465             unallocated_encoding(s);
13466             return;
13467         }
13468         break;
13469     }
13470     if (is_fp16 && !dc_isar_feature(aa64_fp16, s)) {
13471         unallocated_encoding(s);
13472         return;
13473     }
13474
13475     /* Given MemOp size, adjust register and indexing.  */
13476     switch (size) {
13477     case MO_16:
13478         index = h << 2 | l << 1 | m;
13479         break;
13480     case MO_32:
13481         index = h << 1 | l;
13482         rm |= m << 4;
13483         break;
13484     case MO_64:
13485         if (l || !is_q) {
13486             unallocated_encoding(s);
13487             return;
13488         }
13489         index = h;
13490         rm |= m << 4;
13491         break;
13492     default:
13493         g_assert_not_reached();
13494     }
13495
13496     if (!fp_access_check(s)) {
13497         return;
13498     }
13499
13500     if (is_fp) {
13501         fpst = fpstatus_ptr(is_fp16 ? FPST_FPCR_F16 : FPST_FPCR);
13502     } else {
13503         fpst = NULL;
13504     }
13505
13506     switch (16 * u + opcode) {
13507     case 0x0e: /* SDOT */
13508     case 0x1e: /* UDOT */
13509         gen_gvec_op4_ool(s, is_q, rd, rn, rm, rd, index,
13510                          u ? gen_helper_gvec_udot_idx_b
13511                          : gen_helper_gvec_sdot_idx_b);
13512         return;
13513     case 0x0f: /* SUDOT, USDOT */
13514         gen_gvec_op4_ool(s, is_q, rd, rn, rm, rd, index,
13515                          extract32(insn, 23, 1)
13516                          ? gen_helper_gvec_usdot_idx_b
13517                          : gen_helper_gvec_sudot_idx_b);
13518         return;
13519
13520     case 0x11: /* FCMLA #0 */
13521     case 0x13: /* FCMLA #90 */
13522     case 0x15: /* FCMLA #180 */
13523     case 0x17: /* FCMLA #270 */
13524         {
13525             int rot = extract32(insn, 13, 2);
13526             int data = (index << 2) | rot;
13527             tcg_gen_gvec_4_ptr(vec_full_reg_offset(s, rd),
13528                                vec_full_reg_offset(s, rn),
13529                                vec_full_reg_offset(s, rm),
13530                                vec_full_reg_offset(s, rd), fpst,
13531                                is_q ? 16 : 8, vec_full_reg_size(s), data,
13532                                size == MO_64
13533                                ? gen_helper_gvec_fcmlas_idx
13534                                : gen_helper_gvec_fcmlah_idx);
13535             tcg_temp_free_ptr(fpst);
13536         }
13537         return;
13538
13539     case 0x00: /* FMLAL */
13540     case 0x04: /* FMLSL */
13541     case 0x18: /* FMLAL2 */
13542     case 0x1c: /* FMLSL2 */
13543         {
13544             int is_s = extract32(opcode, 2, 1);
13545             int is_2 = u;
13546             int data = (index << 2) | (is_2 << 1) | is_s;
13547             tcg_gen_gvec_3_ptr(vec_full_reg_offset(s, rd),
13548                                vec_full_reg_offset(s, rn),
13549                                vec_full_reg_offset(s, rm), cpu_env,
13550                                is_q ? 16 : 8, vec_full_reg_size(s),
13551                                data, gen_helper_gvec_fmlal_idx_a64);
13552         }
13553         return;
13554
13555     case 0x08: /* MUL */
13556         if (!is_long && !is_scalar) {
13557             static gen_helper_gvec_3 * const fns[3] = {
13558                 gen_helper_gvec_mul_idx_h,
13559                 gen_helper_gvec_mul_idx_s,
13560                 gen_helper_gvec_mul_idx_d,
13561             };
13562             tcg_gen_gvec_3_ool(vec_full_reg_offset(s, rd),
13563                                vec_full_reg_offset(s, rn),
13564                                vec_full_reg_offset(s, rm),
13565                                is_q ? 16 : 8, vec_full_reg_size(s),
13566                                index, fns[size - 1]);
13567             return;
13568         }
13569         break;
13570
13571     case 0x10: /* MLA */
13572         if (!is_long && !is_scalar) {
13573             static gen_helper_gvec_4 * const fns[3] = {
13574                 gen_helper_gvec_mla_idx_h,
13575                 gen_helper_gvec_mla_idx_s,
13576                 gen_helper_gvec_mla_idx_d,
13577             };
13578             tcg_gen_gvec_4_ool(vec_full_reg_offset(s, rd),
13579                                vec_full_reg_offset(s, rn),
13580                                vec_full_reg_offset(s, rm),
13581                                vec_full_reg_offset(s, rd),
13582                                is_q ? 16 : 8, vec_full_reg_size(s),
13583                                index, fns[size - 1]);
13584             return;
13585         }
13586         break;
13587
13588     case 0x14: /* MLS */
13589         if (!is_long && !is_scalar) {
13590             static gen_helper_gvec_4 * const fns[3] = {
13591                 gen_helper_gvec_mls_idx_h,
13592                 gen_helper_gvec_mls_idx_s,
13593                 gen_helper_gvec_mls_idx_d,
13594             };
13595             tcg_gen_gvec_4_ool(vec_full_reg_offset(s, rd),
13596                                vec_full_reg_offset(s, rn),
13597                                vec_full_reg_offset(s, rm),
13598                                vec_full_reg_offset(s, rd),
13599                                is_q ? 16 : 8, vec_full_reg_size(s),
13600                                index, fns[size - 1]);
13601             return;
13602         }
13603         break;
13604     }
13605
13606     if (size == 3) {
13607         TCGv_i64 tcg_idx = tcg_temp_new_i64();
13608         int pass;
13609
13610         assert(is_fp && is_q && !is_long);
13611
13612         read_vec_element(s, tcg_idx, rm, index, MO_64);
13613
13614         for (pass = 0; pass < (is_scalar ? 1 : 2); pass++) {
13615             TCGv_i64 tcg_op = tcg_temp_new_i64();
13616             TCGv_i64 tcg_res = tcg_temp_new_i64();
13617
13618             read_vec_element(s, tcg_op, rn, pass, MO_64);
13619
13620             switch (16 * u + opcode) {
13621             case 0x05: /* FMLS */
13622                 /* As usual for ARM, separate negation for fused multiply-add */
13623                 gen_helper_vfp_negd(tcg_op, tcg_op);
13624                 /* fall through */
13625             case 0x01: /* FMLA */
13626                 read_vec_element(s, tcg_res, rd, pass, MO_64);
13627                 gen_helper_vfp_muladdd(tcg_res, tcg_op, tcg_idx, tcg_res, fpst);
13628                 break;
13629             case 0x09: /* FMUL */
13630                 gen_helper_vfp_muld(tcg_res, tcg_op, tcg_idx, fpst);
13631                 break;
13632             case 0x19: /* FMULX */
13633                 gen_helper_vfp_mulxd(tcg_res, tcg_op, tcg_idx, fpst);
13634                 break;
13635             default:
13636                 g_assert_not_reached();
13637             }
13638
13639             write_vec_element(s, tcg_res, rd, pass, MO_64);
13640             tcg_temp_free_i64(tcg_op);
13641             tcg_temp_free_i64(tcg_res);
13642         }
13643
13644         tcg_temp_free_i64(tcg_idx);
13645         clear_vec_high(s, !is_scalar, rd);
13646     } else if (!is_long) {
13647         /* 32 bit floating point, or 16 or 32 bit integer.
13648          * For the 16 bit scalar case we use the usual Neon helpers and
13649          * rely on the fact that 0 op 0 == 0 with no side effects.
13650          */
13651         TCGv_i32 tcg_idx = tcg_temp_new_i32();
13652         int pass, maxpasses;
13653
13654         if (is_scalar) {
13655             maxpasses = 1;
13656         } else {
13657             maxpasses = is_q ? 4 : 2;
13658         }
13659
13660         read_vec_element_i32(s, tcg_idx, rm, index, size);
13661
13662         if (size == 1 && !is_scalar) {
13663             /* The simplest way to handle the 16x16 indexed ops is to duplicate
13664              * the index into both halves of the 32 bit tcg_idx and then use
13665              * the usual Neon helpers.
13666              */
13667             tcg_gen_deposit_i32(tcg_idx, tcg_idx, tcg_idx, 16, 16);
13668         }
13669
13670         for (pass = 0; pass < maxpasses; pass++) {
13671             TCGv_i32 tcg_op = tcg_temp_new_i32();
13672             TCGv_i32 tcg_res = tcg_temp_new_i32();
13673
13674             read_vec_element_i32(s, tcg_op, rn, pass, is_scalar ? size : MO_32);
13675
13676             switch (16 * u + opcode) {
13677             case 0x08: /* MUL */
13678             case 0x10: /* MLA */
13679             case 0x14: /* MLS */
13680             {
13681                 static NeonGenTwoOpFn * const fns[2][2] = {
13682                     { gen_helper_neon_add_u16, gen_helper_neon_sub_u16 },
13683                     { tcg_gen_add_i32, tcg_gen_sub_i32 },
13684                 };
13685                 NeonGenTwoOpFn *genfn;
13686                 bool is_sub = opcode == 0x4;
13687
13688                 if (size == 1) {
13689                     gen_helper_neon_mul_u16(tcg_res, tcg_op, tcg_idx);
13690                 } else {
13691                     tcg_gen_mul_i32(tcg_res, tcg_op, tcg_idx);
13692                 }
13693                 if (opcode == 0x8) {
13694                     break;
13695                 }
13696                 read_vec_element_i32(s, tcg_op, rd, pass, MO_32);
13697                 genfn = fns[size - 1][is_sub];
13698                 genfn(tcg_res, tcg_op, tcg_res);
13699                 break;
13700             }
13701             case 0x05: /* FMLS */
13702             case 0x01: /* FMLA */
13703                 read_vec_element_i32(s, tcg_res, rd, pass,
13704                                      is_scalar ? size : MO_32);
13705                 switch (size) {
13706                 case 1:
13707                     if (opcode == 0x5) {
13708                         /* As usual for ARM, separate negation for fused
13709                          * multiply-add */
13710                         tcg_gen_xori_i32(tcg_op, tcg_op, 0x80008000);
13711                     }
13712                     if (is_scalar) {
13713                         gen_helper_advsimd_muladdh(tcg_res, tcg_op, tcg_idx,
13714                                                    tcg_res, fpst);
13715                     } else {
13716                         gen_helper_advsimd_muladd2h(tcg_res, tcg_op, tcg_idx,
13717                                                     tcg_res, fpst);
13718                     }
13719                     break;
13720                 case 2:
13721                     if (opcode == 0x5) {
13722                         /* As usual for ARM, separate negation for
13723                          * fused multiply-add */
13724                         tcg_gen_xori_i32(tcg_op, tcg_op, 0x80000000);
13725                     }
13726                     gen_helper_vfp_muladds(tcg_res, tcg_op, tcg_idx,
13727                                            tcg_res, fpst);
13728                     break;
13729                 default:
13730                     g_assert_not_reached();
13731                 }
13732                 break;
13733             case 0x09: /* FMUL */
13734                 switch (size) {
13735                 case 1:
13736                     if (is_scalar) {
13737                         gen_helper_advsimd_mulh(tcg_res, tcg_op,
13738                                                 tcg_idx, fpst);
13739                     } else {
13740                         gen_helper_advsimd_mul2h(tcg_res, tcg_op,
13741                                                  tcg_idx, fpst);
13742                     }
13743                     break;
13744                 case 2:
13745                     gen_helper_vfp_muls(tcg_res, tcg_op, tcg_idx, fpst);
13746                     break;
13747                 default:
13748                     g_assert_not_reached();
13749                 }
13750                 break;
13751             case 0x19: /* FMULX */
13752                 switch (size) {
13753                 case 1:
13754                     if (is_scalar) {
13755                         gen_helper_advsimd_mulxh(tcg_res, tcg_op,
13756                                                  tcg_idx, fpst);
13757                     } else {
13758                         gen_helper_advsimd_mulx2h(tcg_res, tcg_op,
13759                                                   tcg_idx, fpst);
13760                     }
13761                     break;
13762                 case 2:
13763                     gen_helper_vfp_mulxs(tcg_res, tcg_op, tcg_idx, fpst);
13764                     break;
13765                 default:
13766                     g_assert_not_reached();
13767                 }
13768                 break;
13769             case 0x0c: /* SQDMULH */
13770                 if (size == 1) {
13771                     gen_helper_neon_qdmulh_s16(tcg_res, cpu_env,
13772                                                tcg_op, tcg_idx);
13773                 } else {
13774                     gen_helper_neon_qdmulh_s32(tcg_res, cpu_env,
13775                                                tcg_op, tcg_idx);
13776                 }
13777                 break;
13778             case 0x0d: /* SQRDMULH */
13779                 if (size == 1) {
13780                     gen_helper_neon_qrdmulh_s16(tcg_res, cpu_env,
13781                                                 tcg_op, tcg_idx);
13782                 } else {
13783                     gen_helper_neon_qrdmulh_s32(tcg_res, cpu_env,
13784                                                 tcg_op, tcg_idx);
13785                 }
13786                 break;
13787             case 0x1d: /* SQRDMLAH */
13788                 read_vec_element_i32(s, tcg_res, rd, pass,
13789                                      is_scalar ? size : MO_32);
13790                 if (size == 1) {
13791                     gen_helper_neon_qrdmlah_s16(tcg_res, cpu_env,
13792                                                 tcg_op, tcg_idx, tcg_res);
13793                 } else {
13794                     gen_helper_neon_qrdmlah_s32(tcg_res, cpu_env,
13795                                                 tcg_op, tcg_idx, tcg_res);
13796                 }
13797                 break;
13798             case 0x1f: /* SQRDMLSH */
13799                 read_vec_element_i32(s, tcg_res, rd, pass,
13800                                      is_scalar ? size : MO_32);
13801                 if (size == 1) {
13802                     gen_helper_neon_qrdmlsh_s16(tcg_res, cpu_env,
13803                                                 tcg_op, tcg_idx, tcg_res);
13804                 } else {
13805                     gen_helper_neon_qrdmlsh_s32(tcg_res, cpu_env,
13806                                                 tcg_op, tcg_idx, tcg_res);
13807                 }
13808                 break;
13809             default:
13810                 g_assert_not_reached();
13811             }
13812
13813             if (is_scalar) {
13814                 write_fp_sreg(s, rd, tcg_res);
13815             } else {
13816                 write_vec_element_i32(s, tcg_res, rd, pass, MO_32);
13817             }
13818
13819             tcg_temp_free_i32(tcg_op);
13820             tcg_temp_free_i32(tcg_res);
13821         }
13822
13823         tcg_temp_free_i32(tcg_idx);
13824         clear_vec_high(s, is_q, rd);
13825     } else {
13826         /* long ops: 16x16->32 or 32x32->64 */
13827         TCGv_i64 tcg_res[2];
13828         int pass;
13829         bool satop = extract32(opcode, 0, 1);
13830         MemOp memop = MO_32;
13831
13832         if (satop || !u) {
13833             memop |= MO_SIGN;
13834         }
13835
13836         if (size == 2) {
13837             TCGv_i64 tcg_idx = tcg_temp_new_i64();
13838
13839             read_vec_element(s, tcg_idx, rm, index, memop);
13840
13841             for (pass = 0; pass < (is_scalar ? 1 : 2); pass++) {
13842                 TCGv_i64 tcg_op = tcg_temp_new_i64();
13843                 TCGv_i64 tcg_passres;
13844                 int passelt;
13845
13846                 if (is_scalar) {
13847                     passelt = 0;
13848                 } else {
13849                     passelt = pass + (is_q * 2);
13850                 }
13851
13852                 read_vec_element(s, tcg_op, rn, passelt, memop);
13853
13854                 tcg_res[pass] = tcg_temp_new_i64();
13855
13856                 if (opcode == 0xa || opcode == 0xb) {
13857                     /* Non-accumulating ops */
13858                     tcg_passres = tcg_res[pass];
13859                 } else {
13860                     tcg_passres = tcg_temp_new_i64();
13861                 }
13862
13863                 tcg_gen_mul_i64(tcg_passres, tcg_op, tcg_idx);
13864                 tcg_temp_free_i64(tcg_op);
13865
13866                 if (satop) {
13867                     /* saturating, doubling */
13868                     gen_helper_neon_addl_saturate_s64(tcg_passres, cpu_env,
13869                                                       tcg_passres, tcg_passres);
13870                 }
13871
13872                 if (opcode == 0xa || opcode == 0xb) {
13873                     continue;
13874                 }
13875
13876                 /* Accumulating op: handle accumulate step */
13877                 read_vec_element(s, tcg_res[pass], rd, pass, MO_64);
13878
13879                 switch (opcode) {
13880                 case 0x2: /* SMLAL, SMLAL2, UMLAL, UMLAL2 */
13881                     tcg_gen_add_i64(tcg_res[pass], tcg_res[pass], tcg_passres);
13882                     break;
13883                 case 0x6: /* SMLSL, SMLSL2, UMLSL, UMLSL2 */
13884                     tcg_gen_sub_i64(tcg_res[pass], tcg_res[pass], tcg_passres);
13885                     break;
13886                 case 0x7: /* SQDMLSL, SQDMLSL2 */
13887                     tcg_gen_neg_i64(tcg_passres, tcg_passres);
13888                     /* fall through */
13889                 case 0x3: /* SQDMLAL, SQDMLAL2 */
13890                     gen_helper_neon_addl_saturate_s64(tcg_res[pass], cpu_env,
13891                                                       tcg_res[pass],
13892                                                       tcg_passres);
13893                     break;
13894                 default:
13895                     g_assert_not_reached();
13896                 }
13897                 tcg_temp_free_i64(tcg_passres);
13898             }
13899             tcg_temp_free_i64(tcg_idx);
13900
13901             clear_vec_high(s, !is_scalar, rd);
13902         } else {
13903             TCGv_i32 tcg_idx = tcg_temp_new_i32();
13904
13905             assert(size == 1);
13906             read_vec_element_i32(s, tcg_idx, rm, index, size);
13907
13908             if (!is_scalar) {
13909                 /* The simplest way to handle the 16x16 indexed ops is to
13910                  * duplicate the index into both halves of the 32 bit tcg_idx
13911                  * and then use the usual Neon helpers.
13912                  */
13913                 tcg_gen_deposit_i32(tcg_idx, tcg_idx, tcg_idx, 16, 16);
13914             }
13915
13916             for (pass = 0; pass < (is_scalar ? 1 : 2); pass++) {
13917                 TCGv_i32 tcg_op = tcg_temp_new_i32();
13918                 TCGv_i64 tcg_passres;
13919
13920                 if (is_scalar) {
13921                     read_vec_element_i32(s, tcg_op, rn, pass, size);
13922                 } else {
13923                     read_vec_element_i32(s, tcg_op, rn,
13924                                          pass + (is_q * 2), MO_32);
13925                 }
13926
13927                 tcg_res[pass] = tcg_temp_new_i64();
13928
13929                 if (opcode == 0xa || opcode == 0xb) {
13930                     /* Non-accumulating ops */
13931                     tcg_passres = tcg_res[pass];
13932                 } else {
13933                     tcg_passres = tcg_temp_new_i64();
13934                 }
13935
13936                 if (memop & MO_SIGN) {
13937                     gen_helper_neon_mull_s16(tcg_passres, tcg_op, tcg_idx);
13938                 } else {
13939                     gen_helper_neon_mull_u16(tcg_passres, tcg_op, tcg_idx);
13940                 }
13941                 if (satop) {
13942                     gen_helper_neon_addl_saturate_s32(tcg_passres, cpu_env,
13943                                                       tcg_passres, tcg_passres);
13944                 }
13945                 tcg_temp_free_i32(tcg_op);
13946
13947                 if (opcode == 0xa || opcode == 0xb) {
13948                     continue;
13949                 }
13950
13951                 /* Accumulating op: handle accumulate step */
13952                 read_vec_element(s, tcg_res[pass], rd, pass, MO_64);
13953
13954                 switch (opcode) {
13955                 case 0x2: /* SMLAL, SMLAL2, UMLAL, UMLAL2 */
13956                     gen_helper_neon_addl_u32(tcg_res[pass], tcg_res[pass],
13957                                              tcg_passres);
13958                     break;
13959                 case 0x6: /* SMLSL, SMLSL2, UMLSL, UMLSL2 */
13960                     gen_helper_neon_subl_u32(tcg_res[pass], tcg_res[pass],
13961                                              tcg_passres);
13962                     break;
13963                 case 0x7: /* SQDMLSL, SQDMLSL2 */
13964                     gen_helper_neon_negl_u32(tcg_passres, tcg_passres);
13965                     /* fall through */
13966                 case 0x3: /* SQDMLAL, SQDMLAL2 */
13967                     gen_helper_neon_addl_saturate_s32(tcg_res[pass], cpu_env,
13968                                                       tcg_res[pass],
13969                                                       tcg_passres);
13970                     break;
13971                 default:
13972                     g_assert_not_reached();
13973                 }
13974                 tcg_temp_free_i64(tcg_passres);
13975             }
13976             tcg_temp_free_i32(tcg_idx);
13977
13978             if (is_scalar) {
13979                 tcg_gen_ext32u_i64(tcg_res[0], tcg_res[0]);
13980             }
13981         }
13982
13983         if (is_scalar) {
13984             tcg_res[1] = tcg_const_i64(0);
13985         }
13986
13987         for (pass = 0; pass < 2; pass++) {
13988             write_vec_element(s, tcg_res[pass], rd, pass, MO_64);
13989             tcg_temp_free_i64(tcg_res[pass]);
13990         }
13991     }
13992
13993     if (fpst) {
13994         tcg_temp_free_ptr(fpst);
13995     }
13996 }
13997
13998 /* Crypto AES
13999  *  31             24 23  22 21       17 16    12 11 10 9    5 4    0
14000  * +-----------------+------+-----------+--------+-----+------+------+
14001  * | 0 1 0 0 1 1 1 0 | size | 1 0 1 0 0 | opcode | 1 0 |  Rn  |  Rd  |
14002  * +-----------------+------+-----------+--------+-----+------+------+
14003  */
14004 static void disas_crypto_aes(DisasContext *s, uint32_t insn)
14005 {
14006     int size = extract32(insn, 22, 2);
14007     int opcode = extract32(insn, 12, 5);
14008     int rn = extract32(insn, 5, 5);
14009     int rd = extract32(insn, 0, 5);
14010     int decrypt;
14011     gen_helper_gvec_2 *genfn2 = NULL;
14012     gen_helper_gvec_3 *genfn3 = NULL;
14013
14014     if (!dc_isar_feature(aa64_aes, s) || size != 0) {
14015         unallocated_encoding(s);
14016         return;
14017     }
14018
14019     switch (opcode) {
14020     case 0x4: /* AESE */
14021         decrypt = 0;
14022         genfn3 = gen_helper_crypto_aese;
14023         break;
14024     case 0x6: /* AESMC */
14025         decrypt = 0;
14026         genfn2 = gen_helper_crypto_aesmc;
14027         break;
14028     case 0x5: /* AESD */
14029         decrypt = 1;
14030         genfn3 = gen_helper_crypto_aese;
14031         break;
14032     case 0x7: /* AESIMC */
14033         decrypt = 1;
14034         genfn2 = gen_helper_crypto_aesmc;
14035         break;
14036     default:
14037         unallocated_encoding(s);
14038         return;
14039     }
14040
14041     if (!fp_access_check(s)) {
14042         return;
14043     }
14044     if (genfn2) {
14045         gen_gvec_op2_ool(s, true, rd, rn, decrypt, genfn2);
14046     } else {
14047         gen_gvec_op3_ool(s, true, rd, rd, rn, decrypt, genfn3);
14048     }
14049 }
14050
14051 /* Crypto three-reg SHA
14052  *  31             24 23  22  21 20  16  15 14    12 11 10 9    5 4    0
14053  * +-----------------+------+---+------+---+--------+-----+------+------+
14054  * | 0 1 0 1 1 1 1 0 | size | 0 |  Rm  | 0 | opcode | 0 0 |  Rn  |  Rd  |
14055  * +-----------------+------+---+------+---+--------+-----+------+------+
14056  */
14057 static void disas_crypto_three_reg_sha(DisasContext *s, uint32_t insn)
14058 {
14059     int size = extract32(insn, 22, 2);
14060     int opcode = extract32(insn, 12, 3);
14061     int rm = extract32(insn, 16, 5);
14062     int rn = extract32(insn, 5, 5);
14063     int rd = extract32(insn, 0, 5);
14064     gen_helper_gvec_3 *genfn;
14065     bool feature;
14066
14067     if (size != 0) {
14068         unallocated_encoding(s);
14069         return;
14070     }
14071
14072     switch (opcode) {
14073     case 0: /* SHA1C */
14074         genfn = gen_helper_crypto_sha1c;
14075         feature = dc_isar_feature(aa64_sha1, s);
14076         break;
14077     case 1: /* SHA1P */
14078         genfn = gen_helper_crypto_sha1p;
14079         feature = dc_isar_feature(aa64_sha1, s);
14080         break;
14081     case 2: /* SHA1M */
14082         genfn = gen_helper_crypto_sha1m;
14083         feature = dc_isar_feature(aa64_sha1, s);
14084         break;
14085     case 3: /* SHA1SU0 */
14086         genfn = gen_helper_crypto_sha1su0;
14087         feature = dc_isar_feature(aa64_sha1, s);
14088         break;
14089     case 4: /* SHA256H */
14090         genfn = gen_helper_crypto_sha256h;
14091         feature = dc_isar_feature(aa64_sha256, s);
14092         break;
14093     case 5: /* SHA256H2 */
14094         genfn = gen_helper_crypto_sha256h2;
14095         feature = dc_isar_feature(aa64_sha256, s);
14096         break;
14097     case 6: /* SHA256SU1 */
14098         genfn = gen_helper_crypto_sha256su1;
14099         feature = dc_isar_feature(aa64_sha256, s);
14100         break;
14101     default:
14102         unallocated_encoding(s);
14103         return;
14104     }
14105
14106     if (!feature) {
14107         unallocated_encoding(s);
14108         return;
14109     }
14110
14111     if (!fp_access_check(s)) {
14112         return;
14113     }
14114     gen_gvec_op3_ool(s, true, rd, rn, rm, 0, genfn);
14115 }
14116
14117 /* Crypto two-reg SHA
14118  *  31             24 23  22 21       17 16    12 11 10 9    5 4    0
14119  * +-----------------+------+-----------+--------+-----+------+------+
14120  * | 0 1 0 1 1 1 1 0 | size | 1 0 1 0 0 | opcode | 1 0 |  Rn  |  Rd  |
14121  * +-----------------+------+-----------+--------+-----+------+------+
14122  */
14123 static void disas_crypto_two_reg_sha(DisasContext *s, uint32_t insn)
14124 {
14125     int size = extract32(insn, 22, 2);
14126     int opcode = extract32(insn, 12, 5);
14127     int rn = extract32(insn, 5, 5);
14128     int rd = extract32(insn, 0, 5);
14129     gen_helper_gvec_2 *genfn;
14130     bool feature;
14131
14132     if (size != 0) {
14133         unallocated_encoding(s);
14134         return;
14135     }
14136
14137     switch (opcode) {
14138     case 0: /* SHA1H */
14139         feature = dc_isar_feature(aa64_sha1, s);
14140         genfn = gen_helper_crypto_sha1h;
14141         break;
14142     case 1: /* SHA1SU1 */
14143         feature = dc_isar_feature(aa64_sha1, s);
14144         genfn = gen_helper_crypto_sha1su1;
14145         break;
14146     case 2: /* SHA256SU0 */
14147         feature = dc_isar_feature(aa64_sha256, s);
14148         genfn = gen_helper_crypto_sha256su0;
14149         break;
14150     default:
14151         unallocated_encoding(s);
14152         return;
14153     }
14154
14155     if (!feature) {
14156         unallocated_encoding(s);
14157         return;
14158     }
14159
14160     if (!fp_access_check(s)) {
14161         return;
14162     }
14163     gen_gvec_op2_ool(s, true, rd, rn, 0, genfn);
14164 }
14165
14166 static void gen_rax1_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m)
14167 {
14168     tcg_gen_rotli_i64(d, m, 1);
14169     tcg_gen_xor_i64(d, d, n);
14170 }
14171
14172 static void gen_rax1_vec(unsigned vece, TCGv_vec d, TCGv_vec n, TCGv_vec m)
14173 {
14174     tcg_gen_rotli_vec(vece, d, m, 1);
14175     tcg_gen_xor_vec(vece, d, d, n);
14176 }
14177
14178 void gen_gvec_rax1(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
14179                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
14180 {
14181     static const TCGOpcode vecop_list[] = { INDEX_op_rotli_vec, 0 };
14182     static const GVecGen3 op = {
14183         .fni8 = gen_rax1_i64,
14184         .fniv = gen_rax1_vec,
14185         .opt_opc = vecop_list,
14186         .fno = gen_helper_crypto_rax1,
14187         .vece = MO_64,
14188     };
14189     tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &op);
14190 }
14191
14192 /* Crypto three-reg SHA512
14193  *  31                   21 20  16 15  14  13 12  11  10  9    5 4    0
14194  * +-----------------------+------+---+---+-----+--------+------+------+
14195  * | 1 1 0 0 1 1 1 0 0 1 1 |  Rm  | 1 | O | 0 0 | opcode |  Rn  |  Rd  |
14196  * +-----------------------+------+---+---+-----+--------+------+------+
14197  */
14198 static void disas_crypto_three_reg_sha512(DisasContext *s, uint32_t insn)
14199 {
14200     int opcode = extract32(insn, 10, 2);
14201     int o =  extract32(insn, 14, 1);
14202     int rm = extract32(insn, 16, 5);
14203     int rn = extract32(insn, 5, 5);
14204     int rd = extract32(insn, 0, 5);
14205     bool feature;
14206     gen_helper_gvec_3 *oolfn = NULL;
14207     GVecGen3Fn *gvecfn = NULL;
14208
14209     if (o == 0) {
14210         switch (opcode) {
14211         case 0: /* SHA512H */
14212             feature = dc_isar_feature(aa64_sha512, s);
14213             oolfn = gen_helper_crypto_sha512h;
14214             break;
14215         case 1: /* SHA512H2 */
14216             feature = dc_isar_feature(aa64_sha512, s);
14217             oolfn = gen_helper_crypto_sha512h2;
14218             break;
14219         case 2: /* SHA512SU1 */
14220             feature = dc_isar_feature(aa64_sha512, s);
14221             oolfn = gen_helper_crypto_sha512su1;
14222             break;
14223         case 3: /* RAX1 */
14224             feature = dc_isar_feature(aa64_sha3, s);
14225             gvecfn = gen_gvec_rax1;
14226             break;
14227         default:
14228             g_assert_not_reached();
14229         }
14230     } else {
14231         switch (opcode) {
14232         case 0: /* SM3PARTW1 */
14233             feature = dc_isar_feature(aa64_sm3, s);
14234             oolfn = gen_helper_crypto_sm3partw1;
14235             break;
14236         case 1: /* SM3PARTW2 */
14237             feature = dc_isar_feature(aa64_sm3, s);
14238             oolfn = gen_helper_crypto_sm3partw2;
14239             break;
14240         case 2: /* SM4EKEY */
14241             feature = dc_isar_feature(aa64_sm4, s);
14242             oolfn = gen_helper_crypto_sm4ekey;
14243             break;
14244         default:
14245             unallocated_encoding(s);
14246             return;
14247         }
14248     }
14249
14250     if (!feature) {
14251         unallocated_encoding(s);
14252         return;
14253     }
14254
14255     if (!fp_access_check(s)) {
14256         return;
14257     }
14258
14259     if (oolfn) {
14260         gen_gvec_op3_ool(s, true, rd, rn, rm, 0, oolfn);
14261     } else {
14262         gen_gvec_fn3(s, true, rd, rn, rm, gvecfn, MO_64);
14263     }
14264 }
14265
14266 /* Crypto two-reg SHA512
14267  *  31                                     12  11  10  9    5 4    0
14268  * +-----------------------------------------+--------+------+------+
14269  * | 1 1 0 0 1 1 1 0 1 1 0 0 0 0 0 0 1 0 0 0 | opcode |  Rn  |  Rd  |
14270  * +-----------------------------------------+--------+------+------+
14271  */
14272 static void disas_crypto_two_reg_sha512(DisasContext *s, uint32_t insn)
14273 {
14274     int opcode = extract32(insn, 10, 2);
14275     int rn = extract32(insn, 5, 5);
14276     int rd = extract32(insn, 0, 5);
14277     bool feature;
14278
14279     switch (opcode) {
14280     case 0: /* SHA512SU0 */
14281         feature = dc_isar_feature(aa64_sha512, s);
14282         break;
14283     case 1: /* SM4E */
14284         feature = dc_isar_feature(aa64_sm4, s);
14285         break;
14286     default:
14287         unallocated_encoding(s);
14288         return;
14289     }
14290
14291     if (!feature) {
14292         unallocated_encoding(s);
14293         return;
14294     }
14295
14296     if (!fp_access_check(s)) {
14297         return;
14298     }
14299
14300     switch (opcode) {
14301     case 0: /* SHA512SU0 */
14302         gen_gvec_op2_ool(s, true, rd, rn, 0, gen_helper_crypto_sha512su0);
14303         break;
14304     case 1: /* SM4E */
14305         gen_gvec_op3_ool(s, true, rd, rd, rn, 0, gen_helper_crypto_sm4e);
14306         break;
14307     default:
14308         g_assert_not_reached();
14309     }
14310 }
14311
14312 /* Crypto four-register
14313  *  31               23 22 21 20  16 15  14  10 9    5 4    0
14314  * +-------------------+-----+------+---+------+------+------+
14315  * | 1 1 0 0 1 1 1 0 0 | Op0 |  Rm  | 0 |  Ra  |  Rn  |  Rd  |
14316  * +-------------------+-----+------+---+------+------+------+
14317  */
14318 static void disas_crypto_four_reg(DisasContext *s, uint32_t insn)
14319 {
14320     int op0 = extract32(insn, 21, 2);
14321     int rm = extract32(insn, 16, 5);
14322     int ra = extract32(insn, 10, 5);
14323     int rn = extract32(insn, 5, 5);
14324     int rd = extract32(insn, 0, 5);
14325     bool feature;
14326
14327     switch (op0) {
14328     case 0: /* EOR3 */
14329     case 1: /* BCAX */
14330         feature = dc_isar_feature(aa64_sha3, s);
14331         break;
14332     case 2: /* SM3SS1 */
14333         feature = dc_isar_feature(aa64_sm3, s);
14334         break;
14335     default:
14336         unallocated_encoding(s);
14337         return;
14338     }
14339
14340     if (!feature) {
14341         unallocated_encoding(s);
14342         return;
14343     }
14344
14345     if (!fp_access_check(s)) {
14346         return;
14347     }
14348
14349     if (op0 < 2) {
14350         TCGv_i64 tcg_op1, tcg_op2, tcg_op3, tcg_res[2];
14351         int pass;
14352
14353         tcg_op1 = tcg_temp_new_i64();
14354         tcg_op2 = tcg_temp_new_i64();
14355         tcg_op3 = tcg_temp_new_i64();
14356         tcg_res[0] = tcg_temp_new_i64();
14357         tcg_res[1] = tcg_temp_new_i64();
14358
14359         for (pass = 0; pass < 2; pass++) {
14360             read_vec_element(s, tcg_op1, rn, pass, MO_64);
14361             read_vec_element(s, tcg_op2, rm, pass, MO_64);
14362             read_vec_element(s, tcg_op3, ra, pass, MO_64);
14363
14364             if (op0 == 0) {
14365                 /* EOR3 */
14366                 tcg_gen_xor_i64(tcg_res[pass], tcg_op2, tcg_op3);
14367             } else {
14368                 /* BCAX */
14369                 tcg_gen_andc_i64(tcg_res[pass], tcg_op2, tcg_op3);
14370             }
14371             tcg_gen_xor_i64(tcg_res[pass], tcg_res[pass], tcg_op1);
14372         }
14373         write_vec_element(s, tcg_res[0], rd, 0, MO_64);
14374         write_vec_element(s, tcg_res[1], rd, 1, MO_64);
14375
14376         tcg_temp_free_i64(tcg_op1);
14377         tcg_temp_free_i64(tcg_op2);
14378         tcg_temp_free_i64(tcg_op3);
14379         tcg_temp_free_i64(tcg_res[0]);
14380         tcg_temp_free_i64(tcg_res[1]);
14381     } else {
14382         TCGv_i32 tcg_op1, tcg_op2, tcg_op3, tcg_res, tcg_zero;
14383
14384         tcg_op1 = tcg_temp_new_i32();
14385         tcg_op2 = tcg_temp_new_i32();
14386         tcg_op3 = tcg_temp_new_i32();
14387         tcg_res = tcg_temp_new_i32();
14388         tcg_zero = tcg_const_i32(0);
14389
14390         read_vec_element_i32(s, tcg_op1, rn, 3, MO_32);
14391         read_vec_element_i32(s, tcg_op2, rm, 3, MO_32);
14392         read_vec_element_i32(s, tcg_op3, ra, 3, MO_32);
14393
14394         tcg_gen_rotri_i32(tcg_res, tcg_op1, 20);
14395         tcg_gen_add_i32(tcg_res, tcg_res, tcg_op2);
14396         tcg_gen_add_i32(tcg_res, tcg_res, tcg_op3);
14397         tcg_gen_rotri_i32(tcg_res, tcg_res, 25);
14398
14399         write_vec_element_i32(s, tcg_zero, rd, 0, MO_32);
14400         write_vec_element_i32(s, tcg_zero, rd, 1, MO_32);
14401         write_vec_element_i32(s, tcg_zero, rd, 2, MO_32);
14402         write_vec_element_i32(s, tcg_res, rd, 3, MO_32);
14403
14404         tcg_temp_free_i32(tcg_op1);
14405         tcg_temp_free_i32(tcg_op2);
14406         tcg_temp_free_i32(tcg_op3);
14407         tcg_temp_free_i32(tcg_res);
14408         tcg_temp_free_i32(tcg_zero);
14409     }
14410 }
14411
14412 /* Crypto XAR
14413  *  31                   21 20  16 15    10 9    5 4    0
14414  * +-----------------------+------+--------+------+------+
14415  * | 1 1 0 0 1 1 1 0 1 0 0 |  Rm  |  imm6  |  Rn  |  Rd  |
14416  * +-----------------------+------+--------+------+------+
14417  */
14418 static void disas_crypto_xar(DisasContext *s, uint32_t insn)
14419 {
14420     int rm = extract32(insn, 16, 5);
14421     int imm6 = extract32(insn, 10, 6);
14422     int rn = extract32(insn, 5, 5);
14423     int rd = extract32(insn, 0, 5);
14424
14425     if (!dc_isar_feature(aa64_sha3, s)) {
14426         unallocated_encoding(s);
14427         return;
14428     }
14429
14430     if (!fp_access_check(s)) {
14431         return;
14432     }
14433
14434     gen_gvec_xar(MO_64, vec_full_reg_offset(s, rd),
14435                  vec_full_reg_offset(s, rn),
14436                  vec_full_reg_offset(s, rm), imm6, 16,
14437                  vec_full_reg_size(s));
14438 }
14439
14440 /* Crypto three-reg imm2
14441  *  31                   21 20  16 15  14 13 12  11  10  9    5 4    0
14442  * +-----------------------+------+-----+------+--------+------+------+
14443  * | 1 1 0 0 1 1 1 0 0 1 0 |  Rm  | 1 0 | imm2 | opcode |  Rn  |  Rd  |
14444  * +-----------------------+------+-----+------+--------+------+------+
14445  */
14446 static void disas_crypto_three_reg_imm2(DisasContext *s, uint32_t insn)
14447 {
14448     static gen_helper_gvec_3 * const fns[4] = {
14449         gen_helper_crypto_sm3tt1a, gen_helper_crypto_sm3tt1b,
14450         gen_helper_crypto_sm3tt2a, gen_helper_crypto_sm3tt2b,
14451     };
14452     int opcode = extract32(insn, 10, 2);
14453     int imm2 = extract32(insn, 12, 2);
14454     int rm = extract32(insn, 16, 5);
14455     int rn = extract32(insn, 5, 5);
14456     int rd = extract32(insn, 0, 5);
14457
14458     if (!dc_isar_feature(aa64_sm3, s)) {
14459         unallocated_encoding(s);
14460         return;
14461     }
14462
14463     if (!fp_access_check(s)) {
14464         return;
14465     }
14466
14467     gen_gvec_op3_ool(s, true, rd, rn, rm, imm2, fns[opcode]);
14468 }
14469
14470 /* C3.6 Data processing - SIMD, inc Crypto
14471  *
14472  * As the decode gets a little complex we are using a table based
14473  * approach for this part of the decode.
14474  */
14475 static const AArch64DecodeTable data_proc_simd[] = {
14476     /* pattern  ,  mask     ,  fn                        */
14477     { 0x0e200400, 0x9f200400, disas_simd_three_reg_same },
14478     { 0x0e008400, 0x9f208400, disas_simd_three_reg_same_extra },
14479     { 0x0e200000, 0x9f200c00, disas_simd_three_reg_diff },
14480     { 0x0e200800, 0x9f3e0c00, disas_simd_two_reg_misc },
14481     { 0x0e300800, 0x9f3e0c00, disas_simd_across_lanes },
14482     { 0x0e000400, 0x9fe08400, disas_simd_copy },
14483     { 0x0f000000, 0x9f000400, disas_simd_indexed }, /* vector indexed */
14484     /* simd_mod_imm decode is a subset of simd_shift_imm, so must precede it */
14485     { 0x0f000400, 0x9ff80400, disas_simd_mod_imm },
14486     { 0x0f000400, 0x9f800400, disas_simd_shift_imm },
14487     { 0x0e000000, 0xbf208c00, disas_simd_tb },
14488     { 0x0e000800, 0xbf208c00, disas_simd_zip_trn },
14489     { 0x2e000000, 0xbf208400, disas_simd_ext },
14490     { 0x5e200400, 0xdf200400, disas_simd_scalar_three_reg_same },
14491     { 0x5e008400, 0xdf208400, disas_simd_scalar_three_reg_same_extra },
14492     { 0x5e200000, 0xdf200c00, disas_simd_scalar_three_reg_diff },
14493     { 0x5e200800, 0xdf3e0c00, disas_simd_scalar_two_reg_misc },
14494     { 0x5e300800, 0xdf3e0c00, disas_simd_scalar_pairwise },
14495     { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
14496     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
14497     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
14498     { 0x4e280800, 0xff3e0c00, disas_crypto_aes },
14499     { 0x5e000000, 0xff208c00, disas_crypto_three_reg_sha },
14500     { 0x5e280800, 0xff3e0c00, disas_crypto_two_reg_sha },
14501     { 0xce608000, 0xffe0b000, disas_crypto_three_reg_sha512 },
14502     { 0xcec08000, 0xfffff000, disas_crypto_two_reg_sha512 },
14503     { 0xce000000, 0xff808000, disas_crypto_four_reg },
14504     { 0xce800000, 0xffe00000, disas_crypto_xar },
14505     { 0xce408000, 0xffe0c000, disas_crypto_three_reg_imm2 },
14506     { 0x0e400400, 0x9f60c400, disas_simd_three_reg_same_fp16 },
14507     { 0x0e780800, 0x8f7e0c00, disas_simd_two_reg_misc_fp16 },
14508     { 0x5e400400, 0xdf60c400, disas_simd_scalar_three_reg_same_fp16 },
14509     { 0x00000000, 0x00000000, NULL }
14510 };
14511
14512 static void disas_data_proc_simd(DisasContext *s, uint32_t insn)
14513 {
14514     /* Note that this is called with all non-FP cases from
14515      * table C3-6 so it must UNDEF for entries not specifically
14516      * allocated to instructions in that table.
14517      */
14518     AArch64DecodeFn *fn = lookup_disas_fn(&data_proc_simd[0], insn);
14519     if (fn) {
14520         fn(s, insn);
14521     } else {
14522         unallocated_encoding(s);
14523     }
14524 }
14525
14526 /* C3.6 Data processing - SIMD and floating point */
14527 static void disas_data_proc_simd_fp(DisasContext *s, uint32_t insn)
14528 {
14529     if (extract32(insn, 28, 1) == 1 && extract32(insn, 30, 1) == 0) {
14530         disas_data_proc_fp(s, insn);
14531     } else {
14532         /* SIMD, including crypto */
14533         disas_data_proc_simd(s, insn);
14534     }
14535 }
14536
14537 /**
14538  * is_guarded_page:
14539  * @env: The cpu environment
14540  * @s: The DisasContext
14541  *
14542  * Return true if the page is guarded.
14543  */
14544 static bool is_guarded_page(CPUARMState *env, DisasContext *s)
14545 {
14546     uint64_t addr = s->base.pc_first;
14547 #ifdef CONFIG_USER_ONLY
14548     return page_get_flags(addr) & PAGE_BTI;
14549 #else
14550     int mmu_idx = arm_to_core_mmu_idx(s->mmu_idx);
14551     unsigned int index = tlb_index(env, mmu_idx, addr);
14552     CPUTLBEntry *entry = tlb_entry(env, mmu_idx, addr);
14553
14554     /*
14555      * We test this immediately after reading an insn, which means
14556      * that any normal page must be in the TLB.  The only exception
14557      * would be for executing from flash or device memory, which
14558      * does not retain the TLB entry.
14559      *
14560      * FIXME: Assume false for those, for now.  We could use
14561      * arm_cpu_get_phys_page_attrs_debug to re-read the page
14562      * table entry even for that case.
14563      */
14564     return (tlb_hit(entry->addr_code, addr) &&
14565             arm_tlb_bti_gp(&env_tlb(env)->d[mmu_idx].iotlb[index].attrs));
14566 #endif
14567 }
14568
14569 /**
14570  * btype_destination_ok:
14571  * @insn: The instruction at the branch destination
14572  * @bt: SCTLR_ELx.BT
14573  * @btype: PSTATE.BTYPE, and is non-zero
14574  *
14575  * On a guarded page, there are a limited number of insns
14576  * that may be present at the branch target:
14577  *   - branch target identifiers,
14578  *   - paciasp, pacibsp,
14579  *   - BRK insn
14580  *   - HLT insn
14581  * Anything else causes a Branch Target Exception.
14582  *
14583  * Return true if the branch is compatible, false to raise BTITRAP.
14584  */
14585 static bool btype_destination_ok(uint32_t insn, bool bt, int btype)
14586 {
14587     if ((insn & 0xfffff01fu) == 0xd503201fu) {
14588         /* HINT space */
14589         switch (extract32(insn, 5, 7)) {
14590         case 0b011001: /* PACIASP */
14591         case 0b011011: /* PACIBSP */
14592             /*
14593              * If SCTLR_ELx.BT, then PACI*SP are not compatible
14594              * with btype == 3.  Otherwise all btype are ok.
14595              */
14596             return !bt || btype != 3;
14597         case 0b100000: /* BTI */
14598             /* Not compatible with any btype.  */
14599             return false;
14600         case 0b100010: /* BTI c */
14601             /* Not compatible with btype == 3 */
14602             return btype != 3;
14603         case 0b100100: /* BTI j */
14604             /* Not compatible with btype == 2 */
14605             return btype != 2;
14606         case 0b100110: /* BTI jc */
14607             /* Compatible with any btype.  */
14608             return true;
14609         }
14610     } else {
14611         switch (insn & 0xffe0001fu) {
14612         case 0xd4200000u: /* BRK */
14613         case 0xd4400000u: /* HLT */
14614             /* Give priority to the breakpoint exception.  */
14615             return true;
14616         }
14617     }
14618     return false;
14619 }
14620
14621 /* C3.1 A64 instruction index by encoding */
14622 static void disas_a64_insn(CPUARMState *env, DisasContext *s)
14623 {
14624     uint32_t insn;
14625
14626     s->pc_curr = s->base.pc_next;
14627     insn = arm_ldl_code(env, s->base.pc_next, s->sctlr_b);
14628     s->insn = insn;
14629     s->base.pc_next += 4;
14630
14631     s->fp_access_checked = false;
14632     s->sve_access_checked = false;
14633
14634     if (dc_isar_feature(aa64_bti, s)) {
14635         if (s->base.num_insns == 1) {
14636             /*
14637              * At the first insn of the TB, compute s->guarded_page.
14638              * We delayed computing this until successfully reading
14639              * the first insn of the TB, above.  This (mostly) ensures
14640              * that the softmmu tlb entry has been populated, and the
14641              * page table GP bit is available.
14642              *
14643              * Note that we need to compute this even if btype == 0,
14644              * because this value is used for BR instructions later
14645              * where ENV is not available.
14646              */
14647             s->guarded_page = is_guarded_page(env, s);
14648
14649             /* First insn can have btype set to non-zero.  */
14650             tcg_debug_assert(s->btype >= 0);
14651
14652             /*
14653              * Note that the Branch Target Exception has fairly high
14654              * priority -- below debugging exceptions but above most
14655              * everything else.  This allows us to handle this now
14656              * instead of waiting until the insn is otherwise decoded.
14657              */
14658             if (s->btype != 0
14659                 && s->guarded_page
14660                 && !btype_destination_ok(insn, s->bt, s->btype)) {
14661                 gen_exception_insn(s, s->pc_curr, EXCP_UDEF,
14662                                    syn_btitrap(s->btype),
14663                                    default_exception_el(s));
14664                 return;
14665             }
14666         } else {
14667             /* Not the first insn: btype must be 0.  */
14668             tcg_debug_assert(s->btype == 0);
14669         }
14670     }
14671
14672     switch (extract32(insn, 25, 4)) {
14673     case 0x0: case 0x1: case 0x3: /* UNALLOCATED */
14674         unallocated_encoding(s);
14675         break;
14676     case 0x2:
14677         if (!dc_isar_feature(aa64_sve, s) || !disas_sve(s, insn)) {
14678             unallocated_encoding(s);
14679         }
14680         break;
14681     case 0x8: case 0x9: /* Data processing - immediate */
14682         disas_data_proc_imm(s, insn);
14683         break;
14684     case 0xa: case 0xb: /* Branch, exception generation and system insns */
14685         disas_b_exc_sys(s, insn);
14686         break;
14687     case 0x4:
14688     case 0x6:
14689     case 0xc:
14690     case 0xe:      /* Loads and stores */
14691         disas_ldst(s, insn);
14692         break;
14693     case 0x5:
14694     case 0xd:      /* Data processing - register */
14695         disas_data_proc_reg(s, insn);
14696         break;
14697     case 0x7:
14698     case 0xf:      /* Data processing - SIMD and floating point */
14699         disas_data_proc_simd_fp(s, insn);
14700         break;
14701     default:
14702         assert(FALSE); /* all 15 cases should be handled above */
14703         break;
14704     }
14705
14706     /* if we allocated any temporaries, free them here */
14707     free_tmp_a64(s);
14708
14709     /*
14710      * After execution of most insns, btype is reset to 0.
14711      * Note that we set btype == -1 when the insn sets btype.
14712      */
14713     if (s->btype > 0 && s->base.is_jmp != DISAS_NORETURN) {
14714         reset_btype(s);
14715     }
14716 }
14717
14718 static void aarch64_tr_init_disas_context(DisasContextBase *dcbase,
14719                                           CPUState *cpu)
14720 {
14721     DisasContext *dc = container_of(dcbase, DisasContext, base);
14722     CPUARMState *env = cpu->env_ptr;
14723     ARMCPU *arm_cpu = env_archcpu(env);
14724     CPUARMTBFlags tb_flags = arm_tbflags_from_tb(dc->base.tb);
14725     int bound, core_mmu_idx;
14726
14727     dc->isar = &arm_cpu->isar;
14728     dc->condjmp = 0;
14729
14730     dc->aarch64 = 1;
14731     /* If we are coming from secure EL0 in a system with a 32-bit EL3, then
14732      * there is no secure EL1, so we route exceptions to EL3.
14733      */
14734     dc->secure_routed_to_el3 = arm_feature(env, ARM_FEATURE_EL3) &&
14735                                !arm_el_is_aa64(env, 3);
14736     dc->thumb = 0;
14737     dc->sctlr_b = 0;
14738     dc->be_data = EX_TBFLAG_ANY(tb_flags, BE_DATA) ? MO_BE : MO_LE;
14739     dc->condexec_mask = 0;
14740     dc->condexec_cond = 0;
14741     core_mmu_idx = EX_TBFLAG_ANY(tb_flags, MMUIDX);
14742     dc->mmu_idx = core_to_aa64_mmu_idx(core_mmu_idx);
14743     dc->tbii = EX_TBFLAG_A64(tb_flags, TBII);
14744     dc->tbid = EX_TBFLAG_A64(tb_flags, TBID);
14745     dc->tcma = EX_TBFLAG_A64(tb_flags, TCMA);
14746     dc->current_el = arm_mmu_idx_to_el(dc->mmu_idx);
14747 #if !defined(CONFIG_USER_ONLY)
14748     dc->user = (dc->current_el == 0);
14749 #endif
14750     dc->fp_excp_el = EX_TBFLAG_ANY(tb_flags, FPEXC_EL);
14751     dc->align_mem = EX_TBFLAG_ANY(tb_flags, ALIGN_MEM);
14752     dc->sve_excp_el = EX_TBFLAG_A64(tb_flags, SVEEXC_EL);
14753     dc->sve_len = (EX_TBFLAG_A64(tb_flags, ZCR_LEN) + 1) * 16;
14754     dc->pauth_active = EX_TBFLAG_A64(tb_flags, PAUTH_ACTIVE);
14755     dc->bt = EX_TBFLAG_A64(tb_flags, BT);
14756     dc->btype = EX_TBFLAG_A64(tb_flags, BTYPE);
14757     dc->unpriv = EX_TBFLAG_A64(tb_flags, UNPRIV);
14758     dc->ata = EX_TBFLAG_A64(tb_flags, ATA);
14759     dc->mte_active[0] = EX_TBFLAG_A64(tb_flags, MTE_ACTIVE);
14760     dc->mte_active[1] = EX_TBFLAG_A64(tb_flags, MTE0_ACTIVE);
14761     dc->vec_len = 0;
14762     dc->vec_stride = 0;
14763     dc->cp_regs = arm_cpu->cp_regs;
14764     dc->features = env->features;
14765     dc->dcz_blocksize = arm_cpu->dcz_blocksize;
14766
14767 #ifdef CONFIG_USER_ONLY
14768     /* In sve_probe_page, we assume TBI is enabled. */
14769     tcg_debug_assert(dc->tbid & 1);
14770 #endif
14771
14772     /* Single step state. The code-generation logic here is:
14773      *  SS_ACTIVE == 0:
14774      *   generate code with no special handling for single-stepping (except
14775      *   that anything that can make us go to SS_ACTIVE == 1 must end the TB;
14776      *   this happens anyway because those changes are all system register or
14777      *   PSTATE writes).
14778      *  SS_ACTIVE == 1, PSTATE.SS == 1: (active-not-pending)
14779      *   emit code for one insn
14780      *   emit code to clear PSTATE.SS
14781      *   emit code to generate software step exception for completed step
14782      *   end TB (as usual for having generated an exception)
14783      *  SS_ACTIVE == 1, PSTATE.SS == 0: (active-pending)
14784      *   emit code to generate a software step exception
14785      *   end the TB
14786      */
14787     dc->ss_active = EX_TBFLAG_ANY(tb_flags, SS_ACTIVE);
14788     dc->pstate_ss = EX_TBFLAG_ANY(tb_flags, PSTATE__SS);
14789     dc->is_ldex = false;
14790     dc->debug_target_el = EX_TBFLAG_ANY(tb_flags, DEBUG_TARGET_EL);
14791
14792     /* Bound the number of insns to execute to those left on the page.  */
14793     bound = -(dc->base.pc_first | TARGET_PAGE_MASK) / 4;
14794
14795     /* If architectural single step active, limit to 1.  */
14796     if (dc->ss_active) {
14797         bound = 1;
14798     }
14799     dc->base.max_insns = MIN(dc->base.max_insns, bound);
14800
14801     init_tmp_a64_array(dc);
14802 }
14803
14804 static void aarch64_tr_tb_start(DisasContextBase *db, CPUState *cpu)
14805 {
14806 }
14807
14808 static void aarch64_tr_insn_start(DisasContextBase *dcbase, CPUState *cpu)
14809 {
14810     DisasContext *dc = container_of(dcbase, DisasContext, base);
14811
14812     tcg_gen_insn_start(dc->base.pc_next, 0, 0);
14813     dc->insn_start = tcg_last_op();
14814 }
14815
14816 static bool aarch64_tr_breakpoint_check(DisasContextBase *dcbase, CPUState *cpu,
14817                                         const CPUBreakpoint *bp)
14818 {
14819     DisasContext *dc = container_of(dcbase, DisasContext, base);
14820
14821     if (bp->flags & BP_CPU) {
14822         gen_a64_set_pc_im(dc->base.pc_next);
14823         gen_helper_check_breakpoints(cpu_env);
14824         /* End the TB early; it likely won't be executed */
14825         dc->base.is_jmp = DISAS_TOO_MANY;
14826     } else {
14827         gen_exception_internal_insn(dc, dc->base.pc_next, EXCP_DEBUG);
14828         /* The address covered by the breakpoint must be
14829            included in [tb->pc, tb->pc + tb->size) in order
14830            to for it to be properly cleared -- thus we
14831            increment the PC here so that the logic setting
14832            tb->size below does the right thing.  */
14833         dc->base.pc_next += 4;
14834         dc->base.is_jmp = DISAS_NORETURN;
14835     }
14836
14837     return true;
14838 }
14839
14840 static void aarch64_tr_translate_insn(DisasContextBase *dcbase, CPUState *cpu)
14841 {
14842     DisasContext *dc = container_of(dcbase, DisasContext, base);
14843     CPUARMState *env = cpu->env_ptr;
14844
14845     if (dc->ss_active && !dc->pstate_ss) {
14846         /* Singlestep state is Active-pending.
14847          * If we're in this state at the start of a TB then either
14848          *  a) we just took an exception to an EL which is being debugged
14849          *     and this is the first insn in the exception handler
14850          *  b) debug exceptions were masked and we just unmasked them
14851          *     without changing EL (eg by clearing PSTATE.D)
14852          * In either case we're going to take a swstep exception in the
14853          * "did not step an insn" case, and so the syndrome ISV and EX
14854          * bits should be zero.
14855          */
14856         assert(dc->base.num_insns == 1);
14857         gen_swstep_exception(dc, 0, 0);
14858         dc->base.is_jmp = DISAS_NORETURN;
14859     } else {
14860         disas_a64_insn(env, dc);
14861     }
14862
14863     translator_loop_temp_check(&dc->base);
14864 }
14865
14866 static void aarch64_tr_tb_stop(DisasContextBase *dcbase, CPUState *cpu)
14867 {
14868     DisasContext *dc = container_of(dcbase, DisasContext, base);
14869
14870     if (unlikely(dc->base.singlestep_enabled || dc->ss_active)) {
14871         /* Note that this means single stepping WFI doesn't halt the CPU.
14872          * For conditional branch insns this is harmless unreachable code as
14873          * gen_goto_tb() has already handled emitting the debug exception
14874          * (and thus a tb-jump is not possible when singlestepping).
14875          */
14876         switch (dc->base.is_jmp) {
14877         default:
14878             gen_a64_set_pc_im(dc->base.pc_next);
14879             /* fall through */
14880         case DISAS_EXIT:
14881         case DISAS_JUMP:
14882             if (dc->base.singlestep_enabled) {
14883                 gen_exception_internal(EXCP_DEBUG);
14884             } else {
14885                 gen_step_complete_exception(dc);
14886             }
14887             break;
14888         case DISAS_NORETURN:
14889             break;
14890         }
14891     } else {
14892         switch (dc->base.is_jmp) {
14893         case DISAS_NEXT:
14894         case DISAS_TOO_MANY:
14895             gen_goto_tb(dc, 1, dc->base.pc_next);
14896             break;
14897         default:
14898         case DISAS_UPDATE_EXIT:
14899             gen_a64_set_pc_im(dc->base.pc_next);
14900             /* fall through */
14901         case DISAS_EXIT:
14902             tcg_gen_exit_tb(NULL, 0);
14903             break;
14904         case DISAS_UPDATE_NOCHAIN:
14905             gen_a64_set_pc_im(dc->base.pc_next);
14906             /* fall through */
14907         case DISAS_JUMP:
14908             tcg_gen_lookup_and_goto_ptr();
14909             break;
14910         case DISAS_NORETURN:
14911         case DISAS_SWI:
14912             break;
14913         case DISAS_WFE:
14914             gen_a64_set_pc_im(dc->base.pc_next);
14915             gen_helper_wfe(cpu_env);
14916             break;
14917         case DISAS_YIELD:
14918             gen_a64_set_pc_im(dc->base.pc_next);
14919             gen_helper_yield(cpu_env);
14920             break;
14921         case DISAS_WFI:
14922         {
14923             /* This is a special case because we don't want to just halt the CPU
14924              * if trying to debug across a WFI.
14925              */
14926             TCGv_i32 tmp = tcg_const_i32(4);
14927
14928             gen_a64_set_pc_im(dc->base.pc_next);
14929             gen_helper_wfi(cpu_env, tmp);
14930             tcg_temp_free_i32(tmp);
14931             /* The helper doesn't necessarily throw an exception, but we
14932              * must go back to the main loop to check for interrupts anyway.
14933              */
14934             tcg_gen_exit_tb(NULL, 0);
14935             break;
14936         }
14937         }
14938     }
14939 }
14940
14941 static void aarch64_tr_disas_log(const DisasContextBase *dcbase,
14942                                       CPUState *cpu)
14943 {
14944     DisasContext *dc = container_of(dcbase, DisasContext, base);
14945
14946     qemu_log("IN: %s\n", lookup_symbol(dc->base.pc_first));
14947     log_target_disas(cpu, dc->base.pc_first, dc->base.tb->size);
14948 }
14949
14950 const TranslatorOps aarch64_translator_ops = {
14951     .init_disas_context = aarch64_tr_init_disas_context,
14952     .tb_start           = aarch64_tr_tb_start,
14953     .insn_start         = aarch64_tr_insn_start,
14954     .breakpoint_check   = aarch64_tr_breakpoint_check,
14955     .translate_insn     = aarch64_tr_translate_insn,
14956     .tb_stop            = aarch64_tr_tb_stop,
14957     .disas_log          = aarch64_tr_disas_log,
14958 };