target/arm/translate-a64.c

   1 /*
   2  *  AArch64 translation
   3  *
   4  *  Copyright (c) 2013 Alexander Graf <agraf@suse.de>
   5  *
   6  * This library is free software; you can redistribute it and/or
   7  * modify it under the terms of the GNU Lesser General Public
   8  * License as published by the Free Software Foundation; either
   9  * version 2.1 of the License, or (at your option) any later version.
  10  *
  11  * This library is distributed in the hope that it will be useful,
  12  * but WITHOUT ANY WARRANTY; without even the implied warranty of
  13  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
  14  * Lesser General Public License for more details.
  15  *
  16  * You should have received a copy of the GNU Lesser General Public
  17  * License along with this library; if not, see <http://www.gnu.org/licenses/>.
  18  */
  19 #include "qemu/osdep.h"
  20
  21 #include "cpu.h"
  22 #include "exec/exec-all.h"
  23 #include "tcg/tcg-op.h"
  24 #include "tcg/tcg-op-gvec.h"
  25 #include "qemu/log.h"
  26 #include "arm_ldst.h"
  27 #include "translate.h"
  28 #include "internals.h"
  29 #include "qemu/host-utils.h"
  30
  31 #include "semihosting/semihost.h"
  32 #include "exec/gen-icount.h"
  33
  34 #include "exec/helper-proto.h"
  35 #include "exec/helper-gen.h"
  36 #include "exec/log.h"
  37
  38 #include "translate-a64.h"
  39 #include "qemu/atomic128.h"
  40
  41 static TCGv_i64 cpu_X[32];
  42 static TCGv_i64 cpu_pc;
  43
  44 /* Load/store exclusive handling */
  45 static TCGv_i64 cpu_exclusive_high;
  46
  47 static const char *regnames[] = {
  48     "x0", "x1", "x2", "x3", "x4", "x5", "x6", "x7",
  49     "x8", "x9", "x10", "x11", "x12", "x13", "x14", "x15",
  50     "x16", "x17", "x18", "x19", "x20", "x21", "x22", "x23",
  51     "x24", "x25", "x26", "x27", "x28", "x29", "lr", "sp"
  52 };
  53
  54 enum a64_shift_type {
  55     A64_SHIFT_TYPE_LSL = 0,
  56     A64_SHIFT_TYPE_LSR = 1,
  57     A64_SHIFT_TYPE_ASR = 2,
  58     A64_SHIFT_TYPE_ROR = 3
  59 };
  60
  61 /* Table based decoder typedefs - used when the relevant bits for decode
  62  * are too awkwardly scattered across the instruction (eg SIMD).
  63  */
  64 typedef void AArch64DecodeFn(DisasContext *s, uint32_t insn);
  65
  66 typedef struct AArch64DecodeTable {
  67     uint32_t pattern;
  68     uint32_t mask;
  69     AArch64DecodeFn *disas_fn;
  70 } AArch64DecodeTable;
  71
  72 /* initialize TCG globals.  */
  73 void a64_translate_init(void)
  74 {
  75     int i;
  76
  77     cpu_pc = tcg_global_mem_new_i64(cpu_env,
  78                                     offsetof(CPUARMState, pc),
  79                                     "pc");
  80     for (i = 0; i < 32; i++) {
  81         cpu_X[i] = tcg_global_mem_new_i64(cpu_env,
  82                                           offsetof(CPUARMState, xregs[i]),
  83                                           regnames[i]);
  84     }
  85
  86     cpu_exclusive_high = tcg_global_mem_new_i64(cpu_env,
  87         offsetof(CPUARMState, exclusive_high), "exclusive_high");
  88 }
  89
  90 /*
  91  * Return the core mmu_idx to use for A64 "unprivileged load/store" insns
  92  */
  93 static int get_a64_user_mem_index(DisasContext *s)
  94 {
  95     /*
  96      * If AccType_UNPRIV is not used, the insn uses AccType_NORMAL,
  97      * which is the usual mmu_idx for this cpu state.
  98      */
  99     ARMMMUIdx useridx = s->mmu_idx;
 100
 101     if (s->unpriv) {
 102         /*
 103          * We have pre-computed the condition for AccType_UNPRIV.
 104          * Therefore we should never get here with a mmu_idx for
 105          * which we do not know the corresponding user mmu_idx.
 106          */
 107         switch (useridx) {
 108         case ARMMMUIdx_E10_1:
 109         case ARMMMUIdx_E10_1_PAN:
 110             useridx = ARMMMUIdx_E10_0;
 111             break;
 112         case ARMMMUIdx_E20_2:
 113         case ARMMMUIdx_E20_2_PAN:
 114             useridx = ARMMMUIdx_E20_0;
 115             break;
 116         case ARMMMUIdx_SE10_1:
 117         case ARMMMUIdx_SE10_1_PAN:
 118             useridx = ARMMMUIdx_SE10_0;
 119             break;
 120         case ARMMMUIdx_SE20_2:
 121         case ARMMMUIdx_SE20_2_PAN:
 122             useridx = ARMMMUIdx_SE20_0;
 123             break;
 124         default:
 125             g_assert_not_reached();
 126         }
 127     }
 128     return arm_to_core_mmu_idx(useridx);
 129 }
 130
 131 static void reset_btype(DisasContext *s)
 132 {
 133     if (s->btype != 0) {
 134         TCGv_i32 zero = tcg_const_i32(0);
 135         tcg_gen_st_i32(zero, cpu_env, offsetof(CPUARMState, btype));
 136         tcg_temp_free_i32(zero);
 137         s->btype = 0;
 138     }
 139 }
 140
 141 static void set_btype(DisasContext *s, int val)
 142 {
 143     TCGv_i32 tcg_val;
 144
 145     /* BTYPE is a 2-bit field, and 0 should be done with reset_btype.  */
 146     tcg_debug_assert(val >= 1 && val <= 3);
 147
 148     tcg_val = tcg_const_i32(val);
 149     tcg_gen_st_i32(tcg_val, cpu_env, offsetof(CPUARMState, btype));
 150     tcg_temp_free_i32(tcg_val);
 151     s->btype = -1;
 152 }
 153
 154 void gen_a64_set_pc_im(uint64_t val)
 155 {
 156     tcg_gen_movi_i64(cpu_pc, val);
 157 }
 158
 159 /*
 160  * Handle Top Byte Ignore (TBI) bits.
 161  *
 162  * If address tagging is enabled via the TCR TBI bits:
 163  *  + for EL2 and EL3 there is only one TBI bit, and if it is set
 164  *    then the address is zero-extended, clearing bits [63:56]
 165  *  + for EL0 and EL1, TBI0 controls addresses with bit 55 == 0
 166  *    and TBI1 controls addressses with bit 55 == 1.
 167  *    If the appropriate TBI bit is set for the address then
 168  *    the address is sign-extended from bit 55 into bits [63:56]
 169  *
 170  * Here We have concatenated TBI{1,0} into tbi.
 171  */
 172 static void gen_top_byte_ignore(DisasContext *s, TCGv_i64 dst,
 173                                 TCGv_i64 src, int tbi)
 174 {
 175     if (tbi == 0) {
 176         /* Load unmodified address */
 177         tcg_gen_mov_i64(dst, src);
 178     } else if (!regime_has_2_ranges(s->mmu_idx)) {
 179         /* Force tag byte to all zero */
 180         tcg_gen_extract_i64(dst, src, 0, 56);
 181     } else {
 182         /* Sign-extend from bit 55.  */
 183         tcg_gen_sextract_i64(dst, src, 0, 56);
 184
 185         switch (tbi) {
 186         case 1:
 187             /* tbi0 but !tbi1: only use the extension if positive */
 188             tcg_gen_and_i64(dst, dst, src);
 189             break;
 190         case 2:
 191             /* !tbi0 but tbi1: only use the extension if negative */
 192             tcg_gen_or_i64(dst, dst, src);
 193             break;
 194         case 3:
 195             /* tbi0 and tbi1: always use the extension */
 196             break;
 197         default:
 198             g_assert_not_reached();
 199         }
 200     }
 201 }
 202
 203 static void gen_a64_set_pc(DisasContext *s, TCGv_i64 src)
 204 {
 205     /*
 206      * If address tagging is enabled for instructions via the TCR TBI bits,
 207      * then loading an address into the PC will clear out any tag.
 208      */
 209     gen_top_byte_ignore(s, cpu_pc, src, s->tbii);
 210 }
 211
 212 /*
 213  * Handle MTE and/or TBI.
 214  *
 215  * For TBI, ideally, we would do nothing.  Proper behaviour on fault is
 216  * for the tag to be present in the FAR_ELx register.  But for user-only
 217  * mode we do not have a TLB with which to implement this, so we must
 218  * remove the top byte now.
 219  *
 220  * Always return a fresh temporary that we can increment independently
 221  * of the write-back address.
 222  */
 223
 224 TCGv_i64 clean_data_tbi(DisasContext *s, TCGv_i64 addr)
 225 {
 226     TCGv_i64 clean = new_tmp_a64(s);
 227 #ifdef CONFIG_USER_ONLY
 228     gen_top_byte_ignore(s, clean, addr, s->tbid);
 229 #else
 230     tcg_gen_mov_i64(clean, addr);
 231 #endif
 232     return clean;
 233 }
 234
 235 /* Insert a zero tag into src, with the result at dst. */
 236 static void gen_address_with_allocation_tag0(TCGv_i64 dst, TCGv_i64 src)
 237 {
 238     tcg_gen_andi_i64(dst, src, ~MAKE_64BIT_MASK(56, 4));
 239 }
 240
 241 static void gen_probe_access(DisasContext *s, TCGv_i64 ptr,
 242                              MMUAccessType acc, int log2_size)
 243 {
 244     TCGv_i32 t_acc = tcg_const_i32(acc);
 245     TCGv_i32 t_idx = tcg_const_i32(get_mem_index(s));
 246     TCGv_i32 t_size = tcg_const_i32(1 << log2_size);
 247
 248     gen_helper_probe_access(cpu_env, ptr, t_acc, t_idx, t_size);
 249     tcg_temp_free_i32(t_acc);
 250     tcg_temp_free_i32(t_idx);
 251     tcg_temp_free_i32(t_size);
 252 }
 253
 254 /*
 255  * For MTE, check a single logical or atomic access.  This probes a single
 256  * address, the exact one specified.  The size and alignment of the access
 257  * is not relevant to MTE, per se, but watchpoints do require the size,
 258  * and we want to recognize those before making any other changes to state.
 259  */
 260 static TCGv_i64 gen_mte_check1_mmuidx(DisasContext *s, TCGv_i64 addr,
 261                                       bool is_write, bool tag_checked,
 262                                       int log2_size, bool is_unpriv,
 263                                       int core_idx)
 264 {
 265     if (tag_checked && s->mte_active[is_unpriv]) {
 266         TCGv_i32 tcg_desc;
 267         TCGv_i64 ret;
 268         int desc = 0;
 269
 270         desc = FIELD_DP32(desc, MTEDESC, MIDX, core_idx);
 271         desc = FIELD_DP32(desc, MTEDESC, TBI, s->tbid);
 272         desc = FIELD_DP32(desc, MTEDESC, TCMA, s->tcma);
 273         desc = FIELD_DP32(desc, MTEDESC, WRITE, is_write);
 274         desc = FIELD_DP32(desc, MTEDESC, SIZEM1, (1 << log2_size) - 1);
 275         tcg_desc = tcg_const_i32(desc);
 276
 277         ret = new_tmp_a64(s);
 278         gen_helper_mte_check(ret, cpu_env, tcg_desc, addr);
 279         tcg_temp_free_i32(tcg_desc);
 280
 281         return ret;
 282     }
 283     return clean_data_tbi(s, addr);
 284 }
 285
 286 TCGv_i64 gen_mte_check1(DisasContext *s, TCGv_i64 addr, bool is_write,
 287                         bool tag_checked, int log2_size)
 288 {
 289     return gen_mte_check1_mmuidx(s, addr, is_write, tag_checked, log2_size,
 290                                  false, get_mem_index(s));
 291 }
 292
 293 /*
 294  * For MTE, check multiple logical sequential accesses.
 295  */
 296 TCGv_i64 gen_mte_checkN(DisasContext *s, TCGv_i64 addr, bool is_write,
 297                         bool tag_checked, int size)
 298 {
 299     if (tag_checked && s->mte_active[0]) {
 300         TCGv_i32 tcg_desc;
 301         TCGv_i64 ret;
 302         int desc = 0;
 303
 304         desc = FIELD_DP32(desc, MTEDESC, MIDX, get_mem_index(s));
 305         desc = FIELD_DP32(desc, MTEDESC, TBI, s->tbid);
 306         desc = FIELD_DP32(desc, MTEDESC, TCMA, s->tcma);
 307         desc = FIELD_DP32(desc, MTEDESC, WRITE, is_write);
 308         desc = FIELD_DP32(desc, MTEDESC, SIZEM1, size - 1);
 309         tcg_desc = tcg_const_i32(desc);
 310
 311         ret = new_tmp_a64(s);
 312         gen_helper_mte_check(ret, cpu_env, tcg_desc, addr);
 313         tcg_temp_free_i32(tcg_desc);
 314
 315         return ret;
 316     }
 317     return clean_data_tbi(s, addr);
 318 }
 319
 320 typedef struct DisasCompare64 {
 321     TCGCond cond;
 322     TCGv_i64 value;
 323 } DisasCompare64;
 324
 325 static void a64_test_cc(DisasCompare64 *c64, int cc)
 326 {
 327     DisasCompare c32;
 328
 329     arm_test_cc(&c32, cc);
 330
 331     /* Sign-extend the 32-bit value so that the GE/LT comparisons work
 332        * properly.  The NE/EQ comparisons are also fine with this choice.  */
 333     c64->cond = c32.cond;
 334     c64->value = tcg_temp_new_i64();
 335     tcg_gen_ext_i32_i64(c64->value, c32.value);
 336
 337     arm_free_cc(&c32);
 338 }
 339
 340 static void a64_free_cc(DisasCompare64 *c64)
 341 {
 342     tcg_temp_free_i64(c64->value);
 343 }
 344
 345 static void gen_exception_internal(int excp)
 346 {
 347     TCGv_i32 tcg_excp = tcg_const_i32(excp);
 348
 349     assert(excp_is_internal(excp));
 350     gen_helper_exception_internal(cpu_env, tcg_excp);
 351     tcg_temp_free_i32(tcg_excp);
 352 }
 353
 354 static void gen_exception_internal_insn(DisasContext *s, uint64_t pc, int excp)
 355 {
 356     gen_a64_set_pc_im(pc);
 357     gen_exception_internal(excp);
 358     s->base.is_jmp = DISAS_NORETURN;
 359 }
 360
 361 static void gen_exception_bkpt_insn(DisasContext *s, uint32_t syndrome)
 362 {
 363     TCGv_i32 tcg_syn;
 364
 365     gen_a64_set_pc_im(s->pc_curr);
 366     tcg_syn = tcg_const_i32(syndrome);
 367     gen_helper_exception_bkpt_insn(cpu_env, tcg_syn);
 368     tcg_temp_free_i32(tcg_syn);
 369     s->base.is_jmp = DISAS_NORETURN;
 370 }
 371
 372 static void gen_step_complete_exception(DisasContext *s)
 373 {
 374     /* We just completed step of an insn. Move from Active-not-pending
 375      * to Active-pending, and then also take the swstep exception.
 376      * This corresponds to making the (IMPDEF) choice to prioritize
 377      * swstep exceptions over asynchronous exceptions taken to an exception
 378      * level where debug is disabled. This choice has the advantage that
 379      * we do not need to maintain internal state corresponding to the
 380      * ISV/EX syndrome bits between completion of the step and generation
 381      * of the exception, and our syndrome information is always correct.
 382      */
 383     gen_ss_advance(s);
 384     gen_swstep_exception(s, 1, s->is_ldex);
 385     s->base.is_jmp = DISAS_NORETURN;
 386 }
 387
 388 static inline bool use_goto_tb(DisasContext *s, int n, uint64_t dest)
 389 {
 390     /* No direct tb linking with singlestep (either QEMU's or the ARM
 391      * debug architecture kind) or deterministic io
 392      */
 393     if (s->base.singlestep_enabled || s->ss_active ||
 394         (tb_cflags(s->base.tb) & CF_LAST_IO)) {
 395         return false;
 396     }
 397
 398 #ifndef CONFIG_USER_ONLY
 399     /* Only link tbs from inside the same guest page */
 400     if ((s->base.tb->pc & TARGET_PAGE_MASK) != (dest & TARGET_PAGE_MASK)) {
 401         return false;
 402     }
 403 #endif
 404
 405     return true;
 406 }
 407
 408 static inline void gen_goto_tb(DisasContext *s, int n, uint64_t dest)
 409 {
 410     const TranslationBlock *tb;
 411
 412     tb = s->base.tb;
 413     if (use_goto_tb(s, n, dest)) {
 414         tcg_gen_goto_tb(n);
 415         gen_a64_set_pc_im(dest);
 416         tcg_gen_exit_tb(tb, n);
 417         s->base.is_jmp = DISAS_NORETURN;
 418     } else {
 419         gen_a64_set_pc_im(dest);
 420         if (s->ss_active) {
 421             gen_step_complete_exception(s);
 422         } else if (s->base.singlestep_enabled) {
 423             gen_exception_internal(EXCP_DEBUG);
 424         } else {
 425             tcg_gen_lookup_and_goto_ptr();
 426             s->base.is_jmp = DISAS_NORETURN;
 427         }
 428     }
 429 }
 430
 431 static void init_tmp_a64_array(DisasContext *s)
 432 {
 433 #ifdef CONFIG_DEBUG_TCG
 434     memset(s->tmp_a64, 0, sizeof(s->tmp_a64));
 435 #endif
 436     s->tmp_a64_count = 0;
 437 }
 438
 439 static void free_tmp_a64(DisasContext *s)
 440 {
 441     int i;
 442     for (i = 0; i < s->tmp_a64_count; i++) {
 443         tcg_temp_free_i64(s->tmp_a64[i]);
 444     }
 445     init_tmp_a64_array(s);
 446 }
 447
 448 TCGv_i64 new_tmp_a64(DisasContext *s)
 449 {
 450     assert(s->tmp_a64_count < TMP_A64_MAX);
 451     return s->tmp_a64[s->tmp_a64_count++] = tcg_temp_new_i64();
 452 }
 453
 454 TCGv_i64 new_tmp_a64_local(DisasContext *s)
 455 {
 456     assert(s->tmp_a64_count < TMP_A64_MAX);
 457     return s->tmp_a64[s->tmp_a64_count++] = tcg_temp_local_new_i64();
 458 }
 459
 460 TCGv_i64 new_tmp_a64_zero(DisasContext *s)
 461 {
 462     TCGv_i64 t = new_tmp_a64(s);
 463     tcg_gen_movi_i64(t, 0);
 464     return t;
 465 }
 466
 467 /*
 468  * Register access functions
 469  *
 470  * These functions are used for directly accessing a register in where
 471  * changes to the final register value are likely to be made. If you
 472  * need to use a register for temporary calculation (e.g. index type
 473  * operations) use the read_* form.
 474  *
 475  * B1.2.1 Register mappings
 476  *
 477  * In instruction register encoding 31 can refer to ZR (zero register) or
 478  * the SP (stack pointer) depending on context. In QEMU's case we map SP
 479  * to cpu_X[31] and ZR accesses to a temporary which can be discarded.
 480  * This is the point of the _sp forms.
 481  */
 482 TCGv_i64 cpu_reg(DisasContext *s, int reg)
 483 {
 484     if (reg == 31) {
 485         return new_tmp_a64_zero(s);
 486     } else {
 487         return cpu_X[reg];
 488     }
 489 }
 490
 491 /* register access for when 31 == SP */
 492 TCGv_i64 cpu_reg_sp(DisasContext *s, int reg)
 493 {
 494     return cpu_X[reg];
 495 }
 496
 497 /* read a cpu register in 32bit/64bit mode. Returns a TCGv_i64
 498  * representing the register contents. This TCGv is an auto-freed
 499  * temporary so it need not be explicitly freed, and may be modified.
 500  */
 501 TCGv_i64 read_cpu_reg(DisasContext *s, int reg, int sf)
 502 {
 503     TCGv_i64 v = new_tmp_a64(s);
 504     if (reg != 31) {
 505         if (sf) {
 506             tcg_gen_mov_i64(v, cpu_X[reg]);
 507         } else {
 508             tcg_gen_ext32u_i64(v, cpu_X[reg]);
 509         }
 510     } else {
 511         tcg_gen_movi_i64(v, 0);
 512     }
 513     return v;
 514 }
 515
 516 TCGv_i64 read_cpu_reg_sp(DisasContext *s, int reg, int sf)
 517 {
 518     TCGv_i64 v = new_tmp_a64(s);
 519     if (sf) {
 520         tcg_gen_mov_i64(v, cpu_X[reg]);
 521     } else {
 522         tcg_gen_ext32u_i64(v, cpu_X[reg]);
 523     }
 524     return v;
 525 }
 526
 527 /* Return the offset into CPUARMState of a slice (from
 528  * the least significant end) of FP register Qn (ie
 529  * Dn, Sn, Hn or Bn).
 530  * (Note that this is not the same mapping as for A32; see cpu.h)
 531  */
 532 static inline int fp_reg_offset(DisasContext *s, int regno, MemOp size)
 533 {
 534     return vec_reg_offset(s, regno, 0, size);
 535 }
 536
 537 /* Offset of the high half of the 128 bit vector Qn */
 538 static inline int fp_reg_hi_offset(DisasContext *s, int regno)
 539 {
 540     return vec_reg_offset(s, regno, 1, MO_64);
 541 }
 542
 543 /* Convenience accessors for reading and writing single and double
 544  * FP registers. Writing clears the upper parts of the associated
 545  * 128 bit vector register, as required by the architecture.
 546  * Note that unlike the GP register accessors, the values returned
 547  * by the read functions must be manually freed.
 548  */
 549 static TCGv_i64 read_fp_dreg(DisasContext *s, int reg)
 550 {
 551     TCGv_i64 v = tcg_temp_new_i64();
 552
 553     tcg_gen_ld_i64(v, cpu_env, fp_reg_offset(s, reg, MO_64));
 554     return v;
 555 }
 556
 557 static TCGv_i32 read_fp_sreg(DisasContext *s, int reg)
 558 {
 559     TCGv_i32 v = tcg_temp_new_i32();
 560
 561     tcg_gen_ld_i32(v, cpu_env, fp_reg_offset(s, reg, MO_32));
 562     return v;
 563 }
 564
 565 static TCGv_i32 read_fp_hreg(DisasContext *s, int reg)
 566 {
 567     TCGv_i32 v = tcg_temp_new_i32();
 568
 569     tcg_gen_ld16u_i32(v, cpu_env, fp_reg_offset(s, reg, MO_16));
 570     return v;
 571 }
 572
 573 /* Clear the bits above an N-bit vector, for N = (is_q ? 128 : 64).
 574  * If SVE is not enabled, then there are only 128 bits in the vector.
 575  */
 576 static void clear_vec_high(DisasContext *s, bool is_q, int rd)
 577 {
 578     unsigned ofs = fp_reg_offset(s, rd, MO_64);
 579     unsigned vsz = vec_full_reg_size(s);
 580
 581     /* Nop move, with side effect of clearing the tail. */
 582     tcg_gen_gvec_mov(MO_64, ofs, ofs, is_q ? 16 : 8, vsz);
 583 }
 584
 585 void write_fp_dreg(DisasContext *s, int reg, TCGv_i64 v)
 586 {
 587     unsigned ofs = fp_reg_offset(s, reg, MO_64);
 588
 589     tcg_gen_st_i64(v, cpu_env, ofs);
 590     clear_vec_high(s, false, reg);
 591 }
 592
 593 static void write_fp_sreg(DisasContext *s, int reg, TCGv_i32 v)
 594 {
 595     TCGv_i64 tmp = tcg_temp_new_i64();
 596
 597     tcg_gen_extu_i32_i64(tmp, v);
 598     write_fp_dreg(s, reg, tmp);
 599     tcg_temp_free_i64(tmp);
 600 }
 601
 602 /* Expand a 2-operand AdvSIMD vector operation using an expander function.  */
 603 static void gen_gvec_fn2(DisasContext *s, bool is_q, int rd, int rn,
 604                          GVecGen2Fn *gvec_fn, int vece)
 605 {
 606     gvec_fn(vece, vec_full_reg_offset(s, rd), vec_full_reg_offset(s, rn),
 607             is_q ? 16 : 8, vec_full_reg_size(s));
 608 }
 609
 610 /* Expand a 2-operand + immediate AdvSIMD vector operation using
 611  * an expander function.
 612  */
 613 static void gen_gvec_fn2i(DisasContext *s, bool is_q, int rd, int rn,
 614                           int64_t imm, GVecGen2iFn *gvec_fn, int vece)
 615 {
 616     gvec_fn(vece, vec_full_reg_offset(s, rd), vec_full_reg_offset(s, rn),
 617             imm, is_q ? 16 : 8, vec_full_reg_size(s));
 618 }
 619
 620 /* Expand a 3-operand AdvSIMD vector operation using an expander function.  */
 621 static void gen_gvec_fn3(DisasContext *s, bool is_q, int rd, int rn, int rm,
 622                          GVecGen3Fn *gvec_fn, int vece)
 623 {
 624     gvec_fn(vece, vec_full_reg_offset(s, rd), vec_full_reg_offset(s, rn),
 625             vec_full_reg_offset(s, rm), is_q ? 16 : 8, vec_full_reg_size(s));
 626 }
 627
 628 /* Expand a 4-operand AdvSIMD vector operation using an expander function.  */
 629 static void gen_gvec_fn4(DisasContext *s, bool is_q, int rd, int rn, int rm,
 630                          int rx, GVecGen4Fn *gvec_fn, int vece)
 631 {
 632     gvec_fn(vece, vec_full_reg_offset(s, rd), vec_full_reg_offset(s, rn),
 633             vec_full_reg_offset(s, rm), vec_full_reg_offset(s, rx),
 634             is_q ? 16 : 8, vec_full_reg_size(s));
 635 }
 636
 637 /* Expand a 2-operand operation using an out-of-line helper.  */
 638 static void gen_gvec_op2_ool(DisasContext *s, bool is_q, int rd,
 639                              int rn, int data, gen_helper_gvec_2 *fn)
 640 {
 641     tcg_gen_gvec_2_ool(vec_full_reg_offset(s, rd),
 642                        vec_full_reg_offset(s, rn),
 643                        is_q ? 16 : 8, vec_full_reg_size(s), data, fn);
 644 }
 645
 646 /* Expand a 3-operand operation using an out-of-line helper.  */
 647 static void gen_gvec_op3_ool(DisasContext *s, bool is_q, int rd,
 648                              int rn, int rm, int data, gen_helper_gvec_3 *fn)
 649 {
 650     tcg_gen_gvec_3_ool(vec_full_reg_offset(s, rd),
 651                        vec_full_reg_offset(s, rn),
 652                        vec_full_reg_offset(s, rm),
 653                        is_q ? 16 : 8, vec_full_reg_size(s), data, fn);
 654 }
 655
 656 /* Expand a 3-operand + fpstatus pointer + simd data value operation using
 657  * an out-of-line helper.
 658  */
 659 static void gen_gvec_op3_fpst(DisasContext *s, bool is_q, int rd, int rn,
 660                               int rm, bool is_fp16, int data,
 661                               gen_helper_gvec_3_ptr *fn)
 662 {
 663     TCGv_ptr fpst = fpstatus_ptr(is_fp16 ? FPST_FPCR_F16 : FPST_FPCR);
 664     tcg_gen_gvec_3_ptr(vec_full_reg_offset(s, rd),
 665                        vec_full_reg_offset(s, rn),
 666                        vec_full_reg_offset(s, rm), fpst,
 667                        is_q ? 16 : 8, vec_full_reg_size(s), data, fn);
 668     tcg_temp_free_ptr(fpst);
 669 }
 670
 671 /* Expand a 3-operand + qc + operation using an out-of-line helper.  */
 672 static void gen_gvec_op3_qc(DisasContext *s, bool is_q, int rd, int rn,
 673                             int rm, gen_helper_gvec_3_ptr *fn)
 674 {
 675     TCGv_ptr qc_ptr = tcg_temp_new_ptr();
 676
 677     tcg_gen_addi_ptr(qc_ptr, cpu_env, offsetof(CPUARMState, vfp.qc));
 678     tcg_gen_gvec_3_ptr(vec_full_reg_offset(s, rd),
 679                        vec_full_reg_offset(s, rn),
 680                        vec_full_reg_offset(s, rm), qc_ptr,
 681                        is_q ? 16 : 8, vec_full_reg_size(s), 0, fn);
 682     tcg_temp_free_ptr(qc_ptr);
 683 }
 684
 685 /* Expand a 4-operand operation using an out-of-line helper.  */
 686 static void gen_gvec_op4_ool(DisasContext *s, bool is_q, int rd, int rn,
 687                              int rm, int ra, int data, gen_helper_gvec_4 *fn)
 688 {
 689     tcg_gen_gvec_4_ool(vec_full_reg_offset(s, rd),
 690                        vec_full_reg_offset(s, rn),
 691                        vec_full_reg_offset(s, rm),
 692                        vec_full_reg_offset(s, ra),
 693                        is_q ? 16 : 8, vec_full_reg_size(s), data, fn);
 694 }
 695
 696 /*
 697  * Expand a 4-operand + fpstatus pointer + simd data value operation using
 698  * an out-of-line helper.
 699  */
 700 static void gen_gvec_op4_fpst(DisasContext *s, bool is_q, int rd, int rn,
 701                               int rm, int ra, bool is_fp16, int data,
 702                               gen_helper_gvec_4_ptr *fn)
 703 {
 704     TCGv_ptr fpst = fpstatus_ptr(is_fp16 ? FPST_FPCR_F16 : FPST_FPCR);
 705     tcg_gen_gvec_4_ptr(vec_full_reg_offset(s, rd),
 706                        vec_full_reg_offset(s, rn),
 707                        vec_full_reg_offset(s, rm),
 708                        vec_full_reg_offset(s, ra), fpst,
 709                        is_q ? 16 : 8, vec_full_reg_size(s), data, fn);
 710     tcg_temp_free_ptr(fpst);
 711 }
 712
 713 /* Set ZF and NF based on a 64 bit result. This is alas fiddlier
 714  * than the 32 bit equivalent.
 715  */
 716 static inline void gen_set_NZ64(TCGv_i64 result)
 717 {
 718     tcg_gen_extr_i64_i32(cpu_ZF, cpu_NF, result);
 719     tcg_gen_or_i32(cpu_ZF, cpu_ZF, cpu_NF);
 720 }
 721
 722 /* Set NZCV as for a logical operation: NZ as per result, CV cleared. */
 723 static inline void gen_logic_CC(int sf, TCGv_i64 result)
 724 {
 725     if (sf) {
 726         gen_set_NZ64(result);
 727     } else {
 728         tcg_gen_extrl_i64_i32(cpu_ZF, result);
 729         tcg_gen_mov_i32(cpu_NF, cpu_ZF);
 730     }
 731     tcg_gen_movi_i32(cpu_CF, 0);
 732     tcg_gen_movi_i32(cpu_VF, 0);
 733 }
 734
 735 /* dest = T0 + T1; compute C, N, V and Z flags */
 736 static void gen_add_CC(int sf, TCGv_i64 dest, TCGv_i64 t0, TCGv_i64 t1)
 737 {
 738     if (sf) {
 739         TCGv_i64 result, flag, tmp;
 740         result = tcg_temp_new_i64();
 741         flag = tcg_temp_new_i64();
 742         tmp = tcg_temp_new_i64();
 743
 744         tcg_gen_movi_i64(tmp, 0);
 745         tcg_gen_add2_i64(result, flag, t0, tmp, t1, tmp);
 746
 747         tcg_gen_extrl_i64_i32(cpu_CF, flag);
 748
 749         gen_set_NZ64(result);
 750
 751         tcg_gen_xor_i64(flag, result, t0);
 752         tcg_gen_xor_i64(tmp, t0, t1);
 753         tcg_gen_andc_i64(flag, flag, tmp);
 754         tcg_temp_free_i64(tmp);
 755         tcg_gen_extrh_i64_i32(cpu_VF, flag);
 756
 757         tcg_gen_mov_i64(dest, result);
 758         tcg_temp_free_i64(result);
 759         tcg_temp_free_i64(flag);
 760     } else {
 761         /* 32 bit arithmetic */
 762         TCGv_i32 t0_32 = tcg_temp_new_i32();
 763         TCGv_i32 t1_32 = tcg_temp_new_i32();
 764         TCGv_i32 tmp = tcg_temp_new_i32();
 765
 766         tcg_gen_movi_i32(tmp, 0);
 767         tcg_gen_extrl_i64_i32(t0_32, t0);
 768         tcg_gen_extrl_i64_i32(t1_32, t1);
 769         tcg_gen_add2_i32(cpu_NF, cpu_CF, t0_32, tmp, t1_32, tmp);
 770         tcg_gen_mov_i32(cpu_ZF, cpu_NF);
 771         tcg_gen_xor_i32(cpu_VF, cpu_NF, t0_32);
 772         tcg_gen_xor_i32(tmp, t0_32, t1_32);
 773         tcg_gen_andc_i32(cpu_VF, cpu_VF, tmp);
 774         tcg_gen_extu_i32_i64(dest, cpu_NF);
 775
 776         tcg_temp_free_i32(tmp);
 777         tcg_temp_free_i32(t0_32);
 778         tcg_temp_free_i32(t1_32);
 779     }
 780 }
 781
 782 /* dest = T0 - T1; compute C, N, V and Z flags */
 783 static void gen_sub_CC(int sf, TCGv_i64 dest, TCGv_i64 t0, TCGv_i64 t1)
 784 {
 785     if (sf) {
 786         /* 64 bit arithmetic */
 787         TCGv_i64 result, flag, tmp;
 788
 789         result = tcg_temp_new_i64();
 790         flag = tcg_temp_new_i64();
 791         tcg_gen_sub_i64(result, t0, t1);
 792
 793         gen_set_NZ64(result);
 794
 795         tcg_gen_setcond_i64(TCG_COND_GEU, flag, t0, t1);
 796         tcg_gen_extrl_i64_i32(cpu_CF, flag);
 797
 798         tcg_gen_xor_i64(flag, result, t0);
 799         tmp = tcg_temp_new_i64();
 800         tcg_gen_xor_i64(tmp, t0, t1);
 801         tcg_gen_and_i64(flag, flag, tmp);
 802         tcg_temp_free_i64(tmp);
 803         tcg_gen_extrh_i64_i32(cpu_VF, flag);
 804         tcg_gen_mov_i64(dest, result);
 805         tcg_temp_free_i64(flag);
 806         tcg_temp_free_i64(result);
 807     } else {
 808         /* 32 bit arithmetic */
 809         TCGv_i32 t0_32 = tcg_temp_new_i32();
 810         TCGv_i32 t1_32 = tcg_temp_new_i32();
 811         TCGv_i32 tmp;
 812
 813         tcg_gen_extrl_i64_i32(t0_32, t0);
 814         tcg_gen_extrl_i64_i32(t1_32, t1);
 815         tcg_gen_sub_i32(cpu_NF, t0_32, t1_32);
 816         tcg_gen_mov_i32(cpu_ZF, cpu_NF);
 817         tcg_gen_setcond_i32(TCG_COND_GEU, cpu_CF, t0_32, t1_32);
 818         tcg_gen_xor_i32(cpu_VF, cpu_NF, t0_32);
 819         tmp = tcg_temp_new_i32();
 820         tcg_gen_xor_i32(tmp, t0_32, t1_32);
 821         tcg_temp_free_i32(t0_32);
 822         tcg_temp_free_i32(t1_32);
 823         tcg_gen_and_i32(cpu_VF, cpu_VF, tmp);
 824         tcg_temp_free_i32(tmp);
 825         tcg_gen_extu_i32_i64(dest, cpu_NF);
 826     }
 827 }
 828
 829 /* dest = T0 + T1 + CF; do not compute flags. */
 830 static void gen_adc(int sf, TCGv_i64 dest, TCGv_i64 t0, TCGv_i64 t1)
 831 {
 832     TCGv_i64 flag = tcg_temp_new_i64();
 833     tcg_gen_extu_i32_i64(flag, cpu_CF);
 834     tcg_gen_add_i64(dest, t0, t1);
 835     tcg_gen_add_i64(dest, dest, flag);
 836     tcg_temp_free_i64(flag);
 837
 838     if (!sf) {
 839         tcg_gen_ext32u_i64(dest, dest);
 840     }
 841 }
 842
 843 /* dest = T0 + T1 + CF; compute C, N, V and Z flags. */
 844 static void gen_adc_CC(int sf, TCGv_i64 dest, TCGv_i64 t0, TCGv_i64 t1)
 845 {
 846     if (sf) {
 847         TCGv_i64 result, cf_64, vf_64, tmp;
 848         result = tcg_temp_new_i64();
 849         cf_64 = tcg_temp_new_i64();
 850         vf_64 = tcg_temp_new_i64();
 851         tmp = tcg_const_i64(0);
 852
 853         tcg_gen_extu_i32_i64(cf_64, cpu_CF);
 854         tcg_gen_add2_i64(result, cf_64, t0, tmp, cf_64, tmp);
 855         tcg_gen_add2_i64(result, cf_64, result, cf_64, t1, tmp);
 856         tcg_gen_extrl_i64_i32(cpu_CF, cf_64);
 857         gen_set_NZ64(result);
 858
 859         tcg_gen_xor_i64(vf_64, result, t0);
 860         tcg_gen_xor_i64(tmp, t0, t1);
 861         tcg_gen_andc_i64(vf_64, vf_64, tmp);
 862         tcg_gen_extrh_i64_i32(cpu_VF, vf_64);
 863
 864         tcg_gen_mov_i64(dest, result);
 865
 866         tcg_temp_free_i64(tmp);
 867         tcg_temp_free_i64(vf_64);
 868         tcg_temp_free_i64(cf_64);
 869         tcg_temp_free_i64(result);
 870     } else {
 871         TCGv_i32 t0_32, t1_32, tmp;
 872         t0_32 = tcg_temp_new_i32();
 873         t1_32 = tcg_temp_new_i32();
 874         tmp = tcg_const_i32(0);
 875
 876         tcg_gen_extrl_i64_i32(t0_32, t0);
 877         tcg_gen_extrl_i64_i32(t1_32, t1);
 878         tcg_gen_add2_i32(cpu_NF, cpu_CF, t0_32, tmp, cpu_CF, tmp);
 879         tcg_gen_add2_i32(cpu_NF, cpu_CF, cpu_NF, cpu_CF, t1_32, tmp);
 880
 881         tcg_gen_mov_i32(cpu_ZF, cpu_NF);
 882         tcg_gen_xor_i32(cpu_VF, cpu_NF, t0_32);
 883         tcg_gen_xor_i32(tmp, t0_32, t1_32);
 884         tcg_gen_andc_i32(cpu_VF, cpu_VF, tmp);
 885         tcg_gen_extu_i32_i64(dest, cpu_NF);
 886
 887         tcg_temp_free_i32(tmp);
 888         tcg_temp_free_i32(t1_32);
 889         tcg_temp_free_i32(t0_32);
 890     }
 891 }
 892
 893 /*
 894  * Load/Store generators
 895  */
 896
 897 /*
 898  * Store from GPR register to memory.
 899  */
 900 static void do_gpr_st_memidx(DisasContext *s, TCGv_i64 source,
 901                              TCGv_i64 tcg_addr, MemOp memop, int memidx,
 902                              bool iss_valid,
 903                              unsigned int iss_srt,
 904                              bool iss_sf, bool iss_ar)
 905 {
 906     memop = finalize_memop(s, memop);
 907     tcg_gen_qemu_st_i64(source, tcg_addr, memidx, memop);
 908
 909     if (iss_valid) {
 910         uint32_t syn;
 911
 912         syn = syn_data_abort_with_iss(0,
 913                                       (memop & MO_SIZE),
 914                                       false,
 915                                       iss_srt,
 916                                       iss_sf,
 917                                       iss_ar,
 918                                       0, 0, 0, 0, 0, false);
 919         disas_set_insn_syndrome(s, syn);
 920     }
 921 }
 922
 923 static void do_gpr_st(DisasContext *s, TCGv_i64 source,
 924                       TCGv_i64 tcg_addr, MemOp memop,
 925                       bool iss_valid,
 926                       unsigned int iss_srt,
 927                       bool iss_sf, bool iss_ar)
 928 {
 929     do_gpr_st_memidx(s, source, tcg_addr, memop, get_mem_index(s),
 930                      iss_valid, iss_srt, iss_sf, iss_ar);
 931 }
 932
 933 /*
 934  * Load from memory to GPR register
 935  */
 936 static void do_gpr_ld_memidx(DisasContext *s, TCGv_i64 dest, TCGv_i64 tcg_addr,
 937                              MemOp memop, bool extend, int memidx,
 938                              bool iss_valid, unsigned int iss_srt,
 939                              bool iss_sf, bool iss_ar)
 940 {
 941     memop = finalize_memop(s, memop);
 942     tcg_gen_qemu_ld_i64(dest, tcg_addr, memidx, memop);
 943
 944     if (extend && (memop & MO_SIGN)) {
 945         g_assert((memop & MO_SIZE) <= MO_32);
 946         tcg_gen_ext32u_i64(dest, dest);
 947     }
 948
 949     if (iss_valid) {
 950         uint32_t syn;
 951
 952         syn = syn_data_abort_with_iss(0,
 953                                       (memop & MO_SIZE),
 954                                       (memop & MO_SIGN) != 0,
 955                                       iss_srt,
 956                                       iss_sf,
 957                                       iss_ar,
 958                                       0, 0, 0, 0, 0, false);
 959         disas_set_insn_syndrome(s, syn);
 960     }
 961 }
 962
 963 static void do_gpr_ld(DisasContext *s, TCGv_i64 dest, TCGv_i64 tcg_addr,
 964                       MemOp memop, bool extend,
 965                       bool iss_valid, unsigned int iss_srt,
 966                       bool iss_sf, bool iss_ar)
 967 {
 968     do_gpr_ld_memidx(s, dest, tcg_addr, memop, extend, get_mem_index(s),
 969                      iss_valid, iss_srt, iss_sf, iss_ar);
 970 }
 971
 972 /*
 973  * Store from FP register to memory
 974  */
 975 static void do_fp_st(DisasContext *s, int srcidx, TCGv_i64 tcg_addr, int size)
 976 {
 977     /* This writes the bottom N bits of a 128 bit wide vector to memory */
 978     TCGv_i64 tmplo = tcg_temp_new_i64();
 979     MemOp mop;
 980
 981     tcg_gen_ld_i64(tmplo, cpu_env, fp_reg_offset(s, srcidx, MO_64));
 982
 983     if (size < 4) {
 984         mop = finalize_memop(s, size);
 985         tcg_gen_qemu_st_i64(tmplo, tcg_addr, get_mem_index(s), mop);
 986     } else {
 987         bool be = s->be_data == MO_BE;
 988         TCGv_i64 tcg_hiaddr = tcg_temp_new_i64();
 989         TCGv_i64 tmphi = tcg_temp_new_i64();
 990
 991         tcg_gen_ld_i64(tmphi, cpu_env, fp_reg_hi_offset(s, srcidx));
 992
 993         mop = s->be_data | MO_Q;
 994         tcg_gen_qemu_st_i64(be ? tmphi : tmplo, tcg_addr, get_mem_index(s),
 995                             mop | (s->align_mem ? MO_ALIGN_16 : 0));
 996         tcg_gen_addi_i64(tcg_hiaddr, tcg_addr, 8);
 997         tcg_gen_qemu_st_i64(be ? tmplo : tmphi, tcg_hiaddr,
 998                             get_mem_index(s), mop);
 999
1000         tcg_temp_free_i64(tcg_hiaddr);
1001         tcg_temp_free_i64(tmphi);
1002     }
1003
1004     tcg_temp_free_i64(tmplo);
1005 }
1006
1007 /*
1008  * Load from memory to FP register
1009  */
1010 static void do_fp_ld(DisasContext *s, int destidx, TCGv_i64 tcg_addr, int size)
1011 {
1012     /* This always zero-extends and writes to a full 128 bit wide vector */
1013     TCGv_i64 tmplo = tcg_temp_new_i64();
1014     TCGv_i64 tmphi = NULL;
1015     MemOp mop;
1016
1017     if (size < 4) {
1018         mop = finalize_memop(s, size);
1019         tcg_gen_qemu_ld_i64(tmplo, tcg_addr, get_mem_index(s), mop);
1020     } else {
1021         bool be = s->be_data == MO_BE;
1022         TCGv_i64 tcg_hiaddr;
1023
1024         tmphi = tcg_temp_new_i64();
1025         tcg_hiaddr = tcg_temp_new_i64();
1026
1027         mop = s->be_data | MO_Q;
1028         tcg_gen_qemu_ld_i64(be ? tmphi : tmplo, tcg_addr, get_mem_index(s),
1029                             mop | (s->align_mem ? MO_ALIGN_16 : 0));
1030         tcg_gen_addi_i64(tcg_hiaddr, tcg_addr, 8);
1031         tcg_gen_qemu_ld_i64(be ? tmplo : tmphi, tcg_hiaddr,
1032                             get_mem_index(s), mop);
1033         tcg_temp_free_i64(tcg_hiaddr);
1034     }
1035
1036     tcg_gen_st_i64(tmplo, cpu_env, fp_reg_offset(s, destidx, MO_64));
1037     tcg_temp_free_i64(tmplo);
1038
1039     if (tmphi) {
1040         tcg_gen_st_i64(tmphi, cpu_env, fp_reg_hi_offset(s, destidx));
1041         tcg_temp_free_i64(tmphi);
1042     }
1043     clear_vec_high(s, tmphi != NULL, destidx);
1044 }
1045
1046 /*
1047  * Vector load/store helpers.
1048  *
1049  * The principal difference between this and a FP load is that we don't
1050  * zero extend as we are filling a partial chunk of the vector register.
1051  * These functions don't support 128 bit loads/stores, which would be
1052  * normal load/store operations.
1053  *
1054  * The _i32 versions are useful when operating on 32 bit quantities
1055  * (eg for floating point single or using Neon helper functions).
1056  */
1057
1058 /* Get value of an element within a vector register */
1059 static void read_vec_element(DisasContext *s, TCGv_i64 tcg_dest, int srcidx,
1060                              int element, MemOp memop)
1061 {
1062     int vect_off = vec_reg_offset(s, srcidx, element, memop & MO_SIZE);
1063     switch (memop) {
1064     case MO_8:
1065         tcg_gen_ld8u_i64(tcg_dest, cpu_env, vect_off);
1066         break;
1067     case MO_16:
1068         tcg_gen_ld16u_i64(tcg_dest, cpu_env, vect_off);
1069         break;
1070     case MO_32:
1071         tcg_gen_ld32u_i64(tcg_dest, cpu_env, vect_off);
1072         break;
1073     case MO_8|MO_SIGN:
1074         tcg_gen_ld8s_i64(tcg_dest, cpu_env, vect_off);
1075         break;
1076     case MO_16|MO_SIGN:
1077         tcg_gen_ld16s_i64(tcg_dest, cpu_env, vect_off);
1078         break;
1079     case MO_32|MO_SIGN:
1080         tcg_gen_ld32s_i64(tcg_dest, cpu_env, vect_off);
1081         break;
1082     case MO_64:
1083     case MO_64|MO_SIGN:
1084         tcg_gen_ld_i64(tcg_dest, cpu_env, vect_off);
1085         break;
1086     default:
1087         g_assert_not_reached();
1088     }
1089 }
1090
1091 static void read_vec_element_i32(DisasContext *s, TCGv_i32 tcg_dest, int srcidx,
1092                                  int element, MemOp memop)
1093 {
1094     int vect_off = vec_reg_offset(s, srcidx, element, memop & MO_SIZE);
1095     switch (memop) {
1096     case MO_8:
1097         tcg_gen_ld8u_i32(tcg_dest, cpu_env, vect_off);
1098         break;
1099     case MO_16:
1100         tcg_gen_ld16u_i32(tcg_dest, cpu_env, vect_off);
1101         break;
1102     case MO_8|MO_SIGN:
1103         tcg_gen_ld8s_i32(tcg_dest, cpu_env, vect_off);
1104         break;
1105     case MO_16|MO_SIGN:
1106         tcg_gen_ld16s_i32(tcg_dest, cpu_env, vect_off);
1107         break;
1108     case MO_32:
1109     case MO_32|MO_SIGN:
1110         tcg_gen_ld_i32(tcg_dest, cpu_env, vect_off);
1111         break;
1112     default:
1113         g_assert_not_reached();
1114     }
1115 }
1116
1117 /* Set value of an element within a vector register */
1118 static void write_vec_element(DisasContext *s, TCGv_i64 tcg_src, int destidx,
1119                               int element, MemOp memop)
1120 {
1121     int vect_off = vec_reg_offset(s, destidx, element, memop & MO_SIZE);
1122     switch (memop) {
1123     case MO_8:
1124         tcg_gen_st8_i64(tcg_src, cpu_env, vect_off);
1125         break;
1126     case MO_16:
1127         tcg_gen_st16_i64(tcg_src, cpu_env, vect_off);
1128         break;
1129     case MO_32:
1130         tcg_gen_st32_i64(tcg_src, cpu_env, vect_off);
1131         break;
1132     case MO_64:
1133         tcg_gen_st_i64(tcg_src, cpu_env, vect_off);
1134         break;
1135     default:
1136         g_assert_not_reached();
1137     }
1138 }
1139
1140 static void write_vec_element_i32(DisasContext *s, TCGv_i32 tcg_src,
1141                                   int destidx, int element, MemOp memop)
1142 {
1143     int vect_off = vec_reg_offset(s, destidx, element, memop & MO_SIZE);
1144     switch (memop) {
1145     case MO_8:
1146         tcg_gen_st8_i32(tcg_src, cpu_env, vect_off);
1147         break;
1148     case MO_16:
1149         tcg_gen_st16_i32(tcg_src, cpu_env, vect_off);
1150         break;
1151     case MO_32:
1152         tcg_gen_st_i32(tcg_src, cpu_env, vect_off);
1153         break;
1154     default:
1155         g_assert_not_reached();
1156     }
1157 }
1158
1159 /* Store from vector register to memory */
1160 static void do_vec_st(DisasContext *s, int srcidx, int element,
1161                       TCGv_i64 tcg_addr, MemOp mop)
1162 {
1163     TCGv_i64 tcg_tmp = tcg_temp_new_i64();
1164
1165     read_vec_element(s, tcg_tmp, srcidx, element, mop & MO_SIZE);
1166     tcg_gen_qemu_st_i64(tcg_tmp, tcg_addr, get_mem_index(s), mop);
1167
1168     tcg_temp_free_i64(tcg_tmp);
1169 }
1170
1171 /* Load from memory to vector register */
1172 static void do_vec_ld(DisasContext *s, int destidx, int element,
1173                       TCGv_i64 tcg_addr, MemOp mop)
1174 {
1175     TCGv_i64 tcg_tmp = tcg_temp_new_i64();
1176
1177     tcg_gen_qemu_ld_i64(tcg_tmp, tcg_addr, get_mem_index(s), mop);
1178     write_vec_element(s, tcg_tmp, destidx, element, mop & MO_SIZE);
1179
1180     tcg_temp_free_i64(tcg_tmp);
1181 }
1182
1183 /* Check that FP/Neon access is enabled. If it is, return
1184  * true. If not, emit code to generate an appropriate exception,
1185  * and return false; the caller should not emit any code for
1186  * the instruction. Note that this check must happen after all
1187  * unallocated-encoding checks (otherwise the syndrome information
1188  * for the resulting exception will be incorrect).
1189  */
1190 static bool fp_access_check(DisasContext *s)
1191 {
1192     if (s->fp_excp_el) {
1193         assert(!s->fp_access_checked);
1194         s->fp_access_checked = true;
1195
1196         gen_exception_insn(s, s->pc_curr, EXCP_UDEF,
1197                            syn_fp_access_trap(1, 0xe, false), s->fp_excp_el);
1198         return false;
1199     }
1200     s->fp_access_checked = true;
1201     return true;
1202 }
1203
1204 /* Check that SVE access is enabled.  If it is, return true.
1205  * If not, emit code to generate an appropriate exception and return false.
1206  */
1207 bool sve_access_check(DisasContext *s)
1208 {
1209     if (s->sve_excp_el) {
1210         assert(!s->sve_access_checked);
1211         s->sve_access_checked = true;
1212
1213         gen_exception_insn(s, s->pc_curr, EXCP_UDEF,
1214                            syn_sve_access_trap(), s->sve_excp_el);
1215         return false;
1216     }
1217     s->sve_access_checked = true;
1218     return fp_access_check(s);
1219 }
1220
1221 /*
1222  * This utility function is for doing register extension with an
1223  * optional shift. You will likely want to pass a temporary for the
1224  * destination register. See DecodeRegExtend() in the ARM ARM.
1225  */
1226 static void ext_and_shift_reg(TCGv_i64 tcg_out, TCGv_i64 tcg_in,
1227                               int option, unsigned int shift)
1228 {
1229     int extsize = extract32(option, 0, 2);
1230     bool is_signed = extract32(option, 2, 1);
1231
1232     if (is_signed) {
1233         switch (extsize) {
1234         case 0:
1235             tcg_gen_ext8s_i64(tcg_out, tcg_in);
1236             break;
1237         case 1:
1238             tcg_gen_ext16s_i64(tcg_out, tcg_in);
1239             break;
1240         case 2:
1241             tcg_gen_ext32s_i64(tcg_out, tcg_in);
1242             break;
1243         case 3:
1244             tcg_gen_mov_i64(tcg_out, tcg_in);
1245             break;
1246         }
1247     } else {
1248         switch (extsize) {
1249         case 0:
1250             tcg_gen_ext8u_i64(tcg_out, tcg_in);
1251             break;
1252         case 1:
1253             tcg_gen_ext16u_i64(tcg_out, tcg_in);
1254             break;
1255         case 2:
1256             tcg_gen_ext32u_i64(tcg_out, tcg_in);
1257             break;
1258         case 3:
1259             tcg_gen_mov_i64(tcg_out, tcg_in);
1260             break;
1261         }
1262     }
1263
1264     if (shift) {
1265         tcg_gen_shli_i64(tcg_out, tcg_out, shift);
1266     }
1267 }
1268
1269 static inline void gen_check_sp_alignment(DisasContext *s)
1270 {
1271     /* The AArch64 architecture mandates that (if enabled via PSTATE
1272      * or SCTLR bits) there is a check that SP is 16-aligned on every
1273      * SP-relative load or store (with an exception generated if it is not).
1274      * In line with general QEMU practice regarding misaligned accesses,
1275      * we omit these checks for the sake of guest program performance.
1276      * This function is provided as a hook so we can more easily add these
1277      * checks in future (possibly as a "favour catching guest program bugs
1278      * over speed" user selectable option).
1279      */
1280 }
1281
1282 /*
1283  * This provides a simple table based table lookup decoder. It is
1284  * intended to be used when the relevant bits for decode are too
1285  * awkwardly placed and switch/if based logic would be confusing and
1286  * deeply nested. Since it's a linear search through the table, tables
1287  * should be kept small.
1288  *
1289  * It returns the first handler where insn & mask == pattern, or
1290  * NULL if there is no match.
1291  * The table is terminated by an empty mask (i.e. 0)
1292  */
1293 static inline AArch64DecodeFn *lookup_disas_fn(const AArch64DecodeTable *table,
1294                                                uint32_t insn)
1295 {
1296     const AArch64DecodeTable *tptr = table;
1297
1298     while (tptr->mask) {
1299         if ((insn & tptr->mask) == tptr->pattern) {
1300             return tptr->disas_fn;
1301         }
1302         tptr++;
1303     }
1304     return NULL;
1305 }
1306
1307 /*
1308  * The instruction disassembly implemented here matches
1309  * the instruction encoding classifications in chapter C4
1310  * of the ARM Architecture Reference Manual (DDI0487B_a);
1311  * classification names and decode diagrams here should generally
1312  * match up with those in the manual.
1313  */
1314
1315 /* Unconditional branch (immediate)
1316  *   31  30       26 25                                  0
1317  * +----+-----------+-------------------------------------+
1318  * | op | 0 0 1 0 1 |                 imm26               |
1319  * +----+-----------+-------------------------------------+
1320  */
1321 static void disas_uncond_b_imm(DisasContext *s, uint32_t insn)
1322 {
1323     uint64_t addr = s->pc_curr + sextract32(insn, 0, 26) * 4;
1324
1325     if (insn & (1U << 31)) {
1326         /* BL Branch with link */
1327         tcg_gen_movi_i64(cpu_reg(s, 30), s->base.pc_next);
1328     }
1329
1330     /* B Branch / BL Branch with link */
1331     reset_btype(s);
1332     gen_goto_tb(s, 0, addr);
1333 }
1334
1335 /* Compare and branch (immediate)
1336  *   31  30         25  24  23                  5 4      0
1337  * +----+-------------+----+---------------------+--------+
1338  * | sf | 0 1 1 0 1 0 | op |         imm19       |   Rt   |
1339  * +----+-------------+----+---------------------+--------+
1340  */
1341 static void disas_comp_b_imm(DisasContext *s, uint32_t insn)
1342 {
1343     unsigned int sf, op, rt;
1344     uint64_t addr;
1345     TCGLabel *label_match;
1346     TCGv_i64 tcg_cmp;
1347
1348     sf = extract32(insn, 31, 1);
1349     op = extract32(insn, 24, 1); /* 0: CBZ; 1: CBNZ */
1350     rt = extract32(insn, 0, 5);
1351     addr = s->pc_curr + sextract32(insn, 5, 19) * 4;
1352
1353     tcg_cmp = read_cpu_reg(s, rt, sf);
1354     label_match = gen_new_label();
1355
1356     reset_btype(s);
1357     tcg_gen_brcondi_i64(op ? TCG_COND_NE : TCG_COND_EQ,
1358                         tcg_cmp, 0, label_match);
1359
1360     gen_goto_tb(s, 0, s->base.pc_next);
1361     gen_set_label(label_match);
1362     gen_goto_tb(s, 1, addr);
1363 }
1364
1365 /* Test and branch (immediate)
1366  *   31  30         25  24  23   19 18          5 4    0
1367  * +----+-------------+----+-------+-------------+------+
1368  * | b5 | 0 1 1 0 1 1 | op |  b40  |    imm14    |  Rt  |
1369  * +----+-------------+----+-------+-------------+------+
1370  */
1371 static void disas_test_b_imm(DisasContext *s, uint32_t insn)
1372 {
1373     unsigned int bit_pos, op, rt;
1374     uint64_t addr;
1375     TCGLabel *label_match;
1376     TCGv_i64 tcg_cmp;
1377
1378     bit_pos = (extract32(insn, 31, 1) << 5) | extract32(insn, 19, 5);
1379     op = extract32(insn, 24, 1); /* 0: TBZ; 1: TBNZ */
1380     addr = s->pc_curr + sextract32(insn, 5, 14) * 4;
1381     rt = extract32(insn, 0, 5);
1382
1383     tcg_cmp = tcg_temp_new_i64();
1384     tcg_gen_andi_i64(tcg_cmp, cpu_reg(s, rt), (1ULL << bit_pos));
1385     label_match = gen_new_label();
1386
1387     reset_btype(s);
1388     tcg_gen_brcondi_i64(op ? TCG_COND_NE : TCG_COND_EQ,
1389                         tcg_cmp, 0, label_match);
1390     tcg_temp_free_i64(tcg_cmp);
1391     gen_goto_tb(s, 0, s->base.pc_next);
1392     gen_set_label(label_match);
1393     gen_goto_tb(s, 1, addr);
1394 }
1395
1396 /* Conditional branch (immediate)
1397  *  31           25  24  23                  5   4  3    0
1398  * +---------------+----+---------------------+----+------+
1399  * | 0 1 0 1 0 1 0 | o1 |         imm19       | o0 | cond |
1400  * +---------------+----+---------------------+----+------+
1401  */
1402 static void disas_cond_b_imm(DisasContext *s, uint32_t insn)
1403 {
1404     unsigned int cond;
1405     uint64_t addr;
1406
1407     if ((insn & (1 << 4)) || (insn & (1 << 24))) {
1408         unallocated_encoding(s);
1409         return;
1410     }
1411     addr = s->pc_curr + sextract32(insn, 5, 19) * 4;
1412     cond = extract32(insn, 0, 4);
1413
1414     reset_btype(s);
1415     if (cond < 0x0e) {
1416         /* genuinely conditional branches */
1417         TCGLabel *label_match = gen_new_label();
1418         arm_gen_test_cc(cond, label_match);
1419         gen_goto_tb(s, 0, s->base.pc_next);
1420         gen_set_label(label_match);
1421         gen_goto_tb(s, 1, addr);
1422     } else {
1423         /* 0xe and 0xf are both "always" conditions */
1424         gen_goto_tb(s, 0, addr);
1425     }
1426 }
1427
1428 /* HINT instruction group, including various allocated HINTs */
1429 static void handle_hint(DisasContext *s, uint32_t insn,
1430                         unsigned int op1, unsigned int op2, unsigned int crm)
1431 {
1432     unsigned int selector = crm << 3 | op2;
1433
1434     if (op1 != 3) {
1435         unallocated_encoding(s);
1436         return;
1437     }
1438
1439     switch (selector) {
1440     case 0b00000: /* NOP */
1441         break;
1442     case 0b00011: /* WFI */
1443         s->base.is_jmp = DISAS_WFI;
1444         break;
1445     case 0b00001: /* YIELD */
1446         /* When running in MTTCG we don't generate jumps to the yield and
1447          * WFE helpers as it won't affect the scheduling of other vCPUs.
1448          * If we wanted to more completely model WFE/SEV so we don't busy
1449          * spin unnecessarily we would need to do something more involved.
1450          */
1451         if (!(tb_cflags(s->base.tb) & CF_PARALLEL)) {
1452             s->base.is_jmp = DISAS_YIELD;
1453         }
1454         break;
1455     case 0b00010: /* WFE */
1456         if (!(tb_cflags(s->base.tb) & CF_PARALLEL)) {
1457             s->base.is_jmp = DISAS_WFE;
1458         }
1459         break;
1460     case 0b00100: /* SEV */
1461     case 0b00101: /* SEVL */
1462         /* we treat all as NOP at least for now */
1463         break;
1464     case 0b00111: /* XPACLRI */
1465         if (s->pauth_active) {
1466             gen_helper_xpaci(cpu_X[30], cpu_env, cpu_X[30]);
1467         }
1468         break;
1469     case 0b01000: /* PACIA1716 */
1470         if (s->pauth_active) {
1471             gen_helper_pacia(cpu_X[17], cpu_env, cpu_X[17], cpu_X[16]);
1472         }
1473         break;
1474     case 0b01010: /* PACIB1716 */
1475         if (s->pauth_active) {
1476             gen_helper_pacib(cpu_X[17], cpu_env, cpu_X[17], cpu_X[16]);
1477         }
1478         break;
1479     case 0b01100: /* AUTIA1716 */
1480         if (s->pauth_active) {
1481             gen_helper_autia(cpu_X[17], cpu_env, cpu_X[17], cpu_X[16]);
1482         }
1483         break;
1484     case 0b01110: /* AUTIB1716 */
1485         if (s->pauth_active) {
1486             gen_helper_autib(cpu_X[17], cpu_env, cpu_X[17], cpu_X[16]);
1487         }
1488         break;
1489     case 0b11000: /* PACIAZ */
1490         if (s->pauth_active) {
1491             gen_helper_pacia(cpu_X[30], cpu_env, cpu_X[30],
1492                                 new_tmp_a64_zero(s));
1493         }
1494         break;
1495     case 0b11001: /* PACIASP */
1496         if (s->pauth_active) {
1497             gen_helper_pacia(cpu_X[30], cpu_env, cpu_X[30], cpu_X[31]);
1498         }
1499         break;
1500     case 0b11010: /* PACIBZ */
1501         if (s->pauth_active) {
1502             gen_helper_pacib(cpu_X[30], cpu_env, cpu_X[30],
1503                                 new_tmp_a64_zero(s));
1504         }
1505         break;
1506     case 0b11011: /* PACIBSP */
1507         if (s->pauth_active) {
1508             gen_helper_pacib(cpu_X[30], cpu_env, cpu_X[30], cpu_X[31]);
1509         }
1510         break;
1511     case 0b11100: /* AUTIAZ */
1512         if (s->pauth_active) {
1513             gen_helper_autia(cpu_X[30], cpu_env, cpu_X[30],
1514                               new_tmp_a64_zero(s));
1515         }
1516         break;
1517     case 0b11101: /* AUTIASP */
1518         if (s->pauth_active) {
1519             gen_helper_autia(cpu_X[30], cpu_env, cpu_X[30], cpu_X[31]);
1520         }
1521         break;
1522     case 0b11110: /* AUTIBZ */
1523         if (s->pauth_active) {
1524             gen_helper_autib(cpu_X[30], cpu_env, cpu_X[30],
1525                               new_tmp_a64_zero(s));
1526         }
1527         break;
1528     case 0b11111: /* AUTIBSP */
1529         if (s->pauth_active) {
1530             gen_helper_autib(cpu_X[30], cpu_env, cpu_X[30], cpu_X[31]);
1531         }
1532         break;
1533     default:
1534         /* default specified as NOP equivalent */
1535         break;
1536     }
1537 }
1538
1539 static void gen_clrex(DisasContext *s, uint32_t insn)
1540 {
1541     tcg_gen_movi_i64(cpu_exclusive_addr, -1);
1542 }
1543
1544 /* CLREX, DSB, DMB, ISB */
1545 static void handle_sync(DisasContext *s, uint32_t insn,
1546                         unsigned int op1, unsigned int op2, unsigned int crm)
1547 {
1548     TCGBar bar;
1549
1550     if (op1 != 3) {
1551         unallocated_encoding(s);
1552         return;
1553     }
1554
1555     switch (op2) {
1556     case 2: /* CLREX */
1557         gen_clrex(s, insn);
1558         return;
1559     case 4: /* DSB */
1560     case 5: /* DMB */
1561         switch (crm & 3) {
1562         case 1: /* MBReqTypes_Reads */
1563             bar = TCG_BAR_SC | TCG_MO_LD_LD | TCG_MO_LD_ST;
1564             break;
1565         case 2: /* MBReqTypes_Writes */
1566             bar = TCG_BAR_SC | TCG_MO_ST_ST;
1567             break;
1568         default: /* MBReqTypes_All */
1569             bar = TCG_BAR_SC | TCG_MO_ALL;
1570             break;
1571         }
1572         tcg_gen_mb(bar);
1573         return;
1574     case 6: /* ISB */
1575         /* We need to break the TB after this insn to execute
1576          * a self-modified code correctly and also to take
1577          * any pending interrupts immediately.
1578          */
1579         reset_btype(s);
1580         gen_goto_tb(s, 0, s->base.pc_next);
1581         return;
1582
1583     case 7: /* SB */
1584         if (crm != 0 || !dc_isar_feature(aa64_sb, s)) {
1585             goto do_unallocated;
1586         }
1587         /*
1588          * TODO: There is no speculation barrier opcode for TCG;
1589          * MB and end the TB instead.
1590          */
1591         tcg_gen_mb(TCG_MO_ALL | TCG_BAR_SC);
1592         gen_goto_tb(s, 0, s->base.pc_next);
1593         return;
1594
1595     default:
1596     do_unallocated:
1597         unallocated_encoding(s);
1598         return;
1599     }
1600 }
1601
1602 static void gen_xaflag(void)
1603 {
1604     TCGv_i32 z = tcg_temp_new_i32();
1605
1606     tcg_gen_setcondi_i32(TCG_COND_EQ, z, cpu_ZF, 0);
1607
1608     /*
1609      * (!C & !Z) << 31
1610      * (!(C | Z)) << 31
1611      * ~((C | Z) << 31)
1612      * ~-(C | Z)
1613      * (C | Z) - 1
1614      */
1615     tcg_gen_or_i32(cpu_NF, cpu_CF, z);
1616     tcg_gen_subi_i32(cpu_NF, cpu_NF, 1);
1617
1618     /* !(Z & C) */
1619     tcg_gen_and_i32(cpu_ZF, z, cpu_CF);
1620     tcg_gen_xori_i32(cpu_ZF, cpu_ZF, 1);
1621
1622     /* (!C & Z) << 31 -> -(Z & ~C) */
1623     tcg_gen_andc_i32(cpu_VF, z, cpu_CF);
1624     tcg_gen_neg_i32(cpu_VF, cpu_VF);
1625
1626     /* C | Z */
1627     tcg_gen_or_i32(cpu_CF, cpu_CF, z);
1628
1629     tcg_temp_free_i32(z);
1630 }
1631
1632 static void gen_axflag(void)
1633 {
1634     tcg_gen_sari_i32(cpu_VF, cpu_VF, 31);         /* V ? -1 : 0 */
1635     tcg_gen_andc_i32(cpu_CF, cpu_CF, cpu_VF);     /* C & !V */
1636
1637     /* !(Z | V) -> !(!ZF | V) -> ZF & !V -> ZF & ~VF */
1638     tcg_gen_andc_i32(cpu_ZF, cpu_ZF, cpu_VF);
1639
1640     tcg_gen_movi_i32(cpu_NF, 0);
1641     tcg_gen_movi_i32(cpu_VF, 0);
1642 }
1643
1644 /* MSR (immediate) - move immediate to processor state field */
1645 static void handle_msr_i(DisasContext *s, uint32_t insn,
1646                          unsigned int op1, unsigned int op2, unsigned int crm)
1647 {
1648     TCGv_i32 t1;
1649     int op = op1 << 3 | op2;
1650
1651     /* End the TB by default, chaining is ok.  */
1652     s->base.is_jmp = DISAS_TOO_MANY;
1653
1654     switch (op) {
1655     case 0x00: /* CFINV */
1656         if (crm != 0 || !dc_isar_feature(aa64_condm_4, s)) {
1657             goto do_unallocated;
1658         }
1659         tcg_gen_xori_i32(cpu_CF, cpu_CF, 1);
1660         s->base.is_jmp = DISAS_NEXT;
1661         break;
1662
1663     case 0x01: /* XAFlag */
1664         if (crm != 0 || !dc_isar_feature(aa64_condm_5, s)) {
1665             goto do_unallocated;
1666         }
1667         gen_xaflag();
1668         s->base.is_jmp = DISAS_NEXT;
1669         break;
1670
1671     case 0x02: /* AXFlag */
1672         if (crm != 0 || !dc_isar_feature(aa64_condm_5, s)) {
1673             goto do_unallocated;
1674         }
1675         gen_axflag();
1676         s->base.is_jmp = DISAS_NEXT;
1677         break;
1678
1679     case 0x03: /* UAO */
1680         if (!dc_isar_feature(aa64_uao, s) || s->current_el == 0) {
1681             goto do_unallocated;
1682         }
1683         if (crm & 1) {
1684             set_pstate_bits(PSTATE_UAO);
1685         } else {
1686             clear_pstate_bits(PSTATE_UAO);
1687         }
1688         t1 = tcg_const_i32(s->current_el);
1689         gen_helper_rebuild_hflags_a64(cpu_env, t1);
1690         tcg_temp_free_i32(t1);
1691         break;
1692
1693     case 0x04: /* PAN */
1694         if (!dc_isar_feature(aa64_pan, s) || s->current_el == 0) {
1695             goto do_unallocated;
1696         }
1697         if (crm & 1) {
1698             set_pstate_bits(PSTATE_PAN);
1699         } else {
1700             clear_pstate_bits(PSTATE_PAN);
1701         }
1702         t1 = tcg_const_i32(s->current_el);
1703         gen_helper_rebuild_hflags_a64(cpu_env, t1);
1704         tcg_temp_free_i32(t1);
1705         break;
1706
1707     case 0x05: /* SPSel */
1708         if (s->current_el == 0) {
1709             goto do_unallocated;
1710         }
1711         t1 = tcg_const_i32(crm & PSTATE_SP);
1712         gen_helper_msr_i_spsel(cpu_env, t1);
1713         tcg_temp_free_i32(t1);
1714         break;
1715
1716     case 0x19: /* SSBS */
1717         if (!dc_isar_feature(aa64_ssbs, s)) {
1718             goto do_unallocated;
1719         }
1720         if (crm & 1) {
1721             set_pstate_bits(PSTATE_SSBS);
1722         } else {
1723             clear_pstate_bits(PSTATE_SSBS);
1724         }
1725         /* Don't need to rebuild hflags since SSBS is a nop */
1726         break;
1727
1728     case 0x1a: /* DIT */
1729         if (!dc_isar_feature(aa64_dit, s)) {
1730             goto do_unallocated;
1731         }
1732         if (crm & 1) {
1733             set_pstate_bits(PSTATE_DIT);
1734         } else {
1735             clear_pstate_bits(PSTATE_DIT);
1736         }
1737         /* There's no need to rebuild hflags because DIT is a nop */
1738         break;
1739
1740     case 0x1e: /* DAIFSet */
1741         t1 = tcg_const_i32(crm);
1742         gen_helper_msr_i_daifset(cpu_env, t1);
1743         tcg_temp_free_i32(t1);
1744         break;
1745
1746     case 0x1f: /* DAIFClear */
1747         t1 = tcg_const_i32(crm);
1748         gen_helper_msr_i_daifclear(cpu_env, t1);
1749         tcg_temp_free_i32(t1);
1750         /* For DAIFClear, exit the cpu loop to re-evaluate pending IRQs.  */
1751         s->base.is_jmp = DISAS_UPDATE_EXIT;
1752         break;
1753
1754     case 0x1c: /* TCO */
1755         if (dc_isar_feature(aa64_mte, s)) {
1756             /* Full MTE is enabled -- set the TCO bit as directed. */
1757             if (crm & 1) {
1758                 set_pstate_bits(PSTATE_TCO);
1759             } else {
1760                 clear_pstate_bits(PSTATE_TCO);
1761             }
1762             t1 = tcg_const_i32(s->current_el);
1763             gen_helper_rebuild_hflags_a64(cpu_env, t1);
1764             tcg_temp_free_i32(t1);
1765             /* Many factors, including TCO, go into MTE_ACTIVE. */
1766             s->base.is_jmp = DISAS_UPDATE_NOCHAIN;
1767         } else if (dc_isar_feature(aa64_mte_insn_reg, s)) {
1768             /* Only "instructions accessible at EL0" -- PSTATE.TCO is WI.  */
1769             s->base.is_jmp = DISAS_NEXT;
1770         } else {
1771             goto do_unallocated;
1772         }
1773         break;
1774
1775     default:
1776     do_unallocated:
1777         unallocated_encoding(s);
1778         return;
1779     }
1780 }
1781
1782 static void gen_get_nzcv(TCGv_i64 tcg_rt)
1783 {
1784     TCGv_i32 tmp = tcg_temp_new_i32();
1785     TCGv_i32 nzcv = tcg_temp_new_i32();
1786
1787     /* build bit 31, N */
1788     tcg_gen_andi_i32(nzcv, cpu_NF, (1U << 31));
1789     /* build bit 30, Z */
1790     tcg_gen_setcondi_i32(TCG_COND_EQ, tmp, cpu_ZF, 0);
1791     tcg_gen_deposit_i32(nzcv, nzcv, tmp, 30, 1);
1792     /* build bit 29, C */
1793     tcg_gen_deposit_i32(nzcv, nzcv, cpu_CF, 29, 1);
1794     /* build bit 28, V */
1795     tcg_gen_shri_i32(tmp, cpu_VF, 31);
1796     tcg_gen_deposit_i32(nzcv, nzcv, tmp, 28, 1);
1797     /* generate result */
1798     tcg_gen_extu_i32_i64(tcg_rt, nzcv);
1799
1800     tcg_temp_free_i32(nzcv);
1801     tcg_temp_free_i32(tmp);
1802 }
1803
1804 static void gen_set_nzcv(TCGv_i64 tcg_rt)
1805 {
1806     TCGv_i32 nzcv = tcg_temp_new_i32();
1807
1808     /* take NZCV from R[t] */
1809     tcg_gen_extrl_i64_i32(nzcv, tcg_rt);
1810
1811     /* bit 31, N */
1812     tcg_gen_andi_i32(cpu_NF, nzcv, (1U << 31));
1813     /* bit 30, Z */
1814     tcg_gen_andi_i32(cpu_ZF, nzcv, (1 << 30));
1815     tcg_gen_setcondi_i32(TCG_COND_EQ, cpu_ZF, cpu_ZF, 0);
1816     /* bit 29, C */
1817     tcg_gen_andi_i32(cpu_CF, nzcv, (1 << 29));
1818     tcg_gen_shri_i32(cpu_CF, cpu_CF, 29);
1819     /* bit 28, V */
1820     tcg_gen_andi_i32(cpu_VF, nzcv, (1 << 28));
1821     tcg_gen_shli_i32(cpu_VF, cpu_VF, 3);
1822     tcg_temp_free_i32(nzcv);
1823 }
1824
1825 /* MRS - move from system register
1826  * MSR (register) - move to system register
1827  * SYS
1828  * SYSL
1829  * These are all essentially the same insn in 'read' and 'write'
1830  * versions, with varying op0 fields.
1831  */
1832 static void handle_sys(DisasContext *s, uint32_t insn, bool isread,
1833                        unsigned int op0, unsigned int op1, unsigned int op2,
1834                        unsigned int crn, unsigned int crm, unsigned int rt)
1835 {
1836     const ARMCPRegInfo *ri;
1837     TCGv_i64 tcg_rt;
1838
1839     ri = get_arm_cp_reginfo(s->cp_regs,
1840                             ENCODE_AA64_CP_REG(CP_REG_ARM64_SYSREG_CP,
1841                                                crn, crm, op0, op1, op2));
1842
1843     if (!ri) {
1844         /* Unknown register; this might be a guest error or a QEMU
1845          * unimplemented feature.
1846          */
1847         qemu_log_mask(LOG_UNIMP, "%s access to unsupported AArch64 "
1848                       "system register op0:%d op1:%d crn:%d crm:%d op2:%d\n",
1849                       isread ? "read" : "write", op0, op1, crn, crm, op2);
1850         unallocated_encoding(s);
1851         return;
1852     }
1853
1854     /* Check access permissions */
1855     if (!cp_access_ok(s->current_el, ri, isread)) {
1856         unallocated_encoding(s);
1857         return;
1858     }
1859
1860     if (ri->accessfn) {
1861         /* Emit code to perform further access permissions checks at
1862          * runtime; this may result in an exception.
1863          */
1864         TCGv_ptr tmpptr;
1865         TCGv_i32 tcg_syn, tcg_isread;
1866         uint32_t syndrome;
1867
1868         gen_a64_set_pc_im(s->pc_curr);
1869         tmpptr = tcg_const_ptr(ri);
1870         syndrome = syn_aa64_sysregtrap(op0, op1, op2, crn, crm, rt, isread);
1871         tcg_syn = tcg_const_i32(syndrome);
1872         tcg_isread = tcg_const_i32(isread);
1873         gen_helper_access_check_cp_reg(cpu_env, tmpptr, tcg_syn, tcg_isread);
1874         tcg_temp_free_ptr(tmpptr);
1875         tcg_temp_free_i32(tcg_syn);
1876         tcg_temp_free_i32(tcg_isread);
1877     } else if (ri->type & ARM_CP_RAISES_EXC) {
1878         /*
1879          * The readfn or writefn might raise an exception;
1880          * synchronize the CPU state in case it does.
1881          */
1882         gen_a64_set_pc_im(s->pc_curr);
1883     }
1884
1885     /* Handle special cases first */
1886     switch (ri->type & ~(ARM_CP_FLAG_MASK & ~ARM_CP_SPECIAL)) {
1887     case ARM_CP_NOP:
1888         return;
1889     case ARM_CP_NZCV:
1890         tcg_rt = cpu_reg(s, rt);
1891         if (isread) {
1892             gen_get_nzcv(tcg_rt);
1893         } else {
1894             gen_set_nzcv(tcg_rt);
1895         }
1896         return;
1897     case ARM_CP_CURRENTEL:
1898         /* Reads as current EL value from pstate, which is
1899          * guaranteed to be constant by the tb flags.
1900          */
1901         tcg_rt = cpu_reg(s, rt);
1902         tcg_gen_movi_i64(tcg_rt, s->current_el << 2);
1903         return;
1904     case ARM_CP_DC_ZVA:
1905         /* Writes clear the aligned block of memory which rt points into. */
1906         if (s->mte_active[0]) {
1907             TCGv_i32 t_desc;
1908             int desc = 0;
1909
1910             desc = FIELD_DP32(desc, MTEDESC, MIDX, get_mem_index(s));
1911             desc = FIELD_DP32(desc, MTEDESC, TBI, s->tbid);
1912             desc = FIELD_DP32(desc, MTEDESC, TCMA, s->tcma);
1913             t_desc = tcg_const_i32(desc);
1914
1915             tcg_rt = new_tmp_a64(s);
1916             gen_helper_mte_check_zva(tcg_rt, cpu_env, t_desc, cpu_reg(s, rt));
1917             tcg_temp_free_i32(t_desc);
1918         } else {
1919             tcg_rt = clean_data_tbi(s, cpu_reg(s, rt));
1920         }
1921         gen_helper_dc_zva(cpu_env, tcg_rt);
1922         return;
1923     case ARM_CP_DC_GVA:
1924         {
1925             TCGv_i64 clean_addr, tag;
1926
1927             /*
1928              * DC_GVA, like DC_ZVA, requires that we supply the original
1929              * pointer for an invalid page.  Probe that address first.
1930              */
1931             tcg_rt = cpu_reg(s, rt);
1932             clean_addr = clean_data_tbi(s, tcg_rt);
1933             gen_probe_access(s, clean_addr, MMU_DATA_STORE, MO_8);
1934
1935             if (s->ata) {
1936                 /* Extract the tag from the register to match STZGM.  */
1937                 tag = tcg_temp_new_i64();
1938                 tcg_gen_shri_i64(tag, tcg_rt, 56);
1939                 gen_helper_stzgm_tags(cpu_env, clean_addr, tag);
1940                 tcg_temp_free_i64(tag);
1941             }
1942         }
1943         return;
1944     case ARM_CP_DC_GZVA:
1945         {
1946             TCGv_i64 clean_addr, tag;
1947
1948             /* For DC_GZVA, we can rely on DC_ZVA for the proper fault. */
1949             tcg_rt = cpu_reg(s, rt);
1950             clean_addr = clean_data_tbi(s, tcg_rt);
1951             gen_helper_dc_zva(cpu_env, clean_addr);
1952
1953             if (s->ata) {
1954                 /* Extract the tag from the register to match STZGM.  */
1955                 tag = tcg_temp_new_i64();
1956                 tcg_gen_shri_i64(tag, tcg_rt, 56);
1957                 gen_helper_stzgm_tags(cpu_env, clean_addr, tag);
1958                 tcg_temp_free_i64(tag);
1959             }
1960         }
1961         return;
1962     default:
1963         break;
1964     }
1965     if ((ri->type & ARM_CP_FPU) && !fp_access_check(s)) {
1966         return;
1967     } else if ((ri->type & ARM_CP_SVE) && !sve_access_check(s)) {
1968         return;
1969     }
1970
1971     if ((tb_cflags(s->base.tb) & CF_USE_ICOUNT) && (ri->type & ARM_CP_IO)) {
1972         gen_io_start();
1973     }
1974
1975     tcg_rt = cpu_reg(s, rt);
1976
1977     if (isread) {
1978         if (ri->type & ARM_CP_CONST) {
1979             tcg_gen_movi_i64(tcg_rt, ri->resetvalue);
1980         } else if (ri->readfn) {
1981             TCGv_ptr tmpptr;
1982             tmpptr = tcg_const_ptr(ri);
1983             gen_helper_get_cp_reg64(tcg_rt, cpu_env, tmpptr);
1984             tcg_temp_free_ptr(tmpptr);
1985         } else {
1986             tcg_gen_ld_i64(tcg_rt, cpu_env, ri->fieldoffset);
1987         }
1988     } else {
1989         if (ri->type & ARM_CP_CONST) {
1990             /* If not forbidden by access permissions, treat as WI */
1991             return;
1992         } else if (ri->writefn) {
1993             TCGv_ptr tmpptr;
1994             tmpptr = tcg_const_ptr(ri);
1995             gen_helper_set_cp_reg64(cpu_env, tmpptr, tcg_rt);
1996             tcg_temp_free_ptr(tmpptr);
1997         } else {
1998             tcg_gen_st_i64(tcg_rt, cpu_env, ri->fieldoffset);
1999         }
2000     }
2001
2002     if ((tb_cflags(s->base.tb) & CF_USE_ICOUNT) && (ri->type & ARM_CP_IO)) {
2003         /* I/O operations must end the TB here (whether read or write) */
2004         s->base.is_jmp = DISAS_UPDATE_EXIT;
2005     }
2006     if (!isread && !(ri->type & ARM_CP_SUPPRESS_TB_END)) {
2007         /*
2008          * A write to any coprocessor regiser that ends a TB
2009          * must rebuild the hflags for the next TB.
2010          */
2011         TCGv_i32 tcg_el = tcg_const_i32(s->current_el);
2012         gen_helper_rebuild_hflags_a64(cpu_env, tcg_el);
2013         tcg_temp_free_i32(tcg_el);
2014         /*
2015          * We default to ending the TB on a coprocessor register write,
2016          * but allow this to be suppressed by the register definition
2017          * (usually only necessary to work around guest bugs).
2018          */
2019         s->base.is_jmp = DISAS_UPDATE_EXIT;
2020     }
2021 }
2022
2023 /* System
2024  *  31                 22 21  20 19 18 16 15   12 11    8 7   5 4    0
2025  * +---------------------+---+-----+-----+-------+-------+-----+------+
2026  * | 1 1 0 1 0 1 0 1 0 0 | L | op0 | op1 |  CRn  |  CRm  | op2 |  Rt  |
2027  * +---------------------+---+-----+-----+-------+-------+-----+------+
2028  */
2029 static void disas_system(DisasContext *s, uint32_t insn)
2030 {
2031     unsigned int l, op0, op1, crn, crm, op2, rt;
2032     l = extract32(insn, 21, 1);
2033     op0 = extract32(insn, 19, 2);
2034     op1 = extract32(insn, 16, 3);
2035     crn = extract32(insn, 12, 4);
2036     crm = extract32(insn, 8, 4);
2037     op2 = extract32(insn, 5, 3);
2038     rt = extract32(insn, 0, 5);
2039
2040     if (op0 == 0) {
2041         if (l || rt != 31) {
2042             unallocated_encoding(s);
2043             return;
2044         }
2045         switch (crn) {
2046         case 2: /* HINT (including allocated hints like NOP, YIELD, etc) */
2047             handle_hint(s, insn, op1, op2, crm);
2048             break;
2049         case 3: /* CLREX, DSB, DMB, ISB */
2050             handle_sync(s, insn, op1, op2, crm);
2051             break;
2052         case 4: /* MSR (immediate) */
2053             handle_msr_i(s, insn, op1, op2, crm);
2054             break;
2055         default:
2056             unallocated_encoding(s);
2057             break;
2058         }
2059         return;
2060     }
2061     handle_sys(s, insn, l, op0, op1, op2, crn, crm, rt);
2062 }
2063
2064 /* Exception generation
2065  *
2066  *  31             24 23 21 20                     5 4   2 1  0
2067  * +-----------------+-----+------------------------+-----+----+
2068  * | 1 1 0 1 0 1 0 0 | opc |          imm16         | op2 | LL |
2069  * +-----------------------+------------------------+----------+
2070  */
2071 static void disas_exc(DisasContext *s, uint32_t insn)
2072 {
2073     int opc = extract32(insn, 21, 3);
2074     int op2_ll = extract32(insn, 0, 5);
2075     int imm16 = extract32(insn, 5, 16);
2076     TCGv_i32 tmp;
2077
2078     switch (opc) {
2079     case 0:
2080         /* For SVC, HVC and SMC we advance the single-step state
2081          * machine before taking the exception. This is architecturally
2082          * mandated, to ensure that single-stepping a system call
2083          * instruction works properly.
2084          */
2085         switch (op2_ll) {
2086         case 1:                                                     /* SVC */
2087             gen_ss_advance(s);
2088             gen_exception_insn(s, s->base.pc_next, EXCP_SWI,
2089                                syn_aa64_svc(imm16), default_exception_el(s));
2090             break;
2091         case 2:                                                     /* HVC */
2092             if (s->current_el == 0) {
2093                 unallocated_encoding(s);
2094                 break;
2095             }
2096             /* The pre HVC helper handles cases when HVC gets trapped
2097              * as an undefined insn by runtime configuration.
2098              */
2099             gen_a64_set_pc_im(s->pc_curr);
2100             gen_helper_pre_hvc(cpu_env);
2101             gen_ss_advance(s);
2102             gen_exception_insn(s, s->base.pc_next, EXCP_HVC,
2103                                syn_aa64_hvc(imm16), 2);
2104             break;
2105         case 3:                                                     /* SMC */
2106             if (s->current_el == 0) {
2107                 unallocated_encoding(s);
2108                 break;
2109             }
2110             gen_a64_set_pc_im(s->pc_curr);
2111             tmp = tcg_const_i32(syn_aa64_smc(imm16));
2112             gen_helper_pre_smc(cpu_env, tmp);
2113             tcg_temp_free_i32(tmp);
2114             gen_ss_advance(s);
2115             gen_exception_insn(s, s->base.pc_next, EXCP_SMC,
2116                                syn_aa64_smc(imm16), 3);
2117             break;
2118         default:
2119             unallocated_encoding(s);
2120             break;
2121         }
2122         break;
2123     case 1:
2124         if (op2_ll != 0) {
2125             unallocated_encoding(s);
2126             break;
2127         }
2128         /* BRK */
2129         gen_exception_bkpt_insn(s, syn_aa64_bkpt(imm16));
2130         break;
2131     case 2:
2132         if (op2_ll != 0) {
2133             unallocated_encoding(s);
2134             break;
2135         }
2136         /* HLT. This has two purposes.
2137          * Architecturally, it is an external halting debug instruction.
2138          * Since QEMU doesn't implement external debug, we treat this as
2139          * it is required for halting debug disabled: it will UNDEF.
2140          * Secondly, "HLT 0xf000" is the A64 semihosting syscall instruction.
2141          */
2142         if (semihosting_enabled() && imm16 == 0xf000) {
2143 #ifndef CONFIG_USER_ONLY
2144             /* In system mode, don't allow userspace access to semihosting,
2145              * to provide some semblance of security (and for consistency
2146              * with our 32-bit semihosting).
2147              */
2148             if (s->current_el == 0) {
2149                 unsupported_encoding(s, insn);
2150                 break;
2151             }
2152 #endif
2153             gen_exception_internal_insn(s, s->pc_curr, EXCP_SEMIHOST);
2154         } else {
2155             unsupported_encoding(s, insn);
2156         }
2157         break;
2158     case 5:
2159         if (op2_ll < 1 || op2_ll > 3) {
2160             unallocated_encoding(s);
2161             break;
2162         }
2163         /* DCPS1, DCPS2, DCPS3 */
2164         unsupported_encoding(s, insn);
2165         break;
2166     default:
2167         unallocated_encoding(s);
2168         break;
2169     }
2170 }
2171
2172 /* Unconditional branch (register)
2173  *  31           25 24   21 20   16 15   10 9    5 4     0
2174  * +---------------+-------+-------+-------+------+-------+
2175  * | 1 1 0 1 0 1 1 |  opc  |  op2  |  op3  |  Rn  |  op4  |
2176  * +---------------+-------+-------+-------+------+-------+
2177  */
2178 static void disas_uncond_b_reg(DisasContext *s, uint32_t insn)
2179 {
2180     unsigned int opc, op2, op3, rn, op4;
2181     unsigned btype_mod = 2;   /* 0: BR, 1: BLR, 2: other */
2182     TCGv_i64 dst;
2183     TCGv_i64 modifier;
2184
2185     opc = extract32(insn, 21, 4);
2186     op2 = extract32(insn, 16, 5);
2187     op3 = extract32(insn, 10, 6);
2188     rn = extract32(insn, 5, 5);
2189     op4 = extract32(insn, 0, 5);
2190
2191     if (op2 != 0x1f) {
2192         goto do_unallocated;
2193     }
2194
2195     switch (opc) {
2196     case 0: /* BR */
2197     case 1: /* BLR */
2198     case 2: /* RET */
2199         btype_mod = opc;
2200         switch (op3) {
2201         case 0:
2202             /* BR, BLR, RET */
2203             if (op4 != 0) {
2204                 goto do_unallocated;
2205             }
2206             dst = cpu_reg(s, rn);
2207             break;
2208
2209         case 2:
2210         case 3:
2211             if (!dc_isar_feature(aa64_pauth, s)) {
2212                 goto do_unallocated;
2213             }
2214             if (opc == 2) {
2215                 /* RETAA, RETAB */
2216                 if (rn != 0x1f || op4 != 0x1f) {
2217                     goto do_unallocated;
2218                 }
2219                 rn = 30;
2220                 modifier = cpu_X[31];
2221             } else {
2222                 /* BRAAZ, BRABZ, BLRAAZ, BLRABZ */
2223                 if (op4 != 0x1f) {
2224                     goto do_unallocated;
2225                 }
2226                 modifier = new_tmp_a64_zero(s);
2227             }
2228             if (s->pauth_active) {
2229                 dst = new_tmp_a64(s);
2230                 if (op3 == 2) {
2231                     gen_helper_autia(dst, cpu_env, cpu_reg(s, rn), modifier);
2232                 } else {
2233                     gen_helper_autib(dst, cpu_env, cpu_reg(s, rn), modifier);
2234                 }
2235             } else {
2236                 dst = cpu_reg(s, rn);
2237             }
2238             break;
2239
2240         default:
2241             goto do_unallocated;
2242         }
2243         gen_a64_set_pc(s, dst);
2244         /* BLR also needs to load return address */
2245         if (opc == 1) {
2246             tcg_gen_movi_i64(cpu_reg(s, 30), s->base.pc_next);
2247         }
2248         break;
2249
2250     case 8: /* BRAA */
2251     case 9: /* BLRAA */
2252         if (!dc_isar_feature(aa64_pauth, s)) {
2253             goto do_unallocated;
2254         }
2255         if ((op3 & ~1) != 2) {
2256             goto do_unallocated;
2257         }
2258         btype_mod = opc & 1;
2259         if (s->pauth_active) {
2260             dst = new_tmp_a64(s);
2261             modifier = cpu_reg_sp(s, op4);
2262             if (op3 == 2) {
2263                 gen_helper_autia(dst, cpu_env, cpu_reg(s, rn), modifier);
2264             } else {
2265                 gen_helper_autib(dst, cpu_env, cpu_reg(s, rn), modifier);
2266             }
2267         } else {
2268             dst = cpu_reg(s, rn);
2269         }
2270         gen_a64_set_pc(s, dst);
2271         /* BLRAA also needs to load return address */
2272         if (opc == 9) {
2273             tcg_gen_movi_i64(cpu_reg(s, 30), s->base.pc_next);
2274         }
2275         break;
2276
2277     case 4: /* ERET */
2278         if (s->current_el == 0) {
2279             goto do_unallocated;
2280         }
2281         switch (op3) {
2282         case 0: /* ERET */
2283             if (op4 != 0) {
2284                 goto do_unallocated;
2285             }
2286             dst = tcg_temp_new_i64();
2287             tcg_gen_ld_i64(dst, cpu_env,
2288                            offsetof(CPUARMState, elr_el[s->current_el]));
2289             break;
2290
2291         case 2: /* ERETAA */
2292         case 3: /* ERETAB */
2293             if (!dc_isar_feature(aa64_pauth, s)) {
2294                 goto do_unallocated;
2295             }
2296             if (rn != 0x1f || op4 != 0x1f) {
2297                 goto do_unallocated;
2298             }
2299             dst = tcg_temp_new_i64();
2300             tcg_gen_ld_i64(dst, cpu_env,
2301                            offsetof(CPUARMState, elr_el[s->current_el]));
2302             if (s->pauth_active) {
2303                 modifier = cpu_X[31];
2304                 if (op3 == 2) {
2305                     gen_helper_autia(dst, cpu_env, dst, modifier);
2306                 } else {
2307                     gen_helper_autib(dst, cpu_env, dst, modifier);
2308                 }
2309             }
2310             break;
2311
2312         default:
2313             goto do_unallocated;
2314         }
2315         if (tb_cflags(s->base.tb) & CF_USE_ICOUNT) {
2316             gen_io_start();
2317         }
2318
2319         gen_helper_exception_return(cpu_env, dst);
2320         tcg_temp_free_i64(dst);
2321         /* Must exit loop to check un-masked IRQs */
2322         s->base.is_jmp = DISAS_EXIT;
2323         return;
2324
2325     case 5: /* DRPS */
2326         if (op3 != 0 || op4 != 0 || rn != 0x1f) {
2327             goto do_unallocated;
2328         } else {
2329             unsupported_encoding(s, insn);
2330         }
2331         return;
2332
2333     default:
2334     do_unallocated:
2335         unallocated_encoding(s);
2336         return;
2337     }
2338
2339     switch (btype_mod) {
2340     case 0: /* BR */
2341         if (dc_isar_feature(aa64_bti, s)) {
2342             /* BR to {x16,x17} or !guard -> 1, else 3.  */
2343             set_btype(s, rn == 16 || rn == 17 || !s->guarded_page ? 1 : 3);
2344         }
2345         break;
2346
2347     case 1: /* BLR */
2348         if (dc_isar_feature(aa64_bti, s)) {
2349             /* BLR sets BTYPE to 2, regardless of source guarded page.  */
2350             set_btype(s, 2);
2351         }
2352         break;
2353
2354     default: /* RET or none of the above.  */
2355         /* BTYPE will be set to 0 by normal end-of-insn processing.  */
2356         break;
2357     }
2358
2359     s->base.is_jmp = DISAS_JUMP;
2360 }
2361
2362 /* Branches, exception generating and system instructions */
2363 static void disas_b_exc_sys(DisasContext *s, uint32_t insn)
2364 {
2365     switch (extract32(insn, 25, 7)) {
2366     case 0x0a: case 0x0b:
2367     case 0x4a: case 0x4b: /* Unconditional branch (immediate) */
2368         disas_uncond_b_imm(s, insn);
2369         break;
2370     case 0x1a: case 0x5a: /* Compare & branch (immediate) */
2371         disas_comp_b_imm(s, insn);
2372         break;
2373     case 0x1b: case 0x5b: /* Test & branch (immediate) */
2374         disas_test_b_imm(s, insn);
2375         break;
2376     case 0x2a: /* Conditional branch (immediate) */
2377         disas_cond_b_imm(s, insn);
2378         break;
2379     case 0x6a: /* Exception generation / System */
2380         if (insn & (1 << 24)) {
2381             if (extract32(insn, 22, 2) == 0) {
2382                 disas_system(s, insn);
2383             } else {
2384                 unallocated_encoding(s);
2385             }
2386         } else {
2387             disas_exc(s, insn);
2388         }
2389         break;
2390     case 0x6b: /* Unconditional branch (register) */
2391         disas_uncond_b_reg(s, insn);
2392         break;
2393     default:
2394         unallocated_encoding(s);
2395         break;
2396     }
2397 }
2398
2399 /*
2400  * Load/Store exclusive instructions are implemented by remembering
2401  * the value/address loaded, and seeing if these are the same
2402  * when the store is performed. This is not actually the architecturally
2403  * mandated semantics, but it works for typical guest code sequences
2404  * and avoids having to monitor regular stores.
2405  *
2406  * The store exclusive uses the atomic cmpxchg primitives to avoid
2407  * races in multi-threaded linux-user and when MTTCG softmmu is
2408  * enabled.
2409  */
2410 static void gen_load_exclusive(DisasContext *s, int rt, int rt2,
2411                                TCGv_i64 addr, int size, bool is_pair)
2412 {
2413     int idx = get_mem_index(s);
2414     MemOp memop = s->be_data;
2415
2416     g_assert(size <= 3);
2417     if (is_pair) {
2418         g_assert(size >= 2);
2419         if (size == 2) {
2420             /* The pair must be single-copy atomic for the doubleword.  */
2421             memop |= MO_64 | MO_ALIGN;
2422             tcg_gen_qemu_ld_i64(cpu_exclusive_val, addr, idx, memop);
2423             if (s->be_data == MO_LE) {
2424                 tcg_gen_extract_i64(cpu_reg(s, rt), cpu_exclusive_val, 0, 32);
2425                 tcg_gen_extract_i64(cpu_reg(s, rt2), cpu_exclusive_val, 32, 32);
2426             } else {
2427                 tcg_gen_extract_i64(cpu_reg(s, rt), cpu_exclusive_val, 32, 32);
2428                 tcg_gen_extract_i64(cpu_reg(s, rt2), cpu_exclusive_val, 0, 32);
2429             }
2430         } else {
2431             /* The pair must be single-copy atomic for *each* doubleword, not
2432                the entire quadword, however it must be quadword aligned.  */
2433             memop |= MO_64;
2434             tcg_gen_qemu_ld_i64(cpu_exclusive_val, addr, idx,
2435                                 memop | MO_ALIGN_16);
2436
2437             TCGv_i64 addr2 = tcg_temp_new_i64();
2438             tcg_gen_addi_i64(addr2, addr, 8);
2439             tcg_gen_qemu_ld_i64(cpu_exclusive_high, addr2, idx, memop);
2440             tcg_temp_free_i64(addr2);
2441
2442             tcg_gen_mov_i64(cpu_reg(s, rt), cpu_exclusive_val);
2443             tcg_gen_mov_i64(cpu_reg(s, rt2), cpu_exclusive_high);
2444         }
2445     } else {
2446         memop |= size | MO_ALIGN;
2447         tcg_gen_qemu_ld_i64(cpu_exclusive_val, addr, idx, memop);
2448         tcg_gen_mov_i64(cpu_reg(s, rt), cpu_exclusive_val);
2449     }
2450     tcg_gen_mov_i64(cpu_exclusive_addr, addr);
2451 }
2452
2453 static void gen_store_exclusive(DisasContext *s, int rd, int rt, int rt2,
2454                                 TCGv_i64 addr, int size, int is_pair)
2455 {
2456     /* if (env->exclusive_addr == addr && env->exclusive_val == [addr]
2457      *     && (!is_pair || env->exclusive_high == [addr + datasize])) {
2458      *     [addr] = {Rt};
2459      *     if (is_pair) {
2460      *         [addr + datasize] = {Rt2};
2461      *     }
2462      *     {Rd} = 0;
2463      * } else {
2464      *     {Rd} = 1;
2465      * }
2466      * env->exclusive_addr = -1;
2467      */
2468     TCGLabel *fail_label = gen_new_label();
2469     TCGLabel *done_label = gen_new_label();
2470     TCGv_i64 tmp;
2471
2472     tcg_gen_brcond_i64(TCG_COND_NE, addr, cpu_exclusive_addr, fail_label);
2473
2474     tmp = tcg_temp_new_i64();
2475     if (is_pair) {
2476         if (size == 2) {
2477             if (s->be_data == MO_LE) {
2478                 tcg_gen_concat32_i64(tmp, cpu_reg(s, rt), cpu_reg(s, rt2));
2479             } else {
2480                 tcg_gen_concat32_i64(tmp, cpu_reg(s, rt2), cpu_reg(s, rt));
2481             }
2482             tcg_gen_atomic_cmpxchg_i64(tmp, cpu_exclusive_addr,
2483                                        cpu_exclusive_val, tmp,
2484                                        get_mem_index(s),
2485                                        MO_64 | MO_ALIGN | s->be_data);
2486             tcg_gen_setcond_i64(TCG_COND_NE, tmp, tmp, cpu_exclusive_val);
2487         } else if (tb_cflags(s->base.tb) & CF_PARALLEL) {
2488             if (!HAVE_CMPXCHG128) {
2489                 gen_helper_exit_atomic(cpu_env);
2490                 s->base.is_jmp = DISAS_NORETURN;
2491             } else if (s->be_data == MO_LE) {
2492                 gen_helper_paired_cmpxchg64_le_parallel(tmp, cpu_env,
2493                                                         cpu_exclusive_addr,
2494                                                         cpu_reg(s, rt),
2495                                                         cpu_reg(s, rt2));
2496             } else {
2497                 gen_helper_paired_cmpxchg64_be_parallel(tmp, cpu_env,
2498                                                         cpu_exclusive_addr,
2499                                                         cpu_reg(s, rt),
2500                                                         cpu_reg(s, rt2));
2501             }
2502         } else if (s->be_data == MO_LE) {
2503             gen_helper_paired_cmpxchg64_le(tmp, cpu_env, cpu_exclusive_addr,
2504                                            cpu_reg(s, rt), cpu_reg(s, rt2));
2505         } else {
2506             gen_helper_paired_cmpxchg64_be(tmp, cpu_env, cpu_exclusive_addr,
2507                                            cpu_reg(s, rt), cpu_reg(s, rt2));
2508         }
2509     } else {
2510         tcg_gen_atomic_cmpxchg_i64(tmp, cpu_exclusive_addr, cpu_exclusive_val,
2511                                    cpu_reg(s, rt), get_mem_index(s),
2512                                    size | MO_ALIGN | s->be_data);
2513         tcg_gen_setcond_i64(TCG_COND_NE, tmp, tmp, cpu_exclusive_val);
2514     }
2515     tcg_gen_mov_i64(cpu_reg(s, rd), tmp);
2516     tcg_temp_free_i64(tmp);
2517     tcg_gen_br(done_label);
2518
2519     gen_set_label(fail_label);
2520     tcg_gen_movi_i64(cpu_reg(s, rd), 1);
2521     gen_set_label(done_label);
2522     tcg_gen_movi_i64(cpu_exclusive_addr, -1);
2523 }
2524
2525 static void gen_compare_and_swap(DisasContext *s, int rs, int rt,
2526                                  int rn, int size)
2527 {
2528     TCGv_i64 tcg_rs = cpu_reg(s, rs);
2529     TCGv_i64 tcg_rt = cpu_reg(s, rt);
2530     int memidx = get_mem_index(s);
2531     TCGv_i64 clean_addr;
2532
2533     if (rn == 31) {
2534         gen_check_sp_alignment(s);
2535     }
2536     clean_addr = gen_mte_check1(s, cpu_reg_sp(s, rn), true, rn != 31, size);
2537     tcg_gen_atomic_cmpxchg_i64(tcg_rs, clean_addr, tcg_rs, tcg_rt, memidx,
2538                                size | MO_ALIGN | s->be_data);
2539 }
2540
2541 static void gen_compare_and_swap_pair(DisasContext *s, int rs, int rt,
2542                                       int rn, int size)
2543 {
2544     TCGv_i64 s1 = cpu_reg(s, rs);
2545     TCGv_i64 s2 = cpu_reg(s, rs + 1);
2546     TCGv_i64 t1 = cpu_reg(s, rt);
2547     TCGv_i64 t2 = cpu_reg(s, rt + 1);
2548     TCGv_i64 clean_addr;
2549     int memidx = get_mem_index(s);
2550
2551     if (rn == 31) {
2552         gen_check_sp_alignment(s);
2553     }
2554
2555     /* This is a single atomic access, despite the "pair". */
2556     clean_addr = gen_mte_check1(s, cpu_reg_sp(s, rn), true, rn != 31, size + 1);
2557
2558     if (size == 2) {
2559         TCGv_i64 cmp = tcg_temp_new_i64();
2560         TCGv_i64 val = tcg_temp_new_i64();
2561
2562         if (s->be_data == MO_LE) {
2563             tcg_gen_concat32_i64(val, t1, t2);
2564             tcg_gen_concat32_i64(cmp, s1, s2);
2565         } else {
2566             tcg_gen_concat32_i64(val, t2, t1);
2567             tcg_gen_concat32_i64(cmp, s2, s1);
2568         }
2569
2570         tcg_gen_atomic_cmpxchg_i64(cmp, clean_addr, cmp, val, memidx,
2571                                    MO_64 | MO_ALIGN | s->be_data);
2572         tcg_temp_free_i64(val);
2573
2574         if (s->be_data == MO_LE) {
2575             tcg_gen_extr32_i64(s1, s2, cmp);
2576         } else {
2577             tcg_gen_extr32_i64(s2, s1, cmp);
2578         }
2579         tcg_temp_free_i64(cmp);
2580     } else if (tb_cflags(s->base.tb) & CF_PARALLEL) {
2581         if (HAVE_CMPXCHG128) {
2582             TCGv_i32 tcg_rs = tcg_const_i32(rs);
2583             if (s->be_data == MO_LE) {
2584                 gen_helper_casp_le_parallel(cpu_env, tcg_rs,
2585                                             clean_addr, t1, t2);
2586             } else {
2587                 gen_helper_casp_be_parallel(cpu_env, tcg_rs,
2588                                             clean_addr, t1, t2);
2589             }
2590             tcg_temp_free_i32(tcg_rs);
2591         } else {
2592             gen_helper_exit_atomic(cpu_env);
2593             s->base.is_jmp = DISAS_NORETURN;
2594         }
2595     } else {
2596         TCGv_i64 d1 = tcg_temp_new_i64();
2597         TCGv_i64 d2 = tcg_temp_new_i64();
2598         TCGv_i64 a2 = tcg_temp_new_i64();
2599         TCGv_i64 c1 = tcg_temp_new_i64();
2600         TCGv_i64 c2 = tcg_temp_new_i64();
2601         TCGv_i64 zero = tcg_const_i64(0);
2602
2603         /* Load the two words, in memory order.  */
2604         tcg_gen_qemu_ld_i64(d1, clean_addr, memidx,
2605                             MO_64 | MO_ALIGN_16 | s->be_data);
2606         tcg_gen_addi_i64(a2, clean_addr, 8);
2607         tcg_gen_qemu_ld_i64(d2, a2, memidx, MO_64 | s->be_data);
2608
2609         /* Compare the two words, also in memory order.  */
2610         tcg_gen_setcond_i64(TCG_COND_EQ, c1, d1, s1);
2611         tcg_gen_setcond_i64(TCG_COND_EQ, c2, d2, s2);
2612         tcg_gen_and_i64(c2, c2, c1);
2613
2614         /* If compare equal, write back new data, else write back old data.  */
2615         tcg_gen_movcond_i64(TCG_COND_NE, c1, c2, zero, t1, d1);
2616         tcg_gen_movcond_i64(TCG_COND_NE, c2, c2, zero, t2, d2);
2617         tcg_gen_qemu_st_i64(c1, clean_addr, memidx, MO_64 | s->be_data);
2618         tcg_gen_qemu_st_i64(c2, a2, memidx, MO_64 | s->be_data);
2619         tcg_temp_free_i64(a2);
2620         tcg_temp_free_i64(c1);
2621         tcg_temp_free_i64(c2);
2622         tcg_temp_free_i64(zero);
2623
2624         /* Write back the data from memory to Rs.  */
2625         tcg_gen_mov_i64(s1, d1);
2626         tcg_gen_mov_i64(s2, d2);
2627         tcg_temp_free_i64(d1);
2628         tcg_temp_free_i64(d2);
2629     }
2630 }
2631
2632 /* Update the Sixty-Four bit (SF) registersize. This logic is derived
2633  * from the ARMv8 specs for LDR (Shared decode for all encodings).
2634  */
2635 static bool disas_ldst_compute_iss_sf(int size, bool is_signed, int opc)
2636 {
2637     int opc0 = extract32(opc, 0, 1);
2638     int regsize;
2639
2640     if (is_signed) {
2641         regsize = opc0 ? 32 : 64;
2642     } else {
2643         regsize = size == 3 ? 64 : 32;
2644     }
2645     return regsize == 64;
2646 }
2647
2648 /* Load/store exclusive
2649  *
2650  *  31 30 29         24  23  22   21  20  16  15  14   10 9    5 4    0
2651  * +-----+-------------+----+---+----+------+----+-------+------+------+
2652  * | sz  | 0 0 1 0 0 0 | o2 | L | o1 |  Rs  | o0 |  Rt2  |  Rn  | Rt   |
2653  * +-----+-------------+----+---+----+------+----+-------+------+------+
2654  *
2655  *  sz: 00 -> 8 bit, 01 -> 16 bit, 10 -> 32 bit, 11 -> 64 bit
2656  *   L: 0 -> store, 1 -> load
2657  *  o2: 0 -> exclusive, 1 -> not
2658  *  o1: 0 -> single register, 1 -> register pair
2659  *  o0: 1 -> load-acquire/store-release, 0 -> not
2660  */
2661 static void disas_ldst_excl(DisasContext *s, uint32_t insn)
2662 {
2663     int rt = extract32(insn, 0, 5);
2664     int rn = extract32(insn, 5, 5);
2665     int rt2 = extract32(insn, 10, 5);
2666     int rs = extract32(insn, 16, 5);
2667     int is_lasr = extract32(insn, 15, 1);
2668     int o2_L_o1_o0 = extract32(insn, 21, 3) * 2 | is_lasr;
2669     int size = extract32(insn, 30, 2);
2670     TCGv_i64 clean_addr;
2671
2672     switch (o2_L_o1_o0) {
2673     case 0x0: /* STXR */
2674     case 0x1: /* STLXR */
2675         if (rn == 31) {
2676             gen_check_sp_alignment(s);
2677         }
2678         if (is_lasr) {
2679             tcg_gen_mb(TCG_MO_ALL | TCG_BAR_STRL);
2680         }
2681         clean_addr = gen_mte_check1(s, cpu_reg_sp(s, rn),
2682                                     true, rn != 31, size);
2683         gen_store_exclusive(s, rs, rt, rt2, clean_addr, size, false);
2684         return;
2685
2686     case 0x4: /* LDXR */
2687     case 0x5: /* LDAXR */
2688         if (rn == 31) {
2689             gen_check_sp_alignment(s);
2690         }
2691         clean_addr = gen_mte_check1(s, cpu_reg_sp(s, rn),
2692                                     false, rn != 31, size);
2693         s->is_ldex = true;
2694         gen_load_exclusive(s, rt, rt2, clean_addr, size, false);
2695         if (is_lasr) {
2696             tcg_gen_mb(TCG_MO_ALL | TCG_BAR_LDAQ);
2697         }
2698         return;
2699
2700     case 0x8: /* STLLR */
2701         if (!dc_isar_feature(aa64_lor, s)) {
2702             break;
2703         }
2704         /* StoreLORelease is the same as Store-Release for QEMU.  */
2705         /* fall through */
2706     case 0x9: /* STLR */
2707         /* Generate ISS for non-exclusive accesses including LASR.  */
2708         if (rn == 31) {
2709             gen_check_sp_alignment(s);
2710         }
2711         tcg_gen_mb(TCG_MO_ALL | TCG_BAR_STRL);
2712         clean_addr = gen_mte_check1(s, cpu_reg_sp(s, rn),
2713                                     true, rn != 31, size);
2714         /* TODO: ARMv8.4-LSE SCTLR.nAA */
2715         do_gpr_st(s, cpu_reg(s, rt), clean_addr, size | MO_ALIGN, true, rt,
2716                   disas_ldst_compute_iss_sf(size, false, 0), is_lasr);
2717         return;
2718
2719     case 0xc: /* LDLAR */
2720         if (!dc_isar_feature(aa64_lor, s)) {
2721             break;
2722         }
2723         /* LoadLOAcquire is the same as Load-Acquire for QEMU.  */
2724         /* fall through */
2725     case 0xd: /* LDAR */
2726         /* Generate ISS for non-exclusive accesses including LASR.  */
2727         if (rn == 31) {
2728             gen_check_sp_alignment(s);
2729         }
2730         clean_addr = gen_mte_check1(s, cpu_reg_sp(s, rn),
2731                                     false, rn != 31, size);
2732         /* TODO: ARMv8.4-LSE SCTLR.nAA */
2733         do_gpr_ld(s, cpu_reg(s, rt), clean_addr, size | MO_ALIGN, false, true,
2734                   rt, disas_ldst_compute_iss_sf(size, false, 0), is_lasr);
2735         tcg_gen_mb(TCG_MO_ALL | TCG_BAR_LDAQ);
2736         return;
2737
2738     case 0x2: case 0x3: /* CASP / STXP */
2739         if (size & 2) { /* STXP / STLXP */
2740             if (rn == 31) {
2741                 gen_check_sp_alignment(s);
2742             }
2743             if (is_lasr) {
2744                 tcg_gen_mb(TCG_MO_ALL | TCG_BAR_STRL);
2745             }
2746             clean_addr = gen_mte_check1(s, cpu_reg_sp(s, rn),
2747                                         true, rn != 31, size);
2748             gen_store_exclusive(s, rs, rt, rt2, clean_addr, size, true);
2749             return;
2750         }
2751         if (rt2 == 31
2752             && ((rt | rs) & 1) == 0
2753             && dc_isar_feature(aa64_atomics, s)) {
2754             /* CASP / CASPL */
2755             gen_compare_and_swap_pair(s, rs, rt, rn, size | 2);
2756             return;
2757         }
2758         break;
2759
2760     case 0x6: case 0x7: /* CASPA / LDXP */
2761         if (size & 2) { /* LDXP / LDAXP */
2762             if (rn == 31) {
2763                 gen_check_sp_alignment(s);
2764             }
2765             clean_addr = gen_mte_check1(s, cpu_reg_sp(s, rn),
2766                                         false, rn != 31, size);
2767             s->is_ldex = true;
2768             gen_load_exclusive(s, rt, rt2, clean_addr, size, true);
2769             if (is_lasr) {
2770                 tcg_gen_mb(TCG_MO_ALL | TCG_BAR_LDAQ);
2771             }
2772             return;
2773         }
2774         if (rt2 == 31
2775             && ((rt | rs) & 1) == 0
2776             && dc_isar_feature(aa64_atomics, s)) {
2777             /* CASPA / CASPAL */
2778             gen_compare_and_swap_pair(s, rs, rt, rn, size | 2);
2779             return;
2780         }
2781         break;
2782
2783     case 0xa: /* CAS */
2784     case 0xb: /* CASL */
2785     case 0xe: /* CASA */
2786     case 0xf: /* CASAL */
2787         if (rt2 == 31 && dc_isar_feature(aa64_atomics, s)) {
2788             gen_compare_and_swap(s, rs, rt, rn, size);
2789             return;
2790         }
2791         break;
2792     }
2793     unallocated_encoding(s);
2794 }
2795
2796 /*
2797  * Load register (literal)
2798  *
2799  *  31 30 29   27  26 25 24 23                5 4     0
2800  * +-----+-------+---+-----+-------------------+-------+
2801  * | opc | 0 1 1 | V | 0 0 |     imm19         |  Rt   |
2802  * +-----+-------+---+-----+-------------------+-------+
2803  *
2804  * V: 1 -> vector (simd/fp)
2805  * opc (non-vector): 00 -> 32 bit, 01 -> 64 bit,
2806  *                   10-> 32 bit signed, 11 -> prefetch
2807  * opc (vector): 00 -> 32 bit, 01 -> 64 bit, 10 -> 128 bit (11 unallocated)
2808  */
2809 static void disas_ld_lit(DisasContext *s, uint32_t insn)
2810 {
2811     int rt = extract32(insn, 0, 5);
2812     int64_t imm = sextract32(insn, 5, 19) << 2;
2813     bool is_vector = extract32(insn, 26, 1);
2814     int opc = extract32(insn, 30, 2);
2815     bool is_signed = false;
2816     int size = 2;
2817     TCGv_i64 tcg_rt, clean_addr;
2818
2819     if (is_vector) {
2820         if (opc == 3) {
2821             unallocated_encoding(s);
2822             return;
2823         }
2824         size = 2 + opc;
2825         if (!fp_access_check(s)) {
2826             return;
2827         }
2828     } else {
2829         if (opc == 3) {
2830             /* PRFM (literal) : prefetch */
2831             return;
2832         }
2833         size = 2 + extract32(opc, 0, 1);
2834         is_signed = extract32(opc, 1, 1);
2835     }
2836
2837     tcg_rt = cpu_reg(s, rt);
2838
2839     clean_addr = tcg_const_i64(s->pc_curr + imm);
2840     if (is_vector) {
2841         do_fp_ld(s, rt, clean_addr, size);
2842     } else {
2843         /* Only unsigned 32bit loads target 32bit registers.  */
2844         bool iss_sf = opc != 0;
2845
2846         do_gpr_ld(s, tcg_rt, clean_addr, size + is_signed * MO_SIGN,
2847                   false, true, rt, iss_sf, false);
2848     }
2849     tcg_temp_free_i64(clean_addr);
2850 }
2851
2852 /*
2853  * LDNP (Load Pair - non-temporal hint)
2854  * LDP (Load Pair - non vector)
2855  * LDPSW (Load Pair Signed Word - non vector)
2856  * STNP (Store Pair - non-temporal hint)
2857  * STP (Store Pair - non vector)
2858  * LDNP (Load Pair of SIMD&FP - non-temporal hint)
2859  * LDP (Load Pair of SIMD&FP)
2860  * STNP (Store Pair of SIMD&FP - non-temporal hint)
2861  * STP (Store Pair of SIMD&FP)
2862  *
2863  *  31 30 29   27  26  25 24   23  22 21   15 14   10 9    5 4    0
2864  * +-----+-------+---+---+-------+---+-----------------------------+
2865  * | opc | 1 0 1 | V | 0 | index | L |  imm7 |  Rt2  |  Rn  | Rt   |
2866  * +-----+-------+---+---+-------+---+-------+-------+------+------+
2867  *
2868  * opc: LDP/STP/LDNP/STNP        00 -> 32 bit, 10 -> 64 bit
2869  *      LDPSW/STGP               01
2870  *      LDP/STP/LDNP/STNP (SIMD) 00 -> 32 bit, 01 -> 64 bit, 10 -> 128 bit
2871  *   V: 0 -> GPR, 1 -> Vector
2872  * idx: 00 -> signed offset with non-temporal hint, 01 -> post-index,
2873  *      10 -> signed offset, 11 -> pre-index
2874  *   L: 0 -> Store 1 -> Load
2875  *
2876  * Rt, Rt2 = GPR or SIMD registers to be stored
2877  * Rn = general purpose register containing address
2878  * imm7 = signed offset (multiple of 4 or 8 depending on size)
2879  */
2880 static void disas_ldst_pair(DisasContext *s, uint32_t insn)
2881 {
2882     int rt = extract32(insn, 0, 5);
2883     int rn = extract32(insn, 5, 5);
2884     int rt2 = extract32(insn, 10, 5);
2885     uint64_t offset = sextract64(insn, 15, 7);
2886     int index = extract32(insn, 23, 2);
2887     bool is_vector = extract32(insn, 26, 1);
2888     bool is_load = extract32(insn, 22, 1);
2889     int opc = extract32(insn, 30, 2);
2890
2891     bool is_signed = false;
2892     bool postindex = false;
2893     bool wback = false;
2894     bool set_tag = false;
2895
2896     TCGv_i64 clean_addr, dirty_addr;
2897
2898     int size;
2899
2900     if (opc == 3) {
2901         unallocated_encoding(s);
2902         return;
2903     }
2904
2905     if (is_vector) {
2906         size = 2 + opc;
2907     } else if (opc == 1 && !is_load) {
2908         /* STGP */
2909         if (!dc_isar_feature(aa64_mte_insn_reg, s) || index == 0) {
2910             unallocated_encoding(s);
2911             return;
2912         }
2913         size = 3;
2914         set_tag = true;
2915     } else {
2916         size = 2 + extract32(opc, 1, 1);
2917         is_signed = extract32(opc, 0, 1);
2918         if (!is_load && is_signed) {
2919             unallocated_encoding(s);
2920             return;
2921         }
2922     }
2923
2924     switch (index) {
2925     case 1: /* post-index */
2926         postindex = true;
2927         wback = true;
2928         break;
2929     case 0:
2930         /* signed offset with "non-temporal" hint. Since we don't emulate
2931          * caches we don't care about hints to the cache system about
2932          * data access patterns, and handle this identically to plain
2933          * signed offset.
2934          */
2935         if (is_signed) {
2936             /* There is no non-temporal-hint version of LDPSW */
2937             unallocated_encoding(s);
2938             return;
2939         }
2940         postindex = false;
2941         break;
2942     case 2: /* signed offset, rn not updated */
2943         postindex = false;
2944         break;
2945     case 3: /* pre-index */
2946         postindex = false;
2947         wback = true;
2948         break;
2949     }
2950
2951     if (is_vector && !fp_access_check(s)) {
2952         return;
2953     }
2954
2955     offset <<= (set_tag ? LOG2_TAG_GRANULE : size);
2956
2957     if (rn == 31) {
2958         gen_check_sp_alignment(s);
2959     }
2960
2961     dirty_addr = read_cpu_reg_sp(s, rn, 1);
2962     if (!postindex) {
2963         tcg_gen_addi_i64(dirty_addr, dirty_addr, offset);
2964     }
2965
2966     if (set_tag) {
2967         if (!s->ata) {
2968             /*
2969              * TODO: We could rely on the stores below, at least for
2970              * system mode, if we arrange to add MO_ALIGN_16.
2971              */
2972             gen_helper_stg_stub(cpu_env, dirty_addr);
2973         } else if (tb_cflags(s->base.tb) & CF_PARALLEL) {
2974             gen_helper_stg_parallel(cpu_env, dirty_addr, dirty_addr);
2975         } else {
2976             gen_helper_stg(cpu_env, dirty_addr, dirty_addr);
2977         }
2978     }
2979
2980     clean_addr = gen_mte_checkN(s, dirty_addr, !is_load,
2981                                 (wback || rn != 31) && !set_tag, 2 << size);
2982
2983     if (is_vector) {
2984         if (is_load) {
2985             do_fp_ld(s, rt, clean_addr, size);
2986         } else {
2987             do_fp_st(s, rt, clean_addr, size);
2988         }
2989         tcg_gen_addi_i64(clean_addr, clean_addr, 1 << size);
2990         if (is_load) {
2991             do_fp_ld(s, rt2, clean_addr, size);
2992         } else {
2993             do_fp_st(s, rt2, clean_addr, size);
2994         }
2995     } else {
2996         TCGv_i64 tcg_rt = cpu_reg(s, rt);
2997         TCGv_i64 tcg_rt2 = cpu_reg(s, rt2);
2998
2999         if (is_load) {
3000             TCGv_i64 tmp = tcg_temp_new_i64();
3001
3002             /* Do not modify tcg_rt before recognizing any exception
3003              * from the second load.
3004              */
3005             do_gpr_ld(s, tmp, clean_addr, size + is_signed * MO_SIGN,
3006                       false, false, 0, false, false);
3007             tcg_gen_addi_i64(clean_addr, clean_addr, 1 << size);
3008             do_gpr_ld(s, tcg_rt2, clean_addr, size + is_signed * MO_SIGN,
3009                       false, false, 0, false, false);
3010
3011             tcg_gen_mov_i64(tcg_rt, tmp);
3012             tcg_temp_free_i64(tmp);
3013         } else {
3014             do_gpr_st(s, tcg_rt, clean_addr, size,
3015                       false, 0, false, false);
3016             tcg_gen_addi_i64(clean_addr, clean_addr, 1 << size);
3017             do_gpr_st(s, tcg_rt2, clean_addr, size,
3018                       false, 0, false, false);
3019         }
3020     }
3021
3022     if (wback) {
3023         if (postindex) {
3024             tcg_gen_addi_i64(dirty_addr, dirty_addr, offset);
3025         }
3026         tcg_gen_mov_i64(cpu_reg_sp(s, rn), dirty_addr);
3027     }
3028 }
3029
3030 /*
3031  * Load/store (immediate post-indexed)
3032  * Load/store (immediate pre-indexed)
3033  * Load/store (unscaled immediate)
3034  *
3035  * 31 30 29   27  26 25 24 23 22 21  20    12 11 10 9    5 4    0
3036  * +----+-------+---+-----+-----+---+--------+-----+------+------+
3037  * |size| 1 1 1 | V | 0 0 | opc | 0 |  imm9  | idx |  Rn  |  Rt  |
3038  * +----+-------+---+-----+-----+---+--------+-----+------+------+
3039  *
3040  * idx = 01 -> post-indexed, 11 pre-indexed, 00 unscaled imm. (no writeback)
3041          10 -> unprivileged
3042  * V = 0 -> non-vector
3043  * size: 00 -> 8 bit, 01 -> 16 bit, 10 -> 32 bit, 11 -> 64bit
3044  * opc: 00 -> store, 01 -> loadu, 10 -> loads 64, 11 -> loads 32
3045  */
3046 static void disas_ldst_reg_imm9(DisasContext *s, uint32_t insn,
3047                                 int opc,
3048                                 int size,
3049                                 int rt,
3050                                 bool is_vector)
3051 {
3052     int rn = extract32(insn, 5, 5);
3053     int imm9 = sextract32(insn, 12, 9);
3054     int idx = extract32(insn, 10, 2);
3055     bool is_signed = false;
3056     bool is_store = false;
3057     bool is_extended = false;
3058     bool is_unpriv = (idx == 2);
3059     bool iss_valid = !is_vector;
3060     bool post_index;
3061     bool writeback;
3062     int memidx;
3063
3064     TCGv_i64 clean_addr, dirty_addr;
3065
3066     if (is_vector) {
3067         size |= (opc & 2) << 1;
3068         if (size > 4 || is_unpriv) {
3069             unallocated_encoding(s);
3070             return;
3071         }
3072         is_store = ((opc & 1) == 0);
3073         if (!fp_access_check(s)) {
3074             return;
3075         }
3076     } else {
3077         if (size == 3 && opc == 2) {
3078             /* PRFM - prefetch */
3079             if (idx != 0) {
3080                 unallocated_encoding(s);
3081                 return;
3082             }
3083             return;
3084         }
3085         if (opc == 3 && size > 1) {
3086             unallocated_encoding(s);
3087             return;
3088         }
3089         is_store = (opc == 0);
3090         is_signed = extract32(opc, 1, 1);
3091         is_extended = (size < 3) && extract32(opc, 0, 1);
3092     }
3093
3094     switch (idx) {
3095     case 0:
3096     case 2:
3097         post_index = false;
3098         writeback = false;
3099         break;
3100     case 1:
3101         post_index = true;
3102         writeback = true;
3103         break;
3104     case 3:
3105         post_index = false;
3106         writeback = true;
3107         break;
3108     default:
3109         g_assert_not_reached();
3110     }
3111
3112     if (rn == 31) {
3113         gen_check_sp_alignment(s);
3114     }
3115
3116     dirty_addr = read_cpu_reg_sp(s, rn, 1);
3117     if (!post_index) {
3118         tcg_gen_addi_i64(dirty_addr, dirty_addr, imm9);
3119     }
3120
3121     memidx = is_unpriv ? get_a64_user_mem_index(s) : get_mem_index(s);
3122     clean_addr = gen_mte_check1_mmuidx(s, dirty_addr, is_store,
3123                                        writeback || rn != 31,
3124                                        size, is_unpriv, memidx);
3125
3126     if (is_vector) {
3127         if (is_store) {
3128             do_fp_st(s, rt, clean_addr, size);
3129         } else {
3130             do_fp_ld(s, rt, clean_addr, size);
3131         }
3132     } else {
3133         TCGv_i64 tcg_rt = cpu_reg(s, rt);
3134         bool iss_sf = disas_ldst_compute_iss_sf(size, is_signed, opc);
3135
3136         if (is_store) {
3137             do_gpr_st_memidx(s, tcg_rt, clean_addr, size, memidx,
3138                              iss_valid, rt, iss_sf, false);
3139         } else {
3140             do_gpr_ld_memidx(s, tcg_rt, clean_addr, size + is_signed * MO_SIGN,
3141                              is_extended, memidx,
3142                              iss_valid, rt, iss_sf, false);
3143         }
3144     }
3145
3146     if (writeback) {
3147         TCGv_i64 tcg_rn = cpu_reg_sp(s, rn);
3148         if (post_index) {
3149             tcg_gen_addi_i64(dirty_addr, dirty_addr, imm9);
3150         }
3151         tcg_gen_mov_i64(tcg_rn, dirty_addr);
3152     }
3153 }
3154
3155 /*
3156  * Load/store (register offset)
3157  *
3158  * 31 30 29   27  26 25 24 23 22 21  20  16 15 13 12 11 10 9  5 4  0
3159  * +----+-------+---+-----+-----+---+------+-----+--+-----+----+----+
3160  * |size| 1 1 1 | V | 0 0 | opc | 1 |  Rm  | opt | S| 1 0 | Rn | Rt |
3161  * +----+-------+---+-----+-----+---+------+-----+--+-----+----+----+
3162  *
3163  * For non-vector:
3164  *   size: 00-> byte, 01 -> 16 bit, 10 -> 32bit, 11 -> 64bit
3165  *   opc: 00 -> store, 01 -> loadu, 10 -> loads 64, 11 -> loads 32
3166  * For vector:
3167  *   size is opc<1>:size<1:0> so 100 -> 128 bit; 110 and 111 unallocated
3168  *   opc<0>: 0 -> store, 1 -> load
3169  * V: 1 -> vector/simd
3170  * opt: extend encoding (see DecodeRegExtend)
3171  * S: if S=1 then scale (essentially index by sizeof(size))
3172  * Rt: register to transfer into/out of
3173  * Rn: address register or SP for base
3174  * Rm: offset register or ZR for offset
3175  */
3176 static void disas_ldst_reg_roffset(DisasContext *s, uint32_t insn,
3177                                    int opc,
3178                                    int size,
3179                                    int rt,
3180                                    bool is_vector)
3181 {
3182     int rn = extract32(insn, 5, 5);
3183     int shift = extract32(insn, 12, 1);
3184     int rm = extract32(insn, 16, 5);
3185     int opt = extract32(insn, 13, 3);
3186     bool is_signed = false;
3187     bool is_store = false;
3188     bool is_extended = false;
3189
3190     TCGv_i64 tcg_rm, clean_addr, dirty_addr;
3191
3192     if (extract32(opt, 1, 1) == 0) {
3193         unallocated_encoding(s);
3194         return;
3195     }
3196
3197     if (is_vector) {
3198         size |= (opc & 2) << 1;
3199         if (size > 4) {
3200             unallocated_encoding(s);
3201             return;
3202         }
3203         is_store = !extract32(opc, 0, 1);
3204         if (!fp_access_check(s)) {
3205             return;
3206         }
3207     } else {
3208         if (size == 3 && opc == 2) {
3209             /* PRFM - prefetch */
3210             return;
3211         }
3212         if (opc == 3 && size > 1) {
3213             unallocated_encoding(s);
3214             return;
3215         }
3216         is_store = (opc == 0);
3217         is_signed = extract32(opc, 1, 1);
3218         is_extended = (size < 3) && extract32(opc, 0, 1);
3219     }
3220
3221     if (rn == 31) {
3222         gen_check_sp_alignment(s);
3223     }
3224     dirty_addr = read_cpu_reg_sp(s, rn, 1);
3225
3226     tcg_rm = read_cpu_reg(s, rm, 1);
3227     ext_and_shift_reg(tcg_rm, tcg_rm, opt, shift ? size : 0);
3228
3229     tcg_gen_add_i64(dirty_addr, dirty_addr, tcg_rm);
3230     clean_addr = gen_mte_check1(s, dirty_addr, is_store, true, size);
3231
3232     if (is_vector) {
3233         if (is_store) {
3234             do_fp_st(s, rt, clean_addr, size);
3235         } else {
3236             do_fp_ld(s, rt, clean_addr, size);
3237         }
3238     } else {
3239         TCGv_i64 tcg_rt = cpu_reg(s, rt);
3240         bool iss_sf = disas_ldst_compute_iss_sf(size, is_signed, opc);
3241         if (is_store) {
3242             do_gpr_st(s, tcg_rt, clean_addr, size,
3243                       true, rt, iss_sf, false);
3244         } else {
3245             do_gpr_ld(s, tcg_rt, clean_addr, size + is_signed * MO_SIGN,
3246                       is_extended, true, rt, iss_sf, false);
3247         }
3248     }
3249 }
3250
3251 /*
3252  * Load/store (unsigned immediate)
3253  *
3254  * 31 30 29   27  26 25 24 23 22 21        10 9     5
3255  * +----+-------+---+-----+-----+------------+-------+------+
3256  * |size| 1 1 1 | V | 0 1 | opc |   imm12    |  Rn   |  Rt  |
3257  * +----+-------+---+-----+-----+------------+-------+------+
3258  *
3259  * For non-vector:
3260  *   size: 00-> byte, 01 -> 16 bit, 10 -> 32bit, 11 -> 64bit
3261  *   opc: 00 -> store, 01 -> loadu, 10 -> loads 64, 11 -> loads 32
3262  * For vector:
3263  *   size is opc<1>:size<1:0> so 100 -> 128 bit; 110 and 111 unallocated
3264  *   opc<0>: 0 -> store, 1 -> load
3265  * Rn: base address register (inc SP)
3266  * Rt: target register
3267  */
3268 static void disas_ldst_reg_unsigned_imm(DisasContext *s, uint32_t insn,
3269                                         int opc,
3270                                         int size,
3271                                         int rt,
3272                                         bool is_vector)
3273 {
3274     int rn = extract32(insn, 5, 5);
3275     unsigned int imm12 = extract32(insn, 10, 12);
3276     unsigned int offset;
3277
3278     TCGv_i64 clean_addr, dirty_addr;
3279
3280     bool is_store;
3281     bool is_signed = false;
3282     bool is_extended = false;
3283
3284     if (is_vector) {
3285         size |= (opc & 2) << 1;
3286         if (size > 4) {
3287             unallocated_encoding(s);
3288             return;
3289         }
3290         is_store = !extract32(opc, 0, 1);
3291         if (!fp_access_check(s)) {
3292             return;
3293         }
3294     } else {
3295         if (size == 3 && opc == 2) {
3296             /* PRFM - prefetch */
3297             return;
3298         }
3299         if (opc == 3 && size > 1) {
3300             unallocated_encoding(s);
3301             return;
3302         }
3303         is_store = (opc == 0);
3304         is_signed = extract32(opc, 1, 1);
3305         is_extended = (size < 3) && extract32(opc, 0, 1);
3306     }
3307
3308     if (rn == 31) {
3309         gen_check_sp_alignment(s);
3310     }
3311     dirty_addr = read_cpu_reg_sp(s, rn, 1);
3312     offset = imm12 << size;
3313     tcg_gen_addi_i64(dirty_addr, dirty_addr, offset);
3314     clean_addr = gen_mte_check1(s, dirty_addr, is_store, rn != 31, size);
3315
3316     if (is_vector) {
3317         if (is_store) {
3318             do_fp_st(s, rt, clean_addr, size);
3319         } else {
3320             do_fp_ld(s, rt, clean_addr, size);
3321         }
3322     } else {
3323         TCGv_i64 tcg_rt = cpu_reg(s, rt);
3324         bool iss_sf = disas_ldst_compute_iss_sf(size, is_signed, opc);
3325         if (is_store) {
3326             do_gpr_st(s, tcg_rt, clean_addr, size,
3327                       true, rt, iss_sf, false);
3328         } else {
3329             do_gpr_ld(s, tcg_rt, clean_addr, size + is_signed * MO_SIGN,
3330                       is_extended, true, rt, iss_sf, false);
3331         }
3332     }
3333 }
3334
3335 /* Atomic memory operations
3336  *
3337  *  31  30      27  26    24    22  21   16   15    12    10    5     0
3338  * +------+-------+---+-----+-----+---+----+----+-----+-----+----+-----+
3339  * | size | 1 1 1 | V | 0 0 | A R | 1 | Rs | o3 | opc | 0 0 | Rn |  Rt |
3340  * +------+-------+---+-----+-----+--------+----+-----+-----+----+-----+
3341  *
3342  * Rt: the result register
3343  * Rn: base address or SP
3344  * Rs: the source register for the operation
3345  * V: vector flag (always 0 as of v8.3)
3346  * A: acquire flag
3347  * R: release flag
3348  */
3349 static void disas_ldst_atomic(DisasContext *s, uint32_t insn,
3350                               int size, int rt, bool is_vector)
3351 {
3352     int rs = extract32(insn, 16, 5);
3353     int rn = extract32(insn, 5, 5);
3354     int o3_opc = extract32(insn, 12, 4);
3355     bool r = extract32(insn, 22, 1);
3356     bool a = extract32(insn, 23, 1);
3357     TCGv_i64 tcg_rs, tcg_rt, clean_addr;
3358     AtomicThreeOpFn *fn = NULL;
3359     MemOp mop = s->be_data | size | MO_ALIGN;
3360
3361     if (is_vector || !dc_isar_feature(aa64_atomics, s)) {
3362         unallocated_encoding(s);
3363         return;
3364     }
3365     switch (o3_opc) {
3366     case 000: /* LDADD */
3367         fn = tcg_gen_atomic_fetch_add_i64;
3368         break;
3369     case 001: /* LDCLR */
3370         fn = tcg_gen_atomic_fetch_and_i64;
3371         break;
3372     case 002: /* LDEOR */
3373         fn = tcg_gen_atomic_fetch_xor_i64;
3374         break;
3375     case 003: /* LDSET */
3376         fn = tcg_gen_atomic_fetch_or_i64;
3377         break;
3378     case 004: /* LDSMAX */
3379         fn = tcg_gen_atomic_fetch_smax_i64;
3380         mop |= MO_SIGN;
3381         break;
3382     case 005: /* LDSMIN */
3383         fn = tcg_gen_atomic_fetch_smin_i64;
3384         mop |= MO_SIGN;
3385         break;
3386     case 006: /* LDUMAX */
3387         fn = tcg_gen_atomic_fetch_umax_i64;
3388         break;
3389     case 007: /* LDUMIN */
3390         fn = tcg_gen_atomic_fetch_umin_i64;
3391         break;
3392     case 010: /* SWP */
3393         fn = tcg_gen_atomic_xchg_i64;
3394         break;
3395     case 014: /* LDAPR, LDAPRH, LDAPRB */
3396         if (!dc_isar_feature(aa64_rcpc_8_3, s) ||
3397             rs != 31 || a != 1 || r != 0) {
3398             unallocated_encoding(s);
3399             return;
3400         }
3401         break;
3402     default:
3403         unallocated_encoding(s);
3404         return;
3405     }
3406
3407     if (rn == 31) {
3408         gen_check_sp_alignment(s);
3409     }
3410     clean_addr = gen_mte_check1(s, cpu_reg_sp(s, rn), false, rn != 31, size);
3411
3412     if (o3_opc == 014) {
3413         /*
3414          * LDAPR* are a special case because they are a simple load, not a
3415          * fetch-and-do-something op.
3416          * The architectural consistency requirements here are weaker than
3417          * full load-acquire (we only need "load-acquire processor consistent"),
3418          * but we choose to implement them as full LDAQ.
3419          */
3420         do_gpr_ld(s, cpu_reg(s, rt), clean_addr, size, false,
3421                   true, rt, disas_ldst_compute_iss_sf(size, false, 0), true);
3422         tcg_gen_mb(TCG_MO_ALL | TCG_BAR_LDAQ);
3423         return;
3424     }
3425
3426     tcg_rs = read_cpu_reg(s, rs, true);
3427     tcg_rt = cpu_reg(s, rt);
3428
3429     if (o3_opc == 1) { /* LDCLR */
3430         tcg_gen_not_i64(tcg_rs, tcg_rs);
3431     }
3432
3433     /* The tcg atomic primitives are all full barriers.  Therefore we
3434      * can ignore the Acquire and Release bits of this instruction.
3435      */
3436     fn(tcg_rt, clean_addr, tcg_rs, get_mem_index(s), mop);
3437
3438     if ((mop & MO_SIGN) && size != MO_64) {
3439         tcg_gen_ext32u_i64(tcg_rt, tcg_rt);
3440     }
3441 }
3442
3443 /*
3444  * PAC memory operations
3445  *
3446  *  31  30      27  26    24    22  21       12  11  10    5     0
3447  * +------+-------+---+-----+-----+---+--------+---+---+----+-----+
3448  * | size | 1 1 1 | V | 0 0 | M S | 1 |  imm9  | W | 1 | Rn |  Rt |
3449  * +------+-------+---+-----+-----+---+--------+---+---+----+-----+
3450  *
3451  * Rt: the result register
3452  * Rn: base address or SP
3453  * V: vector flag (always 0 as of v8.3)
3454  * M: clear for key DA, set for key DB
3455  * W: pre-indexing flag
3456  * S: sign for imm9.
3457  */
3458 static void disas_ldst_pac(DisasContext *s, uint32_t insn,
3459                            int size, int rt, bool is_vector)
3460 {
3461     int rn = extract32(insn, 5, 5);
3462     bool is_wback = extract32(insn, 11, 1);
3463     bool use_key_a = !extract32(insn, 23, 1);
3464     int offset;
3465     TCGv_i64 clean_addr, dirty_addr, tcg_rt;
3466
3467     if (size != 3 || is_vector || !dc_isar_feature(aa64_pauth, s)) {
3468         unallocated_encoding(s);
3469         return;
3470     }
3471
3472     if (rn == 31) {
3473         gen_check_sp_alignment(s);
3474     }
3475     dirty_addr = read_cpu_reg_sp(s, rn, 1);
3476
3477     if (s->pauth_active) {
3478         if (use_key_a) {
3479             gen_helper_autda(dirty_addr, cpu_env, dirty_addr,
3480                              new_tmp_a64_zero(s));
3481         } else {
3482             gen_helper_autdb(dirty_addr, cpu_env, dirty_addr,
3483                              new_tmp_a64_zero(s));
3484         }
3485     }
3486
3487     /* Form the 10-bit signed, scaled offset.  */
3488     offset = (extract32(insn, 22, 1) << 9) | extract32(insn, 12, 9);
3489     offset = sextract32(offset << size, 0, 10 + size);
3490     tcg_gen_addi_i64(dirty_addr, dirty_addr, offset);
3491
3492     /* Note that "clean" and "dirty" here refer to TBI not PAC.  */
3493     clean_addr = gen_mte_check1(s, dirty_addr, false,
3494                                 is_wback || rn != 31, size);
3495
3496     tcg_rt = cpu_reg(s, rt);
3497     do_gpr_ld(s, tcg_rt, clean_addr, size,
3498               /* extend */ false, /* iss_valid */ !is_wback,
3499               /* iss_srt */ rt, /* iss_sf */ true, /* iss_ar */ false);
3500
3501     if (is_wback) {
3502         tcg_gen_mov_i64(cpu_reg_sp(s, rn), dirty_addr);
3503     }
3504 }
3505
3506 /*
3507  * LDAPR/STLR (unscaled immediate)
3508  *
3509  *  31  30            24    22  21       12    10    5     0
3510  * +------+-------------+-----+---+--------+-----+----+-----+
3511  * | size | 0 1 1 0 0 1 | opc | 0 |  imm9  | 0 0 | Rn |  Rt |
3512  * +------+-------------+-----+---+--------+-----+----+-----+
3513  *
3514  * Rt: source or destination register
3515  * Rn: base register
3516  * imm9: unscaled immediate offset
3517  * opc: 00: STLUR*, 01/10/11: various LDAPUR*
3518  * size: size of load/store
3519  */
3520 static void disas_ldst_ldapr_stlr(DisasContext *s, uint32_t insn)
3521 {
3522     int rt = extract32(insn, 0, 5);
3523     int rn = extract32(insn, 5, 5);
3524     int offset = sextract32(insn, 12, 9);
3525     int opc = extract32(insn, 22, 2);
3526     int size = extract32(insn, 30, 2);
3527     TCGv_i64 clean_addr, dirty_addr;
3528     bool is_store = false;
3529     bool extend = false;
3530     bool iss_sf;
3531     MemOp mop;
3532
3533     if (!dc_isar_feature(aa64_rcpc_8_4, s)) {
3534         unallocated_encoding(s);
3535         return;
3536     }
3537
3538     /* TODO: ARMv8.4-LSE SCTLR.nAA */
3539     mop = size | MO_ALIGN;
3540
3541     switch (opc) {
3542     case 0: /* STLURB */
3543         is_store = true;
3544         break;
3545     case 1: /* LDAPUR* */
3546         break;
3547     case 2: /* LDAPURS* 64-bit variant */
3548         if (size == 3) {
3549             unallocated_encoding(s);
3550             return;
3551         }
3552         mop |= MO_SIGN;
3553         break;
3554     case 3: /* LDAPURS* 32-bit variant */
3555         if (size > 1) {
3556             unallocated_encoding(s);
3557             return;
3558         }
3559         mop |= MO_SIGN;
3560         extend = true; /* zero-extend 32->64 after signed load */
3561         break;
3562     default:
3563         g_assert_not_reached();
3564     }
3565
3566     iss_sf = disas_ldst_compute_iss_sf(size, (mop & MO_SIGN) != 0, opc);
3567
3568     if (rn == 31) {
3569         gen_check_sp_alignment(s);
3570     }
3571
3572     dirty_addr = read_cpu_reg_sp(s, rn, 1);
3573     tcg_gen_addi_i64(dirty_addr, dirty_addr, offset);
3574     clean_addr = clean_data_tbi(s, dirty_addr);
3575
3576     if (is_store) {
3577         /* Store-Release semantics */
3578         tcg_gen_mb(TCG_MO_ALL | TCG_BAR_STRL);
3579         do_gpr_st(s, cpu_reg(s, rt), clean_addr, mop, true, rt, iss_sf, true);
3580     } else {
3581         /*
3582          * Load-AcquirePC semantics; we implement as the slightly more
3583          * restrictive Load-Acquire.
3584          */
3585         do_gpr_ld(s, cpu_reg(s, rt), clean_addr, mop,
3586                   extend, true, rt, iss_sf, true);
3587         tcg_gen_mb(TCG_MO_ALL | TCG_BAR_LDAQ);
3588     }
3589 }
3590
3591 /* Load/store register (all forms) */
3592 static void disas_ldst_reg(DisasContext *s, uint32_t insn)
3593 {
3594     int rt = extract32(insn, 0, 5);
3595     int opc = extract32(insn, 22, 2);
3596     bool is_vector = extract32(insn, 26, 1);
3597     int size = extract32(insn, 30, 2);
3598
3599     switch (extract32(insn, 24, 2)) {
3600     case 0:
3601         if (extract32(insn, 21, 1) == 0) {
3602             /* Load/store register (unscaled immediate)
3603              * Load/store immediate pre/post-indexed
3604              * Load/store register unprivileged
3605              */
3606             disas_ldst_reg_imm9(s, insn, opc, size, rt, is_vector);
3607             return;
3608         }
3609         switch (extract32(insn, 10, 2)) {
3610         case 0:
3611             disas_ldst_atomic(s, insn, size, rt, is_vector);
3612             return;
3613         case 2:
3614             disas_ldst_reg_roffset(s, insn, opc, size, rt, is_vector);
3615             return;
3616         default:
3617             disas_ldst_pac(s, insn, size, rt, is_vector);
3618             return;
3619         }
3620         break;
3621     case 1:
3622         disas_ldst_reg_unsigned_imm(s, insn, opc, size, rt, is_vector);
3623         return;
3624     }
3625     unallocated_encoding(s);
3626 }
3627
3628 /* AdvSIMD load/store multiple structures
3629  *
3630  *  31  30  29           23 22  21         16 15    12 11  10 9    5 4    0
3631  * +---+---+---------------+---+-------------+--------+------+------+------+
3632  * | 0 | Q | 0 0 1 1 0 0 0 | L | 0 0 0 0 0 0 | opcode | size |  Rn  |  Rt  |
3633  * +---+---+---------------+---+-------------+--------+------+------+------+
3634  *
3635  * AdvSIMD load/store multiple structures (post-indexed)
3636  *
3637  *  31  30  29           23 22  21  20     16 15    12 11  10 9    5 4    0
3638  * +---+---+---------------+---+---+---------+--------+------+------+------+
3639  * | 0 | Q | 0 0 1 1 0 0 1 | L | 0 |   Rm    | opcode | size |  Rn  |  Rt  |
3640  * +---+---+---------------+---+---+---------+--------+------+------+------+
3641  *
3642  * Rt: first (or only) SIMD&FP register to be transferred
3643  * Rn: base address or SP
3644  * Rm (post-index only): post-index register (when !31) or size dependent #imm
3645  */
3646 static void disas_ldst_multiple_struct(DisasContext *s, uint32_t insn)
3647 {
3648     int rt = extract32(insn, 0, 5);
3649     int rn = extract32(insn, 5, 5);
3650     int rm = extract32(insn, 16, 5);
3651     int size = extract32(insn, 10, 2);
3652     int opcode = extract32(insn, 12, 4);
3653     bool is_store = !extract32(insn, 22, 1);
3654     bool is_postidx = extract32(insn, 23, 1);
3655     bool is_q = extract32(insn, 30, 1);
3656     TCGv_i64 clean_addr, tcg_rn, tcg_ebytes;
3657     MemOp endian, align, mop;
3658
3659     int total;    /* total bytes */
3660     int elements; /* elements per vector */
3661     int rpt;    /* num iterations */
3662     int selem;  /* structure elements */
3663     int r;
3664
3665     if (extract32(insn, 31, 1) || extract32(insn, 21, 1)) {
3666         unallocated_encoding(s);
3667         return;
3668     }
3669
3670     if (!is_postidx && rm != 0) {
3671         unallocated_encoding(s);
3672         return;
3673     }
3674
3675     /* From the shared decode logic */
3676     switch (opcode) {
3677     case 0x0:
3678         rpt = 1;
3679         selem = 4;
3680         break;
3681     case 0x2:
3682         rpt = 4;
3683         selem = 1;
3684         break;
3685     case 0x4:
3686         rpt = 1;
3687         selem = 3;
3688         break;
3689     case 0x6:
3690         rpt = 3;
3691         selem = 1;
3692         break;
3693     case 0x7:
3694         rpt = 1;
3695         selem = 1;
3696         break;
3697     case 0x8:
3698         rpt = 1;
3699         selem = 2;
3700         break;
3701     case 0xa:
3702         rpt = 2;
3703         selem = 1;
3704         break;
3705     default:
3706         unallocated_encoding(s);
3707         return;
3708     }
3709
3710     if (size == 3 && !is_q && selem != 1) {
3711         /* reserved */
3712         unallocated_encoding(s);
3713         return;
3714     }
3715
3716     if (!fp_access_check(s)) {
3717         return;
3718     }
3719
3720     if (rn == 31) {
3721         gen_check_sp_alignment(s);
3722     }
3723
3724     /* For our purposes, bytes are always little-endian.  */
3725     endian = s->be_data;
3726     if (size == 0) {
3727         endian = MO_LE;
3728     }
3729
3730     total = rpt * selem * (is_q ? 16 : 8);
3731     tcg_rn = cpu_reg_sp(s, rn);
3732
3733     /*
3734      * Issue the MTE check vs the logical repeat count, before we
3735      * promote consecutive little-endian elements below.
3736      */
3737     clean_addr = gen_mte_checkN(s, tcg_rn, is_store, is_postidx || rn != 31,
3738                                 total);
3739
3740     /*
3741      * Consecutive little-endian elements from a single register
3742      * can be promoted to a larger little-endian operation.
3743      */
3744     align = MO_ALIGN;
3745     if (selem == 1 && endian == MO_LE) {
3746         align = pow2_align(size);
3747         size = 3;
3748     }
3749     if (!s->align_mem) {
3750         align = 0;
3751     }
3752     mop = endian | size | align;
3753
3754     elements = (is_q ? 16 : 8) >> size;
3755     tcg_ebytes = tcg_const_i64(1 << size);
3756     for (r = 0; r < rpt; r++) {
3757         int e;
3758         for (e = 0; e < elements; e++) {
3759             int xs;
3760             for (xs = 0; xs < selem; xs++) {
3761                 int tt = (rt + r + xs) % 32;
3762                 if (is_store) {
3763                     do_vec_st(s, tt, e, clean_addr, mop);
3764                 } else {
3765                     do_vec_ld(s, tt, e, clean_addr, mop);
3766                 }
3767                 tcg_gen_add_i64(clean_addr, clean_addr, tcg_ebytes);
3768             }
3769         }
3770     }
3771     tcg_temp_free_i64(tcg_ebytes);
3772
3773     if (!is_store) {
3774         /* For non-quad operations, setting a slice of the low
3775          * 64 bits of the register clears the high 64 bits (in
3776          * the ARM ARM pseudocode this is implicit in the fact
3777          * that 'rval' is a 64 bit wide variable).
3778          * For quad operations, we might still need to zero the
3779          * high bits of SVE.
3780          */
3781         for (r = 0; r < rpt * selem; r++) {
3782             int tt = (rt + r) % 32;
3783             clear_vec_high(s, is_q, tt);
3784         }
3785     }
3786
3787     if (is_postidx) {
3788         if (rm == 31) {
3789             tcg_gen_addi_i64(tcg_rn, tcg_rn, total);
3790         } else {
3791             tcg_gen_add_i64(tcg_rn, tcg_rn, cpu_reg(s, rm));
3792         }
3793     }
3794 }
3795
3796 /* AdvSIMD load/store single structure
3797  *
3798  *  31  30  29           23 22 21 20       16 15 13 12  11  10 9    5 4    0
3799  * +---+---+---------------+-----+-----------+-----+---+------+------+------+
3800  * | 0 | Q | 0 0 1 1 0 1 0 | L R | 0 0 0 0 0 | opc | S | size |  Rn  |  Rt  |
3801  * +---+---+---------------+-----+-----------+-----+---+------+------+------+
3802  *
3803  * AdvSIMD load/store single structure (post-indexed)
3804  *
3805  *  31  30  29           23 22 21 20       16 15 13 12  11  10 9    5 4    0
3806  * +---+---+---------------+-----+-----------+-----+---+------+------+------+
3807  * | 0 | Q | 0 0 1 1 0 1 1 | L R |     Rm    | opc | S | size |  Rn  |  Rt  |
3808  * +---+---+---------------+-----+-----------+-----+---+------+------+------+
3809  *
3810  * Rt: first (or only) SIMD&FP register to be transferred
3811  * Rn: base address or SP
3812  * Rm (post-index only): post-index register (when !31) or size dependent #imm
3813  * index = encoded in Q:S:size dependent on size
3814  *
3815  * lane_size = encoded in R, opc
3816  * transfer width = encoded in opc, S, size
3817  */
3818 static void disas_ldst_single_struct(DisasContext *s, uint32_t insn)
3819 {
3820     int rt = extract32(insn, 0, 5);
3821     int rn = extract32(insn, 5, 5);
3822     int rm = extract32(insn, 16, 5);
3823     int size = extract32(insn, 10, 2);
3824     int S = extract32(insn, 12, 1);
3825     int opc = extract32(insn, 13, 3);
3826     int R = extract32(insn, 21, 1);
3827     int is_load = extract32(insn, 22, 1);
3828     int is_postidx = extract32(insn, 23, 1);
3829     int is_q = extract32(insn, 30, 1);
3830
3831     int scale = extract32(opc, 1, 2);
3832     int selem = (extract32(opc, 0, 1) << 1 | R) + 1;
3833     bool replicate = false;
3834     int index = is_q << 3 | S << 2 | size;
3835     int xs, total;
3836     TCGv_i64 clean_addr, tcg_rn, tcg_ebytes;
3837     MemOp mop;
3838
3839     if (extract32(insn, 31, 1)) {
3840         unallocated_encoding(s);
3841         return;
3842     }
3843     if (!is_postidx && rm != 0) {
3844         unallocated_encoding(s);
3845         return;
3846     }
3847
3848     switch (scale) {
3849     case 3:
3850         if (!is_load || S) {
3851             unallocated_encoding(s);
3852             return;
3853         }
3854         scale = size;
3855         replicate = true;
3856         break;
3857     case 0:
3858         break;
3859     case 1:
3860         if (extract32(size, 0, 1)) {
3861             unallocated_encoding(s);
3862             return;
3863         }
3864         index >>= 1;
3865         break;
3866     case 2:
3867         if (extract32(size, 1, 1)) {
3868             unallocated_encoding(s);
3869             return;
3870         }
3871         if (!extract32(size, 0, 1)) {
3872             index >>= 2;
3873         } else {
3874             if (S) {
3875                 unallocated_encoding(s);
3876                 return;
3877             }
3878             index >>= 3;
3879             scale = 3;
3880         }
3881         break;
3882     default:
3883         g_assert_not_reached();
3884     }
3885
3886     if (!fp_access_check(s)) {
3887         return;
3888     }
3889
3890     if (rn == 31) {
3891         gen_check_sp_alignment(s);
3892     }
3893
3894     total = selem << scale;
3895     tcg_rn = cpu_reg_sp(s, rn);
3896
3897     clean_addr = gen_mte_checkN(s, tcg_rn, !is_load, is_postidx || rn != 31,
3898                                 total);
3899     mop = finalize_memop(s, scale);
3900
3901     tcg_ebytes = tcg_const_i64(1 << scale);
3902     for (xs = 0; xs < selem; xs++) {
3903         if (replicate) {
3904             /* Load and replicate to all elements */
3905             TCGv_i64 tcg_tmp = tcg_temp_new_i64();
3906
3907             tcg_gen_qemu_ld_i64(tcg_tmp, clean_addr, get_mem_index(s), mop);
3908             tcg_gen_gvec_dup_i64(scale, vec_full_reg_offset(s, rt),
3909                                  (is_q + 1) * 8, vec_full_reg_size(s),
3910                                  tcg_tmp);
3911             tcg_temp_free_i64(tcg_tmp);
3912         } else {
3913             /* Load/store one element per register */
3914             if (is_load) {
3915                 do_vec_ld(s, rt, index, clean_addr, mop);
3916             } else {
3917                 do_vec_st(s, rt, index, clean_addr, mop);
3918             }
3919         }
3920         tcg_gen_add_i64(clean_addr, clean_addr, tcg_ebytes);
3921         rt = (rt + 1) % 32;
3922     }
3923     tcg_temp_free_i64(tcg_ebytes);
3924
3925     if (is_postidx) {
3926         if (rm == 31) {
3927             tcg_gen_addi_i64(tcg_rn, tcg_rn, total);
3928         } else {
3929             tcg_gen_add_i64(tcg_rn, tcg_rn, cpu_reg(s, rm));
3930         }
3931     }
3932 }
3933
3934 /*
3935  * Load/Store memory tags
3936  *
3937  *  31 30 29         24     22  21     12    10      5      0
3938  * +-----+-------------+-----+---+------+-----+------+------+
3939  * | 1 1 | 0 1 1 0 0 1 | op1 | 1 | imm9 | op2 |  Rn  |  Rt  |
3940  * +-----+-------------+-----+---+------+-----+------+------+
3941  */
3942 static void disas_ldst_tag(DisasContext *s, uint32_t insn)
3943 {
3944     int rt = extract32(insn, 0, 5);
3945     int rn = extract32(insn, 5, 5);
3946     uint64_t offset = sextract64(insn, 12, 9) << LOG2_TAG_GRANULE;
3947     int op2 = extract32(insn, 10, 2);
3948     int op1 = extract32(insn, 22, 2);
3949     bool is_load = false, is_pair = false, is_zero = false, is_mult = false;
3950     int index = 0;
3951     TCGv_i64 addr, clean_addr, tcg_rt;
3952
3953     /* We checked insn bits [29:24,21] in the caller.  */
3954     if (extract32(insn, 30, 2) != 3) {
3955         goto do_unallocated;
3956     }
3957
3958     /*
3959      * @index is a tri-state variable which has 3 states:
3960      * < 0 : post-index, writeback
3961      * = 0 : signed offset
3962      * > 0 : pre-index, writeback
3963      */
3964     switch (op1) {
3965     case 0:
3966         if (op2 != 0) {
3967             /* STG */
3968             index = op2 - 2;
3969         } else {
3970             /* STZGM */
3971             if (s->current_el == 0 || offset != 0) {
3972                 goto do_unallocated;
3973             }
3974             is_mult = is_zero = true;
3975         }
3976         break;
3977     case 1:
3978         if (op2 != 0) {
3979             /* STZG */
3980             is_zero = true;
3981             index = op2 - 2;
3982         } else {
3983             /* LDG */
3984             is_load = true;
3985         }
3986         break;
3987     case 2:
3988         if (op2 != 0) {
3989             /* ST2G */
3990             is_pair = true;
3991             index = op2 - 2;
3992         } else {
3993             /* STGM */
3994             if (s->current_el == 0 || offset != 0) {
3995                 goto do_unallocated;
3996             }
3997             is_mult = true;
3998         }
3999         break;
4000     case 3:
4001         if (op2 != 0) {
4002             /* STZ2G */
4003             is_pair = is_zero = true;
4004             index = op2 - 2;
4005         } else {
4006             /* LDGM */
4007             if (s->current_el == 0 || offset != 0) {
4008                 goto do_unallocated;
4009             }
4010             is_mult = is_load = true;
4011         }
4012         break;
4013
4014     default:
4015     do_unallocated:
4016         unallocated_encoding(s);
4017         return;
4018     }
4019
4020     if (is_mult
4021         ? !dc_isar_feature(aa64_mte, s)
4022         : !dc_isar_feature(aa64_mte_insn_reg, s)) {
4023         goto do_unallocated;
4024     }
4025
4026     if (rn == 31) {
4027         gen_check_sp_alignment(s);
4028     }
4029
4030     addr = read_cpu_reg_sp(s, rn, true);
4031     if (index >= 0) {
4032         /* pre-index or signed offset */
4033         tcg_gen_addi_i64(addr, addr, offset);
4034     }
4035
4036     if (is_mult) {
4037         tcg_rt = cpu_reg(s, rt);
4038
4039         if (is_zero) {
4040             int size = 4 << s->dcz_blocksize;
4041
4042             if (s->ata) {
4043                 gen_helper_stzgm_tags(cpu_env, addr, tcg_rt);
4044             }
4045             /*
4046              * The non-tags portion of STZGM is mostly like DC_ZVA,
4047              * except the alignment happens before the access.
4048              */
4049             clean_addr = clean_data_tbi(s, addr);
4050             tcg_gen_andi_i64(clean_addr, clean_addr, -size);
4051             gen_helper_dc_zva(cpu_env, clean_addr);
4052         } else if (s->ata) {
4053             if (is_load) {
4054                 gen_helper_ldgm(tcg_rt, cpu_env, addr);
4055             } else {
4056                 gen_helper_stgm(cpu_env, addr, tcg_rt);
4057             }
4058         } else {
4059             MMUAccessType acc = is_load ? MMU_DATA_LOAD : MMU_DATA_STORE;
4060             int size = 4 << GMID_EL1_BS;
4061
4062             clean_addr = clean_data_tbi(s, addr);
4063             tcg_gen_andi_i64(clean_addr, clean_addr, -size);
4064             gen_probe_access(s, clean_addr, acc, size);
4065
4066             if (is_load) {
4067                 /* The result tags are zeros.  */
4068                 tcg_gen_movi_i64(tcg_rt, 0);
4069             }
4070         }
4071         return;
4072     }
4073
4074     if (is_load) {
4075         tcg_gen_andi_i64(addr, addr, -TAG_GRANULE);
4076         tcg_rt = cpu_reg(s, rt);
4077         if (s->ata) {
4078             gen_helper_ldg(tcg_rt, cpu_env, addr, tcg_rt);
4079         } else {
4080             clean_addr = clean_data_tbi(s, addr);
4081             gen_probe_access(s, clean_addr, MMU_DATA_LOAD, MO_8);
4082             gen_address_with_allocation_tag0(tcg_rt, addr);
4083         }
4084     } else {
4085         tcg_rt = cpu_reg_sp(s, rt);
4086         if (!s->ata) {
4087             /*
4088              * For STG and ST2G, we need to check alignment and probe memory.
4089              * TODO: For STZG and STZ2G, we could rely on the stores below,
4090              * at least for system mode; user-only won't enforce alignment.
4091              */
4092             if (is_pair) {
4093                 gen_helper_st2g_stub(cpu_env, addr);
4094             } else {
4095                 gen_helper_stg_stub(cpu_env, addr);
4096             }
4097         } else if (tb_cflags(s->base.tb) & CF_PARALLEL) {
4098             if (is_pair) {
4099                 gen_helper_st2g_parallel(cpu_env, addr, tcg_rt);
4100             } else {
4101                 gen_helper_stg_parallel(cpu_env, addr, tcg_rt);
4102             }
4103         } else {
4104             if (is_pair) {
4105                 gen_helper_st2g(cpu_env, addr, tcg_rt);
4106             } else {
4107                 gen_helper_stg(cpu_env, addr, tcg_rt);
4108             }
4109         }
4110     }
4111
4112     if (is_zero) {
4113         TCGv_i64 clean_addr = clean_data_tbi(s, addr);
4114         TCGv_i64 tcg_zero = tcg_const_i64(0);
4115         int mem_index = get_mem_index(s);
4116         int i, n = (1 + is_pair) << LOG2_TAG_GRANULE;
4117
4118         tcg_gen_qemu_st_i64(tcg_zero, clean_addr, mem_index,
4119                             MO_Q | MO_ALIGN_16);
4120         for (i = 8; i < n; i += 8) {
4121             tcg_gen_addi_i64(clean_addr, clean_addr, 8);
4122             tcg_gen_qemu_st_i64(tcg_zero, clean_addr, mem_index, MO_Q);
4123         }
4124         tcg_temp_free_i64(tcg_zero);
4125     }
4126
4127     if (index != 0) {
4128         /* pre-index or post-index */
4129         if (index < 0) {
4130             /* post-index */
4131             tcg_gen_addi_i64(addr, addr, offset);
4132         }
4133         tcg_gen_mov_i64(cpu_reg_sp(s, rn), addr);
4134     }
4135 }
4136
4137 /* Loads and stores */
4138 static void disas_ldst(DisasContext *s, uint32_t insn)
4139 {
4140     switch (extract32(insn, 24, 6)) {
4141     case 0x08: /* Load/store exclusive */
4142         disas_ldst_excl(s, insn);
4143         break;
4144     case 0x18: case 0x1c: /* Load register (literal) */
4145         disas_ld_lit(s, insn);
4146         break;
4147     case 0x28: case 0x29:
4148     case 0x2c: case 0x2d: /* Load/store pair (all forms) */
4149         disas_ldst_pair(s, insn);
4150         break;
4151     case 0x38: case 0x39:
4152     case 0x3c: case 0x3d: /* Load/store register (all forms) */
4153         disas_ldst_reg(s, insn);
4154         break;
4155     case 0x0c: /* AdvSIMD load/store multiple structures */
4156         disas_ldst_multiple_struct(s, insn);
4157         break;
4158     case 0x0d: /* AdvSIMD load/store single structure */
4159         disas_ldst_single_struct(s, insn);
4160         break;
4161     case 0x19:
4162         if (extract32(insn, 21, 1) != 0) {
4163             disas_ldst_tag(s, insn);
4164         } else if (extract32(insn, 10, 2) == 0) {
4165             disas_ldst_ldapr_stlr(s, insn);
4166         } else {
4167             unallocated_encoding(s);
4168         }
4169         break;
4170     default:
4171         unallocated_encoding(s);
4172         break;
4173     }
4174 }
4175
4176 /* PC-rel. addressing
4177  *   31  30   29 28       24 23                5 4    0
4178  * +----+-------+-----------+-------------------+------+
4179  * | op | immlo | 1 0 0 0 0 |       immhi       |  Rd  |
4180  * +----+-------+-----------+-------------------+------+
4181  */
4182 static void disas_pc_rel_adr(DisasContext *s, uint32_t insn)
4183 {
4184     unsigned int page, rd;
4185     uint64_t base;
4186     uint64_t offset;
4187
4188     page = extract32(insn, 31, 1);
4189     /* SignExtend(immhi:immlo) -> offset */
4190     offset = sextract64(insn, 5, 19);
4191     offset = offset << 2 | extract32(insn, 29, 2);
4192     rd = extract32(insn, 0, 5);
4193     base = s->pc_curr;
4194
4195     if (page) {
4196         /* ADRP (page based) */
4197         base &= ~0xfff;
4198         offset <<= 12;
4199     }
4200
4201     tcg_gen_movi_i64(cpu_reg(s, rd), base + offset);
4202 }
4203
4204 /*
4205  * Add/subtract (immediate)
4206  *
4207  *  31 30 29 28         23 22 21         10 9   5 4   0
4208  * +--+--+--+-------------+--+-------------+-----+-----+
4209  * |sf|op| S| 1 0 0 0 1 0 |sh|    imm12    |  Rn | Rd  |
4210  * +--+--+--+-------------+--+-------------+-----+-----+
4211  *
4212  *    sf: 0 -> 32bit, 1 -> 64bit
4213  *    op: 0 -> add  , 1 -> sub
4214  *     S: 1 -> set flags
4215  *    sh: 1 -> LSL imm by 12
4216  */
4217 static void disas_add_sub_imm(DisasContext *s, uint32_t insn)
4218 {
4219     int rd = extract32(insn, 0, 5);
4220     int rn = extract32(insn, 5, 5);
4221     uint64_t imm = extract32(insn, 10, 12);
4222     bool shift = extract32(insn, 22, 1);
4223     bool setflags = extract32(insn, 29, 1);
4224     bool sub_op = extract32(insn, 30, 1);
4225     bool is_64bit = extract32(insn, 31, 1);
4226
4227     TCGv_i64 tcg_rn = cpu_reg_sp(s, rn);
4228     TCGv_i64 tcg_rd = setflags ? cpu_reg(s, rd) : cpu_reg_sp(s, rd);
4229     TCGv_i64 tcg_result;
4230
4231     if (shift) {
4232         imm <<= 12;
4233     }
4234
4235     tcg_result = tcg_temp_new_i64();
4236     if (!setflags) {
4237         if (sub_op) {
4238             tcg_gen_subi_i64(tcg_result, tcg_rn, imm);
4239         } else {
4240             tcg_gen_addi_i64(tcg_result, tcg_rn, imm);
4241         }
4242     } else {
4243         TCGv_i64 tcg_imm = tcg_const_i64(imm);
4244         if (sub_op) {
4245             gen_sub_CC(is_64bit, tcg_result, tcg_rn, tcg_imm);
4246         } else {
4247             gen_add_CC(is_64bit, tcg_result, tcg_rn, tcg_imm);
4248         }
4249         tcg_temp_free_i64(tcg_imm);
4250     }
4251
4252     if (is_64bit) {
4253         tcg_gen_mov_i64(tcg_rd, tcg_result);
4254     } else {
4255         tcg_gen_ext32u_i64(tcg_rd, tcg_result);
4256     }
4257
4258     tcg_temp_free_i64(tcg_result);
4259 }
4260
4261 /*
4262  * Add/subtract (immediate, with tags)
4263  *
4264  *  31 30 29 28         23 22 21     16 14      10 9   5 4   0
4265  * +--+--+--+-------------+--+---------+--+-------+-----+-----+
4266  * |sf|op| S| 1 0 0 0 1 1 |o2|  uimm6  |o3| uimm4 |  Rn | Rd  |
4267  * +--+--+--+-------------+--+---------+--+-------+-----+-----+
4268  *
4269  *    op: 0 -> add, 1 -> sub
4270  */
4271 static void disas_add_sub_imm_with_tags(DisasContext *s, uint32_t insn)
4272 {
4273     int rd = extract32(insn, 0, 5);
4274     int rn = extract32(insn, 5, 5);
4275     int uimm4 = extract32(insn, 10, 4);
4276     int uimm6 = extract32(insn, 16, 6);
4277     bool sub_op = extract32(insn, 30, 1);
4278     TCGv_i64 tcg_rn, tcg_rd;
4279     int imm;
4280
4281     /* Test all of sf=1, S=0, o2=0, o3=0.  */
4282     if ((insn & 0xa040c000u) != 0x80000000u ||
4283         !dc_isar_feature(aa64_mte_insn_reg, s)) {
4284         unallocated_encoding(s);
4285         return;
4286     }
4287
4288     imm = uimm6 << LOG2_TAG_GRANULE;
4289     if (sub_op) {
4290         imm = -imm;
4291     }
4292
4293     tcg_rn = cpu_reg_sp(s, rn);
4294     tcg_rd = cpu_reg_sp(s, rd);
4295
4296     if (s->ata) {
4297         TCGv_i32 offset = tcg_const_i32(imm);
4298         TCGv_i32 tag_offset = tcg_const_i32(uimm4);
4299
4300         gen_helper_addsubg(tcg_rd, cpu_env, tcg_rn, offset, tag_offset);
4301         tcg_temp_free_i32(tag_offset);
4302         tcg_temp_free_i32(offset);
4303     } else {
4304         tcg_gen_addi_i64(tcg_rd, tcg_rn, imm);
4305         gen_address_with_allocation_tag0(tcg_rd, tcg_rd);
4306     }
4307 }
4308
4309 /* The input should be a value in the bottom e bits (with higher
4310  * bits zero); returns that value replicated into every element
4311  * of size e in a 64 bit integer.
4312  */
4313 static uint64_t bitfield_replicate(uint64_t mask, unsigned int e)
4314 {
4315     assert(e != 0);
4316     while (e < 64) {
4317         mask |= mask << e;
4318         e *= 2;
4319     }
4320     return mask;
4321 }
4322
4323 /* Return a value with the bottom len bits set (where 0 < len <= 64) */
4324 static inline uint64_t bitmask64(unsigned int length)
4325 {
4326     assert(length > 0 && length <= 64);
4327     return ~0ULL >> (64 - length);
4328 }
4329
4330 /* Simplified variant of pseudocode DecodeBitMasks() for the case where we
4331  * only require the wmask. Returns false if the imms/immr/immn are a reserved
4332  * value (ie should cause a guest UNDEF exception), and true if they are
4333  * valid, in which case the decoded bit pattern is written to result.
4334  */
4335 bool logic_imm_decode_wmask(uint64_t *result, unsigned int immn,
4336                             unsigned int imms, unsigned int immr)
4337 {
4338     uint64_t mask;
4339     unsigned e, levels, s, r;
4340     int len;
4341
4342     assert(immn < 2 && imms < 64 && immr < 64);
4343
4344     /* The bit patterns we create here are 64 bit patterns which
4345      * are vectors of identical elements of size e = 2, 4, 8, 16, 32 or
4346      * 64 bits each. Each element contains the same value: a run
4347      * of between 1 and e-1 non-zero bits, rotated within the
4348      * element by between 0 and e-1 bits.
4349      *
4350      * The element size and run length are encoded into immn (1 bit)
4351      * and imms (6 bits) as follows:
4352      * 64 bit elements: immn = 1, imms = <length of run - 1>
4353      * 32 bit elements: immn = 0, imms = 0 : <length of run - 1>
4354      * 16 bit elements: immn = 0, imms = 10 : <length of run - 1>
4355      *  8 bit elements: immn = 0, imms = 110 : <length of run - 1>
4356      *  4 bit elements: immn = 0, imms = 1110 : <length of run - 1>
4357      *  2 bit elements: immn = 0, imms = 11110 : <length of run - 1>
4358      * Notice that immn = 0, imms = 11111x is the only combination
4359      * not covered by one of the above options; this is reserved.
4360      * Further, <length of run - 1> all-ones is a reserved pattern.
4361      *
4362      * In all cases the rotation is by immr % e (and immr is 6 bits).
4363      */
4364
4365     /* First determine the element size */
4366     len = 31 - clz32((immn << 6) | (~imms & 0x3f));
4367     if (len < 1) {
4368         /* This is the immn == 0, imms == 0x11111x case */
4369         return false;
4370     }
4371     e = 1 << len;
4372
4373     levels = e - 1;
4374     s = imms & levels;
4375     r = immr & levels;
4376
4377     if (s == levels) {
4378         /* <length of run - 1> mustn't be all-ones. */
4379         return false;
4380     }
4381
4382     /* Create the value of one element: s+1 set bits rotated
4383      * by r within the element (which is e bits wide)...
4384      */
4385     mask = bitmask64(s + 1);
4386     if (r) {
4387         mask = (mask >> r) | (mask << (e - r));
4388         mask &= bitmask64(e);
4389     }
4390     /* ...then replicate the element over the whole 64 bit value */
4391     mask = bitfield_replicate(mask, e);
4392     *result = mask;
4393     return true;
4394 }
4395
4396 /* Logical (immediate)
4397  *   31  30 29 28         23 22  21  16 15  10 9    5 4    0
4398  * +----+-----+-------------+---+------+------+------+------+
4399  * | sf | opc | 1 0 0 1 0 0 | N | immr | imms |  Rn  |  Rd  |
4400  * +----+-----+-------------+---+------+------+------+------+
4401  */
4402 static void disas_logic_imm(DisasContext *s, uint32_t insn)
4403 {
4404     unsigned int sf, opc, is_n, immr, imms, rn, rd;
4405     TCGv_i64 tcg_rd, tcg_rn;
4406     uint64_t wmask;
4407     bool is_and = false;
4408
4409     sf = extract32(insn, 31, 1);
4410     opc = extract32(insn, 29, 2);
4411     is_n = extract32(insn, 22, 1);
4412     immr = extract32(insn, 16, 6);
4413     imms = extract32(insn, 10, 6);
4414     rn = extract32(insn, 5, 5);
4415     rd = extract32(insn, 0, 5);
4416
4417     if (!sf && is_n) {
4418         unallocated_encoding(s);
4419         return;
4420     }
4421
4422     if (opc == 0x3) { /* ANDS */
4423         tcg_rd = cpu_reg(s, rd);
4424     } else {
4425         tcg_rd = cpu_reg_sp(s, rd);
4426     }
4427     tcg_rn = cpu_reg(s, rn);
4428
4429     if (!logic_imm_decode_wmask(&wmask, is_n, imms, immr)) {
4430         /* some immediate field values are reserved */
4431         unallocated_encoding(s);
4432         return;
4433     }
4434
4435     if (!sf) {
4436         wmask &= 0xffffffff;
4437     }
4438
4439     switch (opc) {
4440     case 0x3: /* ANDS */
4441     case 0x0: /* AND */
4442         tcg_gen_andi_i64(tcg_rd, tcg_rn, wmask);
4443         is_and = true;
4444         break;
4445     case 0x1: /* ORR */
4446         tcg_gen_ori_i64(tcg_rd, tcg_rn, wmask);
4447         break;
4448     case 0x2: /* EOR */
4449         tcg_gen_xori_i64(tcg_rd, tcg_rn, wmask);
4450         break;
4451     default:
4452         assert(FALSE); /* must handle all above */
4453         break;
4454     }
4455
4456     if (!sf && !is_and) {
4457         /* zero extend final result; we know we can skip this for AND
4458          * since the immediate had the high 32 bits clear.
4459          */
4460         tcg_gen_ext32u_i64(tcg_rd, tcg_rd);
4461     }
4462
4463     if (opc == 3) { /* ANDS */
4464         gen_logic_CC(sf, tcg_rd);
4465     }
4466 }
4467
4468 /*
4469  * Move wide (immediate)
4470  *
4471  *  31 30 29 28         23 22 21 20             5 4    0
4472  * +--+-----+-------------+-----+----------------+------+
4473  * |sf| opc | 1 0 0 1 0 1 |  hw |  imm16         |  Rd  |
4474  * +--+-----+-------------+-----+----------------+------+
4475  *
4476  * sf: 0 -> 32 bit, 1 -> 64 bit
4477  * opc: 00 -> N, 10 -> Z, 11 -> K
4478  * hw: shift/16 (0,16, and sf only 32, 48)
4479  */
4480 static void disas_movw_imm(DisasContext *s, uint32_t insn)
4481 {
4482     int rd = extract32(insn, 0, 5);
4483     uint64_t imm = extract32(insn, 5, 16);
4484     int sf = extract32(insn, 31, 1);
4485     int opc = extract32(insn, 29, 2);
4486     int pos = extract32(insn, 21, 2) << 4;
4487     TCGv_i64 tcg_rd = cpu_reg(s, rd);
4488     TCGv_i64 tcg_imm;
4489
4490     if (!sf && (pos >= 32)) {
4491         unallocated_encoding(s);
4492         return;
4493     }
4494
4495     switch (opc) {
4496     case 0: /* MOVN */
4497     case 2: /* MOVZ */
4498         imm <<= pos;
4499         if (opc == 0) {
4500             imm = ~imm;
4501         }
4502         if (!sf) {
4503             imm &= 0xffffffffu;
4504         }
4505         tcg_gen_movi_i64(tcg_rd, imm);
4506         break;
4507     case 3: /* MOVK */
4508         tcg_imm = tcg_const_i64(imm);
4509         tcg_gen_deposit_i64(tcg_rd, tcg_rd, tcg_imm, pos, 16);
4510         tcg_temp_free_i64(tcg_imm);
4511         if (!sf) {
4512             tcg_gen_ext32u_i64(tcg_rd, tcg_rd);
4513         }
4514         break;
4515     default:
4516         unallocated_encoding(s);
4517         break;
4518     }
4519 }
4520
4521 /* Bitfield
4522  *   31  30 29 28         23 22  21  16 15  10 9    5 4    0
4523  * +----+-----+-------------+---+------+------+------+------+
4524  * | sf | opc | 1 0 0 1 1 0 | N | immr | imms |  Rn  |  Rd  |
4525  * +----+-----+-------------+---+------+------+------+------+
4526  */
4527 static void disas_bitfield(DisasContext *s, uint32_t insn)
4528 {
4529     unsigned int sf, n, opc, ri, si, rn, rd, bitsize, pos, len;
4530     TCGv_i64 tcg_rd, tcg_tmp;
4531
4532     sf = extract32(insn, 31, 1);
4533     opc = extract32(insn, 29, 2);
4534     n = extract32(insn, 22, 1);
4535     ri = extract32(insn, 16, 6);
4536     si = extract32(insn, 10, 6);
4537     rn = extract32(insn, 5, 5);
4538     rd = extract32(insn, 0, 5);
4539     bitsize = sf ? 64 : 32;
4540
4541     if (sf != n || ri >= bitsize || si >= bitsize || opc > 2) {
4542         unallocated_encoding(s);
4543         return;
4544     }
4545
4546     tcg_rd = cpu_reg(s, rd);
4547
4548     /* Suppress the zero-extend for !sf.  Since RI and SI are constrained
4549        to be smaller than bitsize, we'll never reference data outside the
4550        low 32-bits anyway.  */
4551     tcg_tmp = read_cpu_reg(s, rn, 1);
4552
4553     /* Recognize simple(r) extractions.  */
4554     if (si >= ri) {
4555         /* Wd<s-r:0> = Wn<s:r> */
4556         len = (si - ri) + 1;
4557         if (opc == 0) { /* SBFM: ASR, SBFX, SXTB, SXTH, SXTW */
4558             tcg_gen_sextract_i64(tcg_rd, tcg_tmp, ri, len);
4559             goto done;
4560         } else if (opc == 2) { /* UBFM: UBFX, LSR, UXTB, UXTH */
4561             tcg_gen_extract_i64(tcg_rd, tcg_tmp, ri, len);
4562             return;
4563         }
4564         /* opc == 1, BFXIL fall through to deposit */
4565         tcg_gen_shri_i64(tcg_tmp, tcg_tmp, ri);
4566         pos = 0;
4567     } else {
4568         /* Handle the ri > si case with a deposit
4569          * Wd<32+s-r,32-r> = Wn<s:0>
4570          */
4571         len = si + 1;
4572         pos = (bitsize - ri) & (bitsize - 1);
4573     }
4574
4575     if (opc == 0 && len < ri) {
4576         /* SBFM: sign extend the destination field from len to fill
4577            the balance of the word.  Let the deposit below insert all
4578            of those sign bits.  */
4579         tcg_gen_sextract_i64(tcg_tmp, tcg_tmp, 0, len);
4580         len = ri;
4581     }
4582
4583     if (opc == 1) { /* BFM, BFXIL */
4584         tcg_gen_deposit_i64(tcg_rd, tcg_rd, tcg_tmp, pos, len);
4585     } else {
4586         /* SBFM or UBFM: We start with zero, and we haven't modified
4587            any bits outside bitsize, therefore the zero-extension
4588            below is unneeded.  */
4589         tcg_gen_deposit_z_i64(tcg_rd, tcg_tmp, pos, len);
4590         return;
4591     }
4592
4593  done:
4594     if (!sf) { /* zero extend final result */
4595         tcg_gen_ext32u_i64(tcg_rd, tcg_rd);
4596     }
4597 }
4598
4599 /* Extract
4600  *   31  30  29 28         23 22   21  20  16 15    10 9    5 4    0
4601  * +----+------+-------------+---+----+------+--------+------+------+
4602  * | sf | op21 | 1 0 0 1 1 1 | N | o0 |  Rm  |  imms  |  Rn  |  Rd  |
4603  * +----+------+-------------+---+----+------+--------+------+------+
4604  */
4605 static void disas_extract(DisasContext *s, uint32_t insn)
4606 {
4607     unsigned int sf, n, rm, imm, rn, rd, bitsize, op21, op0;
4608
4609     sf = extract32(insn, 31, 1);
4610     n = extract32(insn, 22, 1);
4611     rm = extract32(insn, 16, 5);
4612     imm = extract32(insn, 10, 6);
4613     rn = extract32(insn, 5, 5);
4614     rd = extract32(insn, 0, 5);
4615     op21 = extract32(insn, 29, 2);
4616     op0 = extract32(insn, 21, 1);
4617     bitsize = sf ? 64 : 32;
4618
4619     if (sf != n || op21 || op0 || imm >= bitsize) {
4620         unallocated_encoding(s);
4621     } else {
4622         TCGv_i64 tcg_rd, tcg_rm, tcg_rn;
4623
4624         tcg_rd = cpu_reg(s, rd);
4625
4626         if (unlikely(imm == 0)) {
4627             /* tcg shl_i32/shl_i64 is undefined for 32/64 bit shifts,
4628              * so an extract from bit 0 is a special case.
4629              */
4630             if (sf) {
4631                 tcg_gen_mov_i64(tcg_rd, cpu_reg(s, rm));
4632             } else {
4633                 tcg_gen_ext32u_i64(tcg_rd, cpu_reg(s, rm));
4634             }
4635         } else {
4636             tcg_rm = cpu_reg(s, rm);
4637             tcg_rn = cpu_reg(s, rn);
4638
4639             if (sf) {
4640                 /* Specialization to ROR happens in EXTRACT2.  */
4641                 tcg_gen_extract2_i64(tcg_rd, tcg_rm, tcg_rn, imm);
4642             } else {
4643                 TCGv_i32 t0 = tcg_temp_new_i32();
4644
4645                 tcg_gen_extrl_i64_i32(t0, tcg_rm);
4646                 if (rm == rn) {
4647                     tcg_gen_rotri_i32(t0, t0, imm);
4648                 } else {
4649                     TCGv_i32 t1 = tcg_temp_new_i32();
4650                     tcg_gen_extrl_i64_i32(t1, tcg_rn);
4651                     tcg_gen_extract2_i32(t0, t0, t1, imm);
4652                     tcg_temp_free_i32(t1);
4653                 }
4654                 tcg_gen_extu_i32_i64(tcg_rd, t0);
4655                 tcg_temp_free_i32(t0);
4656             }
4657         }
4658     }
4659 }
4660
4661 /* Data processing - immediate */
4662 static void disas_data_proc_imm(DisasContext *s, uint32_t insn)
4663 {
4664     switch (extract32(insn, 23, 6)) {
4665     case 0x20: case 0x21: /* PC-rel. addressing */
4666         disas_pc_rel_adr(s, insn);
4667         break;
4668     case 0x22: /* Add/subtract (immediate) */
4669         disas_add_sub_imm(s, insn);
4670         break;
4671     case 0x23: /* Add/subtract (immediate, with tags) */
4672         disas_add_sub_imm_with_tags(s, insn);
4673         break;
4674     case 0x24: /* Logical (immediate) */
4675         disas_logic_imm(s, insn);
4676         break;
4677     case 0x25: /* Move wide (immediate) */
4678         disas_movw_imm(s, insn);
4679         break;
4680     case 0x26: /* Bitfield */
4681         disas_bitfield(s, insn);
4682         break;
4683     case 0x27: /* Extract */
4684         disas_extract(s, insn);
4685         break;
4686     default:
4687         unallocated_encoding(s);
4688         break;
4689     }
4690 }
4691
4692 /* Shift a TCGv src by TCGv shift_amount, put result in dst.
4693  * Note that it is the caller's responsibility to ensure that the
4694  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
4695  * mandated semantics for out of range shifts.
4696  */
4697 static void shift_reg(TCGv_i64 dst, TCGv_i64 src, int sf,
4698                       enum a64_shift_type shift_type, TCGv_i64 shift_amount)
4699 {
4700     switch (shift_type) {
4701     case A64_SHIFT_TYPE_LSL:
4702         tcg_gen_shl_i64(dst, src, shift_amount);
4703         break;
4704     case A64_SHIFT_TYPE_LSR:
4705         tcg_gen_shr_i64(dst, src, shift_amount);
4706         break;
4707     case A64_SHIFT_TYPE_ASR:
4708         if (!sf) {
4709             tcg_gen_ext32s_i64(dst, src);
4710         }
4711         tcg_gen_sar_i64(dst, sf ? src : dst, shift_amount);
4712         break;
4713     case A64_SHIFT_TYPE_ROR:
4714         if (sf) {
4715             tcg_gen_rotr_i64(dst, src, shift_amount);
4716         } else {
4717             TCGv_i32 t0, t1;
4718             t0 = tcg_temp_new_i32();
4719             t1 = tcg_temp_new_i32();
4720             tcg_gen_extrl_i64_i32(t0, src);
4721             tcg_gen_extrl_i64_i32(t1, shift_amount);
4722             tcg_gen_rotr_i32(t0, t0, t1);
4723             tcg_gen_extu_i32_i64(dst, t0);
4724             tcg_temp_free_i32(t0);
4725             tcg_temp_free_i32(t1);
4726         }
4727         break;
4728     default:
4729         assert(FALSE); /* all shift types should be handled */
4730         break;
4731     }
4732
4733     if (!sf) { /* zero extend final result */
4734         tcg_gen_ext32u_i64(dst, dst);
4735     }
4736 }
4737
4738 /* Shift a TCGv src by immediate, put result in dst.
4739  * The shift amount must be in range (this should always be true as the
4740  * relevant instructions will UNDEF on bad shift immediates).
4741  */
4742 static void shift_reg_imm(TCGv_i64 dst, TCGv_i64 src, int sf,
4743                           enum a64_shift_type shift_type, unsigned int shift_i)
4744 {
4745     assert(shift_i < (sf ? 64 : 32));
4746
4747     if (shift_i == 0) {
4748         tcg_gen_mov_i64(dst, src);
4749     } else {
4750         TCGv_i64 shift_const;
4751
4752         shift_const = tcg_const_i64(shift_i);
4753         shift_reg(dst, src, sf, shift_type, shift_const);
4754         tcg_temp_free_i64(shift_const);
4755     }
4756 }
4757
4758 /* Logical (shifted register)
4759  *   31  30 29 28       24 23   22 21  20  16 15    10 9    5 4    0
4760  * +----+-----+-----------+-------+---+------+--------+------+------+
4761  * | sf | opc | 0 1 0 1 0 | shift | N |  Rm  |  imm6  |  Rn  |  Rd  |
4762  * +----+-----+-----------+-------+---+------+--------+------+------+
4763  */
4764 static void disas_logic_reg(DisasContext *s, uint32_t insn)
4765 {
4766     TCGv_i64 tcg_rd, tcg_rn, tcg_rm;
4767     unsigned int sf, opc, shift_type, invert, rm, shift_amount, rn, rd;
4768
4769     sf = extract32(insn, 31, 1);
4770     opc = extract32(insn, 29, 2);
4771     shift_type = extract32(insn, 22, 2);
4772     invert = extract32(insn, 21, 1);
4773     rm = extract32(insn, 16, 5);
4774     shift_amount = extract32(insn, 10, 6);
4775     rn = extract32(insn, 5, 5);
4776     rd = extract32(insn, 0, 5);
4777
4778     if (!sf && (shift_amount & (1 << 5))) {
4779         unallocated_encoding(s);
4780         return;
4781     }
4782
4783     tcg_rd = cpu_reg(s, rd);
4784
4785     if (opc == 1 && shift_amount == 0 && shift_type == 0 && rn == 31) {
4786         /* Unshifted ORR and ORN with WZR/XZR is the standard encoding for
4787          * register-register MOV and MVN, so it is worth special casing.
4788          */
4789         tcg_rm = cpu_reg(s, rm);
4790         if (invert) {
4791             tcg_gen_not_i64(tcg_rd, tcg_rm);
4792             if (!sf) {
4793                 tcg_gen_ext32u_i64(tcg_rd, tcg_rd);
4794             }
4795         } else {
4796             if (sf) {
4797                 tcg_gen_mov_i64(tcg_rd, tcg_rm);
4798             } else {
4799                 tcg_gen_ext32u_i64(tcg_rd, tcg_rm);
4800             }
4801         }
4802         return;
4803     }
4804
4805     tcg_rm = read_cpu_reg(s, rm, sf);
4806
4807     if (shift_amount) {
4808         shift_reg_imm(tcg_rm, tcg_rm, sf, shift_type, shift_amount);
4809     }
4810
4811     tcg_rn = cpu_reg(s, rn);
4812
4813     switch (opc | (invert << 2)) {
4814     case 0: /* AND */
4815     case 3: /* ANDS */
4816         tcg_gen_and_i64(tcg_rd, tcg_rn, tcg_rm);
4817         break;
4818     case 1: /* ORR */
4819         tcg_gen_or_i64(tcg_rd, tcg_rn, tcg_rm);
4820         break;
4821     case 2: /* EOR */
4822         tcg_gen_xor_i64(tcg_rd, tcg_rn, tcg_rm);
4823         break;
4824     case 4: /* BIC */
4825     case 7: /* BICS */
4826         tcg_gen_andc_i64(tcg_rd, tcg_rn, tcg_rm);
4827         break;
4828     case 5: /* ORN */
4829         tcg_gen_orc_i64(tcg_rd, tcg_rn, tcg_rm);
4830         break;
4831     case 6: /* EON */
4832         tcg_gen_eqv_i64(tcg_rd, tcg_rn, tcg_rm);
4833         break;
4834     default:
4835         assert(FALSE);
4836         break;
4837     }
4838
4839     if (!sf) {
4840         tcg_gen_ext32u_i64(tcg_rd, tcg_rd);
4841     }
4842
4843     if (opc == 3) {
4844         gen_logic_CC(sf, tcg_rd);
4845     }
4846 }
4847
4848 /*
4849  * Add/subtract (extended register)
4850  *
4851  *  31|30|29|28       24|23 22|21|20   16|15  13|12  10|9  5|4  0|
4852  * +--+--+--+-----------+-----+--+-------+------+------+----+----+
4853  * |sf|op| S| 0 1 0 1 1 | opt | 1|  Rm   |option| imm3 | Rn | Rd |
4854  * +--+--+--+-----------+-----+--+-------+------+------+----+----+
4855  *
4856  *  sf: 0 -> 32bit, 1 -> 64bit
4857  *  op: 0 -> add  , 1 -> sub
4858  *   S: 1 -> set flags
4859  * opt: 00
4860  * option: extension type (see DecodeRegExtend)
4861  * imm3: optional shift to Rm
4862  *
4863  * Rd = Rn + LSL(extend(Rm), amount)
4864  */
4865 static void disas_add_sub_ext_reg(DisasContext *s, uint32_t insn)
4866 {
4867     int rd = extract32(insn, 0, 5);
4868     int rn = extract32(insn, 5, 5);
4869     int imm3 = extract32(insn, 10, 3);
4870     int option = extract32(insn, 13, 3);
4871     int rm = extract32(insn, 16, 5);
4872     int opt = extract32(insn, 22, 2);
4873     bool setflags = extract32(insn, 29, 1);
4874     bool sub_op = extract32(insn, 30, 1);
4875     bool sf = extract32(insn, 31, 1);
4876
4877     TCGv_i64 tcg_rm, tcg_rn; /* temps */
4878     TCGv_i64 tcg_rd;
4879     TCGv_i64 tcg_result;
4880
4881     if (imm3 > 4 || opt != 0) {
4882         unallocated_encoding(s);
4883         return;
4884     }
4885
4886     /* non-flag setting ops may use SP */
4887     if (!setflags) {
4888         tcg_rd = cpu_reg_sp(s, rd);
4889     } else {
4890         tcg_rd = cpu_reg(s, rd);
4891     }
4892     tcg_rn = read_cpu_reg_sp(s, rn, sf);
4893
4894     tcg_rm = read_cpu_reg(s, rm, sf);
4895     ext_and_shift_reg(tcg_rm, tcg_rm, option, imm3);
4896
4897     tcg_result = tcg_temp_new_i64();
4898
4899     if (!setflags) {
4900         if (sub_op) {
4901             tcg_gen_sub_i64(tcg_result, tcg_rn, tcg_rm);
4902         } else {
4903             tcg_gen_add_i64(tcg_result, tcg_rn, tcg_rm);
4904         }
4905     } else {
4906         if (sub_op) {
4907             gen_sub_CC(sf, tcg_result, tcg_rn, tcg_rm);
4908         } else {
4909             gen_add_CC(sf, tcg_result, tcg_rn, tcg_rm);
4910         }
4911     }
4912
4913     if (sf) {
4914         tcg_gen_mov_i64(tcg_rd, tcg_result);
4915     } else {
4916         tcg_gen_ext32u_i64(tcg_rd, tcg_result);
4917     }
4918
4919     tcg_temp_free_i64(tcg_result);
4920 }
4921
4922 /*
4923  * Add/subtract (shifted register)
4924  *
4925  *  31 30 29 28       24 23 22 21 20   16 15     10 9    5 4    0
4926  * +--+--+--+-----------+-----+--+-------+---------+------+------+
4927  * |sf|op| S| 0 1 0 1 1 |shift| 0|  Rm   |  imm6   |  Rn  |  Rd  |
4928  * +--+--+--+-----------+-----+--+-------+---------+------+------+
4929  *
4930  *    sf: 0 -> 32bit, 1 -> 64bit
4931  *    op: 0 -> add  , 1 -> sub
4932  *     S: 1 -> set flags
4933  * shift: 00 -> LSL, 01 -> LSR, 10 -> ASR, 11 -> RESERVED
4934  *  imm6: Shift amount to apply to Rm before the add/sub
4935  */
4936 static void disas_add_sub_reg(DisasContext *s, uint32_t insn)
4937 {
4938     int rd = extract32(insn, 0, 5);
4939     int rn = extract32(insn, 5, 5);
4940     int imm6 = extract32(insn, 10, 6);
4941     int rm = extract32(insn, 16, 5);
4942     int shift_type = extract32(insn, 22, 2);
4943     bool setflags = extract32(insn, 29, 1);
4944     bool sub_op = extract32(insn, 30, 1);
4945     bool sf = extract32(insn, 31, 1);
4946
4947     TCGv_i64 tcg_rd = cpu_reg(s, rd);
4948     TCGv_i64 tcg_rn, tcg_rm;
4949     TCGv_i64 tcg_result;
4950
4951     if ((shift_type == 3) || (!sf && (imm6 > 31))) {
4952         unallocated_encoding(s);
4953         return;
4954     }
4955
4956     tcg_rn = read_cpu_reg(s, rn, sf);
4957     tcg_rm = read_cpu_reg(s, rm, sf);
4958
4959     shift_reg_imm(tcg_rm, tcg_rm, sf, shift_type, imm6);
4960
4961     tcg_result = tcg_temp_new_i64();
4962
4963     if (!setflags) {
4964         if (sub_op) {
4965             tcg_gen_sub_i64(tcg_result, tcg_rn, tcg_rm);
4966         } else {
4967             tcg_gen_add_i64(tcg_result, tcg_rn, tcg_rm);
4968         }
4969     } else {
4970         if (sub_op) {
4971             gen_sub_CC(sf, tcg_result, tcg_rn, tcg_rm);
4972         } else {
4973             gen_add_CC(sf, tcg_result, tcg_rn, tcg_rm);
4974         }
4975     }
4976
4977     if (sf) {
4978         tcg_gen_mov_i64(tcg_rd, tcg_result);
4979     } else {
4980         tcg_gen_ext32u_i64(tcg_rd, tcg_result);
4981     }
4982
4983     tcg_temp_free_i64(tcg_result);
4984 }
4985
4986 /* Data-processing (3 source)
4987  *
4988  *    31 30  29 28       24 23 21  20  16  15  14  10 9    5 4    0
4989  *  +--+------+-----------+------+------+----+------+------+------+
4990  *  |sf| op54 | 1 1 0 1 1 | op31 |  Rm  | o0 |  Ra  |  Rn  |  Rd  |
4991  *  +--+------+-----------+------+------+----+------+------+------+
4992  */
4993 static void disas_data_proc_3src(DisasContext *s, uint32_t insn)
4994 {
4995     int rd = extract32(insn, 0, 5);
4996     int rn = extract32(insn, 5, 5);
4997     int ra = extract32(insn, 10, 5);
4998     int rm = extract32(insn, 16, 5);
4999     int op_id = (extract32(insn, 29, 3) << 4) |
5000         (extract32(insn, 21, 3) << 1) |
5001         extract32(insn, 15, 1);
5002     bool sf = extract32(insn, 31, 1);
5003     bool is_sub = extract32(op_id, 0, 1);
5004     bool is_high = extract32(op_id, 2, 1);
5005     bool is_signed = false;
5006     TCGv_i64 tcg_op1;
5007     TCGv_i64 tcg_op2;
5008     TCGv_i64 tcg_tmp;
5009
5010     /* Note that op_id is sf:op54:op31:o0 so it includes the 32/64 size flag */
5011     switch (op_id) {
5012     case 0x42: /* SMADDL */
5013     case 0x43: /* SMSUBL */
5014     case 0x44: /* SMULH */
5015         is_signed = true;
5016         break;
5017     case 0x0: /* MADD (32bit) */
5018     case 0x1: /* MSUB (32bit) */
5019     case 0x40: /* MADD (64bit) */
5020     case 0x41: /* MSUB (64bit) */
5021     case 0x4a: /* UMADDL */
5022     case 0x4b: /* UMSUBL */
5023     case 0x4c: /* UMULH */
5024         break;
5025     default:
5026         unallocated_encoding(s);
5027         return;
5028     }
5029
5030     if (is_high) {
5031         TCGv_i64 low_bits = tcg_temp_new_i64(); /* low bits discarded */
5032         TCGv_i64 tcg_rd = cpu_reg(s, rd);
5033         TCGv_i64 tcg_rn = cpu_reg(s, rn);
5034         TCGv_i64 tcg_rm = cpu_reg(s, rm);
5035
5036         if (is_signed) {
5037             tcg_gen_muls2_i64(low_bits, tcg_rd, tcg_rn, tcg_rm);
5038         } else {
5039             tcg_gen_mulu2_i64(low_bits, tcg_rd, tcg_rn, tcg_rm);
5040         }
5041
5042         tcg_temp_free_i64(low_bits);
5043         return;
5044     }
5045
5046     tcg_op1 = tcg_temp_new_i64();
5047     tcg_op2 = tcg_temp_new_i64();
5048     tcg_tmp = tcg_temp_new_i64();
5049
5050     if (op_id < 0x42) {
5051         tcg_gen_mov_i64(tcg_op1, cpu_reg(s, rn));
5052         tcg_gen_mov_i64(tcg_op2, cpu_reg(s, rm));
5053     } else {
5054         if (is_signed) {
5055             tcg_gen_ext32s_i64(tcg_op1, cpu_reg(s, rn));
5056             tcg_gen_ext32s_i64(tcg_op2, cpu_reg(s, rm));
5057         } else {
5058             tcg_gen_ext32u_i64(tcg_op1, cpu_reg(s, rn));
5059             tcg_gen_ext32u_i64(tcg_op2, cpu_reg(s, rm));
5060         }
5061     }
5062
5063     if (ra == 31 && !is_sub) {
5064         /* Special-case MADD with rA == XZR; it is the standard MUL alias */
5065         tcg_gen_mul_i64(cpu_reg(s, rd), tcg_op1, tcg_op2);
5066     } else {
5067         tcg_gen_mul_i64(tcg_tmp, tcg_op1, tcg_op2);
5068         if (is_sub) {
5069             tcg_gen_sub_i64(cpu_reg(s, rd), cpu_reg(s, ra), tcg_tmp);
5070         } else {
5071             tcg_gen_add_i64(cpu_reg(s, rd), cpu_reg(s, ra), tcg_tmp);
5072         }
5073     }
5074
5075     if (!sf) {
5076         tcg_gen_ext32u_i64(cpu_reg(s, rd), cpu_reg(s, rd));
5077     }
5078
5079     tcg_temp_free_i64(tcg_op1);
5080     tcg_temp_free_i64(tcg_op2);
5081     tcg_temp_free_i64(tcg_tmp);
5082 }
5083
5084 /* Add/subtract (with carry)
5085  *  31 30 29 28 27 26 25 24 23 22 21  20  16  15       10  9    5 4   0
5086  * +--+--+--+------------------------+------+-------------+------+-----+
5087  * |sf|op| S| 1  1  0  1  0  0  0  0 |  rm  | 0 0 0 0 0 0 |  Rn  |  Rd |
5088  * +--+--+--+------------------------+------+-------------+------+-----+
5089  */
5090
5091 static void disas_adc_sbc(DisasContext *s, uint32_t insn)
5092 {
5093     unsigned int sf, op, setflags, rm, rn, rd;
5094     TCGv_i64 tcg_y, tcg_rn, tcg_rd;
5095
5096     sf = extract32(insn, 31, 1);
5097     op = extract32(insn, 30, 1);
5098     setflags = extract32(insn, 29, 1);
5099     rm = extract32(insn, 16, 5);
5100     rn = extract32(insn, 5, 5);
5101     rd = extract32(insn, 0, 5);
5102
5103     tcg_rd = cpu_reg(s, rd);
5104     tcg_rn = cpu_reg(s, rn);
5105
5106     if (op) {
5107         tcg_y = new_tmp_a64(s);
5108         tcg_gen_not_i64(tcg_y, cpu_reg(s, rm));
5109     } else {
5110         tcg_y = cpu_reg(s, rm);
5111     }
5112
5113     if (setflags) {
5114         gen_adc_CC(sf, tcg_rd, tcg_rn, tcg_y);
5115     } else {
5116         gen_adc(sf, tcg_rd, tcg_rn, tcg_y);
5117     }
5118 }
5119
5120 /*
5121  * Rotate right into flags
5122  *  31 30 29                21       15          10      5  4      0
5123  * +--+--+--+-----------------+--------+-----------+------+--+------+
5124  * |sf|op| S| 1 1 0 1 0 0 0 0 |  imm6  | 0 0 0 0 1 |  Rn  |o2| mask |
5125  * +--+--+--+-----------------+--------+-----------+------+--+------+
5126  */
5127 static void disas_rotate_right_into_flags(DisasContext *s, uint32_t insn)
5128 {
5129     int mask = extract32(insn, 0, 4);
5130     int o2 = extract32(insn, 4, 1);
5131     int rn = extract32(insn, 5, 5);
5132     int imm6 = extract32(insn, 15, 6);
5133     int sf_op_s = extract32(insn, 29, 3);
5134     TCGv_i64 tcg_rn;
5135     TCGv_i32 nzcv;
5136
5137     if (sf_op_s != 5 || o2 != 0 || !dc_isar_feature(aa64_condm_4, s)) {
5138         unallocated_encoding(s);
5139         return;
5140     }
5141
5142     tcg_rn = read_cpu_reg(s, rn, 1);
5143     tcg_gen_rotri_i64(tcg_rn, tcg_rn, imm6);
5144
5145     nzcv = tcg_temp_new_i32();
5146     tcg_gen_extrl_i64_i32(nzcv, tcg_rn);
5147
5148     if (mask & 8) { /* N */
5149         tcg_gen_shli_i32(cpu_NF, nzcv, 31 - 3);
5150     }
5151     if (mask & 4) { /* Z */
5152         tcg_gen_not_i32(cpu_ZF, nzcv);
5153         tcg_gen_andi_i32(cpu_ZF, cpu_ZF, 4);
5154     }
5155     if (mask & 2) { /* C */
5156         tcg_gen_extract_i32(cpu_CF, nzcv, 1, 1);
5157     }
5158     if (mask & 1) { /* V */
5159         tcg_gen_shli_i32(cpu_VF, nzcv, 31 - 0);
5160     }
5161
5162     tcg_temp_free_i32(nzcv);
5163 }
5164
5165 /*
5166  * Evaluate into flags
5167  *  31 30 29                21        15   14        10      5  4      0
5168  * +--+--+--+-----------------+---------+----+---------+------+--+------+
5169  * |sf|op| S| 1 1 0 1 0 0 0 0 | opcode2 | sz | 0 0 1 0 |  Rn  |o3| mask |
5170  * +--+--+--+-----------------+---------+----+---------+------+--+------+
5171  */
5172 static void disas_evaluate_into_flags(DisasContext *s, uint32_t insn)
5173 {
5174     int o3_mask = extract32(insn, 0, 5);
5175     int rn = extract32(insn, 5, 5);
5176     int o2 = extract32(insn, 15, 6);
5177     int sz = extract32(insn, 14, 1);
5178     int sf_op_s = extract32(insn, 29, 3);
5179     TCGv_i32 tmp;
5180     int shift;
5181
5182     if (sf_op_s != 1 || o2 != 0 || o3_mask != 0xd ||
5183         !dc_isar_feature(aa64_condm_4, s)) {
5184         unallocated_encoding(s);
5185         return;
5186     }
5187     shift = sz ? 16 : 24;  /* SETF16 or SETF8 */
5188
5189     tmp = tcg_temp_new_i32();
5190     tcg_gen_extrl_i64_i32(tmp, cpu_reg(s, rn));
5191     tcg_gen_shli_i32(cpu_NF, tmp, shift);
5192     tcg_gen_shli_i32(cpu_VF, tmp, shift - 1);
5193     tcg_gen_mov_i32(cpu_ZF, cpu_NF);
5194     tcg_gen_xor_i32(cpu_VF, cpu_VF, cpu_NF);
5195     tcg_temp_free_i32(tmp);
5196 }
5197
5198 /* Conditional compare (immediate / register)
5199  *  31 30 29 28 27 26 25 24 23 22 21  20    16 15  12  11  10  9   5  4 3   0
5200  * +--+--+--+------------------------+--------+------+----+--+------+--+-----+
5201  * |sf|op| S| 1  1  0  1  0  0  1  0 |imm5/rm | cond |i/r |o2|  Rn  |o3|nzcv |
5202  * +--+--+--+------------------------+--------+------+----+--+------+--+-----+
5203  *        [1]                             y                [0]       [0]
5204  */
5205 static void disas_cc(DisasContext *s, uint32_t insn)
5206 {
5207     unsigned int sf, op, y, cond, rn, nzcv, is_imm;
5208     TCGv_i32 tcg_t0, tcg_t1, tcg_t2;
5209     TCGv_i64 tcg_tmp, tcg_y, tcg_rn;
5210     DisasCompare c;
5211
5212     if (!extract32(insn, 29, 1)) {
5213         unallocated_encoding(s);
5214         return;
5215     }
5216     if (insn & (1 << 10 | 1 << 4)) {
5217         unallocated_encoding(s);
5218         return;
5219     }
5220     sf = extract32(insn, 31, 1);
5221     op = extract32(insn, 30, 1);
5222     is_imm = extract32(insn, 11, 1);
5223     y = extract32(insn, 16, 5); /* y = rm (reg) or imm5 (imm) */
5224     cond = extract32(insn, 12, 4);
5225     rn = extract32(insn, 5, 5);
5226     nzcv = extract32(insn, 0, 4);
5227
5228     /* Set T0 = !COND.  */
5229     tcg_t0 = tcg_temp_new_i32();
5230     arm_test_cc(&c, cond);
5231     tcg_gen_setcondi_i32(tcg_invert_cond(c.cond), tcg_t0, c.value, 0);
5232     arm_free_cc(&c);
5233
5234     /* Load the arguments for the new comparison.  */
5235     if (is_imm) {
5236         tcg_y = new_tmp_a64(s);
5237         tcg_gen_movi_i64(tcg_y, y);
5238     } else {
5239         tcg_y = cpu_reg(s, y);
5240     }
5241     tcg_rn = cpu_reg(s, rn);
5242
5243     /* Set the flags for the new comparison.  */
5244     tcg_tmp = tcg_temp_new_i64();
5245     if (op) {
5246         gen_sub_CC(sf, tcg_tmp, tcg_rn, tcg_y);
5247     } else {
5248         gen_add_CC(sf, tcg_tmp, tcg_rn, tcg_y);
5249     }
5250     tcg_temp_free_i64(tcg_tmp);
5251
5252     /* If COND was false, force the flags to #nzcv.  Compute two masks
5253      * to help with this: T1 = (COND ? 0 : -1), T2 = (COND ? -1 : 0).
5254      * For tcg hosts that support ANDC, we can make do with just T1.
5255      * In either case, allow the tcg optimizer to delete any unused mask.
5256      */
5257     tcg_t1 = tcg_temp_new_i32();
5258     tcg_t2 = tcg_temp_new_i32();
5259     tcg_gen_neg_i32(tcg_t1, tcg_t0);
5260     tcg_gen_subi_i32(tcg_t2, tcg_t0, 1);
5261
5262     if (nzcv & 8) { /* N */
5263         tcg_gen_or_i32(cpu_NF, cpu_NF, tcg_t1);
5264     } else {
5265         if (TCG_TARGET_HAS_andc_i32) {
5266             tcg_gen_andc_i32(cpu_NF, cpu_NF, tcg_t1);
5267         } else {
5268             tcg_gen_and_i32(cpu_NF, cpu_NF, tcg_t2);
5269         }
5270     }
5271     if (nzcv & 4) { /* Z */
5272         if (TCG_TARGET_HAS_andc_i32) {
5273             tcg_gen_andc_i32(cpu_ZF, cpu_ZF, tcg_t1);
5274         } else {
5275             tcg_gen_and_i32(cpu_ZF, cpu_ZF, tcg_t2);
5276         }
5277     } else {
5278         tcg_gen_or_i32(cpu_ZF, cpu_ZF, tcg_t0);
5279     }
5280     if (nzcv & 2) { /* C */
5281         tcg_gen_or_i32(cpu_CF, cpu_CF, tcg_t0);
5282     } else {
5283         if (TCG_TARGET_HAS_andc_i32) {
5284             tcg_gen_andc_i32(cpu_CF, cpu_CF, tcg_t1);
5285         } else {
5286             tcg_gen_and_i32(cpu_CF, cpu_CF, tcg_t2);
5287         }
5288     }
5289     if (nzcv & 1) { /* V */
5290         tcg_gen_or_i32(cpu_VF, cpu_VF, tcg_t1);
5291     } else {
5292         if (TCG_TARGET_HAS_andc_i32) {
5293             tcg_gen_andc_i32(cpu_VF, cpu_VF, tcg_t1);
5294         } else {
5295             tcg_gen_and_i32(cpu_VF, cpu_VF, tcg_t2);
5296         }
5297     }
5298     tcg_temp_free_i32(tcg_t0);
5299     tcg_temp_free_i32(tcg_t1);
5300     tcg_temp_free_i32(tcg_t2);
5301 }
5302
5303 /* Conditional select
5304  *   31   30  29  28             21 20  16 15  12 11 10 9    5 4    0
5305  * +----+----+---+-----------------+------+------+-----+------+------+
5306  * | sf | op | S | 1 1 0 1 0 1 0 0 |  Rm  | cond | op2 |  Rn  |  Rd  |
5307  * +----+----+---+-----------------+------+------+-----+------+------+
5308  */
5309 static void disas_cond_select(DisasContext *s, uint32_t insn)
5310 {
5311     unsigned int sf, else_inv, rm, cond, else_inc, rn, rd;
5312     TCGv_i64 tcg_rd, zero;
5313     DisasCompare64 c;
5314
5315     if (extract32(insn, 29, 1) || extract32(insn, 11, 1)) {
5316         /* S == 1 or op2<1> == 1 */
5317         unallocated_encoding(s);
5318         return;
5319     }
5320     sf = extract32(insn, 31, 1);
5321     else_inv = extract32(insn, 30, 1);
5322     rm = extract32(insn, 16, 5);
5323     cond = extract32(insn, 12, 4);
5324     else_inc = extract32(insn, 10, 1);
5325     rn = extract32(insn, 5, 5);
5326     rd = extract32(insn, 0, 5);
5327
5328     tcg_rd = cpu_reg(s, rd);
5329
5330     a64_test_cc(&c, cond);
5331     zero = tcg_const_i64(0);
5332
5333     if (rn == 31 && rm == 31 && (else_inc ^ else_inv)) {
5334         /* CSET & CSETM.  */
5335         tcg_gen_setcond_i64(tcg_invert_cond(c.cond), tcg_rd, c.value, zero);
5336         if (else_inv) {
5337             tcg_gen_neg_i64(tcg_rd, tcg_rd);
5338         }
5339     } else {
5340         TCGv_i64 t_true = cpu_reg(s, rn);
5341         TCGv_i64 t_false = read_cpu_reg(s, rm, 1);
5342         if (else_inv && else_inc) {
5343             tcg_gen_neg_i64(t_false, t_false);
5344         } else if (else_inv) {
5345             tcg_gen_not_i64(t_false, t_false);
5346         } else if (else_inc) {
5347             tcg_gen_addi_i64(t_false, t_false, 1);
5348         }
5349         tcg_gen_movcond_i64(c.cond, tcg_rd, c.value, zero, t_true, t_false);
5350     }
5351
5352     tcg_temp_free_i64(zero);
5353     a64_free_cc(&c);
5354
5355     if (!sf) {
5356         tcg_gen_ext32u_i64(tcg_rd, tcg_rd);
5357     }
5358 }
5359
5360 static void handle_clz(DisasContext *s, unsigned int sf,
5361                        unsigned int rn, unsigned int rd)
5362 {
5363     TCGv_i64 tcg_rd, tcg_rn;
5364     tcg_rd = cpu_reg(s, rd);
5365     tcg_rn = cpu_reg(s, rn);
5366
5367     if (sf) {
5368         tcg_gen_clzi_i64(tcg_rd, tcg_rn, 64);
5369     } else {
5370         TCGv_i32 tcg_tmp32 = tcg_temp_new_i32();
5371         tcg_gen_extrl_i64_i32(tcg_tmp32, tcg_rn);
5372         tcg_gen_clzi_i32(tcg_tmp32, tcg_tmp32, 32);
5373         tcg_gen_extu_i32_i64(tcg_rd, tcg_tmp32);
5374         tcg_temp_free_i32(tcg_tmp32);
5375     }
5376 }
5377
5378 static void handle_cls(DisasContext *s, unsigned int sf,
5379                        unsigned int rn, unsigned int rd)
5380 {
5381     TCGv_i64 tcg_rd, tcg_rn;
5382     tcg_rd = cpu_reg(s, rd);
5383     tcg_rn = cpu_reg(s, rn);
5384
5385     if (sf) {
5386         tcg_gen_clrsb_i64(tcg_rd, tcg_rn);
5387     } else {
5388         TCGv_i32 tcg_tmp32 = tcg_temp_new_i32();
5389         tcg_gen_extrl_i64_i32(tcg_tmp32, tcg_rn);
5390         tcg_gen_clrsb_i32(tcg_tmp32, tcg_tmp32);
5391         tcg_gen_extu_i32_i64(tcg_rd, tcg_tmp32);
5392         tcg_temp_free_i32(tcg_tmp32);
5393     }
5394 }
5395
5396 static void handle_rbit(DisasContext *s, unsigned int sf,
5397                         unsigned int rn, unsigned int rd)
5398 {
5399     TCGv_i64 tcg_rd, tcg_rn;
5400     tcg_rd = cpu_reg(s, rd);
5401     tcg_rn = cpu_reg(s, rn);
5402
5403     if (sf) {
5404         gen_helper_rbit64(tcg_rd, tcg_rn);
5405     } else {
5406         TCGv_i32 tcg_tmp32 = tcg_temp_new_i32();
5407         tcg_gen_extrl_i64_i32(tcg_tmp32, tcg_rn);
5408         gen_helper_rbit(tcg_tmp32, tcg_tmp32);
5409         tcg_gen_extu_i32_i64(tcg_rd, tcg_tmp32);
5410         tcg_temp_free_i32(tcg_tmp32);
5411     }
5412 }
5413
5414 /* REV with sf==1, opcode==3 ("REV64") */
5415 static void handle_rev64(DisasContext *s, unsigned int sf,
5416                          unsigned int rn, unsigned int rd)
5417 {
5418     if (!sf) {
5419         unallocated_encoding(s);
5420         return;
5421     }
5422     tcg_gen_bswap64_i64(cpu_reg(s, rd), cpu_reg(s, rn));
5423 }
5424
5425 /* REV with sf==0, opcode==2
5426  * REV32 (sf==1, opcode==2)
5427  */
5428 static void handle_rev32(DisasContext *s, unsigned int sf,
5429                          unsigned int rn, unsigned int rd)
5430 {
5431     TCGv_i64 tcg_rd = cpu_reg(s, rd);
5432     TCGv_i64 tcg_rn = cpu_reg(s, rn);
5433
5434     if (sf) {
5435         tcg_gen_bswap64_i64(tcg_rd, tcg_rn);
5436         tcg_gen_rotri_i64(tcg_rd, tcg_rd, 32);
5437     } else {
5438         tcg_gen_bswap32_i64(tcg_rd, tcg_rn, TCG_BSWAP_OZ);
5439     }
5440 }
5441
5442 /* REV16 (opcode==1) */
5443 static void handle_rev16(DisasContext *s, unsigned int sf,
5444                          unsigned int rn, unsigned int rd)
5445 {
5446     TCGv_i64 tcg_rd = cpu_reg(s, rd);
5447     TCGv_i64 tcg_tmp = tcg_temp_new_i64();
5448     TCGv_i64 tcg_rn = read_cpu_reg(s, rn, sf);
5449     TCGv_i64 mask = tcg_const_i64(sf ? 0x00ff00ff00ff00ffull : 0x00ff00ff);
5450
5451     tcg_gen_shri_i64(tcg_tmp, tcg_rn, 8);
5452     tcg_gen_and_i64(tcg_rd, tcg_rn, mask);
5453     tcg_gen_and_i64(tcg_tmp, tcg_tmp, mask);
5454     tcg_gen_shli_i64(tcg_rd, tcg_rd, 8);
5455     tcg_gen_or_i64(tcg_rd, tcg_rd, tcg_tmp);
5456
5457     tcg_temp_free_i64(mask);
5458     tcg_temp_free_i64(tcg_tmp);
5459 }
5460
5461 /* Data-processing (1 source)
5462  *   31  30  29  28             21 20     16 15    10 9    5 4    0
5463  * +----+---+---+-----------------+---------+--------+------+------+
5464  * | sf | 1 | S | 1 1 0 1 0 1 1 0 | opcode2 | opcode |  Rn  |  Rd  |
5465  * +----+---+---+-----------------+---------+--------+------+------+
5466  */
5467 static void disas_data_proc_1src(DisasContext *s, uint32_t insn)
5468 {
5469     unsigned int sf, opcode, opcode2, rn, rd;
5470     TCGv_i64 tcg_rd;
5471
5472     if (extract32(insn, 29, 1)) {
5473         unallocated_encoding(s);
5474         return;
5475     }
5476
5477     sf = extract32(insn, 31, 1);
5478     opcode = extract32(insn, 10, 6);
5479     opcode2 = extract32(insn, 16, 5);
5480     rn = extract32(insn, 5, 5);
5481     rd = extract32(insn, 0, 5);
5482
5483 #define MAP(SF, O2, O1) ((SF) | (O1 << 1) | (O2 << 7))
5484
5485     switch (MAP(sf, opcode2, opcode)) {
5486     case MAP(0, 0x00, 0x00): /* RBIT */
5487     case MAP(1, 0x00, 0x00):
5488         handle_rbit(s, sf, rn, rd);
5489         break;
5490     case MAP(0, 0x00, 0x01): /* REV16 */
5491     case MAP(1, 0x00, 0x01):
5492         handle_rev16(s, sf, rn, rd);
5493         break;
5494     case MAP(0, 0x00, 0x02): /* REV/REV32 */
5495     case MAP(1, 0x00, 0x02):
5496         handle_rev32(s, sf, rn, rd);
5497         break;
5498     case MAP(1, 0x00, 0x03): /* REV64 */
5499         handle_rev64(s, sf, rn, rd);
5500         break;
5501     case MAP(0, 0x00, 0x04): /* CLZ */
5502     case MAP(1, 0x00, 0x04):
5503         handle_clz(s, sf, rn, rd);
5504         break;
5505     case MAP(0, 0x00, 0x05): /* CLS */
5506     case MAP(1, 0x00, 0x05):
5507         handle_cls(s, sf, rn, rd);
5508         break;
5509     case MAP(1, 0x01, 0x00): /* PACIA */
5510         if (s->pauth_active) {
5511             tcg_rd = cpu_reg(s, rd);
5512             gen_helper_pacia(tcg_rd, cpu_env, tcg_rd, cpu_reg_sp(s, rn));
5513         } else if (!dc_isar_feature(aa64_pauth, s)) {
5514             goto do_unallocated;
5515         }
5516         break;
5517     case MAP(1, 0x01, 0x01): /* PACIB */
5518         if (s->pauth_active) {
5519             tcg_rd = cpu_reg(s, rd);
5520             gen_helper_pacib(tcg_rd, cpu_env, tcg_rd, cpu_reg_sp(s, rn));
5521         } else if (!dc_isar_feature(aa64_pauth, s)) {
5522             goto do_unallocated;
5523         }
5524         break;
5525     case MAP(1, 0x01, 0x02): /* PACDA */
5526         if (s->pauth_active) {
5527             tcg_rd = cpu_reg(s, rd);
5528             gen_helper_pacda(tcg_rd, cpu_env, tcg_rd, cpu_reg_sp(s, rn));
5529         } else if (!dc_isar_feature(aa64_pauth, s)) {
5530             goto do_unallocated;
5531         }
5532         break;
5533     case MAP(1, 0x01, 0x03): /* PACDB */
5534         if (s->pauth_active) {
5535             tcg_rd = cpu_reg(s, rd);
5536             gen_helper_pacdb(tcg_rd, cpu_env, tcg_rd, cpu_reg_sp(s, rn));
5537         } else if (!dc_isar_feature(aa64_pauth, s)) {
5538             goto do_unallocated;
5539         }
5540         break;
5541     case MAP(1, 0x01, 0x04): /* AUTIA */
5542         if (s->pauth_active) {
5543             tcg_rd = cpu_reg(s, rd);
5544             gen_helper_autia(tcg_rd, cpu_env, tcg_rd, cpu_reg_sp(s, rn));
5545         } else if (!dc_isar_feature(aa64_pauth, s)) {
5546             goto do_unallocated;
5547         }
5548         break;
5549     case MAP(1, 0x01, 0x05): /* AUTIB */
5550         if (s->pauth_active) {
5551             tcg_rd = cpu_reg(s, rd);
5552             gen_helper_autib(tcg_rd, cpu_env, tcg_rd, cpu_reg_sp(s, rn));
5553         } else if (!dc_isar_feature(aa64_pauth, s)) {
5554             goto do_unallocated;
5555         }
5556         break;
5557     case MAP(1, 0x01, 0x06): /* AUTDA */
5558         if (s->pauth_active) {
5559             tcg_rd = cpu_reg(s, rd);
5560             gen_helper_autda(tcg_rd, cpu_env, tcg_rd, cpu_reg_sp(s, rn));
5561         } else if (!dc_isar_feature(aa64_pauth, s)) {
5562             goto do_unallocated;
5563         }
5564         break;
5565     case MAP(1, 0x01, 0x07): /* AUTDB */
5566         if (s->pauth_active) {
5567             tcg_rd = cpu_reg(s, rd);
5568             gen_helper_autdb(tcg_rd, cpu_env, tcg_rd, cpu_reg_sp(s, rn));
5569         } else if (!dc_isar_feature(aa64_pauth, s)) {
5570             goto do_unallocated;
5571         }
5572         break;
5573     case MAP(1, 0x01, 0x08): /* PACIZA */
5574         if (!dc_isar_feature(aa64_pauth, s) || rn != 31) {
5575             goto do_unallocated;
5576         } else if (s->pauth_active) {
5577             tcg_rd = cpu_reg(s, rd);
5578             gen_helper_pacia(tcg_rd, cpu_env, tcg_rd, new_tmp_a64_zero(s));
5579         }
5580         break;
5581     case MAP(1, 0x01, 0x09): /* PACIZB */
5582         if (!dc_isar_feature(aa64_pauth, s) || rn != 31) {
5583             goto do_unallocated;
5584         } else if (s->pauth_active) {
5585             tcg_rd = cpu_reg(s, rd);
5586             gen_helper_pacib(tcg_rd, cpu_env, tcg_rd, new_tmp_a64_zero(s));
5587         }
5588         break;
5589     case MAP(1, 0x01, 0x0a): /* PACDZA */
5590         if (!dc_isar_feature(aa64_pauth, s) || rn != 31) {
5591             goto do_unallocated;
5592         } else if (s->pauth_active) {
5593             tcg_rd = cpu_reg(s, rd);
5594             gen_helper_pacda(tcg_rd, cpu_env, tcg_rd, new_tmp_a64_zero(s));
5595         }
5596         break;
5597     case MAP(1, 0x01, 0x0b): /* PACDZB */
5598         if (!dc_isar_feature(aa64_pauth, s) || rn != 31) {
5599             goto do_unallocated;
5600         } else if (s->pauth_active) {
5601             tcg_rd = cpu_reg(s, rd);
5602             gen_helper_pacdb(tcg_rd, cpu_env, tcg_rd, new_tmp_a64_zero(s));
5603         }
5604         break;
5605     case MAP(1, 0x01, 0x0c): /* AUTIZA */
5606         if (!dc_isar_feature(aa64_pauth, s) || rn != 31) {
5607             goto do_unallocated;
5608         } else if (s->pauth_active) {
5609             tcg_rd = cpu_reg(s, rd);
5610             gen_helper_autia(tcg_rd, cpu_env, tcg_rd, new_tmp_a64_zero(s));
5611         }
5612         break;
5613     case MAP(1, 0x01, 0x0d): /* AUTIZB */
5614         if (!dc_isar_feature(aa64_pauth, s) || rn != 31) {
5615             goto do_unallocated;
5616         } else if (s->pauth_active) {
5617             tcg_rd = cpu_reg(s, rd);
5618             gen_helper_autib(tcg_rd, cpu_env, tcg_rd, new_tmp_a64_zero(s));
5619         }
5620         break;
5621     case MAP(1, 0x01, 0x0e): /* AUTDZA */
5622         if (!dc_isar_feature(aa64_pauth, s) || rn != 31) {
5623             goto do_unallocated;
5624         } else if (s->pauth_active) {
5625             tcg_rd = cpu_reg(s, rd);
5626             gen_helper_autda(tcg_rd, cpu_env, tcg_rd, new_tmp_a64_zero(s));
5627         }
5628         break;
5629     case MAP(1, 0x01, 0x0f): /* AUTDZB */
5630         if (!dc_isar_feature(aa64_pauth, s) || rn != 31) {
5631             goto do_unallocated;
5632         } else if (s->pauth_active) {
5633             tcg_rd = cpu_reg(s, rd);
5634             gen_helper_autdb(tcg_rd, cpu_env, tcg_rd, new_tmp_a64_zero(s));
5635         }
5636         break;
5637     case MAP(1, 0x01, 0x10): /* XPACI */
5638         if (!dc_isar_feature(aa64_pauth, s) || rn != 31) {
5639             goto do_unallocated;
5640         } else if (s->pauth_active) {
5641             tcg_rd = cpu_reg(s, rd);
5642             gen_helper_xpaci(tcg_rd, cpu_env, tcg_rd);
5643         }
5644         break;
5645     case MAP(1, 0x01, 0x11): /* XPACD */
5646         if (!dc_isar_feature(aa64_pauth, s) || rn != 31) {
5647             goto do_unallocated;
5648         } else if (s->pauth_active) {
5649             tcg_rd = cpu_reg(s, rd);
5650             gen_helper_xpacd(tcg_rd, cpu_env, tcg_rd);
5651         }
5652         break;
5653     default:
5654     do_unallocated:
5655         unallocated_encoding(s);
5656         break;
5657     }
5658
5659 #undef MAP
5660 }
5661
5662 static void handle_div(DisasContext *s, bool is_signed, unsigned int sf,
5663                        unsigned int rm, unsigned int rn, unsigned int rd)
5664 {
5665     TCGv_i64 tcg_n, tcg_m, tcg_rd;
5666     tcg_rd = cpu_reg(s, rd);
5667
5668     if (!sf && is_signed) {
5669         tcg_n = new_tmp_a64(s);
5670         tcg_m = new_tmp_a64(s);
5671         tcg_gen_ext32s_i64(tcg_n, cpu_reg(s, rn));
5672         tcg_gen_ext32s_i64(tcg_m, cpu_reg(s, rm));
5673     } else {
5674         tcg_n = read_cpu_reg(s, rn, sf);
5675         tcg_m = read_cpu_reg(s, rm, sf);
5676     }
5677
5678     if (is_signed) {
5679         gen_helper_sdiv64(tcg_rd, tcg_n, tcg_m);
5680     } else {
5681         gen_helper_udiv64(tcg_rd, tcg_n, tcg_m);
5682     }
5683
5684     if (!sf) { /* zero extend final result */
5685         tcg_gen_ext32u_i64(tcg_rd, tcg_rd);
5686     }
5687 }
5688
5689 /* LSLV, LSRV, ASRV, RORV */
5690 static void handle_shift_reg(DisasContext *s,
5691                              enum a64_shift_type shift_type, unsigned int sf,
5692                              unsigned int rm, unsigned int rn, unsigned int rd)
5693 {
5694     TCGv_i64 tcg_shift = tcg_temp_new_i64();
5695     TCGv_i64 tcg_rd = cpu_reg(s, rd);
5696     TCGv_i64 tcg_rn = read_cpu_reg(s, rn, sf);
5697
5698     tcg_gen_andi_i64(tcg_shift, cpu_reg(s, rm), sf ? 63 : 31);
5699     shift_reg(tcg_rd, tcg_rn, sf, shift_type, tcg_shift);
5700     tcg_temp_free_i64(tcg_shift);
5701 }
5702
5703 /* CRC32[BHWX], CRC32C[BHWX] */
5704 static void handle_crc32(DisasContext *s,
5705                          unsigned int sf, unsigned int sz, bool crc32c,
5706                          unsigned int rm, unsigned int rn, unsigned int rd)
5707 {
5708     TCGv_i64 tcg_acc, tcg_val;
5709     TCGv_i32 tcg_bytes;
5710
5711     if (!dc_isar_feature(aa64_crc32, s)
5712         || (sf == 1 && sz != 3)
5713         || (sf == 0 && sz == 3)) {
5714         unallocated_encoding(s);
5715         return;
5716     }
5717
5718     if (sz == 3) {
5719         tcg_val = cpu_reg(s, rm);
5720     } else {
5721         uint64_t mask;
5722         switch (sz) {
5723         case 0:
5724             mask = 0xFF;
5725             break;
5726         case 1:
5727             mask = 0xFFFF;
5728             break;
5729         case 2:
5730             mask = 0xFFFFFFFF;
5731             break;
5732         default:
5733             g_assert_not_reached();
5734         }
5735         tcg_val = new_tmp_a64(s);
5736         tcg_gen_andi_i64(tcg_val, cpu_reg(s, rm), mask);
5737     }
5738
5739     tcg_acc = cpu_reg(s, rn);
5740     tcg_bytes = tcg_const_i32(1 << sz);
5741
5742     if (crc32c) {
5743         gen_helper_crc32c_64(cpu_reg(s, rd), tcg_acc, tcg_val, tcg_bytes);
5744     } else {
5745         gen_helper_crc32_64(cpu_reg(s, rd), tcg_acc, tcg_val, tcg_bytes);
5746     }
5747
5748     tcg_temp_free_i32(tcg_bytes);
5749 }
5750
5751 /* Data-processing (2 source)
5752  *   31   30  29 28             21 20  16 15    10 9    5 4    0
5753  * +----+---+---+-----------------+------+--------+------+------+
5754  * | sf | 0 | S | 1 1 0 1 0 1 1 0 |  Rm  | opcode |  Rn  |  Rd  |
5755  * +----+---+---+-----------------+------+--------+------+------+
5756  */
5757 static void disas_data_proc_2src(DisasContext *s, uint32_t insn)
5758 {
5759     unsigned int sf, rm, opcode, rn, rd, setflag;
5760     sf = extract32(insn, 31, 1);
5761     setflag = extract32(insn, 29, 1);
5762     rm = extract32(insn, 16, 5);
5763     opcode = extract32(insn, 10, 6);
5764     rn = extract32(insn, 5, 5);
5765     rd = extract32(insn, 0, 5);
5766
5767     if (setflag && opcode != 0) {
5768         unallocated_encoding(s);
5769         return;
5770     }
5771
5772     switch (opcode) {
5773     case 0: /* SUBP(S) */
5774         if (sf == 0 || !dc_isar_feature(aa64_mte_insn_reg, s)) {
5775             goto do_unallocated;
5776         } else {
5777             TCGv_i64 tcg_n, tcg_m, tcg_d;
5778
5779             tcg_n = read_cpu_reg_sp(s, rn, true);
5780             tcg_m = read_cpu_reg_sp(s, rm, true);
5781             tcg_gen_sextract_i64(tcg_n, tcg_n, 0, 56);
5782             tcg_gen_sextract_i64(tcg_m, tcg_m, 0, 56);
5783             tcg_d = cpu_reg(s, rd);
5784
5785             if (setflag) {
5786                 gen_sub_CC(true, tcg_d, tcg_n, tcg_m);
5787             } else {
5788                 tcg_gen_sub_i64(tcg_d, tcg_n, tcg_m);
5789             }
5790         }
5791         break;
5792     case 2: /* UDIV */
5793         handle_div(s, false, sf, rm, rn, rd);
5794         break;
5795     case 3: /* SDIV */
5796         handle_div(s, true, sf, rm, rn, rd);
5797         break;
5798     case 4: /* IRG */
5799         if (sf == 0 || !dc_isar_feature(aa64_mte_insn_reg, s)) {
5800             goto do_unallocated;
5801         }
5802         if (s->ata) {
5803             gen_helper_irg(cpu_reg_sp(s, rd), cpu_env,
5804                            cpu_reg_sp(s, rn), cpu_reg(s, rm));
5805         } else {
5806             gen_address_with_allocation_tag0(cpu_reg_sp(s, rd),
5807                                              cpu_reg_sp(s, rn));
5808         }
5809         break;
5810     case 5: /* GMI */
5811         if (sf == 0 || !dc_isar_feature(aa64_mte_insn_reg, s)) {
5812             goto do_unallocated;
5813         } else {
5814             TCGv_i64 t1 = tcg_const_i64(1);
5815             TCGv_i64 t2 = tcg_temp_new_i64();
5816
5817             tcg_gen_extract_i64(t2, cpu_reg_sp(s, rn), 56, 4);
5818             tcg_gen_shl_i64(t1, t1, t2);
5819             tcg_gen_or_i64(cpu_reg(s, rd), cpu_reg(s, rm), t1);
5820
5821             tcg_temp_free_i64(t1);
5822             tcg_temp_free_i64(t2);
5823         }
5824         break;
5825     case 8: /* LSLV */
5826         handle_shift_reg(s, A64_SHIFT_TYPE_LSL, sf, rm, rn, rd);
5827         break;
5828     case 9: /* LSRV */
5829         handle_shift_reg(s, A64_SHIFT_TYPE_LSR, sf, rm, rn, rd);
5830         break;
5831     case 10: /* ASRV */
5832         handle_shift_reg(s, A64_SHIFT_TYPE_ASR, sf, rm, rn, rd);
5833         break;
5834     case 11: /* RORV */
5835         handle_shift_reg(s, A64_SHIFT_TYPE_ROR, sf, rm, rn, rd);
5836         break;
5837     case 12: /* PACGA */
5838         if (sf == 0 || !dc_isar_feature(aa64_pauth, s)) {
5839             goto do_unallocated;
5840         }
5841         gen_helper_pacga(cpu_reg(s, rd), cpu_env,
5842                          cpu_reg(s, rn), cpu_reg_sp(s, rm));
5843         break;
5844     case 16:
5845     case 17:
5846     case 18:
5847     case 19:
5848     case 20:
5849     case 21:
5850     case 22:
5851     case 23: /* CRC32 */
5852     {
5853         int sz = extract32(opcode, 0, 2);
5854         bool crc32c = extract32(opcode, 2, 1);
5855         handle_crc32(s, sf, sz, crc32c, rm, rn, rd);
5856         break;
5857     }
5858     default:
5859     do_unallocated:
5860         unallocated_encoding(s);
5861         break;
5862     }
5863 }
5864
5865 /*
5866  * Data processing - register
5867  *  31  30 29  28      25    21  20  16      10         0
5868  * +--+---+--+---+-------+-----+-------+-------+---------+
5869  * |  |op0|  |op1| 1 0 1 | op2 |       |  op3  |         |
5870  * +--+---+--+---+-------+-----+-------+-------+---------+
5871  */
5872 static void disas_data_proc_reg(DisasContext *s, uint32_t insn)
5873 {
5874     int op0 = extract32(insn, 30, 1);
5875     int op1 = extract32(insn, 28, 1);
5876     int op2 = extract32(insn, 21, 4);
5877     int op3 = extract32(insn, 10, 6);
5878
5879     if (!op1) {
5880         if (op2 & 8) {
5881             if (op2 & 1) {
5882                 /* Add/sub (extended register) */
5883                 disas_add_sub_ext_reg(s, insn);
5884             } else {
5885                 /* Add/sub (shifted register) */
5886                 disas_add_sub_reg(s, insn);
5887             }
5888         } else {
5889             /* Logical (shifted register) */
5890             disas_logic_reg(s, insn);
5891         }
5892         return;
5893     }
5894
5895     switch (op2) {
5896     case 0x0:
5897         switch (op3) {
5898         case 0x00: /* Add/subtract (with carry) */
5899             disas_adc_sbc(s, insn);
5900             break;
5901
5902         case 0x01: /* Rotate right into flags */
5903         case 0x21:
5904             disas_rotate_right_into_flags(s, insn);
5905             break;
5906
5907         case 0x02: /* Evaluate into flags */
5908         case 0x12:
5909         case 0x22:
5910         case 0x32:
5911             disas_evaluate_into_flags(s, insn);
5912             break;
5913
5914         default:
5915             goto do_unallocated;
5916         }
5917         break;
5918
5919     case 0x2: /* Conditional compare */
5920         disas_cc(s, insn); /* both imm and reg forms */
5921         break;
5922
5923     case 0x4: /* Conditional select */
5924         disas_cond_select(s, insn);
5925         break;
5926
5927     case 0x6: /* Data-processing */
5928         if (op0) {    /* (1 source) */
5929             disas_data_proc_1src(s, insn);
5930         } else {      /* (2 source) */
5931             disas_data_proc_2src(s, insn);
5932         }
5933         break;
5934     case 0x8 ... 0xf: /* (3 source) */
5935         disas_data_proc_3src(s, insn);
5936         break;
5937
5938     default:
5939     do_unallocated:
5940         unallocated_encoding(s);
5941         break;
5942     }
5943 }
5944
5945 static void handle_fp_compare(DisasContext *s, int size,
5946                               unsigned int rn, unsigned int rm,
5947                               bool cmp_with_zero, bool signal_all_nans)
5948 {
5949     TCGv_i64 tcg_flags = tcg_temp_new_i64();
5950     TCGv_ptr fpst = fpstatus_ptr(size == MO_16 ? FPST_FPCR_F16 : FPST_FPCR);
5951
5952     if (size == MO_64) {
5953         TCGv_i64 tcg_vn, tcg_vm;
5954
5955         tcg_vn = read_fp_dreg(s, rn);
5956         if (cmp_with_zero) {
5957             tcg_vm = tcg_const_i64(0);
5958         } else {
5959             tcg_vm = read_fp_dreg(s, rm);
5960         }
5961         if (signal_all_nans) {
5962             gen_helper_vfp_cmped_a64(tcg_flags, tcg_vn, tcg_vm, fpst);
5963         } else {
5964             gen_helper_vfp_cmpd_a64(tcg_flags, tcg_vn, tcg_vm, fpst);
5965         }
5966         tcg_temp_free_i64(tcg_vn);
5967         tcg_temp_free_i64(tcg_vm);
5968     } else {
5969         TCGv_i32 tcg_vn = tcg_temp_new_i32();
5970         TCGv_i32 tcg_vm = tcg_temp_new_i32();
5971
5972         read_vec_element_i32(s, tcg_vn, rn, 0, size);
5973         if (cmp_with_zero) {
5974             tcg_gen_movi_i32(tcg_vm, 0);
5975         } else {
5976             read_vec_element_i32(s, tcg_vm, rm, 0, size);
5977         }
5978
5979         switch (size) {
5980         case MO_32:
5981             if (signal_all_nans) {
5982                 gen_helper_vfp_cmpes_a64(tcg_flags, tcg_vn, tcg_vm, fpst);
5983             } else {
5984                 gen_helper_vfp_cmps_a64(tcg_flags, tcg_vn, tcg_vm, fpst);
5985             }
5986             break;
5987         case MO_16:
5988             if (signal_all_nans) {
5989                 gen_helper_vfp_cmpeh_a64(tcg_flags, tcg_vn, tcg_vm, fpst);
5990             } else {
5991                 gen_helper_vfp_cmph_a64(tcg_flags, tcg_vn, tcg_vm, fpst);
5992             }
5993             break;
5994         default:
5995             g_assert_not_reached();
5996         }
5997
5998         tcg_temp_free_i32(tcg_vn);
5999         tcg_temp_free_i32(tcg_vm);
6000     }
6001
6002     tcg_temp_free_ptr(fpst);
6003
6004     gen_set_nzcv(tcg_flags);
6005
6006     tcg_temp_free_i64(tcg_flags);
6007 }
6008
6009 /* Floating point compare
6010  *   31  30  29 28       24 23  22  21 20  16 15 14 13  10    9    5 4     0
6011  * +---+---+---+-----------+------+---+------+-----+---------+------+-------+
6012  * | M | 0 | S | 1 1 1 1 0 | type | 1 |  Rm  | op  | 1 0 0 0 |  Rn  |  op2  |
6013  * +---+---+---+-----------+------+---+------+-----+---------+------+-------+
6014  */
6015 static void disas_fp_compare(DisasContext *s, uint32_t insn)
6016 {
6017     unsigned int mos, type, rm, op, rn, opc, op2r;
6018     int size;
6019
6020     mos = extract32(insn, 29, 3);
6021     type = extract32(insn, 22, 2);
6022     rm = extract32(insn, 16, 5);
6023     op = extract32(insn, 14, 2);
6024     rn = extract32(insn, 5, 5);
6025     opc = extract32(insn, 3, 2);
6026     op2r = extract32(insn, 0, 3);
6027
6028     if (mos || op || op2r) {
6029         unallocated_encoding(s);
6030         return;
6031     }
6032
6033     switch (type) {
6034     case 0:
6035         size = MO_32;
6036         break;
6037     case 1:
6038         size = MO_64;
6039         break;
6040     case 3:
6041         size = MO_16;
6042         if (dc_isar_feature(aa64_fp16, s)) {
6043             break;
6044         }
6045         /* fallthru */
6046     default:
6047         unallocated_encoding(s);
6048         return;
6049     }
6050
6051     if (!fp_access_check(s)) {
6052         return;
6053     }
6054
6055     handle_fp_compare(s, size, rn, rm, opc & 1, opc & 2);
6056 }
6057
6058 /* Floating point conditional compare
6059  *   31  30  29 28       24 23  22  21 20  16 15  12 11 10 9    5  4   3    0
6060  * +---+---+---+-----------+------+---+------+------+-----+------+----+------+
6061  * | M | 0 | S | 1 1 1 1 0 | type | 1 |  Rm  | cond | 0 1 |  Rn  | op | nzcv |
6062  * +---+---+---+-----------+------+---+------+------+-----+------+----+------+
6063  */
6064 static void disas_fp_ccomp(DisasContext *s, uint32_t insn)
6065 {
6066     unsigned int mos, type, rm, cond, rn, op, nzcv;
6067     TCGv_i64 tcg_flags;
6068     TCGLabel *label_continue = NULL;
6069     int size;
6070
6071     mos = extract32(insn, 29, 3);
6072     type = extract32(insn, 22, 2);
6073     rm = extract32(insn, 16, 5);
6074     cond = extract32(insn, 12, 4);
6075     rn = extract32(insn, 5, 5);
6076     op = extract32(insn, 4, 1);
6077     nzcv = extract32(insn, 0, 4);
6078
6079     if (mos) {
6080         unallocated_encoding(s);
6081         return;
6082     }
6083
6084     switch (type) {
6085     case 0:
6086         size = MO_32;
6087         break;
6088     case 1:
6089         size = MO_64;
6090         break;
6091     case 3:
6092         size = MO_16;
6093         if (dc_isar_feature(aa64_fp16, s)) {
6094             break;
6095         }
6096         /* fallthru */
6097     default:
6098         unallocated_encoding(s);
6099         return;
6100     }
6101
6102     if (!fp_access_check(s)) {
6103         return;
6104     }
6105
6106     if (cond < 0x0e) { /* not always */
6107         TCGLabel *label_match = gen_new_label();
6108         label_continue = gen_new_label();
6109         arm_gen_test_cc(cond, label_match);
6110         /* nomatch: */
6111         tcg_flags = tcg_const_i64(nzcv << 28);
6112         gen_set_nzcv(tcg_flags);
6113         tcg_temp_free_i64(tcg_flags);
6114         tcg_gen_br(label_continue);
6115         gen_set_label(label_match);
6116     }
6117
6118     handle_fp_compare(s, size, rn, rm, false, op);
6119
6120     if (cond < 0x0e) {
6121         gen_set_label(label_continue);
6122     }
6123 }
6124
6125 /* Floating point conditional select
6126  *   31  30  29 28       24 23  22  21 20  16 15  12 11 10 9    5 4    0
6127  * +---+---+---+-----------+------+---+------+------+-----+------+------+
6128  * | M | 0 | S | 1 1 1 1 0 | type | 1 |  Rm  | cond | 1 1 |  Rn  |  Rd  |
6129  * +---+---+---+-----------+------+---+------+------+-----+------+------+
6130  */
6131 static void disas_fp_csel(DisasContext *s, uint32_t insn)
6132 {
6133     unsigned int mos, type, rm, cond, rn, rd;
6134     TCGv_i64 t_true, t_false, t_zero;
6135     DisasCompare64 c;
6136     MemOp sz;
6137
6138     mos = extract32(insn, 29, 3);
6139     type = extract32(insn, 22, 2);
6140     rm = extract32(insn, 16, 5);
6141     cond = extract32(insn, 12, 4);
6142     rn = extract32(insn, 5, 5);
6143     rd = extract32(insn, 0, 5);
6144
6145     if (mos) {
6146         unallocated_encoding(s);
6147         return;
6148     }
6149
6150     switch (type) {
6151     case 0:
6152         sz = MO_32;
6153         break;
6154     case 1:
6155         sz = MO_64;
6156         break;
6157     case 3:
6158         sz = MO_16;
6159         if (dc_isar_feature(aa64_fp16, s)) {
6160             break;
6161         }
6162         /* fallthru */
6163     default:
6164         unallocated_encoding(s);
6165         return;
6166     }
6167
6168     if (!fp_access_check(s)) {
6169         return;
6170     }
6171
6172     /* Zero extend sreg & hreg inputs to 64 bits now.  */
6173     t_true = tcg_temp_new_i64();
6174     t_false = tcg_temp_new_i64();
6175     read_vec_element(s, t_true, rn, 0, sz);
6176     read_vec_element(s, t_false, rm, 0, sz);
6177
6178     a64_test_cc(&c, cond);
6179     t_zero = tcg_const_i64(0);
6180     tcg_gen_movcond_i64(c.cond, t_true, c.value, t_zero, t_true, t_false);
6181     tcg_temp_free_i64(t_zero);
6182     tcg_temp_free_i64(t_false);
6183     a64_free_cc(&c);
6184
6185     /* Note that sregs & hregs write back zeros to the high bits,
6186        and we've already done the zero-extension.  */
6187     write_fp_dreg(s, rd, t_true);
6188     tcg_temp_free_i64(t_true);
6189 }
6190
6191 /* Floating-point data-processing (1 source) - half precision */
6192 static void handle_fp_1src_half(DisasContext *s, int opcode, int rd, int rn)
6193 {
6194     TCGv_ptr fpst = NULL;
6195     TCGv_i32 tcg_op = read_fp_hreg(s, rn);
6196     TCGv_i32 tcg_res = tcg_temp_new_i32();
6197
6198     switch (opcode) {
6199     case 0x0: /* FMOV */
6200         tcg_gen_mov_i32(tcg_res, tcg_op);
6201         break;
6202     case 0x1: /* FABS */
6203         tcg_gen_andi_i32(tcg_res, tcg_op, 0x7fff);
6204         break;
6205     case 0x2: /* FNEG */
6206         tcg_gen_xori_i32(tcg_res, tcg_op, 0x8000);
6207         break;
6208     case 0x3: /* FSQRT */
6209         fpst = fpstatus_ptr(FPST_FPCR_F16);
6210         gen_helper_sqrt_f16(tcg_res, tcg_op, fpst);
6211         break;
6212     case 0x8: /* FRINTN */
6213     case 0x9: /* FRINTP */
6214     case 0xa: /* FRINTM */
6215     case 0xb: /* FRINTZ */
6216     case 0xc: /* FRINTA */
6217     {
6218         TCGv_i32 tcg_rmode = tcg_const_i32(arm_rmode_to_sf(opcode & 7));
6219         fpst = fpstatus_ptr(FPST_FPCR_F16);
6220
6221         gen_helper_set_rmode(tcg_rmode, tcg_rmode, fpst);
6222         gen_helper_advsimd_rinth(tcg_res, tcg_op, fpst);
6223
6224         gen_helper_set_rmode(tcg_rmode, tcg_rmode, fpst);
6225         tcg_temp_free_i32(tcg_rmode);
6226         break;
6227     }
6228     case 0xe: /* FRINTX */
6229         fpst = fpstatus_ptr(FPST_FPCR_F16);
6230         gen_helper_advsimd_rinth_exact(tcg_res, tcg_op, fpst);
6231         break;
6232     case 0xf: /* FRINTI */
6233         fpst = fpstatus_ptr(FPST_FPCR_F16);
6234         gen_helper_advsimd_rinth(tcg_res, tcg_op, fpst);
6235         break;
6236     default:
6237         abort();
6238     }
6239
6240     write_fp_sreg(s, rd, tcg_res);
6241
6242     if (fpst) {
6243         tcg_temp_free_ptr(fpst);
6244     }
6245     tcg_temp_free_i32(tcg_op);
6246     tcg_temp_free_i32(tcg_res);
6247 }
6248
6249 /* Floating-point data-processing (1 source) - single precision */
6250 static void handle_fp_1src_single(DisasContext *s, int opcode, int rd, int rn)
6251 {
6252     void (*gen_fpst)(TCGv_i32, TCGv_i32, TCGv_ptr);
6253     TCGv_i32 tcg_op, tcg_res;
6254     TCGv_ptr fpst;
6255     int rmode = -1;
6256
6257     tcg_op = read_fp_sreg(s, rn);
6258     tcg_res = tcg_temp_new_i32();
6259
6260     switch (opcode) {
6261     case 0x0: /* FMOV */
6262         tcg_gen_mov_i32(tcg_res, tcg_op);
6263         goto done;
6264     case 0x1: /* FABS */
6265         gen_helper_vfp_abss(tcg_res, tcg_op);
6266         goto done;
6267     case 0x2: /* FNEG */
6268         gen_helper_vfp_negs(tcg_res, tcg_op);
6269         goto done;
6270     case 0x3: /* FSQRT */
6271         gen_helper_vfp_sqrts(tcg_res, tcg_op, cpu_env);
6272         goto done;
6273     case 0x6: /* BFCVT */
6274         gen_fpst = gen_helper_bfcvt;
6275         break;
6276     case 0x8: /* FRINTN */
6277     case 0x9: /* FRINTP */
6278     case 0xa: /* FRINTM */
6279     case 0xb: /* FRINTZ */
6280     case 0xc: /* FRINTA */
6281         rmode = arm_rmode_to_sf(opcode & 7);
6282         gen_fpst = gen_helper_rints;
6283         break;
6284     case 0xe: /* FRINTX */
6285         gen_fpst = gen_helper_rints_exact;
6286         break;
6287     case 0xf: /* FRINTI */
6288         gen_fpst = gen_helper_rints;
6289         break;
6290     case 0x10: /* FRINT32Z */
6291         rmode = float_round_to_zero;
6292         gen_fpst = gen_helper_frint32_s;
6293         break;
6294     case 0x11: /* FRINT32X */
6295         gen_fpst = gen_helper_frint32_s;
6296         break;
6297     case 0x12: /* FRINT64Z */
6298         rmode = float_round_to_zero;
6299         gen_fpst = gen_helper_frint64_s;
6300         break;
6301     case 0x13: /* FRINT64X */
6302         gen_fpst = gen_helper_frint64_s;
6303         break;
6304     default:
6305         g_assert_not_reached();
6306     }
6307
6308     fpst = fpstatus_ptr(FPST_FPCR);
6309     if (rmode >= 0) {
6310         TCGv_i32 tcg_rmode = tcg_const_i32(rmode);
6311         gen_helper_set_rmode(tcg_rmode, tcg_rmode, fpst);
6312         gen_fpst(tcg_res, tcg_op, fpst);
6313         gen_helper_set_rmode(tcg_rmode, tcg_rmode, fpst);
6314         tcg_temp_free_i32(tcg_rmode);
6315     } else {
6316         gen_fpst(tcg_res, tcg_op, fpst);
6317     }
6318     tcg_temp_free_ptr(fpst);
6319
6320  done:
6321     write_fp_sreg(s, rd, tcg_res);
6322     tcg_temp_free_i32(tcg_op);
6323     tcg_temp_free_i32(tcg_res);
6324 }
6325
6326 /* Floating-point data-processing (1 source) - double precision */
6327 static void handle_fp_1src_double(DisasContext *s, int opcode, int rd, int rn)
6328 {
6329     void (*gen_fpst)(TCGv_i64, TCGv_i64, TCGv_ptr);
6330     TCGv_i64 tcg_op, tcg_res;
6331     TCGv_ptr fpst;
6332     int rmode = -1;
6333
6334     switch (opcode) {
6335     case 0x0: /* FMOV */
6336         gen_gvec_fn2(s, false, rd, rn, tcg_gen_gvec_mov, 0);
6337         return;
6338     }
6339
6340     tcg_op = read_fp_dreg(s, rn);
6341     tcg_res = tcg_temp_new_i64();
6342
6343     switch (opcode) {
6344     case 0x1: /* FABS */
6345         gen_helper_vfp_absd(tcg_res, tcg_op);
6346         goto done;
6347     case 0x2: /* FNEG */
6348         gen_helper_vfp_negd(tcg_res, tcg_op);
6349         goto done;
6350     case 0x3: /* FSQRT */
6351         gen_helper_vfp_sqrtd(tcg_res, tcg_op, cpu_env);
6352         goto done;
6353     case 0x8: /* FRINTN */
6354     case 0x9: /* FRINTP */
6355     case 0xa: /* FRINTM */
6356     case 0xb: /* FRINTZ */
6357     case 0xc: /* FRINTA */
6358         rmode = arm_rmode_to_sf(opcode & 7);
6359         gen_fpst = gen_helper_rintd;
6360         break;
6361     case 0xe: /* FRINTX */
6362         gen_fpst = gen_helper_rintd_exact;
6363         break;
6364     case 0xf: /* FRINTI */
6365         gen_fpst = gen_helper_rintd;
6366         break;
6367     case 0x10: /* FRINT32Z */
6368         rmode = float_round_to_zero;
6369         gen_fpst = gen_helper_frint32_d;
6370         break;
6371     case 0x11: /* FRINT32X */
6372         gen_fpst = gen_helper_frint32_d;
6373         break;
6374     case 0x12: /* FRINT64Z */
6375         rmode = float_round_to_zero;
6376         gen_fpst = gen_helper_frint64_d;
6377         break;
6378     case 0x13: /* FRINT64X */
6379         gen_fpst = gen_helper_frint64_d;
6380         break;
6381     default:
6382         g_assert_not_reached();
6383     }
6384
6385     fpst = fpstatus_ptr(FPST_FPCR);
6386     if (rmode >= 0) {
6387         TCGv_i32 tcg_rmode = tcg_const_i32(rmode);
6388         gen_helper_set_rmode(tcg_rmode, tcg_rmode, fpst);
6389         gen_fpst(tcg_res, tcg_op, fpst);
6390         gen_helper_set_rmode(tcg_rmode, tcg_rmode, fpst);
6391         tcg_temp_free_i32(tcg_rmode);
6392     } else {
6393         gen_fpst(tcg_res, tcg_op, fpst);
6394     }
6395     tcg_temp_free_ptr(fpst);
6396
6397  done:
6398     write_fp_dreg(s, rd, tcg_res);
6399     tcg_temp_free_i64(tcg_op);
6400     tcg_temp_free_i64(tcg_res);
6401 }
6402
6403 static void handle_fp_fcvt(DisasContext *s, int opcode,
6404                            int rd, int rn, int dtype, int ntype)
6405 {
6406     switch (ntype) {
6407     case 0x0:
6408     {
6409         TCGv_i32 tcg_rn = read_fp_sreg(s, rn);
6410         if (dtype == 1) {
6411             /* Single to double */
6412             TCGv_i64 tcg_rd = tcg_temp_new_i64();
6413             gen_helper_vfp_fcvtds(tcg_rd, tcg_rn, cpu_env);
6414             write_fp_dreg(s, rd, tcg_rd);
6415             tcg_temp_free_i64(tcg_rd);
6416         } else {
6417             /* Single to half */
6418             TCGv_i32 tcg_rd = tcg_temp_new_i32();
6419             TCGv_i32 ahp = get_ahp_flag();
6420             TCGv_ptr fpst = fpstatus_ptr(FPST_FPCR);
6421
6422             gen_helper_vfp_fcvt_f32_to_f16(tcg_rd, tcg_rn, fpst, ahp);
6423             /* write_fp_sreg is OK here because top half of tcg_rd is zero */
6424             write_fp_sreg(s, rd, tcg_rd);
6425             tcg_temp_free_i32(tcg_rd);
6426             tcg_temp_free_i32(ahp);
6427             tcg_temp_free_ptr(fpst);
6428         }
6429         tcg_temp_free_i32(tcg_rn);
6430         break;
6431     }
6432     case 0x1:
6433     {
6434         TCGv_i64 tcg_rn = read_fp_dreg(s, rn);
6435         TCGv_i32 tcg_rd = tcg_temp_new_i32();
6436         if (dtype == 0) {
6437             /* Double to single */
6438             gen_helper_vfp_fcvtsd(tcg_rd, tcg_rn, cpu_env);
6439         } else {
6440             TCGv_ptr fpst = fpstatus_ptr(FPST_FPCR);
6441             TCGv_i32 ahp = get_ahp_flag();
6442             /* Double to half */
6443             gen_helper_vfp_fcvt_f64_to_f16(tcg_rd, tcg_rn, fpst, ahp);
6444             /* write_fp_sreg is OK here because top half of tcg_rd is zero */
6445             tcg_temp_free_ptr(fpst);
6446             tcg_temp_free_i32(ahp);
6447         }
6448         write_fp_sreg(s, rd, tcg_rd);
6449         tcg_temp_free_i32(tcg_rd);
6450         tcg_temp_free_i64(tcg_rn);
6451         break;
6452     }
6453     case 0x3:
6454     {
6455         TCGv_i32 tcg_rn = read_fp_sreg(s, rn);
6456         TCGv_ptr tcg_fpst = fpstatus_ptr(FPST_FPCR);
6457         TCGv_i32 tcg_ahp = get_ahp_flag();
6458         tcg_gen_ext16u_i32(tcg_rn, tcg_rn);
6459         if (dtype == 0) {
6460             /* Half to single */
6461             TCGv_i32 tcg_rd = tcg_temp_new_i32();
6462             gen_helper_vfp_fcvt_f16_to_f32(tcg_rd, tcg_rn, tcg_fpst, tcg_ahp);
6463             write_fp_sreg(s, rd, tcg_rd);
6464             tcg_temp_free_i32(tcg_rd);
6465         } else {
6466             /* Half to double */
6467             TCGv_i64 tcg_rd = tcg_temp_new_i64();
6468             gen_helper_vfp_fcvt_f16_to_f64(tcg_rd, tcg_rn, tcg_fpst, tcg_ahp);
6469             write_fp_dreg(s, rd, tcg_rd);
6470             tcg_temp_free_i64(tcg_rd);
6471         }
6472         tcg_temp_free_i32(tcg_rn);
6473         tcg_temp_free_ptr(tcg_fpst);
6474         tcg_temp_free_i32(tcg_ahp);
6475         break;
6476     }
6477     default:
6478         abort();
6479     }
6480 }
6481
6482 /* Floating point data-processing (1 source)
6483  *   31  30  29 28       24 23  22  21 20    15 14       10 9    5 4    0
6484  * +---+---+---+-----------+------+---+--------+-----------+------+------+
6485  * | M | 0 | S | 1 1 1 1 0 | type | 1 | opcode | 1 0 0 0 0 |  Rn  |  Rd  |
6486  * +---+---+---+-----------+------+---+--------+-----------+------+------+
6487  */
6488 static void disas_fp_1src(DisasContext *s, uint32_t insn)
6489 {
6490     int mos = extract32(insn, 29, 3);
6491     int type = extract32(insn, 22, 2);
6492     int opcode = extract32(insn, 15, 6);
6493     int rn = extract32(insn, 5, 5);
6494     int rd = extract32(insn, 0, 5);
6495
6496     if (mos) {
6497         goto do_unallocated;
6498     }
6499
6500     switch (opcode) {
6501     case 0x4: case 0x5: case 0x7:
6502     {
6503         /* FCVT between half, single and double precision */
6504         int dtype = extract32(opcode, 0, 2);
6505         if (type == 2 || dtype == type) {
6506             goto do_unallocated;
6507         }
6508         if (!fp_access_check(s)) {
6509             return;
6510         }
6511
6512         handle_fp_fcvt(s, opcode, rd, rn, dtype, type);
6513         break;
6514     }
6515
6516     case 0x10 ... 0x13: /* FRINT{32,64}{X,Z} */
6517         if (type > 1 || !dc_isar_feature(aa64_frint, s)) {
6518             goto do_unallocated;
6519         }
6520         /* fall through */
6521     case 0x0 ... 0x3:
6522     case 0x8 ... 0xc:
6523     case 0xe ... 0xf:
6524         /* 32-to-32 and 64-to-64 ops */
6525         switch (type) {
6526         case 0:
6527             if (!fp_access_check(s)) {
6528                 return;
6529             }
6530             handle_fp_1src_single(s, opcode, rd, rn);
6531             break;
6532         case 1:
6533             if (!fp_access_check(s)) {
6534                 return;
6535             }
6536             handle_fp_1src_double(s, opcode, rd, rn);
6537             break;
6538         case 3:
6539             if (!dc_isar_feature(aa64_fp16, s)) {
6540                 goto do_unallocated;
6541             }
6542
6543             if (!fp_access_check(s)) {
6544                 return;
6545             }
6546             handle_fp_1src_half(s, opcode, rd, rn);
6547             break;
6548         default:
6549             goto do_unallocated;
6550         }
6551         break;
6552
6553     case 0x6:
6554         switch (type) {
6555         case 1: /* BFCVT */
6556             if (!dc_isar_feature(aa64_bf16, s)) {
6557                 goto do_unallocated;
6558             }
6559             if (!fp_access_check(s)) {
6560                 return;
6561             }
6562             handle_fp_1src_single(s, opcode, rd, rn);
6563             break;
6564         default:
6565             goto do_unallocated;
6566         }
6567         break;
6568
6569     default:
6570     do_unallocated:
6571         unallocated_encoding(s);
6572         break;
6573     }
6574 }
6575
6576 /* Floating-point data-processing (2 source) - single precision */
6577 static void handle_fp_2src_single(DisasContext *s, int opcode,
6578                                   int rd, int rn, int rm)
6579 {
6580     TCGv_i32 tcg_op1;
6581     TCGv_i32 tcg_op2;
6582     TCGv_i32 tcg_res;
6583     TCGv_ptr fpst;
6584
6585     tcg_res = tcg_temp_new_i32();
6586     fpst = fpstatus_ptr(FPST_FPCR);
6587     tcg_op1 = read_fp_sreg(s, rn);
6588     tcg_op2 = read_fp_sreg(s, rm);
6589
6590     switch (opcode) {
6591     case 0x0: /* FMUL */
6592         gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
6593         break;
6594     case 0x1: /* FDIV */
6595         gen_helper_vfp_divs(tcg_res, tcg_op1, tcg_op2, fpst);
6596         break;
6597     case 0x2: /* FADD */
6598         gen_helper_vfp_adds(tcg_res, tcg_op1, tcg_op2, fpst);
6599         break;
6600     case 0x3: /* FSUB */
6601         gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
6602         break;
6603     case 0x4: /* FMAX */
6604         gen_helper_vfp_maxs(tcg_res, tcg_op1, tcg_op2, fpst);
6605         break;
6606     case 0x5: /* FMIN */
6607         gen_helper_vfp_mins(tcg_res, tcg_op1, tcg_op2, fpst);
6608         break;
6609     case 0x6: /* FMAXNM */
6610         gen_helper_vfp_maxnums(tcg_res, tcg_op1, tcg_op2, fpst);
6611         break;
6612     case 0x7: /* FMINNM */
6613         gen_helper_vfp_minnums(tcg_res, tcg_op1, tcg_op2, fpst);
6614         break;
6615     case 0x8: /* FNMUL */
6616         gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
6617         gen_helper_vfp_negs(tcg_res, tcg_res);
6618         break;
6619     }
6620
6621     write_fp_sreg(s, rd, tcg_res);
6622
6623     tcg_temp_free_ptr(fpst);
6624     tcg_temp_free_i32(tcg_op1);
6625     tcg_temp_free_i32(tcg_op2);
6626     tcg_temp_free_i32(tcg_res);
6627 }
6628
6629 /* Floating-point data-processing (2 source) - double precision */
6630 static void handle_fp_2src_double(DisasContext *s, int opcode,
6631                                   int rd, int rn, int rm)
6632 {
6633     TCGv_i64 tcg_op1;
6634     TCGv_i64 tcg_op2;
6635     TCGv_i64 tcg_res;
6636     TCGv_ptr fpst;
6637
6638     tcg_res = tcg_temp_new_i64();
6639     fpst = fpstatus_ptr(FPST_FPCR);
6640     tcg_op1 = read_fp_dreg(s, rn);
6641     tcg_op2 = read_fp_dreg(s, rm);
6642
6643     switch (opcode) {
6644     case 0x0: /* FMUL */
6645         gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
6646         break;
6647     case 0x1: /* FDIV */
6648         gen_helper_vfp_divd(tcg_res, tcg_op1, tcg_op2, fpst);
6649         break;
6650     case 0x2: /* FADD */
6651         gen_helper_vfp_addd(tcg_res, tcg_op1, tcg_op2, fpst);
6652         break;
6653     case 0x3: /* FSUB */
6654         gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
6655         break;
6656     case 0x4: /* FMAX */
6657         gen_helper_vfp_maxd(tcg_res, tcg_op1, tcg_op2, fpst);
6658         break;
6659     case 0x5: /* FMIN */
6660         gen_helper_vfp_mind(tcg_res, tcg_op1, tcg_op2, fpst);
6661         break;
6662     case 0x6: /* FMAXNM */
6663         gen_helper_vfp_maxnumd(tcg_res, tcg_op1, tcg_op2, fpst);
6664         break;
6665     case 0x7: /* FMINNM */
6666         gen_helper_vfp_minnumd(tcg_res, tcg_op1, tcg_op2, fpst);
6667         break;
6668     case 0x8: /* FNMUL */
6669         gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
6670         gen_helper_vfp_negd(tcg_res, tcg_res);
6671         break;
6672     }
6673
6674     write_fp_dreg(s, rd, tcg_res);
6675
6676     tcg_temp_free_ptr(fpst);
6677     tcg_temp_free_i64(tcg_op1);
6678     tcg_temp_free_i64(tcg_op2);
6679     tcg_temp_free_i64(tcg_res);
6680 }
6681
6682 /* Floating-point data-processing (2 source) - half precision */
6683 static void handle_fp_2src_half(DisasContext *s, int opcode,
6684                                 int rd, int rn, int rm)
6685 {
6686     TCGv_i32 tcg_op1;
6687     TCGv_i32 tcg_op2;
6688     TCGv_i32 tcg_res;
6689     TCGv_ptr fpst;
6690
6691     tcg_res = tcg_temp_new_i32();
6692     fpst = fpstatus_ptr(FPST_FPCR_F16);
6693     tcg_op1 = read_fp_hreg(s, rn);
6694     tcg_op2 = read_fp_hreg(s, rm);
6695
6696     switch (opcode) {
6697     case 0x0: /* FMUL */
6698         gen_helper_advsimd_mulh(tcg_res, tcg_op1, tcg_op2, fpst);
6699         break;
6700     case 0x1: /* FDIV */
6701         gen_helper_advsimd_divh(tcg_res, tcg_op1, tcg_op2, fpst);
6702         break;
6703     case 0x2: /* FADD */
6704         gen_helper_advsimd_addh(tcg_res, tcg_op1, tcg_op2, fpst);
6705         break;
6706     case 0x3: /* FSUB */
6707         gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
6708         break;
6709     case 0x4: /* FMAX */
6710         gen_helper_advsimd_maxh(tcg_res, tcg_op1, tcg_op2, fpst);
6711         break;
6712     case 0x5: /* FMIN */
6713         gen_helper_advsimd_minh(tcg_res, tcg_op1, tcg_op2, fpst);
6714         break;
6715     case 0x6: /* FMAXNM */
6716         gen_helper_advsimd_maxnumh(tcg_res, tcg_op1, tcg_op2, fpst);
6717         break;
6718     case 0x7: /* FMINNM */
6719         gen_helper_advsimd_minnumh(tcg_res, tcg_op1, tcg_op2, fpst);
6720         break;
6721     case 0x8: /* FNMUL */
6722         gen_helper_advsimd_mulh(tcg_res, tcg_op1, tcg_op2, fpst);
6723         tcg_gen_xori_i32(tcg_res, tcg_res, 0x8000);
6724         break;
6725     default:
6726         g_assert_not_reached();
6727     }
6728
6729     write_fp_sreg(s, rd, tcg_res);
6730
6731     tcg_temp_free_ptr(fpst);
6732     tcg_temp_free_i32(tcg_op1);
6733     tcg_temp_free_i32(tcg_op2);
6734     tcg_temp_free_i32(tcg_res);
6735 }
6736
6737 /* Floating point data-processing (2 source)
6738  *   31  30  29 28       24 23  22  21 20  16 15    12 11 10 9    5 4    0
6739  * +---+---+---+-----------+------+---+------+--------+-----+------+------+
6740  * | M | 0 | S | 1 1 1 1 0 | type | 1 |  Rm  | opcode | 1 0 |  Rn  |  Rd  |
6741  * +---+---+---+-----------+------+---+------+--------+-----+------+------+
6742  */
6743 static void disas_fp_2src(DisasContext *s, uint32_t insn)
6744 {
6745     int mos = extract32(insn, 29, 3);
6746     int type = extract32(insn, 22, 2);
6747     int rd = extract32(insn, 0, 5);
6748     int rn = extract32(insn, 5, 5);
6749     int rm = extract32(insn, 16, 5);
6750     int opcode = extract32(insn, 12, 4);
6751
6752     if (opcode > 8 || mos) {
6753         unallocated_encoding(s);
6754         return;
6755     }
6756
6757     switch (type) {
6758     case 0:
6759         if (!fp_access_check(s)) {
6760             return;
6761         }
6762         handle_fp_2src_single(s, opcode, rd, rn, rm);
6763         break;
6764     case 1:
6765         if (!fp_access_check(s)) {
6766             return;
6767         }
6768         handle_fp_2src_double(s, opcode, rd, rn, rm);
6769         break;
6770     case 3:
6771         if (!dc_isar_feature(aa64_fp16, s)) {
6772             unallocated_encoding(s);
6773             return;
6774         }
6775         if (!fp_access_check(s)) {
6776             return;
6777         }
6778         handle_fp_2src_half(s, opcode, rd, rn, rm);
6779         break;
6780     default:
6781         unallocated_encoding(s);
6782     }
6783 }
6784
6785 /* Floating-point data-processing (3 source) - single precision */
6786 static void handle_fp_3src_single(DisasContext *s, bool o0, bool o1,
6787                                   int rd, int rn, int rm, int ra)
6788 {
6789     TCGv_i32 tcg_op1, tcg_op2, tcg_op3;
6790     TCGv_i32 tcg_res = tcg_temp_new_i32();
6791     TCGv_ptr fpst = fpstatus_ptr(FPST_FPCR);
6792
6793     tcg_op1 = read_fp_sreg(s, rn);
6794     tcg_op2 = read_fp_sreg(s, rm);
6795     tcg_op3 = read_fp_sreg(s, ra);
6796
6797     /* These are fused multiply-add, and must be done as one
6798      * floating point operation with no rounding between the
6799      * multiplication and addition steps.
6800      * NB that doing the negations here as separate steps is
6801      * correct : an input NaN should come out with its sign bit
6802      * flipped if it is a negated-input.
6803      */
6804     if (o1 == true) {
6805         gen_helper_vfp_negs(tcg_op3, tcg_op3);
6806     }
6807
6808     if (o0 != o1) {
6809         gen_helper_vfp_negs(tcg_op1, tcg_op1);
6810     }
6811
6812     gen_helper_vfp_muladds(tcg_res, tcg_op1, tcg_op2, tcg_op3, fpst);
6813
6814     write_fp_sreg(s, rd, tcg_res);
6815
6816     tcg_temp_free_ptr(fpst);
6817     tcg_temp_free_i32(tcg_op1);
6818     tcg_temp_free_i32(tcg_op2);
6819     tcg_temp_free_i32(tcg_op3);
6820     tcg_temp_free_i32(tcg_res);
6821 }
6822
6823 /* Floating-point data-processing (3 source) - double precision */
6824 static void handle_fp_3src_double(DisasContext *s, bool o0, bool o1,
6825                                   int rd, int rn, int rm, int ra)
6826 {
6827     TCGv_i64 tcg_op1, tcg_op2, tcg_op3;
6828     TCGv_i64 tcg_res = tcg_temp_new_i64();
6829     TCGv_ptr fpst = fpstatus_ptr(FPST_FPCR);
6830
6831     tcg_op1 = read_fp_dreg(s, rn);
6832     tcg_op2 = read_fp_dreg(s, rm);
6833     tcg_op3 = read_fp_dreg(s, ra);
6834
6835     /* These are fused multiply-add, and must be done as one
6836      * floating point operation with no rounding between the
6837      * multiplication and addition steps.
6838      * NB that doing the negations here as separate steps is
6839      * correct : an input NaN should come out with its sign bit
6840      * flipped if it is a negated-input.
6841      */
6842     if (o1 == true) {
6843         gen_helper_vfp_negd(tcg_op3, tcg_op3);
6844     }
6845
6846     if (o0 != o1) {
6847         gen_helper_vfp_negd(tcg_op1, tcg_op1);
6848     }
6849
6850     gen_helper_vfp_muladdd(tcg_res, tcg_op1, tcg_op2, tcg_op3, fpst);
6851
6852     write_fp_dreg(s, rd, tcg_res);
6853
6854     tcg_temp_free_ptr(fpst);
6855     tcg_temp_free_i64(tcg_op1);
6856     tcg_temp_free_i64(tcg_op2);
6857     tcg_temp_free_i64(tcg_op3);
6858     tcg_temp_free_i64(tcg_res);
6859 }
6860
6861 /* Floating-point data-processing (3 source) - half precision */
6862 static void handle_fp_3src_half(DisasContext *s, bool o0, bool o1,
6863                                 int rd, int rn, int rm, int ra)
6864 {
6865     TCGv_i32 tcg_op1, tcg_op2, tcg_op3;
6866     TCGv_i32 tcg_res = tcg_temp_new_i32();
6867     TCGv_ptr fpst = fpstatus_ptr(FPST_FPCR_F16);
6868
6869     tcg_op1 = read_fp_hreg(s, rn);
6870     tcg_op2 = read_fp_hreg(s, rm);
6871     tcg_op3 = read_fp_hreg(s, ra);
6872
6873     /* These are fused multiply-add, and must be done as one
6874      * floating point operation with no rounding between the
6875      * multiplication and addition steps.
6876      * NB that doing the negations here as separate steps is
6877      * correct : an input NaN should come out with its sign bit
6878      * flipped if it is a negated-input.
6879      */
6880     if (o1 == true) {
6881         tcg_gen_xori_i32(tcg_op3, tcg_op3, 0x8000);
6882     }
6883
6884     if (o0 != o1) {
6885         tcg_gen_xori_i32(tcg_op1, tcg_op1, 0x8000);
6886     }
6887
6888     gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_op3, fpst);
6889
6890     write_fp_sreg(s, rd, tcg_res);
6891
6892     tcg_temp_free_ptr(fpst);
6893     tcg_temp_free_i32(tcg_op1);
6894     tcg_temp_free_i32(tcg_op2);
6895     tcg_temp_free_i32(tcg_op3);
6896     tcg_temp_free_i32(tcg_res);
6897 }
6898
6899 /* Floating point data-processing (3 source)
6900  *   31  30  29 28       24 23  22  21  20  16  15  14  10 9    5 4    0
6901  * +---+---+---+-----------+------+----+------+----+------+------+------+
6902  * | M | 0 | S | 1 1 1 1 1 | type | o1 |  Rm  | o0 |  Ra  |  Rn  |  Rd  |
6903  * +---+---+---+-----------+------+----+------+----+------+------+------+
6904  */
6905 static void disas_fp_3src(DisasContext *s, uint32_t insn)
6906 {
6907     int mos = extract32(insn, 29, 3);
6908     int type = extract32(insn, 22, 2);
6909     int rd = extract32(insn, 0, 5);
6910     int rn = extract32(insn, 5, 5);
6911     int ra = extract32(insn, 10, 5);
6912     int rm = extract32(insn, 16, 5);
6913     bool o0 = extract32(insn, 15, 1);
6914     bool o1 = extract32(insn, 21, 1);
6915
6916     if (mos) {
6917         unallocated_encoding(s);
6918         return;
6919     }
6920
6921     switch (type) {
6922     case 0:
6923         if (!fp_access_check(s)) {
6924             return;
6925         }
6926         handle_fp_3src_single(s, o0, o1, rd, rn, rm, ra);
6927         break;
6928     case 1:
6929         if (!fp_access_check(s)) {
6930             return;
6931         }
6932         handle_fp_3src_double(s, o0, o1, rd, rn, rm, ra);
6933         break;
6934     case 3:
6935         if (!dc_isar_feature(aa64_fp16, s)) {
6936             unallocated_encoding(s);
6937             return;
6938         }
6939         if (!fp_access_check(s)) {
6940             return;
6941         }
6942         handle_fp_3src_half(s, o0, o1, rd, rn, rm, ra);
6943         break;
6944     default:
6945         unallocated_encoding(s);
6946     }
6947 }
6948
6949 /* Floating point immediate
6950  *   31  30  29 28       24 23  22  21 20        13 12   10 9    5 4    0
6951  * +---+---+---+-----------+------+---+------------+-------+------+------+
6952  * | M | 0 | S | 1 1 1 1 0 | type | 1 |    imm8    | 1 0 0 | imm5 |  Rd  |
6953  * +---+---+---+-----------+------+---+------------+-------+------+------+
6954  */
6955 static void disas_fp_imm(DisasContext *s, uint32_t insn)
6956 {
6957     int rd = extract32(insn, 0, 5);
6958     int imm5 = extract32(insn, 5, 5);
6959     int imm8 = extract32(insn, 13, 8);
6960     int type = extract32(insn, 22, 2);
6961     int mos = extract32(insn, 29, 3);
6962     uint64_t imm;
6963     TCGv_i64 tcg_res;
6964     MemOp sz;
6965
6966     if (mos || imm5) {
6967         unallocated_encoding(s);
6968         return;
6969     }
6970
6971     switch (type) {
6972     case 0:
6973         sz = MO_32;
6974         break;
6975     case 1:
6976         sz = MO_64;
6977         break;
6978     case 3:
6979         sz = MO_16;
6980         if (dc_isar_feature(aa64_fp16, s)) {
6981             break;
6982         }
6983         /* fallthru */
6984     default:
6985         unallocated_encoding(s);
6986         return;
6987     }
6988
6989     if (!fp_access_check(s)) {
6990         return;
6991     }
6992
6993     imm = vfp_expand_imm(sz, imm8);
6994
6995     tcg_res = tcg_const_i64(imm);
6996     write_fp_dreg(s, rd, tcg_res);
6997     tcg_temp_free_i64(tcg_res);
6998 }
6999
7000 /* Handle floating point <=> fixed point conversions. Note that we can
7001  * also deal with fp <=> integer conversions as a special case (scale == 64)
7002  * OPTME: consider handling that special case specially or at least skipping
7003  * the call to scalbn in the helpers for zero shifts.
7004  */
7005 static void handle_fpfpcvt(DisasContext *s, int rd, int rn, int opcode,
7006                            bool itof, int rmode, int scale, int sf, int type)
7007 {
7008     bool is_signed = !(opcode & 1);
7009     TCGv_ptr tcg_fpstatus;
7010     TCGv_i32 tcg_shift, tcg_single;
7011     TCGv_i64 tcg_double;
7012
7013     tcg_fpstatus = fpstatus_ptr(type == 3 ? FPST_FPCR_F16 : FPST_FPCR);
7014
7015     tcg_shift = tcg_const_i32(64 - scale);
7016
7017     if (itof) {
7018         TCGv_i64 tcg_int = cpu_reg(s, rn);
7019         if (!sf) {
7020             TCGv_i64 tcg_extend = new_tmp_a64(s);
7021
7022             if (is_signed) {
7023                 tcg_gen_ext32s_i64(tcg_extend, tcg_int);
7024             } else {
7025                 tcg_gen_ext32u_i64(tcg_extend, tcg_int);
7026             }
7027
7028             tcg_int = tcg_extend;
7029         }
7030
7031         switch (type) {
7032         case 1: /* float64 */
7033             tcg_double = tcg_temp_new_i64();
7034             if (is_signed) {
7035                 gen_helper_vfp_sqtod(tcg_double, tcg_int,
7036                                      tcg_shift, tcg_fpstatus);
7037             } else {
7038                 gen_helper_vfp_uqtod(tcg_double, tcg_int,
7039                                      tcg_shift, tcg_fpstatus);
7040             }
7041             write_fp_dreg(s, rd, tcg_double);
7042             tcg_temp_free_i64(tcg_double);
7043             break;
7044
7045         case 0: /* float32 */
7046             tcg_single = tcg_temp_new_i32();
7047             if (is_signed) {
7048                 gen_helper_vfp_sqtos(tcg_single, tcg_int,
7049                                      tcg_shift, tcg_fpstatus);
7050             } else {
7051                 gen_helper_vfp_uqtos(tcg_single, tcg_int,
7052                                      tcg_shift, tcg_fpstatus);
7053             }
7054             write_fp_sreg(s, rd, tcg_single);
7055             tcg_temp_free_i32(tcg_single);
7056             break;
7057
7058         case 3: /* float16 */
7059             tcg_single = tcg_temp_new_i32();
7060             if (is_signed) {
7061                 gen_helper_vfp_sqtoh(tcg_single, tcg_int,
7062                                      tcg_shift, tcg_fpstatus);
7063             } else {
7064                 gen_helper_vfp_uqtoh(tcg_single, tcg_int,
7065                                      tcg_shift, tcg_fpstatus);
7066             }
7067             write_fp_sreg(s, rd, tcg_single);
7068             tcg_temp_free_i32(tcg_single);
7069             break;
7070
7071         default:
7072             g_assert_not_reached();
7073         }
7074     } else {
7075         TCGv_i64 tcg_int = cpu_reg(s, rd);
7076         TCGv_i32 tcg_rmode;
7077
7078         if (extract32(opcode, 2, 1)) {
7079             /* There are too many rounding modes to all fit into rmode,
7080              * so FCVTA[US] is a special case.
7081              */
7082             rmode = FPROUNDING_TIEAWAY;
7083         }
7084
7085         tcg_rmode = tcg_const_i32(arm_rmode_to_sf(rmode));
7086
7087         gen_helper_set_rmode(tcg_rmode, tcg_rmode, tcg_fpstatus);
7088
7089         switch (type) {
7090         case 1: /* float64 */
7091             tcg_double = read_fp_dreg(s, rn);
7092             if (is_signed) {
7093                 if (!sf) {
7094                     gen_helper_vfp_tosld(tcg_int, tcg_double,
7095                                          tcg_shift, tcg_fpstatus);
7096                 } else {
7097                     gen_helper_vfp_tosqd(tcg_int, tcg_double,
7098                                          tcg_shift, tcg_fpstatus);
7099                 }
7100             } else {
7101                 if (!sf) {
7102                     gen_helper_vfp_tould(tcg_int, tcg_double,
7103                                          tcg_shift, tcg_fpstatus);
7104                 } else {
7105                     gen_helper_vfp_touqd(tcg_int, tcg_double,
7106                                          tcg_shift, tcg_fpstatus);
7107                 }
7108             }
7109             if (!sf) {
7110                 tcg_gen_ext32u_i64(tcg_int, tcg_int);
7111             }
7112             tcg_temp_free_i64(tcg_double);
7113             break;
7114
7115         case 0: /* float32 */
7116             tcg_single = read_fp_sreg(s, rn);
7117             if (sf) {
7118                 if (is_signed) {
7119                     gen_helper_vfp_tosqs(tcg_int, tcg_single,
7120                                          tcg_shift, tcg_fpstatus);
7121                 } else {
7122                     gen_helper_vfp_touqs(tcg_int, tcg_single,
7123                                          tcg_shift, tcg_fpstatus);
7124                 }
7125             } else {
7126                 TCGv_i32 tcg_dest = tcg_temp_new_i32();
7127                 if (is_signed) {
7128                     gen_helper_vfp_tosls(tcg_dest, tcg_single,
7129                                          tcg_shift, tcg_fpstatus);
7130                 } else {
7131                     gen_helper_vfp_touls(tcg_dest, tcg_single,
7132                                          tcg_shift, tcg_fpstatus);
7133                 }
7134                 tcg_gen_extu_i32_i64(tcg_int, tcg_dest);
7135                 tcg_temp_free_i32(tcg_dest);
7136             }
7137             tcg_temp_free_i32(tcg_single);
7138             break;
7139
7140         case 3: /* float16 */
7141             tcg_single = read_fp_sreg(s, rn);
7142             if (sf) {
7143                 if (is_signed) {
7144                     gen_helper_vfp_tosqh(tcg_int, tcg_single,
7145                                          tcg_shift, tcg_fpstatus);
7146                 } else {
7147                     gen_helper_vfp_touqh(tcg_int, tcg_single,
7148                                          tcg_shift, tcg_fpstatus);
7149                 }
7150             } else {
7151                 TCGv_i32 tcg_dest = tcg_temp_new_i32();
7152                 if (is_signed) {
7153                     gen_helper_vfp_toslh(tcg_dest, tcg_single,
7154                                          tcg_shift, tcg_fpstatus);
7155                 } else {
7156                     gen_helper_vfp_toulh(tcg_dest, tcg_single,
7157                                          tcg_shift, tcg_fpstatus);
7158                 }
7159                 tcg_gen_extu_i32_i64(tcg_int, tcg_dest);
7160                 tcg_temp_free_i32(tcg_dest);
7161             }
7162             tcg_temp_free_i32(tcg_single);
7163             break;
7164
7165         default:
7166             g_assert_not_reached();
7167         }
7168
7169         gen_helper_set_rmode(tcg_rmode, tcg_rmode, tcg_fpstatus);
7170         tcg_temp_free_i32(tcg_rmode);
7171     }
7172
7173     tcg_temp_free_ptr(tcg_fpstatus);
7174     tcg_temp_free_i32(tcg_shift);
7175 }
7176
7177 /* Floating point <-> fixed point conversions
7178  *   31   30  29 28       24 23  22  21 20   19 18    16 15   10 9    5 4    0
7179  * +----+---+---+-----------+------+---+-------+--------+-------+------+------+
7180  * | sf | 0 | S | 1 1 1 1 0 | type | 0 | rmode | opcode | scale |  Rn  |  Rd  |
7181  * +----+---+---+-----------+------+---+-------+--------+-------+------+------+
7182  */
7183 static void disas_fp_fixed_conv(DisasContext *s, uint32_t insn)
7184 {
7185     int rd = extract32(insn, 0, 5);
7186     int rn = extract32(insn, 5, 5);
7187     int scale = extract32(insn, 10, 6);
7188     int opcode = extract32(insn, 16, 3);
7189     int rmode = extract32(insn, 19, 2);
7190     int type = extract32(insn, 22, 2);
7191     bool sbit = extract32(insn, 29, 1);
7192     bool sf = extract32(insn, 31, 1);
7193     bool itof;
7194
7195     if (sbit || (!sf && scale < 32)) {
7196         unallocated_encoding(s);
7197         return;
7198     }
7199
7200     switch (type) {
7201     case 0: /* float32 */
7202     case 1: /* float64 */
7203         break;
7204     case 3: /* float16 */
7205         if (dc_isar_feature(aa64_fp16, s)) {
7206             break;
7207         }
7208         /* fallthru */
7209     default:
7210         unallocated_encoding(s);
7211         return;
7212     }
7213
7214     switch ((rmode << 3) | opcode) {
7215     case 0x2: /* SCVTF */
7216     case 0x3: /* UCVTF */
7217         itof = true;
7218         break;
7219     case 0x18: /* FCVTZS */
7220     case 0x19: /* FCVTZU */
7221         itof = false;
7222         break;
7223     default:
7224         unallocated_encoding(s);
7225         return;
7226     }
7227
7228     if (!fp_access_check(s)) {
7229         return;
7230     }
7231
7232     handle_fpfpcvt(s, rd, rn, opcode, itof, FPROUNDING_ZERO, scale, sf, type);
7233 }
7234
7235 static void handle_fmov(DisasContext *s, int rd, int rn, int type, bool itof)
7236 {
7237     /* FMOV: gpr to or from float, double, or top half of quad fp reg,
7238      * without conversion.
7239      */
7240
7241     if (itof) {
7242         TCGv_i64 tcg_rn = cpu_reg(s, rn);
7243         TCGv_i64 tmp;
7244
7245         switch (type) {
7246         case 0:
7247             /* 32 bit */
7248             tmp = tcg_temp_new_i64();
7249             tcg_gen_ext32u_i64(tmp, tcg_rn);
7250             write_fp_dreg(s, rd, tmp);
7251             tcg_temp_free_i64(tmp);
7252             break;
7253         case 1:
7254             /* 64 bit */
7255             write_fp_dreg(s, rd, tcg_rn);
7256             break;
7257         case 2:
7258             /* 64 bit to top half. */
7259             tcg_gen_st_i64(tcg_rn, cpu_env, fp_reg_hi_offset(s, rd));
7260             clear_vec_high(s, true, rd);
7261             break;
7262         case 3:
7263             /* 16 bit */
7264             tmp = tcg_temp_new_i64();
7265             tcg_gen_ext16u_i64(tmp, tcg_rn);
7266             write_fp_dreg(s, rd, tmp);
7267             tcg_temp_free_i64(tmp);
7268             break;
7269         default:
7270             g_assert_not_reached();
7271         }
7272     } else {
7273         TCGv_i64 tcg_rd = cpu_reg(s, rd);
7274
7275         switch (type) {
7276         case 0:
7277             /* 32 bit */
7278             tcg_gen_ld32u_i64(tcg_rd, cpu_env, fp_reg_offset(s, rn, MO_32));
7279             break;
7280         case 1:
7281             /* 64 bit */
7282             tcg_gen_ld_i64(tcg_rd, cpu_env, fp_reg_offset(s, rn, MO_64));
7283             break;
7284         case 2:
7285             /* 64 bits from top half */
7286             tcg_gen_ld_i64(tcg_rd, cpu_env, fp_reg_hi_offset(s, rn));
7287             break;
7288         case 3:
7289             /* 16 bit */
7290             tcg_gen_ld16u_i64(tcg_rd, cpu_env, fp_reg_offset(s, rn, MO_16));
7291             break;
7292         default:
7293             g_assert_not_reached();
7294         }
7295     }
7296 }
7297
7298 static void handle_fjcvtzs(DisasContext *s, int rd, int rn)
7299 {
7300     TCGv_i64 t = read_fp_dreg(s, rn);
7301     TCGv_ptr fpstatus = fpstatus_ptr(FPST_FPCR);
7302
7303     gen_helper_fjcvtzs(t, t, fpstatus);
7304
7305     tcg_temp_free_ptr(fpstatus);
7306
7307     tcg_gen_ext32u_i64(cpu_reg(s, rd), t);
7308     tcg_gen_extrh_i64_i32(cpu_ZF, t);
7309     tcg_gen_movi_i32(cpu_CF, 0);
7310     tcg_gen_movi_i32(cpu_NF, 0);
7311     tcg_gen_movi_i32(cpu_VF, 0);
7312
7313     tcg_temp_free_i64(t);
7314 }
7315
7316 /* Floating point <-> integer conversions
7317  *   31   30  29 28       24 23  22  21 20   19 18 16 15         10 9  5 4  0
7318  * +----+---+---+-----------+------+---+-------+-----+-------------+----+----+
7319  * | sf | 0 | S | 1 1 1 1 0 | type | 1 | rmode | opc | 0 0 0 0 0 0 | Rn | Rd |
7320  * +----+---+---+-----------+------+---+-------+-----+-------------+----+----+
7321  */
7322 static void disas_fp_int_conv(DisasContext *s, uint32_t insn)
7323 {
7324     int rd = extract32(insn, 0, 5);
7325     int rn = extract32(insn, 5, 5);
7326     int opcode = extract32(insn, 16, 3);
7327     int rmode = extract32(insn, 19, 2);
7328     int type = extract32(insn, 22, 2);
7329     bool sbit = extract32(insn, 29, 1);
7330     bool sf = extract32(insn, 31, 1);
7331     bool itof = false;
7332
7333     if (sbit) {
7334         goto do_unallocated;
7335     }
7336
7337     switch (opcode) {
7338     case 2: /* SCVTF */
7339     case 3: /* UCVTF */
7340         itof = true;
7341         /* fallthru */
7342     case 4: /* FCVTAS */
7343     case 5: /* FCVTAU */
7344         if (rmode != 0) {
7345             goto do_unallocated;
7346         }
7347         /* fallthru */
7348     case 0: /* FCVT[NPMZ]S */
7349     case 1: /* FCVT[NPMZ]U */
7350         switch (type) {
7351         case 0: /* float32 */
7352         case 1: /* float64 */
7353             break;
7354         case 3: /* float16 */
7355             if (!dc_isar_feature(aa64_fp16, s)) {
7356                 goto do_unallocated;
7357             }
7358             break;
7359         default:
7360             goto do_unallocated;
7361         }
7362         if (!fp_access_check(s)) {
7363             return;
7364         }
7365         handle_fpfpcvt(s, rd, rn, opcode, itof, rmode, 64, sf, type);
7366         break;
7367
7368     default:
7369         switch (sf << 7 | type << 5 | rmode << 3 | opcode) {
7370         case 0b01100110: /* FMOV half <-> 32-bit int */
7371         case 0b01100111:
7372         case 0b11100110: /* FMOV half <-> 64-bit int */
7373         case 0b11100111:
7374             if (!dc_isar_feature(aa64_fp16, s)) {
7375                 goto do_unallocated;
7376             }
7377             /* fallthru */
7378         case 0b00000110: /* FMOV 32-bit */
7379         case 0b00000111:
7380         case 0b10100110: /* FMOV 64-bit */
7381         case 0b10100111:
7382         case 0b11001110: /* FMOV top half of 128-bit */
7383         case 0b11001111:
7384             if (!fp_access_check(s)) {
7385                 return;
7386             }
7387             itof = opcode & 1;
7388             handle_fmov(s, rd, rn, type, itof);
7389             break;
7390
7391         case 0b00111110: /* FJCVTZS */
7392             if (!dc_isar_feature(aa64_jscvt, s)) {
7393                 goto do_unallocated;
7394             } else if (fp_access_check(s)) {
7395                 handle_fjcvtzs(s, rd, rn);
7396             }
7397             break;
7398
7399         default:
7400         do_unallocated:
7401             unallocated_encoding(s);
7402             return;
7403         }
7404         break;
7405     }
7406 }
7407
7408 /* FP-specific subcases of table C3-6 (SIMD and FP data processing)
7409  *   31  30  29 28     25 24                          0
7410  * +---+---+---+---------+-----------------------------+
7411  * |   | 0 |   | 1 1 1 1 |                             |
7412  * +---+---+---+---------+-----------------------------+
7413  */
7414 static void disas_data_proc_fp(DisasContext *s, uint32_t insn)
7415 {
7416     if (extract32(insn, 24, 1)) {
7417         /* Floating point data-processing (3 source) */
7418         disas_fp_3src(s, insn);
7419     } else if (extract32(insn, 21, 1) == 0) {
7420         /* Floating point to fixed point conversions */
7421         disas_fp_fixed_conv(s, insn);
7422     } else {
7423         switch (extract32(insn, 10, 2)) {
7424         case 1:
7425             /* Floating point conditional compare */
7426             disas_fp_ccomp(s, insn);
7427             break;
7428         case 2:
7429             /* Floating point data-processing (2 source) */
7430             disas_fp_2src(s, insn);
7431             break;
7432         case 3:
7433             /* Floating point conditional select */
7434             disas_fp_csel(s, insn);
7435             break;
7436         case 0:
7437             switch (ctz32(extract32(insn, 12, 4))) {
7438             case 0: /* [15:12] == xxx1 */
7439                 /* Floating point immediate */
7440                 disas_fp_imm(s, insn);
7441                 break;
7442             case 1: /* [15:12] == xx10 */
7443                 /* Floating point compare */
7444                 disas_fp_compare(s, insn);
7445                 break;
7446             case 2: /* [15:12] == x100 */
7447                 /* Floating point data-processing (1 source) */
7448                 disas_fp_1src(s, insn);
7449                 break;
7450             case 3: /* [15:12] == 1000 */
7451                 unallocated_encoding(s);
7452                 break;
7453             default: /* [15:12] == 0000 */
7454                 /* Floating point <-> integer conversions */
7455                 disas_fp_int_conv(s, insn);
7456                 break;
7457             }
7458             break;
7459         }
7460     }
7461 }
7462
7463 static void do_ext64(DisasContext *s, TCGv_i64 tcg_left, TCGv_i64 tcg_right,
7464                      int pos)
7465 {
7466     /* Extract 64 bits from the middle of two concatenated 64 bit
7467      * vector register slices left:right. The extracted bits start
7468      * at 'pos' bits into the right (least significant) side.
7469      * We return the result in tcg_right, and guarantee not to
7470      * trash tcg_left.
7471      */
7472     TCGv_i64 tcg_tmp = tcg_temp_new_i64();
7473     assert(pos > 0 && pos < 64);
7474
7475     tcg_gen_shri_i64(tcg_right, tcg_right, pos);
7476     tcg_gen_shli_i64(tcg_tmp, tcg_left, 64 - pos);
7477     tcg_gen_or_i64(tcg_right, tcg_right, tcg_tmp);
7478
7479     tcg_temp_free_i64(tcg_tmp);
7480 }
7481
7482 /* EXT
7483  *   31  30 29         24 23 22  21 20  16 15  14  11 10  9    5 4    0
7484  * +---+---+-------------+-----+---+------+---+------+---+------+------+
7485  * | 0 | Q | 1 0 1 1 1 0 | op2 | 0 |  Rm  | 0 | imm4 | 0 |  Rn  |  Rd  |
7486  * +---+---+-------------+-----+---+------+---+------+---+------+------+
7487  */
7488 static void disas_simd_ext(DisasContext *s, uint32_t insn)
7489 {
7490     int is_q = extract32(insn, 30, 1);
7491     int op2 = extract32(insn, 22, 2);
7492     int imm4 = extract32(insn, 11, 4);
7493     int rm = extract32(insn, 16, 5);
7494     int rn = extract32(insn, 5, 5);
7495     int rd = extract32(insn, 0, 5);
7496     int pos = imm4 << 3;
7497     TCGv_i64 tcg_resl, tcg_resh;
7498
7499     if (op2 != 0 || (!is_q && extract32(imm4, 3, 1))) {
7500         unallocated_encoding(s);
7501         return;
7502     }
7503
7504     if (!fp_access_check(s)) {
7505         return;
7506     }
7507
7508     tcg_resh = tcg_temp_new_i64();
7509     tcg_resl = tcg_temp_new_i64();
7510
7511     /* Vd gets bits starting at pos bits into Vm:Vn. This is
7512      * either extracting 128 bits from a 128:128 concatenation, or
7513      * extracting 64 bits from a 64:64 concatenation.
7514      */
7515     if (!is_q) {
7516         read_vec_element(s, tcg_resl, rn, 0, MO_64);
7517         if (pos != 0) {
7518             read_vec_element(s, tcg_resh, rm, 0, MO_64);
7519             do_ext64(s, tcg_resh, tcg_resl, pos);
7520         }
7521     } else {
7522         TCGv_i64 tcg_hh;
7523         typedef struct {
7524             int reg;
7525             int elt;
7526         } EltPosns;
7527         EltPosns eltposns[] = { {rn, 0}, {rn, 1}, {rm, 0}, {rm, 1} };
7528         EltPosns *elt = eltposns;
7529
7530         if (pos >= 64) {
7531             elt++;
7532             pos -= 64;
7533         }
7534
7535         read_vec_element(s, tcg_resl, elt->reg, elt->elt, MO_64);
7536         elt++;
7537         read_vec_element(s, tcg_resh, elt->reg, elt->elt, MO_64);
7538         elt++;
7539         if (pos != 0) {
7540             do_ext64(s, tcg_resh, tcg_resl, pos);
7541             tcg_hh = tcg_temp_new_i64();
7542             read_vec_element(s, tcg_hh, elt->reg, elt->elt, MO_64);
7543             do_ext64(s, tcg_hh, tcg_resh, pos);
7544             tcg_temp_free_i64(tcg_hh);
7545         }
7546     }
7547
7548     write_vec_element(s, tcg_resl, rd, 0, MO_64);
7549     tcg_temp_free_i64(tcg_resl);
7550     if (is_q) {
7551         write_vec_element(s, tcg_resh, rd, 1, MO_64);
7552     }
7553     tcg_temp_free_i64(tcg_resh);
7554     clear_vec_high(s, is_q, rd);
7555 }
7556
7557 /* TBL/TBX
7558  *   31  30 29         24 23 22  21 20  16 15  14 13  12  11 10 9    5 4    0
7559  * +---+---+-------------+-----+---+------+---+-----+----+-----+------+------+
7560  * | 0 | Q | 0 0 1 1 1 0 | op2 | 0 |  Rm  | 0 | len | op | 0 0 |  Rn  |  Rd  |
7561  * +---+---+-------------+-----+---+------+---+-----+----+-----+------+------+
7562  */
7563 static void disas_simd_tb(DisasContext *s, uint32_t insn)
7564 {
7565     int op2 = extract32(insn, 22, 2);
7566     int is_q = extract32(insn, 30, 1);
7567     int rm = extract32(insn, 16, 5);
7568     int rn = extract32(insn, 5, 5);
7569     int rd = extract32(insn, 0, 5);
7570     int is_tbx = extract32(insn, 12, 1);
7571     int len = (extract32(insn, 13, 2) + 1) * 16;
7572
7573     if (op2 != 0) {
7574         unallocated_encoding(s);
7575         return;
7576     }
7577
7578     if (!fp_access_check(s)) {
7579         return;
7580     }
7581
7582     tcg_gen_gvec_2_ptr(vec_full_reg_offset(s, rd),
7583                        vec_full_reg_offset(s, rm), cpu_env,
7584                        is_q ? 16 : 8, vec_full_reg_size(s),
7585                        (len << 6) | (is_tbx << 5) | rn,
7586                        gen_helper_simd_tblx);
7587 }
7588
7589 /* ZIP/UZP/TRN
7590  *   31  30 29         24 23  22  21 20   16 15 14 12 11 10 9    5 4    0
7591  * +---+---+-------------+------+---+------+---+------------------+------+
7592  * | 0 | Q | 0 0 1 1 1 0 | size | 0 |  Rm  | 0 | opc | 1 0 |  Rn  |  Rd  |
7593  * +---+---+-------------+------+---+------+---+------------------+------+
7594  */
7595 static void disas_simd_zip_trn(DisasContext *s, uint32_t insn)
7596 {
7597     int rd = extract32(insn, 0, 5);
7598     int rn = extract32(insn, 5, 5);
7599     int rm = extract32(insn, 16, 5);
7600     int size = extract32(insn, 22, 2);
7601     /* opc field bits [1:0] indicate ZIP/UZP/TRN;
7602      * bit 2 indicates 1 vs 2 variant of the insn.
7603      */
7604     int opcode = extract32(insn, 12, 2);
7605     bool part = extract32(insn, 14, 1);
7606     bool is_q = extract32(insn, 30, 1);
7607     int esize = 8 << size;
7608     int i, ofs;
7609     int datasize = is_q ? 128 : 64;
7610     int elements = datasize / esize;
7611     TCGv_i64 tcg_res, tcg_resl, tcg_resh;
7612
7613     if (opcode == 0 || (size == 3 && !is_q)) {
7614         unallocated_encoding(s);
7615         return;
7616     }
7617
7618     if (!fp_access_check(s)) {
7619         return;
7620     }
7621
7622     tcg_resl = tcg_const_i64(0);
7623     tcg_resh = is_q ? tcg_const_i64(0) : NULL;
7624     tcg_res = tcg_temp_new_i64();
7625
7626     for (i = 0; i < elements; i++) {
7627         switch (opcode) {
7628         case 1: /* UZP1/2 */
7629         {
7630             int midpoint = elements / 2;
7631             if (i < midpoint) {
7632                 read_vec_element(s, tcg_res, rn, 2 * i + part, size);
7633             } else {
7634                 read_vec_element(s, tcg_res, rm,
7635                                  2 * (i - midpoint) + part, size);
7636             }
7637             break;
7638         }
7639         case 2: /* TRN1/2 */
7640             if (i & 1) {
7641                 read_vec_element(s, tcg_res, rm, (i & ~1) + part, size);
7642             } else {
7643                 read_vec_element(s, tcg_res, rn, (i & ~1) + part, size);
7644             }
7645             break;
7646         case 3: /* ZIP1/2 */
7647         {
7648             int base = part * elements / 2;
7649             if (i & 1) {
7650                 read_vec_element(s, tcg_res, rm, base + (i >> 1), size);
7651             } else {
7652                 read_vec_element(s, tcg_res, rn, base + (i >> 1), size);
7653             }
7654             break;
7655         }
7656         default:
7657             g_assert_not_reached();
7658         }
7659
7660         ofs = i * esize;
7661         if (ofs < 64) {
7662             tcg_gen_shli_i64(tcg_res, tcg_res, ofs);
7663             tcg_gen_or_i64(tcg_resl, tcg_resl, tcg_res);
7664         } else {
7665             tcg_gen_shli_i64(tcg_res, tcg_res, ofs - 64);
7666             tcg_gen_or_i64(tcg_resh, tcg_resh, tcg_res);
7667         }
7668     }
7669
7670     tcg_temp_free_i64(tcg_res);
7671
7672     write_vec_element(s, tcg_resl, rd, 0, MO_64);
7673     tcg_temp_free_i64(tcg_resl);
7674
7675     if (is_q) {
7676         write_vec_element(s, tcg_resh, rd, 1, MO_64);
7677         tcg_temp_free_i64(tcg_resh);
7678     }
7679     clear_vec_high(s, is_q, rd);
7680 }
7681
7682 /*
7683  * do_reduction_op helper
7684  *
7685  * This mirrors the Reduce() pseudocode in the ARM ARM. It is
7686  * important for correct NaN propagation that we do these
7687  * operations in exactly the order specified by the pseudocode.
7688  *
7689  * This is a recursive function, TCG temps should be freed by the
7690  * calling function once it is done with the values.
7691  */
7692 static TCGv_i32 do_reduction_op(DisasContext *s, int fpopcode, int rn,
7693                                 int esize, int size, int vmap, TCGv_ptr fpst)
7694 {
7695     if (esize == size) {
7696         int element;
7697         MemOp msize = esize == 16 ? MO_16 : MO_32;
7698         TCGv_i32 tcg_elem;
7699
7700         /* We should have one register left here */
7701         assert(ctpop8(vmap) == 1);
7702         element = ctz32(vmap);
7703         assert(element < 8);
7704
7705         tcg_elem = tcg_temp_new_i32();
7706         read_vec_element_i32(s, tcg_elem, rn, element, msize);
7707         return tcg_elem;
7708     } else {
7709         int bits = size / 2;
7710         int shift = ctpop8(vmap) / 2;
7711         int vmap_lo = (vmap >> shift) & vmap;
7712         int vmap_hi = (vmap & ~vmap_lo);
7713         TCGv_i32 tcg_hi, tcg_lo, tcg_res;
7714
7715         tcg_hi = do_reduction_op(s, fpopcode, rn, esize, bits, vmap_hi, fpst);
7716         tcg_lo = do_reduction_op(s, fpopcode, rn, esize, bits, vmap_lo, fpst);
7717         tcg_res = tcg_temp_new_i32();
7718
7719         switch (fpopcode) {
7720         case 0x0c: /* fmaxnmv half-precision */
7721             gen_helper_advsimd_maxnumh(tcg_res, tcg_lo, tcg_hi, fpst);
7722             break;
7723         case 0x0f: /* fmaxv half-precision */
7724             gen_helper_advsimd_maxh(tcg_res, tcg_lo, tcg_hi, fpst);
7725             break;
7726         case 0x1c: /* fminnmv half-precision */
7727             gen_helper_advsimd_minnumh(tcg_res, tcg_lo, tcg_hi, fpst);
7728             break;
7729         case 0x1f: /* fminv half-precision */
7730             gen_helper_advsimd_minh(tcg_res, tcg_lo, tcg_hi, fpst);
7731             break;
7732         case 0x2c: /* fmaxnmv */
7733             gen_helper_vfp_maxnums(tcg_res, tcg_lo, tcg_hi, fpst);
7734             break;
7735         case 0x2f: /* fmaxv */
7736             gen_helper_vfp_maxs(tcg_res, tcg_lo, tcg_hi, fpst);
7737             break;
7738         case 0x3c: /* fminnmv */
7739             gen_helper_vfp_minnums(tcg_res, tcg_lo, tcg_hi, fpst);
7740             break;
7741         case 0x3f: /* fminv */
7742             gen_helper_vfp_mins(tcg_res, tcg_lo, tcg_hi, fpst);
7743             break;
7744         default:
7745             g_assert_not_reached();
7746         }
7747
7748         tcg_temp_free_i32(tcg_hi);
7749         tcg_temp_free_i32(tcg_lo);
7750         return tcg_res;
7751     }
7752 }
7753
7754 /* AdvSIMD across lanes
7755  *   31  30  29 28       24 23  22 21       17 16    12 11 10 9    5 4    0
7756  * +---+---+---+-----------+------+-----------+--------+-----+------+------+
7757  * | 0 | Q | U | 0 1 1 1 0 | size | 1 1 0 0 0 | opcode | 1 0 |  Rn  |  Rd  |
7758  * +---+---+---+-----------+------+-----------+--------+-----+------+------+
7759  */
7760 static void disas_simd_across_lanes(DisasContext *s, uint32_t insn)
7761 {
7762     int rd = extract32(insn, 0, 5);
7763     int rn = extract32(insn, 5, 5);
7764     int size = extract32(insn, 22, 2);
7765     int opcode = extract32(insn, 12, 5);
7766     bool is_q = extract32(insn, 30, 1);
7767     bool is_u = extract32(insn, 29, 1);
7768     bool is_fp = false;
7769     bool is_min = false;
7770     int esize;
7771     int elements;
7772     int i;
7773     TCGv_i64 tcg_res, tcg_elt;
7774
7775     switch (opcode) {
7776     case 0x1b: /* ADDV */
7777         if (is_u) {
7778             unallocated_encoding(s);
7779             return;
7780         }
7781         /* fall through */
7782     case 0x3: /* SADDLV, UADDLV */
7783     case 0xa: /* SMAXV, UMAXV */
7784     case 0x1a: /* SMINV, UMINV */
7785         if (size == 3 || (size == 2 && !is_q)) {
7786             unallocated_encoding(s);
7787             return;
7788         }
7789         break;
7790     case 0xc: /* FMAXNMV, FMINNMV */
7791     case 0xf: /* FMAXV, FMINV */
7792         /* Bit 1 of size field encodes min vs max and the actual size
7793          * depends on the encoding of the U bit. If not set (and FP16
7794          * enabled) then we do half-precision float instead of single
7795          * precision.
7796          */
7797         is_min = extract32(size, 1, 1);
7798         is_fp = true;
7799         if (!is_u && dc_isar_feature(aa64_fp16, s)) {
7800             size = 1;
7801         } else if (!is_u || !is_q || extract32(size, 0, 1)) {
7802             unallocated_encoding(s);
7803             return;
7804         } else {
7805             size = 2;
7806         }
7807         break;
7808     default:
7809         unallocated_encoding(s);
7810         return;
7811     }
7812
7813     if (!fp_access_check(s)) {
7814         return;
7815     }
7816
7817     esize = 8 << size;
7818     elements = (is_q ? 128 : 64) / esize;
7819
7820     tcg_res = tcg_temp_new_i64();
7821     tcg_elt = tcg_temp_new_i64();
7822
7823     /* These instructions operate across all lanes of a vector
7824      * to produce a single result. We can guarantee that a 64
7825      * bit intermediate is sufficient:
7826      *  + for [US]ADDLV the maximum element size is 32 bits, and
7827      *    the result type is 64 bits
7828      *  + for FMAX*V, FMIN*V, ADDV the intermediate type is the
7829      *    same as the element size, which is 32 bits at most
7830      * For the integer operations we can choose to work at 64
7831      * or 32 bits and truncate at the end; for simplicity
7832      * we use 64 bits always. The floating point
7833      * ops do require 32 bit intermediates, though.
7834      */
7835     if (!is_fp) {
7836         read_vec_element(s, tcg_res, rn, 0, size | (is_u ? 0 : MO_SIGN));
7837
7838         for (i = 1; i < elements; i++) {
7839             read_vec_element(s, tcg_elt, rn, i, size | (is_u ? 0 : MO_SIGN));
7840
7841             switch (opcode) {
7842             case 0x03: /* SADDLV / UADDLV */
7843             case 0x1b: /* ADDV */
7844                 tcg_gen_add_i64(tcg_res, tcg_res, tcg_elt);
7845                 break;
7846             case 0x0a: /* SMAXV / UMAXV */
7847                 if (is_u) {
7848                     tcg_gen_umax_i64(tcg_res, tcg_res, tcg_elt);
7849                 } else {
7850                     tcg_gen_smax_i64(tcg_res, tcg_res, tcg_elt);
7851                 }
7852                 break;
7853             case 0x1a: /* SMINV / UMINV */
7854                 if (is_u) {
7855                     tcg_gen_umin_i64(tcg_res, tcg_res, tcg_elt);
7856                 } else {
7857                     tcg_gen_smin_i64(tcg_res, tcg_res, tcg_elt);
7858                 }
7859                 break;
7860             default:
7861                 g_assert_not_reached();
7862             }
7863
7864         }
7865     } else {
7866         /* Floating point vector reduction ops which work across 32
7867          * bit (single) or 16 bit (half-precision) intermediates.
7868          * Note that correct NaN propagation requires that we do these
7869          * operations in exactly the order specified by the pseudocode.
7870          */
7871         TCGv_ptr fpst = fpstatus_ptr(size == MO_16 ? FPST_FPCR_F16 : FPST_FPCR);
7872         int fpopcode = opcode | is_min << 4 | is_u << 5;
7873         int vmap = (1 << elements) - 1;
7874         TCGv_i32 tcg_res32 = do_reduction_op(s, fpopcode, rn, esize,
7875                                              (is_q ? 128 : 64), vmap, fpst);
7876         tcg_gen_extu_i32_i64(tcg_res, tcg_res32);
7877         tcg_temp_free_i32(tcg_res32);
7878         tcg_temp_free_ptr(fpst);
7879     }
7880
7881     tcg_temp_free_i64(tcg_elt);
7882
7883     /* Now truncate the result to the width required for the final output */
7884     if (opcode == 0x03) {
7885         /* SADDLV, UADDLV: result is 2*esize */
7886         size++;
7887     }
7888
7889     switch (size) {
7890     case 0:
7891         tcg_gen_ext8u_i64(tcg_res, tcg_res);
7892         break;
7893     case 1:
7894         tcg_gen_ext16u_i64(tcg_res, tcg_res);
7895         break;
7896     case 2:
7897         tcg_gen_ext32u_i64(tcg_res, tcg_res);
7898         break;
7899     case 3:
7900         break;
7901     default:
7902         g_assert_not_reached();
7903     }
7904
7905     write_fp_dreg(s, rd, tcg_res);
7906     tcg_temp_free_i64(tcg_res);
7907 }
7908
7909 /* DUP (Element, Vector)
7910  *
7911  *  31  30   29              21 20    16 15        10  9    5 4    0
7912  * +---+---+-------------------+--------+-------------+------+------+
7913  * | 0 | Q | 0 0 1 1 1 0 0 0 0 |  imm5  | 0 0 0 0 0 1 |  Rn  |  Rd  |
7914  * +---+---+-------------------+--------+-------------+------+------+
7915  *
7916  * size: encoded in imm5 (see ARM ARM LowestSetBit())
7917  */
7918 static void handle_simd_dupe(DisasContext *s, int is_q, int rd, int rn,
7919                              int imm5)
7920 {
7921     int size = ctz32(imm5);
7922     int index;
7923
7924     if (size > 3 || (size == 3 && !is_q)) {
7925         unallocated_encoding(s);
7926         return;
7927     }
7928
7929     if (!fp_access_check(s)) {
7930         return;
7931     }
7932
7933     index = imm5 >> (size + 1);
7934     tcg_gen_gvec_dup_mem(size, vec_full_reg_offset(s, rd),
7935                          vec_reg_offset(s, rn, index, size),
7936                          is_q ? 16 : 8, vec_full_reg_size(s));
7937 }
7938
7939 /* DUP (element, scalar)
7940  *  31                   21 20    16 15        10  9    5 4    0
7941  * +-----------------------+--------+-------------+------+------+
7942  * | 0 1 0 1 1 1 1 0 0 0 0 |  imm5  | 0 0 0 0 0 1 |  Rn  |  Rd  |
7943  * +-----------------------+--------+-------------+------+------+
7944  */
7945 static void handle_simd_dupes(DisasContext *s, int rd, int rn,
7946                               int imm5)
7947 {
7948     int size = ctz32(imm5);
7949     int index;
7950     TCGv_i64 tmp;
7951
7952     if (size > 3) {
7953         unallocated_encoding(s);
7954         return;
7955     }
7956
7957     if (!fp_access_check(s)) {
7958         return;
7959     }
7960
7961     index = imm5 >> (size + 1);
7962
7963     /* This instruction just extracts the specified element and
7964      * zero-extends it into the bottom of the destination register.
7965      */
7966     tmp = tcg_temp_new_i64();
7967     read_vec_element(s, tmp, rn, index, size);
7968     write_fp_dreg(s, rd, tmp);
7969     tcg_temp_free_i64(tmp);
7970 }
7971
7972 /* DUP (General)
7973  *
7974  *  31  30   29              21 20    16 15        10  9    5 4    0
7975  * +---+---+-------------------+--------+-------------+------+------+
7976  * | 0 | Q | 0 0 1 1 1 0 0 0 0 |  imm5  | 0 0 0 0 1 1 |  Rn  |  Rd  |
7977  * +---+---+-------------------+--------+-------------+------+------+
7978  *
7979  * size: encoded in imm5 (see ARM ARM LowestSetBit())
7980  */
7981 static void handle_simd_dupg(DisasContext *s, int is_q, int rd, int rn,
7982                              int imm5)
7983 {
7984     int size = ctz32(imm5);
7985     uint32_t dofs, oprsz, maxsz;
7986
7987     if (size > 3 || ((size == 3) && !is_q)) {
7988         unallocated_encoding(s);
7989         return;
7990     }
7991
7992     if (!fp_access_check(s)) {
7993         return;
7994     }
7995
7996     dofs = vec_full_reg_offset(s, rd);
7997     oprsz = is_q ? 16 : 8;
7998     maxsz = vec_full_reg_size(s);
7999
8000     tcg_gen_gvec_dup_i64(size, dofs, oprsz, maxsz, cpu_reg(s, rn));
8001 }
8002
8003 /* INS (Element)
8004  *
8005  *  31                   21 20    16 15  14    11  10 9    5 4    0
8006  * +-----------------------+--------+------------+---+------+------+
8007  * | 0 1 1 0 1 1 1 0 0 0 0 |  imm5  | 0 |  imm4  | 1 |  Rn  |  Rd  |
8008  * +-----------------------+--------+------------+---+------+------+
8009  *
8010  * size: encoded in imm5 (see ARM ARM LowestSetBit())
8011  * index: encoded in imm5<4:size+1>
8012  */
8013 static void handle_simd_inse(DisasContext *s, int rd, int rn,
8014                              int imm4, int imm5)
8015 {
8016     int size = ctz32(imm5);
8017     int src_index, dst_index;
8018     TCGv_i64 tmp;
8019
8020     if (size > 3) {
8021         unallocated_encoding(s);
8022         return;
8023     }
8024
8025     if (!fp_access_check(s)) {
8026         return;
8027     }
8028
8029     dst_index = extract32(imm5, 1+size, 5);
8030     src_index = extract32(imm4, size, 4);
8031
8032     tmp = tcg_temp_new_i64();
8033
8034     read_vec_element(s, tmp, rn, src_index, size);
8035     write_vec_element(s, tmp, rd, dst_index, size);
8036
8037     tcg_temp_free_i64(tmp);
8038
8039     /* INS is considered a 128-bit write for SVE. */
8040     clear_vec_high(s, true, rd);
8041 }
8042
8043
8044 /* INS (General)
8045  *
8046  *  31                   21 20    16 15        10  9    5 4    0
8047  * +-----------------------+--------+-------------+------+------+
8048  * | 0 1 0 0 1 1 1 0 0 0 0 |  imm5  | 0 0 0 1 1 1 |  Rn  |  Rd  |
8049  * +-----------------------+--------+-------------+------+------+
8050  *
8051  * size: encoded in imm5 (see ARM ARM LowestSetBit())
8052  * index: encoded in imm5<4:size+1>
8053  */
8054 static void handle_simd_insg(DisasContext *s, int rd, int rn, int imm5)
8055 {
8056     int size = ctz32(imm5);
8057     int idx;
8058
8059     if (size > 3) {
8060         unallocated_encoding(s);
8061         return;
8062     }
8063
8064     if (!fp_access_check(s)) {
8065         return;
8066     }
8067
8068     idx = extract32(imm5, 1 + size, 4 - size);
8069     write_vec_element(s, cpu_reg(s, rn), rd, idx, size);
8070
8071     /* INS is considered a 128-bit write for SVE. */
8072     clear_vec_high(s, true, rd);
8073 }
8074
8075 /*
8076  * UMOV (General)
8077  * SMOV (General)
8078  *
8079  *  31  30   29              21 20    16 15    12   10 9    5 4    0
8080  * +---+---+-------------------+--------+-------------+------+------+
8081  * | 0 | Q | 0 0 1 1 1 0 0 0 0 |  imm5  | 0 0 1 U 1 1 |  Rn  |  Rd  |
8082  * +---+---+-------------------+--------+-------------+------+------+
8083  *
8084  * U: unsigned when set
8085  * size: encoded in imm5 (see ARM ARM LowestSetBit())
8086  */
8087 static void handle_simd_umov_smov(DisasContext *s, int is_q, int is_signed,
8088                                   int rn, int rd, int imm5)
8089 {
8090     int size = ctz32(imm5);
8091     int element;
8092     TCGv_i64 tcg_rd;
8093
8094     /* Check for UnallocatedEncodings */
8095     if (is_signed) {
8096         if (size > 2 || (size == 2 && !is_q)) {
8097             unallocated_encoding(s);
8098             return;
8099         }
8100     } else {
8101         if (size > 3
8102             || (size < 3 && is_q)
8103             || (size == 3 && !is_q)) {
8104             unallocated_encoding(s);
8105             return;
8106         }
8107     }
8108
8109     if (!fp_access_check(s)) {
8110         return;
8111     }
8112
8113     element = extract32(imm5, 1+size, 4);
8114
8115     tcg_rd = cpu_reg(s, rd);
8116     read_vec_element(s, tcg_rd, rn, element, size | (is_signed ? MO_SIGN : 0));
8117     if (is_signed && !is_q) {
8118         tcg_gen_ext32u_i64(tcg_rd, tcg_rd);
8119     }
8120 }
8121
8122 /* AdvSIMD copy
8123  *   31  30  29  28             21 20  16 15  14  11 10  9    5 4    0
8124  * +---+---+----+-----------------+------+---+------+---+------+------+
8125  * | 0 | Q | op | 0 1 1 1 0 0 0 0 | imm5 | 0 | imm4 | 1 |  Rn  |  Rd  |
8126  * +---+---+----+-----------------+------+---+------+---+------+------+
8127  */
8128 static void disas_simd_copy(DisasContext *s, uint32_t insn)
8129 {
8130     int rd = extract32(insn, 0, 5);
8131     int rn = extract32(insn, 5, 5);
8132     int imm4 = extract32(insn, 11, 4);
8133     int op = extract32(insn, 29, 1);
8134     int is_q = extract32(insn, 30, 1);
8135     int imm5 = extract32(insn, 16, 5);
8136
8137     if (op) {
8138         if (is_q) {
8139             /* INS (element) */
8140             handle_simd_inse(s, rd, rn, imm4, imm5);
8141         } else {
8142             unallocated_encoding(s);
8143         }
8144     } else {
8145         switch (imm4) {
8146         case 0:
8147             /* DUP (element - vector) */
8148             handle_simd_dupe(s, is_q, rd, rn, imm5);
8149             break;
8150         case 1:
8151             /* DUP (general) */
8152             handle_simd_dupg(s, is_q, rd, rn, imm5);
8153             break;
8154         case 3:
8155             if (is_q) {
8156                 /* INS (general) */
8157                 handle_simd_insg(s, rd, rn, imm5);
8158             } else {
8159                 unallocated_encoding(s);
8160             }
8161             break;
8162         case 5:
8163         case 7:
8164             /* UMOV/SMOV (is_q indicates 32/64; imm4 indicates signedness) */
8165             handle_simd_umov_smov(s, is_q, (imm4 == 5), rn, rd, imm5);
8166             break;
8167         default:
8168             unallocated_encoding(s);
8169             break;
8170         }
8171     }
8172 }
8173
8174 /* AdvSIMD modified immediate
8175  *  31  30   29  28                 19 18 16 15   12  11  10  9     5 4    0
8176  * +---+---+----+---------------------+-----+-------+----+---+-------+------+
8177  * | 0 | Q | op | 0 1 1 1 1 0 0 0 0 0 | abc | cmode | o2 | 1 | defgh |  Rd  |
8178  * +---+---+----+---------------------+-----+-------+----+---+-------+------+
8179  *
8180  * There are a number of operations that can be carried out here:
8181  *   MOVI - move (shifted) imm into register
8182  *   MVNI - move inverted (shifted) imm into register
8183  *   ORR  - bitwise OR of (shifted) imm with register
8184  *   BIC  - bitwise clear of (shifted) imm with register
8185  * With ARMv8.2 we also have:
8186  *   FMOV half-precision
8187  */
8188 static void disas_simd_mod_imm(DisasContext *s, uint32_t insn)
8189 {
8190     int rd = extract32(insn, 0, 5);
8191     int cmode = extract32(insn, 12, 4);
8192     int o2 = extract32(insn, 11, 1);
8193     uint64_t abcdefgh = extract32(insn, 5, 5) | (extract32(insn, 16, 3) << 5);
8194     bool is_neg = extract32(insn, 29, 1);
8195     bool is_q = extract32(insn, 30, 1);
8196     uint64_t imm = 0;
8197
8198     if (o2 != 0 || ((cmode == 0xf) && is_neg && !is_q)) {
8199         /* Check for FMOV (vector, immediate) - half-precision */
8200         if (!(dc_isar_feature(aa64_fp16, s) && o2 && cmode == 0xf)) {
8201             unallocated_encoding(s);
8202             return;
8203         }
8204     }
8205
8206     if (!fp_access_check(s)) {
8207         return;
8208     }
8209
8210     if (cmode == 15 && o2 && !is_neg) {
8211         /* FMOV (vector, immediate) - half-precision */
8212         imm = vfp_expand_imm(MO_16, abcdefgh);
8213         /* now duplicate across the lanes */
8214         imm = dup_const(MO_16, imm);
8215     } else {
8216         imm = asimd_imm_const(abcdefgh, cmode, is_neg);
8217     }
8218
8219     if (!((cmode & 0x9) == 0x1 || (cmode & 0xd) == 0x9)) {
8220         /* MOVI or MVNI, with MVNI negation handled above.  */
8221         tcg_gen_gvec_dup_imm(MO_64, vec_full_reg_offset(s, rd), is_q ? 16 : 8,
8222                              vec_full_reg_size(s), imm);
8223     } else {
8224         /* ORR or BIC, with BIC negation to AND handled above.  */
8225         if (is_neg) {
8226             gen_gvec_fn2i(s, is_q, rd, rd, imm, tcg_gen_gvec_andi, MO_64);
8227         } else {
8228             gen_gvec_fn2i(s, is_q, rd, rd, imm, tcg_gen_gvec_ori, MO_64);
8229         }
8230     }
8231 }
8232
8233 /* AdvSIMD scalar copy
8234  *  31 30  29  28             21 20  16 15  14  11 10  9    5 4    0
8235  * +-----+----+-----------------+------+---+------+---+------+------+
8236  * | 0 1 | op | 1 1 1 1 0 0 0 0 | imm5 | 0 | imm4 | 1 |  Rn  |  Rd  |
8237  * +-----+----+-----------------+------+---+------+---+------+------+
8238  */
8239 static void disas_simd_scalar_copy(DisasContext *s, uint32_t insn)
8240 {
8241     int rd = extract32(insn, 0, 5);
8242     int rn = extract32(insn, 5, 5);
8243     int imm4 = extract32(insn, 11, 4);
8244     int imm5 = extract32(insn, 16, 5);
8245     int op = extract32(insn, 29, 1);
8246
8247     if (op != 0 || imm4 != 0) {
8248         unallocated_encoding(s);
8249         return;
8250     }
8251
8252     /* DUP (element, scalar) */
8253     handle_simd_dupes(s, rd, rn, imm5);
8254 }
8255
8256 /* AdvSIMD scalar pairwise
8257  *  31 30  29 28       24 23  22 21       17 16    12 11 10 9    5 4    0
8258  * +-----+---+-----------+------+-----------+--------+-----+------+------+
8259  * | 0 1 | U | 1 1 1 1 0 | size | 1 1 0 0 0 | opcode | 1 0 |  Rn  |  Rd  |
8260  * +-----+---+-----------+------+-----------+--------+-----+------+------+
8261  */
8262 static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
8263 {
8264     int u = extract32(insn, 29, 1);
8265     int size = extract32(insn, 22, 2);
8266     int opcode = extract32(insn, 12, 5);
8267     int rn = extract32(insn, 5, 5);
8268     int rd = extract32(insn, 0, 5);
8269     TCGv_ptr fpst;
8270
8271     /* For some ops (the FP ones), size[1] is part of the encoding.
8272      * For ADDP strictly it is not but size[1] is always 1 for valid
8273      * encodings.
8274      */
8275     opcode |= (extract32(size, 1, 1) << 5);
8276
8277     switch (opcode) {
8278     case 0x3b: /* ADDP */
8279         if (u || size != 3) {
8280             unallocated_encoding(s);
8281             return;
8282         }
8283         if (!fp_access_check(s)) {
8284             return;
8285         }
8286
8287         fpst = NULL;
8288         break;
8289     case 0xc: /* FMAXNMP */
8290     case 0xd: /* FADDP */
8291     case 0xf: /* FMAXP */
8292     case 0x2c: /* FMINNMP */
8293     case 0x2f: /* FMINP */
8294         /* FP op, size[0] is 32 or 64 bit*/
8295         if (!u) {
8296             if (!dc_isar_feature(aa64_fp16, s)) {
8297                 unallocated_encoding(s);
8298                 return;
8299             } else {
8300                 size = MO_16;
8301             }
8302         } else {
8303             size = extract32(size, 0, 1) ? MO_64 : MO_32;
8304         }
8305
8306         if (!fp_access_check(s)) {
8307             return;
8308         }
8309
8310         fpst = fpstatus_ptr(size == MO_16 ? FPST_FPCR_F16 : FPST_FPCR);
8311         break;
8312     default:
8313         unallocated_encoding(s);
8314         return;
8315     }
8316
8317     if (size == MO_64) {
8318         TCGv_i64 tcg_op1 = tcg_temp_new_i64();
8319         TCGv_i64 tcg_op2 = tcg_temp_new_i64();
8320         TCGv_i64 tcg_res = tcg_temp_new_i64();
8321
8322         read_vec_element(s, tcg_op1, rn, 0, MO_64);
8323         read_vec_element(s, tcg_op2, rn, 1, MO_64);
8324
8325         switch (opcode) {
8326         case 0x3b: /* ADDP */
8327             tcg_gen_add_i64(tcg_res, tcg_op1, tcg_op2);
8328             break;
8329         case 0xc: /* FMAXNMP */
8330             gen_helper_vfp_maxnumd(tcg_res, tcg_op1, tcg_op2, fpst);
8331             break;
8332         case 0xd: /* FADDP */
8333             gen_helper_vfp_addd(tcg_res, tcg_op1, tcg_op2, fpst);
8334             break;
8335         case 0xf: /* FMAXP */
8336             gen_helper_vfp_maxd(tcg_res, tcg_op1, tcg_op2, fpst);
8337             break;
8338         case 0x2c: /* FMINNMP */
8339             gen_helper_vfp_minnumd(tcg_res, tcg_op1, tcg_op2, fpst);
8340             break;
8341         case 0x2f: /* FMINP */
8342             gen_helper_vfp_mind(tcg_res, tcg_op1, tcg_op2, fpst);
8343             break;
8344         default:
8345             g_assert_not_reached();
8346         }
8347
8348         write_fp_dreg(s, rd, tcg_res);
8349
8350         tcg_temp_free_i64(tcg_op1);
8351         tcg_temp_free_i64(tcg_op2);
8352         tcg_temp_free_i64(tcg_res);
8353     } else {
8354         TCGv_i32 tcg_op1 = tcg_temp_new_i32();
8355         TCGv_i32 tcg_op2 = tcg_temp_new_i32();
8356         TCGv_i32 tcg_res = tcg_temp_new_i32();
8357
8358         read_vec_element_i32(s, tcg_op1, rn, 0, size);
8359         read_vec_element_i32(s, tcg_op2, rn, 1, size);
8360
8361         if (size == MO_16) {
8362             switch (opcode) {
8363             case 0xc: /* FMAXNMP */
8364                 gen_helper_advsimd_maxnumh(tcg_res, tcg_op1, tcg_op2, fpst);
8365                 break;
8366             case 0xd: /* FADDP */
8367                 gen_helper_advsimd_addh(tcg_res, tcg_op1, tcg_op2, fpst);
8368                 break;
8369             case 0xf: /* FMAXP */
8370                 gen_helper_advsimd_maxh(tcg_res, tcg_op1, tcg_op2, fpst);
8371                 break;
8372             case 0x2c: /* FMINNMP */
8373                 gen_helper_advsimd_minnumh(tcg_res, tcg_op1, tcg_op2, fpst);
8374                 break;
8375             case 0x2f: /* FMINP */
8376                 gen_helper_advsimd_minh(tcg_res, tcg_op1, tcg_op2, fpst);
8377                 break;
8378             default:
8379                 g_assert_not_reached();
8380             }
8381         } else {
8382             switch (opcode) {
8383             case 0xc: /* FMAXNMP */
8384                 gen_helper_vfp_maxnums(tcg_res, tcg_op1, tcg_op2, fpst);
8385                 break;
8386             case 0xd: /* FADDP */
8387                 gen_helper_vfp_adds(tcg_res, tcg_op1, tcg_op2, fpst);
8388                 break;
8389             case 0xf: /* FMAXP */
8390                 gen_helper_vfp_maxs(tcg_res, tcg_op1, tcg_op2, fpst);
8391                 break;
8392             case 0x2c: /* FMINNMP */
8393                 gen_helper_vfp_minnums(tcg_res, tcg_op1, tcg_op2, fpst);
8394                 break;
8395             case 0x2f: /* FMINP */
8396                 gen_helper_vfp_mins(tcg_res, tcg_op1, tcg_op2, fpst);
8397                 break;
8398             default:
8399                 g_assert_not_reached();
8400             }
8401         }
8402
8403         write_fp_sreg(s, rd, tcg_res);
8404
8405         tcg_temp_free_i32(tcg_op1);
8406         tcg_temp_free_i32(tcg_op2);
8407         tcg_temp_free_i32(tcg_res);
8408     }
8409
8410     if (fpst) {
8411         tcg_temp_free_ptr(fpst);
8412     }
8413 }
8414
8415 /*
8416  * Common SSHR[RA]/USHR[RA] - Shift right (optional rounding/accumulate)
8417  *
8418  * This code is handles the common shifting code and is used by both
8419  * the vector and scalar code.
8420  */
8421 static void handle_shri_with_rndacc(TCGv_i64 tcg_res, TCGv_i64 tcg_src,
8422                                     TCGv_i64 tcg_rnd, bool accumulate,
8423                                     bool is_u, int size, int shift)
8424 {
8425     bool extended_result = false;
8426     bool round = tcg_rnd != NULL;
8427     int ext_lshift = 0;
8428     TCGv_i64 tcg_src_hi;
8429
8430     if (round && size == 3) {
8431         extended_result = true;
8432         ext_lshift = 64 - shift;
8433         tcg_src_hi = tcg_temp_new_i64();
8434     } else if (shift == 64) {
8435         if (!accumulate && is_u) {
8436             /* result is zero */
8437             tcg_gen_movi_i64(tcg_res, 0);
8438             return;
8439         }
8440     }
8441
8442     /* Deal with the rounding step */
8443     if (round) {
8444         if (extended_result) {
8445             TCGv_i64 tcg_zero = tcg_const_i64(0);
8446             if (!is_u) {
8447                 /* take care of sign extending tcg_res */
8448                 tcg_gen_sari_i64(tcg_src_hi, tcg_src, 63);
8449                 tcg_gen_add2_i64(tcg_src, tcg_src_hi,
8450                                  tcg_src, tcg_src_hi,
8451                                  tcg_rnd, tcg_zero);
8452             } else {
8453                 tcg_gen_add2_i64(tcg_src, tcg_src_hi,
8454                                  tcg_src, tcg_zero,
8455                                  tcg_rnd, tcg_zero);
8456             }
8457             tcg_temp_free_i64(tcg_zero);
8458         } else {
8459             tcg_gen_add_i64(tcg_src, tcg_src, tcg_rnd);
8460         }
8461     }
8462
8463     /* Now do the shift right */
8464     if (round && extended_result) {
8465         /* extended case, >64 bit precision required */
8466         if (ext_lshift == 0) {
8467             /* special case, only high bits matter */
8468             tcg_gen_mov_i64(tcg_src, tcg_src_hi);
8469         } else {
8470             tcg_gen_shri_i64(tcg_src, tcg_src, shift);
8471             tcg_gen_shli_i64(tcg_src_hi, tcg_src_hi, ext_lshift);
8472             tcg_gen_or_i64(tcg_src, tcg_src, tcg_src_hi);
8473         }
8474     } else {
8475         if (is_u) {
8476             if (shift == 64) {
8477                 /* essentially shifting in 64 zeros */
8478                 tcg_gen_movi_i64(tcg_src, 0);
8479             } else {
8480                 tcg_gen_shri_i64(tcg_src, tcg_src, shift);
8481             }
8482         } else {
8483             if (shift == 64) {
8484                 /* effectively extending the sign-bit */
8485                 tcg_gen_sari_i64(tcg_src, tcg_src, 63);
8486             } else {
8487                 tcg_gen_sari_i64(tcg_src, tcg_src, shift);
8488             }
8489         }
8490     }
8491
8492     if (accumulate) {
8493         tcg_gen_add_i64(tcg_res, tcg_res, tcg_src);
8494     } else {
8495         tcg_gen_mov_i64(tcg_res, tcg_src);
8496     }
8497
8498     if (extended_result) {
8499         tcg_temp_free_i64(tcg_src_hi);
8500     }
8501 }
8502
8503 /* SSHR[RA]/USHR[RA] - Scalar shift right (optional rounding/accumulate) */
8504 static void handle_scalar_simd_shri(DisasContext *s,
8505                                     bool is_u, int immh, int immb,
8506                                     int opcode, int rn, int rd)
8507 {
8508     const int size = 3;
8509     int immhb = immh << 3 | immb;
8510     int shift = 2 * (8 << size) - immhb;
8511     bool accumulate = false;
8512     bool round = false;
8513     bool insert = false;
8514     TCGv_i64 tcg_rn;
8515     TCGv_i64 tcg_rd;
8516     TCGv_i64 tcg_round;
8517
8518     if (!extract32(immh, 3, 1)) {
8519         unallocated_encoding(s);
8520         return;
8521     }
8522
8523     if (!fp_access_check(s)) {
8524         return;
8525     }
8526
8527     switch (opcode) {
8528     case 0x02: /* SSRA / USRA (accumulate) */
8529         accumulate = true;
8530         break;
8531     case 0x04: /* SRSHR / URSHR (rounding) */
8532         round = true;
8533         break;
8534     case 0x06: /* SRSRA / URSRA (accum + rounding) */
8535         accumulate = round = true;
8536         break;
8537     case 0x08: /* SRI */
8538         insert = true;
8539         break;
8540     }
8541
8542     if (round) {
8543         uint64_t round_const = 1ULL << (shift - 1);
8544         tcg_round = tcg_const_i64(round_const);
8545     } else {
8546         tcg_round = NULL;
8547     }
8548
8549     tcg_rn = read_fp_dreg(s, rn);
8550     tcg_rd = (accumulate || insert) ? read_fp_dreg(s, rd) : tcg_temp_new_i64();
8551
8552     if (insert) {
8553         /* shift count same as element size is valid but does nothing;
8554          * special case to avoid potential shift by 64.
8555          */
8556         int esize = 8 << size;
8557         if (shift != esize) {
8558             tcg_gen_shri_i64(tcg_rn, tcg_rn, shift);
8559             tcg_gen_deposit_i64(tcg_rd, tcg_rd, tcg_rn, 0, esize - shift);
8560         }
8561     } else {
8562         handle_shri_with_rndacc(tcg_rd, tcg_rn, tcg_round,
8563                                 accumulate, is_u, size, shift);
8564     }
8565
8566     write_fp_dreg(s, rd, tcg_rd);
8567
8568     tcg_temp_free_i64(tcg_rn);
8569     tcg_temp_free_i64(tcg_rd);
8570     if (round) {
8571         tcg_temp_free_i64(tcg_round);
8572     }
8573 }
8574
8575 /* SHL/SLI - Scalar shift left */
8576 static void handle_scalar_simd_shli(DisasContext *s, bool insert,
8577                                     int immh, int immb, int opcode,
8578                                     int rn, int rd)
8579 {
8580     int size = 32 - clz32(immh) - 1;
8581     int immhb = immh << 3 | immb;
8582     int shift = immhb - (8 << size);
8583     TCGv_i64 tcg_rn;
8584     TCGv_i64 tcg_rd;
8585
8586     if (!extract32(immh, 3, 1)) {
8587         unallocated_encoding(s);
8588         return;
8589     }
8590
8591     if (!fp_access_check(s)) {
8592         return;
8593     }
8594
8595     tcg_rn = read_fp_dreg(s, rn);
8596     tcg_rd = insert ? read_fp_dreg(s, rd) : tcg_temp_new_i64();
8597
8598     if (insert) {
8599         tcg_gen_deposit_i64(tcg_rd, tcg_rd, tcg_rn, shift, 64 - shift);
8600     } else {
8601         tcg_gen_shli_i64(tcg_rd, tcg_rn, shift);
8602     }
8603
8604     write_fp_dreg(s, rd, tcg_rd);
8605
8606     tcg_temp_free_i64(tcg_rn);
8607     tcg_temp_free_i64(tcg_rd);
8608 }
8609
8610 /* SQSHRN/SQSHRUN - Saturating (signed/unsigned) shift right with
8611  * (signed/unsigned) narrowing */
8612 static void handle_vec_simd_sqshrn(DisasContext *s, bool is_scalar, bool is_q,
8613                                    bool is_u_shift, bool is_u_narrow,
8614                                    int immh, int immb, int opcode,
8615                                    int rn, int rd)
8616 {
8617     int immhb = immh << 3 | immb;
8618     int size = 32 - clz32(immh) - 1;
8619     int esize = 8 << size;
8620     int shift = (2 * esize) - immhb;
8621     int elements = is_scalar ? 1 : (64 / esize);
8622     bool round = extract32(opcode, 0, 1);
8623     MemOp ldop = (size + 1) | (is_u_shift ? 0 : MO_SIGN);
8624     TCGv_i64 tcg_rn, tcg_rd, tcg_round;
8625     TCGv_i32 tcg_rd_narrowed;
8626     TCGv_i64 tcg_final;
8627
8628     static NeonGenNarrowEnvFn * const signed_narrow_fns[4][2] = {
8629         { gen_helper_neon_narrow_sat_s8,
8630           gen_helper_neon_unarrow_sat8 },
8631         { gen_helper_neon_narrow_sat_s16,
8632           gen_helper_neon_unarrow_sat16 },
8633         { gen_helper_neon_narrow_sat_s32,
8634           gen_helper_neon_unarrow_sat32 },
8635         { NULL, NULL },
8636     };
8637     static NeonGenNarrowEnvFn * const unsigned_narrow_fns[4] = {
8638         gen_helper_neon_narrow_sat_u8,
8639         gen_helper_neon_narrow_sat_u16,
8640         gen_helper_neon_narrow_sat_u32,
8641         NULL
8642     };
8643     NeonGenNarrowEnvFn *narrowfn;
8644
8645     int i;
8646
8647     assert(size < 4);
8648
8649     if (extract32(immh, 3, 1)) {
8650         unallocated_encoding(s);
8651         return;
8652     }
8653
8654     if (!fp_access_check(s)) {
8655         return;
8656     }
8657
8658     if (is_u_shift) {
8659         narrowfn = unsigned_narrow_fns[size];
8660     } else {
8661         narrowfn = signed_narrow_fns[size][is_u_narrow ? 1 : 0];
8662     }
8663
8664     tcg_rn = tcg_temp_new_i64();
8665     tcg_rd = tcg_temp_new_i64();
8666     tcg_rd_narrowed = tcg_temp_new_i32();
8667     tcg_final = tcg_const_i64(0);
8668
8669     if (round) {
8670         uint64_t round_const = 1ULL << (shift - 1);
8671         tcg_round = tcg_const_i64(round_const);
8672     } else {
8673         tcg_round = NULL;
8674     }
8675
8676     for (i = 0; i < elements; i++) {
8677         read_vec_element(s, tcg_rn, rn, i, ldop);
8678         handle_shri_with_rndacc(tcg_rd, tcg_rn, tcg_round,
8679                                 false, is_u_shift, size+1, shift);
8680         narrowfn(tcg_rd_narrowed, cpu_env, tcg_rd);
8681         tcg_gen_extu_i32_i64(tcg_rd, tcg_rd_narrowed);
8682         tcg_gen_deposit_i64(tcg_final, tcg_final, tcg_rd, esize * i, esize);
8683     }
8684
8685     if (!is_q) {
8686         write_vec_element(s, tcg_final, rd, 0, MO_64);
8687     } else {
8688         write_vec_element(s, tcg_final, rd, 1, MO_64);
8689     }
8690
8691     if (round) {
8692         tcg_temp_free_i64(tcg_round);
8693     }
8694     tcg_temp_free_i64(tcg_rn);
8695     tcg_temp_free_i64(tcg_rd);
8696     tcg_temp_free_i32(tcg_rd_narrowed);
8697     tcg_temp_free_i64(tcg_final);
8698
8699     clear_vec_high(s, is_q, rd);
8700 }
8701
8702 /* SQSHLU, UQSHL, SQSHL: saturating left shifts */
8703 static void handle_simd_qshl(DisasContext *s, bool scalar, bool is_q,
8704                              bool src_unsigned, bool dst_unsigned,
8705                              int immh, int immb, int rn, int rd)
8706 {
8707     int immhb = immh << 3 | immb;
8708     int size = 32 - clz32(immh) - 1;
8709     int shift = immhb - (8 << size);
8710     int pass;
8711
8712     assert(immh != 0);
8713     assert(!(scalar && is_q));
8714
8715     if (!scalar) {
8716         if (!is_q && extract32(immh, 3, 1)) {
8717             unallocated_encoding(s);
8718             return;
8719         }
8720
8721         /* Since we use the variable-shift helpers we must
8722          * replicate the shift count into each element of
8723          * the tcg_shift value.
8724          */
8725         switch (size) {
8726         case 0:
8727             shift |= shift << 8;
8728             /* fall through */
8729         case 1:
8730             shift |= shift << 16;
8731             break;
8732         case 2:
8733         case 3:
8734             break;
8735         default:
8736             g_assert_not_reached();
8737         }
8738     }
8739
8740     if (!fp_access_check(s)) {
8741         return;
8742     }
8743
8744     if (size == 3) {
8745         TCGv_i64 tcg_shift = tcg_const_i64(shift);
8746         static NeonGenTwo64OpEnvFn * const fns[2][2] = {
8747             { gen_helper_neon_qshl_s64, gen_helper_neon_qshlu_s64 },
8748             { NULL, gen_helper_neon_qshl_u64 },
8749         };
8750         NeonGenTwo64OpEnvFn *genfn = fns[src_unsigned][dst_unsigned];
8751         int maxpass = is_q ? 2 : 1;
8752
8753         for (pass = 0; pass < maxpass; pass++) {
8754             TCGv_i64 tcg_op = tcg_temp_new_i64();
8755
8756             read_vec_element(s, tcg_op, rn, pass, MO_64);
8757             genfn(tcg_op, cpu_env, tcg_op, tcg_shift);
8758             write_vec_element(s, tcg_op, rd, pass, MO_64);
8759
8760             tcg_temp_free_i64(tcg_op);
8761         }
8762         tcg_temp_free_i64(tcg_shift);
8763         clear_vec_high(s, is_q, rd);
8764     } else {
8765         TCGv_i32 tcg_shift = tcg_const_i32(shift);
8766         static NeonGenTwoOpEnvFn * const fns[2][2][3] = {
8767             {
8768                 { gen_helper_neon_qshl_s8,
8769                   gen_helper_neon_qshl_s16,
8770                   gen_helper_neon_qshl_s32 },
8771                 { gen_helper_neon_qshlu_s8,
8772                   gen_helper_neon_qshlu_s16,
8773                   gen_helper_neon_qshlu_s32 }
8774             }, {
8775                 { NULL, NULL, NULL },
8776                 { gen_helper_neon_qshl_u8,
8777                   gen_helper_neon_qshl_u16,
8778                   gen_helper_neon_qshl_u32 }
8779             }
8780         };
8781         NeonGenTwoOpEnvFn *genfn = fns[src_unsigned][dst_unsigned][size];
8782         MemOp memop = scalar ? size : MO_32;
8783         int maxpass = scalar ? 1 : is_q ? 4 : 2;
8784
8785         for (pass = 0; pass < maxpass; pass++) {
8786             TCGv_i32 tcg_op = tcg_temp_new_i32();
8787
8788             read_vec_element_i32(s, tcg_op, rn, pass, memop);
8789             genfn(tcg_op, cpu_env, tcg_op, tcg_shift);
8790             if (scalar) {
8791                 switch (size) {
8792                 case 0:
8793                     tcg_gen_ext8u_i32(tcg_op, tcg_op);
8794                     break;
8795                 case 1:
8796                     tcg_gen_ext16u_i32(tcg_op, tcg_op);
8797                     break;
8798                 case 2:
8799                     break;
8800                 default:
8801                     g_assert_not_reached();
8802                 }
8803                 write_fp_sreg(s, rd, tcg_op);
8804             } else {
8805                 write_vec_element_i32(s, tcg_op, rd, pass, MO_32);
8806             }
8807
8808             tcg_temp_free_i32(tcg_op);
8809         }
8810         tcg_temp_free_i32(tcg_shift);
8811
8812         if (!scalar) {
8813             clear_vec_high(s, is_q, rd);
8814         }
8815     }
8816 }
8817
8818 /* Common vector code for handling integer to FP conversion */
8819 static void handle_simd_intfp_conv(DisasContext *s, int rd, int rn,
8820                                    int elements, int is_signed,
8821                                    int fracbits, int size)
8822 {
8823     TCGv_ptr tcg_fpst = fpstatus_ptr(size == MO_16 ? FPST_FPCR_F16 : FPST_FPCR);
8824     TCGv_i32 tcg_shift = NULL;
8825
8826     MemOp mop = size | (is_signed ? MO_SIGN : 0);
8827     int pass;
8828
8829     if (fracbits || size == MO_64) {
8830         tcg_shift = tcg_const_i32(fracbits);
8831     }
8832
8833     if (size == MO_64) {
8834         TCGv_i64 tcg_int64 = tcg_temp_new_i64();
8835         TCGv_i64 tcg_double = tcg_temp_new_i64();
8836
8837         for (pass = 0; pass < elements; pass++) {
8838             read_vec_element(s, tcg_int64, rn, pass, mop);
8839
8840             if (is_signed) {
8841                 gen_helper_vfp_sqtod(tcg_double, tcg_int64,
8842                                      tcg_shift, tcg_fpst);
8843             } else {
8844                 gen_helper_vfp_uqtod(tcg_double, tcg_int64,
8845                                      tcg_shift, tcg_fpst);
8846             }
8847             if (elements == 1) {
8848                 write_fp_dreg(s, rd, tcg_double);
8849             } else {
8850                 write_vec_element(s, tcg_double, rd, pass, MO_64);
8851             }
8852         }
8853
8854         tcg_temp_free_i64(tcg_int64);
8855         tcg_temp_free_i64(tcg_double);
8856
8857     } else {
8858         TCGv_i32 tcg_int32 = tcg_temp_new_i32();
8859         TCGv_i32 tcg_float = tcg_temp_new_i32();
8860
8861         for (pass = 0; pass < elements; pass++) {
8862             read_vec_element_i32(s, tcg_int32, rn, pass, mop);
8863
8864             switch (size) {
8865             case MO_32:
8866                 if (fracbits) {
8867                     if (is_signed) {
8868                         gen_helper_vfp_sltos(tcg_float, tcg_int32,
8869                                              tcg_shift, tcg_fpst);
8870                     } else {
8871                         gen_helper_vfp_ultos(tcg_float, tcg_int32,
8872                                              tcg_shift, tcg_fpst);
8873                     }
8874                 } else {
8875                     if (is_signed) {
8876                         gen_helper_vfp_sitos(tcg_float, tcg_int32, tcg_fpst);
8877                     } else {
8878                         gen_helper_vfp_uitos(tcg_float, tcg_int32, tcg_fpst);
8879                     }
8880                 }
8881                 break;
8882             case MO_16:
8883                 if (fracbits) {
8884                     if (is_signed) {
8885                         gen_helper_vfp_sltoh(tcg_float, tcg_int32,
8886                                              tcg_shift, tcg_fpst);
8887                     } else {
8888                         gen_helper_vfp_ultoh(tcg_float, tcg_int32,
8889                                              tcg_shift, tcg_fpst);
8890                     }
8891                 } else {
8892                     if (is_signed) {
8893                         gen_helper_vfp_sitoh(tcg_float, tcg_int32, tcg_fpst);
8894                     } else {
8895                         gen_helper_vfp_uitoh(tcg_float, tcg_int32, tcg_fpst);
8896                     }
8897                 }
8898                 break;
8899             default:
8900                 g_assert_not_reached();
8901             }
8902
8903             if (elements == 1) {
8904                 write_fp_sreg(s, rd, tcg_float);
8905             } else {
8906                 write_vec_element_i32(s, tcg_float, rd, pass, size);
8907             }
8908         }
8909
8910         tcg_temp_free_i32(tcg_int32);
8911         tcg_temp_free_i32(tcg_float);
8912     }
8913
8914     tcg_temp_free_ptr(tcg_fpst);
8915     if (tcg_shift) {
8916         tcg_temp_free_i32(tcg_shift);
8917     }
8918
8919     clear_vec_high(s, elements << size == 16, rd);
8920 }
8921
8922 /* UCVTF/SCVTF - Integer to FP conversion */
8923 static void handle_simd_shift_intfp_conv(DisasContext *s, bool is_scalar,
8924                                          bool is_q, bool is_u,
8925                                          int immh, int immb, int opcode,
8926                                          int rn, int rd)
8927 {
8928     int size, elements, fracbits;
8929     int immhb = immh << 3 | immb;
8930
8931     if (immh & 8) {
8932         size = MO_64;
8933         if (!is_scalar && !is_q) {
8934             unallocated_encoding(s);
8935             return;
8936         }
8937     } else if (immh & 4) {
8938         size = MO_32;
8939     } else if (immh & 2) {
8940         size = MO_16;
8941         if (!dc_isar_feature(aa64_fp16, s)) {
8942             unallocated_encoding(s);
8943             return;
8944         }
8945     } else {
8946         /* immh == 0 would be a failure of the decode logic */
8947         g_assert(immh == 1);
8948         unallocated_encoding(s);
8949         return;
8950     }
8951
8952     if (is_scalar) {
8953         elements = 1;
8954     } else {
8955         elements = (8 << is_q) >> size;
8956     }
8957     fracbits = (16 << size) - immhb;
8958
8959     if (!fp_access_check(s)) {
8960         return;
8961     }
8962
8963     handle_simd_intfp_conv(s, rd, rn, elements, !is_u, fracbits, size);
8964 }
8965
8966 /* FCVTZS, FVCVTZU - FP to fixedpoint conversion */
8967 static void handle_simd_shift_fpint_conv(DisasContext *s, bool is_scalar,
8968                                          bool is_q, bool is_u,
8969                                          int immh, int immb, int rn, int rd)
8970 {
8971     int immhb = immh << 3 | immb;
8972     int pass, size, fracbits;
8973     TCGv_ptr tcg_fpstatus;
8974     TCGv_i32 tcg_rmode, tcg_shift;
8975
8976     if (immh & 0x8) {
8977         size = MO_64;
8978         if (!is_scalar && !is_q) {
8979             unallocated_encoding(s);
8980             return;
8981         }
8982     } else if (immh & 0x4) {
8983         size = MO_32;
8984     } else if (immh & 0x2) {
8985         size = MO_16;
8986         if (!dc_isar_feature(aa64_fp16, s)) {
8987             unallocated_encoding(s);
8988             return;
8989         }
8990     } else {
8991         /* Should have split out AdvSIMD modified immediate earlier.  */
8992         assert(immh == 1);
8993         unallocated_encoding(s);
8994         return;
8995     }
8996
8997     if (!fp_access_check(s)) {
8998         return;
8999     }
9000
9001     assert(!(is_scalar && is_q));
9002
9003     tcg_rmode = tcg_const_i32(arm_rmode_to_sf(FPROUNDING_ZERO));
9004     tcg_fpstatus = fpstatus_ptr(size == MO_16 ? FPST_FPCR_F16 : FPST_FPCR);
9005     gen_helper_set_rmode(tcg_rmode, tcg_rmode, tcg_fpstatus);
9006     fracbits = (16 << size) - immhb;
9007     tcg_shift = tcg_const_i32(fracbits);
9008
9009     if (size == MO_64) {
9010         int maxpass = is_scalar ? 1 : 2;
9011
9012         for (pass = 0; pass < maxpass; pass++) {
9013             TCGv_i64 tcg_op = tcg_temp_new_i64();
9014
9015             read_vec_element(s, tcg_op, rn, pass, MO_64);
9016             if (is_u) {
9017                 gen_helper_vfp_touqd(tcg_op, tcg_op, tcg_shift, tcg_fpstatus);
9018             } else {
9019                 gen_helper_vfp_tosqd(tcg_op, tcg_op, tcg_shift, tcg_fpstatus);
9020             }
9021             write_vec_element(s, tcg_op, rd, pass, MO_64);
9022             tcg_temp_free_i64(tcg_op);
9023         }
9024         clear_vec_high(s, is_q, rd);
9025     } else {
9026         void (*fn)(TCGv_i32, TCGv_i32, TCGv_i32, TCGv_ptr);
9027         int maxpass = is_scalar ? 1 : ((8 << is_q) >> size);
9028
9029         switch (size) {
9030         case MO_16:
9031             if (is_u) {
9032                 fn = gen_helper_vfp_touhh;
9033             } else {
9034                 fn = gen_helper_vfp_toshh;
9035             }
9036             break;
9037         case MO_32:
9038             if (is_u) {
9039                 fn = gen_helper_vfp_touls;
9040             } else {
9041                 fn = gen_helper_vfp_tosls;
9042             }
9043             break;
9044         default:
9045             g_assert_not_reached();
9046         }
9047
9048         for (pass = 0; pass < maxpass; pass++) {
9049             TCGv_i32 tcg_op = tcg_temp_new_i32();
9050
9051             read_vec_element_i32(s, tcg_op, rn, pass, size);
9052             fn(tcg_op, tcg_op, tcg_shift, tcg_fpstatus);
9053             if (is_scalar) {
9054                 write_fp_sreg(s, rd, tcg_op);
9055             } else {
9056                 write_vec_element_i32(s, tcg_op, rd, pass, size);
9057             }
9058             tcg_temp_free_i32(tcg_op);
9059         }
9060         if (!is_scalar) {
9061             clear_vec_high(s, is_q, rd);
9062         }
9063     }
9064
9065     tcg_temp_free_ptr(tcg_fpstatus);
9066     tcg_temp_free_i32(tcg_shift);
9067     gen_helper_set_rmode(tcg_rmode, tcg_rmode, tcg_fpstatus);
9068     tcg_temp_free_i32(tcg_rmode);
9069 }
9070
9071 /* AdvSIMD scalar shift by immediate
9072  *  31 30  29 28         23 22  19 18  16 15    11  10 9    5 4    0
9073  * +-----+---+-------------+------+------+--------+---+------+------+
9074  * | 0 1 | U | 1 1 1 1 1 0 | immh | immb | opcode | 1 |  Rn  |  Rd  |
9075  * +-----+---+-------------+------+------+--------+---+------+------+
9076  *
9077  * This is the scalar version so it works on a fixed sized registers
9078  */
9079 static void disas_simd_scalar_shift_imm(DisasContext *s, uint32_t insn)
9080 {
9081     int rd = extract32(insn, 0, 5);
9082     int rn = extract32(insn, 5, 5);
9083     int opcode = extract32(insn, 11, 5);
9084     int immb = extract32(insn, 16, 3);
9085     int immh = extract32(insn, 19, 4);
9086     bool is_u = extract32(insn, 29, 1);
9087
9088     if (immh == 0) {
9089         unallocated_encoding(s);
9090         return;
9091     }
9092
9093     switch (opcode) {
9094     case 0x08: /* SRI */
9095         if (!is_u) {
9096             unallocated_encoding(s);
9097             return;
9098         }
9099         /* fall through */
9100     case 0x00: /* SSHR / USHR */
9101     case 0x02: /* SSRA / USRA */
9102     case 0x04: /* SRSHR / URSHR */
9103     case 0x06: /* SRSRA / URSRA */
9104         handle_scalar_simd_shri(s, is_u, immh, immb, opcode, rn, rd);
9105         break;
9106     case 0x0a: /* SHL / SLI */
9107         handle_scalar_simd_shli(s, is_u, immh, immb, opcode, rn, rd);
9108         break;
9109     case 0x1c: /* SCVTF, UCVTF */
9110         handle_simd_shift_intfp_conv(s, true, false, is_u, immh, immb,
9111                                      opcode, rn, rd);
9112         break;
9113     case 0x10: /* SQSHRUN, SQSHRUN2 */
9114     case 0x11: /* SQRSHRUN, SQRSHRUN2 */
9115         if (!is_u) {
9116             unallocated_encoding(s);
9117             return;
9118         }
9119         handle_vec_simd_sqshrn(s, true, false, false, true,
9120                                immh, immb, opcode, rn, rd);
9121         break;
9122     case 0x12: /* SQSHRN, SQSHRN2, UQSHRN */
9123     case 0x13: /* SQRSHRN, SQRSHRN2, UQRSHRN, UQRSHRN2 */
9124         handle_vec_simd_sqshrn(s, true, false, is_u, is_u,
9125                                immh, immb, opcode, rn, rd);
9126         break;
9127     case 0xc: /* SQSHLU */
9128         if (!is_u) {
9129             unallocated_encoding(s);
9130             return;
9131         }
9132         handle_simd_qshl(s, true, false, false, true, immh, immb, rn, rd);
9133         break;
9134     case 0xe: /* SQSHL, UQSHL */
9135         handle_simd_qshl(s, true, false, is_u, is_u, immh, immb, rn, rd);
9136         break;
9137     case 0x1f: /* FCVTZS, FCVTZU */
9138         handle_simd_shift_fpint_conv(s, true, false, is_u, immh, immb, rn, rd);
9139         break;
9140     default:
9141         unallocated_encoding(s);
9142         break;
9143     }
9144 }
9145
9146 /* AdvSIMD scalar three different
9147  *  31 30  29 28       24 23  22  21 20  16 15    12 11 10 9    5 4    0
9148  * +-----+---+-----------+------+---+------+--------+-----+------+------+
9149  * | 0 1 | U | 1 1 1 1 0 | size | 1 |  Rm  | opcode | 0 0 |  Rn  |  Rd  |
9150  * +-----+---+-----------+------+---+------+--------+-----+------+------+
9151  */
9152 static void disas_simd_scalar_three_reg_diff(DisasContext *s, uint32_t insn)
9153 {
9154     bool is_u = extract32(insn, 29, 1);
9155     int size = extract32(insn, 22, 2);
9156     int opcode = extract32(insn, 12, 4);
9157     int rm = extract32(insn, 16, 5);
9158     int rn = extract32(insn, 5, 5);
9159     int rd = extract32(insn, 0, 5);
9160
9161     if (is_u) {
9162         unallocated_encoding(s);
9163         return;
9164     }
9165
9166     switch (opcode) {
9167     case 0x9: /* SQDMLAL, SQDMLAL2 */
9168     case 0xb: /* SQDMLSL, SQDMLSL2 */
9169     case 0xd: /* SQDMULL, SQDMULL2 */
9170         if (size == 0 || size == 3) {
9171             unallocated_encoding(s);
9172             return;
9173         }
9174         break;
9175     default:
9176         unallocated_encoding(s);
9177         return;
9178     }
9179
9180     if (!fp_access_check(s)) {
9181         return;
9182     }
9183
9184     if (size == 2) {
9185         TCGv_i64 tcg_op1 = tcg_temp_new_i64();
9186         TCGv_i64 tcg_op2 = tcg_temp_new_i64();
9187         TCGv_i64 tcg_res = tcg_temp_new_i64();
9188
9189         read_vec_element(s, tcg_op1, rn, 0, MO_32 | MO_SIGN);
9190         read_vec_element(s, tcg_op2, rm, 0, MO_32 | MO_SIGN);
9191
9192         tcg_gen_mul_i64(tcg_res, tcg_op1, tcg_op2);
9193         gen_helper_neon_addl_saturate_s64(tcg_res, cpu_env, tcg_res, tcg_res);
9194
9195         switch (opcode) {
9196         case 0xd: /* SQDMULL, SQDMULL2 */
9197             break;
9198         case 0xb: /* SQDMLSL, SQDMLSL2 */
9199             tcg_gen_neg_i64(tcg_res, tcg_res);
9200             /* fall through */
9201         case 0x9: /* SQDMLAL, SQDMLAL2 */
9202             read_vec_element(s, tcg_op1, rd, 0, MO_64);
9203             gen_helper_neon_addl_saturate_s64(tcg_res, cpu_env,
9204                                               tcg_res, tcg_op1);
9205             break;
9206         default:
9207             g_assert_not_reached();
9208         }
9209
9210         write_fp_dreg(s, rd, tcg_res);
9211
9212         tcg_temp_free_i64(tcg_op1);
9213         tcg_temp_free_i64(tcg_op2);
9214         tcg_temp_free_i64(tcg_res);
9215     } else {
9216         TCGv_i32 tcg_op1 = read_fp_hreg(s, rn);
9217         TCGv_i32 tcg_op2 = read_fp_hreg(s, rm);
9218         TCGv_i64 tcg_res = tcg_temp_new_i64();
9219
9220         gen_helper_neon_mull_s16(tcg_res, tcg_op1, tcg_op2);
9221         gen_helper_neon_addl_saturate_s32(tcg_res, cpu_env, tcg_res, tcg_res);
9222
9223         switch (opcode) {
9224         case 0xd: /* SQDMULL, SQDMULL2 */
9225             break;
9226         case 0xb: /* SQDMLSL, SQDMLSL2 */
9227             gen_helper_neon_negl_u32(tcg_res, tcg_res);
9228             /* fall through */
9229         case 0x9: /* SQDMLAL, SQDMLAL2 */
9230         {
9231             TCGv_i64 tcg_op3 = tcg_temp_new_i64();
9232             read_vec_element(s, tcg_op3, rd, 0, MO_32);
9233             gen_helper_neon_addl_saturate_s32(tcg_res, cpu_env,
9234                                               tcg_res, tcg_op3);
9235             tcg_temp_free_i64(tcg_op3);
9236             break;
9237         }
9238         default:
9239             g_assert_not_reached();
9240         }
9241
9242         tcg_gen_ext32u_i64(tcg_res, tcg_res);
9243         write_fp_dreg(s, rd, tcg_res);
9244
9245         tcg_temp_free_i32(tcg_op1);
9246         tcg_temp_free_i32(tcg_op2);
9247         tcg_temp_free_i64(tcg_res);
9248     }
9249 }
9250
9251 static void handle_3same_64(DisasContext *s, int opcode, bool u,
9252                             TCGv_i64 tcg_rd, TCGv_i64 tcg_rn, TCGv_i64 tcg_rm)
9253 {
9254     /* Handle 64x64->64 opcodes which are shared between the scalar
9255      * and vector 3-same groups. We cover every opcode where size == 3
9256      * is valid in either the three-reg-same (integer, not pairwise)
9257      * or scalar-three-reg-same groups.
9258      */
9259     TCGCond cond;
9260
9261     switch (opcode) {
9262     case 0x1: /* SQADD */
9263         if (u) {
9264             gen_helper_neon_qadd_u64(tcg_rd, cpu_env, tcg_rn, tcg_rm);
9265         } else {
9266             gen_helper_neon_qadd_s64(tcg_rd, cpu_env, tcg_rn, tcg_rm);
9267         }
9268         break;
9269     case 0x5: /* SQSUB */
9270         if (u) {
9271             gen_helper_neon_qsub_u64(tcg_rd, cpu_env, tcg_rn, tcg_rm);
9272         } else {
9273             gen_helper_neon_qsub_s64(tcg_rd, cpu_env, tcg_rn, tcg_rm);
9274         }
9275         break;
9276     case 0x6: /* CMGT, CMHI */
9277         /* 64 bit integer comparison, result = test ? (2^64 - 1) : 0.
9278          * We implement this using setcond (test) and then negating.
9279          */
9280         cond = u ? TCG_COND_GTU : TCG_COND_GT;
9281     do_cmop:
9282         tcg_gen_setcond_i64(cond, tcg_rd, tcg_rn, tcg_rm);
9283         tcg_gen_neg_i64(tcg_rd, tcg_rd);
9284         break;
9285     case 0x7: /* CMGE, CMHS */
9286         cond = u ? TCG_COND_GEU : TCG_COND_GE;
9287         goto do_cmop;
9288     case 0x11: /* CMTST, CMEQ */
9289         if (u) {
9290             cond = TCG_COND_EQ;
9291             goto do_cmop;
9292         }
9293         gen_cmtst_i64(tcg_rd, tcg_rn, tcg_rm);
9294         break;
9295     case 0x8: /* SSHL, USHL */
9296         if (u) {
9297             gen_ushl_i64(tcg_rd, tcg_rn, tcg_rm);
9298         } else {
9299             gen_sshl_i64(tcg_rd, tcg_rn, tcg_rm);
9300         }
9301         break;
9302     case 0x9: /* SQSHL, UQSHL */
9303         if (u) {
9304             gen_helper_neon_qshl_u64(tcg_rd, cpu_env, tcg_rn, tcg_rm);
9305         } else {
9306             gen_helper_neon_qshl_s64(tcg_rd, cpu_env, tcg_rn, tcg_rm);
9307         }
9308         break;
9309     case 0xa: /* SRSHL, URSHL */
9310         if (u) {
9311             gen_helper_neon_rshl_u64(tcg_rd, tcg_rn, tcg_rm);
9312         } else {
9313             gen_helper_neon_rshl_s64(tcg_rd, tcg_rn, tcg_rm);
9314         }
9315         break;
9316     case 0xb: /* SQRSHL, UQRSHL */
9317         if (u) {
9318             gen_helper_neon_qrshl_u64(tcg_rd, cpu_env, tcg_rn, tcg_rm);
9319         } else {
9320             gen_helper_neon_qrshl_s64(tcg_rd, cpu_env, tcg_rn, tcg_rm);
9321         }
9322         break;
9323     case 0x10: /* ADD, SUB */
9324         if (u) {
9325             tcg_gen_sub_i64(tcg_rd, tcg_rn, tcg_rm);
9326         } else {
9327             tcg_gen_add_i64(tcg_rd, tcg_rn, tcg_rm);
9328         }
9329         break;
9330     default:
9331         g_assert_not_reached();
9332     }
9333 }
9334
9335 /* Handle the 3-same-operands float operations; shared by the scalar
9336  * and vector encodings. The caller must filter out any encodings
9337  * not allocated for the encoding it is dealing with.
9338  */
9339 static void handle_3same_float(DisasContext *s, int size, int elements,
9340                                int fpopcode, int rd, int rn, int rm)
9341 {
9342     int pass;
9343     TCGv_ptr fpst = fpstatus_ptr(FPST_FPCR);
9344
9345     for (pass = 0; pass < elements; pass++) {
9346         if (size) {
9347             /* Double */
9348             TCGv_i64 tcg_op1 = tcg_temp_new_i64();
9349             TCGv_i64 tcg_op2 = tcg_temp_new_i64();
9350             TCGv_i64 tcg_res = tcg_temp_new_i64();
9351
9352             read_vec_element(s, tcg_op1, rn, pass, MO_64);
9353             read_vec_element(s, tcg_op2, rm, pass, MO_64);
9354
9355             switch (fpopcode) {
9356             case 0x39: /* FMLS */
9357                 /* As usual for ARM, separate negation for fused multiply-add */
9358                 gen_helper_vfp_negd(tcg_op1, tcg_op1);
9359                 /* fall through */
9360             case 0x19: /* FMLA */
9361                 read_vec_element(s, tcg_res, rd, pass, MO_64);
9362                 gen_helper_vfp_muladdd(tcg_res, tcg_op1, tcg_op2,
9363                                        tcg_res, fpst);
9364                 break;
9365             case 0x18: /* FMAXNM */
9366                 gen_helper_vfp_maxnumd(tcg_res, tcg_op1, tcg_op2, fpst);
9367                 break;
9368             case 0x1a: /* FADD */
9369                 gen_helper_vfp_addd(tcg_res, tcg_op1, tcg_op2, fpst);
9370                 break;
9371             case 0x1b: /* FMULX */
9372                 gen_helper_vfp_mulxd(tcg_res, tcg_op1, tcg_op2, fpst);
9373                 break;
9374             case 0x1c: /* FCMEQ */
9375                 gen_helper_neon_ceq_f64(tcg_res, tcg_op1, tcg_op2, fpst);
9376                 break;
9377             case 0x1e: /* FMAX */
9378                 gen_helper_vfp_maxd(tcg_res, tcg_op1, tcg_op2, fpst);
9379                 break;
9380             case 0x1f: /* FRECPS */
9381                 gen_helper_recpsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
9382                 break;
9383             case 0x38: /* FMINNM */
9384                 gen_helper_vfp_minnumd(tcg_res, tcg_op1, tcg_op2, fpst);
9385                 break;
9386             case 0x3a: /* FSUB */
9387                 gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
9388                 break;
9389             case 0x3e: /* FMIN */
9390                 gen_helper_vfp_mind(tcg_res, tcg_op1, tcg_op2, fpst);
9391                 break;
9392             case 0x3f: /* FRSQRTS */
9393                 gen_helper_rsqrtsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
9394                 break;
9395             case 0x5b: /* FMUL */
9396                 gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
9397                 break;
9398             case 0x5c: /* FCMGE */
9399                 gen_helper_neon_cge_f64(tcg_res, tcg_op1, tcg_op2, fpst);
9400                 break;
9401             case 0x5d: /* FACGE */
9402                 gen_helper_neon_acge_f64(tcg_res, tcg_op1, tcg_op2, fpst);
9403                 break;
9404             case 0x5f: /* FDIV */
9405                 gen_helper_vfp_divd(tcg_res, tcg_op1, tcg_op2, fpst);
9406                 break;
9407             case 0x7a: /* FABD */
9408                 gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
9409                 gen_helper_vfp_absd(tcg_res, tcg_res);
9410                 break;
9411             case 0x7c: /* FCMGT */
9412                 gen_helper_neon_cgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
9413                 break;
9414             case 0x7d: /* FACGT */
9415                 gen_helper_neon_acgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
9416                 break;
9417             default:
9418                 g_assert_not_reached();
9419             }
9420
9421             write_vec_element(s, tcg_res, rd, pass, MO_64);
9422
9423             tcg_temp_free_i64(tcg_res);
9424             tcg_temp_free_i64(tcg_op1);
9425             tcg_temp_free_i64(tcg_op2);
9426         } else {
9427             /* Single */
9428             TCGv_i32 tcg_op1 = tcg_temp_new_i32();
9429             TCGv_i32 tcg_op2 = tcg_temp_new_i32();
9430             TCGv_i32 tcg_res = tcg_temp_new_i32();
9431
9432             read_vec_element_i32(s, tcg_op1, rn, pass, MO_32);
9433             read_vec_element_i32(s, tcg_op2, rm, pass, MO_32);
9434
9435             switch (fpopcode) {
9436             case 0x39: /* FMLS */
9437                 /* As usual for ARM, separate negation for fused multiply-add */
9438                 gen_helper_vfp_negs(tcg_op1, tcg_op1);
9439                 /* fall through */
9440             case 0x19: /* FMLA */
9441                 read_vec_element_i32(s, tcg_res, rd, pass, MO_32);
9442                 gen_helper_vfp_muladds(tcg_res, tcg_op1, tcg_op2,
9443                                        tcg_res, fpst);
9444                 break;
9445             case 0x1a: /* FADD */
9446                 gen_helper_vfp_adds(tcg_res, tcg_op1, tcg_op2, fpst);
9447                 break;
9448             case 0x1b: /* FMULX */
9449                 gen_helper_vfp_mulxs(tcg_res, tcg_op1, tcg_op2, fpst);
9450                 break;
9451             case 0x1c: /* FCMEQ */
9452                 gen_helper_neon_ceq_f32(tcg_res, tcg_op1, tcg_op2, fpst);
9453                 break;
9454             case 0x1e: /* FMAX */
9455                 gen_helper_vfp_maxs(tcg_res, tcg_op1, tcg_op2, fpst);
9456                 break;
9457             case 0x1f: /* FRECPS */
9458                 gen_helper_recpsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
9459                 break;
9460             case 0x18: /* FMAXNM */
9461                 gen_helper_vfp_maxnums(tcg_res, tcg_op1, tcg_op2, fpst);
9462                 break;
9463             case 0x38: /* FMINNM */
9464                 gen_helper_vfp_minnums(tcg_res, tcg_op1, tcg_op2, fpst);
9465                 break;
9466             case 0x3a: /* FSUB */
9467                 gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
9468                 break;
9469             case 0x3e: /* FMIN */
9470                 gen_helper_vfp_mins(tcg_res, tcg_op1, tcg_op2, fpst);
9471                 break;
9472             case 0x3f: /* FRSQRTS */
9473                 gen_helper_rsqrtsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
9474                 break;
9475             case 0x5b: /* FMUL */
9476                 gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
9477                 break;
9478             case 0x5c: /* FCMGE */
9479                 gen_helper_neon_cge_f32(tcg_res, tcg_op1, tcg_op2, fpst);
9480                 break;
9481             case 0x5d: /* FACGE */
9482                 gen_helper_neon_acge_f32(tcg_res, tcg_op1, tcg_op2, fpst);
9483                 break;
9484             case 0x5f: /* FDIV */
9485                 gen_helper_vfp_divs(tcg_res, tcg_op1, tcg_op2, fpst);
9486                 break;
9487             case 0x7a: /* FABD */
9488                 gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
9489                 gen_helper_vfp_abss(tcg_res, tcg_res);
9490                 break;
9491             case 0x7c: /* FCMGT */
9492                 gen_helper_neon_cgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
9493                 break;
9494             case 0x7d: /* FACGT */
9495                 gen_helper_neon_acgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
9496                 break;
9497             default:
9498                 g_assert_not_reached();
9499             }
9500
9501             if (elements == 1) {
9502                 /* scalar single so clear high part */
9503                 TCGv_i64 tcg_tmp = tcg_temp_new_i64();
9504
9505                 tcg_gen_extu_i32_i64(tcg_tmp, tcg_res);
9506                 write_vec_element(s, tcg_tmp, rd, pass, MO_64);
9507                 tcg_temp_free_i64(tcg_tmp);
9508             } else {
9509                 write_vec_element_i32(s, tcg_res, rd, pass, MO_32);
9510             }
9511
9512             tcg_temp_free_i32(tcg_res);
9513             tcg_temp_free_i32(tcg_op1);
9514             tcg_temp_free_i32(tcg_op2);
9515         }
9516     }
9517
9518     tcg_temp_free_ptr(fpst);
9519
9520     clear_vec_high(s, elements * (size ? 8 : 4) > 8, rd);
9521 }
9522
9523 /* AdvSIMD scalar three same
9524  *  31 30  29 28       24 23  22  21 20  16 15    11  10 9    5 4    0
9525  * +-----+---+-----------+------+---+------+--------+---+------+------+
9526  * | 0 1 | U | 1 1 1 1 0 | size | 1 |  Rm  | opcode | 1 |  Rn  |  Rd  |
9527  * +-----+---+-----------+------+---+------+--------+---+------+------+
9528  */
9529 static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
9530 {
9531     int rd = extract32(insn, 0, 5);
9532     int rn = extract32(insn, 5, 5);
9533     int opcode = extract32(insn, 11, 5);
9534     int rm = extract32(insn, 16, 5);
9535     int size = extract32(insn, 22, 2);
9536     bool u = extract32(insn, 29, 1);
9537     TCGv_i64 tcg_rd;
9538
9539     if (opcode >= 0x18) {
9540         /* Floating point: U, size[1] and opcode indicate operation */
9541         int fpopcode = opcode | (extract32(size, 1, 1) << 5) | (u << 6);
9542         switch (fpopcode) {
9543         case 0x1b: /* FMULX */
9544         case 0x1f: /* FRECPS */
9545         case 0x3f: /* FRSQRTS */
9546         case 0x5d: /* FACGE */
9547         case 0x7d: /* FACGT */
9548         case 0x1c: /* FCMEQ */
9549         case 0x5c: /* FCMGE */
9550         case 0x7c: /* FCMGT */
9551         case 0x7a: /* FABD */
9552             break;
9553         default:
9554             unallocated_encoding(s);
9555             return;
9556         }
9557
9558         if (!fp_access_check(s)) {
9559             return;
9560         }
9561
9562         handle_3same_float(s, extract32(size, 0, 1), 1, fpopcode, rd, rn, rm);
9563         return;
9564     }
9565
9566     switch (opcode) {
9567     case 0x1: /* SQADD, UQADD */
9568     case 0x5: /* SQSUB, UQSUB */
9569     case 0x9: /* SQSHL, UQSHL */
9570     case 0xb: /* SQRSHL, UQRSHL */
9571         break;
9572     case 0x8: /* SSHL, USHL */
9573     case 0xa: /* SRSHL, URSHL */
9574     case 0x6: /* CMGT, CMHI */
9575     case 0x7: /* CMGE, CMHS */
9576     case 0x11: /* CMTST, CMEQ */
9577     case 0x10: /* ADD, SUB (vector) */
9578         if (size != 3) {
9579             unallocated_encoding(s);
9580             return;
9581         }
9582         break;
9583     case 0x16: /* SQDMULH, SQRDMULH (vector) */
9584         if (size != 1 && size != 2) {
9585             unallocated_encoding(s);
9586             return;
9587         }
9588         break;
9589     default:
9590         unallocated_encoding(s);
9591         return;
9592     }
9593
9594     if (!fp_access_check(s)) {
9595         return;
9596     }
9597
9598     tcg_rd = tcg_temp_new_i64();
9599
9600     if (size == 3) {
9601         TCGv_i64 tcg_rn = read_fp_dreg(s, rn);
9602         TCGv_i64 tcg_rm = read_fp_dreg(s, rm);
9603
9604         handle_3same_64(s, opcode, u, tcg_rd, tcg_rn, tcg_rm);
9605         tcg_temp_free_i64(tcg_rn);
9606         tcg_temp_free_i64(tcg_rm);
9607     } else {
9608         /* Do a single operation on the lowest element in the vector.
9609          * We use the standard Neon helpers and rely on 0 OP 0 == 0 with
9610          * no side effects for all these operations.
9611          * OPTME: special-purpose helpers would avoid doing some
9612          * unnecessary work in the helper for the 8 and 16 bit cases.
9613          */
9614         NeonGenTwoOpEnvFn *genenvfn;
9615         TCGv_i32 tcg_rn = tcg_temp_new_i32();
9616         TCGv_i32 tcg_rm = tcg_temp_new_i32();
9617         TCGv_i32 tcg_rd32 = tcg_temp_new_i32();
9618
9619         read_vec_element_i32(s, tcg_rn, rn, 0, size);
9620         read_vec_element_i32(s, tcg_rm, rm, 0, size);
9621
9622         switch (opcode) {
9623         case 0x1: /* SQADD, UQADD */
9624         {
9625             static NeonGenTwoOpEnvFn * const fns[3][2] = {
9626                 { gen_helper_neon_qadd_s8, gen_helper_neon_qadd_u8 },
9627                 { gen_helper_neon_qadd_s16, gen_helper_neon_qadd_u16 },
9628                 { gen_helper_neon_qadd_s32, gen_helper_neon_qadd_u32 },
9629             };
9630             genenvfn = fns[size][u];
9631             break;
9632         }
9633         case 0x5: /* SQSUB, UQSUB */
9634         {
9635             static NeonGenTwoOpEnvFn * const fns[3][2] = {
9636                 { gen_helper_neon_qsub_s8, gen_helper_neon_qsub_u8 },
9637                 { gen_helper_neon_qsub_s16, gen_helper_neon_qsub_u16 },
9638                 { gen_helper_neon_qsub_s32, gen_helper_neon_qsub_u32 },
9639             };
9640             genenvfn = fns[size][u];
9641             break;
9642         }
9643         case 0x9: /* SQSHL, UQSHL */
9644         {
9645             static NeonGenTwoOpEnvFn * const fns[3][2] = {
9646                 { gen_helper_neon_qshl_s8, gen_helper_neon_qshl_u8 },
9647                 { gen_helper_neon_qshl_s16, gen_helper_neon_qshl_u16 },
9648                 { gen_helper_neon_qshl_s32, gen_helper_neon_qshl_u32 },
9649             };
9650             genenvfn = fns[size][u];
9651             break;
9652         }
9653         case 0xb: /* SQRSHL, UQRSHL */
9654         {
9655             static NeonGenTwoOpEnvFn * const fns[3][2] = {
9656                 { gen_helper_neon_qrshl_s8, gen_helper_neon_qrshl_u8 },
9657                 { gen_helper_neon_qrshl_s16, gen_helper_neon_qrshl_u16 },
9658                 { gen_helper_neon_qrshl_s32, gen_helper_neon_qrshl_u32 },
9659             };
9660             genenvfn = fns[size][u];
9661             break;
9662         }
9663         case 0x16: /* SQDMULH, SQRDMULH */
9664         {
9665             static NeonGenTwoOpEnvFn * const fns[2][2] = {
9666                 { gen_helper_neon_qdmulh_s16, gen_helper_neon_qrdmulh_s16 },
9667                 { gen_helper_neon_qdmulh_s32, gen_helper_neon_qrdmulh_s32 },
9668             };
9669             assert(size == 1 || size == 2);
9670             genenvfn = fns[size - 1][u];
9671             break;
9672         }
9673         default:
9674             g_assert_not_reached();
9675         }
9676
9677         genenvfn(tcg_rd32, cpu_env, tcg_rn, tcg_rm);
9678         tcg_gen_extu_i32_i64(tcg_rd, tcg_rd32);
9679         tcg_temp_free_i32(tcg_rd32);
9680         tcg_temp_free_i32(tcg_rn);
9681         tcg_temp_free_i32(tcg_rm);
9682     }
9683
9684     write_fp_dreg(s, rd, tcg_rd);
9685
9686     tcg_temp_free_i64(tcg_rd);
9687 }
9688
9689 /* AdvSIMD scalar three same FP16
9690  *  31 30  29 28       24 23  22 21 20  16 15 14 13    11 10  9  5 4  0
9691  * +-----+---+-----------+---+-----+------+-----+--------+---+----+----+
9692  * | 0 1 | U | 1 1 1 1 0 | a | 1 0 |  Rm  | 0 0 | opcode | 1 | Rn | Rd |
9693  * +-----+---+-----------+---+-----+------+-----+--------+---+----+----+
9694  * v: 0101 1110 0100 0000 0000 0100 0000 0000 => 5e400400
9695  * m: 1101 1111 0110 0000 1100 0100 0000 0000 => df60c400
9696  */
9697 static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
9698                                                   uint32_t insn)
9699 {
9700     int rd = extract32(insn, 0, 5);
9701     int rn = extract32(insn, 5, 5);
9702     int opcode = extract32(insn, 11, 3);
9703     int rm = extract32(insn, 16, 5);
9704     bool u = extract32(insn, 29, 1);
9705     bool a = extract32(insn, 23, 1);
9706     int fpopcode = opcode | (a << 3) |  (u << 4);
9707     TCGv_ptr fpst;
9708     TCGv_i32 tcg_op1;
9709     TCGv_i32 tcg_op2;
9710     TCGv_i32 tcg_res;
9711
9712     switch (fpopcode) {
9713     case 0x03: /* FMULX */
9714     case 0x04: /* FCMEQ (reg) */
9715     case 0x07: /* FRECPS */
9716     case 0x0f: /* FRSQRTS */
9717     case 0x14: /* FCMGE (reg) */
9718     case 0x15: /* FACGE */
9719     case 0x1a: /* FABD */
9720     case 0x1c: /* FCMGT (reg) */
9721     case 0x1d: /* FACGT */
9722         break;
9723     default:
9724         unallocated_encoding(s);
9725         return;
9726     }
9727
9728     if (!dc_isar_feature(aa64_fp16, s)) {
9729         unallocated_encoding(s);
9730     }
9731
9732     if (!fp_access_check(s)) {
9733         return;
9734     }
9735
9736     fpst = fpstatus_ptr(FPST_FPCR_F16);
9737
9738     tcg_op1 = read_fp_hreg(s, rn);
9739     tcg_op2 = read_fp_hreg(s, rm);
9740     tcg_res = tcg_temp_new_i32();
9741
9742     switch (fpopcode) {
9743     case 0x03: /* FMULX */
9744         gen_helper_advsimd_mulxh(tcg_res, tcg_op1, tcg_op2, fpst);
9745         break;
9746     case 0x04: /* FCMEQ (reg) */
9747         gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
9748         break;
9749     case 0x07: /* FRECPS */
9750         gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
9751         break;
9752     case 0x0f: /* FRSQRTS */
9753         gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
9754         break;
9755     case 0x14: /* FCMGE (reg) */
9756         gen_helper_advsimd_cge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
9757         break;
9758     case 0x15: /* FACGE */
9759         gen_helper_advsimd_acge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
9760         break;
9761     case 0x1a: /* FABD */
9762         gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
9763         tcg_gen_andi_i32(tcg_res, tcg_res, 0x7fff);
9764         break;
9765     case 0x1c: /* FCMGT (reg) */
9766         gen_helper_advsimd_cgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
9767         break;
9768     case 0x1d: /* FACGT */
9769         gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
9770         break;
9771     default:
9772         g_assert_not_reached();
9773     }
9774
9775     write_fp_sreg(s, rd, tcg_res);
9776
9777
9778     tcg_temp_free_i32(tcg_res);
9779     tcg_temp_free_i32(tcg_op1);
9780     tcg_temp_free_i32(tcg_op2);
9781     tcg_temp_free_ptr(fpst);
9782 }
9783
9784 /* AdvSIMD scalar three same extra
9785  *  31 30  29 28       24 23  22  21 20  16  15 14    11  10 9  5 4  0
9786  * +-----+---+-----------+------+---+------+---+--------+---+----+----+
9787  * | 0 1 | U | 1 1 1 1 0 | size | 0 |  Rm  | 1 | opcode | 1 | Rn | Rd |
9788  * +-----+---+-----------+------+---+------+---+--------+---+----+----+
9789  */
9790 static void disas_simd_scalar_three_reg_same_extra(DisasContext *s,
9791                                                    uint32_t insn)
9792 {
9793     int rd = extract32(insn, 0, 5);
9794     int rn = extract32(insn, 5, 5);
9795     int opcode = extract32(insn, 11, 4);
9796     int rm = extract32(insn, 16, 5);
9797     int size = extract32(insn, 22, 2);
9798     bool u = extract32(insn, 29, 1);
9799     TCGv_i32 ele1, ele2, ele3;
9800     TCGv_i64 res;
9801     bool feature;
9802
9803     switch (u * 16 + opcode) {
9804     case 0x10: /* SQRDMLAH (vector) */
9805     case 0x11: /* SQRDMLSH (vector) */
9806         if (size != 1 && size != 2) {
9807             unallocated_encoding(s);
9808             return;
9809         }
9810         feature = dc_isar_feature(aa64_rdm, s);
9811         break;
9812     default:
9813         unallocated_encoding(s);
9814         return;
9815     }
9816     if (!feature) {
9817         unallocated_encoding(s);
9818         return;
9819     }
9820     if (!fp_access_check(s)) {
9821         return;
9822     }
9823
9824     /* Do a single operation on the lowest element in the vector.
9825      * We use the standard Neon helpers and rely on 0 OP 0 == 0
9826      * with no side effects for all these operations.
9827      * OPTME: special-purpose helpers would avoid doing some
9828      * unnecessary work in the helper for the 16 bit cases.
9829      */
9830     ele1 = tcg_temp_new_i32();
9831     ele2 = tcg_temp_new_i32();
9832     ele3 = tcg_temp_new_i32();
9833
9834     read_vec_element_i32(s, ele1, rn, 0, size);
9835     read_vec_element_i32(s, ele2, rm, 0, size);
9836     read_vec_element_i32(s, ele3, rd, 0, size);
9837
9838     switch (opcode) {
9839     case 0x0: /* SQRDMLAH */
9840         if (size == 1) {
9841             gen_helper_neon_qrdmlah_s16(ele3, cpu_env, ele1, ele2, ele3);
9842         } else {
9843             gen_helper_neon_qrdmlah_s32(ele3, cpu_env, ele1, ele2, ele3);
9844         }
9845         break;
9846     case 0x1: /* SQRDMLSH */
9847         if (size == 1) {
9848             gen_helper_neon_qrdmlsh_s16(ele3, cpu_env, ele1, ele2, ele3);
9849         } else {
9850             gen_helper_neon_qrdmlsh_s32(ele3, cpu_env, ele1, ele2, ele3);
9851         }
9852         break;
9853     default:
9854         g_assert_not_reached();
9855     }
9856     tcg_temp_free_i32(ele1);
9857     tcg_temp_free_i32(ele2);
9858
9859     res = tcg_temp_new_i64();
9860     tcg_gen_extu_i32_i64(res, ele3);
9861     tcg_temp_free_i32(ele3);
9862
9863     write_fp_dreg(s, rd, res);
9864     tcg_temp_free_i64(res);
9865 }
9866
9867 static void handle_2misc_64(DisasContext *s, int opcode, bool u,
9868                             TCGv_i64 tcg_rd, TCGv_i64 tcg_rn,
9869                             TCGv_i32 tcg_rmode, TCGv_ptr tcg_fpstatus)
9870 {
9871     /* Handle 64->64 opcodes which are shared between the scalar and
9872      * vector 2-reg-misc groups. We cover every integer opcode where size == 3
9873      * is valid in either group and also the double-precision fp ops.
9874      * The caller only need provide tcg_rmode and tcg_fpstatus if the op
9875      * requires them.
9876      */
9877     TCGCond cond;
9878
9879     switch (opcode) {
9880     case 0x4: /* CLS, CLZ */
9881         if (u) {
9882             tcg_gen_clzi_i64(tcg_rd, tcg_rn, 64);
9883         } else {
9884             tcg_gen_clrsb_i64(tcg_rd, tcg_rn);
9885         }
9886         break;
9887     case 0x5: /* NOT */
9888         /* This opcode is shared with CNT and RBIT but we have earlier
9889          * enforced that size == 3 if and only if this is the NOT insn.
9890          */
9891         tcg_gen_not_i64(tcg_rd, tcg_rn);
9892         break;
9893     case 0x7: /* SQABS, SQNEG */
9894         if (u) {
9895             gen_helper_neon_qneg_s64(tcg_rd, cpu_env, tcg_rn);
9896         } else {
9897             gen_helper_neon_qabs_s64(tcg_rd, cpu_env, tcg_rn);
9898         }
9899         break;
9900     case 0xa: /* CMLT */
9901         /* 64 bit integer comparison against zero, result is
9902          * test ? (2^64 - 1) : 0. We implement via setcond(!test) and
9903          * subtracting 1.
9904          */
9905         cond = TCG_COND_LT;
9906     do_cmop:
9907         tcg_gen_setcondi_i64(cond, tcg_rd, tcg_rn, 0);
9908         tcg_gen_neg_i64(tcg_rd, tcg_rd);
9909         break;
9910     case 0x8: /* CMGT, CMGE */
9911         cond = u ? TCG_COND_GE : TCG_COND_GT;
9912         goto do_cmop;
9913     case 0x9: /* CMEQ, CMLE */
9914         cond = u ? TCG_COND_LE : TCG_COND_EQ;
9915         goto do_cmop;
9916     case 0xb: /* ABS, NEG */
9917         if (u) {
9918             tcg_gen_neg_i64(tcg_rd, tcg_rn);
9919         } else {
9920             tcg_gen_abs_i64(tcg_rd, tcg_rn);
9921         }
9922         break;
9923     case 0x2f: /* FABS */
9924         gen_helper_vfp_absd(tcg_rd, tcg_rn);
9925         break;
9926     case 0x6f: /* FNEG */
9927         gen_helper_vfp_negd(tcg_rd, tcg_rn);
9928         break;
9929     case 0x7f: /* FSQRT */
9930         gen_helper_vfp_sqrtd(tcg_rd, tcg_rn, cpu_env);
9931         break;
9932     case 0x1a: /* FCVTNS */
9933     case 0x1b: /* FCVTMS */
9934     case 0x1c: /* FCVTAS */
9935     case 0x3a: /* FCVTPS */
9936     case 0x3b: /* FCVTZS */
9937     {
9938         TCGv_i32 tcg_shift = tcg_const_i32(0);
9939         gen_helper_vfp_tosqd(tcg_rd, tcg_rn, tcg_shift, tcg_fpstatus);
9940         tcg_temp_free_i32(tcg_shift);
9941         break;
9942     }
9943     case 0x5a: /* FCVTNU */
9944     case 0x5b: /* FCVTMU */
9945     case 0x5c: /* FCVTAU */
9946     case 0x7a: /* FCVTPU */
9947     case 0x7b: /* FCVTZU */
9948     {
9949         TCGv_i32 tcg_shift = tcg_const_i32(0);
9950         gen_helper_vfp_touqd(tcg_rd, tcg_rn, tcg_shift, tcg_fpstatus);
9951         tcg_temp_free_i32(tcg_shift);
9952         break;
9953     }
9954     case 0x18: /* FRINTN */
9955     case 0x19: /* FRINTM */
9956     case 0x38: /* FRINTP */
9957     case 0x39: /* FRINTZ */
9958     case 0x58: /* FRINTA */
9959     case 0x79: /* FRINTI */
9960         gen_helper_rintd(tcg_rd, tcg_rn, tcg_fpstatus);
9961         break;
9962     case 0x59: /* FRINTX */
9963         gen_helper_rintd_exact(tcg_rd, tcg_rn, tcg_fpstatus);
9964         break;
9965     case 0x1e: /* FRINT32Z */
9966     case 0x5e: /* FRINT32X */
9967         gen_helper_frint32_d(tcg_rd, tcg_rn, tcg_fpstatus);
9968         break;
9969     case 0x1f: /* FRINT64Z */
9970     case 0x5f: /* FRINT64X */
9971         gen_helper_frint64_d(tcg_rd, tcg_rn, tcg_fpstatus);
9972         break;
9973     default:
9974         g_assert_not_reached();
9975     }
9976 }
9977
9978 static void handle_2misc_fcmp_zero(DisasContext *s, int opcode,
9979                                    bool is_scalar, bool is_u, bool is_q,
9980                                    int size, int rn, int rd)
9981 {
9982     bool is_double = (size == MO_64);
9983     TCGv_ptr fpst;
9984
9985     if (!fp_access_check(s)) {
9986         return;
9987     }
9988
9989     fpst = fpstatus_ptr(size == MO_16 ? FPST_FPCR_F16 : FPST_FPCR);
9990
9991     if (is_double) {
9992         TCGv_i64 tcg_op = tcg_temp_new_i64();
9993         TCGv_i64 tcg_zero = tcg_const_i64(0);
9994         TCGv_i64 tcg_res = tcg_temp_new_i64();
9995         NeonGenTwoDoubleOpFn *genfn;
9996         bool swap = false;
9997         int pass;
9998
9999         switch (opcode) {
10000         case 0x2e: /* FCMLT (zero) */
10001             swap = true;
10002             /* fallthrough */
10003         case 0x2c: /* FCMGT (zero) */
10004             genfn = gen_helper_neon_cgt_f64;
10005             break;
10006         case 0x2d: /* FCMEQ (zero) */
10007             genfn = gen_helper_neon_ceq_f64;
10008             break;
10009         case 0x6d: /* FCMLE (zero) */
10010             swap = true;
10011             /* fall through */
10012         case 0x6c: /* FCMGE (zero) */
10013             genfn = gen_helper_neon_cge_f64;
10014             break;
10015         default:
10016             g_assert_not_reached();
10017         }
10018
10019         for (pass = 0; pass < (is_scalar ? 1 : 2); pass++) {
10020             read_vec_element(s, tcg_op, rn, pass, MO_64);
10021             if (swap) {
10022                 genfn(tcg_res, tcg_zero, tcg_op, fpst);
10023             } else {
10024                 genfn(tcg_res, tcg_op, tcg_zero, fpst);
10025             }
10026             write_vec_element(s, tcg_res, rd, pass, MO_64);
10027         }
10028         tcg_temp_free_i64(tcg_res);
10029         tcg_temp_free_i64(tcg_zero);
10030         tcg_temp_free_i64(tcg_op);
10031
10032         clear_vec_high(s, !is_scalar, rd);
10033     } else {
10034         TCGv_i32 tcg_op = tcg_temp_new_i32();
10035         TCGv_i32 tcg_zero = tcg_const_i32(0);
10036         TCGv_i32 tcg_res = tcg_temp_new_i32();
10037         NeonGenTwoSingleOpFn *genfn;
10038         bool swap = false;
10039         int pass, maxpasses;
10040
10041         if (size == MO_16) {
10042             switch (opcode) {
10043             case 0x2e: /* FCMLT (zero) */
10044                 swap = true;
10045                 /* fall through */
10046             case 0x2c: /* FCMGT (zero) */
10047                 genfn = gen_helper_advsimd_cgt_f16;
10048                 break;
10049             case 0x2d: /* FCMEQ (zero) */
10050                 genfn = gen_helper_advsimd_ceq_f16;
10051                 break;
10052             case 0x6d: /* FCMLE (zero) */
10053                 swap = true;
10054                 /* fall through */
10055             case 0x6c: /* FCMGE (zero) */
10056                 genfn = gen_helper_advsimd_cge_f16;
10057                 break;
10058             default:
10059                 g_assert_not_reached();
10060             }
10061         } else {
10062             switch (opcode) {
10063             case 0x2e: /* FCMLT (zero) */
10064                 swap = true;
10065                 /* fall through */
10066             case 0x2c: /* FCMGT (zero) */
10067                 genfn = gen_helper_neon_cgt_f32;
10068                 break;
10069             case 0x2d: /* FCMEQ (zero) */
10070                 genfn = gen_helper_neon_ceq_f32;
10071                 break;
10072             case 0x6d: /* FCMLE (zero) */
10073                 swap = true;
10074                 /* fall through */
10075             case 0x6c: /* FCMGE (zero) */
10076                 genfn = gen_helper_neon_cge_f32;
10077                 break;
10078             default:
10079                 g_assert_not_reached();
10080             }
10081         }
10082
10083         if (is_scalar) {
10084             maxpasses = 1;
10085         } else {
10086             int vector_size = 8 << is_q;
10087             maxpasses = vector_size >> size;
10088         }
10089
10090         for (pass = 0; pass < maxpasses; pass++) {
10091             read_vec_element_i32(s, tcg_op, rn, pass, size);
10092             if (swap) {
10093                 genfn(tcg_res, tcg_zero, tcg_op, fpst);
10094             } else {
10095                 genfn(tcg_res, tcg_op, tcg_zero, fpst);
10096             }
10097             if (is_scalar) {
10098                 write_fp_sreg(s, rd, tcg_res);
10099             } else {
10100                 write_vec_element_i32(s, tcg_res, rd, pass, size);
10101             }
10102         }
10103         tcg_temp_free_i32(tcg_res);
10104         tcg_temp_free_i32(tcg_zero);
10105         tcg_temp_free_i32(tcg_op);
10106         if (!is_scalar) {
10107             clear_vec_high(s, is_q, rd);
10108         }
10109     }
10110
10111     tcg_temp_free_ptr(fpst);
10112 }
10113
10114 static void handle_2misc_reciprocal(DisasContext *s, int opcode,
10115                                     bool is_scalar, bool is_u, bool is_q,
10116                                     int size, int rn, int rd)
10117 {
10118     bool is_double = (size == 3);
10119     TCGv_ptr fpst = fpstatus_ptr(FPST_FPCR);
10120
10121     if (is_double) {
10122         TCGv_i64 tcg_op = tcg_temp_new_i64();
10123         TCGv_i64 tcg_res = tcg_temp_new_i64();
10124         int pass;
10125
10126         for (pass = 0; pass < (is_scalar ? 1 : 2); pass++) {
10127             read_vec_element(s, tcg_op, rn, pass, MO_64);
10128             switch (opcode) {
10129             case 0x3d: /* FRECPE */
10130                 gen_helper_recpe_f64(tcg_res, tcg_op, fpst);
10131                 break;
10132             case 0x3f: /* FRECPX */
10133                 gen_helper_frecpx_f64(tcg_res, tcg_op, fpst);
10134                 break;
10135             case 0x7d: /* FRSQRTE */
10136                 gen_helper_rsqrte_f64(tcg_res, tcg_op, fpst);
10137                 break;
10138             default:
10139                 g_assert_not_reached();
10140             }
10141             write_vec_element(s, tcg_res, rd, pass, MO_64);
10142         }
10143         tcg_temp_free_i64(tcg_res);
10144         tcg_temp_free_i64(tcg_op);
10145         clear_vec_high(s, !is_scalar, rd);
10146     } else {
10147         TCGv_i32 tcg_op = tcg_temp_new_i32();
10148         TCGv_i32 tcg_res = tcg_temp_new_i32();
10149         int pass, maxpasses;
10150
10151         if (is_scalar) {
10152             maxpasses = 1;
10153         } else {
10154             maxpasses = is_q ? 4 : 2;
10155         }
10156
10157         for (pass = 0; pass < maxpasses; pass++) {
10158             read_vec_element_i32(s, tcg_op, rn, pass, MO_32);
10159
10160             switch (opcode) {
10161             case 0x3c: /* URECPE */
10162                 gen_helper_recpe_u32(tcg_res, tcg_op);
10163                 break;
10164             case 0x3d: /* FRECPE */
10165                 gen_helper_recpe_f32(tcg_res, tcg_op, fpst);
10166                 break;
10167             case 0x3f: /* FRECPX */
10168                 gen_helper_frecpx_f32(tcg_res, tcg_op, fpst);
10169                 break;
10170             case 0x7d: /* FRSQRTE */
10171                 gen_helper_rsqrte_f32(tcg_res, tcg_op, fpst);
10172                 break;
10173             default:
10174                 g_assert_not_reached();
10175             }
10176
10177             if (is_scalar) {
10178                 write_fp_sreg(s, rd, tcg_res);
10179             } else {
10180                 write_vec_element_i32(s, tcg_res, rd, pass, MO_32);
10181             }
10182         }
10183         tcg_temp_free_i32(tcg_res);
10184         tcg_temp_free_i32(tcg_op);
10185         if (!is_scalar) {
10186             clear_vec_high(s, is_q, rd);
10187         }
10188     }
10189     tcg_temp_free_ptr(fpst);
10190 }
10191
10192 static void handle_2misc_narrow(DisasContext *s, bool scalar,
10193                                 int opcode, bool u, bool is_q,
10194                                 int size, int rn, int rd)
10195 {
10196     /* Handle 2-reg-misc ops which are narrowing (so each 2*size element
10197      * in the source becomes a size element in the destination).
10198      */
10199     int pass;
10200     TCGv_i32 tcg_res[2];
10201     int destelt = is_q ? 2 : 0;
10202     int passes = scalar ? 1 : 2;
10203
10204     if (scalar) {
10205         tcg_res[1] = tcg_const_i32(0);
10206     }
10207
10208     for (pass = 0; pass < passes; pass++) {
10209         TCGv_i64 tcg_op = tcg_temp_new_i64();
10210         NeonGenNarrowFn *genfn = NULL;
10211         NeonGenNarrowEnvFn *genenvfn = NULL;
10212
10213         if (scalar) {
10214             read_vec_element(s, tcg_op, rn, pass, size + 1);
10215         } else {
10216             read_vec_element(s, tcg_op, rn, pass, MO_64);
10217         }
10218         tcg_res[pass] = tcg_temp_new_i32();
10219
10220         switch (opcode) {
10221         case 0x12: /* XTN, SQXTUN */
10222         {
10223             static NeonGenNarrowFn * const xtnfns[3] = {
10224                 gen_helper_neon_narrow_u8,
10225                 gen_helper_neon_narrow_u16,
10226                 tcg_gen_extrl_i64_i32,
10227             };
10228             static NeonGenNarrowEnvFn * const sqxtunfns[3] = {
10229                 gen_helper_neon_unarrow_sat8,
10230                 gen_helper_neon_unarrow_sat16,
10231                 gen_helper_neon_unarrow_sat32,
10232             };
10233             if (u) {
10234                 genenvfn = sqxtunfns[size];
10235             } else {
10236                 genfn = xtnfns[size];
10237             }
10238             break;
10239         }
10240         case 0x14: /* SQXTN, UQXTN */
10241         {
10242             static NeonGenNarrowEnvFn * const fns[3][2] = {
10243                 { gen_helper_neon_narrow_sat_s8,
10244                   gen_helper_neon_narrow_sat_u8 },
10245                 { gen_helper_neon_narrow_sat_s16,
10246                   gen_helper_neon_narrow_sat_u16 },
10247                 { gen_helper_neon_narrow_sat_s32,
10248                   gen_helper_neon_narrow_sat_u32 },
10249             };
10250             genenvfn = fns[size][u];
10251             break;
10252         }
10253         case 0x16: /* FCVTN, FCVTN2 */
10254             /* 32 bit to 16 bit or 64 bit to 32 bit float conversion */
10255             if (size == 2) {
10256                 gen_helper_vfp_fcvtsd(tcg_res[pass], tcg_op, cpu_env);
10257             } else {
10258                 TCGv_i32 tcg_lo = tcg_temp_new_i32();
10259                 TCGv_i32 tcg_hi = tcg_temp_new_i32();
10260                 TCGv_ptr fpst = fpstatus_ptr(FPST_FPCR);
10261                 TCGv_i32 ahp = get_ahp_flag();
10262
10263                 tcg_gen_extr_i64_i32(tcg_lo, tcg_hi, tcg_op);
10264                 gen_helper_vfp_fcvt_f32_to_f16(tcg_lo, tcg_lo, fpst, ahp);
10265                 gen_helper_vfp_fcvt_f32_to_f16(tcg_hi, tcg_hi, fpst, ahp);
10266                 tcg_gen_deposit_i32(tcg_res[pass], tcg_lo, tcg_hi, 16, 16);
10267                 tcg_temp_free_i32(tcg_lo);
10268                 tcg_temp_free_i32(tcg_hi);
10269                 tcg_temp_free_ptr(fpst);
10270                 tcg_temp_free_i32(ahp);
10271             }
10272             break;
10273         case 0x36: /* BFCVTN, BFCVTN2 */
10274             {
10275                 TCGv_ptr fpst = fpstatus_ptr(FPST_FPCR);
10276                 gen_helper_bfcvt_pair(tcg_res[pass], tcg_op, fpst);
10277                 tcg_temp_free_ptr(fpst);
10278             }
10279             break;
10280         case 0x56:  /* FCVTXN, FCVTXN2 */
10281             /* 64 bit to 32 bit float conversion
10282              * with von Neumann rounding (round to odd)
10283              */
10284             assert(size == 2);
10285             gen_helper_fcvtx_f64_to_f32(tcg_res[pass], tcg_op, cpu_env);
10286             break;
10287         default:
10288             g_assert_not_reached();
10289         }
10290
10291         if (genfn) {
10292             genfn(tcg_res[pass], tcg_op);
10293         } else if (genenvfn) {
10294             genenvfn(tcg_res[pass], cpu_env, tcg_op);
10295         }
10296
10297         tcg_temp_free_i64(tcg_op);
10298     }
10299
10300     for (pass = 0; pass < 2; pass++) {
10301         write_vec_element_i32(s, tcg_res[pass], rd, destelt + pass, MO_32);
10302         tcg_temp_free_i32(tcg_res[pass]);
10303     }
10304     clear_vec_high(s, is_q, rd);
10305 }
10306
10307 /* Remaining saturating accumulating ops */
10308 static void handle_2misc_satacc(DisasContext *s, bool is_scalar, bool is_u,
10309                                 bool is_q, int size, int rn, int rd)
10310 {
10311     bool is_double = (size == 3);
10312
10313     if (is_double) {
10314         TCGv_i64 tcg_rn = tcg_temp_new_i64();
10315         TCGv_i64 tcg_rd = tcg_temp_new_i64();
10316         int pass;
10317
10318         for (pass = 0; pass < (is_scalar ? 1 : 2); pass++) {
10319             read_vec_element(s, tcg_rn, rn, pass, MO_64);
10320             read_vec_element(s, tcg_rd, rd, pass, MO_64);
10321
10322             if (is_u) { /* USQADD */
10323                 gen_helper_neon_uqadd_s64(tcg_rd, cpu_env, tcg_rn, tcg_rd);
10324             } else { /* SUQADD */
10325                 gen_helper_neon_sqadd_u64(tcg_rd, cpu_env, tcg_rn, tcg_rd);
10326             }
10327             write_vec_element(s, tcg_rd, rd, pass, MO_64);
10328         }
10329         tcg_temp_free_i64(tcg_rd);
10330         tcg_temp_free_i64(tcg_rn);
10331         clear_vec_high(s, !is_scalar, rd);
10332     } else {
10333         TCGv_i32 tcg_rn = tcg_temp_new_i32();
10334         TCGv_i32 tcg_rd = tcg_temp_new_i32();
10335         int pass, maxpasses;
10336
10337         if (is_scalar) {
10338             maxpasses = 1;
10339         } else {
10340             maxpasses = is_q ? 4 : 2;
10341         }
10342
10343         for (pass = 0; pass < maxpasses; pass++) {
10344             if (is_scalar) {
10345                 read_vec_element_i32(s, tcg_rn, rn, pass, size);
10346                 read_vec_element_i32(s, tcg_rd, rd, pass, size);
10347             } else {
10348                 read_vec_element_i32(s, tcg_rn, rn, pass, MO_32);
10349                 read_vec_element_i32(s, tcg_rd, rd, pass, MO_32);
10350             }
10351
10352             if (is_u) { /* USQADD */
10353                 switch (size) {
10354                 case 0:
10355                     gen_helper_neon_uqadd_s8(tcg_rd, cpu_env, tcg_rn, tcg_rd);
10356                     break;
10357                 case 1:
10358                     gen_helper_neon_uqadd_s16(tcg_rd, cpu_env, tcg_rn, tcg_rd);
10359                     break;
10360                 case 2:
10361                     gen_helper_neon_uqadd_s32(tcg_rd, cpu_env, tcg_rn, tcg_rd);
10362                     break;
10363                 default:
10364                     g_assert_not_reached();
10365                 }
10366             } else { /* SUQADD */
10367                 switch (size) {
10368                 case 0:
10369                     gen_helper_neon_sqadd_u8(tcg_rd, cpu_env, tcg_rn, tcg_rd);
10370                     break;
10371                 case 1:
10372                     gen_helper_neon_sqadd_u16(tcg_rd, cpu_env, tcg_rn, tcg_rd);
10373                     break;
10374                 case 2:
10375                     gen_helper_neon_sqadd_u32(tcg_rd, cpu_env, tcg_rn, tcg_rd);
10376                     break;
10377                 default:
10378                     g_assert_not_reached();
10379                 }
10380             }
10381
10382             if (is_scalar) {
10383                 TCGv_i64 tcg_zero = tcg_const_i64(0);
10384                 write_vec_element(s, tcg_zero, rd, 0, MO_64);
10385                 tcg_temp_free_i64(tcg_zero);
10386             }
10387             write_vec_element_i32(s, tcg_rd, rd, pass, MO_32);
10388         }
10389         tcg_temp_free_i32(tcg_rd);
10390         tcg_temp_free_i32(tcg_rn);
10391         clear_vec_high(s, is_q, rd);
10392     }
10393 }
10394
10395 /* AdvSIMD scalar two reg misc
10396  *  31 30  29 28       24 23  22 21       17 16    12 11 10 9    5 4    0
10397  * +-----+---+-----------+------+-----------+--------+-----+------+------+
10398  * | 0 1 | U | 1 1 1 1 0 | size | 1 0 0 0 0 | opcode | 1 0 |  Rn  |  Rd  |
10399  * +-----+---+-----------+------+-----------+--------+-----+------+------+
10400  */
10401 static void disas_simd_scalar_two_reg_misc(DisasContext *s, uint32_t insn)
10402 {
10403     int rd = extract32(insn, 0, 5);
10404     int rn = extract32(insn, 5, 5);
10405     int opcode = extract32(insn, 12, 5);
10406     int size = extract32(insn, 22, 2);
10407     bool u = extract32(insn, 29, 1);
10408     bool is_fcvt = false;
10409     int rmode;
10410     TCGv_i32 tcg_rmode;
10411     TCGv_ptr tcg_fpstatus;
10412
10413     switch (opcode) {
10414     case 0x3: /* USQADD / SUQADD*/
10415         if (!fp_access_check(s)) {
10416             return;
10417         }
10418         handle_2misc_satacc(s, true, u, false, size, rn, rd);
10419         return;
10420     case 0x7: /* SQABS / SQNEG */
10421         break;
10422     case 0xa: /* CMLT */
10423         if (u) {
10424             unallocated_encoding(s);
10425             return;
10426         }
10427         /* fall through */
10428     case 0x8: /* CMGT, CMGE */
10429     case 0x9: /* CMEQ, CMLE */
10430     case 0xb: /* ABS, NEG */
10431         if (size != 3) {
10432             unallocated_encoding(s);
10433             return;
10434         }
10435         break;
10436     case 0x12: /* SQXTUN */
10437         if (!u) {
10438             unallocated_encoding(s);
10439             return;
10440         }
10441         /* fall through */
10442     case 0x14: /* SQXTN, UQXTN */
10443         if (size == 3) {
10444             unallocated_encoding(s);
10445             return;
10446         }
10447         if (!fp_access_check(s)) {
10448             return;
10449         }
10450         handle_2misc_narrow(s, true, opcode, u, false, size, rn, rd);
10451         return;
10452     case 0xc ... 0xf:
10453     case 0x16 ... 0x1d:
10454     case 0x1f:
10455         /* Floating point: U, size[1] and opcode indicate operation;
10456          * size[0] indicates single or double precision.
10457          */
10458         opcode |= (extract32(size, 1, 1) << 5) | (u << 6);
10459         size = extract32(size, 0, 1) ? 3 : 2;
10460         switch (opcode) {
10461         case 0x2c: /* FCMGT (zero) */
10462         case 0x2d: /* FCMEQ (zero) */
10463         case 0x2e: /* FCMLT (zero) */
10464         case 0x6c: /* FCMGE (zero) */
10465         case 0x6d: /* FCMLE (zero) */
10466             handle_2misc_fcmp_zero(s, opcode, true, u, true, size, rn, rd);
10467             return;
10468         case 0x1d: /* SCVTF */
10469         case 0x5d: /* UCVTF */
10470         {
10471             bool is_signed = (opcode == 0x1d);
10472             if (!fp_access_check(s)) {
10473                 return;
10474             }
10475             handle_simd_intfp_conv(s, rd, rn, 1, is_signed, 0, size);
10476             return;
10477         }
10478         case 0x3d: /* FRECPE */
10479         case 0x3f: /* FRECPX */
10480         case 0x7d: /* FRSQRTE */
10481             if (!fp_access_check(s)) {
10482                 return;
10483             }
10484             handle_2misc_reciprocal(s, opcode, true, u, true, size, rn, rd);
10485             return;
10486         case 0x1a: /* FCVTNS */
10487         case 0x1b: /* FCVTMS */
10488         case 0x3a: /* FCVTPS */
10489         case 0x3b: /* FCVTZS */
10490         case 0x5a: /* FCVTNU */
10491         case 0x5b: /* FCVTMU */
10492         case 0x7a: /* FCVTPU */
10493         case 0x7b: /* FCVTZU */
10494             is_fcvt = true;
10495             rmode = extract32(opcode, 5, 1) | (extract32(opcode, 0, 1) << 1);
10496             break;
10497         case 0x1c: /* FCVTAS */
10498         case 0x5c: /* FCVTAU */
10499             /* TIEAWAY doesn't fit in the usual rounding mode encoding */
10500             is_fcvt = true;
10501             rmode = FPROUNDING_TIEAWAY;
10502             break;
10503         case 0x56: /* FCVTXN, FCVTXN2 */
10504             if (size == 2) {
10505                 unallocated_encoding(s);
10506                 return;
10507             }
10508             if (!fp_access_check(s)) {
10509                 return;
10510             }
10511             handle_2misc_narrow(s, true, opcode, u, false, size - 1, rn, rd);
10512             return;
10513         default:
10514             unallocated_encoding(s);
10515             return;
10516         }
10517         break;
10518     default:
10519         unallocated_encoding(s);
10520         return;
10521     }
10522
10523     if (!fp_access_check(s)) {
10524         return;
10525     }
10526
10527     if (is_fcvt) {
10528         tcg_rmode = tcg_const_i32(arm_rmode_to_sf(rmode));
10529         tcg_fpstatus = fpstatus_ptr(FPST_FPCR);
10530         gen_helper_set_rmode(tcg_rmode, tcg_rmode, tcg_fpstatus);
10531     } else {
10532         tcg_rmode = NULL;
10533         tcg_fpstatus = NULL;
10534     }
10535
10536     if (size == 3) {
10537         TCGv_i64 tcg_rn = read_fp_dreg(s, rn);
10538         TCGv_i64 tcg_rd = tcg_temp_new_i64();
10539
10540         handle_2misc_64(s, opcode, u, tcg_rd, tcg_rn, tcg_rmode, tcg_fpstatus);
10541         write_fp_dreg(s, rd, tcg_rd);
10542         tcg_temp_free_i64(tcg_rd);
10543         tcg_temp_free_i64(tcg_rn);
10544     } else {
10545         TCGv_i32 tcg_rn = tcg_temp_new_i32();
10546         TCGv_i32 tcg_rd = tcg_temp_new_i32();
10547
10548         read_vec_element_i32(s, tcg_rn, rn, 0, size);
10549
10550         switch (opcode) {
10551         case 0x7: /* SQABS, SQNEG */
10552         {
10553             NeonGenOneOpEnvFn *genfn;
10554             static NeonGenOneOpEnvFn * const fns[3][2] = {
10555                 { gen_helper_neon_qabs_s8, gen_helper_neon_qneg_s8 },
10556                 { gen_helper_neon_qabs_s16, gen_helper_neon_qneg_s16 },
10557                 { gen_helper_neon_qabs_s32, gen_helper_neon_qneg_s32 },
10558             };
10559             genfn = fns[size][u];
10560             genfn(tcg_rd, cpu_env, tcg_rn);
10561             break;
10562         }
10563         case 0x1a: /* FCVTNS */
10564         case 0x1b: /* FCVTMS */
10565         case 0x1c: /* FCVTAS */
10566         case 0x3a: /* FCVTPS */
10567         case 0x3b: /* FCVTZS */
10568         {
10569             TCGv_i32 tcg_shift = tcg_const_i32(0);
10570             gen_helper_vfp_tosls(tcg_rd, tcg_rn, tcg_shift, tcg_fpstatus);
10571             tcg_temp_free_i32(tcg_shift);
10572             break;
10573         }
10574         case 0x5a: /* FCVTNU */
10575         case 0x5b: /* FCVTMU */
10576         case 0x5c: /* FCVTAU */
10577         case 0x7a: /* FCVTPU */
10578         case 0x7b: /* FCVTZU */
10579         {
10580             TCGv_i32 tcg_shift = tcg_const_i32(0);
10581             gen_helper_vfp_touls(tcg_rd, tcg_rn, tcg_shift, tcg_fpstatus);
10582             tcg_temp_free_i32(tcg_shift);
10583             break;
10584         }
10585         default:
10586             g_assert_not_reached();
10587         }
10588
10589         write_fp_sreg(s, rd, tcg_rd);
10590         tcg_temp_free_i32(tcg_rd);
10591         tcg_temp_free_i32(tcg_rn);
10592     }
10593
10594     if (is_fcvt) {
10595         gen_helper_set_rmode(tcg_rmode, tcg_rmode, tcg_fpstatus);
10596         tcg_temp_free_i32(tcg_rmode);
10597         tcg_temp_free_ptr(tcg_fpstatus);
10598     }
10599 }
10600
10601 /* SSHR[RA]/USHR[RA] - Vector shift right (optional rounding/accumulate) */
10602 static void handle_vec_simd_shri(DisasContext *s, bool is_q, bool is_u,
10603                                  int immh, int immb, int opcode, int rn, int rd)
10604 {
10605     int size = 32 - clz32(immh) - 1;
10606     int immhb = immh << 3 | immb;
10607     int shift = 2 * (8 << size) - immhb;
10608     GVecGen2iFn *gvec_fn;
10609
10610     if (extract32(immh, 3, 1) && !is_q) {
10611         unallocated_encoding(s);
10612         return;
10613     }
10614     tcg_debug_assert(size <= 3);
10615
10616     if (!fp_access_check(s)) {
10617         return;
10618     }
10619
10620     switch (opcode) {
10621     case 0x02: /* SSRA / USRA (accumulate) */
10622         gvec_fn = is_u ? gen_gvec_usra : gen_gvec_ssra;
10623         break;
10624
10625     case 0x08: /* SRI */
10626         gvec_fn = gen_gvec_sri;
10627         break;
10628
10629     case 0x00: /* SSHR / USHR */
10630         if (is_u) {
10631             if (shift == 8 << size) {
10632                 /* Shift count the same size as element size produces zero.  */
10633                 tcg_gen_gvec_dup_imm(size, vec_full_reg_offset(s, rd),
10634                                      is_q ? 16 : 8, vec_full_reg_size(s), 0);
10635                 return;
10636             }
10637             gvec_fn = tcg_gen_gvec_shri;
10638         } else {
10639             /* Shift count the same size as element size produces all sign.  */
10640             if (shift == 8 << size) {
10641                 shift -= 1;
10642             }
10643             gvec_fn = tcg_gen_gvec_sari;
10644         }
10645         break;
10646
10647     case 0x04: /* SRSHR / URSHR (rounding) */
10648         gvec_fn = is_u ? gen_gvec_urshr : gen_gvec_srshr;
10649         break;
10650
10651     case 0x06: /* SRSRA / URSRA (accum + rounding) */
10652         gvec_fn = is_u ? gen_gvec_ursra : gen_gvec_srsra;
10653         break;
10654
10655     default:
10656         g_assert_not_reached();
10657     }
10658
10659     gen_gvec_fn2i(s, is_q, rd, rn, shift, gvec_fn, size);
10660 }
10661
10662 /* SHL/SLI - Vector shift left */
10663 static void handle_vec_simd_shli(DisasContext *s, bool is_q, bool insert,
10664                                  int immh, int immb, int opcode, int rn, int rd)
10665 {
10666     int size = 32 - clz32(immh) - 1;
10667     int immhb = immh << 3 | immb;
10668     int shift = immhb - (8 << size);
10669
10670     /* Range of size is limited by decode: immh is a non-zero 4 bit field */
10671     assert(size >= 0 && size <= 3);
10672
10673     if (extract32(immh, 3, 1) && !is_q) {
10674         unallocated_encoding(s);
10675         return;
10676     }
10677
10678     if (!fp_access_check(s)) {
10679         return;
10680     }
10681
10682     if (insert) {
10683         gen_gvec_fn2i(s, is_q, rd, rn, shift, gen_gvec_sli, size);
10684     } else {
10685         gen_gvec_fn2i(s, is_q, rd, rn, shift, tcg_gen_gvec_shli, size);
10686     }
10687 }
10688
10689 /* USHLL/SHLL - Vector shift left with widening */
10690 static void handle_vec_simd_wshli(DisasContext *s, bool is_q, bool is_u,
10691                                  int immh, int immb, int opcode, int rn, int rd)
10692 {
10693     int size = 32 - clz32(immh) - 1;
10694     int immhb = immh << 3 | immb;
10695     int shift = immhb - (8 << size);
10696     int dsize = 64;
10697     int esize = 8 << size;
10698     int elements = dsize/esize;
10699     TCGv_i64 tcg_rn = new_tmp_a64(s);
10700     TCGv_i64 tcg_rd = new_tmp_a64(s);
10701     int i;
10702
10703     if (size >= 3) {
10704         unallocated_encoding(s);
10705         return;
10706     }
10707
10708     if (!fp_access_check(s)) {
10709         return;
10710     }
10711
10712     /* For the LL variants the store is larger than the load,
10713      * so if rd == rn we would overwrite parts of our input.
10714      * So load everything right now and use shifts in the main loop.
10715      */
10716     read_vec_element(s, tcg_rn, rn, is_q ? 1 : 0, MO_64);
10717
10718     for (i = 0; i < elements; i++) {
10719         tcg_gen_shri_i64(tcg_rd, tcg_rn, i * esize);
10720         ext_and_shift_reg(tcg_rd, tcg_rd, size | (!is_u << 2), 0);
10721         tcg_gen_shli_i64(tcg_rd, tcg_rd, shift);
10722         write_vec_element(s, tcg_rd, rd, i, size + 1);
10723     }
10724 }
10725
10726 /* SHRN/RSHRN - Shift right with narrowing (and potential rounding) */
10727 static void handle_vec_simd_shrn(DisasContext *s, bool is_q,
10728                                  int immh, int immb, int opcode, int rn, int rd)
10729 {
10730     int immhb = immh << 3 | immb;
10731     int size = 32 - clz32(immh) - 1;
10732     int dsize = 64;
10733     int esize = 8 << size;
10734     int elements = dsize/esize;
10735     int shift = (2 * esize) - immhb;
10736     bool round = extract32(opcode, 0, 1);
10737     TCGv_i64 tcg_rn, tcg_rd, tcg_final;
10738     TCGv_i64 tcg_round;
10739     int i;
10740
10741     if (extract32(immh, 3, 1)) {
10742         unallocated_encoding(s);
10743         return;
10744     }
10745
10746     if (!fp_access_check(s)) {
10747         return;
10748     }
10749
10750     tcg_rn = tcg_temp_new_i64();
10751     tcg_rd = tcg_temp_new_i64();
10752     tcg_final = tcg_temp_new_i64();
10753     read_vec_element(s, tcg_final, rd, is_q ? 1 : 0, MO_64);
10754
10755     if (round) {
10756         uint64_t round_const = 1ULL << (shift - 1);
10757         tcg_round = tcg_const_i64(round_const);
10758     } else {
10759         tcg_round = NULL;
10760     }
10761
10762     for (i = 0; i < elements; i++) {
10763         read_vec_element(s, tcg_rn, rn, i, size+1);
10764         handle_shri_with_rndacc(tcg_rd, tcg_rn, tcg_round,
10765                                 false, true, size+1, shift);
10766
10767         tcg_gen_deposit_i64(tcg_final, tcg_final, tcg_rd, esize * i, esize);
10768     }
10769
10770     if (!is_q) {
10771         write_vec_element(s, tcg_final, rd, 0, MO_64);
10772     } else {
10773         write_vec_element(s, tcg_final, rd, 1, MO_64);
10774     }
10775     if (round) {
10776         tcg_temp_free_i64(tcg_round);
10777     }
10778     tcg_temp_free_i64(tcg_rn);
10779     tcg_temp_free_i64(tcg_rd);
10780     tcg_temp_free_i64(tcg_final);
10781
10782     clear_vec_high(s, is_q, rd);
10783 }
10784
10785
10786 /* AdvSIMD shift by immediate
10787  *  31  30   29 28         23 22  19 18  16 15    11  10 9    5 4    0
10788  * +---+---+---+-------------+------+------+--------+---+------+------+
10789  * | 0 | Q | U | 0 1 1 1 1 0 | immh | immb | opcode | 1 |  Rn  |  Rd  |
10790  * +---+---+---+-------------+------+------+--------+---+------+------+
10791  */
10792 static void disas_simd_shift_imm(DisasContext *s, uint32_t insn)
10793 {
10794     int rd = extract32(insn, 0, 5);
10795     int rn = extract32(insn, 5, 5);
10796     int opcode = extract32(insn, 11, 5);
10797     int immb = extract32(insn, 16, 3);
10798     int immh = extract32(insn, 19, 4);
10799     bool is_u = extract32(insn, 29, 1);
10800     bool is_q = extract32(insn, 30, 1);
10801
10802     /* data_proc_simd[] has sent immh == 0 to disas_simd_mod_imm. */
10803     assert(immh != 0);
10804
10805     switch (opcode) {
10806     case 0x08: /* SRI */
10807         if (!is_u) {
10808             unallocated_encoding(s);
10809             return;
10810         }
10811         /* fall through */
10812     case 0x00: /* SSHR / USHR */
10813     case 0x02: /* SSRA / USRA (accumulate) */
10814     case 0x04: /* SRSHR / URSHR (rounding) */
10815     case 0x06: /* SRSRA / URSRA (accum + rounding) */
10816         handle_vec_simd_shri(s, is_q, is_u, immh, immb, opcode, rn, rd);
10817         break;
10818     case 0x0a: /* SHL / SLI */
10819         handle_vec_simd_shli(s, is_q, is_u, immh, immb, opcode, rn, rd);
10820         break;
10821     case 0x10: /* SHRN */
10822     case 0x11: /* RSHRN / SQRSHRUN */
10823         if (is_u) {
10824             handle_vec_simd_sqshrn(s, false, is_q, false, true, immh, immb,
10825                                    opcode, rn, rd);
10826         } else {
10827             handle_vec_simd_shrn(s, is_q, immh, immb, opcode, rn, rd);
10828         }
10829         break;
10830     case 0x12: /* SQSHRN / UQSHRN */
10831     case 0x13: /* SQRSHRN / UQRSHRN */
10832         handle_vec_simd_sqshrn(s, false, is_q, is_u, is_u, immh, immb,
10833                                opcode, rn, rd);
10834         break;
10835     case 0x14: /* SSHLL / USHLL */
10836         handle_vec_simd_wshli(s, is_q, is_u, immh, immb, opcode, rn, rd);
10837         break;
10838     case 0x1c: /* SCVTF / UCVTF */
10839         handle_simd_shift_intfp_conv(s, false, is_q, is_u, immh, immb,
10840                                      opcode, rn, rd);
10841         break;
10842     case 0xc: /* SQSHLU */
10843         if (!is_u) {
10844             unallocated_encoding(s);
10845             return;
10846         }
10847         handle_simd_qshl(s, false, is_q, false, true, immh, immb, rn, rd);
10848         break;
10849     case 0xe: /* SQSHL, UQSHL */
10850         handle_simd_qshl(s, false, is_q, is_u, is_u, immh, immb, rn, rd);
10851         break;
10852     case 0x1f: /* FCVTZS/ FCVTZU */
10853         handle_simd_shift_fpint_conv(s, false, is_q, is_u, immh, immb, rn, rd);
10854         return;
10855     default:
10856         unallocated_encoding(s);
10857         return;
10858     }
10859 }
10860
10861 /* Generate code to do a "long" addition or subtraction, ie one done in
10862  * TCGv_i64 on vector lanes twice the width specified by size.
10863  */
10864 static void gen_neon_addl(int size, bool is_sub, TCGv_i64 tcg_res,
10865                           TCGv_i64 tcg_op1, TCGv_i64 tcg_op2)
10866 {
10867     static NeonGenTwo64OpFn * const fns[3][2] = {
10868         { gen_helper_neon_addl_u16, gen_helper_neon_subl_u16 },
10869         { gen_helper_neon_addl_u32, gen_helper_neon_subl_u32 },
10870         { tcg_gen_add_i64, tcg_gen_sub_i64 },
10871     };
10872     NeonGenTwo64OpFn *genfn;
10873     assert(size < 3);
10874
10875     genfn = fns[size][is_sub];
10876     genfn(tcg_res, tcg_op1, tcg_op2);
10877 }
10878
10879 static void handle_3rd_widening(DisasContext *s, int is_q, int is_u, int size,
10880                                 int opcode, int rd, int rn, int rm)
10881 {
10882     /* 3-reg-different widening insns: 64 x 64 -> 128 */
10883     TCGv_i64 tcg_res[2];
10884     int pass, accop;
10885
10886     tcg_res[0] = tcg_temp_new_i64();
10887     tcg_res[1] = tcg_temp_new_i64();
10888
10889     /* Does this op do an adding accumulate, a subtracting accumulate,
10890      * or no accumulate at all?
10891      */
10892     switch (opcode) {
10893     case 5:
10894     case 8:
10895     case 9:
10896         accop = 1;
10897         break;
10898     case 10:
10899     case 11:
10900         accop = -1;
10901         break;
10902     default:
10903         accop = 0;
10904         break;
10905     }
10906
10907     if (accop != 0) {
10908         read_vec_element(s, tcg_res[0], rd, 0, MO_64);
10909         read_vec_element(s, tcg_res[1], rd, 1, MO_64);
10910     }
10911
10912     /* size == 2 means two 32x32->64 operations; this is worth special
10913      * casing because we can generally handle it inline.
10914      */
10915     if (size == 2) {
10916         for (pass = 0; pass < 2; pass++) {
10917             TCGv_i64 tcg_op1 = tcg_temp_new_i64();
10918             TCGv_i64 tcg_op2 = tcg_temp_new_i64();
10919             TCGv_i64 tcg_passres;
10920             MemOp memop = MO_32 | (is_u ? 0 : MO_SIGN);
10921
10922             int elt = pass + is_q * 2;
10923
10924             read_vec_element(s, tcg_op1, rn, elt, memop);
10925             read_vec_element(s, tcg_op2, rm, elt, memop);
10926
10927             if (accop == 0) {
10928                 tcg_passres = tcg_res[pass];
10929             } else {
10930                 tcg_passres = tcg_temp_new_i64();
10931             }
10932
10933             switch (opcode) {
10934             case 0: /* SADDL, SADDL2, UADDL, UADDL2 */
10935                 tcg_gen_add_i64(tcg_passres, tcg_op1, tcg_op2);
10936                 break;
10937             case 2: /* SSUBL, SSUBL2, USUBL, USUBL2 */
10938                 tcg_gen_sub_i64(tcg_passres, tcg_op1, tcg_op2);
10939                 break;
10940             case 5: /* SABAL, SABAL2, UABAL, UABAL2 */
10941             case 7: /* SABDL, SABDL2, UABDL, UABDL2 */
10942             {
10943                 TCGv_i64 tcg_tmp1 = tcg_temp_new_i64();
10944                 TCGv_i64 tcg_tmp2 = tcg_temp_new_i64();
10945
10946                 tcg_gen_sub_i64(tcg_tmp1, tcg_op1, tcg_op2);
10947                 tcg_gen_sub_i64(tcg_tmp2, tcg_op2, tcg_op1);
10948                 tcg_gen_movcond_i64(is_u ? TCG_COND_GEU : TCG_COND_GE,
10949                                     tcg_passres,
10950                                     tcg_op1, tcg_op2, tcg_tmp1, tcg_tmp2);
10951                 tcg_temp_free_i64(tcg_tmp1);
10952                 tcg_temp_free_i64(tcg_tmp2);
10953                 break;
10954             }
10955             case 8: /* SMLAL, SMLAL2, UMLAL, UMLAL2 */
10956             case 10: /* SMLSL, SMLSL2, UMLSL, UMLSL2 */
10957             case 12: /* UMULL, UMULL2, SMULL, SMULL2 */
10958                 tcg_gen_mul_i64(tcg_passres, tcg_op1, tcg_op2);
10959                 break;
10960             case 9: /* SQDMLAL, SQDMLAL2 */
10961             case 11: /* SQDMLSL, SQDMLSL2 */
10962             case 13: /* SQDMULL, SQDMULL2 */
10963                 tcg_gen_mul_i64(tcg_passres, tcg_op1, tcg_op2);
10964                 gen_helper_neon_addl_saturate_s64(tcg_passres, cpu_env,
10965                                                   tcg_passres, tcg_passres);
10966                 break;
10967             default:
10968                 g_assert_not_reached();
10969             }
10970
10971             if (opcode == 9 || opcode == 11) {
10972                 /* saturating accumulate ops */
10973                 if (accop < 0) {
10974                     tcg_gen_neg_i64(tcg_passres, tcg_passres);
10975                 }
10976                 gen_helper_neon_addl_saturate_s64(tcg_res[pass], cpu_env,
10977                                                   tcg_res[pass], tcg_passres);
10978             } else if (accop > 0) {
10979                 tcg_gen_add_i64(tcg_res[pass], tcg_res[pass], tcg_passres);
10980             } else if (accop < 0) {
10981                 tcg_gen_sub_i64(tcg_res[pass], tcg_res[pass], tcg_passres);
10982             }
10983
10984             if (accop != 0) {
10985                 tcg_temp_free_i64(tcg_passres);
10986             }
10987
10988             tcg_temp_free_i64(tcg_op1);
10989             tcg_temp_free_i64(tcg_op2);
10990         }
10991     } else {
10992         /* size 0 or 1, generally helper functions */
10993         for (pass = 0; pass < 2; pass++) {
10994             TCGv_i32 tcg_op1 = tcg_temp_new_i32();
10995             TCGv_i32 tcg_op2 = tcg_temp_new_i32();
10996             TCGv_i64 tcg_passres;
10997             int elt = pass + is_q * 2;
10998
10999             read_vec_element_i32(s, tcg_op1, rn, elt, MO_32);
11000             read_vec_element_i32(s, tcg_op2, rm, elt, MO_32);
11001
11002             if (accop == 0) {
11003                 tcg_passres = tcg_res[pass];
11004             } else {
11005                 tcg_passres = tcg_temp_new_i64();
11006             }
11007
11008             switch (opcode) {
11009             case 0: /* SADDL, SADDL2, UADDL, UADDL2 */
11010             case 2: /* SSUBL, SSUBL2, USUBL, USUBL2 */
11011             {
11012                 TCGv_i64 tcg_op2_64 = tcg_temp_new_i64();
11013                 static NeonGenWidenFn * const widenfns[2][2] = {
11014                     { gen_helper_neon_widen_s8, gen_helper_neon_widen_u8 },
11015                     { gen_helper_neon_widen_s16, gen_helper_neon_widen_u16 },
11016                 };
11017                 NeonGenWidenFn *widenfn = widenfns[size][is_u];
11018
11019                 widenfn(tcg_op2_64, tcg_op2);
11020                 widenfn(tcg_passres, tcg_op1);
11021                 gen_neon_addl(size, (opcode == 2), tcg_passres,
11022                               tcg_passres, tcg_op2_64);
11023                 tcg_temp_free_i64(tcg_op2_64);
11024                 break;
11025             }
11026             case 5: /* SABAL, SABAL2, UABAL, UABAL2 */
11027             case 7: /* SABDL, SABDL2, UABDL, UABDL2 */
11028                 if (size == 0) {
11029                     if (is_u) {
11030                         gen_helper_neon_abdl_u16(tcg_passres, tcg_op1, tcg_op2);
11031                     } else {
11032                         gen_helper_neon_abdl_s16(tcg_passres, tcg_op1, tcg_op2);
11033                     }
11034                 } else {
11035                     if (is_u) {
11036                         gen_helper_neon_abdl_u32(tcg_passres, tcg_op1, tcg_op2);
11037                     } else {
11038                         gen_helper_neon_abdl_s32(tcg_passres, tcg_op1, tcg_op2);
11039                     }
11040                 }
11041                 break;
11042             case 8: /* SMLAL, SMLAL2, UMLAL, UMLAL2 */
11043             case 10: /* SMLSL, SMLSL2, UMLSL, UMLSL2 */
11044             case 12: /* UMULL, UMULL2, SMULL, SMULL2 */
11045                 if (size == 0) {
11046                     if (is_u) {
11047                         gen_helper_neon_mull_u8(tcg_passres, tcg_op1, tcg_op2);
11048                     } else {
11049                         gen_helper_neon_mull_s8(tcg_passres, tcg_op1, tcg_op2);
11050                     }
11051                 } else {
11052                     if (is_u) {
11053                         gen_helper_neon_mull_u16(tcg_passres, tcg_op1, tcg_op2);
11054                     } else {
11055                         gen_helper_neon_mull_s16(tcg_passres, tcg_op1, tcg_op2);
11056                     }
11057                 }
11058                 break;
11059             case 9: /* SQDMLAL, SQDMLAL2 */
11060             case 11: /* SQDMLSL, SQDMLSL2 */
11061             case 13: /* SQDMULL, SQDMULL2 */
11062                 assert(size == 1);
11063                 gen_helper_neon_mull_s16(tcg_passres, tcg_op1, tcg_op2);
11064                 gen_helper_neon_addl_saturate_s32(tcg_passres, cpu_env,
11065                                                   tcg_passres, tcg_passres);
11066                 break;
11067             default:
11068                 g_assert_not_reached();
11069             }
11070             tcg_temp_free_i32(tcg_op1);
11071             tcg_temp_free_i32(tcg_op2);
11072
11073             if (accop != 0) {
11074                 if (opcode == 9 || opcode == 11) {
11075                     /* saturating accumulate ops */
11076                     if (accop < 0) {
11077                         gen_helper_neon_negl_u32(tcg_passres, tcg_passres);
11078                     }
11079                     gen_helper_neon_addl_saturate_s32(tcg_res[pass], cpu_env,
11080                                                       tcg_res[pass],
11081                                                       tcg_passres);
11082                 } else {
11083                     gen_neon_addl(size, (accop < 0), tcg_res[pass],
11084                                   tcg_res[pass], tcg_passres);
11085                 }
11086                 tcg_temp_free_i64(tcg_passres);
11087             }
11088         }
11089     }
11090
11091     write_vec_element(s, tcg_res[0], rd, 0, MO_64);
11092     write_vec_element(s, tcg_res[1], rd, 1, MO_64);
11093     tcg_temp_free_i64(tcg_res[0]);
11094     tcg_temp_free_i64(tcg_res[1]);
11095 }
11096
11097 static void handle_3rd_wide(DisasContext *s, int is_q, int is_u, int size,
11098                             int opcode, int rd, int rn, int rm)
11099 {
11100     TCGv_i64 tcg_res[2];
11101     int part = is_q ? 2 : 0;
11102     int pass;
11103
11104     for (pass = 0; pass < 2; pass++) {
11105         TCGv_i64 tcg_op1 = tcg_temp_new_i64();
11106         TCGv_i32 tcg_op2 = tcg_temp_new_i32();
11107         TCGv_i64 tcg_op2_wide = tcg_temp_new_i64();
11108         static NeonGenWidenFn * const widenfns[3][2] = {
11109             { gen_helper_neon_widen_s8, gen_helper_neon_widen_u8 },
11110             { gen_helper_neon_widen_s16, gen_helper_neon_widen_u16 },
11111             { tcg_gen_ext_i32_i64, tcg_gen_extu_i32_i64 },
11112         };
11113         NeonGenWidenFn *widenfn = widenfns[size][is_u];
11114
11115         read_vec_element(s, tcg_op1, rn, pass, MO_64);
11116         read_vec_element_i32(s, tcg_op2, rm, part + pass, MO_32);
11117         widenfn(tcg_op2_wide, tcg_op2);
11118         tcg_temp_free_i32(tcg_op2);
11119         tcg_res[pass] = tcg_temp_new_i64();
11120         gen_neon_addl(size, (opcode == 3),
11121                       tcg_res[pass], tcg_op1, tcg_op2_wide);
11122         tcg_temp_free_i64(tcg_op1);
11123         tcg_temp_free_i64(tcg_op2_wide);
11124     }
11125
11126     for (pass = 0; pass < 2; pass++) {
11127         write_vec_element(s, tcg_res[pass], rd, pass, MO_64);
11128         tcg_temp_free_i64(tcg_res[pass]);
11129     }
11130 }
11131
11132 static void do_narrow_round_high_u32(TCGv_i32 res, TCGv_i64 in)
11133 {
11134     tcg_gen_addi_i64(in, in, 1U << 31);
11135     tcg_gen_extrh_i64_i32(res, in);
11136 }
11137
11138 static void handle_3rd_narrowing(DisasContext *s, int is_q, int is_u, int size,
11139                                  int opcode, int rd, int rn, int rm)
11140 {
11141     TCGv_i32 tcg_res[2];
11142     int part = is_q ? 2 : 0;
11143     int pass;
11144
11145     for (pass = 0; pass < 2; pass++) {
11146         TCGv_i64 tcg_op1 = tcg_temp_new_i64();
11147         TCGv_i64 tcg_op2 = tcg_temp_new_i64();
11148         TCGv_i64 tcg_wideres = tcg_temp_new_i64();
11149         static NeonGenNarrowFn * const narrowfns[3][2] = {
11150             { gen_helper_neon_narrow_high_u8,
11151               gen_helper_neon_narrow_round_high_u8 },
11152             { gen_helper_neon_narrow_high_u16,
11153               gen_helper_neon_narrow_round_high_u16 },
11154             { tcg_gen_extrh_i64_i32, do_narrow_round_high_u32 },
11155         };
11156         NeonGenNarrowFn *gennarrow = narrowfns[size][is_u];
11157
11158         read_vec_element(s, tcg_op1, rn, pass, MO_64);
11159         read_vec_element(s, tcg_op2, rm, pass, MO_64);
11160
11161         gen_neon_addl(size, (opcode == 6), tcg_wideres, tcg_op1, tcg_op2);
11162
11163         tcg_temp_free_i64(tcg_op1);
11164         tcg_temp_free_i64(tcg_op2);
11165
11166         tcg_res[pass] = tcg_temp_new_i32();
11167         gennarrow(tcg_res[pass], tcg_wideres);
11168         tcg_temp_free_i64(tcg_wideres);
11169     }
11170
11171     for (pass = 0; pass < 2; pass++) {
11172         write_vec_element_i32(s, tcg_res[pass], rd, pass + part, MO_32);
11173         tcg_temp_free_i32(tcg_res[pass]);
11174     }
11175     clear_vec_high(s, is_q, rd);
11176 }
11177
11178 /* AdvSIMD three different
11179  *   31  30  29 28       24 23  22  21 20  16 15    12 11 10 9    5 4    0
11180  * +---+---+---+-----------+------+---+------+--------+-----+------+------+
11181  * | 0 | Q | U | 0 1 1 1 0 | size | 1 |  Rm  | opcode | 0 0 |  Rn  |  Rd  |
11182  * +---+---+---+-----------+------+---+------+--------+-----+------+------+
11183  */
11184 static void disas_simd_three_reg_diff(DisasContext *s, uint32_t insn)
11185 {
11186     /* Instructions in this group fall into three basic classes
11187      * (in each case with the operation working on each element in
11188      * the input vectors):
11189      * (1) widening 64 x 64 -> 128 (with possibly Vd as an extra
11190      *     128 bit input)
11191      * (2) wide 64 x 128 -> 128
11192      * (3) narrowing 128 x 128 -> 64
11193      * Here we do initial decode, catch unallocated cases and
11194      * dispatch to separate functions for each class.
11195      */
11196     int is_q = extract32(insn, 30, 1);
11197     int is_u = extract32(insn, 29, 1);
11198     int size = extract32(insn, 22, 2);
11199     int opcode = extract32(insn, 12, 4);
11200     int rm = extract32(insn, 16, 5);
11201     int rn = extract32(insn, 5, 5);
11202     int rd = extract32(insn, 0, 5);
11203
11204     switch (opcode) {
11205     case 1: /* SADDW, SADDW2, UADDW, UADDW2 */
11206     case 3: /* SSUBW, SSUBW2, USUBW, USUBW2 */
11207         /* 64 x 128 -> 128 */
11208         if (size == 3) {
11209             unallocated_encoding(s);
11210             return;
11211         }
11212         if (!fp_access_check(s)) {
11213             return;
11214         }
11215         handle_3rd_wide(s, is_q, is_u, size, opcode, rd, rn, rm);
11216         break;
11217     case 4: /* ADDHN, ADDHN2, RADDHN, RADDHN2 */
11218     case 6: /* SUBHN, SUBHN2, RSUBHN, RSUBHN2 */
11219         /* 128 x 128 -> 64 */
11220         if (size == 3) {
11221             unallocated_encoding(s);
11222             return;
11223         }
11224         if (!fp_access_check(s)) {
11225             return;
11226         }
11227         handle_3rd_narrowing(s, is_q, is_u, size, opcode, rd, rn, rm);
11228         break;
11229     case 14: /* PMULL, PMULL2 */
11230         if (is_u) {
11231             unallocated_encoding(s);
11232             return;
11233         }
11234         switch (size) {
11235         case 0: /* PMULL.P8 */
11236             if (!fp_access_check(s)) {
11237                 return;
11238             }
11239             /* The Q field specifies lo/hi half input for this insn.  */
11240             gen_gvec_op3_ool(s, true, rd, rn, rm, is_q,
11241                              gen_helper_neon_pmull_h);
11242             break;
11243
11244         case 3: /* PMULL.P64 */
11245             if (!dc_isar_feature(aa64_pmull, s)) {
11246                 unallocated_encoding(s);
11247                 return;
11248             }
11249             if (!fp_access_check(s)) {
11250                 return;
11251             }
11252             /* The Q field specifies lo/hi half input for this insn.  */
11253             gen_gvec_op3_ool(s, true, rd, rn, rm, is_q,
11254                              gen_helper_gvec_pmull_q);
11255             break;
11256
11257         default:
11258             unallocated_encoding(s);
11259             break;
11260         }
11261         return;
11262     case 9: /* SQDMLAL, SQDMLAL2 */
11263     case 11: /* SQDMLSL, SQDMLSL2 */
11264     case 13: /* SQDMULL, SQDMULL2 */
11265         if (is_u || size == 0) {
11266             unallocated_encoding(s);
11267             return;
11268         }
11269         /* fall through */
11270     case 0: /* SADDL, SADDL2, UADDL, UADDL2 */
11271     case 2: /* SSUBL, SSUBL2, USUBL, USUBL2 */
11272     case 5: /* SABAL, SABAL2, UABAL, UABAL2 */
11273     case 7: /* SABDL, SABDL2, UABDL, UABDL2 */
11274     case 8: /* SMLAL, SMLAL2, UMLAL, UMLAL2 */
11275     case 10: /* SMLSL, SMLSL2, UMLSL, UMLSL2 */
11276     case 12: /* SMULL, SMULL2, UMULL, UMULL2 */
11277         /* 64 x 64 -> 128 */
11278         if (size == 3) {
11279             unallocated_encoding(s);
11280             return;
11281         }
11282         if (!fp_access_check(s)) {
11283             return;
11284         }
11285
11286         handle_3rd_widening(s, is_q, is_u, size, opcode, rd, rn, rm);
11287         break;
11288     default:
11289         /* opcode 15 not allocated */
11290         unallocated_encoding(s);
11291         break;
11292     }
11293 }
11294
11295 /* Logic op (opcode == 3) subgroup of C3.6.16. */
11296 static void disas_simd_3same_logic(DisasContext *s, uint32_t insn)
11297 {
11298     int rd = extract32(insn, 0, 5);
11299     int rn = extract32(insn, 5, 5);
11300     int rm = extract32(insn, 16, 5);
11301     int size = extract32(insn, 22, 2);
11302     bool is_u = extract32(insn, 29, 1);
11303     bool is_q = extract32(insn, 30, 1);
11304
11305     if (!fp_access_check(s)) {
11306         return;
11307     }
11308
11309     switch (size + 4 * is_u) {
11310     case 0: /* AND */
11311         gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_and, 0);
11312         return;
11313     case 1: /* BIC */
11314         gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_andc, 0);
11315         return;
11316     case 2: /* ORR */
11317         gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_or, 0);
11318         return;
11319     case 3: /* ORN */
11320         gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_orc, 0);
11321         return;
11322     case 4: /* EOR */
11323         gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_xor, 0);
11324         return;
11325
11326     case 5: /* BSL bitwise select */
11327         gen_gvec_fn4(s, is_q, rd, rd, rn, rm, tcg_gen_gvec_bitsel, 0);
11328         return;
11329     case 6: /* BIT, bitwise insert if true */
11330         gen_gvec_fn4(s, is_q, rd, rm, rn, rd, tcg_gen_gvec_bitsel, 0);
11331         return;
11332     case 7: /* BIF, bitwise insert if false */
11333         gen_gvec_fn4(s, is_q, rd, rm, rd, rn, tcg_gen_gvec_bitsel, 0);
11334         return;
11335
11336     default:
11337         g_assert_not_reached();
11338     }
11339 }
11340
11341 /* Pairwise op subgroup of C3.6.16.
11342  *
11343  * This is called directly or via the handle_3same_float for float pairwise
11344  * operations where the opcode and size are calculated differently.
11345  */
11346 static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
11347                                    int size, int rn, int rm, int rd)
11348 {
11349     TCGv_ptr fpst;
11350     int pass;
11351
11352     /* Floating point operations need fpst */
11353     if (opcode >= 0x58) {
11354         fpst = fpstatus_ptr(FPST_FPCR);
11355     } else {
11356         fpst = NULL;
11357     }
11358
11359     if (!fp_access_check(s)) {
11360         return;
11361     }
11362
11363     /* These operations work on the concatenated rm:rn, with each pair of
11364      * adjacent elements being operated on to produce an element in the result.
11365      */
11366     if (size == 3) {
11367         TCGv_i64 tcg_res[2];
11368
11369         for (pass = 0; pass < 2; pass++) {
11370             TCGv_i64 tcg_op1 = tcg_temp_new_i64();
11371             TCGv_i64 tcg_op2 = tcg_temp_new_i64();
11372             int passreg = (pass == 0) ? rn : rm;
11373
11374             read_vec_element(s, tcg_op1, passreg, 0, MO_64);
11375             read_vec_element(s, tcg_op2, passreg, 1, MO_64);
11376             tcg_res[pass] = tcg_temp_new_i64();
11377
11378             switch (opcode) {
11379             case 0x17: /* ADDP */
11380                 tcg_gen_add_i64(tcg_res[pass], tcg_op1, tcg_op2);
11381                 break;
11382             case 0x58: /* FMAXNMP */
11383                 gen_helper_vfp_maxnumd(tcg_res[pass], tcg_op1, tcg_op2, fpst);
11384                 break;
11385             case 0x5a: /* FADDP */
11386                 gen_helper_vfp_addd(tcg_res[pass], tcg_op1, tcg_op2, fpst);
11387                 break;
11388             case 0x5e: /* FMAXP */
11389                 gen_helper_vfp_maxd(tcg_res[pass], tcg_op1, tcg_op2, fpst);
11390                 break;
11391             case 0x78: /* FMINNMP */
11392                 gen_helper_vfp_minnumd(tcg_res[pass], tcg_op1, tcg_op2, fpst);
11393                 break;
11394             case 0x7e: /* FMINP */
11395                 gen_helper_vfp_mind(tcg_res[pass], tcg_op1, tcg_op2, fpst);
11396                 break;
11397             default:
11398                 g_assert_not_reached();
11399             }
11400
11401             tcg_temp_free_i64(tcg_op1);
11402             tcg_temp_free_i64(tcg_op2);
11403         }
11404
11405         for (pass = 0; pass < 2; pass++) {
11406             write_vec_element(s, tcg_res[pass], rd, pass, MO_64);
11407             tcg_temp_free_i64(tcg_res[pass]);
11408         }
11409     } else {
11410         int maxpass = is_q ? 4 : 2;
11411         TCGv_i32 tcg_res[4];
11412
11413         for (pass = 0; pass < maxpass; pass++) {
11414             TCGv_i32 tcg_op1 = tcg_temp_new_i32();
11415             TCGv_i32 tcg_op2 = tcg_temp_new_i32();
11416             NeonGenTwoOpFn *genfn = NULL;
11417             int passreg = pass < (maxpass / 2) ? rn : rm;
11418             int passelt = (is_q && (pass & 1)) ? 2 : 0;
11419
11420             read_vec_element_i32(s, tcg_op1, passreg, passelt, MO_32);
11421             read_vec_element_i32(s, tcg_op2, passreg, passelt + 1, MO_32);
11422             tcg_res[pass] = tcg_temp_new_i32();
11423
11424             switch (opcode) {
11425             case 0x17: /* ADDP */
11426             {
11427                 static NeonGenTwoOpFn * const fns[3] = {
11428                     gen_helper_neon_padd_u8,
11429                     gen_helper_neon_padd_u16,
11430                     tcg_gen_add_i32,
11431                 };
11432                 genfn = fns[size];
11433                 break;
11434             }
11435             case 0x14: /* SMAXP, UMAXP */
11436             {
11437                 static NeonGenTwoOpFn * const fns[3][2] = {
11438                     { gen_helper_neon_pmax_s8, gen_helper_neon_pmax_u8 },
11439                     { gen_helper_neon_pmax_s16, gen_helper_neon_pmax_u16 },
11440                     { tcg_gen_smax_i32, tcg_gen_umax_i32 },
11441                 };
11442                 genfn = fns[size][u];
11443                 break;
11444             }
11445             case 0x15: /* SMINP, UMINP */
11446             {
11447                 static NeonGenTwoOpFn * const fns[3][2] = {
11448                     { gen_helper_neon_pmin_s8, gen_helper_neon_pmin_u8 },
11449                     { gen_helper_neon_pmin_s16, gen_helper_neon_pmin_u16 },
11450                     { tcg_gen_smin_i32, tcg_gen_umin_i32 },
11451                 };
11452                 genfn = fns[size][u];
11453                 break;
11454             }
11455             /* The FP operations are all on single floats (32 bit) */
11456             case 0x58: /* FMAXNMP */
11457                 gen_helper_vfp_maxnums(tcg_res[pass], tcg_op1, tcg_op2, fpst);
11458                 break;
11459             case 0x5a: /* FADDP */
11460                 gen_helper_vfp_adds(tcg_res[pass], tcg_op1, tcg_op2, fpst);
11461                 break;
11462             case 0x5e: /* FMAXP */
11463                 gen_helper_vfp_maxs(tcg_res[pass], tcg_op1, tcg_op2, fpst);
11464                 break;
11465             case 0x78: /* FMINNMP */
11466                 gen_helper_vfp_minnums(tcg_res[pass], tcg_op1, tcg_op2, fpst);
11467                 break;
11468             case 0x7e: /* FMINP */
11469                 gen_helper_vfp_mins(tcg_res[pass], tcg_op1, tcg_op2, fpst);
11470                 break;
11471             default:
11472                 g_assert_not_reached();
11473             }
11474
11475             /* FP ops called directly, otherwise call now */
11476             if (genfn) {
11477                 genfn(tcg_res[pass], tcg_op1, tcg_op2);
11478             }
11479
11480             tcg_temp_free_i32(tcg_op1);
11481             tcg_temp_free_i32(tcg_op2);
11482         }
11483
11484         for (pass = 0; pass < maxpass; pass++) {
11485             write_vec_element_i32(s, tcg_res[pass], rd, pass, MO_32);
11486             tcg_temp_free_i32(tcg_res[pass]);
11487         }
11488         clear_vec_high(s, is_q, rd);
11489     }
11490
11491     if (fpst) {
11492         tcg_temp_free_ptr(fpst);
11493     }
11494 }
11495
11496 /* Floating point op subgroup of C3.6.16. */
11497 static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
11498 {
11499     /* For floating point ops, the U, size[1] and opcode bits
11500      * together indicate the operation. size[0] indicates single
11501      * or double.
11502      */
11503     int fpopcode = extract32(insn, 11, 5)
11504         | (extract32(insn, 23, 1) << 5)
11505         | (extract32(insn, 29, 1) << 6);
11506     int is_q = extract32(insn, 30, 1);
11507     int size = extract32(insn, 22, 1);
11508     int rm = extract32(insn, 16, 5);
11509     int rn = extract32(insn, 5, 5);
11510     int rd = extract32(insn, 0, 5);
11511
11512     int datasize = is_q ? 128 : 64;
11513     int esize = 32 << size;
11514     int elements = datasize / esize;
11515
11516     if (size == 1 && !is_q) {
11517         unallocated_encoding(s);
11518         return;
11519     }
11520
11521     switch (fpopcode) {
11522     case 0x58: /* FMAXNMP */
11523     case 0x5a: /* FADDP */
11524     case 0x5e: /* FMAXP */
11525     case 0x78: /* FMINNMP */
11526     case 0x7e: /* FMINP */
11527         if (size && !is_q) {
11528             unallocated_encoding(s);
11529             return;
11530         }
11531         handle_simd_3same_pair(s, is_q, 0, fpopcode, size ? MO_64 : MO_32,
11532                                rn, rm, rd);
11533         return;
11534     case 0x1b: /* FMULX */
11535     case 0x1f: /* FRECPS */
11536     case 0x3f: /* FRSQRTS */
11537     case 0x5d: /* FACGE */
11538     case 0x7d: /* FACGT */
11539     case 0x19: /* FMLA */
11540     case 0x39: /* FMLS */
11541     case 0x18: /* FMAXNM */
11542     case 0x1a: /* FADD */
11543     case 0x1c: /* FCMEQ */
11544     case 0x1e: /* FMAX */
11545     case 0x38: /* FMINNM */
11546     case 0x3a: /* FSUB */
11547     case 0x3e: /* FMIN */
11548     case 0x5b: /* FMUL */
11549     case 0x5c: /* FCMGE */
11550     case 0x5f: /* FDIV */
11551     case 0x7a: /* FABD */
11552     case 0x7c: /* FCMGT */
11553         if (!fp_access_check(s)) {
11554             return;
11555         }
11556         handle_3same_float(s, size, elements, fpopcode, rd, rn, rm);
11557         return;
11558
11559     case 0x1d: /* FMLAL  */
11560     case 0x3d: /* FMLSL  */
11561     case 0x59: /* FMLAL2 */
11562     case 0x79: /* FMLSL2 */
11563         if (size & 1 || !dc_isar_feature(aa64_fhm, s)) {
11564             unallocated_encoding(s);
11565             return;
11566         }
11567         if (fp_access_check(s)) {
11568             int is_s = extract32(insn, 23, 1);
11569             int is_2 = extract32(insn, 29, 1);
11570             int data = (is_2 << 1) | is_s;
11571             tcg_gen_gvec_3_ptr(vec_full_reg_offset(s, rd),
11572                                vec_full_reg_offset(s, rn),
11573                                vec_full_reg_offset(s, rm), cpu_env,
11574                                is_q ? 16 : 8, vec_full_reg_size(s),
11575                                data, gen_helper_gvec_fmlal_a64);
11576         }
11577         return;
11578
11579     default:
11580         unallocated_encoding(s);
11581         return;
11582     }
11583 }
11584
11585 /* Integer op subgroup of C3.6.16. */
11586 static void disas_simd_3same_int(DisasContext *s, uint32_t insn)
11587 {
11588     int is_q = extract32(insn, 30, 1);
11589     int u = extract32(insn, 29, 1);
11590     int size = extract32(insn, 22, 2);
11591     int opcode = extract32(insn, 11, 5);
11592     int rm = extract32(insn, 16, 5);
11593     int rn = extract32(insn, 5, 5);
11594     int rd = extract32(insn, 0, 5);
11595     int pass;
11596     TCGCond cond;
11597
11598     switch (opcode) {
11599     case 0x13: /* MUL, PMUL */
11600         if (u && size != 0) {
11601             unallocated_encoding(s);
11602             return;
11603         }
11604         /* fall through */
11605     case 0x0: /* SHADD, UHADD */
11606     case 0x2: /* SRHADD, URHADD */
11607     case 0x4: /* SHSUB, UHSUB */
11608     case 0xc: /* SMAX, UMAX */
11609     case 0xd: /* SMIN, UMIN */
11610     case 0xe: /* SABD, UABD */
11611     case 0xf: /* SABA, UABA */
11612     case 0x12: /* MLA, MLS */
11613         if (size == 3) {
11614             unallocated_encoding(s);
11615             return;
11616         }
11617         break;
11618     case 0x16: /* SQDMULH, SQRDMULH */
11619         if (size == 0 || size == 3) {
11620             unallocated_encoding(s);
11621             return;
11622         }
11623         break;
11624     default:
11625         if (size == 3 && !is_q) {
11626             unallocated_encoding(s);
11627             return;
11628         }
11629         break;
11630     }
11631
11632     if (!fp_access_check(s)) {
11633         return;
11634     }
11635
11636     switch (opcode) {
11637     case 0x01: /* SQADD, UQADD */
11638         if (u) {
11639             gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_uqadd_qc, size);
11640         } else {
11641             gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_sqadd_qc, size);
11642         }
11643         return;
11644     case 0x05: /* SQSUB, UQSUB */
11645         if (u) {
11646             gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_uqsub_qc, size);
11647         } else {
11648             gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_sqsub_qc, size);
11649         }
11650         return;
11651     case 0x08: /* SSHL, USHL */
11652         if (u) {
11653             gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_ushl, size);
11654         } else {
11655             gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_sshl, size);
11656         }
11657         return;
11658     case 0x0c: /* SMAX, UMAX */
11659         if (u) {
11660             gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_umax, size);
11661         } else {
11662             gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_smax, size);
11663         }
11664         return;
11665     case 0x0d: /* SMIN, UMIN */
11666         if (u) {
11667             gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_umin, size);
11668         } else {
11669             gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_smin, size);
11670         }
11671         return;
11672     case 0xe: /* SABD, UABD */
11673         if (u) {
11674             gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_uabd, size);
11675         } else {
11676             gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_sabd, size);
11677         }
11678         return;
11679     case 0xf: /* SABA, UABA */
11680         if (u) {
11681             gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_uaba, size);
11682         } else {
11683             gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_saba, size);
11684         }
11685         return;
11686     case 0x10: /* ADD, SUB */
11687         if (u) {
11688             gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_sub, size);
11689         } else {
11690             gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_add, size);
11691         }
11692         return;
11693     case 0x13: /* MUL, PMUL */
11694         if (!u) { /* MUL */
11695             gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_mul, size);
11696         } else {  /* PMUL */
11697             gen_gvec_op3_ool(s, is_q, rd, rn, rm, 0, gen_helper_gvec_pmul_b);
11698         }
11699         return;
11700     case 0x12: /* MLA, MLS */
11701         if (u) {
11702             gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_mls, size);
11703         } else {
11704             gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_mla, size);
11705         }
11706         return;
11707     case 0x16: /* SQDMULH, SQRDMULH */
11708         {
11709             static gen_helper_gvec_3_ptr * const fns[2][2] = {
11710                 { gen_helper_neon_sqdmulh_h, gen_helper_neon_sqrdmulh_h },
11711                 { gen_helper_neon_sqdmulh_s, gen_helper_neon_sqrdmulh_s },
11712             };
11713             gen_gvec_op3_qc(s, is_q, rd, rn, rm, fns[size - 1][u]);
11714         }
11715         return;
11716     case 0x11:
11717         if (!u) { /* CMTST */
11718             gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_cmtst, size);
11719             return;
11720         }
11721         /* else CMEQ */
11722         cond = TCG_COND_EQ;
11723         goto do_gvec_cmp;
11724     case 0x06: /* CMGT, CMHI */
11725         cond = u ? TCG_COND_GTU : TCG_COND_GT;
11726         goto do_gvec_cmp;
11727     case 0x07: /* CMGE, CMHS */
11728         cond = u ? TCG_COND_GEU : TCG_COND_GE;
11729     do_gvec_cmp:
11730         tcg_gen_gvec_cmp(cond, size, vec_full_reg_offset(s, rd),
11731                          vec_full_reg_offset(s, rn),
11732                          vec_full_reg_offset(s, rm),
11733                          is_q ? 16 : 8, vec_full_reg_size(s));
11734         return;
11735     }
11736
11737     if (size == 3) {
11738         assert(is_q);
11739         for (pass = 0; pass < 2; pass++) {
11740             TCGv_i64 tcg_op1 = tcg_temp_new_i64();
11741             TCGv_i64 tcg_op2 = tcg_temp_new_i64();
11742             TCGv_i64 tcg_res = tcg_temp_new_i64();
11743
11744             read_vec_element(s, tcg_op1, rn, pass, MO_64);
11745             read_vec_element(s, tcg_op2, rm, pass, MO_64);
11746
11747             handle_3same_64(s, opcode, u, tcg_res, tcg_op1, tcg_op2);
11748
11749             write_vec_element(s, tcg_res, rd, pass, MO_64);
11750
11751             tcg_temp_free_i64(tcg_res);
11752             tcg_temp_free_i64(tcg_op1);
11753             tcg_temp_free_i64(tcg_op2);
11754         }
11755     } else {
11756         for (pass = 0; pass < (is_q ? 4 : 2); pass++) {
11757             TCGv_i32 tcg_op1 = tcg_temp_new_i32();
11758             TCGv_i32 tcg_op2 = tcg_temp_new_i32();
11759             TCGv_i32 tcg_res = tcg_temp_new_i32();
11760             NeonGenTwoOpFn *genfn = NULL;
11761             NeonGenTwoOpEnvFn *genenvfn = NULL;
11762
11763             read_vec_element_i32(s, tcg_op1, rn, pass, MO_32);
11764             read_vec_element_i32(s, tcg_op2, rm, pass, MO_32);
11765
11766             switch (opcode) {
11767             case 0x0: /* SHADD, UHADD */
11768             {
11769                 static NeonGenTwoOpFn * const fns[3][2] = {
11770                     { gen_helper_neon_hadd_s8, gen_helper_neon_hadd_u8 },
11771                     { gen_helper_neon_hadd_s16, gen_helper_neon_hadd_u16 },
11772                     { gen_helper_neon_hadd_s32, gen_helper_neon_hadd_u32 },
11773                 };
11774                 genfn = fns[size][u];
11775                 break;
11776             }
11777             case 0x2: /* SRHADD, URHADD */
11778             {
11779                 static NeonGenTwoOpFn * const fns[3][2] = {
11780                     { gen_helper_neon_rhadd_s8, gen_helper_neon_rhadd_u8 },
11781                     { gen_helper_neon_rhadd_s16, gen_helper_neon_rhadd_u16 },
11782                     { gen_helper_neon_rhadd_s32, gen_helper_neon_rhadd_u32 },
11783                 };
11784                 genfn = fns[size][u];
11785                 break;
11786             }
11787             case 0x4: /* SHSUB, UHSUB */
11788             {
11789                 static NeonGenTwoOpFn * const fns[3][2] = {
11790                     { gen_helper_neon_hsub_s8, gen_helper_neon_hsub_u8 },
11791                     { gen_helper_neon_hsub_s16, gen_helper_neon_hsub_u16 },
11792                     { gen_helper_neon_hsub_s32, gen_helper_neon_hsub_u32 },
11793                 };
11794                 genfn = fns[size][u];
11795                 break;
11796             }
11797             case 0x9: /* SQSHL, UQSHL */
11798             {
11799                 static NeonGenTwoOpEnvFn * const fns[3][2] = {
11800                     { gen_helper_neon_qshl_s8, gen_helper_neon_qshl_u8 },
11801                     { gen_helper_neon_qshl_s16, gen_helper_neon_qshl_u16 },
11802                     { gen_helper_neon_qshl_s32, gen_helper_neon_qshl_u32 },
11803                 };
11804                 genenvfn = fns[size][u];
11805                 break;
11806             }
11807             case 0xa: /* SRSHL, URSHL */
11808             {
11809                 static NeonGenTwoOpFn * const fns[3][2] = {
11810                     { gen_helper_neon_rshl_s8, gen_helper_neon_rshl_u8 },
11811                     { gen_helper_neon_rshl_s16, gen_helper_neon_rshl_u16 },
11812                     { gen_helper_neon_rshl_s32, gen_helper_neon_rshl_u32 },
11813                 };
11814                 genfn = fns[size][u];
11815                 break;
11816             }
11817             case 0xb: /* SQRSHL, UQRSHL */
11818             {
11819                 static NeonGenTwoOpEnvFn * const fns[3][2] = {
11820                     { gen_helper_neon_qrshl_s8, gen_helper_neon_qrshl_u8 },
11821                     { gen_helper_neon_qrshl_s16, gen_helper_neon_qrshl_u16 },
11822                     { gen_helper_neon_qrshl_s32, gen_helper_neon_qrshl_u32 },
11823                 };
11824                 genenvfn = fns[size][u];
11825                 break;
11826             }
11827             default:
11828                 g_assert_not_reached();
11829             }
11830
11831             if (genenvfn) {
11832                 genenvfn(tcg_res, cpu_env, tcg_op1, tcg_op2);
11833             } else {
11834                 genfn(tcg_res, tcg_op1, tcg_op2);
11835             }
11836
11837             write_vec_element_i32(s, tcg_res, rd, pass, MO_32);
11838
11839             tcg_temp_free_i32(tcg_res);
11840             tcg_temp_free_i32(tcg_op1);
11841             tcg_temp_free_i32(tcg_op2);
11842         }
11843     }
11844     clear_vec_high(s, is_q, rd);
11845 }
11846
11847 /* AdvSIMD three same
11848  *  31  30  29  28       24 23  22  21 20  16 15    11  10 9    5 4    0
11849  * +---+---+---+-----------+------+---+------+--------+---+------+------+
11850  * | 0 | Q | U | 0 1 1 1 0 | size | 1 |  Rm  | opcode | 1 |  Rn  |  Rd  |
11851  * +---+---+---+-----------+------+---+------+--------+---+------+------+
11852  */
11853 static void disas_simd_three_reg_same(DisasContext *s, uint32_t insn)
11854 {
11855     int opcode = extract32(insn, 11, 5);
11856
11857     switch (opcode) {
11858     case 0x3: /* logic ops */
11859         disas_simd_3same_logic(s, insn);
11860         break;
11861     case 0x17: /* ADDP */
11862     case 0x14: /* SMAXP, UMAXP */
11863     case 0x15: /* SMINP, UMINP */
11864     {
11865         /* Pairwise operations */
11866         int is_q = extract32(insn, 30, 1);
11867         int u = extract32(insn, 29, 1);
11868         int size = extract32(insn, 22, 2);
11869         int rm = extract32(insn, 16, 5);
11870         int rn = extract32(insn, 5, 5);
11871         int rd = extract32(insn, 0, 5);
11872         if (opcode == 0x17) {
11873             if (u || (size == 3 && !is_q)) {
11874                 unallocated_encoding(s);
11875                 return;
11876             }
11877         } else {
11878             if (size == 3) {
11879                 unallocated_encoding(s);
11880                 return;
11881             }
11882         }
11883         handle_simd_3same_pair(s, is_q, u, opcode, size, rn, rm, rd);
11884         break;
11885     }
11886     case 0x18 ... 0x31:
11887         /* floating point ops, sz[1] and U are part of opcode */
11888         disas_simd_3same_float(s, insn);
11889         break;
11890     default:
11891         disas_simd_3same_int(s, insn);
11892         break;
11893     }
11894 }
11895
11896 /*
11897  * Advanced SIMD three same (ARMv8.2 FP16 variants)
11898  *
11899  *  31  30  29  28       24 23  22 21 20  16 15 14 13    11 10  9    5 4    0
11900  * +---+---+---+-----------+---------+------+-----+--------+---+------+------+
11901  * | 0 | Q | U | 0 1 1 1 0 | a | 1 0 |  Rm  | 0 0 | opcode | 1 |  Rn  |  Rd  |
11902  * +---+---+---+-----------+---------+------+-----+--------+---+------+------+
11903  *
11904  * This includes FMULX, FCMEQ (register), FRECPS, FRSQRTS, FCMGE
11905  * (register), FACGE, FABD, FCMGT (register) and FACGT.
11906  *
11907  */
11908 static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
11909 {
11910     int opcode = extract32(insn, 11, 3);
11911     int u = extract32(insn, 29, 1);
11912     int a = extract32(insn, 23, 1);
11913     int is_q = extract32(insn, 30, 1);
11914     int rm = extract32(insn, 16, 5);
11915     int rn = extract32(insn, 5, 5);
11916     int rd = extract32(insn, 0, 5);
11917     /*
11918      * For these floating point ops, the U, a and opcode bits
11919      * together indicate the operation.
11920      */
11921     int fpopcode = opcode | (a << 3) | (u << 4);
11922     int datasize = is_q ? 128 : 64;
11923     int elements = datasize / 16;
11924     bool pairwise;
11925     TCGv_ptr fpst;
11926     int pass;
11927
11928     switch (fpopcode) {
11929     case 0x0: /* FMAXNM */
11930     case 0x1: /* FMLA */
11931     case 0x2: /* FADD */
11932     case 0x3: /* FMULX */
11933     case 0x4: /* FCMEQ */
11934     case 0x6: /* FMAX */
11935     case 0x7: /* FRECPS */
11936     case 0x8: /* FMINNM */
11937     case 0x9: /* FMLS */
11938     case 0xa: /* FSUB */
11939     case 0xe: /* FMIN */
11940     case 0xf: /* FRSQRTS */
11941     case 0x13: /* FMUL */
11942     case 0x14: /* FCMGE */
11943     case 0x15: /* FACGE */
11944     case 0x17: /* FDIV */
11945     case 0x1a: /* FABD */
11946     case 0x1c: /* FCMGT */
11947     case 0x1d: /* FACGT */
11948         pairwise = false;
11949         break;
11950     case 0x10: /* FMAXNMP */
11951     case 0x12: /* FADDP */
11952     case 0x16: /* FMAXP */
11953     case 0x18: /* FMINNMP */
11954     case 0x1e: /* FMINP */
11955         pairwise = true;
11956         break;
11957     default:
11958         unallocated_encoding(s);
11959         return;
11960     }
11961
11962     if (!dc_isar_feature(aa64_fp16, s)) {
11963         unallocated_encoding(s);
11964         return;
11965     }
11966
11967     if (!fp_access_check(s)) {
11968         return;
11969     }
11970
11971     fpst = fpstatus_ptr(FPST_FPCR_F16);
11972
11973     if (pairwise) {
11974         int maxpass = is_q ? 8 : 4;
11975         TCGv_i32 tcg_op1 = tcg_temp_new_i32();
11976         TCGv_i32 tcg_op2 = tcg_temp_new_i32();
11977         TCGv_i32 tcg_res[8];
11978
11979         for (pass = 0; pass < maxpass; pass++) {
11980             int passreg = pass < (maxpass / 2) ? rn : rm;
11981             int passelt = (pass << 1) & (maxpass - 1);
11982
11983             read_vec_element_i32(s, tcg_op1, passreg, passelt, MO_16);
11984             read_vec_element_i32(s, tcg_op2, passreg, passelt + 1, MO_16);
11985             tcg_res[pass] = tcg_temp_new_i32();
11986
11987             switch (fpopcode) {
11988             case 0x10: /* FMAXNMP */
11989                 gen_helper_advsimd_maxnumh(tcg_res[pass], tcg_op1, tcg_op2,
11990                                            fpst);
11991                 break;
11992             case 0x12: /* FADDP */
11993                 gen_helper_advsimd_addh(tcg_res[pass], tcg_op1, tcg_op2, fpst);
11994                 break;
11995             case 0x16: /* FMAXP */
11996                 gen_helper_advsimd_maxh(tcg_res[pass], tcg_op1, tcg_op2, fpst);
11997                 break;
11998             case 0x18: /* FMINNMP */
11999                 gen_helper_advsimd_minnumh(tcg_res[pass], tcg_op1, tcg_op2,
12000                                            fpst);
12001                 break;
12002             case 0x1e: /* FMINP */
12003                 gen_helper_advsimd_minh(tcg_res[pass], tcg_op1, tcg_op2, fpst);
12004                 break;
12005             default:
12006                 g_assert_not_reached();
12007             }
12008         }
12009
12010         for (pass = 0; pass < maxpass; pass++) {
12011             write_vec_element_i32(s, tcg_res[pass], rd, pass, MO_16);
12012             tcg_temp_free_i32(tcg_res[pass]);
12013         }
12014
12015         tcg_temp_free_i32(tcg_op1);
12016         tcg_temp_free_i32(tcg_op2);
12017
12018     } else {
12019         for (pass = 0; pass < elements; pass++) {
12020             TCGv_i32 tcg_op1 = tcg_temp_new_i32();
12021             TCGv_i32 tcg_op2 = tcg_temp_new_i32();
12022             TCGv_i32 tcg_res = tcg_temp_new_i32();
12023
12024             read_vec_element_i32(s, tcg_op1, rn, pass, MO_16);
12025             read_vec_element_i32(s, tcg_op2, rm, pass, MO_16);
12026
12027             switch (fpopcode) {
12028             case 0x0: /* FMAXNM */
12029                 gen_helper_advsimd_maxnumh(tcg_res, tcg_op1, tcg_op2, fpst);
12030                 break;
12031             case 0x1: /* FMLA */
12032                 read_vec_element_i32(s, tcg_res, rd, pass, MO_16);
12033                 gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
12034                                            fpst);
12035                 break;
12036             case 0x2: /* FADD */
12037                 gen_helper_advsimd_addh(tcg_res, tcg_op1, tcg_op2, fpst);
12038                 break;
12039             case 0x3: /* FMULX */
12040                 gen_helper_advsimd_mulxh(tcg_res, tcg_op1, tcg_op2, fpst);
12041                 break;
12042             case 0x4: /* FCMEQ */
12043                 gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
12044                 break;
12045             case 0x6: /* FMAX */
12046                 gen_helper_advsimd_maxh(tcg_res, tcg_op1, tcg_op2, fpst);
12047                 break;
12048             case 0x7: /* FRECPS */
12049                 gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
12050                 break;
12051             case 0x8: /* FMINNM */
12052                 gen_helper_advsimd_minnumh(tcg_res, tcg_op1, tcg_op2, fpst);
12053                 break;
12054             case 0x9: /* FMLS */
12055                 /* As usual for ARM, separate negation for fused multiply-add */
12056                 tcg_gen_xori_i32(tcg_op1, tcg_op1, 0x8000);
12057                 read_vec_element_i32(s, tcg_res, rd, pass, MO_16);
12058                 gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
12059                                            fpst);
12060                 break;
12061             case 0xa: /* FSUB */
12062                 gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
12063                 break;
12064             case 0xe: /* FMIN */
12065                 gen_helper_advsimd_minh(tcg_res, tcg_op1, tcg_op2, fpst);
12066                 break;
12067             case 0xf: /* FRSQRTS */
12068                 gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
12069                 break;
12070             case 0x13: /* FMUL */
12071                 gen_helper_advsimd_mulh(tcg_res, tcg_op1, tcg_op2, fpst);
12072                 break;
12073             case 0x14: /* FCMGE */
12074                 gen_helper_advsimd_cge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
12075                 break;
12076             case 0x15: /* FACGE */
12077                 gen_helper_advsimd_acge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
12078                 break;
12079             case 0x17: /* FDIV */
12080                 gen_helper_advsimd_divh(tcg_res, tcg_op1, tcg_op2, fpst);
12081                 break;
12082             case 0x1a: /* FABD */
12083                 gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
12084                 tcg_gen_andi_i32(tcg_res, tcg_res, 0x7fff);
12085                 break;
12086             case 0x1c: /* FCMGT */
12087                 gen_helper_advsimd_cgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
12088                 break;
12089             case 0x1d: /* FACGT */
12090                 gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
12091                 break;
12092             default:
12093                 g_assert_not_reached();
12094             }
12095
12096             write_vec_element_i32(s, tcg_res, rd, pass, MO_16);
12097             tcg_temp_free_i32(tcg_res);
12098             tcg_temp_free_i32(tcg_op1);
12099             tcg_temp_free_i32(tcg_op2);
12100         }
12101     }
12102
12103     tcg_temp_free_ptr(fpst);
12104
12105     clear_vec_high(s, is_q, rd);
12106 }
12107
12108 /* AdvSIMD three same extra
12109  *  31   30  29 28       24 23  22  21 20  16  15 14    11  10 9  5 4  0
12110  * +---+---+---+-----------+------+---+------+---+--------+---+----+----+
12111  * | 0 | Q | U | 0 1 1 1 0 | size | 0 |  Rm  | 1 | opcode | 1 | Rn | Rd |
12112  * +---+---+---+-----------+------+---+------+---+--------+---+----+----+
12113  */
12114 static void disas_simd_three_reg_same_extra(DisasContext *s, uint32_t insn)
12115 {
12116     int rd = extract32(insn, 0, 5);
12117     int rn = extract32(insn, 5, 5);
12118     int opcode = extract32(insn, 11, 4);
12119     int rm = extract32(insn, 16, 5);
12120     int size = extract32(insn, 22, 2);
12121     bool u = extract32(insn, 29, 1);
12122     bool is_q = extract32(insn, 30, 1);
12123     bool feature;
12124     int rot;
12125
12126     switch (u * 16 + opcode) {
12127     case 0x10: /* SQRDMLAH (vector) */
12128     case 0x11: /* SQRDMLSH (vector) */
12129         if (size != 1 && size != 2) {
12130             unallocated_encoding(s);
12131             return;
12132         }
12133         feature = dc_isar_feature(aa64_rdm, s);
12134         break;
12135     case 0x02: /* SDOT (vector) */
12136     case 0x12: /* UDOT (vector) */
12137         if (size != MO_32) {
12138             unallocated_encoding(s);
12139             return;
12140         }
12141         feature = dc_isar_feature(aa64_dp, s);
12142         break;
12143     case 0x03: /* USDOT */
12144         if (size != MO_32) {
12145             unallocated_encoding(s);
12146             return;
12147         }
12148         feature = dc_isar_feature(aa64_i8mm, s);
12149         break;
12150     case 0x04: /* SMMLA */
12151     case 0x14: /* UMMLA */
12152     case 0x05: /* USMMLA */
12153         if (!is_q || size != MO_32) {
12154             unallocated_encoding(s);
12155             return;
12156         }
12157         feature = dc_isar_feature(aa64_i8mm, s);
12158         break;
12159     case 0x18: /* FCMLA, #0 */
12160     case 0x19: /* FCMLA, #90 */
12161     case 0x1a: /* FCMLA, #180 */
12162     case 0x1b: /* FCMLA, #270 */
12163     case 0x1c: /* FCADD, #90 */
12164     case 0x1e: /* FCADD, #270 */
12165         if (size == 0
12166             || (size == 1 && !dc_isar_feature(aa64_fp16, s))
12167             || (size == 3 && !is_q)) {
12168             unallocated_encoding(s);
12169             return;
12170         }
12171         feature = dc_isar_feature(aa64_fcma, s);
12172         break;
12173     case 0x1d: /* BFMMLA */
12174         if (size != MO_16 || !is_q) {
12175             unallocated_encoding(s);
12176             return;
12177         }
12178         feature = dc_isar_feature(aa64_bf16, s);
12179         break;
12180     case 0x1f:
12181         switch (size) {
12182         case 1: /* BFDOT */
12183         case 3: /* BFMLAL{B,T} */
12184             feature = dc_isar_feature(aa64_bf16, s);
12185             break;
12186         default:
12187             unallocated_encoding(s);
12188             return;
12189         }
12190         break;
12191     default:
12192         unallocated_encoding(s);
12193         return;
12194     }
12195     if (!feature) {
12196         unallocated_encoding(s);
12197         return;
12198     }
12199     if (!fp_access_check(s)) {
12200         return;
12201     }
12202
12203     switch (opcode) {
12204     case 0x0: /* SQRDMLAH (vector) */
12205         gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_sqrdmlah_qc, size);
12206         return;
12207
12208     case 0x1: /* SQRDMLSH (vector) */
12209         gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_sqrdmlsh_qc, size);
12210         return;
12211
12212     case 0x2: /* SDOT / UDOT */
12213         gen_gvec_op4_ool(s, is_q, rd, rn, rm, rd, 0,
12214                          u ? gen_helper_gvec_udot_b : gen_helper_gvec_sdot_b);
12215         return;
12216
12217     case 0x3: /* USDOT */
12218         gen_gvec_op4_ool(s, is_q, rd, rn, rm, rd, 0, gen_helper_gvec_usdot_b);
12219         return;
12220
12221     case 0x04: /* SMMLA, UMMLA */
12222         gen_gvec_op4_ool(s, 1, rd, rn, rm, rd, 0,
12223                          u ? gen_helper_gvec_ummla_b
12224                          : gen_helper_gvec_smmla_b);
12225         return;
12226     case 0x05: /* USMMLA */
12227         gen_gvec_op4_ool(s, 1, rd, rn, rm, rd, 0, gen_helper_gvec_usmmla_b);
12228         return;
12229
12230     case 0x8: /* FCMLA, #0 */
12231     case 0x9: /* FCMLA, #90 */
12232     case 0xa: /* FCMLA, #180 */
12233     case 0xb: /* FCMLA, #270 */
12234         rot = extract32(opcode, 0, 2);
12235         switch (size) {
12236         case 1:
12237             gen_gvec_op4_fpst(s, is_q, rd, rn, rm, rd, true, rot,
12238                               gen_helper_gvec_fcmlah);
12239             break;
12240         case 2:
12241             gen_gvec_op4_fpst(s, is_q, rd, rn, rm, rd, false, rot,
12242                               gen_helper_gvec_fcmlas);
12243             break;
12244         case 3:
12245             gen_gvec_op4_fpst(s, is_q, rd, rn, rm, rd, false, rot,
12246                               gen_helper_gvec_fcmlad);
12247             break;
12248         default:
12249             g_assert_not_reached();
12250         }
12251         return;
12252
12253     case 0xc: /* FCADD, #90 */
12254     case 0xe: /* FCADD, #270 */
12255         rot = extract32(opcode, 1, 1);
12256         switch (size) {
12257         case 1:
12258             gen_gvec_op3_fpst(s, is_q, rd, rn, rm, size == 1, rot,
12259                               gen_helper_gvec_fcaddh);
12260             break;
12261         case 2:
12262             gen_gvec_op3_fpst(s, is_q, rd, rn, rm, size == 1, rot,
12263                               gen_helper_gvec_fcadds);
12264             break;
12265         case 3:
12266             gen_gvec_op3_fpst(s, is_q, rd, rn, rm, size == 1, rot,
12267                               gen_helper_gvec_fcaddd);
12268             break;
12269         default:
12270             g_assert_not_reached();
12271         }
12272         return;
12273
12274     case 0xd: /* BFMMLA */
12275         gen_gvec_op4_ool(s, is_q, rd, rn, rm, rd, 0, gen_helper_gvec_bfmmla);
12276         return;
12277     case 0xf:
12278         switch (size) {
12279         case 1: /* BFDOT */
12280             gen_gvec_op4_ool(s, is_q, rd, rn, rm, rd, 0, gen_helper_gvec_bfdot);
12281             break;
12282         case 3: /* BFMLAL{B,T} */
12283             gen_gvec_op4_fpst(s, 1, rd, rn, rm, rd, false, is_q,
12284                               gen_helper_gvec_bfmlal);
12285             break;
12286         default:
12287             g_assert_not_reached();
12288         }
12289         return;
12290
12291     default:
12292         g_assert_not_reached();
12293     }
12294 }
12295
12296 static void handle_2misc_widening(DisasContext *s, int opcode, bool is_q,
12297                                   int size, int rn, int rd)
12298 {
12299     /* Handle 2-reg-misc ops which are widening (so each size element
12300      * in the source becomes a 2*size element in the destination.
12301      * The only instruction like this is FCVTL.
12302      */
12303     int pass;
12304
12305     if (size == 3) {
12306         /* 32 -> 64 bit fp conversion */
12307         TCGv_i64 tcg_res[2];
12308         int srcelt = is_q ? 2 : 0;
12309
12310         for (pass = 0; pass < 2; pass++) {
12311             TCGv_i32 tcg_op = tcg_temp_new_i32();
12312             tcg_res[pass] = tcg_temp_new_i64();
12313
12314             read_vec_element_i32(s, tcg_op, rn, srcelt + pass, MO_32);
12315             gen_helper_vfp_fcvtds(tcg_res[pass], tcg_op, cpu_env);
12316             tcg_temp_free_i32(tcg_op);
12317         }
12318         for (pass = 0; pass < 2; pass++) {
12319             write_vec_element(s, tcg_res[pass], rd, pass, MO_64);
12320             tcg_temp_free_i64(tcg_res[pass]);
12321         }
12322     } else {
12323         /* 16 -> 32 bit fp conversion */
12324         int srcelt = is_q ? 4 : 0;
12325         TCGv_i32 tcg_res[4];
12326         TCGv_ptr fpst = fpstatus_ptr(FPST_FPCR);
12327         TCGv_i32 ahp = get_ahp_flag();
12328
12329         for (pass = 0; pass < 4; pass++) {
12330             tcg_res[pass] = tcg_temp_new_i32();
12331
12332             read_vec_element_i32(s, tcg_res[pass], rn, srcelt + pass, MO_16);
12333             gen_helper_vfp_fcvt_f16_to_f32(tcg_res[pass], tcg_res[pass],
12334                                            fpst, ahp);
12335         }
12336         for (pass = 0; pass < 4; pass++) {
12337             write_vec_element_i32(s, tcg_res[pass], rd, pass, MO_32);
12338             tcg_temp_free_i32(tcg_res[pass]);
12339         }
12340
12341         tcg_temp_free_ptr(fpst);
12342         tcg_temp_free_i32(ahp);
12343     }
12344 }
12345
12346 static void handle_rev(DisasContext *s, int opcode, bool u,
12347                        bool is_q, int size, int rn, int rd)
12348 {
12349     int op = (opcode << 1) | u;
12350     int opsz = op + size;
12351     int grp_size = 3 - opsz;
12352     int dsize = is_q ? 128 : 64;
12353     int i;
12354
12355     if (opsz >= 3) {
12356         unallocated_encoding(s);
12357         return;
12358     }
12359
12360     if (!fp_access_check(s)) {
12361         return;
12362     }
12363
12364     if (size == 0) {
12365         /* Special case bytes, use bswap op on each group of elements */
12366         int groups = dsize / (8 << grp_size);
12367
12368         for (i = 0; i < groups; i++) {
12369             TCGv_i64 tcg_tmp = tcg_temp_new_i64();
12370
12371             read_vec_element(s, tcg_tmp, rn, i, grp_size);
12372             switch (grp_size) {
12373             case MO_16:
12374                 tcg_gen_bswap16_i64(tcg_tmp, tcg_tmp, TCG_BSWAP_IZ);
12375                 break;
12376             case MO_32:
12377                 tcg_gen_bswap32_i64(tcg_tmp, tcg_tmp, TCG_BSWAP_IZ);
12378                 break;
12379             case MO_64:
12380                 tcg_gen_bswap64_i64(tcg_tmp, tcg_tmp);
12381                 break;
12382             default:
12383                 g_assert_not_reached();
12384             }
12385             write_vec_element(s, tcg_tmp, rd, i, grp_size);
12386             tcg_temp_free_i64(tcg_tmp);
12387         }
12388         clear_vec_high(s, is_q, rd);
12389     } else {
12390         int revmask = (1 << grp_size) - 1;
12391         int esize = 8 << size;
12392         int elements = dsize / esize;
12393         TCGv_i64 tcg_rn = tcg_temp_new_i64();
12394         TCGv_i64 tcg_rd = tcg_const_i64(0);
12395         TCGv_i64 tcg_rd_hi = tcg_const_i64(0);
12396
12397         for (i = 0; i < elements; i++) {
12398             int e_rev = (i & 0xf) ^ revmask;
12399             int off = e_rev * esize;
12400             read_vec_element(s, tcg_rn, rn, i, size);
12401             if (off >= 64) {
12402                 tcg_gen_deposit_i64(tcg_rd_hi, tcg_rd_hi,
12403                                     tcg_rn, off - 64, esize);
12404             } else {
12405                 tcg_gen_deposit_i64(tcg_rd, tcg_rd, tcg_rn, off, esize);
12406             }
12407         }
12408         write_vec_element(s, tcg_rd, rd, 0, MO_64);
12409         write_vec_element(s, tcg_rd_hi, rd, 1, MO_64);
12410
12411         tcg_temp_free_i64(tcg_rd_hi);
12412         tcg_temp_free_i64(tcg_rd);
12413         tcg_temp_free_i64(tcg_rn);
12414     }
12415 }
12416
12417 static void handle_2misc_pairwise(DisasContext *s, int opcode, bool u,
12418                                   bool is_q, int size, int rn, int rd)
12419 {
12420     /* Implement the pairwise operations from 2-misc:
12421      * SADDLP, UADDLP, SADALP, UADALP.
12422      * These all add pairs of elements in the input to produce a
12423      * double-width result element in the output (possibly accumulating).
12424      */
12425     bool accum = (opcode == 0x6);
12426     int maxpass = is_q ? 2 : 1;
12427     int pass;
12428     TCGv_i64 tcg_res[2];
12429
12430     if (size == 2) {
12431         /* 32 + 32 -> 64 op */
12432         MemOp memop = size + (u ? 0 : MO_SIGN);
12433
12434         for (pass = 0; pass < maxpass; pass++) {
12435             TCGv_i64 tcg_op1 = tcg_temp_new_i64();
12436             TCGv_i64 tcg_op2 = tcg_temp_new_i64();
12437
12438             tcg_res[pass] = tcg_temp_new_i64();
12439
12440             read_vec_element(s, tcg_op1, rn, pass * 2, memop);
12441             read_vec_element(s, tcg_op2, rn, pass * 2 + 1, memop);
12442             tcg_gen_add_i64(tcg_res[pass], tcg_op1, tcg_op2);
12443             if (accum) {
12444                 read_vec_element(s, tcg_op1, rd, pass, MO_64);
12445                 tcg_gen_add_i64(tcg_res[pass], tcg_res[pass], tcg_op1);
12446             }
12447
12448             tcg_temp_free_i64(tcg_op1);
12449             tcg_temp_free_i64(tcg_op2);
12450         }
12451     } else {
12452         for (pass = 0; pass < maxpass; pass++) {
12453             TCGv_i64 tcg_op = tcg_temp_new_i64();
12454             NeonGenOne64OpFn *genfn;
12455             static NeonGenOne64OpFn * const fns[2][2] = {
12456                 { gen_helper_neon_addlp_s8,  gen_helper_neon_addlp_u8 },
12457                 { gen_helper_neon_addlp_s16,  gen_helper_neon_addlp_u16 },
12458             };
12459
12460             genfn = fns[size][u];
12461
12462             tcg_res[pass] = tcg_temp_new_i64();
12463
12464             read_vec_element(s, tcg_op, rn, pass, MO_64);
12465             genfn(tcg_res[pass], tcg_op);
12466
12467             if (accum) {
12468                 read_vec_element(s, tcg_op, rd, pass, MO_64);
12469                 if (size == 0) {
12470                     gen_helper_neon_addl_u16(tcg_res[pass],
12471                                              tcg_res[pass], tcg_op);
12472                 } else {
12473                     gen_helper_neon_addl_u32(tcg_res[pass],
12474                                              tcg_res[pass], tcg_op);
12475                 }
12476             }
12477             tcg_temp_free_i64(tcg_op);
12478         }
12479     }
12480     if (!is_q) {
12481         tcg_res[1] = tcg_const_i64(0);
12482     }
12483     for (pass = 0; pass < 2; pass++) {
12484         write_vec_element(s, tcg_res[pass], rd, pass, MO_64);
12485         tcg_temp_free_i64(tcg_res[pass]);
12486     }
12487 }
12488
12489 static void handle_shll(DisasContext *s, bool is_q, int size, int rn, int rd)
12490 {
12491     /* Implement SHLL and SHLL2 */
12492     int pass;
12493     int part = is_q ? 2 : 0;
12494     TCGv_i64 tcg_res[2];
12495
12496     for (pass = 0; pass < 2; pass++) {
12497         static NeonGenWidenFn * const widenfns[3] = {
12498             gen_helper_neon_widen_u8,
12499             gen_helper_neon_widen_u16,
12500             tcg_gen_extu_i32_i64,
12501         };
12502         NeonGenWidenFn *widenfn = widenfns[size];
12503         TCGv_i32 tcg_op = tcg_temp_new_i32();
12504
12505         read_vec_element_i32(s, tcg_op, rn, part + pass, MO_32);
12506         tcg_res[pass] = tcg_temp_new_i64();
12507         widenfn(tcg_res[pass], tcg_op);
12508         tcg_gen_shli_i64(tcg_res[pass], tcg_res[pass], 8 << size);
12509
12510         tcg_temp_free_i32(tcg_op);
12511     }
12512
12513     for (pass = 0; pass < 2; pass++) {
12514         write_vec_element(s, tcg_res[pass], rd, pass, MO_64);
12515         tcg_temp_free_i64(tcg_res[pass]);
12516     }
12517 }
12518
12519 /* AdvSIMD two reg misc
12520  *   31  30  29 28       24 23  22 21       17 16    12 11 10 9    5 4    0
12521  * +---+---+---+-----------+------+-----------+--------+-----+------+------+
12522  * | 0 | Q | U | 0 1 1 1 0 | size | 1 0 0 0 0 | opcode | 1 0 |  Rn  |  Rd  |
12523  * +---+---+---+-----------+------+-----------+--------+-----+------+------+
12524  */
12525 static void disas_simd_two_reg_misc(DisasContext *s, uint32_t insn)
12526 {
12527     int size = extract32(insn, 22, 2);
12528     int opcode = extract32(insn, 12, 5);
12529     bool u = extract32(insn, 29, 1);
12530     bool is_q = extract32(insn, 30, 1);
12531     int rn = extract32(insn, 5, 5);
12532     int rd = extract32(insn, 0, 5);
12533     bool need_fpstatus = false;
12534     bool need_rmode = false;
12535     int rmode = -1;
12536     TCGv_i32 tcg_rmode;
12537     TCGv_ptr tcg_fpstatus;
12538
12539     switch (opcode) {
12540     case 0x0: /* REV64, REV32 */
12541     case 0x1: /* REV16 */
12542         handle_rev(s, opcode, u, is_q, size, rn, rd);
12543         return;
12544     case 0x5: /* CNT, NOT, RBIT */
12545         if (u && size == 0) {
12546             /* NOT */
12547             break;
12548         } else if (u && size == 1) {
12549             /* RBIT */
12550             break;
12551         } else if (!u && size == 0) {
12552             /* CNT */
12553             break;
12554         }
12555         unallocated_encoding(s);
12556         return;
12557     case 0x12: /* XTN, XTN2, SQXTUN, SQXTUN2 */
12558     case 0x14: /* SQXTN, SQXTN2, UQXTN, UQXTN2 */
12559         if (size == 3) {
12560             unallocated_encoding(s);
12561             return;
12562         }
12563         if (!fp_access_check(s)) {
12564             return;
12565         }
12566
12567         handle_2misc_narrow(s, false, opcode, u, is_q, size, rn, rd);
12568         return;
12569     case 0x4: /* CLS, CLZ */
12570         if (size == 3) {
12571             unallocated_encoding(s);
12572             return;
12573         }
12574         break;
12575     case 0x2: /* SADDLP, UADDLP */
12576     case 0x6: /* SADALP, UADALP */
12577         if (size == 3) {
12578             unallocated_encoding(s);
12579             return;
12580         }
12581         if (!fp_access_check(s)) {
12582             return;
12583         }
12584         handle_2misc_pairwise(s, opcode, u, is_q, size, rn, rd);
12585         return;
12586     case 0x13: /* SHLL, SHLL2 */
12587         if (u == 0 || size == 3) {
12588             unallocated_encoding(s);
12589             return;
12590         }
12591         if (!fp_access_check(s)) {
12592             return;
12593         }
12594         handle_shll(s, is_q, size, rn, rd);
12595         return;
12596     case 0xa: /* CMLT */
12597         if (u == 1) {
12598             unallocated_encoding(s);
12599             return;
12600         }
12601         /* fall through */
12602     case 0x8: /* CMGT, CMGE */
12603     case 0x9: /* CMEQ, CMLE */
12604     case 0xb: /* ABS, NEG */
12605         if (size == 3 && !is_q) {
12606             unallocated_encoding(s);
12607             return;
12608         }
12609         break;
12610     case 0x3: /* SUQADD, USQADD */
12611         if (size == 3 && !is_q) {
12612             unallocated_encoding(s);
12613             return;
12614         }
12615         if (!fp_access_check(s)) {
12616             return;
12617         }
12618         handle_2misc_satacc(s, false, u, is_q, size, rn, rd);
12619         return;
12620     case 0x7: /* SQABS, SQNEG */
12621         if (size == 3 && !is_q) {
12622             unallocated_encoding(s);
12623             return;
12624         }
12625         break;
12626     case 0xc ... 0xf:
12627     case 0x16 ... 0x1f:
12628     {
12629         /* Floating point: U, size[1] and opcode indicate operation;
12630          * size[0] indicates single or double precision.
12631          */
12632         int is_double = extract32(size, 0, 1);
12633         opcode |= (extract32(size, 1, 1) << 5) | (u << 6);
12634         size = is_double ? 3 : 2;
12635         switch (opcode) {
12636         case 0x2f: /* FABS */
12637         case 0x6f: /* FNEG */
12638             if (size == 3 && !is_q) {
12639                 unallocated_encoding(s);
12640                 return;
12641             }
12642             break;
12643         case 0x1d: /* SCVTF */
12644         case 0x5d: /* UCVTF */
12645         {
12646             bool is_signed = (opcode == 0x1d) ? true : false;
12647             int elements = is_double ? 2 : is_q ? 4 : 2;
12648             if (is_double && !is_q) {
12649                 unallocated_encoding(s);
12650                 return;
12651             }
12652             if (!fp_access_check(s)) {
12653                 return;
12654             }
12655             handle_simd_intfp_conv(s, rd, rn, elements, is_signed, 0, size);
12656             return;
12657         }
12658         case 0x2c: /* FCMGT (zero) */
12659         case 0x2d: /* FCMEQ (zero) */
12660         case 0x2e: /* FCMLT (zero) */
12661         case 0x6c: /* FCMGE (zero) */
12662         case 0x6d: /* FCMLE (zero) */
12663             if (size == 3 && !is_q) {
12664                 unallocated_encoding(s);
12665                 return;
12666             }
12667             handle_2misc_fcmp_zero(s, opcode, false, u, is_q, size, rn, rd);
12668             return;
12669         case 0x7f: /* FSQRT */
12670             if (size == 3 && !is_q) {
12671                 unallocated_encoding(s);
12672                 return;
12673             }
12674             break;
12675         case 0x1a: /* FCVTNS */
12676         case 0x1b: /* FCVTMS */
12677         case 0x3a: /* FCVTPS */
12678         case 0x3b: /* FCVTZS */
12679         case 0x5a: /* FCVTNU */
12680         case 0x5b: /* FCVTMU */
12681         case 0x7a: /* FCVTPU */
12682         case 0x7b: /* FCVTZU */
12683             need_fpstatus = true;
12684             need_rmode = true;
12685             rmode = extract32(opcode, 5, 1) | (extract32(opcode, 0, 1) << 1);
12686             if (size == 3 && !is_q) {
12687                 unallocated_encoding(s);
12688                 return;
12689             }
12690             break;
12691         case 0x5c: /* FCVTAU */
12692         case 0x1c: /* FCVTAS */
12693             need_fpstatus = true;
12694             need_rmode = true;
12695             rmode = FPROUNDING_TIEAWAY;
12696             if (size == 3 && !is_q) {
12697                 unallocated_encoding(s);
12698                 return;
12699             }
12700             break;
12701         case 0x3c: /* URECPE */
12702             if (size == 3) {
12703                 unallocated_encoding(s);
12704                 return;
12705             }
12706             /* fall through */
12707         case 0x3d: /* FRECPE */
12708         case 0x7d: /* FRSQRTE */
12709             if (size == 3 && !is_q) {
12710                 unallocated_encoding(s);
12711                 return;
12712             }
12713             if (!fp_access_check(s)) {
12714                 return;
12715             }
12716             handle_2misc_reciprocal(s, opcode, false, u, is_q, size, rn, rd);
12717             return;
12718         case 0x56: /* FCVTXN, FCVTXN2 */
12719             if (size == 2) {
12720                 unallocated_encoding(s);
12721                 return;
12722             }
12723             /* fall through */
12724         case 0x16: /* FCVTN, FCVTN2 */
12725             /* handle_2misc_narrow does a 2*size -> size operation, but these
12726              * instructions encode the source size rather than dest size.
12727              */
12728             if (!fp_access_check(s)) {
12729                 return;
12730             }
12731             handle_2misc_narrow(s, false, opcode, 0, is_q, size - 1, rn, rd);
12732             return;
12733         case 0x36: /* BFCVTN, BFCVTN2 */
12734             if (!dc_isar_feature(aa64_bf16, s) || size != 2) {
12735                 unallocated_encoding(s);
12736                 return;
12737             }
12738             if (!fp_access_check(s)) {
12739                 return;
12740             }
12741             handle_2misc_narrow(s, false, opcode, 0, is_q, size - 1, rn, rd);
12742             return;
12743         case 0x17: /* FCVTL, FCVTL2 */
12744             if (!fp_access_check(s)) {
12745                 return;
12746             }
12747             handle_2misc_widening(s, opcode, is_q, size, rn, rd);
12748             return;
12749         case 0x18: /* FRINTN */
12750         case 0x19: /* FRINTM */
12751         case 0x38: /* FRINTP */
12752         case 0x39: /* FRINTZ */
12753             need_rmode = true;
12754             rmode = extract32(opcode, 5, 1) | (extract32(opcode, 0, 1) << 1);
12755             /* fall through */
12756         case 0x59: /* FRINTX */
12757         case 0x79: /* FRINTI */
12758             need_fpstatus = true;
12759             if (size == 3 && !is_q) {
12760                 unallocated_encoding(s);
12761                 return;
12762             }
12763             break;
12764         case 0x58: /* FRINTA */
12765             need_rmode = true;
12766             rmode = FPROUNDING_TIEAWAY;
12767             need_fpstatus = true;
12768             if (size == 3 && !is_q) {
12769                 unallocated_encoding(s);
12770                 return;
12771             }
12772             break;
12773         case 0x7c: /* URSQRTE */
12774             if (size == 3) {
12775                 unallocated_encoding(s);
12776                 return;
12777             }
12778             break;
12779         case 0x1e: /* FRINT32Z */
12780         case 0x1f: /* FRINT64Z */
12781             need_rmode = true;
12782             rmode = FPROUNDING_ZERO;
12783             /* fall through */
12784         case 0x5e: /* FRINT32X */
12785         case 0x5f: /* FRINT64X */
12786             need_fpstatus = true;
12787             if ((size == 3 && !is_q) || !dc_isar_feature(aa64_frint, s)) {
12788                 unallocated_encoding(s);
12789                 return;
12790             }
12791             break;
12792         default:
12793             unallocated_encoding(s);
12794             return;
12795         }
12796         break;
12797     }
12798     default:
12799         unallocated_encoding(s);
12800         return;
12801     }
12802
12803     if (!fp_access_check(s)) {
12804         return;
12805     }
12806
12807     if (need_fpstatus || need_rmode) {
12808         tcg_fpstatus = fpstatus_ptr(FPST_FPCR);
12809     } else {
12810         tcg_fpstatus = NULL;
12811     }
12812     if (need_rmode) {
12813         tcg_rmode = tcg_const_i32(arm_rmode_to_sf(rmode));
12814         gen_helper_set_rmode(tcg_rmode, tcg_rmode, tcg_fpstatus);
12815     } else {
12816         tcg_rmode = NULL;
12817     }
12818
12819     switch (opcode) {
12820     case 0x5:
12821         if (u && size == 0) { /* NOT */
12822             gen_gvec_fn2(s, is_q, rd, rn, tcg_gen_gvec_not, 0);
12823             return;
12824         }
12825         break;
12826     case 0x8: /* CMGT, CMGE */
12827         if (u) {
12828             gen_gvec_fn2(s, is_q, rd, rn, gen_gvec_cge0, size);
12829         } else {
12830             gen_gvec_fn2(s, is_q, rd, rn, gen_gvec_cgt0, size);
12831         }
12832         return;
12833     case 0x9: /* CMEQ, CMLE */
12834         if (u) {
12835             gen_gvec_fn2(s, is_q, rd, rn, gen_gvec_cle0, size);
12836         } else {
12837             gen_gvec_fn2(s, is_q, rd, rn, gen_gvec_ceq0, size);
12838         }
12839         return;
12840     case 0xa: /* CMLT */
12841         gen_gvec_fn2(s, is_q, rd, rn, gen_gvec_clt0, size);
12842         return;
12843     case 0xb:
12844         if (u) { /* ABS, NEG */
12845             gen_gvec_fn2(s, is_q, rd, rn, tcg_gen_gvec_neg, size);
12846         } else {
12847             gen_gvec_fn2(s, is_q, rd, rn, tcg_gen_gvec_abs, size);
12848         }
12849         return;
12850     }
12851
12852     if (size == 3) {
12853         /* All 64-bit element operations can be shared with scalar 2misc */
12854         int pass;
12855
12856         /* Coverity claims (size == 3 && !is_q) has been eliminated
12857          * from all paths leading to here.
12858          */
12859         tcg_debug_assert(is_q);
12860         for (pass = 0; pass < 2; pass++) {
12861             TCGv_i64 tcg_op = tcg_temp_new_i64();
12862             TCGv_i64 tcg_res = tcg_temp_new_i64();
12863
12864             read_vec_element(s, tcg_op, rn, pass, MO_64);
12865
12866             handle_2misc_64(s, opcode, u, tcg_res, tcg_op,
12867                             tcg_rmode, tcg_fpstatus);
12868
12869             write_vec_element(s, tcg_res, rd, pass, MO_64);
12870
12871             tcg_temp_free_i64(tcg_res);
12872             tcg_temp_free_i64(tcg_op);
12873         }
12874     } else {
12875         int pass;
12876
12877         for (pass = 0; pass < (is_q ? 4 : 2); pass++) {
12878             TCGv_i32 tcg_op = tcg_temp_new_i32();
12879             TCGv_i32 tcg_res = tcg_temp_new_i32();
12880
12881             read_vec_element_i32(s, tcg_op, rn, pass, MO_32);
12882
12883             if (size == 2) {
12884                 /* Special cases for 32 bit elements */
12885                 switch (opcode) {
12886                 case 0x4: /* CLS */
12887                     if (u) {
12888                         tcg_gen_clzi_i32(tcg_res, tcg_op, 32);
12889                     } else {
12890                         tcg_gen_clrsb_i32(tcg_res, tcg_op);
12891                     }
12892                     break;
12893                 case 0x7: /* SQABS, SQNEG */
12894                     if (u) {
12895                         gen_helper_neon_qneg_s32(tcg_res, cpu_env, tcg_op);
12896                     } else {
12897                         gen_helper_neon_qabs_s32(tcg_res, cpu_env, tcg_op);
12898                     }
12899                     break;
12900                 case 0x2f: /* FABS */
12901                     gen_helper_vfp_abss(tcg_res, tcg_op);
12902                     break;
12903                 case 0x6f: /* FNEG */
12904                     gen_helper_vfp_negs(tcg_res, tcg_op);
12905                     break;
12906                 case 0x7f: /* FSQRT */
12907                     gen_helper_vfp_sqrts(tcg_res, tcg_op, cpu_env);
12908                     break;
12909                 case 0x1a: /* FCVTNS */
12910                 case 0x1b: /* FCVTMS */
12911                 case 0x1c: /* FCVTAS */
12912                 case 0x3a: /* FCVTPS */
12913                 case 0x3b: /* FCVTZS */
12914                 {
12915                     TCGv_i32 tcg_shift = tcg_const_i32(0);
12916                     gen_helper_vfp_tosls(tcg_res, tcg_op,
12917                                          tcg_shift, tcg_fpstatus);
12918                     tcg_temp_free_i32(tcg_shift);
12919                     break;
12920                 }
12921                 case 0x5a: /* FCVTNU */
12922                 case 0x5b: /* FCVTMU */
12923                 case 0x5c: /* FCVTAU */
12924                 case 0x7a: /* FCVTPU */
12925                 case 0x7b: /* FCVTZU */
12926                 {
12927                     TCGv_i32 tcg_shift = tcg_const_i32(0);
12928                     gen_helper_vfp_touls(tcg_res, tcg_op,
12929                                          tcg_shift, tcg_fpstatus);
12930                     tcg_temp_free_i32(tcg_shift);
12931                     break;
12932                 }
12933                 case 0x18: /* FRINTN */
12934                 case 0x19: /* FRINTM */
12935                 case 0x38: /* FRINTP */
12936                 case 0x39: /* FRINTZ */
12937                 case 0x58: /* FRINTA */
12938                 case 0x79: /* FRINTI */
12939                     gen_helper_rints(tcg_res, tcg_op, tcg_fpstatus);
12940                     break;
12941                 case 0x59: /* FRINTX */
12942                     gen_helper_rints_exact(tcg_res, tcg_op, tcg_fpstatus);
12943                     break;
12944                 case 0x7c: /* URSQRTE */
12945                     gen_helper_rsqrte_u32(tcg_res, tcg_op);
12946                     break;
12947                 case 0x1e: /* FRINT32Z */
12948                 case 0x5e: /* FRINT32X */
12949                     gen_helper_frint32_s(tcg_res, tcg_op, tcg_fpstatus);
12950                     break;
12951                 case 0x1f: /* FRINT64Z */
12952                 case 0x5f: /* FRINT64X */
12953                     gen_helper_frint64_s(tcg_res, tcg_op, tcg_fpstatus);
12954                     break;
12955                 default:
12956                     g_assert_not_reached();
12957                 }
12958             } else {
12959                 /* Use helpers for 8 and 16 bit elements */
12960                 switch (opcode) {
12961                 case 0x5: /* CNT, RBIT */
12962                     /* For these two insns size is part of the opcode specifier
12963                      * (handled earlier); they always operate on byte elements.
12964                      */
12965                     if (u) {
12966                         gen_helper_neon_rbit_u8(tcg_res, tcg_op);
12967                     } else {
12968                         gen_helper_neon_cnt_u8(tcg_res, tcg_op);
12969                     }
12970                     break;
12971                 case 0x7: /* SQABS, SQNEG */
12972                 {
12973                     NeonGenOneOpEnvFn *genfn;
12974                     static NeonGenOneOpEnvFn * const fns[2][2] = {
12975                         { gen_helper_neon_qabs_s8, gen_helper_neon_qneg_s8 },
12976                         { gen_helper_neon_qabs_s16, gen_helper_neon_qneg_s16 },
12977                     };
12978                     genfn = fns[size][u];
12979                     genfn(tcg_res, cpu_env, tcg_op);
12980                     break;
12981                 }
12982                 case 0x4: /* CLS, CLZ */
12983                     if (u) {
12984                         if (size == 0) {
12985                             gen_helper_neon_clz_u8(tcg_res, tcg_op);
12986                         } else {
12987                             gen_helper_neon_clz_u16(tcg_res, tcg_op);
12988                         }
12989                     } else {
12990                         if (size == 0) {
12991                             gen_helper_neon_cls_s8(tcg_res, tcg_op);
12992                         } else {
12993                             gen_helper_neon_cls_s16(tcg_res, tcg_op);
12994                         }
12995                     }
12996                     break;
12997                 default:
12998                     g_assert_not_reached();
12999                 }
13000             }
13001
13002             write_vec_element_i32(s, tcg_res, rd, pass, MO_32);
13003
13004             tcg_temp_free_i32(tcg_res);
13005             tcg_temp_free_i32(tcg_op);
13006         }
13007     }
13008     clear_vec_high(s, is_q, rd);
13009
13010     if (need_rmode) {
13011         gen_helper_set_rmode(tcg_rmode, tcg_rmode, tcg_fpstatus);
13012         tcg_temp_free_i32(tcg_rmode);
13013     }
13014     if (need_fpstatus) {
13015         tcg_temp_free_ptr(tcg_fpstatus);
13016     }
13017 }
13018
13019 /* AdvSIMD [scalar] two register miscellaneous (FP16)
13020  *
13021  *   31  30  29 28  27     24  23 22 21       17 16    12 11 10 9    5 4    0
13022  * +---+---+---+---+---------+---+-------------+--------+-----+------+------+
13023  * | 0 | Q | U | S | 1 1 1 0 | a | 1 1 1 1 0 0 | opcode | 1 0 |  Rn  |  Rd  |
13024  * +---+---+---+---+---------+---+-------------+--------+-----+------+------+
13025  *   mask: 1000 1111 0111 1110 0000 1100 0000 0000 0x8f7e 0c00
13026  *   val:  0000 1110 0111 1000 0000 1000 0000 0000 0x0e78 0800
13027  *
13028  * This actually covers two groups where scalar access is governed by
13029  * bit 28. A bunch of the instructions (float to integral) only exist
13030  * in the vector form and are un-allocated for the scalar decode. Also
13031  * in the scalar decode Q is always 1.
13032  */
13033 static void disas_simd_two_reg_misc_fp16(DisasContext *s, uint32_t insn)
13034 {
13035     int fpop, opcode, a, u;
13036     int rn, rd;
13037     bool is_q;
13038     bool is_scalar;
13039     bool only_in_vector = false;
13040
13041     int pass;
13042     TCGv_i32 tcg_rmode = NULL;
13043     TCGv_ptr tcg_fpstatus = NULL;
13044     bool need_rmode = false;
13045     bool need_fpst = true;
13046     int rmode;
13047
13048     if (!dc_isar_feature(aa64_fp16, s)) {
13049         unallocated_encoding(s);
13050         return;
13051     }
13052
13053     rd = extract32(insn, 0, 5);
13054     rn = extract32(insn, 5, 5);
13055
13056     a = extract32(insn, 23, 1);
13057     u = extract32(insn, 29, 1);
13058     is_scalar = extract32(insn, 28, 1);
13059     is_q = extract32(insn, 30, 1);
13060
13061     opcode = extract32(insn, 12, 5);
13062     fpop = deposit32(opcode, 5, 1, a);
13063     fpop = deposit32(fpop, 6, 1, u);
13064
13065     switch (fpop) {
13066     case 0x1d: /* SCVTF */
13067     case 0x5d: /* UCVTF */
13068     {
13069         int elements;
13070
13071         if (is_scalar) {
13072             elements = 1;
13073         } else {
13074             elements = (is_q ? 8 : 4);
13075         }
13076
13077         if (!fp_access_check(s)) {
13078             return;
13079         }
13080         handle_simd_intfp_conv(s, rd, rn, elements, !u, 0, MO_16);
13081         return;
13082     }
13083     break;
13084     case 0x2c: /* FCMGT (zero) */
13085     case 0x2d: /* FCMEQ (zero) */
13086     case 0x2e: /* FCMLT (zero) */
13087     case 0x6c: /* FCMGE (zero) */
13088     case 0x6d: /* FCMLE (zero) */
13089         handle_2misc_fcmp_zero(s, fpop, is_scalar, 0, is_q, MO_16, rn, rd);
13090         return;
13091     case 0x3d: /* FRECPE */
13092     case 0x3f: /* FRECPX */
13093         break;
13094     case 0x18: /* FRINTN */
13095         need_rmode = true;
13096         only_in_vector = true;
13097         rmode = FPROUNDING_TIEEVEN;
13098         break;
13099     case 0x19: /* FRINTM */
13100         need_rmode = true;
13101         only_in_vector = true;
13102         rmode = FPROUNDING_NEGINF;
13103         break;
13104     case 0x38: /* FRINTP */
13105         need_rmode = true;
13106         only_in_vector = true;
13107         rmode = FPROUNDING_POSINF;
13108         break;
13109     case 0x39: /* FRINTZ */
13110         need_rmode = true;
13111         only_in_vector = true;
13112         rmode = FPROUNDING_ZERO;
13113         break;
13114     case 0x58: /* FRINTA */
13115         need_rmode = true;
13116         only_in_vector = true;
13117         rmode = FPROUNDING_TIEAWAY;
13118         break;
13119     case 0x59: /* FRINTX */
13120     case 0x79: /* FRINTI */
13121         only_in_vector = true;
13122         /* current rounding mode */
13123         break;
13124     case 0x1a: /* FCVTNS */
13125         need_rmode = true;
13126         rmode = FPROUNDING_TIEEVEN;
13127         break;
13128     case 0x1b: /* FCVTMS */
13129         need_rmode = true;
13130         rmode = FPROUNDING_NEGINF;
13131         break;
13132     case 0x1c: /* FCVTAS */
13133         need_rmode = true;
13134         rmode = FPROUNDING_TIEAWAY;
13135         break;
13136     case 0x3a: /* FCVTPS */
13137         need_rmode = true;
13138         rmode = FPROUNDING_POSINF;
13139         break;
13140     case 0x3b: /* FCVTZS */
13141         need_rmode = true;
13142         rmode = FPROUNDING_ZERO;
13143         break;
13144     case 0x5a: /* FCVTNU */
13145         need_rmode = true;
13146         rmode = FPROUNDING_TIEEVEN;
13147         break;
13148     case 0x5b: /* FCVTMU */
13149         need_rmode = true;
13150         rmode = FPROUNDING_NEGINF;
13151         break;
13152     case 0x5c: /* FCVTAU */
13153         need_rmode = true;
13154         rmode = FPROUNDING_TIEAWAY;
13155         break;
13156     case 0x7a: /* FCVTPU */
13157         need_rmode = true;
13158         rmode = FPROUNDING_POSINF;
13159         break;
13160     case 0x7b: /* FCVTZU */
13161         need_rmode = true;
13162         rmode = FPROUNDING_ZERO;
13163         break;
13164     case 0x2f: /* FABS */
13165     case 0x6f: /* FNEG */
13166         need_fpst = false;
13167         break;
13168     case 0x7d: /* FRSQRTE */
13169     case 0x7f: /* FSQRT (vector) */
13170         break;
13171     default:
13172         unallocated_encoding(s);
13173         return;
13174     }
13175
13176
13177     /* Check additional constraints for the scalar encoding */
13178     if (is_scalar) {
13179         if (!is_q) {
13180             unallocated_encoding(s);
13181             return;
13182         }
13183         /* FRINTxx is only in the vector form */
13184         if (only_in_vector) {
13185             unallocated_encoding(s);
13186             return;
13187         }
13188     }
13189
13190     if (!fp_access_check(s)) {
13191         return;
13192     }
13193
13194     if (need_rmode || need_fpst) {
13195         tcg_fpstatus = fpstatus_ptr(FPST_FPCR_F16);
13196     }
13197
13198     if (need_rmode) {
13199         tcg_rmode = tcg_const_i32(arm_rmode_to_sf(rmode));
13200         gen_helper_set_rmode(tcg_rmode, tcg_rmode, tcg_fpstatus);
13201     }
13202
13203     if (is_scalar) {
13204         TCGv_i32 tcg_op = read_fp_hreg(s, rn);
13205         TCGv_i32 tcg_res = tcg_temp_new_i32();
13206
13207         switch (fpop) {
13208         case 0x1a: /* FCVTNS */
13209         case 0x1b: /* FCVTMS */
13210         case 0x1c: /* FCVTAS */
13211         case 0x3a: /* FCVTPS */
13212         case 0x3b: /* FCVTZS */
13213             gen_helper_advsimd_f16tosinth(tcg_res, tcg_op, tcg_fpstatus);
13214             break;
13215         case 0x3d: /* FRECPE */
13216             gen_helper_recpe_f16(tcg_res, tcg_op, tcg_fpstatus);
13217             break;
13218         case 0x3f: /* FRECPX */
13219             gen_helper_frecpx_f16(tcg_res, tcg_op, tcg_fpstatus);
13220             break;
13221         case 0x5a: /* FCVTNU */
13222         case 0x5b: /* FCVTMU */
13223         case 0x5c: /* FCVTAU */
13224         case 0x7a: /* FCVTPU */
13225         case 0x7b: /* FCVTZU */
13226             gen_helper_advsimd_f16touinth(tcg_res, tcg_op, tcg_fpstatus);
13227             break;
13228         case 0x6f: /* FNEG */
13229             tcg_gen_xori_i32(tcg_res, tcg_op, 0x8000);
13230             break;
13231         case 0x7d: /* FRSQRTE */
13232             gen_helper_rsqrte_f16(tcg_res, tcg_op, tcg_fpstatus);
13233             break;
13234         default:
13235             g_assert_not_reached();
13236         }
13237
13238         /* limit any sign extension going on */
13239         tcg_gen_andi_i32(tcg_res, tcg_res, 0xffff);
13240         write_fp_sreg(s, rd, tcg_res);
13241
13242         tcg_temp_free_i32(tcg_res);
13243         tcg_temp_free_i32(tcg_op);
13244     } else {
13245         for (pass = 0; pass < (is_q ? 8 : 4); pass++) {
13246             TCGv_i32 tcg_op = tcg_temp_new_i32();
13247             TCGv_i32 tcg_res = tcg_temp_new_i32();
13248
13249             read_vec_element_i32(s, tcg_op, rn, pass, MO_16);
13250
13251             switch (fpop) {
13252             case 0x1a: /* FCVTNS */
13253             case 0x1b: /* FCVTMS */
13254             case 0x1c: /* FCVTAS */
13255             case 0x3a: /* FCVTPS */
13256             case 0x3b: /* FCVTZS */
13257                 gen_helper_advsimd_f16tosinth(tcg_res, tcg_op, tcg_fpstatus);
13258                 break;
13259             case 0x3d: /* FRECPE */
13260                 gen_helper_recpe_f16(tcg_res, tcg_op, tcg_fpstatus);
13261                 break;
13262             case 0x5a: /* FCVTNU */
13263             case 0x5b: /* FCVTMU */
13264             case 0x5c: /* FCVTAU */
13265             case 0x7a: /* FCVTPU */
13266             case 0x7b: /* FCVTZU */
13267                 gen_helper_advsimd_f16touinth(tcg_res, tcg_op, tcg_fpstatus);
13268                 break;
13269             case 0x18: /* FRINTN */
13270             case 0x19: /* FRINTM */
13271             case 0x38: /* FRINTP */
13272             case 0x39: /* FRINTZ */
13273             case 0x58: /* FRINTA */
13274             case 0x79: /* FRINTI */
13275                 gen_helper_advsimd_rinth(tcg_res, tcg_op, tcg_fpstatus);
13276                 break;
13277             case 0x59: /* FRINTX */
13278                 gen_helper_advsimd_rinth_exact(tcg_res, tcg_op, tcg_fpstatus);
13279                 break;
13280             case 0x2f: /* FABS */
13281                 tcg_gen_andi_i32(tcg_res, tcg_op, 0x7fff);
13282                 break;
13283             case 0x6f: /* FNEG */
13284                 tcg_gen_xori_i32(tcg_res, tcg_op, 0x8000);
13285                 break;
13286             case 0x7d: /* FRSQRTE */
13287                 gen_helper_rsqrte_f16(tcg_res, tcg_op, tcg_fpstatus);
13288                 break;
13289             case 0x7f: /* FSQRT */
13290                 gen_helper_sqrt_f16(tcg_res, tcg_op, tcg_fpstatus);
13291                 break;
13292             default:
13293                 g_assert_not_reached();
13294             }
13295
13296             write_vec_element_i32(s, tcg_res, rd, pass, MO_16);
13297
13298             tcg_temp_free_i32(tcg_res);
13299             tcg_temp_free_i32(tcg_op);
13300         }
13301
13302         clear_vec_high(s, is_q, rd);
13303     }
13304
13305     if (tcg_rmode) {
13306         gen_helper_set_rmode(tcg_rmode, tcg_rmode, tcg_fpstatus);
13307         tcg_temp_free_i32(tcg_rmode);
13308     }
13309
13310     if (tcg_fpstatus) {
13311         tcg_temp_free_ptr(tcg_fpstatus);
13312     }
13313 }
13314
13315 /* AdvSIMD scalar x indexed element
13316  *  31 30  29 28       24 23  22 21  20  19  16 15 12  11  10 9    5 4    0
13317  * +-----+---+-----------+------+---+---+------+-----+---+---+------+------+
13318  * | 0 1 | U | 1 1 1 1 1 | size | L | M |  Rm  | opc | H | 0 |  Rn  |  Rd  |
13319  * +-----+---+-----------+------+---+---+------+-----+---+---+------+------+
13320  * AdvSIMD vector x indexed element
13321  *   31  30  29 28       24 23  22 21  20  19  16 15 12  11  10 9    5 4    0
13322  * +---+---+---+-----------+------+---+---+------+-----+---+---+------+------+
13323  * | 0 | Q | U | 0 1 1 1 1 | size | L | M |  Rm  | opc | H | 0 |  Rn  |  Rd  |
13324  * +---+---+---+-----------+------+---+---+------+-----+---+---+------+------+
13325  */
13326 static void disas_simd_indexed(DisasContext *s, uint32_t insn)
13327 {
13328     /* This encoding has two kinds of instruction:
13329      *  normal, where we perform elt x idxelt => elt for each
13330      *     element in the vector
13331      *  long, where we perform elt x idxelt and generate a result of
13332      *     double the width of the input element
13333      * The long ops have a 'part' specifier (ie come in INSN, INSN2 pairs).
13334      */
13335     bool is_scalar = extract32(insn, 28, 1);
13336     bool is_q = extract32(insn, 30, 1);
13337     bool u = extract32(insn, 29, 1);
13338     int size = extract32(insn, 22, 2);
13339     int l = extract32(insn, 21, 1);
13340     int m = extract32(insn, 20, 1);
13341     /* Note that the Rm field here is only 4 bits, not 5 as it usually is */
13342     int rm = extract32(insn, 16, 4);
13343     int opcode = extract32(insn, 12, 4);
13344     int h = extract32(insn, 11, 1);
13345     int rn = extract32(insn, 5, 5);
13346     int rd = extract32(insn, 0, 5);
13347     bool is_long = false;
13348     int is_fp = 0;
13349     bool is_fp16 = false;
13350     int index;
13351     TCGv_ptr fpst;
13352
13353     switch (16 * u + opcode) {
13354     case 0x08: /* MUL */
13355     case 0x10: /* MLA */
13356     case 0x14: /* MLS */
13357         if (is_scalar) {
13358             unallocated_encoding(s);
13359             return;
13360         }
13361         break;
13362     case 0x02: /* SMLAL, SMLAL2 */
13363     case 0x12: /* UMLAL, UMLAL2 */
13364     case 0x06: /* SMLSL, SMLSL2 */
13365     case 0x16: /* UMLSL, UMLSL2 */
13366     case 0x0a: /* SMULL, SMULL2 */
13367     case 0x1a: /* UMULL, UMULL2 */
13368         if (is_scalar) {
13369             unallocated_encoding(s);
13370             return;
13371         }
13372         is_long = true;
13373         break;
13374     case 0x03: /* SQDMLAL, SQDMLAL2 */
13375     case 0x07: /* SQDMLSL, SQDMLSL2 */
13376     case 0x0b: /* SQDMULL, SQDMULL2 */
13377         is_long = true;
13378         break;
13379     case 0x0c: /* SQDMULH */
13380     case 0x0d: /* SQRDMULH */
13381         break;
13382     case 0x01: /* FMLA */
13383     case 0x05: /* FMLS */
13384     case 0x09: /* FMUL */
13385     case 0x19: /* FMULX */
13386         is_fp = 1;
13387         break;
13388     case 0x1d: /* SQRDMLAH */
13389     case 0x1f: /* SQRDMLSH */
13390         if (!dc_isar_feature(aa64_rdm, s)) {
13391             unallocated_encoding(s);
13392             return;
13393         }
13394         break;
13395     case 0x0e: /* SDOT */
13396     case 0x1e: /* UDOT */
13397         if (is_scalar || size != MO_32 || !dc_isar_feature(aa64_dp, s)) {
13398             unallocated_encoding(s);
13399             return;
13400         }
13401         break;
13402     case 0x0f:
13403         switch (size) {
13404         case 0: /* SUDOT */
13405         case 2: /* USDOT */
13406             if (is_scalar || !dc_isar_feature(aa64_i8mm, s)) {
13407                 unallocated_encoding(s);
13408                 return;
13409             }
13410             size = MO_32;
13411             break;
13412         case 1: /* BFDOT */
13413             if (is_scalar || !dc_isar_feature(aa64_bf16, s)) {
13414                 unallocated_encoding(s);
13415                 return;
13416             }
13417             size = MO_32;
13418             break;
13419         case 3: /* BFMLAL{B,T} */
13420             if (is_scalar || !dc_isar_feature(aa64_bf16, s)) {
13421                 unallocated_encoding(s);
13422                 return;
13423             }
13424             /* can't set is_fp without other incorrect size checks */
13425             size = MO_16;
13426             break;
13427         default:
13428             unallocated_encoding(s);
13429             return;
13430         }
13431         break;
13432     case 0x11: /* FCMLA #0 */
13433     case 0x13: /* FCMLA #90 */
13434     case 0x15: /* FCMLA #180 */
13435     case 0x17: /* FCMLA #270 */
13436         if (is_scalar || !dc_isar_feature(aa64_fcma, s)) {
13437             unallocated_encoding(s);
13438             return;
13439         }
13440         is_fp = 2;
13441         break;
13442     case 0x00: /* FMLAL */
13443     case 0x04: /* FMLSL */
13444     case 0x18: /* FMLAL2 */
13445     case 0x1c: /* FMLSL2 */
13446         if (is_scalar || size != MO_32 || !dc_isar_feature(aa64_fhm, s)) {
13447             unallocated_encoding(s);
13448             return;
13449         }
13450         size = MO_16;
13451         /* is_fp, but we pass cpu_env not fp_status.  */
13452         break;
13453     default:
13454         unallocated_encoding(s);
13455         return;
13456     }
13457
13458     switch (is_fp) {
13459     case 1: /* normal fp */
13460         /* convert insn encoded size to MemOp size */
13461         switch (size) {
13462         case 0: /* half-precision */
13463             size = MO_16;
13464             is_fp16 = true;
13465             break;
13466         case MO_32: /* single precision */
13467         case MO_64: /* double precision */
13468             break;
13469         default:
13470             unallocated_encoding(s);
13471             return;
13472         }
13473         break;
13474
13475     case 2: /* complex fp */
13476         /* Each indexable element is a complex pair.  */
13477         size += 1;
13478         switch (size) {
13479         case MO_32:
13480             if (h && !is_q) {
13481                 unallocated_encoding(s);
13482                 return;
13483             }
13484             is_fp16 = true;
13485             break;
13486         case MO_64:
13487             break;
13488         default:
13489             unallocated_encoding(s);
13490             return;
13491         }
13492         break;
13493
13494     default: /* integer */
13495         switch (size) {
13496         case MO_8:
13497         case MO_64:
13498             unallocated_encoding(s);
13499             return;
13500         }
13501         break;
13502     }
13503     if (is_fp16 && !dc_isar_feature(aa64_fp16, s)) {
13504         unallocated_encoding(s);
13505         return;
13506     }
13507
13508     /* Given MemOp size, adjust register and indexing.  */
13509     switch (size) {
13510     case MO_16:
13511         index = h << 2 | l << 1 | m;
13512         break;
13513     case MO_32:
13514         index = h << 1 | l;
13515         rm |= m << 4;
13516         break;
13517     case MO_64:
13518         if (l || !is_q) {
13519             unallocated_encoding(s);
13520             return;
13521         }
13522         index = h;
13523         rm |= m << 4;
13524         break;
13525     default:
13526         g_assert_not_reached();
13527     }
13528
13529     if (!fp_access_check(s)) {
13530         return;
13531     }
13532
13533     if (is_fp) {
13534         fpst = fpstatus_ptr(is_fp16 ? FPST_FPCR_F16 : FPST_FPCR);
13535     } else {
13536         fpst = NULL;
13537     }
13538
13539     switch (16 * u + opcode) {
13540     case 0x0e: /* SDOT */
13541     case 0x1e: /* UDOT */
13542         gen_gvec_op4_ool(s, is_q, rd, rn, rm, rd, index,
13543                          u ? gen_helper_gvec_udot_idx_b
13544                          : gen_helper_gvec_sdot_idx_b);
13545         return;
13546     case 0x0f:
13547         switch (extract32(insn, 22, 2)) {
13548         case 0: /* SUDOT */
13549             gen_gvec_op4_ool(s, is_q, rd, rn, rm, rd, index,
13550                              gen_helper_gvec_sudot_idx_b);
13551             return;
13552         case 1: /* BFDOT */
13553             gen_gvec_op4_ool(s, is_q, rd, rn, rm, rd, index,
13554                              gen_helper_gvec_bfdot_idx);
13555             return;
13556         case 2: /* USDOT */
13557             gen_gvec_op4_ool(s, is_q, rd, rn, rm, rd, index,
13558                              gen_helper_gvec_usdot_idx_b);
13559             return;
13560         case 3: /* BFMLAL{B,T} */
13561             gen_gvec_op4_fpst(s, 1, rd, rn, rm, rd, 0, (index << 1) | is_q,
13562                               gen_helper_gvec_bfmlal_idx);
13563             return;
13564         }
13565         g_assert_not_reached();
13566     case 0x11: /* FCMLA #0 */
13567     case 0x13: /* FCMLA #90 */
13568     case 0x15: /* FCMLA #180 */
13569     case 0x17: /* FCMLA #270 */
13570         {
13571             int rot = extract32(insn, 13, 2);
13572             int data = (index << 2) | rot;
13573             tcg_gen_gvec_4_ptr(vec_full_reg_offset(s, rd),
13574                                vec_full_reg_offset(s, rn),
13575                                vec_full_reg_offset(s, rm),
13576                                vec_full_reg_offset(s, rd), fpst,
13577                                is_q ? 16 : 8, vec_full_reg_size(s), data,
13578                                size == MO_64
13579                                ? gen_helper_gvec_fcmlas_idx
13580                                : gen_helper_gvec_fcmlah_idx);
13581             tcg_temp_free_ptr(fpst);
13582         }
13583         return;
13584
13585     case 0x00: /* FMLAL */
13586     case 0x04: /* FMLSL */
13587     case 0x18: /* FMLAL2 */
13588     case 0x1c: /* FMLSL2 */
13589         {
13590             int is_s = extract32(opcode, 2, 1);
13591             int is_2 = u;
13592             int data = (index << 2) | (is_2 << 1) | is_s;
13593             tcg_gen_gvec_3_ptr(vec_full_reg_offset(s, rd),
13594                                vec_full_reg_offset(s, rn),
13595                                vec_full_reg_offset(s, rm), cpu_env,
13596                                is_q ? 16 : 8, vec_full_reg_size(s),
13597                                data, gen_helper_gvec_fmlal_idx_a64);
13598         }
13599         return;
13600
13601     case 0x08: /* MUL */
13602         if (!is_long && !is_scalar) {
13603             static gen_helper_gvec_3 * const fns[3] = {
13604                 gen_helper_gvec_mul_idx_h,
13605                 gen_helper_gvec_mul_idx_s,
13606                 gen_helper_gvec_mul_idx_d,
13607             };
13608             tcg_gen_gvec_3_ool(vec_full_reg_offset(s, rd),
13609                                vec_full_reg_offset(s, rn),
13610                                vec_full_reg_offset(s, rm),
13611                                is_q ? 16 : 8, vec_full_reg_size(s),
13612                                index, fns[size - 1]);
13613             return;
13614         }
13615         break;
13616
13617     case 0x10: /* MLA */
13618         if (!is_long && !is_scalar) {
13619             static gen_helper_gvec_4 * const fns[3] = {
13620                 gen_helper_gvec_mla_idx_h,
13621                 gen_helper_gvec_mla_idx_s,
13622                 gen_helper_gvec_mla_idx_d,
13623             };
13624             tcg_gen_gvec_4_ool(vec_full_reg_offset(s, rd),
13625                                vec_full_reg_offset(s, rn),
13626                                vec_full_reg_offset(s, rm),
13627                                vec_full_reg_offset(s, rd),
13628                                is_q ? 16 : 8, vec_full_reg_size(s),
13629                                index, fns[size - 1]);
13630             return;
13631         }
13632         break;
13633
13634     case 0x14: /* MLS */
13635         if (!is_long && !is_scalar) {
13636             static gen_helper_gvec_4 * const fns[3] = {
13637                 gen_helper_gvec_mls_idx_h,
13638                 gen_helper_gvec_mls_idx_s,
13639                 gen_helper_gvec_mls_idx_d,
13640             };
13641             tcg_gen_gvec_4_ool(vec_full_reg_offset(s, rd),
13642                                vec_full_reg_offset(s, rn),
13643                                vec_full_reg_offset(s, rm),
13644                                vec_full_reg_offset(s, rd),
13645                                is_q ? 16 : 8, vec_full_reg_size(s),
13646                                index, fns[size - 1]);
13647             return;
13648         }
13649         break;
13650     }
13651
13652     if (size == 3) {
13653         TCGv_i64 tcg_idx = tcg_temp_new_i64();
13654         int pass;
13655
13656         assert(is_fp && is_q && !is_long);
13657
13658         read_vec_element(s, tcg_idx, rm, index, MO_64);
13659
13660         for (pass = 0; pass < (is_scalar ? 1 : 2); pass++) {
13661             TCGv_i64 tcg_op = tcg_temp_new_i64();
13662             TCGv_i64 tcg_res = tcg_temp_new_i64();
13663
13664             read_vec_element(s, tcg_op, rn, pass, MO_64);
13665
13666             switch (16 * u + opcode) {
13667             case 0x05: /* FMLS */
13668                 /* As usual for ARM, separate negation for fused multiply-add */
13669                 gen_helper_vfp_negd(tcg_op, tcg_op);
13670                 /* fall through */
13671             case 0x01: /* FMLA */
13672                 read_vec_element(s, tcg_res, rd, pass, MO_64);
13673                 gen_helper_vfp_muladdd(tcg_res, tcg_op, tcg_idx, tcg_res, fpst);
13674                 break;
13675             case 0x09: /* FMUL */
13676                 gen_helper_vfp_muld(tcg_res, tcg_op, tcg_idx, fpst);
13677                 break;
13678             case 0x19: /* FMULX */
13679                 gen_helper_vfp_mulxd(tcg_res, tcg_op, tcg_idx, fpst);
13680                 break;
13681             default:
13682                 g_assert_not_reached();
13683             }
13684
13685             write_vec_element(s, tcg_res, rd, pass, MO_64);
13686             tcg_temp_free_i64(tcg_op);
13687             tcg_temp_free_i64(tcg_res);
13688         }
13689
13690         tcg_temp_free_i64(tcg_idx);
13691         clear_vec_high(s, !is_scalar, rd);
13692     } else if (!is_long) {
13693         /* 32 bit floating point, or 16 or 32 bit integer.
13694          * For the 16 bit scalar case we use the usual Neon helpers and
13695          * rely on the fact that 0 op 0 == 0 with no side effects.
13696          */
13697         TCGv_i32 tcg_idx = tcg_temp_new_i32();
13698         int pass, maxpasses;
13699
13700         if (is_scalar) {
13701             maxpasses = 1;
13702         } else {
13703             maxpasses = is_q ? 4 : 2;
13704         }
13705
13706         read_vec_element_i32(s, tcg_idx, rm, index, size);
13707
13708         if (size == 1 && !is_scalar) {
13709             /* The simplest way to handle the 16x16 indexed ops is to duplicate
13710              * the index into both halves of the 32 bit tcg_idx and then use
13711              * the usual Neon helpers.
13712              */
13713             tcg_gen_deposit_i32(tcg_idx, tcg_idx, tcg_idx, 16, 16);
13714         }
13715
13716         for (pass = 0; pass < maxpasses; pass++) {
13717             TCGv_i32 tcg_op = tcg_temp_new_i32();
13718             TCGv_i32 tcg_res = tcg_temp_new_i32();
13719
13720             read_vec_element_i32(s, tcg_op, rn, pass, is_scalar ? size : MO_32);
13721
13722             switch (16 * u + opcode) {
13723             case 0x08: /* MUL */
13724             case 0x10: /* MLA */
13725             case 0x14: /* MLS */
13726             {
13727                 static NeonGenTwoOpFn * const fns[2][2] = {
13728                     { gen_helper_neon_add_u16, gen_helper_neon_sub_u16 },
13729                     { tcg_gen_add_i32, tcg_gen_sub_i32 },
13730                 };
13731                 NeonGenTwoOpFn *genfn;
13732                 bool is_sub = opcode == 0x4;
13733
13734                 if (size == 1) {
13735                     gen_helper_neon_mul_u16(tcg_res, tcg_op, tcg_idx);
13736                 } else {
13737                     tcg_gen_mul_i32(tcg_res, tcg_op, tcg_idx);
13738                 }
13739                 if (opcode == 0x8) {
13740                     break;
13741                 }
13742                 read_vec_element_i32(s, tcg_op, rd, pass, MO_32);
13743                 genfn = fns[size - 1][is_sub];
13744                 genfn(tcg_res, tcg_op, tcg_res);
13745                 break;
13746             }
13747             case 0x05: /* FMLS */
13748             case 0x01: /* FMLA */
13749                 read_vec_element_i32(s, tcg_res, rd, pass,
13750                                      is_scalar ? size : MO_32);
13751                 switch (size) {
13752                 case 1:
13753                     if (opcode == 0x5) {
13754                         /* As usual for ARM, separate negation for fused
13755                          * multiply-add */
13756                         tcg_gen_xori_i32(tcg_op, tcg_op, 0x80008000);
13757                     }
13758                     if (is_scalar) {
13759                         gen_helper_advsimd_muladdh(tcg_res, tcg_op, tcg_idx,
13760                                                    tcg_res, fpst);
13761                     } else {
13762                         gen_helper_advsimd_muladd2h(tcg_res, tcg_op, tcg_idx,
13763                                                     tcg_res, fpst);
13764                     }
13765                     break;
13766                 case 2:
13767                     if (opcode == 0x5) {
13768                         /* As usual for ARM, separate negation for
13769                          * fused multiply-add */
13770                         tcg_gen_xori_i32(tcg_op, tcg_op, 0x80000000);
13771                     }
13772                     gen_helper_vfp_muladds(tcg_res, tcg_op, tcg_idx,
13773                                            tcg_res, fpst);
13774                     break;
13775                 default:
13776                     g_assert_not_reached();
13777                 }
13778                 break;
13779             case 0x09: /* FMUL */
13780                 switch (size) {
13781                 case 1:
13782                     if (is_scalar) {
13783                         gen_helper_advsimd_mulh(tcg_res, tcg_op,
13784                                                 tcg_idx, fpst);
13785                     } else {
13786                         gen_helper_advsimd_mul2h(tcg_res, tcg_op,
13787                                                  tcg_idx, fpst);
13788                     }
13789                     break;
13790                 case 2:
13791                     gen_helper_vfp_muls(tcg_res, tcg_op, tcg_idx, fpst);
13792                     break;
13793                 default:
13794                     g_assert_not_reached();
13795                 }
13796                 break;
13797             case 0x19: /* FMULX */
13798                 switch (size) {
13799                 case 1:
13800                     if (is_scalar) {
13801                         gen_helper_advsimd_mulxh(tcg_res, tcg_op,
13802                                                  tcg_idx, fpst);
13803                     } else {
13804                         gen_helper_advsimd_mulx2h(tcg_res, tcg_op,
13805                                                   tcg_idx, fpst);
13806                     }
13807                     break;
13808                 case 2:
13809                     gen_helper_vfp_mulxs(tcg_res, tcg_op, tcg_idx, fpst);
13810                     break;
13811                 default:
13812                     g_assert_not_reached();
13813                 }
13814                 break;
13815             case 0x0c: /* SQDMULH */
13816                 if (size == 1) {
13817                     gen_helper_neon_qdmulh_s16(tcg_res, cpu_env,
13818                                                tcg_op, tcg_idx);
13819                 } else {
13820                     gen_helper_neon_qdmulh_s32(tcg_res, cpu_env,
13821                                                tcg_op, tcg_idx);
13822                 }
13823                 break;
13824             case 0x0d: /* SQRDMULH */
13825                 if (size == 1) {
13826                     gen_helper_neon_qrdmulh_s16(tcg_res, cpu_env,
13827                                                 tcg_op, tcg_idx);
13828                 } else {
13829                     gen_helper_neon_qrdmulh_s32(tcg_res, cpu_env,
13830                                                 tcg_op, tcg_idx);
13831                 }
13832                 break;
13833             case 0x1d: /* SQRDMLAH */
13834                 read_vec_element_i32(s, tcg_res, rd, pass,
13835                                      is_scalar ? size : MO_32);
13836                 if (size == 1) {
13837                     gen_helper_neon_qrdmlah_s16(tcg_res, cpu_env,
13838                                                 tcg_op, tcg_idx, tcg_res);
13839                 } else {
13840                     gen_helper_neon_qrdmlah_s32(tcg_res, cpu_env,
13841                                                 tcg_op, tcg_idx, tcg_res);
13842                 }
13843                 break;
13844             case 0x1f: /* SQRDMLSH */
13845                 read_vec_element_i32(s, tcg_res, rd, pass,
13846                                      is_scalar ? size : MO_32);
13847                 if (size == 1) {
13848                     gen_helper_neon_qrdmlsh_s16(tcg_res, cpu_env,
13849                                                 tcg_op, tcg_idx, tcg_res);
13850                 } else {
13851                     gen_helper_neon_qrdmlsh_s32(tcg_res, cpu_env,
13852                                                 tcg_op, tcg_idx, tcg_res);
13853                 }
13854                 break;
13855             default:
13856                 g_assert_not_reached();
13857             }
13858
13859             if (is_scalar) {
13860                 write_fp_sreg(s, rd, tcg_res);
13861             } else {
13862                 write_vec_element_i32(s, tcg_res, rd, pass, MO_32);
13863             }
13864
13865             tcg_temp_free_i32(tcg_op);
13866             tcg_temp_free_i32(tcg_res);
13867         }
13868
13869         tcg_temp_free_i32(tcg_idx);
13870         clear_vec_high(s, is_q, rd);
13871     } else {
13872         /* long ops: 16x16->32 or 32x32->64 */
13873         TCGv_i64 tcg_res[2];
13874         int pass;
13875         bool satop = extract32(opcode, 0, 1);
13876         MemOp memop = MO_32;
13877
13878         if (satop || !u) {
13879             memop |= MO_SIGN;
13880         }
13881
13882         if (size == 2) {
13883             TCGv_i64 tcg_idx = tcg_temp_new_i64();
13884
13885             read_vec_element(s, tcg_idx, rm, index, memop);
13886
13887             for (pass = 0; pass < (is_scalar ? 1 : 2); pass++) {
13888                 TCGv_i64 tcg_op = tcg_temp_new_i64();
13889                 TCGv_i64 tcg_passres;
13890                 int passelt;
13891
13892                 if (is_scalar) {
13893                     passelt = 0;
13894                 } else {
13895                     passelt = pass + (is_q * 2);
13896                 }
13897
13898                 read_vec_element(s, tcg_op, rn, passelt, memop);
13899
13900                 tcg_res[pass] = tcg_temp_new_i64();
13901
13902                 if (opcode == 0xa || opcode == 0xb) {
13903                     /* Non-accumulating ops */
13904                     tcg_passres = tcg_res[pass];
13905                 } else {
13906                     tcg_passres = tcg_temp_new_i64();
13907                 }
13908
13909                 tcg_gen_mul_i64(tcg_passres, tcg_op, tcg_idx);
13910                 tcg_temp_free_i64(tcg_op);
13911
13912                 if (satop) {
13913                     /* saturating, doubling */
13914                     gen_helper_neon_addl_saturate_s64(tcg_passres, cpu_env,
13915                                                       tcg_passres, tcg_passres);
13916                 }
13917
13918                 if (opcode == 0xa || opcode == 0xb) {
13919                     continue;
13920                 }
13921
13922                 /* Accumulating op: handle accumulate step */
13923                 read_vec_element(s, tcg_res[pass], rd, pass, MO_64);
13924
13925                 switch (opcode) {
13926                 case 0x2: /* SMLAL, SMLAL2, UMLAL, UMLAL2 */
13927                     tcg_gen_add_i64(tcg_res[pass], tcg_res[pass], tcg_passres);
13928                     break;
13929                 case 0x6: /* SMLSL, SMLSL2, UMLSL, UMLSL2 */
13930                     tcg_gen_sub_i64(tcg_res[pass], tcg_res[pass], tcg_passres);
13931                     break;
13932                 case 0x7: /* SQDMLSL, SQDMLSL2 */
13933                     tcg_gen_neg_i64(tcg_passres, tcg_passres);
13934                     /* fall through */
13935                 case 0x3: /* SQDMLAL, SQDMLAL2 */
13936                     gen_helper_neon_addl_saturate_s64(tcg_res[pass], cpu_env,
13937                                                       tcg_res[pass],
13938                                                       tcg_passres);
13939                     break;
13940                 default:
13941                     g_assert_not_reached();
13942                 }
13943                 tcg_temp_free_i64(tcg_passres);
13944             }
13945             tcg_temp_free_i64(tcg_idx);
13946
13947             clear_vec_high(s, !is_scalar, rd);
13948         } else {
13949             TCGv_i32 tcg_idx = tcg_temp_new_i32();
13950
13951             assert(size == 1);
13952             read_vec_element_i32(s, tcg_idx, rm, index, size);
13953
13954             if (!is_scalar) {
13955                 /* The simplest way to handle the 16x16 indexed ops is to
13956                  * duplicate the index into both halves of the 32 bit tcg_idx
13957                  * and then use the usual Neon helpers.
13958                  */
13959                 tcg_gen_deposit_i32(tcg_idx, tcg_idx, tcg_idx, 16, 16);
13960             }
13961
13962             for (pass = 0; pass < (is_scalar ? 1 : 2); pass++) {
13963                 TCGv_i32 tcg_op = tcg_temp_new_i32();
13964                 TCGv_i64 tcg_passres;
13965
13966                 if (is_scalar) {
13967                     read_vec_element_i32(s, tcg_op, rn, pass, size);
13968                 } else {
13969                     read_vec_element_i32(s, tcg_op, rn,
13970                                          pass + (is_q * 2), MO_32);
13971                 }
13972
13973                 tcg_res[pass] = tcg_temp_new_i64();
13974
13975                 if (opcode == 0xa || opcode == 0xb) {
13976                     /* Non-accumulating ops */
13977                     tcg_passres = tcg_res[pass];
13978                 } else {
13979                     tcg_passres = tcg_temp_new_i64();
13980                 }
13981
13982                 if (memop & MO_SIGN) {
13983                     gen_helper_neon_mull_s16(tcg_passres, tcg_op, tcg_idx);
13984                 } else {
13985                     gen_helper_neon_mull_u16(tcg_passres, tcg_op, tcg_idx);
13986                 }
13987                 if (satop) {
13988                     gen_helper_neon_addl_saturate_s32(tcg_passres, cpu_env,
13989                                                       tcg_passres, tcg_passres);
13990                 }
13991                 tcg_temp_free_i32(tcg_op);
13992
13993                 if (opcode == 0xa || opcode == 0xb) {
13994                     continue;
13995                 }
13996
13997                 /* Accumulating op: handle accumulate step */
13998                 read_vec_element(s, tcg_res[pass], rd, pass, MO_64);
13999
14000                 switch (opcode) {
14001                 case 0x2: /* SMLAL, SMLAL2, UMLAL, UMLAL2 */
14002                     gen_helper_neon_addl_u32(tcg_res[pass], tcg_res[pass],
14003                                              tcg_passres);
14004                     break;
14005                 case 0x6: /* SMLSL, SMLSL2, UMLSL, UMLSL2 */
14006                     gen_helper_neon_subl_u32(tcg_res[pass], tcg_res[pass],
14007                                              tcg_passres);
14008                     break;
14009                 case 0x7: /* SQDMLSL, SQDMLSL2 */
14010                     gen_helper_neon_negl_u32(tcg_passres, tcg_passres);
14011                     /* fall through */
14012                 case 0x3: /* SQDMLAL, SQDMLAL2 */
14013                     gen_helper_neon_addl_saturate_s32(tcg_res[pass], cpu_env,
14014                                                       tcg_res[pass],
14015                                                       tcg_passres);
14016                     break;
14017                 default:
14018                     g_assert_not_reached();
14019                 }
14020                 tcg_temp_free_i64(tcg_passres);
14021             }
14022             tcg_temp_free_i32(tcg_idx);
14023
14024             if (is_scalar) {
14025                 tcg_gen_ext32u_i64(tcg_res[0], tcg_res[0]);
14026             }
14027         }
14028
14029         if (is_scalar) {
14030             tcg_res[1] = tcg_const_i64(0);
14031         }
14032
14033         for (pass = 0; pass < 2; pass++) {
14034             write_vec_element(s, tcg_res[pass], rd, pass, MO_64);
14035             tcg_temp_free_i64(tcg_res[pass]);
14036         }
14037     }
14038
14039     if (fpst) {
14040         tcg_temp_free_ptr(fpst);
14041     }
14042 }
14043
14044 /* Crypto AES
14045  *  31             24 23  22 21       17 16    12 11 10 9    5 4    0
14046  * +-----------------+------+-----------+--------+-----+------+------+
14047  * | 0 1 0 0 1 1 1 0 | size | 1 0 1 0 0 | opcode | 1 0 |  Rn  |  Rd  |
14048  * +-----------------+------+-----------+--------+-----+------+------+
14049  */
14050 static void disas_crypto_aes(DisasContext *s, uint32_t insn)
14051 {
14052     int size = extract32(insn, 22, 2);
14053     int opcode = extract32(insn, 12, 5);
14054     int rn = extract32(insn, 5, 5);
14055     int rd = extract32(insn, 0, 5);
14056     int decrypt;
14057     gen_helper_gvec_2 *genfn2 = NULL;
14058     gen_helper_gvec_3 *genfn3 = NULL;
14059
14060     if (!dc_isar_feature(aa64_aes, s) || size != 0) {
14061         unallocated_encoding(s);
14062         return;
14063     }
14064
14065     switch (opcode) {
14066     case 0x4: /* AESE */
14067         decrypt = 0;
14068         genfn3 = gen_helper_crypto_aese;
14069         break;
14070     case 0x6: /* AESMC */
14071         decrypt = 0;
14072         genfn2 = gen_helper_crypto_aesmc;
14073         break;
14074     case 0x5: /* AESD */
14075         decrypt = 1;
14076         genfn3 = gen_helper_crypto_aese;
14077         break;
14078     case 0x7: /* AESIMC */
14079         decrypt = 1;
14080         genfn2 = gen_helper_crypto_aesmc;
14081         break;
14082     default:
14083         unallocated_encoding(s);
14084         return;
14085     }
14086
14087     if (!fp_access_check(s)) {
14088         return;
14089     }
14090     if (genfn2) {
14091         gen_gvec_op2_ool(s, true, rd, rn, decrypt, genfn2);
14092     } else {
14093         gen_gvec_op3_ool(s, true, rd, rd, rn, decrypt, genfn3);
14094     }
14095 }
14096
14097 /* Crypto three-reg SHA
14098  *  31             24 23  22  21 20  16  15 14    12 11 10 9    5 4    0
14099  * +-----------------+------+---+------+---+--------+-----+------+------+
14100  * | 0 1 0 1 1 1 1 0 | size | 0 |  Rm  | 0 | opcode | 0 0 |  Rn  |  Rd  |
14101  * +-----------------+------+---+------+---+--------+-----+------+------+
14102  */
14103 static void disas_crypto_three_reg_sha(DisasContext *s, uint32_t insn)
14104 {
14105     int size = extract32(insn, 22, 2);
14106     int opcode = extract32(insn, 12, 3);
14107     int rm = extract32(insn, 16, 5);
14108     int rn = extract32(insn, 5, 5);
14109     int rd = extract32(insn, 0, 5);
14110     gen_helper_gvec_3 *genfn;
14111     bool feature;
14112
14113     if (size != 0) {
14114         unallocated_encoding(s);
14115         return;
14116     }
14117
14118     switch (opcode) {
14119     case 0: /* SHA1C */
14120         genfn = gen_helper_crypto_sha1c;
14121         feature = dc_isar_feature(aa64_sha1, s);
14122         break;
14123     case 1: /* SHA1P */
14124         genfn = gen_helper_crypto_sha1p;
14125         feature = dc_isar_feature(aa64_sha1, s);
14126         break;
14127     case 2: /* SHA1M */
14128         genfn = gen_helper_crypto_sha1m;
14129         feature = dc_isar_feature(aa64_sha1, s);
14130         break;
14131     case 3: /* SHA1SU0 */
14132         genfn = gen_helper_crypto_sha1su0;
14133         feature = dc_isar_feature(aa64_sha1, s);
14134         break;
14135     case 4: /* SHA256H */
14136         genfn = gen_helper_crypto_sha256h;
14137         feature = dc_isar_feature(aa64_sha256, s);
14138         break;
14139     case 5: /* SHA256H2 */
14140         genfn = gen_helper_crypto_sha256h2;
14141         feature = dc_isar_feature(aa64_sha256, s);
14142         break;
14143     case 6: /* SHA256SU1 */
14144         genfn = gen_helper_crypto_sha256su1;
14145         feature = dc_isar_feature(aa64_sha256, s);
14146         break;
14147     default:
14148         unallocated_encoding(s);
14149         return;
14150     }
14151
14152     if (!feature) {
14153         unallocated_encoding(s);
14154         return;
14155     }
14156
14157     if (!fp_access_check(s)) {
14158         return;
14159     }
14160     gen_gvec_op3_ool(s, true, rd, rn, rm, 0, genfn);
14161 }
14162
14163 /* Crypto two-reg SHA
14164  *  31             24 23  22 21       17 16    12 11 10 9    5 4    0
14165  * +-----------------+------+-----------+--------+-----+------+------+
14166  * | 0 1 0 1 1 1 1 0 | size | 1 0 1 0 0 | opcode | 1 0 |  Rn  |  Rd  |
14167  * +-----------------+------+-----------+--------+-----+------+------+
14168  */
14169 static void disas_crypto_two_reg_sha(DisasContext *s, uint32_t insn)
14170 {
14171     int size = extract32(insn, 22, 2);
14172     int opcode = extract32(insn, 12, 5);
14173     int rn = extract32(insn, 5, 5);
14174     int rd = extract32(insn, 0, 5);
14175     gen_helper_gvec_2 *genfn;
14176     bool feature;
14177
14178     if (size != 0) {
14179         unallocated_encoding(s);
14180         return;
14181     }
14182
14183     switch (opcode) {
14184     case 0: /* SHA1H */
14185         feature = dc_isar_feature(aa64_sha1, s);
14186         genfn = gen_helper_crypto_sha1h;
14187         break;
14188     case 1: /* SHA1SU1 */
14189         feature = dc_isar_feature(aa64_sha1, s);
14190         genfn = gen_helper_crypto_sha1su1;
14191         break;
14192     case 2: /* SHA256SU0 */
14193         feature = dc_isar_feature(aa64_sha256, s);
14194         genfn = gen_helper_crypto_sha256su0;
14195         break;
14196     default:
14197         unallocated_encoding(s);
14198         return;
14199     }
14200
14201     if (!feature) {
14202         unallocated_encoding(s);
14203         return;
14204     }
14205
14206     if (!fp_access_check(s)) {
14207         return;
14208     }
14209     gen_gvec_op2_ool(s, true, rd, rn, 0, genfn);
14210 }
14211
14212 static void gen_rax1_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m)
14213 {
14214     tcg_gen_rotli_i64(d, m, 1);
14215     tcg_gen_xor_i64(d, d, n);
14216 }
14217
14218 static void gen_rax1_vec(unsigned vece, TCGv_vec d, TCGv_vec n, TCGv_vec m)
14219 {
14220     tcg_gen_rotli_vec(vece, d, m, 1);
14221     tcg_gen_xor_vec(vece, d, d, n);
14222 }
14223
14224 void gen_gvec_rax1(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
14225                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
14226 {
14227     static const TCGOpcode vecop_list[] = { INDEX_op_rotli_vec, 0 };
14228     static const GVecGen3 op = {
14229         .fni8 = gen_rax1_i64,
14230         .fniv = gen_rax1_vec,
14231         .opt_opc = vecop_list,
14232         .fno = gen_helper_crypto_rax1,
14233         .vece = MO_64,
14234     };
14235     tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &op);
14236 }
14237
14238 /* Crypto three-reg SHA512
14239  *  31                   21 20  16 15  14  13 12  11  10  9    5 4    0
14240  * +-----------------------+------+---+---+-----+--------+------+------+
14241  * | 1 1 0 0 1 1 1 0 0 1 1 |  Rm  | 1 | O | 0 0 | opcode |  Rn  |  Rd  |
14242  * +-----------------------+------+---+---+-----+--------+------+------+
14243  */
14244 static void disas_crypto_three_reg_sha512(DisasContext *s, uint32_t insn)
14245 {
14246     int opcode = extract32(insn, 10, 2);
14247     int o =  extract32(insn, 14, 1);
14248     int rm = extract32(insn, 16, 5);
14249     int rn = extract32(insn, 5, 5);
14250     int rd = extract32(insn, 0, 5);
14251     bool feature;
14252     gen_helper_gvec_3 *oolfn = NULL;
14253     GVecGen3Fn *gvecfn = NULL;
14254
14255     if (o == 0) {
14256         switch (opcode) {
14257         case 0: /* SHA512H */
14258             feature = dc_isar_feature(aa64_sha512, s);
14259             oolfn = gen_helper_crypto_sha512h;
14260             break;
14261         case 1: /* SHA512H2 */
14262             feature = dc_isar_feature(aa64_sha512, s);
14263             oolfn = gen_helper_crypto_sha512h2;
14264             break;
14265         case 2: /* SHA512SU1 */
14266             feature = dc_isar_feature(aa64_sha512, s);
14267             oolfn = gen_helper_crypto_sha512su1;
14268             break;
14269         case 3: /* RAX1 */
14270             feature = dc_isar_feature(aa64_sha3, s);
14271             gvecfn = gen_gvec_rax1;
14272             break;
14273         default:
14274             g_assert_not_reached();
14275         }
14276     } else {
14277         switch (opcode) {
14278         case 0: /* SM3PARTW1 */
14279             feature = dc_isar_feature(aa64_sm3, s);
14280             oolfn = gen_helper_crypto_sm3partw1;
14281             break;
14282         case 1: /* SM3PARTW2 */
14283             feature = dc_isar_feature(aa64_sm3, s);
14284             oolfn = gen_helper_crypto_sm3partw2;
14285             break;
14286         case 2: /* SM4EKEY */
14287             feature = dc_isar_feature(aa64_sm4, s);
14288             oolfn = gen_helper_crypto_sm4ekey;
14289             break;
14290         default:
14291             unallocated_encoding(s);
14292             return;
14293         }
14294     }
14295
14296     if (!feature) {
14297         unallocated_encoding(s);
14298         return;
14299     }
14300
14301     if (!fp_access_check(s)) {
14302         return;
14303     }
14304
14305     if (oolfn) {
14306         gen_gvec_op3_ool(s, true, rd, rn, rm, 0, oolfn);
14307     } else {
14308         gen_gvec_fn3(s, true, rd, rn, rm, gvecfn, MO_64);
14309     }
14310 }
14311
14312 /* Crypto two-reg SHA512
14313  *  31                                     12  11  10  9    5 4    0
14314  * +-----------------------------------------+--------+------+------+
14315  * | 1 1 0 0 1 1 1 0 1 1 0 0 0 0 0 0 1 0 0 0 | opcode |  Rn  |  Rd  |
14316  * +-----------------------------------------+--------+------+------+
14317  */
14318 static void disas_crypto_two_reg_sha512(DisasContext *s, uint32_t insn)
14319 {
14320     int opcode = extract32(insn, 10, 2);
14321     int rn = extract32(insn, 5, 5);
14322     int rd = extract32(insn, 0, 5);
14323     bool feature;
14324
14325     switch (opcode) {
14326     case 0: /* SHA512SU0 */
14327         feature = dc_isar_feature(aa64_sha512, s);
14328         break;
14329     case 1: /* SM4E */
14330         feature = dc_isar_feature(aa64_sm4, s);
14331         break;
14332     default:
14333         unallocated_encoding(s);
14334         return;
14335     }
14336
14337     if (!feature) {
14338         unallocated_encoding(s);
14339         return;
14340     }
14341
14342     if (!fp_access_check(s)) {
14343         return;
14344     }
14345
14346     switch (opcode) {
14347     case 0: /* SHA512SU0 */
14348         gen_gvec_op2_ool(s, true, rd, rn, 0, gen_helper_crypto_sha512su0);
14349         break;
14350     case 1: /* SM4E */
14351         gen_gvec_op3_ool(s, true, rd, rd, rn, 0, gen_helper_crypto_sm4e);
14352         break;
14353     default:
14354         g_assert_not_reached();
14355     }
14356 }
14357
14358 /* Crypto four-register
14359  *  31               23 22 21 20  16 15  14  10 9    5 4    0
14360  * +-------------------+-----+------+---+------+------+------+
14361  * | 1 1 0 0 1 1 1 0 0 | Op0 |  Rm  | 0 |  Ra  |  Rn  |  Rd  |
14362  * +-------------------+-----+------+---+------+------+------+
14363  */
14364 static void disas_crypto_four_reg(DisasContext *s, uint32_t insn)
14365 {
14366     int op0 = extract32(insn, 21, 2);
14367     int rm = extract32(insn, 16, 5);
14368     int ra = extract32(insn, 10, 5);
14369     int rn = extract32(insn, 5, 5);
14370     int rd = extract32(insn, 0, 5);
14371     bool feature;
14372
14373     switch (op0) {
14374     case 0: /* EOR3 */
14375     case 1: /* BCAX */
14376         feature = dc_isar_feature(aa64_sha3, s);
14377         break;
14378     case 2: /* SM3SS1 */
14379         feature = dc_isar_feature(aa64_sm3, s);
14380         break;
14381     default:
14382         unallocated_encoding(s);
14383         return;
14384     }
14385
14386     if (!feature) {
14387         unallocated_encoding(s);
14388         return;
14389     }
14390
14391     if (!fp_access_check(s)) {
14392         return;
14393     }
14394
14395     if (op0 < 2) {
14396         TCGv_i64 tcg_op1, tcg_op2, tcg_op3, tcg_res[2];
14397         int pass;
14398
14399         tcg_op1 = tcg_temp_new_i64();
14400         tcg_op2 = tcg_temp_new_i64();
14401         tcg_op3 = tcg_temp_new_i64();
14402         tcg_res[0] = tcg_temp_new_i64();
14403         tcg_res[1] = tcg_temp_new_i64();
14404
14405         for (pass = 0; pass < 2; pass++) {
14406             read_vec_element(s, tcg_op1, rn, pass, MO_64);
14407             read_vec_element(s, tcg_op2, rm, pass, MO_64);
14408             read_vec_element(s, tcg_op3, ra, pass, MO_64);
14409
14410             if (op0 == 0) {
14411                 /* EOR3 */
14412                 tcg_gen_xor_i64(tcg_res[pass], tcg_op2, tcg_op3);
14413             } else {
14414                 /* BCAX */
14415                 tcg_gen_andc_i64(tcg_res[pass], tcg_op2, tcg_op3);
14416             }
14417             tcg_gen_xor_i64(tcg_res[pass], tcg_res[pass], tcg_op1);
14418         }
14419         write_vec_element(s, tcg_res[0], rd, 0, MO_64);
14420         write_vec_element(s, tcg_res[1], rd, 1, MO_64);
14421
14422         tcg_temp_free_i64(tcg_op1);
14423         tcg_temp_free_i64(tcg_op2);
14424         tcg_temp_free_i64(tcg_op3);
14425         tcg_temp_free_i64(tcg_res[0]);
14426         tcg_temp_free_i64(tcg_res[1]);
14427     } else {
14428         TCGv_i32 tcg_op1, tcg_op2, tcg_op3, tcg_res, tcg_zero;
14429
14430         tcg_op1 = tcg_temp_new_i32();
14431         tcg_op2 = tcg_temp_new_i32();
14432         tcg_op3 = tcg_temp_new_i32();
14433         tcg_res = tcg_temp_new_i32();
14434         tcg_zero = tcg_const_i32(0);
14435
14436         read_vec_element_i32(s, tcg_op1, rn, 3, MO_32);
14437         read_vec_element_i32(s, tcg_op2, rm, 3, MO_32);
14438         read_vec_element_i32(s, tcg_op3, ra, 3, MO_32);
14439
14440         tcg_gen_rotri_i32(tcg_res, tcg_op1, 20);
14441         tcg_gen_add_i32(tcg_res, tcg_res, tcg_op2);
14442         tcg_gen_add_i32(tcg_res, tcg_res, tcg_op3);
14443         tcg_gen_rotri_i32(tcg_res, tcg_res, 25);
14444
14445         write_vec_element_i32(s, tcg_zero, rd, 0, MO_32);
14446         write_vec_element_i32(s, tcg_zero, rd, 1, MO_32);
14447         write_vec_element_i32(s, tcg_zero, rd, 2, MO_32);
14448         write_vec_element_i32(s, tcg_res, rd, 3, MO_32);
14449
14450         tcg_temp_free_i32(tcg_op1);
14451         tcg_temp_free_i32(tcg_op2);
14452         tcg_temp_free_i32(tcg_op3);
14453         tcg_temp_free_i32(tcg_res);
14454         tcg_temp_free_i32(tcg_zero);
14455     }
14456 }
14457
14458 /* Crypto XAR
14459  *  31                   21 20  16 15    10 9    5 4    0
14460  * +-----------------------+------+--------+------+------+
14461  * | 1 1 0 0 1 1 1 0 1 0 0 |  Rm  |  imm6  |  Rn  |  Rd  |
14462  * +-----------------------+------+--------+------+------+
14463  */
14464 static void disas_crypto_xar(DisasContext *s, uint32_t insn)
14465 {
14466     int rm = extract32(insn, 16, 5);
14467     int imm6 = extract32(insn, 10, 6);
14468     int rn = extract32(insn, 5, 5);
14469     int rd = extract32(insn, 0, 5);
14470
14471     if (!dc_isar_feature(aa64_sha3, s)) {
14472         unallocated_encoding(s);
14473         return;
14474     }
14475
14476     if (!fp_access_check(s)) {
14477         return;
14478     }
14479
14480     gen_gvec_xar(MO_64, vec_full_reg_offset(s, rd),
14481                  vec_full_reg_offset(s, rn),
14482                  vec_full_reg_offset(s, rm), imm6, 16,
14483                  vec_full_reg_size(s));
14484 }
14485
14486 /* Crypto three-reg imm2
14487  *  31                   21 20  16 15  14 13 12  11  10  9    5 4    0
14488  * +-----------------------+------+-----+------+--------+------+------+
14489  * | 1 1 0 0 1 1 1 0 0 1 0 |  Rm  | 1 0 | imm2 | opcode |  Rn  |  Rd  |
14490  * +-----------------------+------+-----+------+--------+------+------+
14491  */
14492 static void disas_crypto_three_reg_imm2(DisasContext *s, uint32_t insn)
14493 {
14494     static gen_helper_gvec_3 * const fns[4] = {
14495         gen_helper_crypto_sm3tt1a, gen_helper_crypto_sm3tt1b,
14496         gen_helper_crypto_sm3tt2a, gen_helper_crypto_sm3tt2b,
14497     };
14498     int opcode = extract32(insn, 10, 2);
14499     int imm2 = extract32(insn, 12, 2);
14500     int rm = extract32(insn, 16, 5);
14501     int rn = extract32(insn, 5, 5);
14502     int rd = extract32(insn, 0, 5);
14503
14504     if (!dc_isar_feature(aa64_sm3, s)) {
14505         unallocated_encoding(s);
14506         return;
14507     }
14508
14509     if (!fp_access_check(s)) {
14510         return;
14511     }
14512
14513     gen_gvec_op3_ool(s, true, rd, rn, rm, imm2, fns[opcode]);
14514 }
14515
14516 /* C3.6 Data processing - SIMD, inc Crypto
14517  *
14518  * As the decode gets a little complex we are using a table based
14519  * approach for this part of the decode.
14520  */
14521 static const AArch64DecodeTable data_proc_simd[] = {
14522     /* pattern  ,  mask     ,  fn                        */
14523     { 0x0e200400, 0x9f200400, disas_simd_three_reg_same },
14524     { 0x0e008400, 0x9f208400, disas_simd_three_reg_same_extra },
14525     { 0x0e200000, 0x9f200c00, disas_simd_three_reg_diff },
14526     { 0x0e200800, 0x9f3e0c00, disas_simd_two_reg_misc },
14527     { 0x0e300800, 0x9f3e0c00, disas_simd_across_lanes },
14528     { 0x0e000400, 0x9fe08400, disas_simd_copy },
14529     { 0x0f000000, 0x9f000400, disas_simd_indexed }, /* vector indexed */
14530     /* simd_mod_imm decode is a subset of simd_shift_imm, so must precede it */
14531     { 0x0f000400, 0x9ff80400, disas_simd_mod_imm },
14532     { 0x0f000400, 0x9f800400, disas_simd_shift_imm },
14533     { 0x0e000000, 0xbf208c00, disas_simd_tb },
14534     { 0x0e000800, 0xbf208c00, disas_simd_zip_trn },
14535     { 0x2e000000, 0xbf208400, disas_simd_ext },
14536     { 0x5e200400, 0xdf200400, disas_simd_scalar_three_reg_same },
14537     { 0x5e008400, 0xdf208400, disas_simd_scalar_three_reg_same_extra },
14538     { 0x5e200000, 0xdf200c00, disas_simd_scalar_three_reg_diff },
14539     { 0x5e200800, 0xdf3e0c00, disas_simd_scalar_two_reg_misc },
14540     { 0x5e300800, 0xdf3e0c00, disas_simd_scalar_pairwise },
14541     { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
14542     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
14543     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
14544     { 0x4e280800, 0xff3e0c00, disas_crypto_aes },
14545     { 0x5e000000, 0xff208c00, disas_crypto_three_reg_sha },
14546     { 0x5e280800, 0xff3e0c00, disas_crypto_two_reg_sha },
14547     { 0xce608000, 0xffe0b000, disas_crypto_three_reg_sha512 },
14548     { 0xcec08000, 0xfffff000, disas_crypto_two_reg_sha512 },
14549     { 0xce000000, 0xff808000, disas_crypto_four_reg },
14550     { 0xce800000, 0xffe00000, disas_crypto_xar },
14551     { 0xce408000, 0xffe0c000, disas_crypto_three_reg_imm2 },
14552     { 0x0e400400, 0x9f60c400, disas_simd_three_reg_same_fp16 },
14553     { 0x0e780800, 0x8f7e0c00, disas_simd_two_reg_misc_fp16 },
14554     { 0x5e400400, 0xdf60c400, disas_simd_scalar_three_reg_same_fp16 },
14555     { 0x00000000, 0x00000000, NULL }
14556 };
14557
14558 static void disas_data_proc_simd(DisasContext *s, uint32_t insn)
14559 {
14560     /* Note that this is called with all non-FP cases from
14561      * table C3-6 so it must UNDEF for entries not specifically
14562      * allocated to instructions in that table.
14563      */
14564     AArch64DecodeFn *fn = lookup_disas_fn(&data_proc_simd[0], insn);
14565     if (fn) {
14566         fn(s, insn);
14567     } else {
14568         unallocated_encoding(s);
14569     }
14570 }
14571
14572 /* C3.6 Data processing - SIMD and floating point */
14573 static void disas_data_proc_simd_fp(DisasContext *s, uint32_t insn)
14574 {
14575     if (extract32(insn, 28, 1) == 1 && extract32(insn, 30, 1) == 0) {
14576         disas_data_proc_fp(s, insn);
14577     } else {
14578         /* SIMD, including crypto */
14579         disas_data_proc_simd(s, insn);
14580     }
14581 }
14582
14583 /**
14584  * is_guarded_page:
14585  * @env: The cpu environment
14586  * @s: The DisasContext
14587  *
14588  * Return true if the page is guarded.
14589  */
14590 static bool is_guarded_page(CPUARMState *env, DisasContext *s)
14591 {
14592     uint64_t addr = s->base.pc_first;
14593 #ifdef CONFIG_USER_ONLY
14594     return page_get_flags(addr) & PAGE_BTI;
14595 #else
14596     int mmu_idx = arm_to_core_mmu_idx(s->mmu_idx);
14597     unsigned int index = tlb_index(env, mmu_idx, addr);
14598     CPUTLBEntry *entry = tlb_entry(env, mmu_idx, addr);
14599
14600     /*
14601      * We test this immediately after reading an insn, which means
14602      * that any normal page must be in the TLB.  The only exception
14603      * would be for executing from flash or device memory, which
14604      * does not retain the TLB entry.
14605      *
14606      * FIXME: Assume false for those, for now.  We could use
14607      * arm_cpu_get_phys_page_attrs_debug to re-read the page
14608      * table entry even for that case.
14609      */
14610     return (tlb_hit(entry->addr_code, addr) &&
14611             arm_tlb_bti_gp(&env_tlb(env)->d[mmu_idx].iotlb[index].attrs));
14612 #endif
14613 }
14614
14615 /**
14616  * btype_destination_ok:
14617  * @insn: The instruction at the branch destination
14618  * @bt: SCTLR_ELx.BT
14619  * @btype: PSTATE.BTYPE, and is non-zero
14620  *
14621  * On a guarded page, there are a limited number of insns
14622  * that may be present at the branch target:
14623  *   - branch target identifiers,
14624  *   - paciasp, pacibsp,
14625  *   - BRK insn
14626  *   - HLT insn
14627  * Anything else causes a Branch Target Exception.
14628  *
14629  * Return true if the branch is compatible, false to raise BTITRAP.
14630  */
14631 static bool btype_destination_ok(uint32_t insn, bool bt, int btype)
14632 {
14633     if ((insn & 0xfffff01fu) == 0xd503201fu) {
14634         /* HINT space */
14635         switch (extract32(insn, 5, 7)) {
14636         case 0b011001: /* PACIASP */
14637         case 0b011011: /* PACIBSP */
14638             /*
14639              * If SCTLR_ELx.BT, then PACI*SP are not compatible
14640              * with btype == 3.  Otherwise all btype are ok.
14641              */
14642             return !bt || btype != 3;
14643         case 0b100000: /* BTI */
14644             /* Not compatible with any btype.  */
14645             return false;
14646         case 0b100010: /* BTI c */
14647             /* Not compatible with btype == 3 */
14648             return btype != 3;
14649         case 0b100100: /* BTI j */
14650             /* Not compatible with btype == 2 */
14651             return btype != 2;
14652         case 0b100110: /* BTI jc */
14653             /* Compatible with any btype.  */
14654             return true;
14655         }
14656     } else {
14657         switch (insn & 0xffe0001fu) {
14658         case 0xd4200000u: /* BRK */
14659         case 0xd4400000u: /* HLT */
14660             /* Give priority to the breakpoint exception.  */
14661             return true;
14662         }
14663     }
14664     return false;
14665 }
14666
14667 /* C3.1 A64 instruction index by encoding */
14668 static void disas_a64_insn(CPUARMState *env, DisasContext *s)
14669 {
14670     uint32_t insn;
14671
14672     s->pc_curr = s->base.pc_next;
14673     insn = arm_ldl_code(env, s->base.pc_next, s->sctlr_b);
14674     s->insn = insn;
14675     s->base.pc_next += 4;
14676
14677     s->fp_access_checked = false;
14678     s->sve_access_checked = false;
14679
14680     if (dc_isar_feature(aa64_bti, s)) {
14681         if (s->base.num_insns == 1) {
14682             /*
14683              * At the first insn of the TB, compute s->guarded_page.
14684              * We delayed computing this until successfully reading
14685              * the first insn of the TB, above.  This (mostly) ensures
14686              * that the softmmu tlb entry has been populated, and the
14687              * page table GP bit is available.
14688              *
14689              * Note that we need to compute this even if btype == 0,
14690              * because this value is used for BR instructions later
14691              * where ENV is not available.
14692              */
14693             s->guarded_page = is_guarded_page(env, s);
14694
14695             /* First insn can have btype set to non-zero.  */
14696             tcg_debug_assert(s->btype >= 0);
14697
14698             /*
14699              * Note that the Branch Target Exception has fairly high
14700              * priority -- below debugging exceptions but above most
14701              * everything else.  This allows us to handle this now
14702              * instead of waiting until the insn is otherwise decoded.
14703              */
14704             if (s->btype != 0
14705                 && s->guarded_page
14706                 && !btype_destination_ok(insn, s->bt, s->btype)) {
14707                 gen_exception_insn(s, s->pc_curr, EXCP_UDEF,
14708                                    syn_btitrap(s->btype),
14709                                    default_exception_el(s));
14710                 return;
14711             }
14712         } else {
14713             /* Not the first insn: btype must be 0.  */
14714             tcg_debug_assert(s->btype == 0);
14715         }
14716     }
14717
14718     switch (extract32(insn, 25, 4)) {
14719     case 0x0: case 0x1: case 0x3: /* UNALLOCATED */
14720         unallocated_encoding(s);
14721         break;
14722     case 0x2:
14723         if (!dc_isar_feature(aa64_sve, s) || !disas_sve(s, insn)) {
14724             unallocated_encoding(s);
14725         }
14726         break;
14727     case 0x8: case 0x9: /* Data processing - immediate */
14728         disas_data_proc_imm(s, insn);
14729         break;
14730     case 0xa: case 0xb: /* Branch, exception generation and system insns */
14731         disas_b_exc_sys(s, insn);
14732         break;
14733     case 0x4:
14734     case 0x6:
14735     case 0xc:
14736     case 0xe:      /* Loads and stores */
14737         disas_ldst(s, insn);
14738         break;
14739     case 0x5:
14740     case 0xd:      /* Data processing - register */
14741         disas_data_proc_reg(s, insn);
14742         break;
14743     case 0x7:
14744     case 0xf:      /* Data processing - SIMD and floating point */
14745         disas_data_proc_simd_fp(s, insn);
14746         break;
14747     default:
14748         assert(FALSE); /* all 15 cases should be handled above */
14749         break;
14750     }
14751
14752     /* if we allocated any temporaries, free them here */
14753     free_tmp_a64(s);
14754
14755     /*
14756      * After execution of most insns, btype is reset to 0.
14757      * Note that we set btype == -1 when the insn sets btype.
14758      */
14759     if (s->btype > 0 && s->base.is_jmp != DISAS_NORETURN) {
14760         reset_btype(s);
14761     }
14762 }
14763
14764 static void aarch64_tr_init_disas_context(DisasContextBase *dcbase,
14765                                           CPUState *cpu)
14766 {
14767     DisasContext *dc = container_of(dcbase, DisasContext, base);
14768     CPUARMState *env = cpu->env_ptr;
14769     ARMCPU *arm_cpu = env_archcpu(env);
14770     CPUARMTBFlags tb_flags = arm_tbflags_from_tb(dc->base.tb);
14771     int bound, core_mmu_idx;
14772
14773     dc->isar = &arm_cpu->isar;
14774     dc->condjmp = 0;
14775
14776     dc->aarch64 = 1;
14777     /* If we are coming from secure EL0 in a system with a 32-bit EL3, then
14778      * there is no secure EL1, so we route exceptions to EL3.
14779      */
14780     dc->secure_routed_to_el3 = arm_feature(env, ARM_FEATURE_EL3) &&
14781                                !arm_el_is_aa64(env, 3);
14782     dc->thumb = 0;
14783     dc->sctlr_b = 0;
14784     dc->be_data = EX_TBFLAG_ANY(tb_flags, BE_DATA) ? MO_BE : MO_LE;
14785     dc->condexec_mask = 0;
14786     dc->condexec_cond = 0;
14787     core_mmu_idx = EX_TBFLAG_ANY(tb_flags, MMUIDX);
14788     dc->mmu_idx = core_to_aa64_mmu_idx(core_mmu_idx);
14789     dc->tbii = EX_TBFLAG_A64(tb_flags, TBII);
14790     dc->tbid = EX_TBFLAG_A64(tb_flags, TBID);
14791     dc->tcma = EX_TBFLAG_A64(tb_flags, TCMA);
14792     dc->current_el = arm_mmu_idx_to_el(dc->mmu_idx);
14793 #if !defined(CONFIG_USER_ONLY)
14794     dc->user = (dc->current_el == 0);
14795 #endif
14796     dc->fp_excp_el = EX_TBFLAG_ANY(tb_flags, FPEXC_EL);
14797     dc->align_mem = EX_TBFLAG_ANY(tb_flags, ALIGN_MEM);
14798     dc->sve_excp_el = EX_TBFLAG_A64(tb_flags, SVEEXC_EL);
14799     dc->sve_len = (EX_TBFLAG_A64(tb_flags, ZCR_LEN) + 1) * 16;
14800     dc->pauth_active = EX_TBFLAG_A64(tb_flags, PAUTH_ACTIVE);
14801     dc->bt = EX_TBFLAG_A64(tb_flags, BT);
14802     dc->btype = EX_TBFLAG_A64(tb_flags, BTYPE);
14803     dc->unpriv = EX_TBFLAG_A64(tb_flags, UNPRIV);
14804     dc->ata = EX_TBFLAG_A64(tb_flags, ATA);
14805     dc->mte_active[0] = EX_TBFLAG_A64(tb_flags, MTE_ACTIVE);
14806     dc->mte_active[1] = EX_TBFLAG_A64(tb_flags, MTE0_ACTIVE);
14807     dc->vec_len = 0;
14808     dc->vec_stride = 0;
14809     dc->cp_regs = arm_cpu->cp_regs;
14810     dc->features = env->features;
14811     dc->dcz_blocksize = arm_cpu->dcz_blocksize;
14812
14813 #ifdef CONFIG_USER_ONLY
14814     /* In sve_probe_page, we assume TBI is enabled. */
14815     tcg_debug_assert(dc->tbid & 1);
14816 #endif
14817
14818     /* Single step state. The code-generation logic here is:
14819      *  SS_ACTIVE == 0:
14820      *   generate code with no special handling for single-stepping (except
14821      *   that anything that can make us go to SS_ACTIVE == 1 must end the TB;
14822      *   this happens anyway because those changes are all system register or
14823      *   PSTATE writes).
14824      *  SS_ACTIVE == 1, PSTATE.SS == 1: (active-not-pending)
14825      *   emit code for one insn
14826      *   emit code to clear PSTATE.SS
14827      *   emit code to generate software step exception for completed step
14828      *   end TB (as usual for having generated an exception)
14829      *  SS_ACTIVE == 1, PSTATE.SS == 0: (active-pending)
14830      *   emit code to generate a software step exception
14831      *   end the TB
14832      */
14833     dc->ss_active = EX_TBFLAG_ANY(tb_flags, SS_ACTIVE);
14834     dc->pstate_ss = EX_TBFLAG_ANY(tb_flags, PSTATE__SS);
14835     dc->is_ldex = false;
14836     dc->debug_target_el = EX_TBFLAG_ANY(tb_flags, DEBUG_TARGET_EL);
14837
14838     /* Bound the number of insns to execute to those left on the page.  */
14839     bound = -(dc->base.pc_first | TARGET_PAGE_MASK) / 4;
14840
14841     /* If architectural single step active, limit to 1.  */
14842     if (dc->ss_active) {
14843         bound = 1;
14844     }
14845     dc->base.max_insns = MIN(dc->base.max_insns, bound);
14846
14847     init_tmp_a64_array(dc);
14848 }
14849
14850 static void aarch64_tr_tb_start(DisasContextBase *db, CPUState *cpu)
14851 {
14852 }
14853
14854 static void aarch64_tr_insn_start(DisasContextBase *dcbase, CPUState *cpu)
14855 {
14856     DisasContext *dc = container_of(dcbase, DisasContext, base);
14857
14858     tcg_gen_insn_start(dc->base.pc_next, 0, 0);
14859     dc->insn_start = tcg_last_op();
14860 }
14861
14862 static bool aarch64_tr_breakpoint_check(DisasContextBase *dcbase, CPUState *cpu,
14863                                         const CPUBreakpoint *bp)
14864 {
14865     DisasContext *dc = container_of(dcbase, DisasContext, base);
14866
14867     if (bp->flags & BP_CPU) {
14868         gen_a64_set_pc_im(dc->base.pc_next);
14869         gen_helper_check_breakpoints(cpu_env);
14870         /* End the TB early; it likely won't be executed */
14871         dc->base.is_jmp = DISAS_TOO_MANY;
14872     } else {
14873         gen_exception_internal_insn(dc, dc->base.pc_next, EXCP_DEBUG);
14874         /* The address covered by the breakpoint must be
14875            included in [tb->pc, tb->pc + tb->size) in order
14876            to for it to be properly cleared -- thus we
14877            increment the PC here so that the logic setting
14878            tb->size below does the right thing.  */
14879         dc->base.pc_next += 4;
14880         dc->base.is_jmp = DISAS_NORETURN;
14881     }
14882
14883     return true;
14884 }
14885
14886 static void aarch64_tr_translate_insn(DisasContextBase *dcbase, CPUState *cpu)
14887 {
14888     DisasContext *dc = container_of(dcbase, DisasContext, base);
14889     CPUARMState *env = cpu->env_ptr;
14890
14891     if (dc->ss_active && !dc->pstate_ss) {
14892         /* Singlestep state is Active-pending.
14893          * If we're in this state at the start of a TB then either
14894          *  a) we just took an exception to an EL which is being debugged
14895          *     and this is the first insn in the exception handler
14896          *  b) debug exceptions were masked and we just unmasked them
14897          *     without changing EL (eg by clearing PSTATE.D)
14898          * In either case we're going to take a swstep exception in the
14899          * "did not step an insn" case, and so the syndrome ISV and EX
14900          * bits should be zero.
14901          */
14902         assert(dc->base.num_insns == 1);
14903         gen_swstep_exception(dc, 0, 0);
14904         dc->base.is_jmp = DISAS_NORETURN;
14905     } else {
14906         disas_a64_insn(env, dc);
14907     }
14908
14909     translator_loop_temp_check(&dc->base);
14910 }
14911
14912 static void aarch64_tr_tb_stop(DisasContextBase *dcbase, CPUState *cpu)
14913 {
14914     DisasContext *dc = container_of(dcbase, DisasContext, base);
14915
14916     if (unlikely(dc->base.singlestep_enabled || dc->ss_active)) {
14917         /* Note that this means single stepping WFI doesn't halt the CPU.
14918          * For conditional branch insns this is harmless unreachable code as
14919          * gen_goto_tb() has already handled emitting the debug exception
14920          * (and thus a tb-jump is not possible when singlestepping).
14921          */
14922         switch (dc->base.is_jmp) {
14923         default:
14924             gen_a64_set_pc_im(dc->base.pc_next);
14925             /* fall through */
14926         case DISAS_EXIT:
14927         case DISAS_JUMP:
14928             if (dc->base.singlestep_enabled) {
14929                 gen_exception_internal(EXCP_DEBUG);
14930             } else {
14931                 gen_step_complete_exception(dc);
14932             }
14933             break;
14934         case DISAS_NORETURN:
14935             break;
14936         }
14937     } else {
14938         switch (dc->base.is_jmp) {
14939         case DISAS_NEXT:
14940         case DISAS_TOO_MANY:
14941             gen_goto_tb(dc, 1, dc->base.pc_next);
14942             break;
14943         default:
14944         case DISAS_UPDATE_EXIT:
14945             gen_a64_set_pc_im(dc->base.pc_next);
14946             /* fall through */
14947         case DISAS_EXIT:
14948             tcg_gen_exit_tb(NULL, 0);
14949             break;
14950         case DISAS_UPDATE_NOCHAIN:
14951             gen_a64_set_pc_im(dc->base.pc_next);
14952             /* fall through */
14953         case DISAS_JUMP:
14954             tcg_gen_lookup_and_goto_ptr();
14955             break;
14956         case DISAS_NORETURN:
14957         case DISAS_SWI:
14958             break;
14959         case DISAS_WFE:
14960             gen_a64_set_pc_im(dc->base.pc_next);
14961             gen_helper_wfe(cpu_env);
14962             break;
14963         case DISAS_YIELD:
14964             gen_a64_set_pc_im(dc->base.pc_next);
14965             gen_helper_yield(cpu_env);
14966             break;
14967         case DISAS_WFI:
14968         {
14969             /* This is a special case because we don't want to just halt the CPU
14970              * if trying to debug across a WFI.
14971              */
14972             TCGv_i32 tmp = tcg_const_i32(4);
14973
14974             gen_a64_set_pc_im(dc->base.pc_next);
14975             gen_helper_wfi(cpu_env, tmp);
14976             tcg_temp_free_i32(tmp);
14977             /* The helper doesn't necessarily throw an exception, but we
14978              * must go back to the main loop to check for interrupts anyway.
14979              */
14980             tcg_gen_exit_tb(NULL, 0);
14981             break;
14982         }
14983         }
14984     }
14985 }
14986
14987 static void aarch64_tr_disas_log(const DisasContextBase *dcbase,
14988                                       CPUState *cpu)
14989 {
14990     DisasContext *dc = container_of(dcbase, DisasContext, base);
14991
14992     qemu_log("IN: %s\n", lookup_symbol(dc->base.pc_first));
14993     log_target_disas(cpu, dc->base.pc_first, dc->base.tb->size);
14994 }
14995
14996 const TranslatorOps aarch64_translator_ops = {
14997     .init_disas_context = aarch64_tr_init_disas_context,
14998     .tb_start           = aarch64_tr_tb_start,
14999     .insn_start         = aarch64_tr_insn_start,
15000     .breakpoint_check   = aarch64_tr_breakpoint_check,
15001     .translate_insn     = aarch64_tr_translate_insn,
15002     .tb_stop            = aarch64_tr_tb_stop,
15003     .disas_log          = aarch64_tr_disas_log,
15004 };