target/i386/kvm.c

   1 /*
   2  * QEMU KVM support
   3  *
   4  * Copyright (C) 2006-2008 Qumranet Technologies
   5  * Copyright IBM, Corp. 2008
   6  *
   7  * Authors:
   8  *  Anthony Liguori   <aliguori@us.ibm.com>
   9  *
  10  * This work is licensed under the terms of the GNU GPL, version 2 or later.
  11  * See the COPYING file in the top-level directory.
  12  *
  13  */
  14
  15 #include "qemu/osdep.h"
  16 #include "qapi/error.h"
  17 #include <sys/ioctl.h>
  18 #include <sys/utsname.h>
  19
  20 #include <linux/kvm.h>
  21 #include <linux/kvm_para.h>
  22
  23 #include "qemu-common.h"
  24 #include "cpu.h"
  25 #include "sysemu/sysemu.h"
  26 #include "sysemu/hw_accel.h"
  27 #include "sysemu/kvm_int.h"
  28 #include "kvm_i386.h"
  29 #include "hyperv.h"
  30
  31 #include "exec/gdbstub.h"
  32 #include "qemu/host-utils.h"
  33 #include "qemu/config-file.h"
  34 #include "qemu/error-report.h"
  35 #include "hw/i386/pc.h"
  36 #include "hw/i386/apic.h"
  37 #include "hw/i386/apic_internal.h"
  38 #include "hw/i386/apic-msidef.h"
  39 #include "hw/i386/intel_iommu.h"
  40 #include "hw/i386/x86-iommu.h"
  41
  42 #include "exec/ioport.h"
  43 #include "standard-headers/asm-x86/hyperv.h"
  44 #include "hw/pci/pci.h"
  45 #include "hw/pci/msi.h"
  46 #include "hw/pci/msix.h"
  47 #include "migration/blocker.h"
  48 #include "exec/memattrs.h"
  49 #include "trace.h"
  50
  51 //#define DEBUG_KVM
  52
  53 #ifdef DEBUG_KVM
  54 #define DPRINTF(fmt, ...) \
  55     do { fprintf(stderr, fmt, ## __VA_ARGS__); } while (0)
  56 #else
  57 #define DPRINTF(fmt, ...) \
  58     do { } while (0)
  59 #endif
  60
  61 #define MSR_KVM_WALL_CLOCK  0x11
  62 #define MSR_KVM_SYSTEM_TIME 0x12
  63
  64 /* A 4096-byte buffer can hold the 8-byte kvm_msrs header, plus
  65  * 255 kvm_msr_entry structs */
  66 #define MSR_BUF_SIZE 4096
  67
  68 const KVMCapabilityInfo kvm_arch_required_capabilities[] = {
  69     KVM_CAP_INFO(SET_TSS_ADDR),
  70     KVM_CAP_INFO(EXT_CPUID),
  71     KVM_CAP_INFO(MP_STATE),
  72     KVM_CAP_LAST_INFO
  73 };
  74
  75 static bool has_msr_star;
  76 static bool has_msr_hsave_pa;
  77 static bool has_msr_tsc_aux;
  78 static bool has_msr_tsc_adjust;
  79 static bool has_msr_tsc_deadline;
  80 static bool has_msr_feature_control;
  81 static bool has_msr_misc_enable;
  82 static bool has_msr_smbase;
  83 static bool has_msr_bndcfgs;
  84 static int lm_capable_kernel;
  85 static bool has_msr_hv_hypercall;
  86 static bool has_msr_hv_crash;
  87 static bool has_msr_hv_reset;
  88 static bool has_msr_hv_vpindex;
  89 static bool has_msr_hv_runtime;
  90 static bool has_msr_hv_synic;
  91 static bool has_msr_hv_stimer;
  92 static bool has_msr_xss;
  93
  94 static bool has_msr_architectural_pmu;
  95 static uint32_t num_architectural_pmu_counters;
  96
  97 static int has_xsave;
  98 static int has_xcrs;
  99 static int has_pit_state2;
 100
 101 static bool has_msr_mcg_ext_ctl;
 102
 103 static struct kvm_cpuid2 *cpuid_cache;
 104
 105 int kvm_has_pit_state2(void)
 106 {
 107     return has_pit_state2;
 108 }
 109
 110 bool kvm_has_smm(void)
 111 {
 112     return kvm_check_extension(kvm_state, KVM_CAP_X86_SMM);
 113 }
 114
 115 bool kvm_has_adjust_clock_stable(void)
 116 {
 117     int ret = kvm_check_extension(kvm_state, KVM_CAP_ADJUST_CLOCK);
 118
 119     return (ret == KVM_CLOCK_TSC_STABLE);
 120 }
 121
 122 bool kvm_allows_irq0_override(void)
 123 {
 124     return !kvm_irqchip_in_kernel() || kvm_has_gsi_routing();
 125 }
 126
 127 static bool kvm_x2apic_api_set_flags(uint64_t flags)
 128 {
 129     KVMState *s = KVM_STATE(current_machine->accelerator);
 130
 131     return !kvm_vm_enable_cap(s, KVM_CAP_X2APIC_API, 0, flags);
 132 }
 133
 134 #define MEMORIZE(fn, _result) \
 135     ({ \
 136         static bool _memorized; \
 137         \
 138         if (_memorized) { \
 139             return _result; \
 140         } \
 141         _memorized = true; \
 142         _result = fn; \
 143     })
 144
 145 static bool has_x2apic_api;
 146
 147 bool kvm_has_x2apic_api(void)
 148 {
 149     return has_x2apic_api;
 150 }
 151
 152 bool kvm_enable_x2apic(void)
 153 {
 154     return MEMORIZE(
 155              kvm_x2apic_api_set_flags(KVM_X2APIC_API_USE_32BIT_IDS |
 156                                       KVM_X2APIC_API_DISABLE_BROADCAST_QUIRK),
 157              has_x2apic_api);
 158 }
 159
 160 static int kvm_get_tsc(CPUState *cs)
 161 {
 162     X86CPU *cpu = X86_CPU(cs);
 163     CPUX86State *env = &cpu->env;
 164     struct {
 165         struct kvm_msrs info;
 166         struct kvm_msr_entry entries[1];
 167     } msr_data;
 168     int ret;
 169
 170     if (env->tsc_valid) {
 171         return 0;
 172     }
 173
 174     msr_data.info.nmsrs = 1;
 175     msr_data.entries[0].index = MSR_IA32_TSC;
 176     env->tsc_valid = !runstate_is_running();
 177
 178     ret = kvm_vcpu_ioctl(CPU(cpu), KVM_GET_MSRS, &msr_data);
 179     if (ret < 0) {
 180         return ret;
 181     }
 182
 183     assert(ret == 1);
 184     env->tsc = msr_data.entries[0].data;
 185     return 0;
 186 }
 187
 188 static inline void do_kvm_synchronize_tsc(CPUState *cpu, run_on_cpu_data arg)
 189 {
 190     kvm_get_tsc(cpu);
 191 }
 192
 193 void kvm_synchronize_all_tsc(void)
 194 {
 195     CPUState *cpu;
 196
 197     if (kvm_enabled()) {
 198         CPU_FOREACH(cpu) {
 199             run_on_cpu(cpu, do_kvm_synchronize_tsc, RUN_ON_CPU_NULL);
 200         }
 201     }
 202 }
 203
 204 static struct kvm_cpuid2 *try_get_cpuid(KVMState *s, int max)
 205 {
 206     struct kvm_cpuid2 *cpuid;
 207     int r, size;
 208
 209     size = sizeof(*cpuid) + max * sizeof(*cpuid->entries);
 210     cpuid = g_malloc0(size);
 211     cpuid->nent = max;
 212     r = kvm_ioctl(s, KVM_GET_SUPPORTED_CPUID, cpuid);
 213     if (r == 0 && cpuid->nent >= max) {
 214         r = -E2BIG;
 215     }
 216     if (r < 0) {
 217         if (r == -E2BIG) {
 218             g_free(cpuid);
 219             return NULL;
 220         } else {
 221             fprintf(stderr, "KVM_GET_SUPPORTED_CPUID failed: %s\n",
 222                     strerror(-r));
 223             exit(1);
 224         }
 225     }
 226     return cpuid;
 227 }
 228
 229 /* Run KVM_GET_SUPPORTED_CPUID ioctl(), allocating a buffer large enough
 230  * for all entries.
 231  */
 232 static struct kvm_cpuid2 *get_supported_cpuid(KVMState *s)
 233 {
 234     struct kvm_cpuid2 *cpuid;
 235     int max = 1;
 236
 237     if (cpuid_cache != NULL) {
 238         return cpuid_cache;
 239     }
 240     while ((cpuid = try_get_cpuid(s, max)) == NULL) {
 241         max *= 2;
 242     }
 243     cpuid_cache = cpuid;
 244     return cpuid;
 245 }
 246
 247 static const struct kvm_para_features {
 248     int cap;
 249     int feature;
 250 } para_features[] = {
 251     { KVM_CAP_CLOCKSOURCE, KVM_FEATURE_CLOCKSOURCE },
 252     { KVM_CAP_NOP_IO_DELAY, KVM_FEATURE_NOP_IO_DELAY },
 253     { KVM_CAP_PV_MMU, KVM_FEATURE_MMU_OP },
 254     { KVM_CAP_ASYNC_PF, KVM_FEATURE_ASYNC_PF },
 255 };
 256
 257 static int get_para_features(KVMState *s)
 258 {
 259     int i, features = 0;
 260
 261     for (i = 0; i < ARRAY_SIZE(para_features); i++) {
 262         if (kvm_check_extension(s, para_features[i].cap)) {
 263             features |= (1 << para_features[i].feature);
 264         }
 265     }
 266
 267     return features;
 268 }
 269
 270 static bool host_tsx_blacklisted(void)
 271 {
 272     int family, model, stepping;\
 273     char vendor[CPUID_VENDOR_SZ + 1];
 274
 275     host_vendor_fms(vendor, &family, &model, &stepping);
 276
 277     /* Check if we are running on a Haswell host known to have broken TSX */
 278     return !strcmp(vendor, CPUID_VENDOR_INTEL) &&
 279            (family == 6) &&
 280            ((model == 63 && stepping < 4) ||
 281             model == 60 || model == 69 || model == 70);
 282 }
 283
 284 /* Returns the value for a specific register on the cpuid entry
 285  */
 286 static uint32_t cpuid_entry_get_reg(struct kvm_cpuid_entry2 *entry, int reg)
 287 {
 288     uint32_t ret = 0;
 289     switch (reg) {
 290     case R_EAX:
 291         ret = entry->eax;
 292         break;
 293     case R_EBX:
 294         ret = entry->ebx;
 295         break;
 296     case R_ECX:
 297         ret = entry->ecx;
 298         break;
 299     case R_EDX:
 300         ret = entry->edx;
 301         break;
 302     }
 303     return ret;
 304 }
 305
 306 /* Find matching entry for function/index on kvm_cpuid2 struct
 307  */
 308 static struct kvm_cpuid_entry2 *cpuid_find_entry(struct kvm_cpuid2 *cpuid,
 309                                                  uint32_t function,
 310                                                  uint32_t index)
 311 {
 312     int i;
 313     for (i = 0; i < cpuid->nent; ++i) {
 314         if (cpuid->entries[i].function == function &&
 315             cpuid->entries[i].index == index) {
 316             return &cpuid->entries[i];
 317         }
 318     }
 319     /* not found: */
 320     return NULL;
 321 }
 322
 323 uint32_t kvm_arch_get_supported_cpuid(KVMState *s, uint32_t function,
 324                                       uint32_t index, int reg)
 325 {
 326     struct kvm_cpuid2 *cpuid;
 327     uint32_t ret = 0;
 328     uint32_t cpuid_1_edx;
 329     bool found = false;
 330
 331     cpuid = get_supported_cpuid(s);
 332
 333     struct kvm_cpuid_entry2 *entry = cpuid_find_entry(cpuid, function, index);
 334     if (entry) {
 335         found = true;
 336         ret = cpuid_entry_get_reg(entry, reg);
 337     }
 338
 339     /* Fixups for the data returned by KVM, below */
 340
 341     if (function == 1 && reg == R_EDX) {
 342         /* KVM before 2.6.30 misreports the following features */
 343         ret |= CPUID_MTRR | CPUID_PAT | CPUID_MCE | CPUID_MCA;
 344     } else if (function == 1 && reg == R_ECX) {
 345         /* We can set the hypervisor flag, even if KVM does not return it on
 346          * GET_SUPPORTED_CPUID
 347          */
 348         ret |= CPUID_EXT_HYPERVISOR;
 349         /* tsc-deadline flag is not returned by GET_SUPPORTED_CPUID, but it
 350          * can be enabled if the kernel has KVM_CAP_TSC_DEADLINE_TIMER,
 351          * and the irqchip is in the kernel.
 352          */
 353         if (kvm_irqchip_in_kernel() &&
 354                 kvm_check_extension(s, KVM_CAP_TSC_DEADLINE_TIMER)) {
 355             ret |= CPUID_EXT_TSC_DEADLINE_TIMER;
 356         }
 357
 358         /* x2apic is reported by GET_SUPPORTED_CPUID, but it can't be enabled
 359          * without the in-kernel irqchip
 360          */
 361         if (!kvm_irqchip_in_kernel()) {
 362             ret &= ~CPUID_EXT_X2APIC;
 363         }
 364     } else if (function == 6 && reg == R_EAX) {
 365         ret |= CPUID_6_EAX_ARAT; /* safe to allow because of emulated APIC */
 366     } else if (function == 7 && index == 0 && reg == R_EBX) {
 367         if (host_tsx_blacklisted()) {
 368             ret &= ~(CPUID_7_0_EBX_RTM | CPUID_7_0_EBX_HLE);
 369         }
 370     } else if (function == 0x80000001 && reg == R_EDX) {
 371         /* On Intel, kvm returns cpuid according to the Intel spec,
 372          * so add missing bits according to the AMD spec:
 373          */
 374         cpuid_1_edx = kvm_arch_get_supported_cpuid(s, 1, 0, R_EDX);
 375         ret |= cpuid_1_edx & CPUID_EXT2_AMD_ALIASES;
 376     } else if (function == KVM_CPUID_FEATURES && reg == R_EAX) {
 377         /* kvm_pv_unhalt is reported by GET_SUPPORTED_CPUID, but it can't
 378          * be enabled without the in-kernel irqchip
 379          */
 380         if (!kvm_irqchip_in_kernel()) {
 381             ret &= ~(1U << KVM_FEATURE_PV_UNHALT);
 382         }
 383     }
 384
 385     /* fallback for older kernels */
 386     if ((function == KVM_CPUID_FEATURES) && !found) {
 387         ret = get_para_features(s);
 388     }
 389
 390     return ret;
 391 }
 392
 393 typedef struct HWPoisonPage {
 394     ram_addr_t ram_addr;
 395     QLIST_ENTRY(HWPoisonPage) list;
 396 } HWPoisonPage;
 397
 398 static QLIST_HEAD(, HWPoisonPage) hwpoison_page_list =
 399     QLIST_HEAD_INITIALIZER(hwpoison_page_list);
 400
 401 static void kvm_unpoison_all(void *param)
 402 {
 403     HWPoisonPage *page, *next_page;
 404
 405     QLIST_FOREACH_SAFE(page, &hwpoison_page_list, list, next_page) {
 406         QLIST_REMOVE(page, list);
 407         qemu_ram_remap(page->ram_addr, TARGET_PAGE_SIZE);
 408         g_free(page);
 409     }
 410 }
 411
 412 static void kvm_hwpoison_page_add(ram_addr_t ram_addr)
 413 {
 414     HWPoisonPage *page;
 415
 416     QLIST_FOREACH(page, &hwpoison_page_list, list) {
 417         if (page->ram_addr == ram_addr) {
 418             return;
 419         }
 420     }
 421     page = g_new(HWPoisonPage, 1);
 422     page->ram_addr = ram_addr;
 423     QLIST_INSERT_HEAD(&hwpoison_page_list, page, list);
 424 }
 425
 426 static int kvm_get_mce_cap_supported(KVMState *s, uint64_t *mce_cap,
 427                                      int *max_banks)
 428 {
 429     int r;
 430
 431     r = kvm_check_extension(s, KVM_CAP_MCE);
 432     if (r > 0) {
 433         *max_banks = r;
 434         return kvm_ioctl(s, KVM_X86_GET_MCE_CAP_SUPPORTED, mce_cap);
 435     }
 436     return -ENOSYS;
 437 }
 438
 439 static void kvm_mce_inject(X86CPU *cpu, hwaddr paddr, int code)
 440 {
 441     CPUState *cs = CPU(cpu);
 442     CPUX86State *env = &cpu->env;
 443     uint64_t status = MCI_STATUS_VAL | MCI_STATUS_UC | MCI_STATUS_EN |
 444                       MCI_STATUS_MISCV | MCI_STATUS_ADDRV | MCI_STATUS_S;
 445     uint64_t mcg_status = MCG_STATUS_MCIP;
 446     int flags = 0;
 447
 448     if (code == BUS_MCEERR_AR) {
 449         status |= MCI_STATUS_AR | 0x134;
 450         mcg_status |= MCG_STATUS_EIPV;
 451     } else {
 452         status |= 0xc0;
 453         mcg_status |= MCG_STATUS_RIPV;
 454     }
 455
 456     flags = cpu_x86_support_mca_broadcast(env) ? MCE_INJECT_BROADCAST : 0;
 457     /* We need to read back the value of MSR_EXT_MCG_CTL that was set by the
 458      * guest kernel back into env->mcg_ext_ctl.
 459      */
 460     cpu_synchronize_state(cs);
 461     if (env->mcg_ext_ctl & MCG_EXT_CTL_LMCE_EN) {
 462         mcg_status |= MCG_STATUS_LMCE;
 463         flags = 0;
 464     }
 465
 466     cpu_x86_inject_mce(NULL, cpu, 9, status, mcg_status, paddr,
 467                        (MCM_ADDR_PHYS << 6) | 0xc, flags);
 468 }
 469
 470 static void hardware_memory_error(void)
 471 {
 472     fprintf(stderr, "Hardware memory error!\n");
 473     exit(1);
 474 }
 475
 476 void kvm_arch_on_sigbus_vcpu(CPUState *c, int code, void *addr)
 477 {
 478     X86CPU *cpu = X86_CPU(c);
 479     CPUX86State *env = &cpu->env;
 480     ram_addr_t ram_addr;
 481     hwaddr paddr;
 482
 483     /* If we get an action required MCE, it has been injected by KVM
 484      * while the VM was running.  An action optional MCE instead should
 485      * be coming from the main thread, which qemu_init_sigbus identifies
 486      * as the "early kill" thread.
 487      */
 488     assert(code == BUS_MCEERR_AR || code == BUS_MCEERR_AO);
 489
 490     if ((env->mcg_cap & MCG_SER_P) && addr) {
 491         ram_addr = qemu_ram_addr_from_host(addr);
 492         if (ram_addr != RAM_ADDR_INVALID &&
 493             kvm_physical_memory_addr_from_host(c->kvm_state, addr, &paddr)) {
 494             kvm_hwpoison_page_add(ram_addr);
 495             kvm_mce_inject(cpu, paddr, code);
 496             return;
 497         }
 498
 499         fprintf(stderr, "Hardware memory error for memory used by "
 500                 "QEMU itself instead of guest system!\n");
 501     }
 502
 503     if (code == BUS_MCEERR_AR) {
 504         hardware_memory_error();
 505     }
 506
 507     /* Hope we are lucky for AO MCE */
 508 }
 509
 510 static int kvm_inject_mce_oldstyle(X86CPU *cpu)
 511 {
 512     CPUX86State *env = &cpu->env;
 513
 514     if (!kvm_has_vcpu_events() && env->exception_injected == EXCP12_MCHK) {
 515         unsigned int bank, bank_num = env->mcg_cap & 0xff;
 516         struct kvm_x86_mce mce;
 517
 518         env->exception_injected = -1;
 519
 520         /*
 521          * There must be at least one bank in use if an MCE is pending.
 522          * Find it and use its values for the event injection.
 523          */
 524         for (bank = 0; bank < bank_num; bank++) {
 525             if (env->mce_banks[bank * 4 + 1] & MCI_STATUS_VAL) {
 526                 break;
 527             }
 528         }
 529         assert(bank < bank_num);
 530
 531         mce.bank = bank;
 532         mce.status = env->mce_banks[bank * 4 + 1];
 533         mce.mcg_status = env->mcg_status;
 534         mce.addr = env->mce_banks[bank * 4 + 2];
 535         mce.misc = env->mce_banks[bank * 4 + 3];
 536
 537         return kvm_vcpu_ioctl(CPU(cpu), KVM_X86_SET_MCE, &mce);
 538     }
 539     return 0;
 540 }
 541
 542 static void cpu_update_state(void *opaque, int running, RunState state)
 543 {
 544     CPUX86State *env = opaque;
 545
 546     if (running) {
 547         env->tsc_valid = false;
 548     }
 549 }
 550
 551 unsigned long kvm_arch_vcpu_id(CPUState *cs)
 552 {
 553     X86CPU *cpu = X86_CPU(cs);
 554     return cpu->apic_id;
 555 }
 556
 557 #ifndef KVM_CPUID_SIGNATURE_NEXT
 558 #define KVM_CPUID_SIGNATURE_NEXT                0x40000100
 559 #endif
 560
 561 static bool hyperv_hypercall_available(X86CPU *cpu)
 562 {
 563     return cpu->hyperv_vapic ||
 564            (cpu->hyperv_spinlock_attempts != HYPERV_SPINLOCK_NEVER_RETRY);
 565 }
 566
 567 static bool hyperv_enabled(X86CPU *cpu)
 568 {
 569     CPUState *cs = CPU(cpu);
 570     return kvm_check_extension(cs->kvm_state, KVM_CAP_HYPERV) > 0 &&
 571            (hyperv_hypercall_available(cpu) ||
 572             cpu->hyperv_time  ||
 573             cpu->hyperv_relaxed_timing ||
 574             cpu->hyperv_crash ||
 575             cpu->hyperv_reset ||
 576             cpu->hyperv_vpindex ||
 577             cpu->hyperv_runtime ||
 578             cpu->hyperv_synic ||
 579             cpu->hyperv_stimer);
 580 }
 581
 582 static int kvm_arch_set_tsc_khz(CPUState *cs)
 583 {
 584     X86CPU *cpu = X86_CPU(cs);
 585     CPUX86State *env = &cpu->env;
 586     int r;
 587
 588     if (!env->tsc_khz) {
 589         return 0;
 590     }
 591
 592     r = kvm_check_extension(cs->kvm_state, KVM_CAP_TSC_CONTROL) ?
 593         kvm_vcpu_ioctl(cs, KVM_SET_TSC_KHZ, env->tsc_khz) :
 594         -ENOTSUP;
 595     if (r < 0) {
 596         /* When KVM_SET_TSC_KHZ fails, it's an error only if the current
 597          * TSC frequency doesn't match the one we want.
 598          */
 599         int cur_freq = kvm_check_extension(cs->kvm_state, KVM_CAP_GET_TSC_KHZ) ?
 600                        kvm_vcpu_ioctl(cs, KVM_GET_TSC_KHZ) :
 601                        -ENOTSUP;
 602         if (cur_freq <= 0 || cur_freq != env->tsc_khz) {
 603             warn_report("TSC frequency mismatch between "
 604                         "VM (%" PRId64 " kHz) and host (%d kHz), "
 605                         "and TSC scaling unavailable",
 606                         env->tsc_khz, cur_freq);
 607             return r;
 608         }
 609     }
 610
 611     return 0;
 612 }
 613
 614 static int hyperv_handle_properties(CPUState *cs)
 615 {
 616     X86CPU *cpu = X86_CPU(cs);
 617     CPUX86State *env = &cpu->env;
 618
 619     if (cpu->hyperv_time &&
 620             kvm_check_extension(cs->kvm_state, KVM_CAP_HYPERV_TIME) <= 0) {
 621         cpu->hyperv_time = false;
 622     }
 623
 624     if (cpu->hyperv_relaxed_timing) {
 625         env->features[FEAT_HYPERV_EAX] |= HV_X64_MSR_HYPERCALL_AVAILABLE;
 626     }
 627     if (cpu->hyperv_vapic) {
 628         env->features[FEAT_HYPERV_EAX] |= HV_X64_MSR_HYPERCALL_AVAILABLE;
 629         env->features[FEAT_HYPERV_EAX] |= HV_X64_MSR_APIC_ACCESS_AVAILABLE;
 630     }
 631     if (cpu->hyperv_time) {
 632         env->features[FEAT_HYPERV_EAX] |= HV_X64_MSR_HYPERCALL_AVAILABLE;
 633         env->features[FEAT_HYPERV_EAX] |= HV_X64_MSR_TIME_REF_COUNT_AVAILABLE;
 634         env->features[FEAT_HYPERV_EAX] |= 0x200;
 635     }
 636     if (cpu->hyperv_crash && has_msr_hv_crash) {
 637         env->features[FEAT_HYPERV_EDX] |= HV_X64_GUEST_CRASH_MSR_AVAILABLE;
 638     }
 639     env->features[FEAT_HYPERV_EDX] |= HV_X64_CPU_DYNAMIC_PARTITIONING_AVAILABLE;
 640     if (cpu->hyperv_reset && has_msr_hv_reset) {
 641         env->features[FEAT_HYPERV_EAX] |= HV_X64_MSR_RESET_AVAILABLE;
 642     }
 643     if (cpu->hyperv_vpindex && has_msr_hv_vpindex) {
 644         env->features[FEAT_HYPERV_EAX] |= HV_X64_MSR_VP_INDEX_AVAILABLE;
 645     }
 646     if (cpu->hyperv_runtime && has_msr_hv_runtime) {
 647         env->features[FEAT_HYPERV_EAX] |= HV_X64_MSR_VP_RUNTIME_AVAILABLE;
 648     }
 649     if (cpu->hyperv_synic) {
 650         int sint;
 651
 652         if (!has_msr_hv_synic ||
 653             kvm_vcpu_enable_cap(cs, KVM_CAP_HYPERV_SYNIC, 0)) {
 654             fprintf(stderr, "Hyper-V SynIC is not supported by kernel\n");
 655             return -ENOSYS;
 656         }
 657
 658         env->features[FEAT_HYPERV_EAX] |= HV_X64_MSR_SYNIC_AVAILABLE;
 659         env->msr_hv_synic_version = HV_SYNIC_VERSION_1;
 660         for (sint = 0; sint < ARRAY_SIZE(env->msr_hv_synic_sint); sint++) {
 661             env->msr_hv_synic_sint[sint] = HV_SYNIC_SINT_MASKED;
 662         }
 663     }
 664     if (cpu->hyperv_stimer) {
 665         if (!has_msr_hv_stimer) {
 666             fprintf(stderr, "Hyper-V timers aren't supported by kernel\n");
 667             return -ENOSYS;
 668         }
 669         env->features[FEAT_HYPERV_EAX] |= HV_X64_MSR_SYNTIMER_AVAILABLE;
 670     }
 671     return 0;
 672 }
 673
 674 static Error *invtsc_mig_blocker;
 675
 676 #define KVM_MAX_CPUID_ENTRIES  100
 677
 678 int kvm_arch_init_vcpu(CPUState *cs)
 679 {
 680     struct {
 681         struct kvm_cpuid2 cpuid;
 682         struct kvm_cpuid_entry2 entries[KVM_MAX_CPUID_ENTRIES];
 683     } QEMU_PACKED cpuid_data;
 684     X86CPU *cpu = X86_CPU(cs);
 685     CPUX86State *env = &cpu->env;
 686     uint32_t limit, i, j, cpuid_i;
 687     uint32_t unused;
 688     struct kvm_cpuid_entry2 *c;
 689     uint32_t signature[3];
 690     int kvm_base = KVM_CPUID_SIGNATURE;
 691     int r;
 692     Error *local_err = NULL;
 693
 694     memset(&cpuid_data, 0, sizeof(cpuid_data));
 695
 696     cpuid_i = 0;
 697
 698     /* Paravirtualization CPUIDs */
 699     if (hyperv_enabled(cpu)) {
 700         c = &cpuid_data.entries[cpuid_i++];
 701         c->function = HYPERV_CPUID_VENDOR_AND_MAX_FUNCTIONS;
 702         if (!cpu->hyperv_vendor_id) {
 703             memcpy(signature, "Microsoft Hv", 12);
 704         } else {
 705             size_t len = strlen(cpu->hyperv_vendor_id);
 706
 707             if (len > 12) {
 708                 error_report("hv-vendor-id truncated to 12 characters");
 709                 len = 12;
 710             }
 711             memset(signature, 0, 12);
 712             memcpy(signature, cpu->hyperv_vendor_id, len);
 713         }
 714         c->eax = HYPERV_CPUID_MIN;
 715         c->ebx = signature[0];
 716         c->ecx = signature[1];
 717         c->edx = signature[2];
 718
 719         c = &cpuid_data.entries[cpuid_i++];
 720         c->function = HYPERV_CPUID_INTERFACE;
 721         memcpy(signature, "Hv#1\0\0\0\0\0\0\0\0", 12);
 722         c->eax = signature[0];
 723         c->ebx = 0;
 724         c->ecx = 0;
 725         c->edx = 0;
 726
 727         c = &cpuid_data.entries[cpuid_i++];
 728         c->function = HYPERV_CPUID_VERSION;
 729         c->eax = 0x00001bbc;
 730         c->ebx = 0x00060001;
 731
 732         c = &cpuid_data.entries[cpuid_i++];
 733         c->function = HYPERV_CPUID_FEATURES;
 734         r = hyperv_handle_properties(cs);
 735         if (r) {
 736             return r;
 737         }
 738         c->eax = env->features[FEAT_HYPERV_EAX];
 739         c->ebx = env->features[FEAT_HYPERV_EBX];
 740         c->edx = env->features[FEAT_HYPERV_EDX];
 741
 742         c = &cpuid_data.entries[cpuid_i++];
 743         c->function = HYPERV_CPUID_ENLIGHTMENT_INFO;
 744         if (cpu->hyperv_relaxed_timing) {
 745             c->eax |= HV_X64_RELAXED_TIMING_RECOMMENDED;
 746         }
 747         if (cpu->hyperv_vapic) {
 748             c->eax |= HV_X64_APIC_ACCESS_RECOMMENDED;
 749         }
 750         c->ebx = cpu->hyperv_spinlock_attempts;
 751
 752         c = &cpuid_data.entries[cpuid_i++];
 753         c->function = HYPERV_CPUID_IMPLEMENT_LIMITS;
 754         c->eax = 0x40;
 755         c->ebx = 0x40;
 756
 757         kvm_base = KVM_CPUID_SIGNATURE_NEXT;
 758         has_msr_hv_hypercall = true;
 759     }
 760
 761     if (cpu->expose_kvm) {
 762         memcpy(signature, "KVMKVMKVM\0\0\0", 12);
 763         c = &cpuid_data.entries[cpuid_i++];
 764         c->function = KVM_CPUID_SIGNATURE | kvm_base;
 765         c->eax = KVM_CPUID_FEATURES | kvm_base;
 766         c->ebx = signature[0];
 767         c->ecx = signature[1];
 768         c->edx = signature[2];
 769
 770         c = &cpuid_data.entries[cpuid_i++];
 771         c->function = KVM_CPUID_FEATURES | kvm_base;
 772         c->eax = env->features[FEAT_KVM];
 773     }
 774
 775     cpu_x86_cpuid(env, 0, 0, &limit, &unused, &unused, &unused);
 776
 777     for (i = 0; i <= limit; i++) {
 778         if (cpuid_i == KVM_MAX_CPUID_ENTRIES) {
 779             fprintf(stderr, "unsupported level value: 0x%x\n", limit);
 780             abort();
 781         }
 782         c = &cpuid_data.entries[cpuid_i++];
 783         assert(cpuid_i < 100);
 784
 785         switch (i) {
 786         case 2: {
 787             /* Keep reading function 2 till all the input is received */
 788             int times;
 789
 790             c->function = i;
 791             c->flags = KVM_CPUID_FLAG_STATEFUL_FUNC |
 792                        KVM_CPUID_FLAG_STATE_READ_NEXT;
 793             cpu_x86_cpuid(env, i, 0, &c->eax, &c->ebx, &c->ecx, &c->edx);
 794             times = c->eax & 0xff;
 795
 796             for (j = 1; j < times; ++j) {
 797                 if (cpuid_i == KVM_MAX_CPUID_ENTRIES) {
 798                     fprintf(stderr, "cpuid_data is full, no space for "
 799                             "cpuid(eax:2):eax & 0xf = 0x%x\n", times);
 800                     abort();
 801                 }
 802                 c = &cpuid_data.entries[cpuid_i++];
 803                 c->function = i;
 804                 c->flags = KVM_CPUID_FLAG_STATEFUL_FUNC;
 805                 cpu_x86_cpuid(env, i, 0, &c->eax, &c->ebx, &c->ecx, &c->edx);
 806             }
 807             break;
 808         }
 809         case 4:
 810         case 0xb:
 811         case 0xd:
 812             for (j = 0; ; j++) {
 813                 if (i == 0xd && j == 64) {
 814                     break;
 815                 }
 816                 c->function = i;
 817                 c->flags = KVM_CPUID_FLAG_SIGNIFCANT_INDEX;
 818                 c->index = j;
 819                 cpu_x86_cpuid(env, i, j, &c->eax, &c->ebx, &c->ecx, &c->edx);
 820
 821                 if (i == 4 && c->eax == 0) {
 822                     break;
 823                 }
 824                 if (i == 0xb && !(c->ecx & 0xff00)) {
 825                     break;
 826                 }
 827                 if (i == 0xd && c->eax == 0) {
 828                     continue;
 829                 }
 830                 if (cpuid_i == KVM_MAX_CPUID_ENTRIES) {
 831                     fprintf(stderr, "cpuid_data is full, no space for "
 832                             "cpuid(eax:0x%x,ecx:0x%x)\n", i, j);
 833                     abort();
 834                 }
 835                 c = &cpuid_data.entries[cpuid_i++];
 836             }
 837             break;
 838         default:
 839             c->function = i;
 840             c->flags = 0;
 841             cpu_x86_cpuid(env, i, 0, &c->eax, &c->ebx, &c->ecx, &c->edx);
 842             break;
 843         }
 844     }
 845
 846     if (limit >= 0x0a) {
 847         uint32_t ver;
 848
 849         cpu_x86_cpuid(env, 0x0a, 0, &ver, &unused, &unused, &unused);
 850         if ((ver & 0xff) > 0) {
 851             has_msr_architectural_pmu = true;
 852             num_architectural_pmu_counters = (ver & 0xff00) >> 8;
 853
 854             /* Shouldn't be more than 32, since that's the number of bits
 855              * available in EBX to tell us _which_ counters are available.
 856              * Play it safe.
 857              */
 858             if (num_architectural_pmu_counters > MAX_GP_COUNTERS) {
 859                 num_architectural_pmu_counters = MAX_GP_COUNTERS;
 860             }
 861         }
 862     }
 863
 864     cpu_x86_cpuid(env, 0x80000000, 0, &limit, &unused, &unused, &unused);
 865
 866     for (i = 0x80000000; i <= limit; i++) {
 867         if (cpuid_i == KVM_MAX_CPUID_ENTRIES) {
 868             fprintf(stderr, "unsupported xlevel value: 0x%x\n", limit);
 869             abort();
 870         }
 871         c = &cpuid_data.entries[cpuid_i++];
 872         assert(cpuid_i < 100);
 873
 874         c->function = i;
 875         c->flags = 0;
 876         cpu_x86_cpuid(env, i, 0, &c->eax, &c->ebx, &c->ecx, &c->edx);
 877     }
 878
 879     /* Call Centaur's CPUID instructions they are supported. */
 880     if (env->cpuid_xlevel2 > 0) {
 881         cpu_x86_cpuid(env, 0xC0000000, 0, &limit, &unused, &unused, &unused);
 882
 883         for (i = 0xC0000000; i <= limit; i++) {
 884             if (cpuid_i == KVM_MAX_CPUID_ENTRIES) {
 885                 fprintf(stderr, "unsupported xlevel2 value: 0x%x\n", limit);
 886                 abort();
 887             }
 888             c = &cpuid_data.entries[cpuid_i++];
 889
 890             c->function = i;
 891             c->flags = 0;
 892             cpu_x86_cpuid(env, i, 0, &c->eax, &c->ebx, &c->ecx, &c->edx);
 893         }
 894     }
 895
 896     cpuid_data.cpuid.nent = cpuid_i;
 897
 898     if (((env->cpuid_version >> 8)&0xF) >= 6
 899         && (env->features[FEAT_1_EDX] & (CPUID_MCE | CPUID_MCA)) ==
 900            (CPUID_MCE | CPUID_MCA)
 901         && kvm_check_extension(cs->kvm_state, KVM_CAP_MCE) > 0) {
 902         uint64_t mcg_cap, unsupported_caps;
 903         int banks;
 904         int ret;
 905
 906         ret = kvm_get_mce_cap_supported(cs->kvm_state, &mcg_cap, &banks);
 907         if (ret < 0) {
 908             fprintf(stderr, "kvm_get_mce_cap_supported: %s", strerror(-ret));
 909             return ret;
 910         }
 911
 912         if (banks < (env->mcg_cap & MCG_CAP_BANKS_MASK)) {
 913             error_report("kvm: Unsupported MCE bank count (QEMU = %d, KVM = %d)",
 914                          (int)(env->mcg_cap & MCG_CAP_BANKS_MASK), banks);
 915             return -ENOTSUP;
 916         }
 917
 918         unsupported_caps = env->mcg_cap & ~(mcg_cap | MCG_CAP_BANKS_MASK);
 919         if (unsupported_caps) {
 920             if (unsupported_caps & MCG_LMCE_P) {
 921                 error_report("kvm: LMCE not supported");
 922                 return -ENOTSUP;
 923             }
 924             warn_report("Unsupported MCG_CAP bits: 0x%" PRIx64,
 925                         unsupported_caps);
 926         }
 927
 928         env->mcg_cap &= mcg_cap | MCG_CAP_BANKS_MASK;
 929         ret = kvm_vcpu_ioctl(cs, KVM_X86_SETUP_MCE, &env->mcg_cap);
 930         if (ret < 0) {
 931             fprintf(stderr, "KVM_X86_SETUP_MCE: %s", strerror(-ret));
 932             return ret;
 933         }
 934     }
 935
 936     qemu_add_vm_change_state_handler(cpu_update_state, env);
 937
 938     c = cpuid_find_entry(&cpuid_data.cpuid, 1, 0);
 939     if (c) {
 940         has_msr_feature_control = !!(c->ecx & CPUID_EXT_VMX) ||
 941                                   !!(c->ecx & CPUID_EXT_SMX);
 942     }
 943
 944     if (env->mcg_cap & MCG_LMCE_P) {
 945         has_msr_mcg_ext_ctl = has_msr_feature_control = true;
 946     }
 947
 948     if (!env->user_tsc_khz) {
 949         if ((env->features[FEAT_8000_0007_EDX] & CPUID_APM_INVTSC) &&
 950             invtsc_mig_blocker == NULL) {
 951             /* for migration */
 952             error_setg(&invtsc_mig_blocker,
 953                        "State blocked by non-migratable CPU device"
 954                        " (invtsc flag)");
 955             r = migrate_add_blocker(invtsc_mig_blocker, &local_err);
 956             if (local_err) {
 957                 error_report_err(local_err);
 958                 error_free(invtsc_mig_blocker);
 959                 goto fail;
 960             }
 961             /* for savevm */
 962             vmstate_x86_cpu.unmigratable = 1;
 963         }
 964     }
 965
 966     r = kvm_arch_set_tsc_khz(cs);
 967     if (r < 0) {
 968         goto fail;
 969     }
 970
 971     /* vcpu's TSC frequency is either specified by user, or following
 972      * the value used by KVM if the former is not present. In the
 973      * latter case, we query it from KVM and record in env->tsc_khz,
 974      * so that vcpu's TSC frequency can be migrated later via this field.
 975      */
 976     if (!env->tsc_khz) {
 977         r = kvm_check_extension(cs->kvm_state, KVM_CAP_GET_TSC_KHZ) ?
 978             kvm_vcpu_ioctl(cs, KVM_GET_TSC_KHZ) :
 979             -ENOTSUP;
 980         if (r > 0) {
 981             env->tsc_khz = r;
 982         }
 983     }
 984
 985     if (cpu->vmware_cpuid_freq
 986         /* Guests depend on 0x40000000 to detect this feature, so only expose
 987          * it if KVM exposes leaf 0x40000000. (Conflicts with Hyper-V) */
 988         && cpu->expose_kvm
 989         && kvm_base == KVM_CPUID_SIGNATURE
 990         /* TSC clock must be stable and known for this feature. */
 991         && ((env->features[FEAT_8000_0007_EDX] & CPUID_APM_INVTSC)
 992             || env->user_tsc_khz != 0)
 993         && env->tsc_khz != 0) {
 994
 995         c = &cpuid_data.entries[cpuid_i++];
 996         c->function = KVM_CPUID_SIGNATURE | 0x10;
 997         c->eax = env->tsc_khz;
 998         /* LAPIC resolution of 1ns (freq: 1GHz) is hardcoded in KVM's
 999          * APIC_BUS_CYCLE_NS */
1000         c->ebx = 1000000;
1001         c->ecx = c->edx = 0;
1002
1003         c = cpuid_find_entry(&cpuid_data.cpuid, kvm_base, 0);
1004         c->eax = MAX(c->eax, KVM_CPUID_SIGNATURE | 0x10);
1005     }
1006
1007     cpuid_data.cpuid.nent = cpuid_i;
1008
1009     cpuid_data.cpuid.padding = 0;
1010     r = kvm_vcpu_ioctl(cs, KVM_SET_CPUID2, &cpuid_data);
1011     if (r) {
1012         goto fail;
1013     }
1014
1015     if (has_xsave) {
1016         env->kvm_xsave_buf = qemu_memalign(4096, sizeof(struct kvm_xsave));
1017     }
1018     cpu->kvm_msr_buf = g_malloc0(MSR_BUF_SIZE);
1019
1020     if (!(env->features[FEAT_8000_0001_EDX] & CPUID_EXT2_RDTSCP)) {
1021         has_msr_tsc_aux = false;
1022     }
1023
1024     return 0;
1025
1026  fail:
1027     migrate_del_blocker(invtsc_mig_blocker);
1028     return r;
1029 }
1030
1031 void kvm_arch_reset_vcpu(X86CPU *cpu)
1032 {
1033     CPUX86State *env = &cpu->env;
1034
1035     env->exception_injected = -1;
1036     env->interrupt_injected = -1;
1037     env->xcr0 = 1;
1038     if (kvm_irqchip_in_kernel()) {
1039         env->mp_state = cpu_is_bsp(cpu) ? KVM_MP_STATE_RUNNABLE :
1040                                           KVM_MP_STATE_UNINITIALIZED;
1041     } else {
1042         env->mp_state = KVM_MP_STATE_RUNNABLE;
1043     }
1044 }
1045
1046 void kvm_arch_do_init_vcpu(X86CPU *cpu)
1047 {
1048     CPUX86State *env = &cpu->env;
1049
1050     /* APs get directly into wait-for-SIPI state.  */
1051     if (env->mp_state == KVM_MP_STATE_UNINITIALIZED) {
1052         env->mp_state = KVM_MP_STATE_INIT_RECEIVED;
1053     }
1054 }
1055
1056 static int kvm_get_supported_msrs(KVMState *s)
1057 {
1058     static int kvm_supported_msrs;
1059     int ret = 0;
1060
1061     /* first time */
1062     if (kvm_supported_msrs == 0) {
1063         struct kvm_msr_list msr_list, *kvm_msr_list;
1064
1065         kvm_supported_msrs = -1;
1066
1067         /* Obtain MSR list from KVM.  These are the MSRs that we must
1068          * save/restore */
1069         msr_list.nmsrs = 0;
1070         ret = kvm_ioctl(s, KVM_GET_MSR_INDEX_LIST, &msr_list);
1071         if (ret < 0 && ret != -E2BIG) {
1072             return ret;
1073         }
1074         /* Old kernel modules had a bug and could write beyond the provided
1075            memory. Allocate at least a safe amount of 1K. */
1076         kvm_msr_list = g_malloc0(MAX(1024, sizeof(msr_list) +
1077                                               msr_list.nmsrs *
1078                                               sizeof(msr_list.indices[0])));
1079
1080         kvm_msr_list->nmsrs = msr_list.nmsrs;
1081         ret = kvm_ioctl(s, KVM_GET_MSR_INDEX_LIST, kvm_msr_list);
1082         if (ret >= 0) {
1083             int i;
1084
1085             for (i = 0; i < kvm_msr_list->nmsrs; i++) {
1086                 if (kvm_msr_list->indices[i] == MSR_STAR) {
1087                     has_msr_star = true;
1088                     continue;
1089                 }
1090                 if (kvm_msr_list->indices[i] == MSR_VM_HSAVE_PA) {
1091                     has_msr_hsave_pa = true;
1092                     continue;
1093                 }
1094                 if (kvm_msr_list->indices[i] == MSR_TSC_AUX) {
1095                     has_msr_tsc_aux = true;
1096                     continue;
1097                 }
1098                 if (kvm_msr_list->indices[i] == MSR_TSC_ADJUST) {
1099                     has_msr_tsc_adjust = true;
1100                     continue;
1101                 }
1102                 if (kvm_msr_list->indices[i] == MSR_IA32_TSCDEADLINE) {
1103                     has_msr_tsc_deadline = true;
1104                     continue;
1105                 }
1106                 if (kvm_msr_list->indices[i] == MSR_IA32_SMBASE) {
1107                     has_msr_smbase = true;
1108                     continue;
1109                 }
1110                 if (kvm_msr_list->indices[i] == MSR_IA32_MISC_ENABLE) {
1111                     has_msr_misc_enable = true;
1112                     continue;
1113                 }
1114                 if (kvm_msr_list->indices[i] == MSR_IA32_BNDCFGS) {
1115                     has_msr_bndcfgs = true;
1116                     continue;
1117                 }
1118                 if (kvm_msr_list->indices[i] == MSR_IA32_XSS) {
1119                     has_msr_xss = true;
1120                     continue;
1121                 }
1122                 if (kvm_msr_list->indices[i] == HV_X64_MSR_CRASH_CTL) {
1123                     has_msr_hv_crash = true;
1124                     continue;
1125                 }
1126                 if (kvm_msr_list->indices[i] == HV_X64_MSR_RESET) {
1127                     has_msr_hv_reset = true;
1128                     continue;
1129                 }
1130                 if (kvm_msr_list->indices[i] == HV_X64_MSR_VP_INDEX) {
1131                     has_msr_hv_vpindex = true;
1132                     continue;
1133                 }
1134                 if (kvm_msr_list->indices[i] == HV_X64_MSR_VP_RUNTIME) {
1135                     has_msr_hv_runtime = true;
1136                     continue;
1137                 }
1138                 if (kvm_msr_list->indices[i] == HV_X64_MSR_SCONTROL) {
1139                     has_msr_hv_synic = true;
1140                     continue;
1141                 }
1142                 if (kvm_msr_list->indices[i] == HV_X64_MSR_STIMER0_CONFIG) {
1143                     has_msr_hv_stimer = true;
1144                     continue;
1145                 }
1146             }
1147         }
1148
1149         g_free(kvm_msr_list);
1150     }
1151
1152     return ret;
1153 }
1154
1155 static Notifier smram_machine_done;
1156 static KVMMemoryListener smram_listener;
1157 static AddressSpace smram_address_space;
1158 static MemoryRegion smram_as_root;
1159 static MemoryRegion smram_as_mem;
1160
1161 static void register_smram_listener(Notifier *n, void *unused)
1162 {
1163     MemoryRegion *smram =
1164         (MemoryRegion *) object_resolve_path("/machine/smram", NULL);
1165
1166     /* Outer container... */
1167     memory_region_init(&smram_as_root, OBJECT(kvm_state), "mem-container-smram", ~0ull);
1168     memory_region_set_enabled(&smram_as_root, true);
1169
1170     /* ... with two regions inside: normal system memory with low
1171      * priority, and...
1172      */
1173     memory_region_init_alias(&smram_as_mem, OBJECT(kvm_state), "mem-smram",
1174                              get_system_memory(), 0, ~0ull);
1175     memory_region_add_subregion_overlap(&smram_as_root, 0, &smram_as_mem, 0);
1176     memory_region_set_enabled(&smram_as_mem, true);
1177
1178     if (smram) {
1179         /* ... SMRAM with higher priority */
1180         memory_region_add_subregion_overlap(&smram_as_root, 0, smram, 10);
1181         memory_region_set_enabled(smram, true);
1182     }
1183
1184     address_space_init(&smram_address_space, &smram_as_root, "KVM-SMRAM");
1185     kvm_memory_listener_register(kvm_state, &smram_listener,
1186                                  &smram_address_space, 1);
1187 }
1188
1189 int kvm_arch_init(MachineState *ms, KVMState *s)
1190 {
1191     uint64_t identity_base = 0xfffbc000;
1192     uint64_t shadow_mem;
1193     int ret;
1194     struct utsname utsname;
1195
1196 #ifdef KVM_CAP_XSAVE
1197     has_xsave = kvm_check_extension(s, KVM_CAP_XSAVE);
1198 #endif
1199
1200 #ifdef KVM_CAP_XCRS
1201     has_xcrs = kvm_check_extension(s, KVM_CAP_XCRS);
1202 #endif
1203
1204 #ifdef KVM_CAP_PIT_STATE2
1205     has_pit_state2 = kvm_check_extension(s, KVM_CAP_PIT_STATE2);
1206 #endif
1207
1208     ret = kvm_get_supported_msrs(s);
1209     if (ret < 0) {
1210         return ret;
1211     }
1212
1213     uname(&utsname);
1214     lm_capable_kernel = strcmp(utsname.machine, "x86_64") == 0;
1215
1216     /*
1217      * On older Intel CPUs, KVM uses vm86 mode to emulate 16-bit code directly.
1218      * In order to use vm86 mode, an EPT identity map and a TSS  are needed.
1219      * Since these must be part of guest physical memory, we need to allocate
1220      * them, both by setting their start addresses in the kernel and by
1221      * creating a corresponding e820 entry. We need 4 pages before the BIOS.
1222      *
1223      * Older KVM versions may not support setting the identity map base. In
1224      * that case we need to stick with the default, i.e. a 256K maximum BIOS
1225      * size.
1226      */
1227     if (kvm_check_extension(s, KVM_CAP_SET_IDENTITY_MAP_ADDR)) {
1228         /* Allows up to 16M BIOSes. */
1229         identity_base = 0xfeffc000;
1230
1231         ret = kvm_vm_ioctl(s, KVM_SET_IDENTITY_MAP_ADDR, &identity_base);
1232         if (ret < 0) {
1233             return ret;
1234         }
1235     }
1236
1237     /* Set TSS base one page after EPT identity map. */
1238     ret = kvm_vm_ioctl(s, KVM_SET_TSS_ADDR, identity_base + 0x1000);
1239     if (ret < 0) {
1240         return ret;
1241     }
1242
1243     /* Tell fw_cfg to notify the BIOS to reserve the range. */
1244     ret = e820_add_entry(identity_base, 0x4000, E820_RESERVED);
1245     if (ret < 0) {
1246         fprintf(stderr, "e820_add_entry() table is full\n");
1247         return ret;
1248     }
1249     qemu_register_reset(kvm_unpoison_all, NULL);
1250
1251     shadow_mem = machine_kvm_shadow_mem(ms);
1252     if (shadow_mem != -1) {
1253         shadow_mem /= 4096;
1254         ret = kvm_vm_ioctl(s, KVM_SET_NR_MMU_PAGES, shadow_mem);
1255         if (ret < 0) {
1256             return ret;
1257         }
1258     }
1259
1260     if (kvm_check_extension(s, KVM_CAP_X86_SMM) &&
1261         object_dynamic_cast(OBJECT(ms), TYPE_PC_MACHINE) &&
1262         pc_machine_is_smm_enabled(PC_MACHINE(ms))) {
1263         smram_machine_done.notify = register_smram_listener;
1264         qemu_add_machine_init_done_notifier(&smram_machine_done);
1265     }
1266     return 0;
1267 }
1268
1269 static void set_v8086_seg(struct kvm_segment *lhs, const SegmentCache *rhs)
1270 {
1271     lhs->selector = rhs->selector;
1272     lhs->base = rhs->base;
1273     lhs->limit = rhs->limit;
1274     lhs->type = 3;
1275     lhs->present = 1;
1276     lhs->dpl = 3;
1277     lhs->db = 0;
1278     lhs->s = 1;
1279     lhs->l = 0;
1280     lhs->g = 0;
1281     lhs->avl = 0;
1282     lhs->unusable = 0;
1283 }
1284
1285 static void set_seg(struct kvm_segment *lhs, const SegmentCache *rhs)
1286 {
1287     unsigned flags = rhs->flags;
1288     lhs->selector = rhs->selector;
1289     lhs->base = rhs->base;
1290     lhs->limit = rhs->limit;
1291     lhs->type = (flags >> DESC_TYPE_SHIFT) & 15;
1292     lhs->present = (flags & DESC_P_MASK) != 0;
1293     lhs->dpl = (flags >> DESC_DPL_SHIFT) & 3;
1294     lhs->db = (flags >> DESC_B_SHIFT) & 1;
1295     lhs->s = (flags & DESC_S_MASK) != 0;
1296     lhs->l = (flags >> DESC_L_SHIFT) & 1;
1297     lhs->g = (flags & DESC_G_MASK) != 0;
1298     lhs->avl = (flags & DESC_AVL_MASK) != 0;
1299     lhs->unusable = !lhs->present;
1300     lhs->padding = 0;
1301 }
1302
1303 static void get_seg(SegmentCache *lhs, const struct kvm_segment *rhs)
1304 {
1305     lhs->selector = rhs->selector;
1306     lhs->base = rhs->base;
1307     lhs->limit = rhs->limit;
1308     lhs->flags = (rhs->type << DESC_TYPE_SHIFT) |
1309                  ((rhs->present && !rhs->unusable) * DESC_P_MASK) |
1310                  (rhs->dpl << DESC_DPL_SHIFT) |
1311                  (rhs->db << DESC_B_SHIFT) |
1312                  (rhs->s * DESC_S_MASK) |
1313                  (rhs->l << DESC_L_SHIFT) |
1314                  (rhs->g * DESC_G_MASK) |
1315                  (rhs->avl * DESC_AVL_MASK);
1316 }
1317
1318 static void kvm_getput_reg(__u64 *kvm_reg, target_ulong *qemu_reg, int set)
1319 {
1320     if (set) {
1321         *kvm_reg = *qemu_reg;
1322     } else {
1323         *qemu_reg = *kvm_reg;
1324     }
1325 }
1326
1327 static int kvm_getput_regs(X86CPU *cpu, int set)
1328 {
1329     CPUX86State *env = &cpu->env;
1330     struct kvm_regs regs;
1331     int ret = 0;
1332
1333     if (!set) {
1334         ret = kvm_vcpu_ioctl(CPU(cpu), KVM_GET_REGS, &regs);
1335         if (ret < 0) {
1336             return ret;
1337         }
1338     }
1339
1340     kvm_getput_reg(&regs.rax, &env->regs[R_EAX], set);
1341     kvm_getput_reg(&regs.rbx, &env->regs[R_EBX], set);
1342     kvm_getput_reg(&regs.rcx, &env->regs[R_ECX], set);
1343     kvm_getput_reg(&regs.rdx, &env->regs[R_EDX], set);
1344     kvm_getput_reg(&regs.rsi, &env->regs[R_ESI], set);
1345     kvm_getput_reg(&regs.rdi, &env->regs[R_EDI], set);
1346     kvm_getput_reg(&regs.rsp, &env->regs[R_ESP], set);
1347     kvm_getput_reg(&regs.rbp, &env->regs[R_EBP], set);
1348 #ifdef TARGET_X86_64
1349     kvm_getput_reg(&regs.r8, &env->regs[8], set);
1350     kvm_getput_reg(&regs.r9, &env->regs[9], set);
1351     kvm_getput_reg(&regs.r10, &env->regs[10], set);
1352     kvm_getput_reg(&regs.r11, &env->regs[11], set);
1353     kvm_getput_reg(&regs.r12, &env->regs[12], set);
1354     kvm_getput_reg(&regs.r13, &env->regs[13], set);
1355     kvm_getput_reg(&regs.r14, &env->regs[14], set);
1356     kvm_getput_reg(&regs.r15, &env->regs[15], set);
1357 #endif
1358
1359     kvm_getput_reg(&regs.rflags, &env->eflags, set);
1360     kvm_getput_reg(&regs.rip, &env->eip, set);
1361
1362     if (set) {
1363         ret = kvm_vcpu_ioctl(CPU(cpu), KVM_SET_REGS, &regs);
1364     }
1365
1366     return ret;
1367 }
1368
1369 static int kvm_put_fpu(X86CPU *cpu)
1370 {
1371     CPUX86State *env = &cpu->env;
1372     struct kvm_fpu fpu;
1373     int i;
1374
1375     memset(&fpu, 0, sizeof fpu);
1376     fpu.fsw = env->fpus & ~(7 << 11);
1377     fpu.fsw |= (env->fpstt & 7) << 11;
1378     fpu.fcw = env->fpuc;
1379     fpu.last_opcode = env->fpop;
1380     fpu.last_ip = env->fpip;
1381     fpu.last_dp = env->fpdp;
1382     for (i = 0; i < 8; ++i) {
1383         fpu.ftwx |= (!env->fptags[i]) << i;
1384     }
1385     memcpy(fpu.fpr, env->fpregs, sizeof env->fpregs);
1386     for (i = 0; i < CPU_NB_REGS; i++) {
1387         stq_p(&fpu.xmm[i][0], env->xmm_regs[i].ZMM_Q(0));
1388         stq_p(&fpu.xmm[i][8], env->xmm_regs[i].ZMM_Q(1));
1389     }
1390     fpu.mxcsr = env->mxcsr;
1391
1392     return kvm_vcpu_ioctl(CPU(cpu), KVM_SET_FPU, &fpu);
1393 }
1394
1395 #define XSAVE_FCW_FSW     0
1396 #define XSAVE_FTW_FOP     1
1397 #define XSAVE_CWD_RIP     2
1398 #define XSAVE_CWD_RDP     4
1399 #define XSAVE_MXCSR       6
1400 #define XSAVE_ST_SPACE    8
1401 #define XSAVE_XMM_SPACE   40
1402 #define XSAVE_XSTATE_BV   128
1403 #define XSAVE_YMMH_SPACE  144
1404 #define XSAVE_BNDREGS     240
1405 #define XSAVE_BNDCSR      256
1406 #define XSAVE_OPMASK      272
1407 #define XSAVE_ZMM_Hi256   288
1408 #define XSAVE_Hi16_ZMM    416
1409 #define XSAVE_PKRU        672
1410
1411 #define XSAVE_BYTE_OFFSET(word_offset) \
1412     ((word_offset) * sizeof(((struct kvm_xsave *)0)->region[0]))
1413
1414 #define ASSERT_OFFSET(word_offset, field) \
1415     QEMU_BUILD_BUG_ON(XSAVE_BYTE_OFFSET(word_offset) != \
1416                       offsetof(X86XSaveArea, field))
1417
1418 ASSERT_OFFSET(XSAVE_FCW_FSW, legacy.fcw);
1419 ASSERT_OFFSET(XSAVE_FTW_FOP, legacy.ftw);
1420 ASSERT_OFFSET(XSAVE_CWD_RIP, legacy.fpip);
1421 ASSERT_OFFSET(XSAVE_CWD_RDP, legacy.fpdp);
1422 ASSERT_OFFSET(XSAVE_MXCSR, legacy.mxcsr);
1423 ASSERT_OFFSET(XSAVE_ST_SPACE, legacy.fpregs);
1424 ASSERT_OFFSET(XSAVE_XMM_SPACE, legacy.xmm_regs);
1425 ASSERT_OFFSET(XSAVE_XSTATE_BV, header.xstate_bv);
1426 ASSERT_OFFSET(XSAVE_YMMH_SPACE, avx_state);
1427 ASSERT_OFFSET(XSAVE_BNDREGS, bndreg_state);
1428 ASSERT_OFFSET(XSAVE_BNDCSR, bndcsr_state);
1429 ASSERT_OFFSET(XSAVE_OPMASK, opmask_state);
1430 ASSERT_OFFSET(XSAVE_ZMM_Hi256, zmm_hi256_state);
1431 ASSERT_OFFSET(XSAVE_Hi16_ZMM, hi16_zmm_state);
1432 ASSERT_OFFSET(XSAVE_PKRU, pkru_state);
1433
1434 static int kvm_put_xsave(X86CPU *cpu)
1435 {
1436     CPUX86State *env = &cpu->env;
1437     X86XSaveArea *xsave = env->kvm_xsave_buf;
1438
1439     if (!has_xsave) {
1440         return kvm_put_fpu(cpu);
1441     }
1442     x86_cpu_xsave_all_areas(cpu, xsave);
1443
1444     return kvm_vcpu_ioctl(CPU(cpu), KVM_SET_XSAVE, xsave);
1445 }
1446
1447 static int kvm_put_xcrs(X86CPU *cpu)
1448 {
1449     CPUX86State *env = &cpu->env;
1450     struct kvm_xcrs xcrs = {};
1451
1452     if (!has_xcrs) {
1453         return 0;
1454     }
1455
1456     xcrs.nr_xcrs = 1;
1457     xcrs.flags = 0;
1458     xcrs.xcrs[0].xcr = 0;
1459     xcrs.xcrs[0].value = env->xcr0;
1460     return kvm_vcpu_ioctl(CPU(cpu), KVM_SET_XCRS, &xcrs);
1461 }
1462
1463 static int kvm_put_sregs(X86CPU *cpu)
1464 {
1465     CPUX86State *env = &cpu->env;
1466     struct kvm_sregs sregs;
1467
1468     memset(sregs.interrupt_bitmap, 0, sizeof(sregs.interrupt_bitmap));
1469     if (env->interrupt_injected >= 0) {
1470         sregs.interrupt_bitmap[env->interrupt_injected / 64] |=
1471                 (uint64_t)1 << (env->interrupt_injected % 64);
1472     }
1473
1474     if ((env->eflags & VM_MASK)) {
1475         set_v8086_seg(&sregs.cs, &env->segs[R_CS]);
1476         set_v8086_seg(&sregs.ds, &env->segs[R_DS]);
1477         set_v8086_seg(&sregs.es, &env->segs[R_ES]);
1478         set_v8086_seg(&sregs.fs, &env->segs[R_FS]);
1479         set_v8086_seg(&sregs.gs, &env->segs[R_GS]);
1480         set_v8086_seg(&sregs.ss, &env->segs[R_SS]);
1481     } else {
1482         set_seg(&sregs.cs, &env->segs[R_CS]);
1483         set_seg(&sregs.ds, &env->segs[R_DS]);
1484         set_seg(&sregs.es, &env->segs[R_ES]);
1485         set_seg(&sregs.fs, &env->segs[R_FS]);
1486         set_seg(&sregs.gs, &env->segs[R_GS]);
1487         set_seg(&sregs.ss, &env->segs[R_SS]);
1488     }
1489
1490     set_seg(&sregs.tr, &env->tr);
1491     set_seg(&sregs.ldt, &env->ldt);
1492
1493     sregs.idt.limit = env->idt.limit;
1494     sregs.idt.base = env->idt.base;
1495     memset(sregs.idt.padding, 0, sizeof sregs.idt.padding);
1496     sregs.gdt.limit = env->gdt.limit;
1497     sregs.gdt.base = env->gdt.base;
1498     memset(sregs.gdt.padding, 0, sizeof sregs.gdt.padding);
1499
1500     sregs.cr0 = env->cr[0];
1501     sregs.cr2 = env->cr[2];
1502     sregs.cr3 = env->cr[3];
1503     sregs.cr4 = env->cr[4];
1504
1505     sregs.cr8 = cpu_get_apic_tpr(cpu->apic_state);
1506     sregs.apic_base = cpu_get_apic_base(cpu->apic_state);
1507
1508     sregs.efer = env->efer;
1509
1510     return kvm_vcpu_ioctl(CPU(cpu), KVM_SET_SREGS, &sregs);
1511 }
1512
1513 static void kvm_msr_buf_reset(X86CPU *cpu)
1514 {
1515     memset(cpu->kvm_msr_buf, 0, MSR_BUF_SIZE);
1516 }
1517
1518 static void kvm_msr_entry_add(X86CPU *cpu, uint32_t index, uint64_t value)
1519 {
1520     struct kvm_msrs *msrs = cpu->kvm_msr_buf;
1521     void *limit = ((void *)msrs) + MSR_BUF_SIZE;
1522     struct kvm_msr_entry *entry = &msrs->entries[msrs->nmsrs];
1523
1524     assert((void *)(entry + 1) <= limit);
1525
1526     entry->index = index;
1527     entry->reserved = 0;
1528     entry->data = value;
1529     msrs->nmsrs++;
1530 }
1531
1532 static int kvm_put_one_msr(X86CPU *cpu, int index, uint64_t value)
1533 {
1534     kvm_msr_buf_reset(cpu);
1535     kvm_msr_entry_add(cpu, index, value);
1536
1537     return kvm_vcpu_ioctl(CPU(cpu), KVM_SET_MSRS, cpu->kvm_msr_buf);
1538 }
1539
1540 void kvm_put_apicbase(X86CPU *cpu, uint64_t value)
1541 {
1542     int ret;
1543
1544     ret = kvm_put_one_msr(cpu, MSR_IA32_APICBASE, value);
1545     assert(ret == 1);
1546 }
1547
1548 static int kvm_put_tscdeadline_msr(X86CPU *cpu)
1549 {
1550     CPUX86State *env = &cpu->env;
1551     int ret;
1552
1553     if (!has_msr_tsc_deadline) {
1554         return 0;
1555     }
1556
1557     ret = kvm_put_one_msr(cpu, MSR_IA32_TSCDEADLINE, env->tsc_deadline);
1558     if (ret < 0) {
1559         return ret;
1560     }
1561
1562     assert(ret == 1);
1563     return 0;
1564 }
1565
1566 /*
1567  * Provide a separate write service for the feature control MSR in order to
1568  * kick the VCPU out of VMXON or even guest mode on reset. This has to be done
1569  * before writing any other state because forcibly leaving nested mode
1570  * invalidates the VCPU state.
1571  */
1572 static int kvm_put_msr_feature_control(X86CPU *cpu)
1573 {
1574     int ret;
1575
1576     if (!has_msr_feature_control) {
1577         return 0;
1578     }
1579
1580     ret = kvm_put_one_msr(cpu, MSR_IA32_FEATURE_CONTROL,
1581                           cpu->env.msr_ia32_feature_control);
1582     if (ret < 0) {
1583         return ret;
1584     }
1585
1586     assert(ret == 1);
1587     return 0;
1588 }
1589
1590 static int kvm_put_msrs(X86CPU *cpu, int level)
1591 {
1592     CPUX86State *env = &cpu->env;
1593     int i;
1594     int ret;
1595
1596     kvm_msr_buf_reset(cpu);
1597
1598     kvm_msr_entry_add(cpu, MSR_IA32_SYSENTER_CS, env->sysenter_cs);
1599     kvm_msr_entry_add(cpu, MSR_IA32_SYSENTER_ESP, env->sysenter_esp);
1600     kvm_msr_entry_add(cpu, MSR_IA32_SYSENTER_EIP, env->sysenter_eip);
1601     kvm_msr_entry_add(cpu, MSR_PAT, env->pat);
1602     if (has_msr_star) {
1603         kvm_msr_entry_add(cpu, MSR_STAR, env->star);
1604     }
1605     if (has_msr_hsave_pa) {
1606         kvm_msr_entry_add(cpu, MSR_VM_HSAVE_PA, env->vm_hsave);
1607     }
1608     if (has_msr_tsc_aux) {
1609         kvm_msr_entry_add(cpu, MSR_TSC_AUX, env->tsc_aux);
1610     }
1611     if (has_msr_tsc_adjust) {
1612         kvm_msr_entry_add(cpu, MSR_TSC_ADJUST, env->tsc_adjust);
1613     }
1614     if (has_msr_misc_enable) {
1615         kvm_msr_entry_add(cpu, MSR_IA32_MISC_ENABLE,
1616                           env->msr_ia32_misc_enable);
1617     }
1618     if (has_msr_smbase) {
1619         kvm_msr_entry_add(cpu, MSR_IA32_SMBASE, env->smbase);
1620     }
1621     if (has_msr_bndcfgs) {
1622         kvm_msr_entry_add(cpu, MSR_IA32_BNDCFGS, env->msr_bndcfgs);
1623     }
1624     if (has_msr_xss) {
1625         kvm_msr_entry_add(cpu, MSR_IA32_XSS, env->xss);
1626     }
1627 #ifdef TARGET_X86_64
1628     if (lm_capable_kernel) {
1629         kvm_msr_entry_add(cpu, MSR_CSTAR, env->cstar);
1630         kvm_msr_entry_add(cpu, MSR_KERNELGSBASE, env->kernelgsbase);
1631         kvm_msr_entry_add(cpu, MSR_FMASK, env->fmask);
1632         kvm_msr_entry_add(cpu, MSR_LSTAR, env->lstar);
1633     }
1634 #endif
1635     /*
1636      * The following MSRs have side effects on the guest or are too heavy
1637      * for normal writeback. Limit them to reset or full state updates.
1638      */
1639     if (level >= KVM_PUT_RESET_STATE) {
1640         kvm_msr_entry_add(cpu, MSR_IA32_TSC, env->tsc);
1641         kvm_msr_entry_add(cpu, MSR_KVM_SYSTEM_TIME, env->system_time_msr);
1642         kvm_msr_entry_add(cpu, MSR_KVM_WALL_CLOCK, env->wall_clock_msr);
1643         if (env->features[FEAT_KVM] & (1 << KVM_FEATURE_ASYNC_PF)) {
1644             kvm_msr_entry_add(cpu, MSR_KVM_ASYNC_PF_EN, env->async_pf_en_msr);
1645         }
1646         if (env->features[FEAT_KVM] & (1 << KVM_FEATURE_PV_EOI)) {
1647             kvm_msr_entry_add(cpu, MSR_KVM_PV_EOI_EN, env->pv_eoi_en_msr);
1648         }
1649         if (env->features[FEAT_KVM] & (1 << KVM_FEATURE_STEAL_TIME)) {
1650             kvm_msr_entry_add(cpu, MSR_KVM_STEAL_TIME, env->steal_time_msr);
1651         }
1652         if (has_msr_architectural_pmu) {
1653             /* Stop the counter.  */
1654             kvm_msr_entry_add(cpu, MSR_CORE_PERF_FIXED_CTR_CTRL, 0);
1655             kvm_msr_entry_add(cpu, MSR_CORE_PERF_GLOBAL_CTRL, 0);
1656
1657             /* Set the counter values.  */
1658             for (i = 0; i < MAX_FIXED_COUNTERS; i++) {
1659                 kvm_msr_entry_add(cpu, MSR_CORE_PERF_FIXED_CTR0 + i,
1660                                   env->msr_fixed_counters[i]);
1661             }
1662             for (i = 0; i < num_architectural_pmu_counters; i++) {
1663                 kvm_msr_entry_add(cpu, MSR_P6_PERFCTR0 + i,
1664                                   env->msr_gp_counters[i]);
1665                 kvm_msr_entry_add(cpu, MSR_P6_EVNTSEL0 + i,
1666                                   env->msr_gp_evtsel[i]);
1667             }
1668             kvm_msr_entry_add(cpu, MSR_CORE_PERF_GLOBAL_STATUS,
1669                               env->msr_global_status);
1670             kvm_msr_entry_add(cpu, MSR_CORE_PERF_GLOBAL_OVF_CTRL,
1671                               env->msr_global_ovf_ctrl);
1672
1673             /* Now start the PMU.  */
1674             kvm_msr_entry_add(cpu, MSR_CORE_PERF_FIXED_CTR_CTRL,
1675                               env->msr_fixed_ctr_ctrl);
1676             kvm_msr_entry_add(cpu, MSR_CORE_PERF_GLOBAL_CTRL,
1677                               env->msr_global_ctrl);
1678         }
1679         if (has_msr_hv_hypercall) {
1680             kvm_msr_entry_add(cpu, HV_X64_MSR_GUEST_OS_ID,
1681                               env->msr_hv_guest_os_id);
1682             kvm_msr_entry_add(cpu, HV_X64_MSR_HYPERCALL,
1683                               env->msr_hv_hypercall);
1684         }
1685         if (cpu->hyperv_vapic) {
1686             kvm_msr_entry_add(cpu, HV_X64_MSR_APIC_ASSIST_PAGE,
1687                               env->msr_hv_vapic);
1688         }
1689         if (cpu->hyperv_time) {
1690             kvm_msr_entry_add(cpu, HV_X64_MSR_REFERENCE_TSC, env->msr_hv_tsc);
1691         }
1692         if (has_msr_hv_crash) {
1693             int j;
1694
1695             for (j = 0; j < HV_X64_MSR_CRASH_PARAMS; j++)
1696                 kvm_msr_entry_add(cpu, HV_X64_MSR_CRASH_P0 + j,
1697                                   env->msr_hv_crash_params[j]);
1698
1699             kvm_msr_entry_add(cpu, HV_X64_MSR_CRASH_CTL,
1700                               HV_X64_MSR_CRASH_CTL_NOTIFY);
1701         }
1702         if (has_msr_hv_runtime) {
1703             kvm_msr_entry_add(cpu, HV_X64_MSR_VP_RUNTIME, env->msr_hv_runtime);
1704         }
1705         if (cpu->hyperv_synic) {
1706             int j;
1707
1708             kvm_msr_entry_add(cpu, HV_X64_MSR_SCONTROL,
1709                               env->msr_hv_synic_control);
1710             kvm_msr_entry_add(cpu, HV_X64_MSR_SVERSION,
1711                               env->msr_hv_synic_version);
1712             kvm_msr_entry_add(cpu, HV_X64_MSR_SIEFP,
1713                               env->msr_hv_synic_evt_page);
1714             kvm_msr_entry_add(cpu, HV_X64_MSR_SIMP,
1715                               env->msr_hv_synic_msg_page);
1716
1717             for (j = 0; j < ARRAY_SIZE(env->msr_hv_synic_sint); j++) {
1718                 kvm_msr_entry_add(cpu, HV_X64_MSR_SINT0 + j,
1719                                   env->msr_hv_synic_sint[j]);
1720             }
1721         }
1722         if (has_msr_hv_stimer) {
1723             int j;
1724
1725             for (j = 0; j < ARRAY_SIZE(env->msr_hv_stimer_config); j++) {
1726                 kvm_msr_entry_add(cpu, HV_X64_MSR_STIMER0_CONFIG + j * 2,
1727                                 env->msr_hv_stimer_config[j]);
1728             }
1729
1730             for (j = 0; j < ARRAY_SIZE(env->msr_hv_stimer_count); j++) {
1731                 kvm_msr_entry_add(cpu, HV_X64_MSR_STIMER0_COUNT + j * 2,
1732                                 env->msr_hv_stimer_count[j]);
1733             }
1734         }
1735         if (env->features[FEAT_1_EDX] & CPUID_MTRR) {
1736             uint64_t phys_mask = MAKE_64BIT_MASK(0, cpu->phys_bits);
1737
1738             kvm_msr_entry_add(cpu, MSR_MTRRdefType, env->mtrr_deftype);
1739             kvm_msr_entry_add(cpu, MSR_MTRRfix64K_00000, env->mtrr_fixed[0]);
1740             kvm_msr_entry_add(cpu, MSR_MTRRfix16K_80000, env->mtrr_fixed[1]);
1741             kvm_msr_entry_add(cpu, MSR_MTRRfix16K_A0000, env->mtrr_fixed[2]);
1742             kvm_msr_entry_add(cpu, MSR_MTRRfix4K_C0000, env->mtrr_fixed[3]);
1743             kvm_msr_entry_add(cpu, MSR_MTRRfix4K_C8000, env->mtrr_fixed[4]);
1744             kvm_msr_entry_add(cpu, MSR_MTRRfix4K_D0000, env->mtrr_fixed[5]);
1745             kvm_msr_entry_add(cpu, MSR_MTRRfix4K_D8000, env->mtrr_fixed[6]);
1746             kvm_msr_entry_add(cpu, MSR_MTRRfix4K_E0000, env->mtrr_fixed[7]);
1747             kvm_msr_entry_add(cpu, MSR_MTRRfix4K_E8000, env->mtrr_fixed[8]);
1748             kvm_msr_entry_add(cpu, MSR_MTRRfix4K_F0000, env->mtrr_fixed[9]);
1749             kvm_msr_entry_add(cpu, MSR_MTRRfix4K_F8000, env->mtrr_fixed[10]);
1750             for (i = 0; i < MSR_MTRRcap_VCNT; i++) {
1751                 /* The CPU GPs if we write to a bit above the physical limit of
1752                  * the host CPU (and KVM emulates that)
1753                  */
1754                 uint64_t mask = env->mtrr_var[i].mask;
1755                 mask &= phys_mask;
1756
1757                 kvm_msr_entry_add(cpu, MSR_MTRRphysBase(i),
1758                                   env->mtrr_var[i].base);
1759                 kvm_msr_entry_add(cpu, MSR_MTRRphysMask(i), mask);
1760             }
1761         }
1762
1763         /* Note: MSR_IA32_FEATURE_CONTROL is written separately, see
1764          *       kvm_put_msr_feature_control. */
1765     }
1766     if (env->mcg_cap) {
1767         int i;
1768
1769         kvm_msr_entry_add(cpu, MSR_MCG_STATUS, env->mcg_status);
1770         kvm_msr_entry_add(cpu, MSR_MCG_CTL, env->mcg_ctl);
1771         if (has_msr_mcg_ext_ctl) {
1772             kvm_msr_entry_add(cpu, MSR_MCG_EXT_CTL, env->mcg_ext_ctl);
1773         }
1774         for (i = 0; i < (env->mcg_cap & 0xff) * 4; i++) {
1775             kvm_msr_entry_add(cpu, MSR_MC0_CTL + i, env->mce_banks[i]);
1776         }
1777     }
1778
1779     ret = kvm_vcpu_ioctl(CPU(cpu), KVM_SET_MSRS, cpu->kvm_msr_buf);
1780     if (ret < 0) {
1781         return ret;
1782     }
1783
1784     if (ret < cpu->kvm_msr_buf->nmsrs) {
1785         struct kvm_msr_entry *e = &cpu->kvm_msr_buf->entries[ret];
1786         error_report("error: failed to set MSR 0x%" PRIx32 " to 0x%" PRIx64,
1787                      (uint32_t)e->index, (uint64_t)e->data);
1788     }
1789
1790     assert(ret == cpu->kvm_msr_buf->nmsrs);
1791     return 0;
1792 }
1793
1794
1795 static int kvm_get_fpu(X86CPU *cpu)
1796 {
1797     CPUX86State *env = &cpu->env;
1798     struct kvm_fpu fpu;
1799     int i, ret;
1800
1801     ret = kvm_vcpu_ioctl(CPU(cpu), KVM_GET_FPU, &fpu);
1802     if (ret < 0) {
1803         return ret;
1804     }
1805
1806     env->fpstt = (fpu.fsw >> 11) & 7;
1807     env->fpus = fpu.fsw;
1808     env->fpuc = fpu.fcw;
1809     env->fpop = fpu.last_opcode;
1810     env->fpip = fpu.last_ip;
1811     env->fpdp = fpu.last_dp;
1812     for (i = 0; i < 8; ++i) {
1813         env->fptags[i] = !((fpu.ftwx >> i) & 1);
1814     }
1815     memcpy(env->fpregs, fpu.fpr, sizeof env->fpregs);
1816     for (i = 0; i < CPU_NB_REGS; i++) {
1817         env->xmm_regs[i].ZMM_Q(0) = ldq_p(&fpu.xmm[i][0]);
1818         env->xmm_regs[i].ZMM_Q(1) = ldq_p(&fpu.xmm[i][8]);
1819     }
1820     env->mxcsr = fpu.mxcsr;
1821
1822     return 0;
1823 }
1824
1825 static int kvm_get_xsave(X86CPU *cpu)
1826 {
1827     CPUX86State *env = &cpu->env;
1828     X86XSaveArea *xsave = env->kvm_xsave_buf;
1829     int ret;
1830
1831     if (!has_xsave) {
1832         return kvm_get_fpu(cpu);
1833     }
1834
1835     ret = kvm_vcpu_ioctl(CPU(cpu), KVM_GET_XSAVE, xsave);
1836     if (ret < 0) {
1837         return ret;
1838     }
1839     x86_cpu_xrstor_all_areas(cpu, xsave);
1840
1841     return 0;
1842 }
1843
1844 static int kvm_get_xcrs(X86CPU *cpu)
1845 {
1846     CPUX86State *env = &cpu->env;
1847     int i, ret;
1848     struct kvm_xcrs xcrs;
1849
1850     if (!has_xcrs) {
1851         return 0;
1852     }
1853
1854     ret = kvm_vcpu_ioctl(CPU(cpu), KVM_GET_XCRS, &xcrs);
1855     if (ret < 0) {
1856         return ret;
1857     }
1858
1859     for (i = 0; i < xcrs.nr_xcrs; i++) {
1860         /* Only support xcr0 now */
1861         if (xcrs.xcrs[i].xcr == 0) {
1862             env->xcr0 = xcrs.xcrs[i].value;
1863             break;
1864         }
1865     }
1866     return 0;
1867 }
1868
1869 static int kvm_get_sregs(X86CPU *cpu)
1870 {
1871     CPUX86State *env = &cpu->env;
1872     struct kvm_sregs sregs;
1873     uint32_t hflags;
1874     int bit, i, ret;
1875
1876     ret = kvm_vcpu_ioctl(CPU(cpu), KVM_GET_SREGS, &sregs);
1877     if (ret < 0) {
1878         return ret;
1879     }
1880
1881     /* There can only be one pending IRQ set in the bitmap at a time, so try
1882        to find it and save its number instead (-1 for none). */
1883     env->interrupt_injected = -1;
1884     for (i = 0; i < ARRAY_SIZE(sregs.interrupt_bitmap); i++) {
1885         if (sregs.interrupt_bitmap[i]) {
1886             bit = ctz64(sregs.interrupt_bitmap[i]);
1887             env->interrupt_injected = i * 64 + bit;
1888             break;
1889         }
1890     }
1891
1892     get_seg(&env->segs[R_CS], &sregs.cs);
1893     get_seg(&env->segs[R_DS], &sregs.ds);
1894     get_seg(&env->segs[R_ES], &sregs.es);
1895     get_seg(&env->segs[R_FS], &sregs.fs);
1896     get_seg(&env->segs[R_GS], &sregs.gs);
1897     get_seg(&env->segs[R_SS], &sregs.ss);
1898
1899     get_seg(&env->tr, &sregs.tr);
1900     get_seg(&env->ldt, &sregs.ldt);
1901
1902     env->idt.limit = sregs.idt.limit;
1903     env->idt.base = sregs.idt.base;
1904     env->gdt.limit = sregs.gdt.limit;
1905     env->gdt.base = sregs.gdt.base;
1906
1907     env->cr[0] = sregs.cr0;
1908     env->cr[2] = sregs.cr2;
1909     env->cr[3] = sregs.cr3;
1910     env->cr[4] = sregs.cr4;
1911
1912     env->efer = sregs.efer;
1913
1914     /* changes to apic base and cr8/tpr are read back via kvm_arch_post_run */
1915
1916 #define HFLAG_COPY_MASK \
1917     ~( HF_CPL_MASK | HF_PE_MASK | HF_MP_MASK | HF_EM_MASK | \
1918        HF_TS_MASK | HF_TF_MASK | HF_VM_MASK | HF_IOPL_MASK | \
1919        HF_OSFXSR_MASK | HF_LMA_MASK | HF_CS32_MASK | \
1920        HF_SS32_MASK | HF_CS64_MASK | HF_ADDSEG_MASK)
1921
1922     hflags = env->hflags & HFLAG_COPY_MASK;
1923     hflags |= (env->segs[R_SS].flags >> DESC_DPL_SHIFT) & HF_CPL_MASK;
1924     hflags |= (env->cr[0] & CR0_PE_MASK) << (HF_PE_SHIFT - CR0_PE_SHIFT);
1925     hflags |= (env->cr[0] << (HF_MP_SHIFT - CR0_MP_SHIFT)) &
1926                 (HF_MP_MASK | HF_EM_MASK | HF_TS_MASK);
1927     hflags |= (env->eflags & (HF_TF_MASK | HF_VM_MASK | HF_IOPL_MASK));
1928
1929     if (env->cr[4] & CR4_OSFXSR_MASK) {
1930         hflags |= HF_OSFXSR_MASK;
1931     }
1932
1933     if (env->efer & MSR_EFER_LMA) {
1934         hflags |= HF_LMA_MASK;
1935     }
1936
1937     if ((hflags & HF_LMA_MASK) && (env->segs[R_CS].flags & DESC_L_MASK)) {
1938         hflags |= HF_CS32_MASK | HF_SS32_MASK | HF_CS64_MASK;
1939     } else {
1940         hflags |= (env->segs[R_CS].flags & DESC_B_MASK) >>
1941                     (DESC_B_SHIFT - HF_CS32_SHIFT);
1942         hflags |= (env->segs[R_SS].flags & DESC_B_MASK) >>
1943                     (DESC_B_SHIFT - HF_SS32_SHIFT);
1944         if (!(env->cr[0] & CR0_PE_MASK) || (env->eflags & VM_MASK) ||
1945             !(hflags & HF_CS32_MASK)) {
1946             hflags |= HF_ADDSEG_MASK;
1947         } else {
1948             hflags |= ((env->segs[R_DS].base | env->segs[R_ES].base |
1949                         env->segs[R_SS].base) != 0) << HF_ADDSEG_SHIFT;
1950         }
1951     }
1952     env->hflags = hflags;
1953
1954     return 0;
1955 }
1956
1957 static int kvm_get_msrs(X86CPU *cpu)
1958 {
1959     CPUX86State *env = &cpu->env;
1960     struct kvm_msr_entry *msrs = cpu->kvm_msr_buf->entries;
1961     int ret, i;
1962     uint64_t mtrr_top_bits;
1963
1964     kvm_msr_buf_reset(cpu);
1965
1966     kvm_msr_entry_add(cpu, MSR_IA32_SYSENTER_CS, 0);
1967     kvm_msr_entry_add(cpu, MSR_IA32_SYSENTER_ESP, 0);
1968     kvm_msr_entry_add(cpu, MSR_IA32_SYSENTER_EIP, 0);
1969     kvm_msr_entry_add(cpu, MSR_PAT, 0);
1970     if (has_msr_star) {
1971         kvm_msr_entry_add(cpu, MSR_STAR, 0);
1972     }
1973     if (has_msr_hsave_pa) {
1974         kvm_msr_entry_add(cpu, MSR_VM_HSAVE_PA, 0);
1975     }
1976     if (has_msr_tsc_aux) {
1977         kvm_msr_entry_add(cpu, MSR_TSC_AUX, 0);
1978     }
1979     if (has_msr_tsc_adjust) {
1980         kvm_msr_entry_add(cpu, MSR_TSC_ADJUST, 0);
1981     }
1982     if (has_msr_tsc_deadline) {
1983         kvm_msr_entry_add(cpu, MSR_IA32_TSCDEADLINE, 0);
1984     }
1985     if (has_msr_misc_enable) {
1986         kvm_msr_entry_add(cpu, MSR_IA32_MISC_ENABLE, 0);
1987     }
1988     if (has_msr_smbase) {
1989         kvm_msr_entry_add(cpu, MSR_IA32_SMBASE, 0);
1990     }
1991     if (has_msr_feature_control) {
1992         kvm_msr_entry_add(cpu, MSR_IA32_FEATURE_CONTROL, 0);
1993     }
1994     if (has_msr_bndcfgs) {
1995         kvm_msr_entry_add(cpu, MSR_IA32_BNDCFGS, 0);
1996     }
1997     if (has_msr_xss) {
1998         kvm_msr_entry_add(cpu, MSR_IA32_XSS, 0);
1999     }
2000
2001
2002     if (!env->tsc_valid) {
2003         kvm_msr_entry_add(cpu, MSR_IA32_TSC, 0);
2004         env->tsc_valid = !runstate_is_running();
2005     }
2006
2007 #ifdef TARGET_X86_64
2008     if (lm_capable_kernel) {
2009         kvm_msr_entry_add(cpu, MSR_CSTAR, 0);
2010         kvm_msr_entry_add(cpu, MSR_KERNELGSBASE, 0);
2011         kvm_msr_entry_add(cpu, MSR_FMASK, 0);
2012         kvm_msr_entry_add(cpu, MSR_LSTAR, 0);
2013     }
2014 #endif
2015     kvm_msr_entry_add(cpu, MSR_KVM_SYSTEM_TIME, 0);
2016     kvm_msr_entry_add(cpu, MSR_KVM_WALL_CLOCK, 0);
2017     if (env->features[FEAT_KVM] & (1 << KVM_FEATURE_ASYNC_PF)) {
2018         kvm_msr_entry_add(cpu, MSR_KVM_ASYNC_PF_EN, 0);
2019     }
2020     if (env->features[FEAT_KVM] & (1 << KVM_FEATURE_PV_EOI)) {
2021         kvm_msr_entry_add(cpu, MSR_KVM_PV_EOI_EN, 0);
2022     }
2023     if (env->features[FEAT_KVM] & (1 << KVM_FEATURE_STEAL_TIME)) {
2024         kvm_msr_entry_add(cpu, MSR_KVM_STEAL_TIME, 0);
2025     }
2026     if (has_msr_architectural_pmu) {
2027         kvm_msr_entry_add(cpu, MSR_CORE_PERF_FIXED_CTR_CTRL, 0);
2028         kvm_msr_entry_add(cpu, MSR_CORE_PERF_GLOBAL_CTRL, 0);
2029         kvm_msr_entry_add(cpu, MSR_CORE_PERF_GLOBAL_STATUS, 0);
2030         kvm_msr_entry_add(cpu, MSR_CORE_PERF_GLOBAL_OVF_CTRL, 0);
2031         for (i = 0; i < MAX_FIXED_COUNTERS; i++) {
2032             kvm_msr_entry_add(cpu, MSR_CORE_PERF_FIXED_CTR0 + i, 0);
2033         }
2034         for (i = 0; i < num_architectural_pmu_counters; i++) {
2035             kvm_msr_entry_add(cpu, MSR_P6_PERFCTR0 + i, 0);
2036             kvm_msr_entry_add(cpu, MSR_P6_EVNTSEL0 + i, 0);
2037         }
2038     }
2039
2040     if (env->mcg_cap) {
2041         kvm_msr_entry_add(cpu, MSR_MCG_STATUS, 0);
2042         kvm_msr_entry_add(cpu, MSR_MCG_CTL, 0);
2043         if (has_msr_mcg_ext_ctl) {
2044             kvm_msr_entry_add(cpu, MSR_MCG_EXT_CTL, 0);
2045         }
2046         for (i = 0; i < (env->mcg_cap & 0xff) * 4; i++) {
2047             kvm_msr_entry_add(cpu, MSR_MC0_CTL + i, 0);
2048         }
2049     }
2050
2051     if (has_msr_hv_hypercall) {
2052         kvm_msr_entry_add(cpu, HV_X64_MSR_HYPERCALL, 0);
2053         kvm_msr_entry_add(cpu, HV_X64_MSR_GUEST_OS_ID, 0);
2054     }
2055     if (cpu->hyperv_vapic) {
2056         kvm_msr_entry_add(cpu, HV_X64_MSR_APIC_ASSIST_PAGE, 0);
2057     }
2058     if (cpu->hyperv_time) {
2059         kvm_msr_entry_add(cpu, HV_X64_MSR_REFERENCE_TSC, 0);
2060     }
2061     if (has_msr_hv_crash) {
2062         int j;
2063
2064         for (j = 0; j < HV_X64_MSR_CRASH_PARAMS; j++) {
2065             kvm_msr_entry_add(cpu, HV_X64_MSR_CRASH_P0 + j, 0);
2066         }
2067     }
2068     if (has_msr_hv_runtime) {
2069         kvm_msr_entry_add(cpu, HV_X64_MSR_VP_RUNTIME, 0);
2070     }
2071     if (cpu->hyperv_synic) {
2072         uint32_t msr;
2073
2074         kvm_msr_entry_add(cpu, HV_X64_MSR_SCONTROL, 0);
2075         kvm_msr_entry_add(cpu, HV_X64_MSR_SVERSION, 0);
2076         kvm_msr_entry_add(cpu, HV_X64_MSR_SIEFP, 0);
2077         kvm_msr_entry_add(cpu, HV_X64_MSR_SIMP, 0);
2078         for (msr = HV_X64_MSR_SINT0; msr <= HV_X64_MSR_SINT15; msr++) {
2079             kvm_msr_entry_add(cpu, msr, 0);
2080         }
2081     }
2082     if (has_msr_hv_stimer) {
2083         uint32_t msr;
2084
2085         for (msr = HV_X64_MSR_STIMER0_CONFIG; msr <= HV_X64_MSR_STIMER3_COUNT;
2086              msr++) {
2087             kvm_msr_entry_add(cpu, msr, 0);
2088         }
2089     }
2090     if (env->features[FEAT_1_EDX] & CPUID_MTRR) {
2091         kvm_msr_entry_add(cpu, MSR_MTRRdefType, 0);
2092         kvm_msr_entry_add(cpu, MSR_MTRRfix64K_00000, 0);
2093         kvm_msr_entry_add(cpu, MSR_MTRRfix16K_80000, 0);
2094         kvm_msr_entry_add(cpu, MSR_MTRRfix16K_A0000, 0);
2095         kvm_msr_entry_add(cpu, MSR_MTRRfix4K_C0000, 0);
2096         kvm_msr_entry_add(cpu, MSR_MTRRfix4K_C8000, 0);
2097         kvm_msr_entry_add(cpu, MSR_MTRRfix4K_D0000, 0);
2098         kvm_msr_entry_add(cpu, MSR_MTRRfix4K_D8000, 0);
2099         kvm_msr_entry_add(cpu, MSR_MTRRfix4K_E0000, 0);
2100         kvm_msr_entry_add(cpu, MSR_MTRRfix4K_E8000, 0);
2101         kvm_msr_entry_add(cpu, MSR_MTRRfix4K_F0000, 0);
2102         kvm_msr_entry_add(cpu, MSR_MTRRfix4K_F8000, 0);
2103         for (i = 0; i < MSR_MTRRcap_VCNT; i++) {
2104             kvm_msr_entry_add(cpu, MSR_MTRRphysBase(i), 0);
2105             kvm_msr_entry_add(cpu, MSR_MTRRphysMask(i), 0);
2106         }
2107     }
2108
2109     ret = kvm_vcpu_ioctl(CPU(cpu), KVM_GET_MSRS, cpu->kvm_msr_buf);
2110     if (ret < 0) {
2111         return ret;
2112     }
2113
2114     if (ret < cpu->kvm_msr_buf->nmsrs) {
2115         struct kvm_msr_entry *e = &cpu->kvm_msr_buf->entries[ret];
2116         error_report("error: failed to get MSR 0x%" PRIx32,
2117                      (uint32_t)e->index);
2118     }
2119
2120     assert(ret == cpu->kvm_msr_buf->nmsrs);
2121     /*
2122      * MTRR masks: Each mask consists of 5 parts
2123      * a  10..0: must be zero
2124      * b  11   : valid bit
2125      * c n-1.12: actual mask bits
2126      * d  51..n: reserved must be zero
2127      * e  63.52: reserved must be zero
2128      *
2129      * 'n' is the number of physical bits supported by the CPU and is
2130      * apparently always <= 52.   We know our 'n' but don't know what
2131      * the destinations 'n' is; it might be smaller, in which case
2132      * it masks (c) on loading. It might be larger, in which case
2133      * we fill 'd' so that d..c is consistent irrespetive of the 'n'
2134      * we're migrating to.
2135      */
2136
2137     if (cpu->fill_mtrr_mask) {
2138         QEMU_BUILD_BUG_ON(TARGET_PHYS_ADDR_SPACE_BITS > 52);
2139         assert(cpu->phys_bits <= TARGET_PHYS_ADDR_SPACE_BITS);
2140         mtrr_top_bits = MAKE_64BIT_MASK(cpu->phys_bits, 52 - cpu->phys_bits);
2141     } else {
2142         mtrr_top_bits = 0;
2143     }
2144
2145     for (i = 0; i < ret; i++) {
2146         uint32_t index = msrs[i].index;
2147         switch (index) {
2148         case MSR_IA32_SYSENTER_CS:
2149             env->sysenter_cs = msrs[i].data;
2150             break;
2151         case MSR_IA32_SYSENTER_ESP:
2152             env->sysenter_esp = msrs[i].data;
2153             break;
2154         case MSR_IA32_SYSENTER_EIP:
2155             env->sysenter_eip = msrs[i].data;
2156             break;
2157         case MSR_PAT:
2158             env->pat = msrs[i].data;
2159             break;
2160         case MSR_STAR:
2161             env->star = msrs[i].data;
2162             break;
2163 #ifdef TARGET_X86_64
2164         case MSR_CSTAR:
2165             env->cstar = msrs[i].data;
2166             break;
2167         case MSR_KERNELGSBASE:
2168             env->kernelgsbase = msrs[i].data;
2169             break;
2170         case MSR_FMASK:
2171             env->fmask = msrs[i].data;
2172             break;
2173         case MSR_LSTAR:
2174             env->lstar = msrs[i].data;
2175             break;
2176 #endif
2177         case MSR_IA32_TSC:
2178             env->tsc = msrs[i].data;
2179             break;
2180         case MSR_TSC_AUX:
2181             env->tsc_aux = msrs[i].data;
2182             break;
2183         case MSR_TSC_ADJUST:
2184             env->tsc_adjust = msrs[i].data;
2185             break;
2186         case MSR_IA32_TSCDEADLINE:
2187             env->tsc_deadline = msrs[i].data;
2188             break;
2189         case MSR_VM_HSAVE_PA:
2190             env->vm_hsave = msrs[i].data;
2191             break;
2192         case MSR_KVM_SYSTEM_TIME:
2193             env->system_time_msr = msrs[i].data;
2194             break;
2195         case MSR_KVM_WALL_CLOCK:
2196             env->wall_clock_msr = msrs[i].data;
2197             break;
2198         case MSR_MCG_STATUS:
2199             env->mcg_status = msrs[i].data;
2200             break;
2201         case MSR_MCG_CTL:
2202             env->mcg_ctl = msrs[i].data;
2203             break;
2204         case MSR_MCG_EXT_CTL:
2205             env->mcg_ext_ctl = msrs[i].data;
2206             break;
2207         case MSR_IA32_MISC_ENABLE:
2208             env->msr_ia32_misc_enable = msrs[i].data;
2209             break;
2210         case MSR_IA32_SMBASE:
2211             env->smbase = msrs[i].data;
2212             break;
2213         case MSR_IA32_FEATURE_CONTROL:
2214             env->msr_ia32_feature_control = msrs[i].data;
2215             break;
2216         case MSR_IA32_BNDCFGS:
2217             env->msr_bndcfgs = msrs[i].data;
2218             break;
2219         case MSR_IA32_XSS:
2220             env->xss = msrs[i].data;
2221             break;
2222         default:
2223             if (msrs[i].index >= MSR_MC0_CTL &&
2224                 msrs[i].index < MSR_MC0_CTL + (env->mcg_cap & 0xff) * 4) {
2225                 env->mce_banks[msrs[i].index - MSR_MC0_CTL] = msrs[i].data;
2226             }
2227             break;
2228         case MSR_KVM_ASYNC_PF_EN:
2229             env->async_pf_en_msr = msrs[i].data;
2230             break;
2231         case MSR_KVM_PV_EOI_EN:
2232             env->pv_eoi_en_msr = msrs[i].data;
2233             break;
2234         case MSR_KVM_STEAL_TIME:
2235             env->steal_time_msr = msrs[i].data;
2236             break;
2237         case MSR_CORE_PERF_FIXED_CTR_CTRL:
2238             env->msr_fixed_ctr_ctrl = msrs[i].data;
2239             break;
2240         case MSR_CORE_PERF_GLOBAL_CTRL:
2241             env->msr_global_ctrl = msrs[i].data;
2242             break;
2243         case MSR_CORE_PERF_GLOBAL_STATUS:
2244             env->msr_global_status = msrs[i].data;
2245             break;
2246         case MSR_CORE_PERF_GLOBAL_OVF_CTRL:
2247             env->msr_global_ovf_ctrl = msrs[i].data;
2248             break;
2249         case MSR_CORE_PERF_FIXED_CTR0 ... MSR_CORE_PERF_FIXED_CTR0 + MAX_FIXED_COUNTERS - 1:
2250             env->msr_fixed_counters[index - MSR_CORE_PERF_FIXED_CTR0] = msrs[i].data;
2251             break;
2252         case MSR_P6_PERFCTR0 ... MSR_P6_PERFCTR0 + MAX_GP_COUNTERS - 1:
2253             env->msr_gp_counters[index - MSR_P6_PERFCTR0] = msrs[i].data;
2254             break;
2255         case MSR_P6_EVNTSEL0 ... MSR_P6_EVNTSEL0 + MAX_GP_COUNTERS - 1:
2256             env->msr_gp_evtsel[index - MSR_P6_EVNTSEL0] = msrs[i].data;
2257             break;
2258         case HV_X64_MSR_HYPERCALL:
2259             env->msr_hv_hypercall = msrs[i].data;
2260             break;
2261         case HV_X64_MSR_GUEST_OS_ID:
2262             env->msr_hv_guest_os_id = msrs[i].data;
2263             break;
2264         case HV_X64_MSR_APIC_ASSIST_PAGE:
2265             env->msr_hv_vapic = msrs[i].data;
2266             break;
2267         case HV_X64_MSR_REFERENCE_TSC:
2268             env->msr_hv_tsc = msrs[i].data;
2269             break;
2270         case HV_X64_MSR_CRASH_P0 ... HV_X64_MSR_CRASH_P4:
2271             env->msr_hv_crash_params[index - HV_X64_MSR_CRASH_P0] = msrs[i].data;
2272             break;
2273         case HV_X64_MSR_VP_RUNTIME:
2274             env->msr_hv_runtime = msrs[i].data;
2275             break;
2276         case HV_X64_MSR_SCONTROL:
2277             env->msr_hv_synic_control = msrs[i].data;
2278             break;
2279         case HV_X64_MSR_SVERSION:
2280             env->msr_hv_synic_version = msrs[i].data;
2281             break;
2282         case HV_X64_MSR_SIEFP:
2283             env->msr_hv_synic_evt_page = msrs[i].data;
2284             break;
2285         case HV_X64_MSR_SIMP:
2286             env->msr_hv_synic_msg_page = msrs[i].data;
2287             break;
2288         case HV_X64_MSR_SINT0 ... HV_X64_MSR_SINT15:
2289             env->msr_hv_synic_sint[index - HV_X64_MSR_SINT0] = msrs[i].data;
2290             break;
2291         case HV_X64_MSR_STIMER0_CONFIG:
2292         case HV_X64_MSR_STIMER1_CONFIG:
2293         case HV_X64_MSR_STIMER2_CONFIG:
2294         case HV_X64_MSR_STIMER3_CONFIG:
2295             env->msr_hv_stimer_config[(index - HV_X64_MSR_STIMER0_CONFIG)/2] =
2296                                 msrs[i].data;
2297             break;
2298         case HV_X64_MSR_STIMER0_COUNT:
2299         case HV_X64_MSR_STIMER1_COUNT:
2300         case HV_X64_MSR_STIMER2_COUNT:
2301         case HV_X64_MSR_STIMER3_COUNT:
2302             env->msr_hv_stimer_count[(index - HV_X64_MSR_STIMER0_COUNT)/2] =
2303                                 msrs[i].data;
2304             break;
2305         case MSR_MTRRdefType:
2306             env->mtrr_deftype = msrs[i].data;
2307             break;
2308         case MSR_MTRRfix64K_00000:
2309             env->mtrr_fixed[0] = msrs[i].data;
2310             break;
2311         case MSR_MTRRfix16K_80000:
2312             env->mtrr_fixed[1] = msrs[i].data;
2313             break;
2314         case MSR_MTRRfix16K_A0000:
2315             env->mtrr_fixed[2] = msrs[i].data;
2316             break;
2317         case MSR_MTRRfix4K_C0000:
2318             env->mtrr_fixed[3] = msrs[i].data;
2319             break;
2320         case MSR_MTRRfix4K_C8000:
2321             env->mtrr_fixed[4] = msrs[i].data;
2322             break;
2323         case MSR_MTRRfix4K_D0000:
2324             env->mtrr_fixed[5] = msrs[i].data;
2325             break;
2326         case MSR_MTRRfix4K_D8000:
2327             env->mtrr_fixed[6] = msrs[i].data;
2328             break;
2329         case MSR_MTRRfix4K_E0000:
2330             env->mtrr_fixed[7] = msrs[i].data;
2331             break;
2332         case MSR_MTRRfix4K_E8000:
2333             env->mtrr_fixed[8] = msrs[i].data;
2334             break;
2335         case MSR_MTRRfix4K_F0000:
2336             env->mtrr_fixed[9] = msrs[i].data;
2337             break;
2338         case MSR_MTRRfix4K_F8000:
2339             env->mtrr_fixed[10] = msrs[i].data;
2340             break;
2341         case MSR_MTRRphysBase(0) ... MSR_MTRRphysMask(MSR_MTRRcap_VCNT - 1):
2342             if (index & 1) {
2343                 env->mtrr_var[MSR_MTRRphysIndex(index)].mask = msrs[i].data |
2344                                                                mtrr_top_bits;
2345             } else {
2346                 env->mtrr_var[MSR_MTRRphysIndex(index)].base = msrs[i].data;
2347             }
2348             break;
2349         }
2350     }
2351
2352     return 0;
2353 }
2354
2355 static int kvm_put_mp_state(X86CPU *cpu)
2356 {
2357     struct kvm_mp_state mp_state = { .mp_state = cpu->env.mp_state };
2358
2359     return kvm_vcpu_ioctl(CPU(cpu), KVM_SET_MP_STATE, &mp_state);
2360 }
2361
2362 static int kvm_get_mp_state(X86CPU *cpu)
2363 {
2364     CPUState *cs = CPU(cpu);
2365     CPUX86State *env = &cpu->env;
2366     struct kvm_mp_state mp_state;
2367     int ret;
2368
2369     ret = kvm_vcpu_ioctl(cs, KVM_GET_MP_STATE, &mp_state);
2370     if (ret < 0) {
2371         return ret;
2372     }
2373     env->mp_state = mp_state.mp_state;
2374     if (kvm_irqchip_in_kernel()) {
2375         cs->halted = (mp_state.mp_state == KVM_MP_STATE_HALTED);
2376     }
2377     return 0;
2378 }
2379
2380 static int kvm_get_apic(X86CPU *cpu)
2381 {
2382     DeviceState *apic = cpu->apic_state;
2383     struct kvm_lapic_state kapic;
2384     int ret;
2385
2386     if (apic && kvm_irqchip_in_kernel()) {
2387         ret = kvm_vcpu_ioctl(CPU(cpu), KVM_GET_LAPIC, &kapic);
2388         if (ret < 0) {
2389             return ret;
2390         }
2391
2392         kvm_get_apic_state(apic, &kapic);
2393     }
2394     return 0;
2395 }
2396
2397 static int kvm_put_vcpu_events(X86CPU *cpu, int level)
2398 {
2399     CPUState *cs = CPU(cpu);
2400     CPUX86State *env = &cpu->env;
2401     struct kvm_vcpu_events events = {};
2402
2403     if (!kvm_has_vcpu_events()) {
2404         return 0;
2405     }
2406
2407     events.exception.injected = (env->exception_injected >= 0);
2408     events.exception.nr = env->exception_injected;
2409     events.exception.has_error_code = env->has_error_code;
2410     events.exception.error_code = env->error_code;
2411     events.exception.pad = 0;
2412
2413     events.interrupt.injected = (env->interrupt_injected >= 0);
2414     events.interrupt.nr = env->interrupt_injected;
2415     events.interrupt.soft = env->soft_interrupt;
2416
2417     events.nmi.injected = env->nmi_injected;
2418     events.nmi.pending = env->nmi_pending;
2419     events.nmi.masked = !!(env->hflags2 & HF2_NMI_MASK);
2420     events.nmi.pad = 0;
2421
2422     events.sipi_vector = env->sipi_vector;
2423     events.flags = 0;
2424
2425     if (has_msr_smbase) {
2426         events.smi.smm = !!(env->hflags & HF_SMM_MASK);
2427         events.smi.smm_inside_nmi = !!(env->hflags2 & HF2_SMM_INSIDE_NMI_MASK);
2428         if (kvm_irqchip_in_kernel()) {
2429             /* As soon as these are moved to the kernel, remove them
2430              * from cs->interrupt_request.
2431              */
2432             events.smi.pending = cs->interrupt_request & CPU_INTERRUPT_SMI;
2433             events.smi.latched_init = cs->interrupt_request & CPU_INTERRUPT_INIT;
2434             cs->interrupt_request &= ~(CPU_INTERRUPT_INIT | CPU_INTERRUPT_SMI);
2435         } else {
2436             /* Keep these in cs->interrupt_request.  */
2437             events.smi.pending = 0;
2438             events.smi.latched_init = 0;
2439         }
2440         /* Stop SMI delivery on old machine types to avoid a reboot
2441          * on an inward migration of an old VM.
2442          */
2443         if (!cpu->kvm_no_smi_migration) {
2444             events.flags |= KVM_VCPUEVENT_VALID_SMM;
2445         }
2446     }
2447
2448     if (level >= KVM_PUT_RESET_STATE) {
2449         events.flags |= KVM_VCPUEVENT_VALID_NMI_PENDING;
2450         if (env->mp_state == KVM_MP_STATE_SIPI_RECEIVED) {
2451             events.flags |= KVM_VCPUEVENT_VALID_SIPI_VECTOR;
2452         }
2453     }
2454
2455     return kvm_vcpu_ioctl(CPU(cpu), KVM_SET_VCPU_EVENTS, &events);
2456 }
2457
2458 static int kvm_get_vcpu_events(X86CPU *cpu)
2459 {
2460     CPUX86State *env = &cpu->env;
2461     struct kvm_vcpu_events events;
2462     int ret;
2463
2464     if (!kvm_has_vcpu_events()) {
2465         return 0;
2466     }
2467
2468     memset(&events, 0, sizeof(events));
2469     ret = kvm_vcpu_ioctl(CPU(cpu), KVM_GET_VCPU_EVENTS, &events);
2470     if (ret < 0) {
2471        return ret;
2472     }
2473     env->exception_injected =
2474        events.exception.injected ? events.exception.nr : -1;
2475     env->has_error_code = events.exception.has_error_code;
2476     env->error_code = events.exception.error_code;
2477
2478     env->interrupt_injected =
2479         events.interrupt.injected ? events.interrupt.nr : -1;
2480     env->soft_interrupt = events.interrupt.soft;
2481
2482     env->nmi_injected = events.nmi.injected;
2483     env->nmi_pending = events.nmi.pending;
2484     if (events.nmi.masked) {
2485         env->hflags2 |= HF2_NMI_MASK;
2486     } else {
2487         env->hflags2 &= ~HF2_NMI_MASK;
2488     }
2489
2490     if (events.flags & KVM_VCPUEVENT_VALID_SMM) {
2491         if (events.smi.smm) {
2492             env->hflags |= HF_SMM_MASK;
2493         } else {
2494             env->hflags &= ~HF_SMM_MASK;
2495         }
2496         if (events.smi.pending) {
2497             cpu_interrupt(CPU(cpu), CPU_INTERRUPT_SMI);
2498         } else {
2499             cpu_reset_interrupt(CPU(cpu), CPU_INTERRUPT_SMI);
2500         }
2501         if (events.smi.smm_inside_nmi) {
2502             env->hflags2 |= HF2_SMM_INSIDE_NMI_MASK;
2503         } else {
2504             env->hflags2 &= ~HF2_SMM_INSIDE_NMI_MASK;
2505         }
2506         if (events.smi.latched_init) {
2507             cpu_interrupt(CPU(cpu), CPU_INTERRUPT_INIT);
2508         } else {
2509             cpu_reset_interrupt(CPU(cpu), CPU_INTERRUPT_INIT);
2510         }
2511     }
2512
2513     env->sipi_vector = events.sipi_vector;
2514
2515     return 0;
2516 }
2517
2518 static int kvm_guest_debug_workarounds(X86CPU *cpu)
2519 {
2520     CPUState *cs = CPU(cpu);
2521     CPUX86State *env = &cpu->env;
2522     int ret = 0;
2523     unsigned long reinject_trap = 0;
2524
2525     if (!kvm_has_vcpu_events()) {
2526         if (env->exception_injected == 1) {
2527             reinject_trap = KVM_GUESTDBG_INJECT_DB;
2528         } else if (env->exception_injected == 3) {
2529             reinject_trap = KVM_GUESTDBG_INJECT_BP;
2530         }
2531         env->exception_injected = -1;
2532     }
2533
2534     /*
2535      * Kernels before KVM_CAP_X86_ROBUST_SINGLESTEP overwrote flags.TF
2536      * injected via SET_GUEST_DEBUG while updating GP regs. Work around this
2537      * by updating the debug state once again if single-stepping is on.
2538      * Another reason to call kvm_update_guest_debug here is a pending debug
2539      * trap raise by the guest. On kernels without SET_VCPU_EVENTS we have to
2540      * reinject them via SET_GUEST_DEBUG.
2541      */
2542     if (reinject_trap ||
2543         (!kvm_has_robust_singlestep() && cs->singlestep_enabled)) {
2544         ret = kvm_update_guest_debug(cs, reinject_trap);
2545     }
2546     return ret;
2547 }
2548
2549 static int kvm_put_debugregs(X86CPU *cpu)
2550 {
2551     CPUX86State *env = &cpu->env;
2552     struct kvm_debugregs dbgregs;
2553     int i;
2554
2555     if (!kvm_has_debugregs()) {
2556         return 0;
2557     }
2558
2559     for (i = 0; i < 4; i++) {
2560         dbgregs.db[i] = env->dr[i];
2561     }
2562     dbgregs.dr6 = env->dr[6];
2563     dbgregs.dr7 = env->dr[7];
2564     dbgregs.flags = 0;
2565
2566     return kvm_vcpu_ioctl(CPU(cpu), KVM_SET_DEBUGREGS, &dbgregs);
2567 }
2568
2569 static int kvm_get_debugregs(X86CPU *cpu)
2570 {
2571     CPUX86State *env = &cpu->env;
2572     struct kvm_debugregs dbgregs;
2573     int i, ret;
2574
2575     if (!kvm_has_debugregs()) {
2576         return 0;
2577     }
2578
2579     ret = kvm_vcpu_ioctl(CPU(cpu), KVM_GET_DEBUGREGS, &dbgregs);
2580     if (ret < 0) {
2581         return ret;
2582     }
2583     for (i = 0; i < 4; i++) {
2584         env->dr[i] = dbgregs.db[i];
2585     }
2586     env->dr[4] = env->dr[6] = dbgregs.dr6;
2587     env->dr[5] = env->dr[7] = dbgregs.dr7;
2588
2589     return 0;
2590 }
2591
2592 int kvm_arch_put_registers(CPUState *cpu, int level)
2593 {
2594     X86CPU *x86_cpu = X86_CPU(cpu);
2595     int ret;
2596
2597     assert(cpu_is_stopped(cpu) || qemu_cpu_is_self(cpu));
2598
2599     if (level >= KVM_PUT_RESET_STATE) {
2600         ret = kvm_put_msr_feature_control(x86_cpu);
2601         if (ret < 0) {
2602             return ret;
2603         }
2604     }
2605
2606     if (level == KVM_PUT_FULL_STATE) {
2607         /* We don't check for kvm_arch_set_tsc_khz() errors here,
2608          * because TSC frequency mismatch shouldn't abort migration,
2609          * unless the user explicitly asked for a more strict TSC
2610          * setting (e.g. using an explicit "tsc-freq" option).
2611          */
2612         kvm_arch_set_tsc_khz(cpu);
2613     }
2614
2615     ret = kvm_getput_regs(x86_cpu, 1);
2616     if (ret < 0) {
2617         return ret;
2618     }
2619     ret = kvm_put_xsave(x86_cpu);
2620     if (ret < 0) {
2621         return ret;
2622     }
2623     ret = kvm_put_xcrs(x86_cpu);
2624     if (ret < 0) {
2625         return ret;
2626     }
2627     ret = kvm_put_sregs(x86_cpu);
2628     if (ret < 0) {
2629         return ret;
2630     }
2631     /* must be before kvm_put_msrs */
2632     ret = kvm_inject_mce_oldstyle(x86_cpu);
2633     if (ret < 0) {
2634         return ret;
2635     }
2636     ret = kvm_put_msrs(x86_cpu, level);
2637     if (ret < 0) {
2638         return ret;
2639     }
2640     ret = kvm_put_vcpu_events(x86_cpu, level);
2641     if (ret < 0) {
2642         return ret;
2643     }
2644     if (level >= KVM_PUT_RESET_STATE) {
2645         ret = kvm_put_mp_state(x86_cpu);
2646         if (ret < 0) {
2647             return ret;
2648         }
2649     }
2650
2651     ret = kvm_put_tscdeadline_msr(x86_cpu);
2652     if (ret < 0) {
2653         return ret;
2654     }
2655     ret = kvm_put_debugregs(x86_cpu);
2656     if (ret < 0) {
2657         return ret;
2658     }
2659     /* must be last */
2660     ret = kvm_guest_debug_workarounds(x86_cpu);
2661     if (ret < 0) {
2662         return ret;
2663     }
2664     return 0;
2665 }
2666
2667 int kvm_arch_get_registers(CPUState *cs)
2668 {
2669     X86CPU *cpu = X86_CPU(cs);
2670     int ret;
2671
2672     assert(cpu_is_stopped(cs) || qemu_cpu_is_self(cs));
2673
2674     ret = kvm_get_vcpu_events(cpu);
2675     if (ret < 0) {
2676         goto out;
2677     }
2678     /*
2679      * KVM_GET_MPSTATE can modify CS and RIP, call it before
2680      * KVM_GET_REGS and KVM_GET_SREGS.
2681      */
2682     ret = kvm_get_mp_state(cpu);
2683     if (ret < 0) {
2684         goto out;
2685     }
2686     ret = kvm_getput_regs(cpu, 0);
2687     if (ret < 0) {
2688         goto out;
2689     }
2690     ret = kvm_get_xsave(cpu);
2691     if (ret < 0) {
2692         goto out;
2693     }
2694     ret = kvm_get_xcrs(cpu);
2695     if (ret < 0) {
2696         goto out;
2697     }
2698     ret = kvm_get_sregs(cpu);
2699     if (ret < 0) {
2700         goto out;
2701     }
2702     ret = kvm_get_msrs(cpu);
2703     if (ret < 0) {
2704         goto out;
2705     }
2706     ret = kvm_get_apic(cpu);
2707     if (ret < 0) {
2708         goto out;
2709     }
2710     ret = kvm_get_debugregs(cpu);
2711     if (ret < 0) {
2712         goto out;
2713     }
2714     ret = 0;
2715  out:
2716     cpu_sync_bndcs_hflags(&cpu->env);
2717     return ret;
2718 }
2719
2720 void kvm_arch_pre_run(CPUState *cpu, struct kvm_run *run)
2721 {
2722     X86CPU *x86_cpu = X86_CPU(cpu);
2723     CPUX86State *env = &x86_cpu->env;
2724     int ret;
2725
2726     /* Inject NMI */
2727     if (cpu->interrupt_request & (CPU_INTERRUPT_NMI | CPU_INTERRUPT_SMI)) {
2728         if (cpu->interrupt_request & CPU_INTERRUPT_NMI) {
2729             qemu_mutex_lock_iothread();
2730             cpu->interrupt_request &= ~CPU_INTERRUPT_NMI;
2731             qemu_mutex_unlock_iothread();
2732             DPRINTF("injected NMI\n");
2733             ret = kvm_vcpu_ioctl(cpu, KVM_NMI);
2734             if (ret < 0) {
2735                 fprintf(stderr, "KVM: injection failed, NMI lost (%s)\n",
2736                         strerror(-ret));
2737             }
2738         }
2739         if (cpu->interrupt_request & CPU_INTERRUPT_SMI) {
2740             qemu_mutex_lock_iothread();
2741             cpu->interrupt_request &= ~CPU_INTERRUPT_SMI;
2742             qemu_mutex_unlock_iothread();
2743             DPRINTF("injected SMI\n");
2744             ret = kvm_vcpu_ioctl(cpu, KVM_SMI);
2745             if (ret < 0) {
2746                 fprintf(stderr, "KVM: injection failed, SMI lost (%s)\n",
2747                         strerror(-ret));
2748             }
2749         }
2750     }
2751
2752     if (!kvm_pic_in_kernel()) {
2753         qemu_mutex_lock_iothread();
2754     }
2755
2756     /* Force the VCPU out of its inner loop to process any INIT requests
2757      * or (for userspace APIC, but it is cheap to combine the checks here)
2758      * pending TPR access reports.
2759      */
2760     if (cpu->interrupt_request & (CPU_INTERRUPT_INIT | CPU_INTERRUPT_TPR)) {
2761         if ((cpu->interrupt_request & CPU_INTERRUPT_INIT) &&
2762             !(env->hflags & HF_SMM_MASK)) {
2763             cpu->exit_request = 1;
2764         }
2765         if (cpu->interrupt_request & CPU_INTERRUPT_TPR) {
2766             cpu->exit_request = 1;
2767         }
2768     }
2769
2770     if (!kvm_pic_in_kernel()) {
2771         /* Try to inject an interrupt if the guest can accept it */
2772         if (run->ready_for_interrupt_injection &&
2773             (cpu->interrupt_request & CPU_INTERRUPT_HARD) &&
2774             (env->eflags & IF_MASK)) {
2775             int irq;
2776
2777             cpu->interrupt_request &= ~CPU_INTERRUPT_HARD;
2778             irq = cpu_get_pic_interrupt(env);
2779             if (irq >= 0) {
2780                 struct kvm_interrupt intr;
2781
2782                 intr.irq = irq;
2783                 DPRINTF("injected interrupt %d\n", irq);
2784                 ret = kvm_vcpu_ioctl(cpu, KVM_INTERRUPT, &intr);
2785                 if (ret < 0) {
2786                     fprintf(stderr,
2787                             "KVM: injection failed, interrupt lost (%s)\n",
2788                             strerror(-ret));
2789                 }
2790             }
2791         }
2792
2793         /* If we have an interrupt but the guest is not ready to receive an
2794          * interrupt, request an interrupt window exit.  This will
2795          * cause a return to userspace as soon as the guest is ready to
2796          * receive interrupts. */
2797         if ((cpu->interrupt_request & CPU_INTERRUPT_HARD)) {
2798             run->request_interrupt_window = 1;
2799         } else {
2800             run->request_interrupt_window = 0;
2801         }
2802
2803         DPRINTF("setting tpr\n");
2804         run->cr8 = cpu_get_apic_tpr(x86_cpu->apic_state);
2805
2806         qemu_mutex_unlock_iothread();
2807     }
2808 }
2809
2810 MemTxAttrs kvm_arch_post_run(CPUState *cpu, struct kvm_run *run)
2811 {
2812     X86CPU *x86_cpu = X86_CPU(cpu);
2813     CPUX86State *env = &x86_cpu->env;
2814
2815     if (run->flags & KVM_RUN_X86_SMM) {
2816         env->hflags |= HF_SMM_MASK;
2817     } else {
2818         env->hflags &= ~HF_SMM_MASK;
2819     }
2820     if (run->if_flag) {
2821         env->eflags |= IF_MASK;
2822     } else {
2823         env->eflags &= ~IF_MASK;
2824     }
2825
2826     /* We need to protect the apic state against concurrent accesses from
2827      * different threads in case the userspace irqchip is used. */
2828     if (!kvm_irqchip_in_kernel()) {
2829         qemu_mutex_lock_iothread();
2830     }
2831     cpu_set_apic_tpr(x86_cpu->apic_state, run->cr8);
2832     cpu_set_apic_base(x86_cpu->apic_state, run->apic_base);
2833     if (!kvm_irqchip_in_kernel()) {
2834         qemu_mutex_unlock_iothread();
2835     }
2836     return cpu_get_mem_attrs(env);
2837 }
2838
2839 int kvm_arch_process_async_events(CPUState *cs)
2840 {
2841     X86CPU *cpu = X86_CPU(cs);
2842     CPUX86State *env = &cpu->env;
2843
2844     if (cs->interrupt_request & CPU_INTERRUPT_MCE) {
2845         /* We must not raise CPU_INTERRUPT_MCE if it's not supported. */
2846         assert(env->mcg_cap);
2847
2848         cs->interrupt_request &= ~CPU_INTERRUPT_MCE;
2849
2850         kvm_cpu_synchronize_state(cs);
2851
2852         if (env->exception_injected == EXCP08_DBLE) {
2853             /* this means triple fault */
2854             qemu_system_reset_request(SHUTDOWN_CAUSE_GUEST_RESET);
2855             cs->exit_request = 1;
2856             return 0;
2857         }
2858         env->exception_injected = EXCP12_MCHK;
2859         env->has_error_code = 0;
2860
2861         cs->halted = 0;
2862         if (kvm_irqchip_in_kernel() && env->mp_state == KVM_MP_STATE_HALTED) {
2863             env->mp_state = KVM_MP_STATE_RUNNABLE;
2864         }
2865     }
2866
2867     if ((cs->interrupt_request & CPU_INTERRUPT_INIT) &&
2868         !(env->hflags & HF_SMM_MASK)) {
2869         kvm_cpu_synchronize_state(cs);
2870         do_cpu_init(cpu);
2871     }
2872
2873     if (kvm_irqchip_in_kernel()) {
2874         return 0;
2875     }
2876
2877     if (cs->interrupt_request & CPU_INTERRUPT_POLL) {
2878         cs->interrupt_request &= ~CPU_INTERRUPT_POLL;
2879         apic_poll_irq(cpu->apic_state);
2880     }
2881     if (((cs->interrupt_request & CPU_INTERRUPT_HARD) &&
2882          (env->eflags & IF_MASK)) ||
2883         (cs->interrupt_request & CPU_INTERRUPT_NMI)) {
2884         cs->halted = 0;
2885     }
2886     if (cs->interrupt_request & CPU_INTERRUPT_SIPI) {
2887         kvm_cpu_synchronize_state(cs);
2888         do_cpu_sipi(cpu);
2889     }
2890     if (cs->interrupt_request & CPU_INTERRUPT_TPR) {
2891         cs->interrupt_request &= ~CPU_INTERRUPT_TPR;
2892         kvm_cpu_synchronize_state(cs);
2893         apic_handle_tpr_access_report(cpu->apic_state, env->eip,
2894                                       env->tpr_access_type);
2895     }
2896
2897     return cs->halted;
2898 }
2899
2900 static int kvm_handle_halt(X86CPU *cpu)
2901 {
2902     CPUState *cs = CPU(cpu);
2903     CPUX86State *env = &cpu->env;
2904
2905     if (!((cs->interrupt_request & CPU_INTERRUPT_HARD) &&
2906           (env->eflags & IF_MASK)) &&
2907         !(cs->interrupt_request & CPU_INTERRUPT_NMI)) {
2908         cs->halted = 1;
2909         return EXCP_HLT;
2910     }
2911
2912     return 0;
2913 }
2914
2915 static int kvm_handle_tpr_access(X86CPU *cpu)
2916 {
2917     CPUState *cs = CPU(cpu);
2918     struct kvm_run *run = cs->kvm_run;
2919
2920     apic_handle_tpr_access_report(cpu->apic_state, run->tpr_access.rip,
2921                                   run->tpr_access.is_write ? TPR_ACCESS_WRITE
2922                                                            : TPR_ACCESS_READ);
2923     return 1;
2924 }
2925
2926 int kvm_arch_insert_sw_breakpoint(CPUState *cs, struct kvm_sw_breakpoint *bp)
2927 {
2928     static const uint8_t int3 = 0xcc;
2929
2930     if (cpu_memory_rw_debug(cs, bp->pc, (uint8_t *)&bp->saved_insn, 1, 0) ||
2931         cpu_memory_rw_debug(cs, bp->pc, (uint8_t *)&int3, 1, 1)) {
2932         return -EINVAL;
2933     }
2934     return 0;
2935 }
2936
2937 int kvm_arch_remove_sw_breakpoint(CPUState *cs, struct kvm_sw_breakpoint *bp)
2938 {
2939     uint8_t int3;
2940
2941     if (cpu_memory_rw_debug(cs, bp->pc, &int3, 1, 0) || int3 != 0xcc ||
2942         cpu_memory_rw_debug(cs, bp->pc, (uint8_t *)&bp->saved_insn, 1, 1)) {
2943         return -EINVAL;
2944     }
2945     return 0;
2946 }
2947
2948 static struct {
2949     target_ulong addr;
2950     int len;
2951     int type;
2952 } hw_breakpoint[4];
2953
2954 static int nb_hw_breakpoint;
2955
2956 static int find_hw_breakpoint(target_ulong addr, int len, int type)
2957 {
2958     int n;
2959
2960     for (n = 0; n < nb_hw_breakpoint; n++) {
2961         if (hw_breakpoint[n].addr == addr && hw_breakpoint[n].type == type &&
2962             (hw_breakpoint[n].len == len || len == -1)) {
2963             return n;
2964         }
2965     }
2966     return -1;
2967 }
2968
2969 int kvm_arch_insert_hw_breakpoint(target_ulong addr,
2970                                   target_ulong len, int type)
2971 {
2972     switch (type) {
2973     case GDB_BREAKPOINT_HW:
2974         len = 1;
2975         break;
2976     case GDB_WATCHPOINT_WRITE:
2977     case GDB_WATCHPOINT_ACCESS:
2978         switch (len) {
2979         case 1:
2980             break;
2981         case 2:
2982         case 4:
2983         case 8:
2984             if (addr & (len - 1)) {
2985                 return -EINVAL;
2986             }
2987             break;
2988         default:
2989             return -EINVAL;
2990         }
2991         break;
2992     default:
2993         return -ENOSYS;
2994     }
2995
2996     if (nb_hw_breakpoint == 4) {
2997         return -ENOBUFS;
2998     }
2999     if (find_hw_breakpoint(addr, len, type) >= 0) {
3000         return -EEXIST;
3001     }
3002     hw_breakpoint[nb_hw_breakpoint].addr = addr;
3003     hw_breakpoint[nb_hw_breakpoint].len = len;
3004     hw_breakpoint[nb_hw_breakpoint].type = type;
3005     nb_hw_breakpoint++;
3006
3007     return 0;
3008 }
3009
3010 int kvm_arch_remove_hw_breakpoint(target_ulong addr,
3011                                   target_ulong len, int type)
3012 {
3013     int n;
3014
3015     n = find_hw_breakpoint(addr, (type == GDB_BREAKPOINT_HW) ? 1 : len, type);
3016     if (n < 0) {
3017         return -ENOENT;
3018     }
3019     nb_hw_breakpoint--;
3020     hw_breakpoint[n] = hw_breakpoint[nb_hw_breakpoint];
3021
3022     return 0;
3023 }
3024
3025 void kvm_arch_remove_all_hw_breakpoints(void)
3026 {
3027     nb_hw_breakpoint = 0;
3028 }
3029
3030 static CPUWatchpoint hw_watchpoint;
3031
3032 static int kvm_handle_debug(X86CPU *cpu,
3033                             struct kvm_debug_exit_arch *arch_info)
3034 {
3035     CPUState *cs = CPU(cpu);
3036     CPUX86State *env = &cpu->env;
3037     int ret = 0;
3038     int n;
3039
3040     if (arch_info->exception == 1) {
3041         if (arch_info->dr6 & (1 << 14)) {
3042             if (cs->singlestep_enabled) {
3043                 ret = EXCP_DEBUG;
3044             }
3045         } else {
3046             for (n = 0; n < 4; n++) {
3047                 if (arch_info->dr6 & (1 << n)) {
3048                     switch ((arch_info->dr7 >> (16 + n*4)) & 0x3) {
3049                     case 0x0:
3050                         ret = EXCP_DEBUG;
3051                         break;
3052                     case 0x1:
3053                         ret = EXCP_DEBUG;
3054                         cs->watchpoint_hit = &hw_watchpoint;
3055                         hw_watchpoint.vaddr = hw_breakpoint[n].addr;
3056                         hw_watchpoint.flags = BP_MEM_WRITE;
3057                         break;
3058                     case 0x3:
3059                         ret = EXCP_DEBUG;
3060                         cs->watchpoint_hit = &hw_watchpoint;
3061                         hw_watchpoint.vaddr = hw_breakpoint[n].addr;
3062                         hw_watchpoint.flags = BP_MEM_ACCESS;
3063                         break;
3064                     }
3065                 }
3066             }
3067         }
3068     } else if (kvm_find_sw_breakpoint(cs, arch_info->pc)) {
3069         ret = EXCP_DEBUG;
3070     }
3071     if (ret == 0) {
3072         cpu_synchronize_state(cs);
3073         assert(env->exception_injected == -1);
3074
3075         /* pass to guest */
3076         env->exception_injected = arch_info->exception;
3077         env->has_error_code = 0;
3078     }
3079
3080     return ret;
3081 }
3082
3083 void kvm_arch_update_guest_debug(CPUState *cpu, struct kvm_guest_debug *dbg)
3084 {
3085     const uint8_t type_code[] = {
3086         [GDB_BREAKPOINT_HW] = 0x0,
3087         [GDB_WATCHPOINT_WRITE] = 0x1,
3088         [GDB_WATCHPOINT_ACCESS] = 0x3
3089     };
3090     const uint8_t len_code[] = {
3091         [1] = 0x0, [2] = 0x1, [4] = 0x3, [8] = 0x2
3092     };
3093     int n;
3094
3095     if (kvm_sw_breakpoints_active(cpu)) {
3096         dbg->control |= KVM_GUESTDBG_ENABLE | KVM_GUESTDBG_USE_SW_BP;
3097     }
3098     if (nb_hw_breakpoint > 0) {
3099         dbg->control |= KVM_GUESTDBG_ENABLE | KVM_GUESTDBG_USE_HW_BP;
3100         dbg->arch.debugreg[7] = 0x0600;
3101         for (n = 0; n < nb_hw_breakpoint; n++) {
3102             dbg->arch.debugreg[n] = hw_breakpoint[n].addr;
3103             dbg->arch.debugreg[7] |= (2 << (n * 2)) |
3104                 (type_code[hw_breakpoint[n].type] << (16 + n*4)) |
3105                 ((uint32_t)len_code[hw_breakpoint[n].len] << (18 + n*4));
3106         }
3107     }
3108 }
3109
3110 static bool host_supports_vmx(void)
3111 {
3112     uint32_t ecx, unused;
3113
3114     host_cpuid(1, 0, &unused, &unused, &ecx, &unused);
3115     return ecx & CPUID_EXT_VMX;
3116 }
3117
3118 #define VMX_INVALID_GUEST_STATE 0x80000021
3119
3120 int kvm_arch_handle_exit(CPUState *cs, struct kvm_run *run)
3121 {
3122     X86CPU *cpu = X86_CPU(cs);
3123     uint64_t code;
3124     int ret;
3125
3126     switch (run->exit_reason) {
3127     case KVM_EXIT_HLT:
3128         DPRINTF("handle_hlt\n");
3129         qemu_mutex_lock_iothread();
3130         ret = kvm_handle_halt(cpu);
3131         qemu_mutex_unlock_iothread();
3132         break;
3133     case KVM_EXIT_SET_TPR:
3134         ret = 0;
3135         break;
3136     case KVM_EXIT_TPR_ACCESS:
3137         qemu_mutex_lock_iothread();
3138         ret = kvm_handle_tpr_access(cpu);
3139         qemu_mutex_unlock_iothread();
3140         break;
3141     case KVM_EXIT_FAIL_ENTRY:
3142         code = run->fail_entry.hardware_entry_failure_reason;
3143         fprintf(stderr, "KVM: entry failed, hardware error 0x%" PRIx64 "\n",
3144                 code);
3145         if (host_supports_vmx() && code == VMX_INVALID_GUEST_STATE) {
3146             fprintf(stderr,
3147                     "\nIf you're running a guest on an Intel machine without "
3148                         "unrestricted mode\n"
3149                     "support, the failure can be most likely due to the guest "
3150                         "entering an invalid\n"
3151                     "state for Intel VT. For example, the guest maybe running "
3152                         "in big real mode\n"
3153                     "which is not supported on less recent Intel processors."
3154                         "\n\n");
3155         }
3156         ret = -1;
3157         break;
3158     case KVM_EXIT_EXCEPTION:
3159         fprintf(stderr, "KVM: exception %d exit (error code 0x%x)\n",
3160                 run->ex.exception, run->ex.error_code);
3161         ret = -1;
3162         break;
3163     case KVM_EXIT_DEBUG:
3164         DPRINTF("kvm_exit_debug\n");
3165         qemu_mutex_lock_iothread();
3166         ret = kvm_handle_debug(cpu, &run->debug.arch);
3167         qemu_mutex_unlock_iothread();
3168         break;
3169     case KVM_EXIT_HYPERV:
3170         ret = kvm_hv_handle_exit(cpu, &run->hyperv);
3171         break;
3172     case KVM_EXIT_IOAPIC_EOI:
3173         ioapic_eoi_broadcast(run->eoi.vector);
3174         ret = 0;
3175         break;
3176     default:
3177         fprintf(stderr, "KVM: unknown exit reason %d\n", run->exit_reason);
3178         ret = -1;
3179         break;
3180     }
3181
3182     return ret;
3183 }
3184
3185 bool kvm_arch_stop_on_emulation_error(CPUState *cs)
3186 {
3187     X86CPU *cpu = X86_CPU(cs);
3188     CPUX86State *env = &cpu->env;
3189
3190     kvm_cpu_synchronize_state(cs);
3191     return !(env->cr[0] & CR0_PE_MASK) ||
3192            ((env->segs[R_CS].selector  & 3) != 3);
3193 }
3194
3195 void kvm_arch_init_irq_routing(KVMState *s)
3196 {
3197     if (!kvm_check_extension(s, KVM_CAP_IRQ_ROUTING)) {
3198         /* If kernel can't do irq routing, interrupt source
3199          * override 0->2 cannot be set up as required by HPET.
3200          * So we have to disable it.
3201          */
3202         no_hpet = 1;
3203     }
3204     /* We know at this point that we're using the in-kernel
3205      * irqchip, so we can use irqfds, and on x86 we know
3206      * we can use msi via irqfd and GSI routing.
3207      */
3208     kvm_msi_via_irqfd_allowed = true;
3209     kvm_gsi_routing_allowed = true;
3210
3211     if (kvm_irqchip_is_split()) {
3212         int i;
3213
3214         /* If the ioapic is in QEMU and the lapics are in KVM, reserve
3215            MSI routes for signaling interrupts to the local apics. */
3216         for (i = 0; i < IOAPIC_NUM_PINS; i++) {
3217             if (kvm_irqchip_add_msi_route(s, 0, NULL) < 0) {
3218                 error_report("Could not enable split IRQ mode.");
3219                 exit(1);
3220             }
3221         }
3222     }
3223 }
3224
3225 int kvm_arch_irqchip_create(MachineState *ms, KVMState *s)
3226 {
3227     int ret;
3228     if (machine_kernel_irqchip_split(ms)) {
3229         ret = kvm_vm_enable_cap(s, KVM_CAP_SPLIT_IRQCHIP, 0, 24);
3230         if (ret) {
3231             error_report("Could not enable split irqchip mode: %s",
3232                          strerror(-ret));
3233             exit(1);
3234         } else {
3235             DPRINTF("Enabled KVM_CAP_SPLIT_IRQCHIP\n");
3236             kvm_split_irqchip = true;
3237             return 1;
3238         }
3239     } else {
3240         return 0;
3241     }
3242 }
3243
3244 /* Classic KVM device assignment interface. Will remain x86 only. */
3245 int kvm_device_pci_assign(KVMState *s, PCIHostDeviceAddress *dev_addr,
3246                           uint32_t flags, uint32_t *dev_id)
3247 {
3248     struct kvm_assigned_pci_dev dev_data = {
3249         .segnr = dev_addr->domain,
3250         .busnr = dev_addr->bus,
3251         .devfn = PCI_DEVFN(dev_addr->slot, dev_addr->function),
3252         .flags = flags,
3253     };
3254     int ret;
3255
3256     dev_data.assigned_dev_id =
3257         (dev_addr->domain << 16) | (dev_addr->bus << 8) | dev_data.devfn;
3258
3259     ret = kvm_vm_ioctl(s, KVM_ASSIGN_PCI_DEVICE, &dev_data);
3260     if (ret < 0) {
3261         return ret;
3262     }
3263
3264     *dev_id = dev_data.assigned_dev_id;
3265
3266     return 0;
3267 }
3268
3269 int kvm_device_pci_deassign(KVMState *s, uint32_t dev_id)
3270 {
3271     struct kvm_assigned_pci_dev dev_data = {
3272         .assigned_dev_id = dev_id,
3273     };
3274
3275     return kvm_vm_ioctl(s, KVM_DEASSIGN_PCI_DEVICE, &dev_data);
3276 }
3277
3278 static int kvm_assign_irq_internal(KVMState *s, uint32_t dev_id,
3279                                    uint32_t irq_type, uint32_t guest_irq)
3280 {
3281     struct kvm_assigned_irq assigned_irq = {
3282         .assigned_dev_id = dev_id,
3283         .guest_irq = guest_irq,
3284         .flags = irq_type,
3285     };
3286
3287     if (kvm_check_extension(s, KVM_CAP_ASSIGN_DEV_IRQ)) {
3288         return kvm_vm_ioctl(s, KVM_ASSIGN_DEV_IRQ, &assigned_irq);
3289     } else {
3290         return kvm_vm_ioctl(s, KVM_ASSIGN_IRQ, &assigned_irq);
3291     }
3292 }
3293
3294 int kvm_device_intx_assign(KVMState *s, uint32_t dev_id, bool use_host_msi,
3295                            uint32_t guest_irq)
3296 {
3297     uint32_t irq_type = KVM_DEV_IRQ_GUEST_INTX |
3298         (use_host_msi ? KVM_DEV_IRQ_HOST_MSI : KVM_DEV_IRQ_HOST_INTX);
3299
3300     return kvm_assign_irq_internal(s, dev_id, irq_type, guest_irq);
3301 }
3302
3303 int kvm_device_intx_set_mask(KVMState *s, uint32_t dev_id, bool masked)
3304 {
3305     struct kvm_assigned_pci_dev dev_data = {
3306         .assigned_dev_id = dev_id,
3307         .flags = masked ? KVM_DEV_ASSIGN_MASK_INTX : 0,
3308     };
3309
3310     return kvm_vm_ioctl(s, KVM_ASSIGN_SET_INTX_MASK, &dev_data);
3311 }
3312
3313 static int kvm_deassign_irq_internal(KVMState *s, uint32_t dev_id,
3314                                      uint32_t type)
3315 {
3316     struct kvm_assigned_irq assigned_irq = {
3317         .assigned_dev_id = dev_id,
3318         .flags = type,
3319     };
3320
3321     return kvm_vm_ioctl(s, KVM_DEASSIGN_DEV_IRQ, &assigned_irq);
3322 }
3323
3324 int kvm_device_intx_deassign(KVMState *s, uint32_t dev_id, bool use_host_msi)
3325 {
3326     return kvm_deassign_irq_internal(s, dev_id, KVM_DEV_IRQ_GUEST_INTX |
3327         (use_host_msi ? KVM_DEV_IRQ_HOST_MSI : KVM_DEV_IRQ_HOST_INTX));
3328 }
3329
3330 int kvm_device_msi_assign(KVMState *s, uint32_t dev_id, int virq)
3331 {
3332     return kvm_assign_irq_internal(s, dev_id, KVM_DEV_IRQ_HOST_MSI |
3333                                               KVM_DEV_IRQ_GUEST_MSI, virq);
3334 }
3335
3336 int kvm_device_msi_deassign(KVMState *s, uint32_t dev_id)
3337 {
3338     return kvm_deassign_irq_internal(s, dev_id, KVM_DEV_IRQ_GUEST_MSI |
3339                                                 KVM_DEV_IRQ_HOST_MSI);
3340 }
3341
3342 bool kvm_device_msix_supported(KVMState *s)
3343 {
3344     /* The kernel lacks a corresponding KVM_CAP, so we probe by calling
3345      * KVM_ASSIGN_SET_MSIX_NR with an invalid parameter. */
3346     return kvm_vm_ioctl(s, KVM_ASSIGN_SET_MSIX_NR, NULL) == -EFAULT;
3347 }
3348
3349 int kvm_device_msix_init_vectors(KVMState *s, uint32_t dev_id,
3350                                  uint32_t nr_vectors)
3351 {
3352     struct kvm_assigned_msix_nr msix_nr = {
3353         .assigned_dev_id = dev_id,
3354         .entry_nr = nr_vectors,
3355     };
3356
3357     return kvm_vm_ioctl(s, KVM_ASSIGN_SET_MSIX_NR, &msix_nr);
3358 }
3359
3360 int kvm_device_msix_set_vector(KVMState *s, uint32_t dev_id, uint32_t vector,
3361                                int virq)
3362 {
3363     struct kvm_assigned_msix_entry msix_entry = {
3364         .assigned_dev_id = dev_id,
3365         .gsi = virq,
3366         .entry = vector,
3367     };
3368
3369     return kvm_vm_ioctl(s, KVM_ASSIGN_SET_MSIX_ENTRY, &msix_entry);
3370 }
3371
3372 int kvm_device_msix_assign(KVMState *s, uint32_t dev_id)
3373 {
3374     return kvm_assign_irq_internal(s, dev_id, KVM_DEV_IRQ_HOST_MSIX |
3375                                               KVM_DEV_IRQ_GUEST_MSIX, 0);
3376 }
3377
3378 int kvm_device_msix_deassign(KVMState *s, uint32_t dev_id)
3379 {
3380     return kvm_deassign_irq_internal(s, dev_id, KVM_DEV_IRQ_GUEST_MSIX |
3381                                                 KVM_DEV_IRQ_HOST_MSIX);
3382 }
3383
3384 int kvm_arch_fixup_msi_route(struct kvm_irq_routing_entry *route,
3385                              uint64_t address, uint32_t data, PCIDevice *dev)
3386 {
3387     X86IOMMUState *iommu = x86_iommu_get_default();
3388
3389     if (iommu) {
3390         int ret;
3391         MSIMessage src, dst;
3392         X86IOMMUClass *class = X86_IOMMU_GET_CLASS(iommu);
3393
3394         src.address = route->u.msi.address_hi;
3395         src.address <<= VTD_MSI_ADDR_HI_SHIFT;
3396         src.address |= route->u.msi.address_lo;
3397         src.data = route->u.msi.data;
3398
3399         ret = class->int_remap(iommu, &src, &dst, dev ? \
3400                                pci_requester_id(dev) : \
3401                                X86_IOMMU_SID_INVALID);
3402         if (ret) {
3403             trace_kvm_x86_fixup_msi_error(route->gsi);
3404             return 1;
3405         }
3406
3407         route->u.msi.address_hi = dst.address >> VTD_MSI_ADDR_HI_SHIFT;
3408         route->u.msi.address_lo = dst.address & VTD_MSI_ADDR_LO_MASK;
3409         route->u.msi.data = dst.data;
3410     }
3411
3412     return 0;
3413 }
3414
3415 typedef struct MSIRouteEntry MSIRouteEntry;
3416
3417 struct MSIRouteEntry {
3418     PCIDevice *dev;             /* Device pointer */
3419     int vector;                 /* MSI/MSIX vector index */
3420     int virq;                   /* Virtual IRQ index */
3421     QLIST_ENTRY(MSIRouteEntry) list;
3422 };
3423
3424 /* List of used GSI routes */
3425 static QLIST_HEAD(, MSIRouteEntry) msi_route_list = \
3426     QLIST_HEAD_INITIALIZER(msi_route_list);
3427
3428 static void kvm_update_msi_routes_all(void *private, bool global,
3429                                       uint32_t index, uint32_t mask)
3430 {
3431     int cnt = 0;
3432     MSIRouteEntry *entry;
3433     MSIMessage msg;
3434     PCIDevice *dev;
3435
3436     /* TODO: explicit route update */
3437     QLIST_FOREACH(entry, &msi_route_list, list) {
3438         cnt++;
3439         dev = entry->dev;
3440         if (!msix_enabled(dev) && !msi_enabled(dev)) {
3441             continue;
3442         }
3443         msg = pci_get_msi_message(dev, entry->vector);
3444         kvm_irqchip_update_msi_route(kvm_state, entry->virq, msg, dev);
3445     }
3446     kvm_irqchip_commit_routes(kvm_state);
3447     trace_kvm_x86_update_msi_routes(cnt);
3448 }
3449
3450 int kvm_arch_add_msi_route_post(struct kvm_irq_routing_entry *route,
3451                                 int vector, PCIDevice *dev)
3452 {
3453     static bool notify_list_inited = false;
3454     MSIRouteEntry *entry;
3455
3456     if (!dev) {
3457         /* These are (possibly) IOAPIC routes only used for split
3458          * kernel irqchip mode, while what we are housekeeping are
3459          * PCI devices only. */
3460         return 0;
3461     }
3462
3463     entry = g_new0(MSIRouteEntry, 1);
3464     entry->dev = dev;
3465     entry->vector = vector;
3466     entry->virq = route->gsi;
3467     QLIST_INSERT_HEAD(&msi_route_list, entry, list);
3468
3469     trace_kvm_x86_add_msi_route(route->gsi);
3470
3471     if (!notify_list_inited) {
3472         /* For the first time we do add route, add ourselves into
3473          * IOMMU's IEC notify list if needed. */
3474         X86IOMMUState *iommu = x86_iommu_get_default();
3475         if (iommu) {
3476             x86_iommu_iec_register_notifier(iommu,
3477                                             kvm_update_msi_routes_all,
3478                                             NULL);
3479         }
3480         notify_list_inited = true;
3481     }
3482     return 0;
3483 }
3484
3485 int kvm_arch_release_virq_post(int virq)
3486 {
3487     MSIRouteEntry *entry, *next;
3488     QLIST_FOREACH_SAFE(entry, &msi_route_list, list, next) {
3489         if (entry->virq == virq) {
3490             trace_kvm_x86_remove_msi_route(virq);
3491             QLIST_REMOVE(entry, list);
3492             break;
3493         }
3494     }
3495     return 0;
3496 }
3497
3498 int kvm_arch_msi_data_to_gsi(uint32_t data)
3499 {
3500     abort();
3501 }