kvm-all.c

   1 /*
   2  * QEMU KVM support
   3  *
   4  * Copyright IBM, Corp. 2008
   5  *           Red Hat, Inc. 2008
   6  *
   7  * Authors:
   8  *  Anthony Liguori   <aliguori@us.ibm.com>
   9  *  Glauber Costa     <gcosta@redhat.com>
  10  *
  11  * This work is licensed under the terms of the GNU GPL, version 2 or later.
  12  * See the COPYING file in the top-level directory.
  13  *
  14  */
  15
  16 #include <sys/types.h>
  17 #include <sys/ioctl.h>
  18 #include <sys/mman.h>
  19 #include <stdarg.h>
  20
  21 #include <linux/kvm.h>
  22
  23 #include "qemu-common.h"
  24 #include "qemu-barrier.h"
  25 #include "qemu-option.h"
  26 #include "qemu-config.h"
  27 #include "sysemu.h"
  28 #include "hw/hw.h"
  29 #include "hw/msi.h"
  30 #include "gdbstub.h"
  31 #include "kvm.h"
  32 #include "bswap.h"
  33 #include "memory.h"
  34 #include "exec-memory.h"
  35 #include "event_notifier.h"
  36
  37 /* This check must be after config-host.h is included */
  38 #ifdef CONFIG_EVENTFD
  39 #include <sys/eventfd.h>
  40 #endif
  41
  42 /* KVM uses PAGE_SIZE in its definition of COALESCED_MMIO_MAX */
  43 #define PAGE_SIZE TARGET_PAGE_SIZE
  44
  45 //#define DEBUG_KVM
  46
  47 #ifdef DEBUG_KVM
  48 #define DPRINTF(fmt, ...) \
  49     do { fprintf(stderr, fmt, ## __VA_ARGS__); } while (0)
  50 #else
  51 #define DPRINTF(fmt, ...) \
  52     do { } while (0)
  53 #endif
  54
  55 #define KVM_MSI_HASHTAB_SIZE    256
  56
  57 typedef struct KVMSlot
  58 {
  59     target_phys_addr_t start_addr;
  60     ram_addr_t memory_size;
  61     void *ram;
  62     int slot;
  63     int flags;
  64 } KVMSlot;
  65
  66 typedef struct kvm_dirty_log KVMDirtyLog;
  67
  68 struct KVMState
  69 {
  70     KVMSlot slots[32];
  71     int fd;
  72     int vmfd;
  73     int coalesced_mmio;
  74     struct kvm_coalesced_mmio_ring *coalesced_mmio_ring;
  75     bool coalesced_flush_in_progress;
  76     int broken_set_mem_region;
  77     int migration_log;
  78     int vcpu_events;
  79     int robust_singlestep;
  80     int debugregs;
  81 #ifdef KVM_CAP_SET_GUEST_DEBUG
  82     struct kvm_sw_breakpoint_head kvm_sw_breakpoints;
  83 #endif
  84     int pit_state2;
  85     int xsave, xcrs;
  86     int many_ioeventfds;
  87     int intx_set_mask;
  88     /* The man page (and posix) say ioctl numbers are signed int, but
  89      * they're not.  Linux, glibc and *BSD all treat ioctl numbers as
  90      * unsigned, and treating them as signed here can break things */
  91     unsigned irqchip_inject_ioctl;
  92 #ifdef KVM_CAP_IRQ_ROUTING
  93     struct kvm_irq_routing *irq_routes;
  94     int nr_allocated_irq_routes;
  95     uint32_t *used_gsi_bitmap;
  96     unsigned int gsi_count;
  97     QTAILQ_HEAD(msi_hashtab, KVMMSIRoute) msi_hashtab[KVM_MSI_HASHTAB_SIZE];
  98     bool direct_msi;
  99 #endif
 100 };
 101
 102 KVMState *kvm_state;
 103 bool kvm_kernel_irqchip;
 104 bool kvm_async_interrupts_allowed;
 105 bool kvm_irqfds_allowed;
 106 bool kvm_msi_via_irqfd_allowed;
 107 bool kvm_gsi_routing_allowed;
 108
 109 static const KVMCapabilityInfo kvm_required_capabilites[] = {
 110     KVM_CAP_INFO(USER_MEMORY),
 111     KVM_CAP_INFO(DESTROY_MEMORY_REGION_WORKS),
 112     KVM_CAP_LAST_INFO
 113 };
 114
 115 static KVMSlot *kvm_alloc_slot(KVMState *s)
 116 {
 117     int i;
 118
 119     for (i = 0; i < ARRAY_SIZE(s->slots); i++) {
 120         if (s->slots[i].memory_size == 0) {
 121             return &s->slots[i];
 122         }
 123     }
 124
 125     fprintf(stderr, "%s: no free slot available\n", __func__);
 126     abort();
 127 }
 128
 129 static KVMSlot *kvm_lookup_matching_slot(KVMState *s,
 130                                          target_phys_addr_t start_addr,
 131                                          target_phys_addr_t end_addr)
 132 {
 133     int i;
 134
 135     for (i = 0; i < ARRAY_SIZE(s->slots); i++) {
 136         KVMSlot *mem = &s->slots[i];
 137
 138         if (start_addr == mem->start_addr &&
 139             end_addr == mem->start_addr + mem->memory_size) {
 140             return mem;
 141         }
 142     }
 143
 144     return NULL;
 145 }
 146
 147 /*
 148  * Find overlapping slot with lowest start address
 149  */
 150 static KVMSlot *kvm_lookup_overlapping_slot(KVMState *s,
 151                                             target_phys_addr_t start_addr,
 152                                             target_phys_addr_t end_addr)
 153 {
 154     KVMSlot *found = NULL;
 155     int i;
 156
 157     for (i = 0; i < ARRAY_SIZE(s->slots); i++) {
 158         KVMSlot *mem = &s->slots[i];
 159
 160         if (mem->memory_size == 0 ||
 161             (found && found->start_addr < mem->start_addr)) {
 162             continue;
 163         }
 164
 165         if (end_addr > mem->start_addr &&
 166             start_addr < mem->start_addr + mem->memory_size) {
 167             found = mem;
 168         }
 169     }
 170
 171     return found;
 172 }
 173
 174 int kvm_physical_memory_addr_from_host(KVMState *s, void *ram,
 175                                        target_phys_addr_t *phys_addr)
 176 {
 177     int i;
 178
 179     for (i = 0; i < ARRAY_SIZE(s->slots); i++) {
 180         KVMSlot *mem = &s->slots[i];
 181
 182         if (ram >= mem->ram && ram < mem->ram + mem->memory_size) {
 183             *phys_addr = mem->start_addr + (ram - mem->ram);
 184             return 1;
 185         }
 186     }
 187
 188     return 0;
 189 }
 190
 191 static int kvm_set_user_memory_region(KVMState *s, KVMSlot *slot)
 192 {
 193     struct kvm_userspace_memory_region mem;
 194
 195     mem.slot = slot->slot;
 196     mem.guest_phys_addr = slot->start_addr;
 197     mem.memory_size = slot->memory_size;
 198     mem.userspace_addr = (unsigned long)slot->ram;
 199     mem.flags = slot->flags;
 200     if (s->migration_log) {
 201         mem.flags |= KVM_MEM_LOG_DIRTY_PAGES;
 202     }
 203     return kvm_vm_ioctl(s, KVM_SET_USER_MEMORY_REGION, &mem);
 204 }
 205
 206 static void kvm_reset_vcpu(void *opaque)
 207 {
 208     CPUArchState *env = opaque;
 209
 210     kvm_arch_reset_vcpu(env);
 211 }
 212
 213 int kvm_init_vcpu(CPUArchState *env)
 214 {
 215     KVMState *s = kvm_state;
 216     long mmap_size;
 217     int ret;
 218
 219     DPRINTF("kvm_init_vcpu\n");
 220
 221     ret = kvm_vm_ioctl(s, KVM_CREATE_VCPU, env->cpu_index);
 222     if (ret < 0) {
 223         DPRINTF("kvm_create_vcpu failed\n");
 224         goto err;
 225     }
 226
 227     env->kvm_fd = ret;
 228     env->kvm_state = s;
 229     env->kvm_vcpu_dirty = 1;
 230
 231     mmap_size = kvm_ioctl(s, KVM_GET_VCPU_MMAP_SIZE, 0);
 232     if (mmap_size < 0) {
 233         ret = mmap_size;
 234         DPRINTF("KVM_GET_VCPU_MMAP_SIZE failed\n");
 235         goto err;
 236     }
 237
 238     env->kvm_run = mmap(NULL, mmap_size, PROT_READ | PROT_WRITE, MAP_SHARED,
 239                         env->kvm_fd, 0);
 240     if (env->kvm_run == MAP_FAILED) {
 241         ret = -errno;
 242         DPRINTF("mmap'ing vcpu state failed\n");
 243         goto err;
 244     }
 245
 246     if (s->coalesced_mmio && !s->coalesced_mmio_ring) {
 247         s->coalesced_mmio_ring =
 248             (void *)env->kvm_run + s->coalesced_mmio * PAGE_SIZE;
 249     }
 250
 251     ret = kvm_arch_init_vcpu(env);
 252     if (ret == 0) {
 253         qemu_register_reset(kvm_reset_vcpu, env);
 254         kvm_arch_reset_vcpu(env);
 255     }
 256 err:
 257     return ret;
 258 }
 259
 260 /*
 261  * dirty pages logging control
 262  */
 263
 264 static int kvm_mem_flags(KVMState *s, bool log_dirty)
 265 {
 266     return log_dirty ? KVM_MEM_LOG_DIRTY_PAGES : 0;
 267 }
 268
 269 static int kvm_slot_dirty_pages_log_change(KVMSlot *mem, bool log_dirty)
 270 {
 271     KVMState *s = kvm_state;
 272     int flags, mask = KVM_MEM_LOG_DIRTY_PAGES;
 273     int old_flags;
 274
 275     old_flags = mem->flags;
 276
 277     flags = (mem->flags & ~mask) | kvm_mem_flags(s, log_dirty);
 278     mem->flags = flags;
 279
 280     /* If nothing changed effectively, no need to issue ioctl */
 281     if (s->migration_log) {
 282         flags |= KVM_MEM_LOG_DIRTY_PAGES;
 283     }
 284
 285     if (flags == old_flags) {
 286         return 0;
 287     }
 288
 289     return kvm_set_user_memory_region(s, mem);
 290 }
 291
 292 static int kvm_dirty_pages_log_change(target_phys_addr_t phys_addr,
 293                                       ram_addr_t size, bool log_dirty)
 294 {
 295     KVMState *s = kvm_state;
 296     KVMSlot *mem = kvm_lookup_matching_slot(s, phys_addr, phys_addr + size);
 297
 298     if (mem == NULL)  {
 299         fprintf(stderr, "BUG: %s: invalid parameters " TARGET_FMT_plx "-"
 300                 TARGET_FMT_plx "\n", __func__, phys_addr,
 301                 (target_phys_addr_t)(phys_addr + size - 1));
 302         return -EINVAL;
 303     }
 304     return kvm_slot_dirty_pages_log_change(mem, log_dirty);
 305 }
 306
 307 static void kvm_log_start(MemoryListener *listener,
 308                           MemoryRegionSection *section)
 309 {
 310     int r;
 311
 312     r = kvm_dirty_pages_log_change(section->offset_within_address_space,
 313                                    section->size, true);
 314     if (r < 0) {
 315         abort();
 316     }
 317 }
 318
 319 static void kvm_log_stop(MemoryListener *listener,
 320                           MemoryRegionSection *section)
 321 {
 322     int r;
 323
 324     r = kvm_dirty_pages_log_change(section->offset_within_address_space,
 325                                    section->size, false);
 326     if (r < 0) {
 327         abort();
 328     }
 329 }
 330
 331 static int kvm_set_migration_log(int enable)
 332 {
 333     KVMState *s = kvm_state;
 334     KVMSlot *mem;
 335     int i, err;
 336
 337     s->migration_log = enable;
 338
 339     for (i = 0; i < ARRAY_SIZE(s->slots); i++) {
 340         mem = &s->slots[i];
 341
 342         if (!mem->memory_size) {
 343             continue;
 344         }
 345         if (!!(mem->flags & KVM_MEM_LOG_DIRTY_PAGES) == enable) {
 346             continue;
 347         }
 348         err = kvm_set_user_memory_region(s, mem);
 349         if (err) {
 350             return err;
 351         }
 352     }
 353     return 0;
 354 }
 355
 356 /* get kvm's dirty pages bitmap and update qemu's */
 357 static int kvm_get_dirty_pages_log_range(MemoryRegionSection *section,
 358                                          unsigned long *bitmap)
 359 {
 360     unsigned int i, j;
 361     unsigned long page_number, c;
 362     target_phys_addr_t addr, addr1;
 363     unsigned int len = ((section->size / TARGET_PAGE_SIZE) + HOST_LONG_BITS - 1) / HOST_LONG_BITS;
 364     unsigned long hpratio = getpagesize() / TARGET_PAGE_SIZE;
 365
 366     /*
 367      * bitmap-traveling is faster than memory-traveling (for addr...)
 368      * especially when most of the memory is not dirty.
 369      */
 370     for (i = 0; i < len; i++) {
 371         if (bitmap[i] != 0) {
 372             c = leul_to_cpu(bitmap[i]);
 373             do {
 374                 j = ffsl(c) - 1;
 375                 c &= ~(1ul << j);
 376                 page_number = (i * HOST_LONG_BITS + j) * hpratio;
 377                 addr1 = page_number * TARGET_PAGE_SIZE;
 378                 addr = section->offset_within_region + addr1;
 379                 memory_region_set_dirty(section->mr, addr,
 380                                         TARGET_PAGE_SIZE * hpratio);
 381             } while (c != 0);
 382         }
 383     }
 384     return 0;
 385 }
 386
 387 #define ALIGN(x, y)  (((x)+(y)-1) & ~((y)-1))
 388
 389 /**
 390  * kvm_physical_sync_dirty_bitmap - Grab dirty bitmap from kernel space
 391  * This function updates qemu's dirty bitmap using
 392  * memory_region_set_dirty().  This means all bits are set
 393  * to dirty.
 394  *
 395  * @start_add: start of logged region.
 396  * @end_addr: end of logged region.
 397  */
 398 static int kvm_physical_sync_dirty_bitmap(MemoryRegionSection *section)
 399 {
 400     KVMState *s = kvm_state;
 401     unsigned long size, allocated_size = 0;
 402     KVMDirtyLog d;
 403     KVMSlot *mem;
 404     int ret = 0;
 405     target_phys_addr_t start_addr = section->offset_within_address_space;
 406     target_phys_addr_t end_addr = start_addr + section->size;
 407
 408     d.dirty_bitmap = NULL;
 409     while (start_addr < end_addr) {
 410         mem = kvm_lookup_overlapping_slot(s, start_addr, end_addr);
 411         if (mem == NULL) {
 412             break;
 413         }
 414
 415         /* XXX bad kernel interface alert
 416          * For dirty bitmap, kernel allocates array of size aligned to
 417          * bits-per-long.  But for case when the kernel is 64bits and
 418          * the userspace is 32bits, userspace can't align to the same
 419          * bits-per-long, since sizeof(long) is different between kernel
 420          * and user space.  This way, userspace will provide buffer which
 421          * may be 4 bytes less than the kernel will use, resulting in
 422          * userspace memory corruption (which is not detectable by valgrind
 423          * too, in most cases).
 424          * So for now, let's align to 64 instead of HOST_LONG_BITS here, in
 425          * a hope that sizeof(long) wont become >8 any time soon.
 426          */
 427         size = ALIGN(((mem->memory_size) >> TARGET_PAGE_BITS),
 428                      /*HOST_LONG_BITS*/ 64) / 8;
 429         if (!d.dirty_bitmap) {
 430             d.dirty_bitmap = g_malloc(size);
 431         } else if (size > allocated_size) {
 432             d.dirty_bitmap = g_realloc(d.dirty_bitmap, size);
 433         }
 434         allocated_size = size;
 435         memset(d.dirty_bitmap, 0, allocated_size);
 436
 437         d.slot = mem->slot;
 438
 439         if (kvm_vm_ioctl(s, KVM_GET_DIRTY_LOG, &d) == -1) {
 440             DPRINTF("ioctl failed %d\n", errno);
 441             ret = -1;
 442             break;
 443         }
 444
 445         kvm_get_dirty_pages_log_range(section, d.dirty_bitmap);
 446         start_addr = mem->start_addr + mem->memory_size;
 447     }
 448     g_free(d.dirty_bitmap);
 449
 450     return ret;
 451 }
 452
 453 int kvm_coalesce_mmio_region(target_phys_addr_t start, ram_addr_t size)
 454 {
 455     int ret = -ENOSYS;
 456     KVMState *s = kvm_state;
 457
 458     if (s->coalesced_mmio) {
 459         struct kvm_coalesced_mmio_zone zone;
 460
 461         zone.addr = start;
 462         zone.size = size;
 463         zone.pad = 0;
 464
 465         ret = kvm_vm_ioctl(s, KVM_REGISTER_COALESCED_MMIO, &zone);
 466     }
 467
 468     return ret;
 469 }
 470
 471 int kvm_uncoalesce_mmio_region(target_phys_addr_t start, ram_addr_t size)
 472 {
 473     int ret = -ENOSYS;
 474     KVMState *s = kvm_state;
 475
 476     if (s->coalesced_mmio) {
 477         struct kvm_coalesced_mmio_zone zone;
 478
 479         zone.addr = start;
 480         zone.size = size;
 481         zone.pad = 0;
 482
 483         ret = kvm_vm_ioctl(s, KVM_UNREGISTER_COALESCED_MMIO, &zone);
 484     }
 485
 486     return ret;
 487 }
 488
 489 int kvm_check_extension(KVMState *s, unsigned int extension)
 490 {
 491     int ret;
 492
 493     ret = kvm_ioctl(s, KVM_CHECK_EXTENSION, extension);
 494     if (ret < 0) {
 495         ret = 0;
 496     }
 497
 498     return ret;
 499 }
 500
 501 static int kvm_check_many_ioeventfds(void)
 502 {
 503     /* Userspace can use ioeventfd for io notification.  This requires a host
 504      * that supports eventfd(2) and an I/O thread; since eventfd does not
 505      * support SIGIO it cannot interrupt the vcpu.
 506      *
 507      * Older kernels have a 6 device limit on the KVM io bus.  Find out so we
 508      * can avoid creating too many ioeventfds.
 509      */
 510 #if defined(CONFIG_EVENTFD)
 511     int ioeventfds[7];
 512     int i, ret = 0;
 513     for (i = 0; i < ARRAY_SIZE(ioeventfds); i++) {
 514         ioeventfds[i] = eventfd(0, EFD_CLOEXEC);
 515         if (ioeventfds[i] < 0) {
 516             break;
 517         }
 518         ret = kvm_set_ioeventfd_pio_word(ioeventfds[i], 0, i, true);
 519         if (ret < 0) {
 520             close(ioeventfds[i]);
 521             break;
 522         }
 523     }
 524
 525     /* Decide whether many devices are supported or not */
 526     ret = i == ARRAY_SIZE(ioeventfds);
 527
 528     while (i-- > 0) {
 529         kvm_set_ioeventfd_pio_word(ioeventfds[i], 0, i, false);
 530         close(ioeventfds[i]);
 531     }
 532     return ret;
 533 #else
 534     return 0;
 535 #endif
 536 }
 537
 538 static const KVMCapabilityInfo *
 539 kvm_check_extension_list(KVMState *s, const KVMCapabilityInfo *list)
 540 {
 541     while (list->name) {
 542         if (!kvm_check_extension(s, list->value)) {
 543             return list;
 544         }
 545         list++;
 546     }
 547     return NULL;
 548 }
 549
 550 static void kvm_set_phys_mem(MemoryRegionSection *section, bool add)
 551 {
 552     KVMState *s = kvm_state;
 553     KVMSlot *mem, old;
 554     int err;
 555     MemoryRegion *mr = section->mr;
 556     bool log_dirty = memory_region_is_logging(mr);
 557     target_phys_addr_t start_addr = section->offset_within_address_space;
 558     ram_addr_t size = section->size;
 559     void *ram = NULL;
 560     unsigned delta;
 561
 562     /* kvm works in page size chunks, but the function may be called
 563        with sub-page size and unaligned start address. */
 564     delta = TARGET_PAGE_ALIGN(size) - size;
 565     if (delta > size) {
 566         return;
 567     }
 568     start_addr += delta;
 569     size -= delta;
 570     size &= TARGET_PAGE_MASK;
 571     if (!size || (start_addr & ~TARGET_PAGE_MASK)) {
 572         return;
 573     }
 574
 575     if (!memory_region_is_ram(mr)) {
 576         return;
 577     }
 578
 579     ram = memory_region_get_ram_ptr(mr) + section->offset_within_region + delta;
 580
 581     while (1) {
 582         mem = kvm_lookup_overlapping_slot(s, start_addr, start_addr + size);
 583         if (!mem) {
 584             break;
 585         }
 586
 587         if (add && start_addr >= mem->start_addr &&
 588             (start_addr + size <= mem->start_addr + mem->memory_size) &&
 589             (ram - start_addr == mem->ram - mem->start_addr)) {
 590             /* The new slot fits into the existing one and comes with
 591              * identical parameters - update flags and done. */
 592             kvm_slot_dirty_pages_log_change(mem, log_dirty);
 593             return;
 594         }
 595
 596         old = *mem;
 597
 598         if (mem->flags & KVM_MEM_LOG_DIRTY_PAGES) {
 599             kvm_physical_sync_dirty_bitmap(section);
 600         }
 601
 602         /* unregister the overlapping slot */
 603         mem->memory_size = 0;
 604         err = kvm_set_user_memory_region(s, mem);
 605         if (err) {
 606             fprintf(stderr, "%s: error unregistering overlapping slot: %s\n",
 607                     __func__, strerror(-err));
 608             abort();
 609         }
 610
 611         /* Workaround for older KVM versions: we can't join slots, even not by
 612          * unregistering the previous ones and then registering the larger
 613          * slot. We have to maintain the existing fragmentation. Sigh.
 614          *
 615          * This workaround assumes that the new slot starts at the same
 616          * address as the first existing one. If not or if some overlapping
 617          * slot comes around later, we will fail (not seen in practice so far)
 618          * - and actually require a recent KVM version. */
 619         if (s->broken_set_mem_region &&
 620             old.start_addr == start_addr && old.memory_size < size && add) {
 621             mem = kvm_alloc_slot(s);
 622             mem->memory_size = old.memory_size;
 623             mem->start_addr = old.start_addr;
 624             mem->ram = old.ram;
 625             mem->flags = kvm_mem_flags(s, log_dirty);
 626
 627             err = kvm_set_user_memory_region(s, mem);
 628             if (err) {
 629                 fprintf(stderr, "%s: error updating slot: %s\n", __func__,
 630                         strerror(-err));
 631                 abort();
 632             }
 633
 634             start_addr += old.memory_size;
 635             ram += old.memory_size;
 636             size -= old.memory_size;
 637             continue;
 638         }
 639
 640         /* register prefix slot */
 641         if (old.start_addr < start_addr) {
 642             mem = kvm_alloc_slot(s);
 643             mem->memory_size = start_addr - old.start_addr;
 644             mem->start_addr = old.start_addr;
 645             mem->ram = old.ram;
 646             mem->flags =  kvm_mem_flags(s, log_dirty);
 647
 648             err = kvm_set_user_memory_region(s, mem);
 649             if (err) {
 650                 fprintf(stderr, "%s: error registering prefix slot: %s\n",
 651                         __func__, strerror(-err));
 652 #ifdef TARGET_PPC
 653                 fprintf(stderr, "%s: This is probably because your kernel's " \
 654                                 "PAGE_SIZE is too big. Please try to use 4k " \
 655                                 "PAGE_SIZE!\n", __func__);
 656 #endif
 657                 abort();
 658             }
 659         }
 660
 661         /* register suffix slot */
 662         if (old.start_addr + old.memory_size > start_addr + size) {
 663             ram_addr_t size_delta;
 664
 665             mem = kvm_alloc_slot(s);
 666             mem->start_addr = start_addr + size;
 667             size_delta = mem->start_addr - old.start_addr;
 668             mem->memory_size = old.memory_size - size_delta;
 669             mem->ram = old.ram + size_delta;
 670             mem->flags = kvm_mem_flags(s, log_dirty);
 671
 672             err = kvm_set_user_memory_region(s, mem);
 673             if (err) {
 674                 fprintf(stderr, "%s: error registering suffix slot: %s\n",
 675                         __func__, strerror(-err));
 676                 abort();
 677             }
 678         }
 679     }
 680
 681     /* in case the KVM bug workaround already "consumed" the new slot */
 682     if (!size) {
 683         return;
 684     }
 685     if (!add) {
 686         return;
 687     }
 688     mem = kvm_alloc_slot(s);
 689     mem->memory_size = size;
 690     mem->start_addr = start_addr;
 691     mem->ram = ram;
 692     mem->flags = kvm_mem_flags(s, log_dirty);
 693
 694     err = kvm_set_user_memory_region(s, mem);
 695     if (err) {
 696         fprintf(stderr, "%s: error registering slot: %s\n", __func__,
 697                 strerror(-err));
 698         abort();
 699     }
 700 }
 701
 702 static void kvm_begin(MemoryListener *listener)
 703 {
 704 }
 705
 706 static void kvm_commit(MemoryListener *listener)
 707 {
 708 }
 709
 710 static void kvm_region_add(MemoryListener *listener,
 711                            MemoryRegionSection *section)
 712 {
 713     kvm_set_phys_mem(section, true);
 714 }
 715
 716 static void kvm_region_del(MemoryListener *listener,
 717                            MemoryRegionSection *section)
 718 {
 719     kvm_set_phys_mem(section, false);
 720 }
 721
 722 static void kvm_region_nop(MemoryListener *listener,
 723                            MemoryRegionSection *section)
 724 {
 725 }
 726
 727 static void kvm_log_sync(MemoryListener *listener,
 728                          MemoryRegionSection *section)
 729 {
 730     int r;
 731
 732     r = kvm_physical_sync_dirty_bitmap(section);
 733     if (r < 0) {
 734         abort();
 735     }
 736 }
 737
 738 static void kvm_log_global_start(struct MemoryListener *listener)
 739 {
 740     int r;
 741
 742     r = kvm_set_migration_log(1);
 743     assert(r >= 0);
 744 }
 745
 746 static void kvm_log_global_stop(struct MemoryListener *listener)
 747 {
 748     int r;
 749
 750     r = kvm_set_migration_log(0);
 751     assert(r >= 0);
 752 }
 753
 754 static void kvm_mem_ioeventfd_add(MemoryRegionSection *section,
 755                                   bool match_data, uint64_t data, int fd)
 756 {
 757     int r;
 758
 759     assert(match_data && section->size <= 8);
 760
 761     r = kvm_set_ioeventfd_mmio(fd, section->offset_within_address_space,
 762                                data, true, section->size);
 763     if (r < 0) {
 764         abort();
 765     }
 766 }
 767
 768 static void kvm_mem_ioeventfd_del(MemoryRegionSection *section,
 769                                   bool match_data, uint64_t data, int fd)
 770 {
 771     int r;
 772
 773     r = kvm_set_ioeventfd_mmio(fd, section->offset_within_address_space,
 774                                data, false, section->size);
 775     if (r < 0) {
 776         abort();
 777     }
 778 }
 779
 780 static void kvm_io_ioeventfd_add(MemoryRegionSection *section,
 781                                  bool match_data, uint64_t data, int fd)
 782 {
 783     int r;
 784
 785     assert(match_data && section->size == 2);
 786
 787     r = kvm_set_ioeventfd_pio_word(fd, section->offset_within_address_space,
 788                                    data, true);
 789     if (r < 0) {
 790         abort();
 791     }
 792 }
 793
 794 static void kvm_io_ioeventfd_del(MemoryRegionSection *section,
 795                                  bool match_data, uint64_t data, int fd)
 796
 797 {
 798     int r;
 799
 800     r = kvm_set_ioeventfd_pio_word(fd, section->offset_within_address_space,
 801                                    data, false);
 802     if (r < 0) {
 803         abort();
 804     }
 805 }
 806
 807 static void kvm_eventfd_add(MemoryListener *listener,
 808                             MemoryRegionSection *section,
 809                             bool match_data, uint64_t data,
 810                             EventNotifier *e)
 811 {
 812     if (section->address_space == get_system_memory()) {
 813         kvm_mem_ioeventfd_add(section, match_data, data,
 814                               event_notifier_get_fd(e));
 815     } else {
 816         kvm_io_ioeventfd_add(section, match_data, data,
 817                              event_notifier_get_fd(e));
 818     }
 819 }
 820
 821 static void kvm_eventfd_del(MemoryListener *listener,
 822                             MemoryRegionSection *section,
 823                             bool match_data, uint64_t data,
 824                             EventNotifier *e)
 825 {
 826     if (section->address_space == get_system_memory()) {
 827         kvm_mem_ioeventfd_del(section, match_data, data,
 828                               event_notifier_get_fd(e));
 829     } else {
 830         kvm_io_ioeventfd_del(section, match_data, data,
 831                              event_notifier_get_fd(e));
 832     }
 833 }
 834
 835 static MemoryListener kvm_memory_listener = {
 836     .begin = kvm_begin,
 837     .commit = kvm_commit,
 838     .region_add = kvm_region_add,
 839     .region_del = kvm_region_del,
 840     .region_nop = kvm_region_nop,
 841     .log_start = kvm_log_start,
 842     .log_stop = kvm_log_stop,
 843     .log_sync = kvm_log_sync,
 844     .log_global_start = kvm_log_global_start,
 845     .log_global_stop = kvm_log_global_stop,
 846     .eventfd_add = kvm_eventfd_add,
 847     .eventfd_del = kvm_eventfd_del,
 848     .priority = 10,
 849 };
 850
 851 static void kvm_handle_interrupt(CPUArchState *env, int mask)
 852 {
 853     env->interrupt_request |= mask;
 854
 855     if (!qemu_cpu_is_self(env)) {
 856         qemu_cpu_kick(env);
 857     }
 858 }
 859
 860 int kvm_set_irq(KVMState *s, int irq, int level)
 861 {
 862     struct kvm_irq_level event;
 863     int ret;
 864
 865     assert(kvm_async_interrupts_enabled());
 866
 867     event.level = level;
 868     event.irq = irq;
 869     ret = kvm_vm_ioctl(s, s->irqchip_inject_ioctl, &event);
 870     if (ret < 0) {
 871         perror("kvm_set_irq");
 872         abort();
 873     }
 874
 875     return (s->irqchip_inject_ioctl == KVM_IRQ_LINE) ? 1 : event.status;
 876 }
 877
 878 #ifdef KVM_CAP_IRQ_ROUTING
 879 typedef struct KVMMSIRoute {
 880     struct kvm_irq_routing_entry kroute;
 881     QTAILQ_ENTRY(KVMMSIRoute) entry;
 882 } KVMMSIRoute;
 883
 884 static void set_gsi(KVMState *s, unsigned int gsi)
 885 {
 886     s->used_gsi_bitmap[gsi / 32] |= 1U << (gsi % 32);
 887 }
 888
 889 static void clear_gsi(KVMState *s, unsigned int gsi)
 890 {
 891     s->used_gsi_bitmap[gsi / 32] &= ~(1U << (gsi % 32));
 892 }
 893
 894 static void kvm_init_irq_routing(KVMState *s)
 895 {
 896     int gsi_count, i;
 897
 898     gsi_count = kvm_check_extension(s, KVM_CAP_IRQ_ROUTING);
 899     if (gsi_count > 0) {
 900         unsigned int gsi_bits, i;
 901
 902         /* Round up so we can search ints using ffs */
 903         gsi_bits = ALIGN(gsi_count, 32);
 904         s->used_gsi_bitmap = g_malloc0(gsi_bits / 8);
 905         s->gsi_count = gsi_count;
 906
 907         /* Mark any over-allocated bits as already in use */
 908         for (i = gsi_count; i < gsi_bits; i++) {
 909             set_gsi(s, i);
 910         }
 911     }
 912
 913     s->irq_routes = g_malloc0(sizeof(*s->irq_routes));
 914     s->nr_allocated_irq_routes = 0;
 915
 916     if (!s->direct_msi) {
 917         for (i = 0; i < KVM_MSI_HASHTAB_SIZE; i++) {
 918             QTAILQ_INIT(&s->msi_hashtab[i]);
 919         }
 920     }
 921
 922     kvm_arch_init_irq_routing(s);
 923 }
 924
 925 void kvm_irqchip_commit_routes(KVMState *s)
 926 {
 927     int ret;
 928
 929     s->irq_routes->flags = 0;
 930     ret = kvm_vm_ioctl(s, KVM_SET_GSI_ROUTING, s->irq_routes);
 931     assert(ret == 0);
 932 }
 933
 934 void kvm_add_routing_entry(KVMState *s,
 935                                   struct kvm_irq_routing_entry *entry)
 936 {
 937     struct kvm_irq_routing_entry *new;
 938     int n, size;
 939
 940     if (s->irq_routes->nr == s->nr_allocated_irq_routes) {
 941         n = s->nr_allocated_irq_routes * 2;
 942         if (n < 64) {
 943             n = 64;
 944         }
 945         size = sizeof(struct kvm_irq_routing);
 946         size += n * sizeof(*new);
 947         s->irq_routes = g_realloc(s->irq_routes, size);
 948         s->nr_allocated_irq_routes = n;
 949     }
 950     n = s->irq_routes->nr++;
 951     new = &s->irq_routes->entries[n];
 952     memset(new, 0, sizeof(*new));
 953     new->gsi = entry->gsi;
 954     new->type = entry->type;
 955     new->flags = entry->flags;
 956     new->u = entry->u;
 957
 958     set_gsi(s, entry->gsi);
 959
 960     kvm_irqchip_commit_routes(s);
 961 }
 962
 963 void kvm_irqchip_add_irq_route(KVMState *s, int irq, int irqchip, int pin)
 964 {
 965     struct kvm_irq_routing_entry e;
 966
 967     assert(pin < s->gsi_count);
 968
 969     e.gsi = irq;
 970     e.type = KVM_IRQ_ROUTING_IRQCHIP;
 971     e.flags = 0;
 972     e.u.irqchip.irqchip = irqchip;
 973     e.u.irqchip.pin = pin;
 974     kvm_add_routing_entry(s, &e);
 975 }
 976
 977 void kvm_irqchip_release_virq(KVMState *s, int virq)
 978 {
 979     struct kvm_irq_routing_entry *e;
 980     int i;
 981
 982     for (i = 0; i < s->irq_routes->nr; i++) {
 983         e = &s->irq_routes->entries[i];
 984         if (e->gsi == virq) {
 985             s->irq_routes->nr--;
 986             *e = s->irq_routes->entries[s->irq_routes->nr];
 987         }
 988     }
 989     clear_gsi(s, virq);
 990
 991     kvm_irqchip_commit_routes(s);
 992 }
 993
 994 static unsigned int kvm_hash_msi(uint32_t data)
 995 {
 996     /* This is optimized for IA32 MSI layout. However, no other arch shall
 997      * repeat the mistake of not providing a direct MSI injection API. */
 998     return data & 0xff;
 999 }
1000
1001 static void kvm_flush_dynamic_msi_routes(KVMState *s)
1002 {
1003     KVMMSIRoute *route, *next;
1004     unsigned int hash;
1005
1006     for (hash = 0; hash < KVM_MSI_HASHTAB_SIZE; hash++) {
1007         QTAILQ_FOREACH_SAFE(route, &s->msi_hashtab[hash], entry, next) {
1008             kvm_irqchip_release_virq(s, route->kroute.gsi);
1009             QTAILQ_REMOVE(&s->msi_hashtab[hash], route, entry);
1010             g_free(route);
1011         }
1012     }
1013 }
1014
1015 static int kvm_irqchip_get_virq(KVMState *s)
1016 {
1017     uint32_t *word = s->used_gsi_bitmap;
1018     int max_words = ALIGN(s->gsi_count, 32) / 32;
1019     int i, bit;
1020     bool retry = true;
1021
1022 again:
1023     /* Return the lowest unused GSI in the bitmap */
1024     for (i = 0; i < max_words; i++) {
1025         bit = ffs(~word[i]);
1026         if (!bit) {
1027             continue;
1028         }
1029
1030         return bit - 1 + i * 32;
1031     }
1032     if (!s->direct_msi && retry) {
1033         retry = false;
1034         kvm_flush_dynamic_msi_routes(s);
1035         goto again;
1036     }
1037     return -ENOSPC;
1038
1039 }
1040
1041 static KVMMSIRoute *kvm_lookup_msi_route(KVMState *s, MSIMessage msg)
1042 {
1043     unsigned int hash = kvm_hash_msi(msg.data);
1044     KVMMSIRoute *route;
1045
1046     QTAILQ_FOREACH(route, &s->msi_hashtab[hash], entry) {
1047         if (route->kroute.u.msi.address_lo == (uint32_t)msg.address &&
1048             route->kroute.u.msi.address_hi == (msg.address >> 32) &&
1049             route->kroute.u.msi.data == msg.data) {
1050             return route;
1051         }
1052     }
1053     return NULL;
1054 }
1055
1056 int kvm_irqchip_send_msi(KVMState *s, MSIMessage msg)
1057 {
1058     struct kvm_msi msi;
1059     KVMMSIRoute *route;
1060
1061     if (s->direct_msi) {
1062         msi.address_lo = (uint32_t)msg.address;
1063         msi.address_hi = msg.address >> 32;
1064         msi.data = msg.data;
1065         msi.flags = 0;
1066         memset(msi.pad, 0, sizeof(msi.pad));
1067
1068         return kvm_vm_ioctl(s, KVM_SIGNAL_MSI, &msi);
1069     }
1070
1071     route = kvm_lookup_msi_route(s, msg);
1072     if (!route) {
1073         int virq;
1074
1075         virq = kvm_irqchip_get_virq(s);
1076         if (virq < 0) {
1077             return virq;
1078         }
1079
1080         route = g_malloc(sizeof(KVMMSIRoute));
1081         route->kroute.gsi = virq;
1082         route->kroute.type = KVM_IRQ_ROUTING_MSI;
1083         route->kroute.flags = 0;
1084         route->kroute.u.msi.address_lo = (uint32_t)msg.address;
1085         route->kroute.u.msi.address_hi = msg.address >> 32;
1086         route->kroute.u.msi.data = msg.data;
1087
1088         kvm_add_routing_entry(s, &route->kroute);
1089
1090         QTAILQ_INSERT_TAIL(&s->msi_hashtab[kvm_hash_msi(msg.data)], route,
1091                            entry);
1092     }
1093
1094     assert(route->kroute.type == KVM_IRQ_ROUTING_MSI);
1095
1096     return kvm_set_irq(s, route->kroute.gsi, 1);
1097 }
1098
1099 int kvm_irqchip_add_msi_route(KVMState *s, MSIMessage msg)
1100 {
1101     struct kvm_irq_routing_entry kroute;
1102     int virq;
1103
1104     if (!kvm_gsi_routing_enabled()) {
1105         return -ENOSYS;
1106     }
1107
1108     virq = kvm_irqchip_get_virq(s);
1109     if (virq < 0) {
1110         return virq;
1111     }
1112
1113     kroute.gsi = virq;
1114     kroute.type = KVM_IRQ_ROUTING_MSI;
1115     kroute.flags = 0;
1116     kroute.u.msi.address_lo = (uint32_t)msg.address;
1117     kroute.u.msi.address_hi = msg.address >> 32;
1118     kroute.u.msi.data = msg.data;
1119
1120     kvm_add_routing_entry(s, &kroute);
1121
1122     return virq;
1123 }
1124
1125 static int kvm_irqchip_assign_irqfd(KVMState *s, int fd, int virq, bool assign)
1126 {
1127     struct kvm_irqfd irqfd = {
1128         .fd = fd,
1129         .gsi = virq,
1130         .flags = assign ? 0 : KVM_IRQFD_FLAG_DEASSIGN,
1131     };
1132
1133     if (!kvm_irqfds_enabled()) {
1134         return -ENOSYS;
1135     }
1136
1137     return kvm_vm_ioctl(s, KVM_IRQFD, &irqfd);
1138 }
1139
1140 #else /* !KVM_CAP_IRQ_ROUTING */
1141
1142 static void kvm_init_irq_routing(KVMState *s)
1143 {
1144 }
1145
1146 int kvm_irqchip_commit_routes(KVMState *s)
1147 {
1148     return -ENOSYS;
1149 }
1150
1151 void kvm_irqchip_release_virq(KVMState *s, int virq)
1152 {
1153 }
1154
1155 int kvm_irqchip_send_msi(KVMState *s, MSIMessage msg)
1156 {
1157     abort();
1158 }
1159
1160 int kvm_irqchip_add_msi_route(KVMState *s, MSIMessage msg)
1161 {
1162     return -ENOSYS;
1163 }
1164
1165 static int kvm_irqchip_assign_irqfd(KVMState *s, int fd, int virq, bool assign)
1166 {
1167     abort();
1168 }
1169 #endif /* !KVM_CAP_IRQ_ROUTING */
1170
1171 int kvm_irqchip_add_irqfd(KVMState *s, int fd, int virq)
1172 {
1173     return kvm_irqchip_assign_irqfd(s, fd, virq, true);
1174 }
1175
1176 int kvm_irqchip_add_irq_notifier(KVMState *s, EventNotifier *n, int virq)
1177 {
1178     return kvm_irqchip_add_irqfd(s, event_notifier_get_fd(n), virq);
1179 }
1180
1181 int kvm_irqchip_remove_irqfd(KVMState *s, int fd, int virq)
1182 {
1183     return kvm_irqchip_assign_irqfd(s, fd, virq, false);
1184 }
1185
1186 int kvm_irqchip_remove_irq_notifier(KVMState *s, EventNotifier *n, int virq)
1187 {
1188     return kvm_irqchip_remove_irqfd(s, event_notifier_get_fd(n), virq);
1189 }
1190
1191 static int kvm_irqchip_create(KVMState *s)
1192 {
1193     QemuOptsList *list = qemu_find_opts("machine");
1194     int ret;
1195
1196     if (QTAILQ_EMPTY(&list->head) ||
1197         !qemu_opt_get_bool(QTAILQ_FIRST(&list->head),
1198                            "kernel_irqchip", true) ||
1199         !kvm_check_extension(s, KVM_CAP_IRQCHIP)) {
1200         return 0;
1201     }
1202
1203     ret = kvm_vm_ioctl(s, KVM_CREATE_IRQCHIP);
1204     if (ret < 0) {
1205         fprintf(stderr, "Create kernel irqchip failed\n");
1206         return ret;
1207     }
1208
1209     s->irqchip_inject_ioctl = KVM_IRQ_LINE;
1210     if (kvm_check_extension(s, KVM_CAP_IRQ_INJECT_STATUS)) {
1211         s->irqchip_inject_ioctl = KVM_IRQ_LINE_STATUS;
1212     }
1213     kvm_kernel_irqchip = true;
1214     /* If we have an in-kernel IRQ chip then we must have asynchronous
1215      * interrupt delivery (though the reverse is not necessarily true)
1216      */
1217     kvm_async_interrupts_allowed = true;
1218
1219     kvm_init_irq_routing(s);
1220
1221     return 0;
1222 }
1223
1224 static int kvm_max_vcpus(KVMState *s)
1225 {
1226     int ret;
1227
1228     /* Find number of supported CPUs using the recommended
1229      * procedure from the kernel API documentation to cope with
1230      * older kernels that may be missing capabilities.
1231      */
1232     ret = kvm_check_extension(s, KVM_CAP_MAX_VCPUS);
1233     if (ret) {
1234         return ret;
1235     }
1236     ret = kvm_check_extension(s, KVM_CAP_NR_VCPUS);
1237     if (ret) {
1238         return ret;
1239     }
1240
1241     return 4;
1242 }
1243
1244 int kvm_init(void)
1245 {
1246     static const char upgrade_note[] =
1247         "Please upgrade to at least kernel 2.6.29 or recent kvm-kmod\n"
1248         "(see http://sourceforge.net/projects/kvm).\n";
1249     KVMState *s;
1250     const KVMCapabilityInfo *missing_cap;
1251     int ret;
1252     int i;
1253     int max_vcpus;
1254
1255     s = g_malloc0(sizeof(KVMState));
1256
1257     /*
1258      * On systems where the kernel can support different base page
1259      * sizes, host page size may be different from TARGET_PAGE_SIZE,
1260      * even with KVM.  TARGET_PAGE_SIZE is assumed to be the minimum
1261      * page size for the system though.
1262      */
1263     assert(TARGET_PAGE_SIZE <= getpagesize());
1264
1265 #ifdef KVM_CAP_SET_GUEST_DEBUG
1266     QTAILQ_INIT(&s->kvm_sw_breakpoints);
1267 #endif
1268     for (i = 0; i < ARRAY_SIZE(s->slots); i++) {
1269         s->slots[i].slot = i;
1270     }
1271     s->vmfd = -1;
1272     s->fd = qemu_open("/dev/kvm", O_RDWR);
1273     if (s->fd == -1) {
1274         fprintf(stderr, "Could not access KVM kernel module: %m\n");
1275         ret = -errno;
1276         goto err;
1277     }
1278
1279     ret = kvm_ioctl(s, KVM_GET_API_VERSION, 0);
1280     if (ret < KVM_API_VERSION) {
1281         if (ret > 0) {
1282             ret = -EINVAL;
1283         }
1284         fprintf(stderr, "kvm version too old\n");
1285         goto err;
1286     }
1287
1288     if (ret > KVM_API_VERSION) {
1289         ret = -EINVAL;
1290         fprintf(stderr, "kvm version not supported\n");
1291         goto err;
1292     }
1293
1294     max_vcpus = kvm_max_vcpus(s);
1295     if (smp_cpus > max_vcpus) {
1296         ret = -EINVAL;
1297         fprintf(stderr, "Number of SMP cpus requested (%d) exceeds max cpus "
1298                 "supported by KVM (%d)\n", smp_cpus, max_vcpus);
1299         goto err;
1300     }
1301
1302     s->vmfd = kvm_ioctl(s, KVM_CREATE_VM, 0);
1303     if (s->vmfd < 0) {
1304 #ifdef TARGET_S390X
1305         fprintf(stderr, "Please add the 'switch_amode' kernel parameter to "
1306                         "your host kernel command line\n");
1307 #endif
1308         ret = s->vmfd;
1309         goto err;
1310     }
1311
1312     missing_cap = kvm_check_extension_list(s, kvm_required_capabilites);
1313     if (!missing_cap) {
1314         missing_cap =
1315             kvm_check_extension_list(s, kvm_arch_required_capabilities);
1316     }
1317     if (missing_cap) {
1318         ret = -EINVAL;
1319         fprintf(stderr, "kvm does not support %s\n%s",
1320                 missing_cap->name, upgrade_note);
1321         goto err;
1322     }
1323
1324     s->coalesced_mmio = kvm_check_extension(s, KVM_CAP_COALESCED_MMIO);
1325
1326     s->broken_set_mem_region = 1;
1327     ret = kvm_check_extension(s, KVM_CAP_JOIN_MEMORY_REGIONS_WORKS);
1328     if (ret > 0) {
1329         s->broken_set_mem_region = 0;
1330     }
1331
1332 #ifdef KVM_CAP_VCPU_EVENTS
1333     s->vcpu_events = kvm_check_extension(s, KVM_CAP_VCPU_EVENTS);
1334 #endif
1335
1336     s->robust_singlestep =
1337         kvm_check_extension(s, KVM_CAP_X86_ROBUST_SINGLESTEP);
1338
1339 #ifdef KVM_CAP_DEBUGREGS
1340     s->debugregs = kvm_check_extension(s, KVM_CAP_DEBUGREGS);
1341 #endif
1342
1343 #ifdef KVM_CAP_XSAVE
1344     s->xsave = kvm_check_extension(s, KVM_CAP_XSAVE);
1345 #endif
1346
1347 #ifdef KVM_CAP_XCRS
1348     s->xcrs = kvm_check_extension(s, KVM_CAP_XCRS);
1349 #endif
1350
1351 #ifdef KVM_CAP_PIT_STATE2
1352     s->pit_state2 = kvm_check_extension(s, KVM_CAP_PIT_STATE2);
1353 #endif
1354
1355 #ifdef KVM_CAP_IRQ_ROUTING
1356     s->direct_msi = (kvm_check_extension(s, KVM_CAP_SIGNAL_MSI) > 0);
1357 #endif
1358
1359     s->intx_set_mask = kvm_check_extension(s, KVM_CAP_PCI_2_3);
1360
1361     ret = kvm_arch_init(s);
1362     if (ret < 0) {
1363         goto err;
1364     }
1365
1366     ret = kvm_irqchip_create(s);
1367     if (ret < 0) {
1368         goto err;
1369     }
1370
1371     kvm_state = s;
1372     memory_listener_register(&kvm_memory_listener, NULL);
1373
1374     s->many_ioeventfds = kvm_check_many_ioeventfds();
1375
1376     cpu_interrupt_handler = kvm_handle_interrupt;
1377
1378     return 0;
1379
1380 err:
1381     if (s) {
1382         if (s->vmfd >= 0) {
1383             close(s->vmfd);
1384         }
1385         if (s->fd != -1) {
1386             close(s->fd);
1387         }
1388     }
1389     g_free(s);
1390
1391     return ret;
1392 }
1393
1394 static void kvm_handle_io(uint16_t port, void *data, int direction, int size,
1395                           uint32_t count)
1396 {
1397     int i;
1398     uint8_t *ptr = data;
1399
1400     for (i = 0; i < count; i++) {
1401         if (direction == KVM_EXIT_IO_IN) {
1402             switch (size) {
1403             case 1:
1404                 stb_p(ptr, cpu_inb(port));
1405                 break;
1406             case 2:
1407                 stw_p(ptr, cpu_inw(port));
1408                 break;
1409             case 4:
1410                 stl_p(ptr, cpu_inl(port));
1411                 break;
1412             }
1413         } else {
1414             switch (size) {
1415             case 1:
1416                 cpu_outb(port, ldub_p(ptr));
1417                 break;
1418             case 2:
1419                 cpu_outw(port, lduw_p(ptr));
1420                 break;
1421             case 4:
1422                 cpu_outl(port, ldl_p(ptr));
1423                 break;
1424             }
1425         }
1426
1427         ptr += size;
1428     }
1429 }
1430
1431 static int kvm_handle_internal_error(CPUArchState *env, struct kvm_run *run)
1432 {
1433     fprintf(stderr, "KVM internal error.");
1434     if (kvm_check_extension(kvm_state, KVM_CAP_INTERNAL_ERROR_DATA)) {
1435         int i;
1436
1437         fprintf(stderr, " Suberror: %d\n", run->internal.suberror);
1438         for (i = 0; i < run->internal.ndata; ++i) {
1439             fprintf(stderr, "extra data[%d]: %"PRIx64"\n",
1440                     i, (uint64_t)run->internal.data[i]);
1441         }
1442     } else {
1443         fprintf(stderr, "\n");
1444     }
1445     if (run->internal.suberror == KVM_INTERNAL_ERROR_EMULATION) {
1446         fprintf(stderr, "emulation failure\n");
1447         if (!kvm_arch_stop_on_emulation_error(env)) {
1448             cpu_dump_state(env, stderr, fprintf, CPU_DUMP_CODE);
1449             return EXCP_INTERRUPT;
1450         }
1451     }
1452     /* FIXME: Should trigger a qmp message to let management know
1453      * something went wrong.
1454      */
1455     return -1;
1456 }
1457
1458 void kvm_flush_coalesced_mmio_buffer(void)
1459 {
1460     KVMState *s = kvm_state;
1461
1462     if (s->coalesced_flush_in_progress) {
1463         return;
1464     }
1465
1466     s->coalesced_flush_in_progress = true;
1467
1468     if (s->coalesced_mmio_ring) {
1469         struct kvm_coalesced_mmio_ring *ring = s->coalesced_mmio_ring;
1470         while (ring->first != ring->last) {
1471             struct kvm_coalesced_mmio *ent;
1472
1473             ent = &ring->coalesced_mmio[ring->first];
1474
1475             cpu_physical_memory_write(ent->phys_addr, ent->data, ent->len);
1476             smp_wmb();
1477             ring->first = (ring->first + 1) % KVM_COALESCED_MMIO_MAX;
1478         }
1479     }
1480
1481     s->coalesced_flush_in_progress = false;
1482 }
1483
1484 static void do_kvm_cpu_synchronize_state(void *_env)
1485 {
1486     CPUArchState *env = _env;
1487
1488     if (!env->kvm_vcpu_dirty) {
1489         kvm_arch_get_registers(env);
1490         env->kvm_vcpu_dirty = 1;
1491     }
1492 }
1493
1494 void kvm_cpu_synchronize_state(CPUArchState *env)
1495 {
1496     if (!env->kvm_vcpu_dirty) {
1497         run_on_cpu(env, do_kvm_cpu_synchronize_state, env);
1498     }
1499 }
1500
1501 void kvm_cpu_synchronize_post_reset(CPUArchState *env)
1502 {
1503     kvm_arch_put_registers(env, KVM_PUT_RESET_STATE);
1504     env->kvm_vcpu_dirty = 0;
1505 }
1506
1507 void kvm_cpu_synchronize_post_init(CPUArchState *env)
1508 {
1509     kvm_arch_put_registers(env, KVM_PUT_FULL_STATE);
1510     env->kvm_vcpu_dirty = 0;
1511 }
1512
1513 int kvm_cpu_exec(CPUArchState *env)
1514 {
1515     struct kvm_run *run = env->kvm_run;
1516     int ret, run_ret;
1517
1518     DPRINTF("kvm_cpu_exec()\n");
1519
1520     if (kvm_arch_process_async_events(env)) {
1521         env->exit_request = 0;
1522         return EXCP_HLT;
1523     }
1524
1525     do {
1526         if (env->kvm_vcpu_dirty) {
1527             kvm_arch_put_registers(env, KVM_PUT_RUNTIME_STATE);
1528             env->kvm_vcpu_dirty = 0;
1529         }
1530
1531         kvm_arch_pre_run(env, run);
1532         if (env->exit_request) {
1533             DPRINTF("interrupt exit requested\n");
1534             /*
1535              * KVM requires us to reenter the kernel after IO exits to complete
1536              * instruction emulation. This self-signal will ensure that we
1537              * leave ASAP again.
1538              */
1539             qemu_cpu_kick_self();
1540         }
1541         qemu_mutex_unlock_iothread();
1542
1543         run_ret = kvm_vcpu_ioctl(env, KVM_RUN, 0);
1544
1545         qemu_mutex_lock_iothread();
1546         kvm_arch_post_run(env, run);
1547
1548         kvm_flush_coalesced_mmio_buffer();
1549
1550         if (run_ret < 0) {
1551             if (run_ret == -EINTR || run_ret == -EAGAIN) {
1552                 DPRINTF("io window exit\n");
1553                 ret = EXCP_INTERRUPT;
1554                 break;
1555             }
1556             fprintf(stderr, "error: kvm run failed %s\n",
1557                     strerror(-run_ret));
1558             abort();
1559         }
1560
1561         switch (run->exit_reason) {
1562         case KVM_EXIT_IO:
1563             DPRINTF("handle_io\n");
1564             kvm_handle_io(run->io.port,
1565                           (uint8_t *)run + run->io.data_offset,
1566                           run->io.direction,
1567                           run->io.size,
1568                           run->io.count);
1569             ret = 0;
1570             break;
1571         case KVM_EXIT_MMIO:
1572             DPRINTF("handle_mmio\n");
1573             cpu_physical_memory_rw(run->mmio.phys_addr,
1574                                    run->mmio.data,
1575                                    run->mmio.len,
1576                                    run->mmio.is_write);
1577             ret = 0;
1578             break;
1579         case KVM_EXIT_IRQ_WINDOW_OPEN:
1580             DPRINTF("irq_window_open\n");
1581             ret = EXCP_INTERRUPT;
1582             break;
1583         case KVM_EXIT_SHUTDOWN:
1584             DPRINTF("shutdown\n");
1585             qemu_system_reset_request();
1586             ret = EXCP_INTERRUPT;
1587             break;
1588         case KVM_EXIT_UNKNOWN:
1589             fprintf(stderr, "KVM: unknown exit, hardware reason %" PRIx64 "\n",
1590                     (uint64_t)run->hw.hardware_exit_reason);
1591             ret = -1;
1592             break;
1593         case KVM_EXIT_INTERNAL_ERROR:
1594             ret = kvm_handle_internal_error(env, run);
1595             break;
1596         default:
1597             DPRINTF("kvm_arch_handle_exit\n");
1598             ret = kvm_arch_handle_exit(env, run);
1599             break;
1600         }
1601     } while (ret == 0);
1602
1603     if (ret < 0) {
1604         cpu_dump_state(env, stderr, fprintf, CPU_DUMP_CODE);
1605         vm_stop(RUN_STATE_INTERNAL_ERROR);
1606     }
1607
1608     env->exit_request = 0;
1609     return ret;
1610 }
1611
1612 int kvm_ioctl(KVMState *s, int type, ...)
1613 {
1614     int ret;
1615     void *arg;
1616     va_list ap;
1617
1618     va_start(ap, type);
1619     arg = va_arg(ap, void *);
1620     va_end(ap);
1621
1622     ret = ioctl(s->fd, type, arg);
1623     if (ret == -1) {
1624         ret = -errno;
1625     }
1626     return ret;
1627 }
1628
1629 int kvm_vm_ioctl(KVMState *s, int type, ...)
1630 {
1631     int ret;
1632     void *arg;
1633     va_list ap;
1634
1635     va_start(ap, type);
1636     arg = va_arg(ap, void *);
1637     va_end(ap);
1638
1639     ret = ioctl(s->vmfd, type, arg);
1640     if (ret == -1) {
1641         ret = -errno;
1642     }
1643     return ret;
1644 }
1645
1646 int kvm_vcpu_ioctl(CPUArchState *env, int type, ...)
1647 {
1648     int ret;
1649     void *arg;
1650     va_list ap;
1651
1652     va_start(ap, type);
1653     arg = va_arg(ap, void *);
1654     va_end(ap);
1655
1656     ret = ioctl(env->kvm_fd, type, arg);
1657     if (ret == -1) {
1658         ret = -errno;
1659     }
1660     return ret;
1661 }
1662
1663 int kvm_has_sync_mmu(void)
1664 {
1665     return kvm_check_extension(kvm_state, KVM_CAP_SYNC_MMU);
1666 }
1667
1668 int kvm_has_vcpu_events(void)
1669 {
1670     return kvm_state->vcpu_events;
1671 }
1672
1673 int kvm_has_robust_singlestep(void)
1674 {
1675     return kvm_state->robust_singlestep;
1676 }
1677
1678 int kvm_has_debugregs(void)
1679 {
1680     return kvm_state->debugregs;
1681 }
1682
1683 int kvm_has_xsave(void)
1684 {
1685     return kvm_state->xsave;
1686 }
1687
1688 int kvm_has_xcrs(void)
1689 {
1690     return kvm_state->xcrs;
1691 }
1692
1693 int kvm_has_pit_state2(void)
1694 {
1695     return kvm_state->pit_state2;
1696 }
1697
1698 int kvm_has_many_ioeventfds(void)
1699 {
1700     if (!kvm_enabled()) {
1701         return 0;
1702     }
1703     return kvm_state->many_ioeventfds;
1704 }
1705
1706 int kvm_has_gsi_routing(void)
1707 {
1708 #ifdef KVM_CAP_IRQ_ROUTING
1709     return kvm_check_extension(kvm_state, KVM_CAP_IRQ_ROUTING);
1710 #else
1711     return false;
1712 #endif
1713 }
1714
1715 int kvm_has_intx_set_mask(void)
1716 {
1717     return kvm_state->intx_set_mask;
1718 }
1719
1720 void *kvm_vmalloc(ram_addr_t size)
1721 {
1722 #ifdef TARGET_S390X
1723     void *mem;
1724
1725     mem = kvm_arch_vmalloc(size);
1726     if (mem) {
1727         return mem;
1728     }
1729 #endif
1730     return qemu_vmalloc(size);
1731 }
1732
1733 void kvm_setup_guest_memory(void *start, size_t size)
1734 {
1735     if (!kvm_has_sync_mmu()) {
1736         int ret = qemu_madvise(start, size, QEMU_MADV_DONTFORK);
1737
1738         if (ret) {
1739             perror("qemu_madvise");
1740             fprintf(stderr,
1741                     "Need MADV_DONTFORK in absence of synchronous KVM MMU\n");
1742             exit(1);
1743         }
1744     }
1745 }
1746
1747 #ifdef KVM_CAP_SET_GUEST_DEBUG
1748 struct kvm_sw_breakpoint *kvm_find_sw_breakpoint(CPUArchState *env,
1749                                                  target_ulong pc)
1750 {
1751     struct kvm_sw_breakpoint *bp;
1752
1753     QTAILQ_FOREACH(bp, &env->kvm_state->kvm_sw_breakpoints, entry) {
1754         if (bp->pc == pc) {
1755             return bp;
1756         }
1757     }
1758     return NULL;
1759 }
1760
1761 int kvm_sw_breakpoints_active(CPUArchState *env)
1762 {
1763     return !QTAILQ_EMPTY(&env->kvm_state->kvm_sw_breakpoints);
1764 }
1765
1766 struct kvm_set_guest_debug_data {
1767     struct kvm_guest_debug dbg;
1768     CPUArchState *env;
1769     int err;
1770 };
1771
1772 static void kvm_invoke_set_guest_debug(void *data)
1773 {
1774     struct kvm_set_guest_debug_data *dbg_data = data;
1775     CPUArchState *env = dbg_data->env;
1776
1777     dbg_data->err = kvm_vcpu_ioctl(env, KVM_SET_GUEST_DEBUG, &dbg_data->dbg);
1778 }
1779
1780 int kvm_update_guest_debug(CPUArchState *env, unsigned long reinject_trap)
1781 {
1782     struct kvm_set_guest_debug_data data;
1783
1784     data.dbg.control = reinject_trap;
1785
1786     if (env->singlestep_enabled) {
1787         data.dbg.control |= KVM_GUESTDBG_ENABLE | KVM_GUESTDBG_SINGLESTEP;
1788     }
1789     kvm_arch_update_guest_debug(env, &data.dbg);
1790     data.env = env;
1791
1792     run_on_cpu(env, kvm_invoke_set_guest_debug, &data);
1793     return data.err;
1794 }
1795
1796 int kvm_insert_breakpoint(CPUArchState *current_env, target_ulong addr,
1797                           target_ulong len, int type)
1798 {
1799     struct kvm_sw_breakpoint *bp;
1800     CPUArchState *env;
1801     int err;
1802
1803     if (type == GDB_BREAKPOINT_SW) {
1804         bp = kvm_find_sw_breakpoint(current_env, addr);
1805         if (bp) {
1806             bp->use_count++;
1807             return 0;
1808         }
1809
1810         bp = g_malloc(sizeof(struct kvm_sw_breakpoint));
1811         if (!bp) {
1812             return -ENOMEM;
1813         }
1814
1815         bp->pc = addr;
1816         bp->use_count = 1;
1817         err = kvm_arch_insert_sw_breakpoint(current_env, bp);
1818         if (err) {
1819             g_free(bp);
1820             return err;
1821         }
1822
1823         QTAILQ_INSERT_HEAD(&current_env->kvm_state->kvm_sw_breakpoints,
1824                           bp, entry);
1825     } else {
1826         err = kvm_arch_insert_hw_breakpoint(addr, len, type);
1827         if (err) {
1828             return err;
1829         }
1830     }
1831
1832     for (env = first_cpu; env != NULL; env = env->next_cpu) {
1833         err = kvm_update_guest_debug(env, 0);
1834         if (err) {
1835             return err;
1836         }
1837     }
1838     return 0;
1839 }
1840
1841 int kvm_remove_breakpoint(CPUArchState *current_env, target_ulong addr,
1842                           target_ulong len, int type)
1843 {
1844     struct kvm_sw_breakpoint *bp;
1845     CPUArchState *env;
1846     int err;
1847
1848     if (type == GDB_BREAKPOINT_SW) {
1849         bp = kvm_find_sw_breakpoint(current_env, addr);
1850         if (!bp) {
1851             return -ENOENT;
1852         }
1853
1854         if (bp->use_count > 1) {
1855             bp->use_count--;
1856             return 0;
1857         }
1858
1859         err = kvm_arch_remove_sw_breakpoint(current_env, bp);
1860         if (err) {
1861             return err;
1862         }
1863
1864         QTAILQ_REMOVE(&current_env->kvm_state->kvm_sw_breakpoints, bp, entry);
1865         g_free(bp);
1866     } else {
1867         err = kvm_arch_remove_hw_breakpoint(addr, len, type);
1868         if (err) {
1869             return err;
1870         }
1871     }
1872
1873     for (env = first_cpu; env != NULL; env = env->next_cpu) {
1874         err = kvm_update_guest_debug(env, 0);
1875         if (err) {
1876             return err;
1877         }
1878     }
1879     return 0;
1880 }
1881
1882 void kvm_remove_all_breakpoints(CPUArchState *current_env)
1883 {
1884     struct kvm_sw_breakpoint *bp, *next;
1885     KVMState *s = current_env->kvm_state;
1886     CPUArchState *env;
1887
1888     QTAILQ_FOREACH_SAFE(bp, &s->kvm_sw_breakpoints, entry, next) {
1889         if (kvm_arch_remove_sw_breakpoint(current_env, bp) != 0) {
1890             /* Try harder to find a CPU that currently sees the breakpoint. */
1891             for (env = first_cpu; env != NULL; env = env->next_cpu) {
1892                 if (kvm_arch_remove_sw_breakpoint(env, bp) == 0) {
1893                     break;
1894                 }
1895             }
1896         }
1897     }
1898     kvm_arch_remove_all_hw_breakpoints();
1899
1900     for (env = first_cpu; env != NULL; env = env->next_cpu) {
1901         kvm_update_guest_debug(env, 0);
1902     }
1903 }
1904
1905 #else /* !KVM_CAP_SET_GUEST_DEBUG */
1906
1907 int kvm_update_guest_debug(CPUArchState *env, unsigned long reinject_trap)
1908 {
1909     return -EINVAL;
1910 }
1911
1912 int kvm_insert_breakpoint(CPUArchState *current_env, target_ulong addr,
1913                           target_ulong len, int type)
1914 {
1915     return -EINVAL;
1916 }
1917
1918 int kvm_remove_breakpoint(CPUArchState *current_env, target_ulong addr,
1919                           target_ulong len, int type)
1920 {
1921     return -EINVAL;
1922 }
1923
1924 void kvm_remove_all_breakpoints(CPUArchState *current_env)
1925 {
1926 }
1927 #endif /* !KVM_CAP_SET_GUEST_DEBUG */
1928
1929 int kvm_set_signal_mask(CPUArchState *env, const sigset_t *sigset)
1930 {
1931     struct kvm_signal_mask *sigmask;
1932     int r;
1933
1934     if (!sigset) {
1935         return kvm_vcpu_ioctl(env, KVM_SET_SIGNAL_MASK, NULL);
1936     }
1937
1938     sigmask = g_malloc(sizeof(*sigmask) + sizeof(*sigset));
1939
1940     sigmask->len = 8;
1941     memcpy(sigmask->sigset, sigset, sizeof(*sigset));
1942     r = kvm_vcpu_ioctl(env, KVM_SET_SIGNAL_MASK, sigmask);
1943     g_free(sigmask);
1944
1945     return r;
1946 }
1947
1948 int kvm_set_ioeventfd_mmio(int fd, uint32_t addr, uint32_t val, bool assign,
1949                            uint32_t size)
1950 {
1951     int ret;
1952     struct kvm_ioeventfd iofd;
1953
1954     iofd.datamatch = val;
1955     iofd.addr = addr;
1956     iofd.len = size;
1957     iofd.flags = KVM_IOEVENTFD_FLAG_DATAMATCH;
1958     iofd.fd = fd;
1959
1960     if (!kvm_enabled()) {
1961         return -ENOSYS;
1962     }
1963
1964     if (!assign) {
1965         iofd.flags |= KVM_IOEVENTFD_FLAG_DEASSIGN;
1966     }
1967
1968     ret = kvm_vm_ioctl(kvm_state, KVM_IOEVENTFD, &iofd);
1969
1970     if (ret < 0) {
1971         return -errno;
1972     }
1973
1974     return 0;
1975 }
1976
1977 int kvm_set_ioeventfd_pio_word(int fd, uint16_t addr, uint16_t val, bool assign)
1978 {
1979     struct kvm_ioeventfd kick = {
1980         .datamatch = val,
1981         .addr = addr,
1982         .len = 2,
1983         .flags = KVM_IOEVENTFD_FLAG_DATAMATCH | KVM_IOEVENTFD_FLAG_PIO,
1984         .fd = fd,
1985     };
1986     int r;
1987     if (!kvm_enabled()) {
1988         return -ENOSYS;
1989     }
1990     if (!assign) {
1991         kick.flags |= KVM_IOEVENTFD_FLAG_DEASSIGN;
1992     }
1993     r = kvm_vm_ioctl(kvm_state, KVM_IOEVENTFD, &kick);
1994     if (r < 0) {
1995         return r;
1996     }
1997     return 0;
1998 }
1999
2000 int kvm_on_sigbus_vcpu(CPUArchState *env, int code, void *addr)
2001 {
2002     return kvm_arch_on_sigbus_vcpu(env, code, addr);
2003 }
2004
2005 int kvm_on_sigbus(int code, void *addr)
2006 {
2007     return kvm_arch_on_sigbus(code, addr);
2008 }
2009
2010 #undef PAGE_SIZE
2011 #include "qemu-kvm.c"