kvm-all.c

   1 /*
   2  * QEMU KVM support
   3  *
   4  * Copyright IBM, Corp. 2008
   5  *           Red Hat, Inc. 2008
   6  *
   7  * Authors:
   8  *  Anthony Liguori   <aliguori@us.ibm.com>
   9  *  Glauber Costa     <gcosta@redhat.com>
  10  *
  11  * This work is licensed under the terms of the GNU GPL, version 2 or later.
  12  * See the COPYING file in the top-level directory.
  13  *
  14  */
  15
  16 #include <sys/types.h>
  17 #include <sys/ioctl.h>
  18 #include <sys/mman.h>
  19 #include <stdarg.h>
  20
  21 #include <linux/kvm.h>
  22
  23 #include "qemu-common.h"
  24 #include "qemu-barrier.h"
  25 #include "sysemu.h"
  26 #include "hw/hw.h"
  27 #include "gdbstub.h"
  28 #include "kvm.h"
  29 #include "bswap.h"
  30 #include "memory.h"
  31 #include "exec-memory.h"
  32
  33 /* This check must be after config-host.h is included */
  34 #ifdef CONFIG_EVENTFD
  35 #include <sys/eventfd.h>
  36 #endif
  37
  38 /* KVM uses PAGE_SIZE in its definition of COALESCED_MMIO_MAX */
  39 #define PAGE_SIZE TARGET_PAGE_SIZE
  40
  41 //#define DEBUG_KVM
  42
  43 #ifdef DEBUG_KVM
  44 #define DPRINTF(fmt, ...) \
  45     do { fprintf(stderr, fmt, ## __VA_ARGS__); } while (0)
  46 #else
  47 #define DPRINTF(fmt, ...) \
  48     do { } while (0)
  49 #endif
  50
  51 typedef struct KVMSlot
  52 {
  53     target_phys_addr_t start_addr;
  54     ram_addr_t memory_size;
  55     void *ram;
  56     int slot;
  57     int flags;
  58 } KVMSlot;
  59
  60 typedef struct kvm_dirty_log KVMDirtyLog;
  61
  62 struct KVMState
  63 {
  64     KVMSlot slots[32];
  65     int fd;
  66     int vmfd;
  67     int coalesced_mmio;
  68     struct kvm_coalesced_mmio_ring *coalesced_mmio_ring;
  69     bool coalesced_flush_in_progress;
  70     int broken_set_mem_region;
  71     int migration_log;
  72     int vcpu_events;
  73     int robust_singlestep;
  74     int debugregs;
  75 #ifdef KVM_CAP_SET_GUEST_DEBUG
  76     struct kvm_sw_breakpoint_head kvm_sw_breakpoints;
  77 #endif
  78     int pit_state2;
  79     int xsave, xcrs;
  80     int many_ioeventfds;
  81     int intx_set_mask;
  82     /* The man page (and posix) say ioctl numbers are signed int, but
  83      * they're not.  Linux, glibc and *BSD all treat ioctl numbers as
  84      * unsigned, and treating them as signed here can break things */
  85     unsigned irqchip_inject_ioctl;
  86 #ifdef KVM_CAP_IRQ_ROUTING
  87     struct kvm_irq_routing *irq_routes;
  88     int nr_allocated_irq_routes;
  89     uint32_t *used_gsi_bitmap;
  90     unsigned int max_gsi;
  91 #endif
  92 };
  93
  94 KVMState *kvm_state;
  95 bool kvm_kernel_irqchip;
  96
  97 static const KVMCapabilityInfo kvm_required_capabilites[] = {
  98     KVM_CAP_INFO(USER_MEMORY),
  99     KVM_CAP_INFO(DESTROY_MEMORY_REGION_WORKS),
 100     KVM_CAP_LAST_INFO
 101 };
 102
 103 static KVMSlot *kvm_alloc_slot(KVMState *s)
 104 {
 105     int i;
 106
 107     for (i = 0; i < ARRAY_SIZE(s->slots); i++) {
 108         if (s->slots[i].memory_size == 0) {
 109             return &s->slots[i];
 110         }
 111     }
 112
 113     fprintf(stderr, "%s: no free slot available\n", __func__);
 114     abort();
 115 }
 116
 117 static KVMSlot *kvm_lookup_matching_slot(KVMState *s,
 118                                          target_phys_addr_t start_addr,
 119                                          target_phys_addr_t end_addr)
 120 {
 121     int i;
 122
 123     for (i = 0; i < ARRAY_SIZE(s->slots); i++) {
 124         KVMSlot *mem = &s->slots[i];
 125
 126         if (start_addr == mem->start_addr &&
 127             end_addr == mem->start_addr + mem->memory_size) {
 128             return mem;
 129         }
 130     }
 131
 132     return NULL;
 133 }
 134
 135 /*
 136  * Find overlapping slot with lowest start address
 137  */
 138 static KVMSlot *kvm_lookup_overlapping_slot(KVMState *s,
 139                                             target_phys_addr_t start_addr,
 140                                             target_phys_addr_t end_addr)
 141 {
 142     KVMSlot *found = NULL;
 143     int i;
 144
 145     for (i = 0; i < ARRAY_SIZE(s->slots); i++) {
 146         KVMSlot *mem = &s->slots[i];
 147
 148         if (mem->memory_size == 0 ||
 149             (found && found->start_addr < mem->start_addr)) {
 150             continue;
 151         }
 152
 153         if (end_addr > mem->start_addr &&
 154             start_addr < mem->start_addr + mem->memory_size) {
 155             found = mem;
 156         }
 157     }
 158
 159     return found;
 160 }
 161
 162 int kvm_physical_memory_addr_from_host(KVMState *s, void *ram,
 163                                        target_phys_addr_t *phys_addr)
 164 {
 165     int i;
 166
 167     for (i = 0; i < ARRAY_SIZE(s->slots); i++) {
 168         KVMSlot *mem = &s->slots[i];
 169
 170         if (ram >= mem->ram && ram < mem->ram + mem->memory_size) {
 171             *phys_addr = mem->start_addr + (ram - mem->ram);
 172             return 1;
 173         }
 174     }
 175
 176     return 0;
 177 }
 178
 179 static int kvm_set_user_memory_region(KVMState *s, KVMSlot *slot)
 180 {
 181     struct kvm_userspace_memory_region mem;
 182
 183     mem.slot = slot->slot;
 184     mem.guest_phys_addr = slot->start_addr;
 185     mem.memory_size = slot->memory_size;
 186     mem.userspace_addr = (unsigned long)slot->ram;
 187     mem.flags = slot->flags;
 188     if (s->migration_log) {
 189         mem.flags |= KVM_MEM_LOG_DIRTY_PAGES;
 190     }
 191     return kvm_vm_ioctl(s, KVM_SET_USER_MEMORY_REGION, &mem);
 192 }
 193
 194 static void kvm_reset_vcpu(void *opaque)
 195 {
 196     CPUArchState *env = opaque;
 197
 198     kvm_arch_reset_vcpu(env);
 199 }
 200
 201 int kvm_init_vcpu(CPUArchState *env)
 202 {
 203     KVMState *s = kvm_state;
 204     long mmap_size;
 205     int ret;
 206
 207     DPRINTF("kvm_init_vcpu\n");
 208
 209     ret = kvm_vm_ioctl(s, KVM_CREATE_VCPU, env->cpu_index);
 210     if (ret < 0) {
 211         DPRINTF("kvm_create_vcpu failed\n");
 212         goto err;
 213     }
 214
 215     env->kvm_fd = ret;
 216     env->kvm_state = s;
 217     env->kvm_vcpu_dirty = 1;
 218
 219     mmap_size = kvm_ioctl(s, KVM_GET_VCPU_MMAP_SIZE, 0);
 220     if (mmap_size < 0) {
 221         ret = mmap_size;
 222         DPRINTF("KVM_GET_VCPU_MMAP_SIZE failed\n");
 223         goto err;
 224     }
 225
 226     env->kvm_run = mmap(NULL, mmap_size, PROT_READ | PROT_WRITE, MAP_SHARED,
 227                         env->kvm_fd, 0);
 228     if (env->kvm_run == MAP_FAILED) {
 229         ret = -errno;
 230         DPRINTF("mmap'ing vcpu state failed\n");
 231         goto err;
 232     }
 233
 234     if (s->coalesced_mmio && !s->coalesced_mmio_ring) {
 235         s->coalesced_mmio_ring =
 236             (void *)env->kvm_run + s->coalesced_mmio * PAGE_SIZE;
 237     }
 238
 239     ret = kvm_arch_init_vcpu(env);
 240     if (ret == 0) {
 241         qemu_register_reset(kvm_reset_vcpu, env);
 242         kvm_arch_reset_vcpu(env);
 243     }
 244 err:
 245     return ret;
 246 }
 247
 248 /*
 249  * dirty pages logging control
 250  */
 251
 252 static int kvm_mem_flags(KVMState *s, bool log_dirty)
 253 {
 254     return log_dirty ? KVM_MEM_LOG_DIRTY_PAGES : 0;
 255 }
 256
 257 static int kvm_slot_dirty_pages_log_change(KVMSlot *mem, bool log_dirty)
 258 {
 259     KVMState *s = kvm_state;
 260     int flags, mask = KVM_MEM_LOG_DIRTY_PAGES;
 261     int old_flags;
 262
 263     old_flags = mem->flags;
 264
 265     flags = (mem->flags & ~mask) | kvm_mem_flags(s, log_dirty);
 266     mem->flags = flags;
 267
 268     /* If nothing changed effectively, no need to issue ioctl */
 269     if (s->migration_log) {
 270         flags |= KVM_MEM_LOG_DIRTY_PAGES;
 271     }
 272
 273     if (flags == old_flags) {
 274         return 0;
 275     }
 276
 277     return kvm_set_user_memory_region(s, mem);
 278 }
 279
 280 static int kvm_dirty_pages_log_change(target_phys_addr_t phys_addr,
 281                                       ram_addr_t size, bool log_dirty)
 282 {
 283     KVMState *s = kvm_state;
 284     KVMSlot *mem = kvm_lookup_matching_slot(s, phys_addr, phys_addr + size);
 285
 286     if (mem == NULL)  {
 287         fprintf(stderr, "BUG: %s: invalid parameters " TARGET_FMT_plx "-"
 288                 TARGET_FMT_plx "\n", __func__, phys_addr,
 289                 (target_phys_addr_t)(phys_addr + size - 1));
 290         return -EINVAL;
 291     }
 292     return kvm_slot_dirty_pages_log_change(mem, log_dirty);
 293 }
 294
 295 static void kvm_log_start(MemoryListener *listener,
 296                           MemoryRegionSection *section)
 297 {
 298     int r;
 299
 300     r = kvm_dirty_pages_log_change(section->offset_within_address_space,
 301                                    section->size, true);
 302     if (r < 0) {
 303         abort();
 304     }
 305 }
 306
 307 static void kvm_log_stop(MemoryListener *listener,
 308                           MemoryRegionSection *section)
 309 {
 310     int r;
 311
 312     r = kvm_dirty_pages_log_change(section->offset_within_address_space,
 313                                    section->size, false);
 314     if (r < 0) {
 315         abort();
 316     }
 317 }
 318
 319 static int kvm_set_migration_log(int enable)
 320 {
 321     KVMState *s = kvm_state;
 322     KVMSlot *mem;
 323     int i, err;
 324
 325     s->migration_log = enable;
 326
 327     for (i = 0; i < ARRAY_SIZE(s->slots); i++) {
 328         mem = &s->slots[i];
 329
 330         if (!mem->memory_size) {
 331             continue;
 332         }
 333         if (!!(mem->flags & KVM_MEM_LOG_DIRTY_PAGES) == enable) {
 334             continue;
 335         }
 336         err = kvm_set_user_memory_region(s, mem);
 337         if (err) {
 338             return err;
 339         }
 340     }
 341     return 0;
 342 }
 343
 344 /* get kvm's dirty pages bitmap and update qemu's */
 345 static int kvm_get_dirty_pages_log_range(MemoryRegionSection *section,
 346                                          unsigned long *bitmap)
 347 {
 348     unsigned int i, j;
 349     unsigned long page_number, c;
 350     target_phys_addr_t addr, addr1;
 351     unsigned int len = ((section->size / TARGET_PAGE_SIZE) + HOST_LONG_BITS - 1) / HOST_LONG_BITS;
 352     unsigned long hpratio = getpagesize() / TARGET_PAGE_SIZE;
 353
 354     /*
 355      * bitmap-traveling is faster than memory-traveling (for addr...)
 356      * especially when most of the memory is not dirty.
 357      */
 358     for (i = 0; i < len; i++) {
 359         if (bitmap[i] != 0) {
 360             c = leul_to_cpu(bitmap[i]);
 361             do {
 362                 j = ffsl(c) - 1;
 363                 c &= ~(1ul << j);
 364                 page_number = (i * HOST_LONG_BITS + j) * hpratio;
 365                 addr1 = page_number * TARGET_PAGE_SIZE;
 366                 addr = section->offset_within_region + addr1;
 367                 memory_region_set_dirty(section->mr, addr,
 368                                         TARGET_PAGE_SIZE * hpratio);
 369             } while (c != 0);
 370         }
 371     }
 372     return 0;
 373 }
 374
 375 #define ALIGN(x, y)  (((x)+(y)-1) & ~((y)-1))
 376
 377 /**
 378  * kvm_physical_sync_dirty_bitmap - Grab dirty bitmap from kernel space
 379  * This function updates qemu's dirty bitmap using
 380  * memory_region_set_dirty().  This means all bits are set
 381  * to dirty.
 382  *
 383  * @start_add: start of logged region.
 384  * @end_addr: end of logged region.
 385  */
 386 static int kvm_physical_sync_dirty_bitmap(MemoryRegionSection *section)
 387 {
 388     KVMState *s = kvm_state;
 389     unsigned long size, allocated_size = 0;
 390     KVMDirtyLog d;
 391     KVMSlot *mem;
 392     int ret = 0;
 393     target_phys_addr_t start_addr = section->offset_within_address_space;
 394     target_phys_addr_t end_addr = start_addr + section->size;
 395
 396     d.dirty_bitmap = NULL;
 397     while (start_addr < end_addr) {
 398         mem = kvm_lookup_overlapping_slot(s, start_addr, end_addr);
 399         if (mem == NULL) {
 400             break;
 401         }
 402
 403         /* XXX bad kernel interface alert
 404          * For dirty bitmap, kernel allocates array of size aligned to
 405          * bits-per-long.  But for case when the kernel is 64bits and
 406          * the userspace is 32bits, userspace can't align to the same
 407          * bits-per-long, since sizeof(long) is different between kernel
 408          * and user space.  This way, userspace will provide buffer which
 409          * may be 4 bytes less than the kernel will use, resulting in
 410          * userspace memory corruption (which is not detectable by valgrind
 411          * too, in most cases).
 412          * So for now, let's align to 64 instead of HOST_LONG_BITS here, in
 413          * a hope that sizeof(long) wont become >8 any time soon.
 414          */
 415         size = ALIGN(((mem->memory_size) >> TARGET_PAGE_BITS),
 416                      /*HOST_LONG_BITS*/ 64) / 8;
 417         if (!d.dirty_bitmap) {
 418             d.dirty_bitmap = g_malloc(size);
 419         } else if (size > allocated_size) {
 420             d.dirty_bitmap = g_realloc(d.dirty_bitmap, size);
 421         }
 422         allocated_size = size;
 423         memset(d.dirty_bitmap, 0, allocated_size);
 424
 425         d.slot = mem->slot;
 426
 427         if (kvm_vm_ioctl(s, KVM_GET_DIRTY_LOG, &d) == -1) {
 428             DPRINTF("ioctl failed %d\n", errno);
 429             ret = -1;
 430             break;
 431         }
 432
 433         kvm_get_dirty_pages_log_range(section, d.dirty_bitmap);
 434         start_addr = mem->start_addr + mem->memory_size;
 435     }
 436     g_free(d.dirty_bitmap);
 437
 438     return ret;
 439 }
 440
 441 int kvm_coalesce_mmio_region(target_phys_addr_t start, ram_addr_t size)
 442 {
 443     int ret = -ENOSYS;
 444     KVMState *s = kvm_state;
 445
 446     if (s->coalesced_mmio) {
 447         struct kvm_coalesced_mmio_zone zone;
 448
 449         zone.addr = start;
 450         zone.size = size;
 451         zone.pad = 0;
 452
 453         ret = kvm_vm_ioctl(s, KVM_REGISTER_COALESCED_MMIO, &zone);
 454     }
 455
 456     return ret;
 457 }
 458
 459 int kvm_uncoalesce_mmio_region(target_phys_addr_t start, ram_addr_t size)
 460 {
 461     int ret = -ENOSYS;
 462     KVMState *s = kvm_state;
 463
 464     if (s->coalesced_mmio) {
 465         struct kvm_coalesced_mmio_zone zone;
 466
 467         zone.addr = start;
 468         zone.size = size;
 469         zone.pad = 0;
 470
 471         ret = kvm_vm_ioctl(s, KVM_UNREGISTER_COALESCED_MMIO, &zone);
 472     }
 473
 474     return ret;
 475 }
 476
 477 int kvm_check_extension(KVMState *s, unsigned int extension)
 478 {
 479     int ret;
 480
 481     ret = kvm_ioctl(s, KVM_CHECK_EXTENSION, extension);
 482     if (ret < 0) {
 483         ret = 0;
 484     }
 485
 486     return ret;
 487 }
 488
 489 static int kvm_check_many_ioeventfds(void)
 490 {
 491     /* Userspace can use ioeventfd for io notification.  This requires a host
 492      * that supports eventfd(2) and an I/O thread; since eventfd does not
 493      * support SIGIO it cannot interrupt the vcpu.
 494      *
 495      * Older kernels have a 6 device limit on the KVM io bus.  Find out so we
 496      * can avoid creating too many ioeventfds.
 497      */
 498 #if defined(CONFIG_EVENTFD)
 499     int ioeventfds[7];
 500     int i, ret = 0;
 501     for (i = 0; i < ARRAY_SIZE(ioeventfds); i++) {
 502         ioeventfds[i] = eventfd(0, EFD_CLOEXEC);
 503         if (ioeventfds[i] < 0) {
 504             break;
 505         }
 506         ret = kvm_set_ioeventfd_pio_word(ioeventfds[i], 0, i, true);
 507         if (ret < 0) {
 508             close(ioeventfds[i]);
 509             break;
 510         }
 511     }
 512
 513     /* Decide whether many devices are supported or not */
 514     ret = i == ARRAY_SIZE(ioeventfds);
 515
 516     while (i-- > 0) {
 517         kvm_set_ioeventfd_pio_word(ioeventfds[i], 0, i, false);
 518         close(ioeventfds[i]);
 519     }
 520     return ret;
 521 #else
 522     return 0;
 523 #endif
 524 }
 525
 526 static const KVMCapabilityInfo *
 527 kvm_check_extension_list(KVMState *s, const KVMCapabilityInfo *list)
 528 {
 529     while (list->name) {
 530         if (!kvm_check_extension(s, list->value)) {
 531             return list;
 532         }
 533         list++;
 534     }
 535     return NULL;
 536 }
 537
 538 static void kvm_set_phys_mem(MemoryRegionSection *section, bool add)
 539 {
 540     KVMState *s = kvm_state;
 541     KVMSlot *mem, old;
 542     int err;
 543     MemoryRegion *mr = section->mr;
 544     bool log_dirty = memory_region_is_logging(mr);
 545     target_phys_addr_t start_addr = section->offset_within_address_space;
 546     ram_addr_t size = section->size;
 547     void *ram = NULL;
 548     unsigned delta;
 549
 550     /* kvm works in page size chunks, but the function may be called
 551        with sub-page size and unaligned start address. */
 552     delta = TARGET_PAGE_ALIGN(size) - size;
 553     if (delta > size) {
 554         return;
 555     }
 556     start_addr += delta;
 557     size -= delta;
 558     size &= TARGET_PAGE_MASK;
 559     if (!size || (start_addr & ~TARGET_PAGE_MASK)) {
 560         return;
 561     }
 562
 563     if (!memory_region_is_ram(mr)) {
 564         return;
 565     }
 566
 567     ram = memory_region_get_ram_ptr(mr) + section->offset_within_region + delta;
 568
 569     while (1) {
 570         mem = kvm_lookup_overlapping_slot(s, start_addr, start_addr + size);
 571         if (!mem) {
 572             break;
 573         }
 574
 575         if (add && start_addr >= mem->start_addr &&
 576             (start_addr + size <= mem->start_addr + mem->memory_size) &&
 577             (ram - start_addr == mem->ram - mem->start_addr)) {
 578             /* The new slot fits into the existing one and comes with
 579              * identical parameters - update flags and done. */
 580             kvm_slot_dirty_pages_log_change(mem, log_dirty);
 581             return;
 582         }
 583
 584         old = *mem;
 585
 586         if (mem->flags & KVM_MEM_LOG_DIRTY_PAGES) {
 587             kvm_physical_sync_dirty_bitmap(section);
 588         }
 589
 590         /* unregister the overlapping slot */
 591         mem->memory_size = 0;
 592         err = kvm_set_user_memory_region(s, mem);
 593         if (err) {
 594             fprintf(stderr, "%s: error unregistering overlapping slot: %s\n",
 595                     __func__, strerror(-err));
 596             abort();
 597         }
 598
 599         /* Workaround for older KVM versions: we can't join slots, even not by
 600          * unregistering the previous ones and then registering the larger
 601          * slot. We have to maintain the existing fragmentation. Sigh.
 602          *
 603          * This workaround assumes that the new slot starts at the same
 604          * address as the first existing one. If not or if some overlapping
 605          * slot comes around later, we will fail (not seen in practice so far)
 606          * - and actually require a recent KVM version. */
 607         if (s->broken_set_mem_region &&
 608             old.start_addr == start_addr && old.memory_size < size && add) {
 609             mem = kvm_alloc_slot(s);
 610             mem->memory_size = old.memory_size;
 611             mem->start_addr = old.start_addr;
 612             mem->ram = old.ram;
 613             mem->flags = kvm_mem_flags(s, log_dirty);
 614
 615             err = kvm_set_user_memory_region(s, mem);
 616             if (err) {
 617                 fprintf(stderr, "%s: error updating slot: %s\n", __func__,
 618                         strerror(-err));
 619                 abort();
 620             }
 621
 622             start_addr += old.memory_size;
 623             ram += old.memory_size;
 624             size -= old.memory_size;
 625             continue;
 626         }
 627
 628         /* register prefix slot */
 629         if (old.start_addr < start_addr) {
 630             mem = kvm_alloc_slot(s);
 631             mem->memory_size = start_addr - old.start_addr;
 632             mem->start_addr = old.start_addr;
 633             mem->ram = old.ram;
 634             mem->flags =  kvm_mem_flags(s, log_dirty);
 635
 636             err = kvm_set_user_memory_region(s, mem);
 637             if (err) {
 638                 fprintf(stderr, "%s: error registering prefix slot: %s\n",
 639                         __func__, strerror(-err));
 640 #ifdef TARGET_PPC
 641                 fprintf(stderr, "%s: This is probably because your kernel's " \
 642                                 "PAGE_SIZE is too big. Please try to use 4k " \
 643                                 "PAGE_SIZE!\n", __func__);
 644 #endif
 645                 abort();
 646             }
 647         }
 648
 649         /* register suffix slot */
 650         if (old.start_addr + old.memory_size > start_addr + size) {
 651             ram_addr_t size_delta;
 652
 653             mem = kvm_alloc_slot(s);
 654             mem->start_addr = start_addr + size;
 655             size_delta = mem->start_addr - old.start_addr;
 656             mem->memory_size = old.memory_size - size_delta;
 657             mem->ram = old.ram + size_delta;
 658             mem->flags = kvm_mem_flags(s, log_dirty);
 659
 660             err = kvm_set_user_memory_region(s, mem);
 661             if (err) {
 662                 fprintf(stderr, "%s: error registering suffix slot: %s\n",
 663                         __func__, strerror(-err));
 664                 abort();
 665             }
 666         }
 667     }
 668
 669     /* in case the KVM bug workaround already "consumed" the new slot */
 670     if (!size) {
 671         return;
 672     }
 673     if (!add) {
 674         return;
 675     }
 676     mem = kvm_alloc_slot(s);
 677     mem->memory_size = size;
 678     mem->start_addr = start_addr;
 679     mem->ram = ram;
 680     mem->flags = kvm_mem_flags(s, log_dirty);
 681
 682     err = kvm_set_user_memory_region(s, mem);
 683     if (err) {
 684         fprintf(stderr, "%s: error registering slot: %s\n", __func__,
 685                 strerror(-err));
 686         abort();
 687     }
 688 }
 689
 690 static void kvm_begin(MemoryListener *listener)
 691 {
 692 }
 693
 694 static void kvm_commit(MemoryListener *listener)
 695 {
 696 }
 697
 698 static void kvm_region_add(MemoryListener *listener,
 699                            MemoryRegionSection *section)
 700 {
 701     kvm_set_phys_mem(section, true);
 702 }
 703
 704 static void kvm_region_del(MemoryListener *listener,
 705                            MemoryRegionSection *section)
 706 {
 707     kvm_set_phys_mem(section, false);
 708 }
 709
 710 static void kvm_region_nop(MemoryListener *listener,
 711                            MemoryRegionSection *section)
 712 {
 713 }
 714
 715 static void kvm_log_sync(MemoryListener *listener,
 716                          MemoryRegionSection *section)
 717 {
 718     int r;
 719
 720     r = kvm_physical_sync_dirty_bitmap(section);
 721     if (r < 0) {
 722         abort();
 723     }
 724 }
 725
 726 static void kvm_log_global_start(struct MemoryListener *listener)
 727 {
 728     int r;
 729
 730     r = kvm_set_migration_log(1);
 731     assert(r >= 0);
 732 }
 733
 734 static void kvm_log_global_stop(struct MemoryListener *listener)
 735 {
 736     int r;
 737
 738     r = kvm_set_migration_log(0);
 739     assert(r >= 0);
 740 }
 741
 742 static void kvm_mem_ioeventfd_add(MemoryRegionSection *section,
 743                                   bool match_data, uint64_t data, int fd)
 744 {
 745     int r;
 746
 747     assert(match_data && section->size <= 8);
 748
 749     r = kvm_set_ioeventfd_mmio(fd, section->offset_within_address_space,
 750                                data, true, section->size);
 751     if (r < 0) {
 752         abort();
 753     }
 754 }
 755
 756 static void kvm_mem_ioeventfd_del(MemoryRegionSection *section,
 757                                   bool match_data, uint64_t data, int fd)
 758 {
 759     int r;
 760
 761     r = kvm_set_ioeventfd_mmio(fd, section->offset_within_address_space,
 762                                data, false, section->size);
 763     if (r < 0) {
 764         abort();
 765     }
 766 }
 767
 768 static void kvm_io_ioeventfd_add(MemoryRegionSection *section,
 769                                  bool match_data, uint64_t data, int fd)
 770 {
 771     int r;
 772
 773     assert(match_data && section->size == 2);
 774
 775     r = kvm_set_ioeventfd_pio_word(fd, section->offset_within_address_space,
 776                                    data, true);
 777     if (r < 0) {
 778         abort();
 779     }
 780 }
 781
 782 static void kvm_io_ioeventfd_del(MemoryRegionSection *section,
 783                                  bool match_data, uint64_t data, int fd)
 784
 785 {
 786     int r;
 787
 788     r = kvm_set_ioeventfd_pio_word(fd, section->offset_within_address_space,
 789                                    data, false);
 790     if (r < 0) {
 791         abort();
 792     }
 793 }
 794
 795 static void kvm_eventfd_add(MemoryListener *listener,
 796                             MemoryRegionSection *section,
 797                             bool match_data, uint64_t data, int fd)
 798 {
 799     if (section->address_space == get_system_memory()) {
 800         kvm_mem_ioeventfd_add(section, match_data, data, fd);
 801     } else {
 802         kvm_io_ioeventfd_add(section, match_data, data, fd);
 803     }
 804 }
 805
 806 static void kvm_eventfd_del(MemoryListener *listener,
 807                             MemoryRegionSection *section,
 808                             bool match_data, uint64_t data, int fd)
 809 {
 810     if (section->address_space == get_system_memory()) {
 811         kvm_mem_ioeventfd_del(section, match_data, data, fd);
 812     } else {
 813         kvm_io_ioeventfd_del(section, match_data, data, fd);
 814     }
 815 }
 816
 817 static MemoryListener kvm_memory_listener = {
 818     .begin = kvm_begin,
 819     .commit = kvm_commit,
 820     .region_add = kvm_region_add,
 821     .region_del = kvm_region_del,
 822     .region_nop = kvm_region_nop,
 823     .log_start = kvm_log_start,
 824     .log_stop = kvm_log_stop,
 825     .log_sync = kvm_log_sync,
 826     .log_global_start = kvm_log_global_start,
 827     .log_global_stop = kvm_log_global_stop,
 828     .eventfd_add = kvm_eventfd_add,
 829     .eventfd_del = kvm_eventfd_del,
 830     .priority = 10,
 831 };
 832
 833 static void kvm_handle_interrupt(CPUArchState *env, int mask)
 834 {
 835     env->interrupt_request |= mask;
 836
 837     if (!qemu_cpu_is_self(env)) {
 838         qemu_cpu_kick(env);
 839     }
 840 }
 841
 842 int kvm_irqchip_set_irq(KVMState *s, int irq, int level)
 843 {
 844     struct kvm_irq_level event;
 845     int ret;
 846
 847     assert(kvm_irqchip_in_kernel());
 848
 849     event.level = level;
 850     event.irq = irq;
 851     ret = kvm_vm_ioctl(s, s->irqchip_inject_ioctl, &event);
 852     if (ret < 0) {
 853         perror("kvm_set_irqchip_line");
 854         abort();
 855     }
 856
 857     return (s->irqchip_inject_ioctl == KVM_IRQ_LINE) ? 1 : event.status;
 858 }
 859
 860 #ifdef KVM_CAP_IRQ_ROUTING
 861 static void set_gsi(KVMState *s, unsigned int gsi)
 862 {
 863     assert(gsi < s->max_gsi);
 864
 865     s->used_gsi_bitmap[gsi / 32] |= 1U << (gsi % 32);
 866 }
 867
 868 static void kvm_init_irq_routing(KVMState *s)
 869 {
 870     int gsi_count;
 871
 872     gsi_count = kvm_check_extension(s, KVM_CAP_IRQ_ROUTING);
 873     if (gsi_count > 0) {
 874         unsigned int gsi_bits, i;
 875
 876         /* Round up so we can search ints using ffs */
 877         gsi_bits = ALIGN(gsi_count, 32);
 878         s->used_gsi_bitmap = g_malloc0(gsi_bits / 8);
 879         s->max_gsi = gsi_bits;
 880
 881         /* Mark any over-allocated bits as already in use */
 882         for (i = gsi_count; i < gsi_bits; i++) {
 883             set_gsi(s, i);
 884         }
 885     }
 886
 887     s->irq_routes = g_malloc0(sizeof(*s->irq_routes));
 888     s->nr_allocated_irq_routes = 0;
 889
 890     kvm_arch_init_irq_routing(s);
 891 }
 892
 893 void kvm_add_routing_entry(KVMState *s,
 894                            struct kvm_irq_routing_entry *entry)
 895 {
 896     struct kvm_irq_routing_entry *new;
 897     int n, size;
 898
 899     if (s->irq_routes->nr == s->nr_allocated_irq_routes) {
 900         n = s->nr_allocated_irq_routes * 2;
 901         if (n < 64) {
 902             n = 64;
 903         }
 904         size = sizeof(struct kvm_irq_routing);
 905         size += n * sizeof(*new);
 906         s->irq_routes = g_realloc(s->irq_routes, size);
 907         s->nr_allocated_irq_routes = n;
 908     }
 909     n = s->irq_routes->nr++;
 910     new = &s->irq_routes->entries[n];
 911     memset(new, 0, sizeof(*new));
 912     new->gsi = entry->gsi;
 913     new->type = entry->type;
 914     new->flags = entry->flags;
 915     new->u = entry->u;
 916
 917     set_gsi(s, entry->gsi);
 918 }
 919
 920 void kvm_irqchip_add_route(KVMState *s, int irq, int irqchip, int pin)
 921 {
 922     struct kvm_irq_routing_entry e;
 923
 924     e.gsi = irq;
 925     e.type = KVM_IRQ_ROUTING_IRQCHIP;
 926     e.flags = 0;
 927     e.u.irqchip.irqchip = irqchip;
 928     e.u.irqchip.pin = pin;
 929     kvm_add_routing_entry(s, &e);
 930 }
 931
 932 int kvm_irqchip_commit_routes(KVMState *s)
 933 {
 934     s->irq_routes->flags = 0;
 935     return kvm_vm_ioctl(s, KVM_SET_GSI_ROUTING, s->irq_routes);
 936 }
 937
 938 #else /* !KVM_CAP_IRQ_ROUTING */
 939
 940 static void kvm_init_irq_routing(KVMState *s)
 941 {
 942 }
 943
 944 int kvm_irqchip_commit_routes(KVMState *s)
 945 {
 946     return -ENOSYS;
 947 }
 948
 949 #endif /* !KVM_CAP_IRQ_ROUTING */
 950
 951 static int kvm_irqchip_create(KVMState *s)
 952 {
 953     QemuOptsList *list = qemu_find_opts("machine");
 954     int ret;
 955
 956     if (QTAILQ_EMPTY(&list->head) ||
 957         !qemu_opt_get_bool(QTAILQ_FIRST(&list->head),
 958                            "kernel_irqchip", false) ||
 959         !kvm_check_extension(s, KVM_CAP_IRQCHIP)) {
 960         return 0;
 961     }
 962
 963     ret = kvm_vm_ioctl(s, KVM_CREATE_IRQCHIP);
 964     if (ret < 0) {
 965         fprintf(stderr, "Create kernel irqchip failed\n");
 966         return ret;
 967     }
 968
 969     s->irqchip_inject_ioctl = KVM_IRQ_LINE;
 970     if (kvm_check_extension(s, KVM_CAP_IRQ_INJECT_STATUS)) {
 971         s->irqchip_inject_ioctl = KVM_IRQ_LINE_STATUS;
 972     }
 973     kvm_kernel_irqchip = true;
 974
 975     kvm_init_irq_routing(s);
 976
 977     return 0;
 978 }
 979
 980 int kvm_init(void)
 981 {
 982     static const char upgrade_note[] =
 983         "Please upgrade to at least kernel 2.6.29 or recent kvm-kmod\n"
 984         "(see http://sourceforge.net/projects/kvm).\n";
 985     KVMState *s;
 986     const KVMCapabilityInfo *missing_cap;
 987     int ret;
 988     int i;
 989
 990     s = g_malloc0(sizeof(KVMState));
 991
 992     /*
 993      * On systems where the kernel can support different base page
 994      * sizes, host page size may be different from TARGET_PAGE_SIZE,
 995      * even with KVM.  TARGET_PAGE_SIZE is assumed to be the minimum
 996      * page size for the system though.
 997      */
 998     assert(TARGET_PAGE_SIZE <= getpagesize());
 999
1000 #ifdef KVM_CAP_SET_GUEST_DEBUG
1001     QTAILQ_INIT(&s->kvm_sw_breakpoints);
1002 #endif
1003     for (i = 0; i < ARRAY_SIZE(s->slots); i++) {
1004         s->slots[i].slot = i;
1005     }
1006     s->vmfd = -1;
1007     s->fd = qemu_open("/dev/kvm", O_RDWR);
1008     if (s->fd == -1) {
1009         fprintf(stderr, "Could not access KVM kernel module: %m\n");
1010         ret = -errno;
1011         goto err;
1012     }
1013
1014     ret = kvm_ioctl(s, KVM_GET_API_VERSION, 0);
1015     if (ret < KVM_API_VERSION) {
1016         if (ret > 0) {
1017             ret = -EINVAL;
1018         }
1019         fprintf(stderr, "kvm version too old\n");
1020         goto err;
1021     }
1022
1023     if (ret > KVM_API_VERSION) {
1024         ret = -EINVAL;
1025         fprintf(stderr, "kvm version not supported\n");
1026         goto err;
1027     }
1028
1029     s->vmfd = kvm_ioctl(s, KVM_CREATE_VM, 0);
1030     if (s->vmfd < 0) {
1031 #ifdef TARGET_S390X
1032         fprintf(stderr, "Please add the 'switch_amode' kernel parameter to "
1033                         "your host kernel command line\n");
1034 #endif
1035         ret = s->vmfd;
1036         goto err;
1037     }
1038
1039     missing_cap = kvm_check_extension_list(s, kvm_required_capabilites);
1040     if (!missing_cap) {
1041         missing_cap =
1042             kvm_check_extension_list(s, kvm_arch_required_capabilities);
1043     }
1044     if (missing_cap) {
1045         ret = -EINVAL;
1046         fprintf(stderr, "kvm does not support %s\n%s",
1047                 missing_cap->name, upgrade_note);
1048         goto err;
1049     }
1050
1051     s->coalesced_mmio = kvm_check_extension(s, KVM_CAP_COALESCED_MMIO);
1052
1053     s->broken_set_mem_region = 1;
1054     ret = kvm_check_extension(s, KVM_CAP_JOIN_MEMORY_REGIONS_WORKS);
1055     if (ret > 0) {
1056         s->broken_set_mem_region = 0;
1057     }
1058
1059 #ifdef KVM_CAP_VCPU_EVENTS
1060     s->vcpu_events = kvm_check_extension(s, KVM_CAP_VCPU_EVENTS);
1061 #endif
1062
1063     s->robust_singlestep =
1064         kvm_check_extension(s, KVM_CAP_X86_ROBUST_SINGLESTEP);
1065
1066 #ifdef KVM_CAP_DEBUGREGS
1067     s->debugregs = kvm_check_extension(s, KVM_CAP_DEBUGREGS);
1068 #endif
1069
1070 #ifdef KVM_CAP_XSAVE
1071     s->xsave = kvm_check_extension(s, KVM_CAP_XSAVE);
1072 #endif
1073
1074 #ifdef KVM_CAP_XCRS
1075     s->xcrs = kvm_check_extension(s, KVM_CAP_XCRS);
1076 #endif
1077
1078 #ifdef KVM_CAP_PIT_STATE2
1079     s->pit_state2 = kvm_check_extension(s, KVM_CAP_PIT_STATE2);
1080 #endif
1081
1082     s->intx_set_mask = kvm_check_extension(s, KVM_CAP_PCI_2_3);
1083
1084     ret = kvm_arch_init(s);
1085     if (ret < 0) {
1086         goto err;
1087     }
1088
1089     ret = kvm_irqchip_create(s);
1090     if (ret < 0) {
1091         goto err;
1092     }
1093
1094     kvm_state = s;
1095     memory_listener_register(&kvm_memory_listener, NULL);
1096
1097     s->many_ioeventfds = kvm_check_many_ioeventfds();
1098
1099     cpu_interrupt_handler = kvm_handle_interrupt;
1100
1101     return 0;
1102
1103 err:
1104     if (s) {
1105         if (s->vmfd >= 0) {
1106             close(s->vmfd);
1107         }
1108         if (s->fd != -1) {
1109             close(s->fd);
1110         }
1111     }
1112     g_free(s);
1113
1114     return ret;
1115 }
1116
1117 static void kvm_handle_io(uint16_t port, void *data, int direction, int size,
1118                           uint32_t count)
1119 {
1120     int i;
1121     uint8_t *ptr = data;
1122
1123     for (i = 0; i < count; i++) {
1124         if (direction == KVM_EXIT_IO_IN) {
1125             switch (size) {
1126             case 1:
1127                 stb_p(ptr, cpu_inb(port));
1128                 break;
1129             case 2:
1130                 stw_p(ptr, cpu_inw(port));
1131                 break;
1132             case 4:
1133                 stl_p(ptr, cpu_inl(port));
1134                 break;
1135             }
1136         } else {
1137             switch (size) {
1138             case 1:
1139                 cpu_outb(port, ldub_p(ptr));
1140                 break;
1141             case 2:
1142                 cpu_outw(port, lduw_p(ptr));
1143                 break;
1144             case 4:
1145                 cpu_outl(port, ldl_p(ptr));
1146                 break;
1147             }
1148         }
1149
1150         ptr += size;
1151     }
1152 }
1153
1154 static int kvm_handle_internal_error(CPUArchState *env, struct kvm_run *run)
1155 {
1156     fprintf(stderr, "KVM internal error.");
1157     if (kvm_check_extension(kvm_state, KVM_CAP_INTERNAL_ERROR_DATA)) {
1158         int i;
1159
1160         fprintf(stderr, " Suberror: %d\n", run->internal.suberror);
1161         for (i = 0; i < run->internal.ndata; ++i) {
1162             fprintf(stderr, "extra data[%d]: %"PRIx64"\n",
1163                     i, (uint64_t)run->internal.data[i]);
1164         }
1165     } else {
1166         fprintf(stderr, "\n");
1167     }
1168     if (run->internal.suberror == KVM_INTERNAL_ERROR_EMULATION) {
1169         fprintf(stderr, "emulation failure\n");
1170         if (!kvm_arch_stop_on_emulation_error(env)) {
1171             cpu_dump_state(env, stderr, fprintf, CPU_DUMP_CODE);
1172             return EXCP_INTERRUPT;
1173         }
1174     }
1175     /* FIXME: Should trigger a qmp message to let management know
1176      * something went wrong.
1177      */
1178     return -1;
1179 }
1180
1181 void kvm_flush_coalesced_mmio_buffer(void)
1182 {
1183     KVMState *s = kvm_state;
1184
1185     if (s->coalesced_flush_in_progress) {
1186         return;
1187     }
1188
1189     s->coalesced_flush_in_progress = true;
1190
1191     if (s->coalesced_mmio_ring) {
1192         struct kvm_coalesced_mmio_ring *ring = s->coalesced_mmio_ring;
1193         while (ring->first != ring->last) {
1194             struct kvm_coalesced_mmio *ent;
1195
1196             ent = &ring->coalesced_mmio[ring->first];
1197
1198             cpu_physical_memory_write(ent->phys_addr, ent->data, ent->len);
1199             smp_wmb();
1200             ring->first = (ring->first + 1) % KVM_COALESCED_MMIO_MAX;
1201         }
1202     }
1203
1204     s->coalesced_flush_in_progress = false;
1205 }
1206
1207 static void do_kvm_cpu_synchronize_state(void *_env)
1208 {
1209     CPUArchState *env = _env;
1210
1211     if (!env->kvm_vcpu_dirty) {
1212         kvm_arch_get_registers(env);
1213         env->kvm_vcpu_dirty = 1;
1214     }
1215 }
1216
1217 void kvm_cpu_synchronize_state(CPUArchState *env)
1218 {
1219     if (!env->kvm_vcpu_dirty) {
1220         run_on_cpu(env, do_kvm_cpu_synchronize_state, env);
1221     }
1222 }
1223
1224 void kvm_cpu_synchronize_post_reset(CPUArchState *env)
1225 {
1226     kvm_arch_put_registers(env, KVM_PUT_RESET_STATE);
1227     env->kvm_vcpu_dirty = 0;
1228 }
1229
1230 void kvm_cpu_synchronize_post_init(CPUArchState *env)
1231 {
1232     kvm_arch_put_registers(env, KVM_PUT_FULL_STATE);
1233     env->kvm_vcpu_dirty = 0;
1234 }
1235
1236 int kvm_cpu_exec(CPUArchState *env)
1237 {
1238     struct kvm_run *run = env->kvm_run;
1239     int ret, run_ret;
1240
1241     DPRINTF("kvm_cpu_exec()\n");
1242
1243     if (kvm_arch_process_async_events(env)) {
1244         env->exit_request = 0;
1245         return EXCP_HLT;
1246     }
1247
1248     do {
1249         if (env->kvm_vcpu_dirty) {
1250             kvm_arch_put_registers(env, KVM_PUT_RUNTIME_STATE);
1251             env->kvm_vcpu_dirty = 0;
1252         }
1253
1254         kvm_arch_pre_run(env, run);
1255         if (env->exit_request) {
1256             DPRINTF("interrupt exit requested\n");
1257             /*
1258              * KVM requires us to reenter the kernel after IO exits to complete
1259              * instruction emulation. This self-signal will ensure that we
1260              * leave ASAP again.
1261              */
1262             qemu_cpu_kick_self();
1263         }
1264         qemu_mutex_unlock_iothread();
1265
1266         run_ret = kvm_vcpu_ioctl(env, KVM_RUN, 0);
1267
1268         qemu_mutex_lock_iothread();
1269         kvm_arch_post_run(env, run);
1270
1271         kvm_flush_coalesced_mmio_buffer();
1272
1273         if (run_ret < 0) {
1274             if (run_ret == -EINTR || run_ret == -EAGAIN) {
1275                 DPRINTF("io window exit\n");
1276                 ret = EXCP_INTERRUPT;
1277                 break;
1278             }
1279             fprintf(stderr, "error: kvm run failed %s\n",
1280                     strerror(-run_ret));
1281             abort();
1282         }
1283
1284         switch (run->exit_reason) {
1285         case KVM_EXIT_IO:
1286             DPRINTF("handle_io\n");
1287             kvm_handle_io(run->io.port,
1288                           (uint8_t *)run + run->io.data_offset,
1289                           run->io.direction,
1290                           run->io.size,
1291                           run->io.count);
1292             ret = 0;
1293             break;
1294         case KVM_EXIT_MMIO:
1295             DPRINTF("handle_mmio\n");
1296             cpu_physical_memory_rw(run->mmio.phys_addr,
1297                                    run->mmio.data,
1298                                    run->mmio.len,
1299                                    run->mmio.is_write);
1300             ret = 0;
1301             break;
1302         case KVM_EXIT_IRQ_WINDOW_OPEN:
1303             DPRINTF("irq_window_open\n");
1304             ret = EXCP_INTERRUPT;
1305             break;
1306         case KVM_EXIT_SHUTDOWN:
1307             DPRINTF("shutdown\n");
1308             qemu_system_reset_request();
1309             ret = EXCP_INTERRUPT;
1310             break;
1311         case KVM_EXIT_UNKNOWN:
1312             fprintf(stderr, "KVM: unknown exit, hardware reason %" PRIx64 "\n",
1313                     (uint64_t)run->hw.hardware_exit_reason);
1314             ret = -1;
1315             break;
1316         case KVM_EXIT_INTERNAL_ERROR:
1317             ret = kvm_handle_internal_error(env, run);
1318             break;
1319         default:
1320             DPRINTF("kvm_arch_handle_exit\n");
1321             ret = kvm_arch_handle_exit(env, run);
1322             break;
1323         }
1324     } while (ret == 0);
1325
1326     if (ret < 0) {
1327         cpu_dump_state(env, stderr, fprintf, CPU_DUMP_CODE);
1328         vm_stop(RUN_STATE_INTERNAL_ERROR);
1329     }
1330
1331     env->exit_request = 0;
1332     return ret;
1333 }
1334
1335 int kvm_ioctl(KVMState *s, int type, ...)
1336 {
1337     int ret;
1338     void *arg;
1339     va_list ap;
1340
1341     va_start(ap, type);
1342     arg = va_arg(ap, void *);
1343     va_end(ap);
1344
1345     ret = ioctl(s->fd, type, arg);
1346     if (ret == -1) {
1347         ret = -errno;
1348     }
1349     return ret;
1350 }
1351
1352 int kvm_vm_ioctl(KVMState *s, int type, ...)
1353 {
1354     int ret;
1355     void *arg;
1356     va_list ap;
1357
1358     va_start(ap, type);
1359     arg = va_arg(ap, void *);
1360     va_end(ap);
1361
1362     ret = ioctl(s->vmfd, type, arg);
1363     if (ret == -1) {
1364         ret = -errno;
1365     }
1366     return ret;
1367 }
1368
1369 int kvm_vcpu_ioctl(CPUArchState *env, int type, ...)
1370 {
1371     int ret;
1372     void *arg;
1373     va_list ap;
1374
1375     va_start(ap, type);
1376     arg = va_arg(ap, void *);
1377     va_end(ap);
1378
1379     ret = ioctl(env->kvm_fd, type, arg);
1380     if (ret == -1) {
1381         ret = -errno;
1382     }
1383     return ret;
1384 }
1385
1386 int kvm_has_sync_mmu(void)
1387 {
1388     return kvm_check_extension(kvm_state, KVM_CAP_SYNC_MMU);
1389 }
1390
1391 int kvm_has_vcpu_events(void)
1392 {
1393     return kvm_state->vcpu_events;
1394 }
1395
1396 int kvm_has_robust_singlestep(void)
1397 {
1398     return kvm_state->robust_singlestep;
1399 }
1400
1401 int kvm_has_debugregs(void)
1402 {
1403     return kvm_state->debugregs;
1404 }
1405
1406 int kvm_has_xsave(void)
1407 {
1408     return kvm_state->xsave;
1409 }
1410
1411 int kvm_has_xcrs(void)
1412 {
1413     return kvm_state->xcrs;
1414 }
1415
1416 int kvm_has_pit_state2(void)
1417 {
1418     return kvm_state->pit_state2;
1419 }
1420
1421 int kvm_has_many_ioeventfds(void)
1422 {
1423     if (!kvm_enabled()) {
1424         return 0;
1425     }
1426     return kvm_state->many_ioeventfds;
1427 }
1428
1429 int kvm_has_gsi_routing(void)
1430 {
1431 #ifdef KVM_CAP_IRQ_ROUTING
1432     return kvm_check_extension(kvm_state, KVM_CAP_IRQ_ROUTING);
1433 #else
1434     return false;
1435 #endif
1436 }
1437
1438 int kvm_has_intx_set_mask(void)
1439 {
1440     return kvm_state->intx_set_mask;
1441 }
1442
1443 int kvm_allows_irq0_override(void)
1444 {
1445     return !kvm_irqchip_in_kernel() || kvm_has_gsi_routing();
1446 }
1447
1448 void kvm_setup_guest_memory(void *start, size_t size)
1449 {
1450     if (!kvm_has_sync_mmu()) {
1451         int ret = qemu_madvise(start, size, QEMU_MADV_DONTFORK);
1452
1453         if (ret) {
1454             perror("qemu_madvise");
1455             fprintf(stderr,
1456                     "Need MADV_DONTFORK in absence of synchronous KVM MMU\n");
1457             exit(1);
1458         }
1459     }
1460 }
1461
1462 #ifdef KVM_CAP_SET_GUEST_DEBUG
1463 struct kvm_sw_breakpoint *kvm_find_sw_breakpoint(CPUArchState *env,
1464                                                  target_ulong pc)
1465 {
1466     struct kvm_sw_breakpoint *bp;
1467
1468     QTAILQ_FOREACH(bp, &env->kvm_state->kvm_sw_breakpoints, entry) {
1469         if (bp->pc == pc) {
1470             return bp;
1471         }
1472     }
1473     return NULL;
1474 }
1475
1476 int kvm_sw_breakpoints_active(CPUArchState *env)
1477 {
1478     return !QTAILQ_EMPTY(&env->kvm_state->kvm_sw_breakpoints);
1479 }
1480
1481 struct kvm_set_guest_debug_data {
1482     struct kvm_guest_debug dbg;
1483     CPUArchState *env;
1484     int err;
1485 };
1486
1487 static void kvm_invoke_set_guest_debug(void *data)
1488 {
1489     struct kvm_set_guest_debug_data *dbg_data = data;
1490     CPUArchState *env = dbg_data->env;
1491
1492     dbg_data->err = kvm_vcpu_ioctl(env, KVM_SET_GUEST_DEBUG, &dbg_data->dbg);
1493 }
1494
1495 int kvm_update_guest_debug(CPUArchState *env, unsigned long reinject_trap)
1496 {
1497     struct kvm_set_guest_debug_data data;
1498
1499     data.dbg.control = reinject_trap;
1500
1501     if (env->singlestep_enabled) {
1502         data.dbg.control |= KVM_GUESTDBG_ENABLE | KVM_GUESTDBG_SINGLESTEP;
1503     }
1504     kvm_arch_update_guest_debug(env, &data.dbg);
1505     data.env = env;
1506
1507     run_on_cpu(env, kvm_invoke_set_guest_debug, &data);
1508     return data.err;
1509 }
1510
1511 int kvm_insert_breakpoint(CPUArchState *current_env, target_ulong addr,
1512                           target_ulong len, int type)
1513 {
1514     struct kvm_sw_breakpoint *bp;
1515     CPUArchState *env;
1516     int err;
1517
1518     if (type == GDB_BREAKPOINT_SW) {
1519         bp = kvm_find_sw_breakpoint(current_env, addr);
1520         if (bp) {
1521             bp->use_count++;
1522             return 0;
1523         }
1524
1525         bp = g_malloc(sizeof(struct kvm_sw_breakpoint));
1526         if (!bp) {
1527             return -ENOMEM;
1528         }
1529
1530         bp->pc = addr;
1531         bp->use_count = 1;
1532         err = kvm_arch_insert_sw_breakpoint(current_env, bp);
1533         if (err) {
1534             g_free(bp);
1535             return err;
1536         }
1537
1538         QTAILQ_INSERT_HEAD(&current_env->kvm_state->kvm_sw_breakpoints,
1539                           bp, entry);
1540     } else {
1541         err = kvm_arch_insert_hw_breakpoint(addr, len, type);
1542         if (err) {
1543             return err;
1544         }
1545     }
1546
1547     for (env = first_cpu; env != NULL; env = env->next_cpu) {
1548         err = kvm_update_guest_debug(env, 0);
1549         if (err) {
1550             return err;
1551         }
1552     }
1553     return 0;
1554 }
1555
1556 int kvm_remove_breakpoint(CPUArchState *current_env, target_ulong addr,
1557                           target_ulong len, int type)
1558 {
1559     struct kvm_sw_breakpoint *bp;
1560     CPUArchState *env;
1561     int err;
1562
1563     if (type == GDB_BREAKPOINT_SW) {
1564         bp = kvm_find_sw_breakpoint(current_env, addr);
1565         if (!bp) {
1566             return -ENOENT;
1567         }
1568
1569         if (bp->use_count > 1) {
1570             bp->use_count--;
1571             return 0;
1572         }
1573
1574         err = kvm_arch_remove_sw_breakpoint(current_env, bp);
1575         if (err) {
1576             return err;
1577         }
1578
1579         QTAILQ_REMOVE(&current_env->kvm_state->kvm_sw_breakpoints, bp, entry);
1580         g_free(bp);
1581     } else {
1582         err = kvm_arch_remove_hw_breakpoint(addr, len, type);
1583         if (err) {
1584             return err;
1585         }
1586     }
1587
1588     for (env = first_cpu; env != NULL; env = env->next_cpu) {
1589         err = kvm_update_guest_debug(env, 0);
1590         if (err) {
1591             return err;
1592         }
1593     }
1594     return 0;
1595 }
1596
1597 void kvm_remove_all_breakpoints(CPUArchState *current_env)
1598 {
1599     struct kvm_sw_breakpoint *bp, *next;
1600     KVMState *s = current_env->kvm_state;
1601     CPUArchState *env;
1602
1603     QTAILQ_FOREACH_SAFE(bp, &s->kvm_sw_breakpoints, entry, next) {
1604         if (kvm_arch_remove_sw_breakpoint(current_env, bp) != 0) {
1605             /* Try harder to find a CPU that currently sees the breakpoint. */
1606             for (env = first_cpu; env != NULL; env = env->next_cpu) {
1607                 if (kvm_arch_remove_sw_breakpoint(env, bp) == 0) {
1608                     break;
1609                 }
1610             }
1611         }
1612     }
1613     kvm_arch_remove_all_hw_breakpoints();
1614
1615     for (env = first_cpu; env != NULL; env = env->next_cpu) {
1616         kvm_update_guest_debug(env, 0);
1617     }
1618 }
1619
1620 #else /* !KVM_CAP_SET_GUEST_DEBUG */
1621
1622 int kvm_update_guest_debug(CPUArchState *env, unsigned long reinject_trap)
1623 {
1624     return -EINVAL;
1625 }
1626
1627 int kvm_insert_breakpoint(CPUArchState *current_env, target_ulong addr,
1628                           target_ulong len, int type)
1629 {
1630     return -EINVAL;
1631 }
1632
1633 int kvm_remove_breakpoint(CPUArchState *current_env, target_ulong addr,
1634                           target_ulong len, int type)
1635 {
1636     return -EINVAL;
1637 }
1638
1639 void kvm_remove_all_breakpoints(CPUArchState *current_env)
1640 {
1641 }
1642 #endif /* !KVM_CAP_SET_GUEST_DEBUG */
1643
1644 int kvm_set_signal_mask(CPUArchState *env, const sigset_t *sigset)
1645 {
1646     struct kvm_signal_mask *sigmask;
1647     int r;
1648
1649     if (!sigset) {
1650         return kvm_vcpu_ioctl(env, KVM_SET_SIGNAL_MASK, NULL);
1651     }
1652
1653     sigmask = g_malloc(sizeof(*sigmask) + sizeof(*sigset));
1654
1655     sigmask->len = 8;
1656     memcpy(sigmask->sigset, sigset, sizeof(*sigset));
1657     r = kvm_vcpu_ioctl(env, KVM_SET_SIGNAL_MASK, sigmask);
1658     g_free(sigmask);
1659
1660     return r;
1661 }
1662
1663 int kvm_set_ioeventfd_mmio(int fd, uint32_t addr, uint32_t val, bool assign,
1664                            uint32_t size)
1665 {
1666     int ret;
1667     struct kvm_ioeventfd iofd;
1668
1669     iofd.datamatch = val;
1670     iofd.addr = addr;
1671     iofd.len = size;
1672     iofd.flags = KVM_IOEVENTFD_FLAG_DATAMATCH;
1673     iofd.fd = fd;
1674
1675     if (!kvm_enabled()) {
1676         return -ENOSYS;
1677     }
1678
1679     if (!assign) {
1680         iofd.flags |= KVM_IOEVENTFD_FLAG_DEASSIGN;
1681     }
1682
1683     ret = kvm_vm_ioctl(kvm_state, KVM_IOEVENTFD, &iofd);
1684
1685     if (ret < 0) {
1686         return -errno;
1687     }
1688
1689     return 0;
1690 }
1691
1692 int kvm_set_ioeventfd_pio_word(int fd, uint16_t addr, uint16_t val, bool assign)
1693 {
1694     struct kvm_ioeventfd kick = {
1695         .datamatch = val,
1696         .addr = addr,
1697         .len = 2,
1698         .flags = KVM_IOEVENTFD_FLAG_DATAMATCH | KVM_IOEVENTFD_FLAG_PIO,
1699         .fd = fd,
1700     };
1701     int r;
1702     if (!kvm_enabled()) {
1703         return -ENOSYS;
1704     }
1705     if (!assign) {
1706         kick.flags |= KVM_IOEVENTFD_FLAG_DEASSIGN;
1707     }
1708     r = kvm_vm_ioctl(kvm_state, KVM_IOEVENTFD, &kick);
1709     if (r < 0) {
1710         return r;
1711     }
1712     return 0;
1713 }
1714
1715 int kvm_set_irqfd(int gsi, int fd, bool assigned)
1716 {
1717     struct kvm_irqfd irqfd = {
1718         .fd = fd,
1719         .gsi = gsi,
1720         .flags = assigned ? 0 : KVM_IRQFD_FLAG_DEASSIGN,
1721     };
1722     int r;
1723     if (!kvm_enabled() || !kvm_irqchip_in_kernel())
1724         return -ENOSYS;
1725
1726     r = kvm_vm_ioctl(kvm_state, KVM_IRQFD, &irqfd);
1727     if (r < 0)
1728         return r;
1729     return 0;
1730 }
1731
1732 int kvm_on_sigbus_vcpu(CPUArchState *env, int code, void *addr)
1733 {
1734     return kvm_arch_on_sigbus_vcpu(env, code, addr);
1735 }
1736
1737 int kvm_on_sigbus(int code, void *addr)
1738 {
1739     return kvm_arch_on_sigbus(code, addr);
1740 }
1741
1742 #undef PAGE_SIZE
1743 #include "qemu-kvm.c"