kvm-all.c

   1 /*
   2  * QEMU KVM support
   3  *
   4  * Copyright IBM, Corp. 2008
   5  *           Red Hat, Inc. 2008
   6  *
   7  * Authors:
   8  *  Anthony Liguori   <aliguori@us.ibm.com>
   9  *  Glauber Costa     <gcosta@redhat.com>
  10  *
  11  * This work is licensed under the terms of the GNU GPL, version 2 or later.
  12  * See the COPYING file in the top-level directory.
  13  *
  14  */
  15
  16 #include <sys/types.h>
  17 #include <sys/ioctl.h>
  18 #include <sys/mman.h>
  19 #include <stdarg.h>
  20
  21 #include <linux/kvm.h>
  22
  23 #include "qemu-common.h"
  24 #include "qemu-barrier.h"
  25 #include "sysemu.h"
  26 #include "hw/hw.h"
  27 #include "gdbstub.h"
  28 #include "kvm.h"
  29 #include "bswap.h"
  30 #include "memory.h"
  31 #include "exec-memory.h"
  32
  33 /* This check must be after config-host.h is included */
  34 #ifdef CONFIG_EVENTFD
  35 #include <sys/eventfd.h>
  36 #endif
  37
  38 /* KVM uses PAGE_SIZE in it's definition of COALESCED_MMIO_MAX */
  39 #define PAGE_SIZE TARGET_PAGE_SIZE
  40
  41 //#define DEBUG_KVM
  42
  43 #ifdef DEBUG_KVM
  44 #define DPRINTF(fmt, ...) \
  45     do { fprintf(stderr, fmt, ## __VA_ARGS__); } while (0)
  46 #else
  47 #define DPRINTF(fmt, ...) \
  48     do { } while (0)
  49 #endif
  50
  51 typedef struct KVMSlot
  52 {
  53     target_phys_addr_t start_addr;
  54     ram_addr_t memory_size;
  55     void *ram;
  56     int slot;
  57     int flags;
  58 } KVMSlot;
  59
  60 typedef struct kvm_dirty_log KVMDirtyLog;
  61
  62 struct KVMState
  63 {
  64     KVMSlot slots[32];
  65     int fd;
  66     int vmfd;
  67     int coalesced_mmio;
  68     struct kvm_coalesced_mmio_ring *coalesced_mmio_ring;
  69     bool coalesced_flush_in_progress;
  70     int broken_set_mem_region;
  71     int migration_log;
  72     int vcpu_events;
  73     int robust_singlestep;
  74     int debugregs;
  75 #ifdef KVM_CAP_SET_GUEST_DEBUG
  76     struct kvm_sw_breakpoint_head kvm_sw_breakpoints;
  77 #endif
  78     int pit_in_kernel;
  79     int xsave, xcrs;
  80     int many_ioeventfds;
  81     int pit_state2;
  82     int irqchip_inject_ioctl;
  83 #ifdef KVM_CAP_IRQ_ROUTING
  84     struct kvm_irq_routing *irq_routes;
  85     int nr_allocated_irq_routes;
  86     uint32_t *used_gsi_bitmap;
  87     unsigned int max_gsi;
  88 #endif
  89 };
  90
  91 KVMState *kvm_state;
  92 bool kvm_kernel_irqchip;
  93
  94 static const KVMCapabilityInfo kvm_required_capabilites[] = {
  95     KVM_CAP_INFO(USER_MEMORY),
  96     KVM_CAP_INFO(DESTROY_MEMORY_REGION_WORKS),
  97     KVM_CAP_LAST_INFO
  98 };
  99
 100 static KVMSlot *kvm_alloc_slot(KVMState *s)
 101 {
 102     int i;
 103
 104     for (i = 0; i < ARRAY_SIZE(s->slots); i++) {
 105         if (s->slots[i].memory_size == 0) {
 106             return &s->slots[i];
 107         }
 108     }
 109
 110     fprintf(stderr, "%s: no free slot available\n", __func__);
 111     abort();
 112 }
 113
 114 static KVMSlot *kvm_lookup_matching_slot(KVMState *s,
 115                                          target_phys_addr_t start_addr,
 116                                          target_phys_addr_t end_addr)
 117 {
 118     int i;
 119
 120     for (i = 0; i < ARRAY_SIZE(s->slots); i++) {
 121         KVMSlot *mem = &s->slots[i];
 122
 123         if (start_addr == mem->start_addr &&
 124             end_addr == mem->start_addr + mem->memory_size) {
 125             return mem;
 126         }
 127     }
 128
 129     return NULL;
 130 }
 131
 132 /*
 133  * Find overlapping slot with lowest start address
 134  */
 135 static KVMSlot *kvm_lookup_overlapping_slot(KVMState *s,
 136                                             target_phys_addr_t start_addr,
 137                                             target_phys_addr_t end_addr)
 138 {
 139     KVMSlot *found = NULL;
 140     int i;
 141
 142     for (i = 0; i < ARRAY_SIZE(s->slots); i++) {
 143         KVMSlot *mem = &s->slots[i];
 144
 145         if (mem->memory_size == 0 ||
 146             (found && found->start_addr < mem->start_addr)) {
 147             continue;
 148         }
 149
 150         if (end_addr > mem->start_addr &&
 151             start_addr < mem->start_addr + mem->memory_size) {
 152             found = mem;
 153         }
 154     }
 155
 156     return found;
 157 }
 158
 159 int kvm_physical_memory_addr_from_host(KVMState *s, void *ram,
 160                                        target_phys_addr_t *phys_addr)
 161 {
 162     int i;
 163
 164     for (i = 0; i < ARRAY_SIZE(s->slots); i++) {
 165         KVMSlot *mem = &s->slots[i];
 166
 167         if (ram >= mem->ram && ram < mem->ram + mem->memory_size) {
 168             *phys_addr = mem->start_addr + (ram - mem->ram);
 169             return 1;
 170         }
 171     }
 172
 173     return 0;
 174 }
 175
 176 static int kvm_set_user_memory_region(KVMState *s, KVMSlot *slot)
 177 {
 178     struct kvm_userspace_memory_region mem;
 179
 180     mem.slot = slot->slot;
 181     mem.guest_phys_addr = slot->start_addr;
 182     mem.memory_size = slot->memory_size;
 183     mem.userspace_addr = (unsigned long)slot->ram;
 184     mem.flags = slot->flags;
 185     if (s->migration_log) {
 186         mem.flags |= KVM_MEM_LOG_DIRTY_PAGES;
 187     }
 188     return kvm_vm_ioctl(s, KVM_SET_USER_MEMORY_REGION, &mem);
 189 }
 190
 191 static void kvm_reset_vcpu(void *opaque)
 192 {
 193     CPUState *env = opaque;
 194
 195     kvm_arch_reset_vcpu(env);
 196 }
 197
 198 int kvm_pit_in_kernel(void)
 199 {
 200     return kvm_state->pit_in_kernel;
 201 }
 202
 203 int kvm_init_vcpu(CPUState *env)
 204 {
 205     KVMState *s = kvm_state;
 206     long mmap_size;
 207     int ret;
 208
 209     DPRINTF("kvm_init_vcpu\n");
 210
 211     ret = kvm_vm_ioctl(s, KVM_CREATE_VCPU, env->cpu_index);
 212     if (ret < 0) {
 213         DPRINTF("kvm_create_vcpu failed\n");
 214         goto err;
 215     }
 216
 217     env->kvm_fd = ret;
 218     env->kvm_state = s;
 219     env->kvm_vcpu_dirty = 1;
 220
 221     mmap_size = kvm_ioctl(s, KVM_GET_VCPU_MMAP_SIZE, 0);
 222     if (mmap_size < 0) {
 223         ret = mmap_size;
 224         DPRINTF("KVM_GET_VCPU_MMAP_SIZE failed\n");
 225         goto err;
 226     }
 227
 228     env->kvm_run = mmap(NULL, mmap_size, PROT_READ | PROT_WRITE, MAP_SHARED,
 229                         env->kvm_fd, 0);
 230     if (env->kvm_run == MAP_FAILED) {
 231         ret = -errno;
 232         DPRINTF("mmap'ing vcpu state failed\n");
 233         goto err;
 234     }
 235
 236     if (s->coalesced_mmio && !s->coalesced_mmio_ring) {
 237         s->coalesced_mmio_ring =
 238             (void *)env->kvm_run + s->coalesced_mmio * PAGE_SIZE;
 239     }
 240
 241     ret = kvm_arch_init_vcpu(env);
 242     if (ret == 0) {
 243         qemu_register_reset(kvm_reset_vcpu, env);
 244         kvm_arch_reset_vcpu(env);
 245     }
 246 err:
 247     return ret;
 248 }
 249
 250 /*
 251  * dirty pages logging control
 252  */
 253
 254 static int kvm_mem_flags(KVMState *s, bool log_dirty)
 255 {
 256     return log_dirty ? KVM_MEM_LOG_DIRTY_PAGES : 0;
 257 }
 258
 259 static int kvm_slot_dirty_pages_log_change(KVMSlot *mem, bool log_dirty)
 260 {
 261     KVMState *s = kvm_state;
 262     int flags, mask = KVM_MEM_LOG_DIRTY_PAGES;
 263     int old_flags;
 264
 265     old_flags = mem->flags;
 266
 267     flags = (mem->flags & ~mask) | kvm_mem_flags(s, log_dirty);
 268     mem->flags = flags;
 269
 270     /* If nothing changed effectively, no need to issue ioctl */
 271     if (s->migration_log) {
 272         flags |= KVM_MEM_LOG_DIRTY_PAGES;
 273     }
 274
 275     if (flags == old_flags) {
 276         return 0;
 277     }
 278
 279     return kvm_set_user_memory_region(s, mem);
 280 }
 281
 282 static int kvm_dirty_pages_log_change(target_phys_addr_t phys_addr,
 283                                       ram_addr_t size, bool log_dirty)
 284 {
 285     KVMState *s = kvm_state;
 286     KVMSlot *mem = kvm_lookup_matching_slot(s, phys_addr, phys_addr + size);
 287
 288     if (mem == NULL)  {
 289         fprintf(stderr, "BUG: %s: invalid parameters " TARGET_FMT_plx "-"
 290                 TARGET_FMT_plx "\n", __func__, phys_addr,
 291                 (target_phys_addr_t)(phys_addr + size - 1));
 292         return -EINVAL;
 293     }
 294     return kvm_slot_dirty_pages_log_change(mem, log_dirty);
 295 }
 296
 297 static void kvm_log_start(MemoryListener *listener,
 298                           MemoryRegionSection *section)
 299 {
 300     int r;
 301
 302     r = kvm_dirty_pages_log_change(section->offset_within_address_space,
 303                                    section->size, true);
 304     if (r < 0) {
 305         abort();
 306     }
 307 }
 308
 309 static void kvm_log_stop(MemoryListener *listener,
 310                           MemoryRegionSection *section)
 311 {
 312     int r;
 313
 314     r = kvm_dirty_pages_log_change(section->offset_within_address_space,
 315                                    section->size, false);
 316     if (r < 0) {
 317         abort();
 318     }
 319 }
 320
 321 static int kvm_set_migration_log(int enable)
 322 {
 323     KVMState *s = kvm_state;
 324     KVMSlot *mem;
 325     int i, err;
 326
 327     s->migration_log = enable;
 328
 329     for (i = 0; i < ARRAY_SIZE(s->slots); i++) {
 330         mem = &s->slots[i];
 331
 332         if (!mem->memory_size) {
 333             continue;
 334         }
 335         if (!!(mem->flags & KVM_MEM_LOG_DIRTY_PAGES) == enable) {
 336             continue;
 337         }
 338         err = kvm_set_user_memory_region(s, mem);
 339         if (err) {
 340             return err;
 341         }
 342     }
 343     return 0;
 344 }
 345
 346 /* get kvm's dirty pages bitmap and update qemu's */
 347 static int kvm_get_dirty_pages_log_range(MemoryRegionSection *section,
 348                                          unsigned long *bitmap)
 349 {
 350     unsigned int i, j;
 351     unsigned long page_number, c;
 352     target_phys_addr_t addr, addr1;
 353     unsigned int len = ((section->size / TARGET_PAGE_SIZE) + HOST_LONG_BITS - 1) / HOST_LONG_BITS;
 354
 355     /*
 356      * bitmap-traveling is faster than memory-traveling (for addr...)
 357      * especially when most of the memory is not dirty.
 358      */
 359     for (i = 0; i < len; i++) {
 360         if (bitmap[i] != 0) {
 361             c = leul_to_cpu(bitmap[i]);
 362             do {
 363                 j = ffsl(c) - 1;
 364                 c &= ~(1ul << j);
 365                 page_number = i * HOST_LONG_BITS + j;
 366                 addr1 = page_number * TARGET_PAGE_SIZE;
 367                 addr = section->offset_within_region + addr1;
 368                 memory_region_set_dirty(section->mr, addr, TARGET_PAGE_SIZE);
 369             } while (c != 0);
 370         }
 371     }
 372     return 0;
 373 }
 374
 375 #define ALIGN(x, y)  (((x)+(y)-1) & ~((y)-1))
 376
 377 /**
 378  * kvm_physical_sync_dirty_bitmap - Grab dirty bitmap from kernel space
 379  * This function updates qemu's dirty bitmap using
 380  * memory_region_set_dirty().  This means all bits are set
 381  * to dirty.
 382  *
 383  * @start_add: start of logged region.
 384  * @end_addr: end of logged region.
 385  */
 386 static int kvm_physical_sync_dirty_bitmap(MemoryRegionSection *section)
 387 {
 388     KVMState *s = kvm_state;
 389     unsigned long size, allocated_size = 0;
 390     KVMDirtyLog d;
 391     KVMSlot *mem;
 392     int ret = 0;
 393     target_phys_addr_t start_addr = section->offset_within_address_space;
 394     target_phys_addr_t end_addr = start_addr + section->size;
 395
 396     d.dirty_bitmap = NULL;
 397     while (start_addr < end_addr) {
 398         mem = kvm_lookup_overlapping_slot(s, start_addr, end_addr);
 399         if (mem == NULL) {
 400             break;
 401         }
 402
 403         /* XXX bad kernel interface alert
 404          * For dirty bitmap, kernel allocates array of size aligned to
 405          * bits-per-long.  But for case when the kernel is 64bits and
 406          * the userspace is 32bits, userspace can't align to the same
 407          * bits-per-long, since sizeof(long) is different between kernel
 408          * and user space.  This way, userspace will provide buffer which
 409          * may be 4 bytes less than the kernel will use, resulting in
 410          * userspace memory corruption (which is not detectable by valgrind
 411          * too, in most cases).
 412          * So for now, let's align to 64 instead of HOST_LONG_BITS here, in
 413          * a hope that sizeof(long) wont become >8 any time soon.
 414          */
 415         size = ALIGN(((mem->memory_size) >> TARGET_PAGE_BITS),
 416                      /*HOST_LONG_BITS*/ 64) / 8;
 417         if (!d.dirty_bitmap) {
 418             d.dirty_bitmap = g_malloc(size);
 419         } else if (size > allocated_size) {
 420             d.dirty_bitmap = g_realloc(d.dirty_bitmap, size);
 421         }
 422         allocated_size = size;
 423         memset(d.dirty_bitmap, 0, allocated_size);
 424
 425         d.slot = mem->slot;
 426
 427         if (kvm_vm_ioctl(s, KVM_GET_DIRTY_LOG, &d) == -1) {
 428             DPRINTF("ioctl failed %d\n", errno);
 429             ret = -1;
 430             break;
 431         }
 432
 433         kvm_get_dirty_pages_log_range(section, d.dirty_bitmap);
 434         start_addr = mem->start_addr + mem->memory_size;
 435     }
 436     g_free(d.dirty_bitmap);
 437
 438     return ret;
 439 }
 440
 441 int kvm_coalesce_mmio_region(target_phys_addr_t start, ram_addr_t size)
 442 {
 443     int ret = -ENOSYS;
 444     KVMState *s = kvm_state;
 445
 446     if (s->coalesced_mmio) {
 447         struct kvm_coalesced_mmio_zone zone;
 448
 449         zone.addr = start;
 450         zone.size = size;
 451
 452         ret = kvm_vm_ioctl(s, KVM_REGISTER_COALESCED_MMIO, &zone);
 453     }
 454
 455     return ret;
 456 }
 457
 458 int kvm_uncoalesce_mmio_region(target_phys_addr_t start, ram_addr_t size)
 459 {
 460     int ret = -ENOSYS;
 461     KVMState *s = kvm_state;
 462
 463     if (s->coalesced_mmio) {
 464         struct kvm_coalesced_mmio_zone zone;
 465
 466         zone.addr = start;
 467         zone.size = size;
 468
 469         ret = kvm_vm_ioctl(s, KVM_UNREGISTER_COALESCED_MMIO, &zone);
 470     }
 471
 472     return ret;
 473 }
 474
 475 int kvm_check_extension(KVMState *s, unsigned int extension)
 476 {
 477     int ret;
 478
 479     ret = kvm_ioctl(s, KVM_CHECK_EXTENSION, extension);
 480     if (ret < 0) {
 481         ret = 0;
 482     }
 483
 484     return ret;
 485 }
 486
 487 static int kvm_check_many_ioeventfds(void)
 488 {
 489     /* Userspace can use ioeventfd for io notification.  This requires a host
 490      * that supports eventfd(2) and an I/O thread; since eventfd does not
 491      * support SIGIO it cannot interrupt the vcpu.
 492      *
 493      * Older kernels have a 6 device limit on the KVM io bus.  Find out so we
 494      * can avoid creating too many ioeventfds.
 495      */
 496 #if defined(CONFIG_EVENTFD)
 497     int ioeventfds[7];
 498     int i, ret = 0;
 499     for (i = 0; i < ARRAY_SIZE(ioeventfds); i++) {
 500         ioeventfds[i] = eventfd(0, EFD_CLOEXEC);
 501         if (ioeventfds[i] < 0) {
 502             break;
 503         }
 504         ret = kvm_set_ioeventfd_pio_word(ioeventfds[i], 0, i, true);
 505         if (ret < 0) {
 506             close(ioeventfds[i]);
 507             break;
 508         }
 509     }
 510
 511     /* Decide whether many devices are supported or not */
 512     ret = i == ARRAY_SIZE(ioeventfds);
 513
 514     while (i-- > 0) {
 515         kvm_set_ioeventfd_pio_word(ioeventfds[i], 0, i, false);
 516         close(ioeventfds[i]);
 517     }
 518     return ret;
 519 #else
 520     return 0;
 521 #endif
 522 }
 523
 524 static const KVMCapabilityInfo *
 525 kvm_check_extension_list(KVMState *s, const KVMCapabilityInfo *list)
 526 {
 527     while (list->name) {
 528         if (!kvm_check_extension(s, list->value)) {
 529             return list;
 530         }
 531         list++;
 532     }
 533     return NULL;
 534 }
 535
 536 static void kvm_set_phys_mem(MemoryRegionSection *section, bool add)
 537 {
 538     KVMState *s = kvm_state;
 539     KVMSlot *mem, old;
 540     int err;
 541     MemoryRegion *mr = section->mr;
 542     bool log_dirty = memory_region_is_logging(mr);
 543     target_phys_addr_t start_addr = section->offset_within_address_space;
 544     ram_addr_t size = section->size;
 545     void *ram = NULL;
 546     unsigned delta;
 547
 548     /* kvm works in page size chunks, but the function may be called
 549        with sub-page size and unaligned start address. */
 550     delta = TARGET_PAGE_ALIGN(size) - size;
 551     if (delta > size) {
 552         return;
 553     }
 554     start_addr += delta;
 555     size -= delta;
 556     size &= TARGET_PAGE_MASK;
 557     if (!size || (start_addr & ~TARGET_PAGE_MASK)) {
 558         return;
 559     }
 560
 561     if (!memory_region_is_ram(mr)) {
 562         return;
 563     }
 564
 565     ram = memory_region_get_ram_ptr(mr) + section->offset_within_region + delta;
 566
 567     while (1) {
 568         mem = kvm_lookup_overlapping_slot(s, start_addr, start_addr + size);
 569         if (!mem) {
 570             break;
 571         }
 572
 573         if (add && start_addr >= mem->start_addr &&
 574             (start_addr + size <= mem->start_addr + mem->memory_size) &&
 575             (ram - start_addr == mem->ram - mem->start_addr)) {
 576             /* The new slot fits into the existing one and comes with
 577              * identical parameters - update flags and done. */
 578             kvm_slot_dirty_pages_log_change(mem, log_dirty);
 579             return;
 580         }
 581
 582         old = *mem;
 583
 584         if (mem->flags & KVM_MEM_LOG_DIRTY_PAGES) {
 585             kvm_physical_sync_dirty_bitmap(section);
 586         }
 587
 588         /* unregister the overlapping slot */
 589         mem->memory_size = 0;
 590         err = kvm_set_user_memory_region(s, mem);
 591         if (err) {
 592             fprintf(stderr, "%s: error unregistering overlapping slot: %s\n",
 593                     __func__, strerror(-err));
 594             abort();
 595         }
 596
 597         /* Workaround for older KVM versions: we can't join slots, even not by
 598          * unregistering the previous ones and then registering the larger
 599          * slot. We have to maintain the existing fragmentation. Sigh.
 600          *
 601          * This workaround assumes that the new slot starts at the same
 602          * address as the first existing one. If not or if some overlapping
 603          * slot comes around later, we will fail (not seen in practice so far)
 604          * - and actually require a recent KVM version. */
 605         if (s->broken_set_mem_region &&
 606             old.start_addr == start_addr && old.memory_size < size && add) {
 607             mem = kvm_alloc_slot(s);
 608             mem->memory_size = old.memory_size;
 609             mem->start_addr = old.start_addr;
 610             mem->ram = old.ram;
 611             mem->flags = kvm_mem_flags(s, log_dirty);
 612
 613             err = kvm_set_user_memory_region(s, mem);
 614             if (err) {
 615                 fprintf(stderr, "%s: error updating slot: %s\n", __func__,
 616                         strerror(-err));
 617                 abort();
 618             }
 619
 620             start_addr += old.memory_size;
 621             ram += old.memory_size;
 622             size -= old.memory_size;
 623             continue;
 624         }
 625
 626         /* register prefix slot */
 627         if (old.start_addr < start_addr) {
 628             mem = kvm_alloc_slot(s);
 629             mem->memory_size = start_addr - old.start_addr;
 630             mem->start_addr = old.start_addr;
 631             mem->ram = old.ram;
 632             mem->flags =  kvm_mem_flags(s, log_dirty);
 633
 634             err = kvm_set_user_memory_region(s, mem);
 635             if (err) {
 636                 fprintf(stderr, "%s: error registering prefix slot: %s\n",
 637                         __func__, strerror(-err));
 638 #ifdef TARGET_PPC
 639                 fprintf(stderr, "%s: This is probably because your kernel's " \
 640                                 "PAGE_SIZE is too big. Please try to use 4k " \
 641                                 "PAGE_SIZE!\n", __func__);
 642 #endif
 643                 abort();
 644             }
 645         }
 646
 647         /* register suffix slot */
 648         if (old.start_addr + old.memory_size > start_addr + size) {
 649             ram_addr_t size_delta;
 650
 651             mem = kvm_alloc_slot(s);
 652             mem->start_addr = start_addr + size;
 653             size_delta = mem->start_addr - old.start_addr;
 654             mem->memory_size = old.memory_size - size_delta;
 655             mem->ram = old.ram + size_delta;
 656             mem->flags = kvm_mem_flags(s, log_dirty);
 657
 658             err = kvm_set_user_memory_region(s, mem);
 659             if (err) {
 660                 fprintf(stderr, "%s: error registering suffix slot: %s\n",
 661                         __func__, strerror(-err));
 662                 abort();
 663             }
 664         }
 665     }
 666
 667     /* in case the KVM bug workaround already "consumed" the new slot */
 668     if (!size) {
 669         return;
 670     }
 671     if (!add) {
 672         return;
 673     }
 674     mem = kvm_alloc_slot(s);
 675     mem->memory_size = size;
 676     mem->start_addr = start_addr;
 677     mem->ram = ram;
 678     mem->flags = kvm_mem_flags(s, log_dirty);
 679
 680     err = kvm_set_user_memory_region(s, mem);
 681     if (err) {
 682         fprintf(stderr, "%s: error registering slot: %s\n", __func__,
 683                 strerror(-err));
 684         abort();
 685     }
 686 }
 687
 688 static void kvm_begin(MemoryListener *listener)
 689 {
 690 }
 691
 692 static void kvm_commit(MemoryListener *listener)
 693 {
 694 }
 695
 696 static void kvm_region_add(MemoryListener *listener,
 697                            MemoryRegionSection *section)
 698 {
 699     kvm_set_phys_mem(section, true);
 700 }
 701
 702 static void kvm_region_del(MemoryListener *listener,
 703                            MemoryRegionSection *section)
 704 {
 705     kvm_set_phys_mem(section, false);
 706 }
 707
 708 static void kvm_region_nop(MemoryListener *listener,
 709                            MemoryRegionSection *section)
 710 {
 711 }
 712
 713 static void kvm_log_sync(MemoryListener *listener,
 714                          MemoryRegionSection *section)
 715 {
 716     int r;
 717
 718     r = kvm_physical_sync_dirty_bitmap(section);
 719     if (r < 0) {
 720         abort();
 721     }
 722 }
 723
 724 static void kvm_log_global_start(struct MemoryListener *listener)
 725 {
 726     int r;
 727
 728     r = kvm_set_migration_log(1);
 729     assert(r >= 0);
 730 }
 731
 732 static void kvm_log_global_stop(struct MemoryListener *listener)
 733 {
 734     int r;
 735
 736     r = kvm_set_migration_log(0);
 737     assert(r >= 0);
 738 }
 739
 740 static void kvm_mem_ioeventfd_add(MemoryRegionSection *section,
 741                                   bool match_data, uint64_t data, int fd)
 742 {
 743     int r;
 744
 745     assert(match_data && section->size == 4);
 746
 747     r = kvm_set_ioeventfd_mmio_long(fd, section->offset_within_address_space,
 748                                     data, true);
 749     if (r < 0) {
 750         abort();
 751     }
 752 }
 753
 754 static void kvm_mem_ioeventfd_del(MemoryRegionSection *section,
 755                                   bool match_data, uint64_t data, int fd)
 756 {
 757     int r;
 758
 759     r = kvm_set_ioeventfd_mmio_long(fd, section->offset_within_address_space,
 760                                     data, false);
 761     if (r < 0) {
 762         abort();
 763     }
 764 }
 765
 766 static void kvm_io_ioeventfd_add(MemoryRegionSection *section,
 767                                  bool match_data, uint64_t data, int fd)
 768 {
 769     int r;
 770
 771     assert(match_data && section->size == 2);
 772
 773     r = kvm_set_ioeventfd_pio_word(fd, section->offset_within_address_space,
 774                                    data, true);
 775     if (r < 0) {
 776         abort();
 777     }
 778 }
 779
 780 static void kvm_io_ioeventfd_del(MemoryRegionSection *section,
 781                                  bool match_data, uint64_t data, int fd)
 782
 783 {
 784     int r;
 785
 786     r = kvm_set_ioeventfd_pio_word(fd, section->offset_within_address_space,
 787                                    data, false);
 788     if (r < 0) {
 789         abort();
 790     }
 791 }
 792
 793 static void kvm_eventfd_add(MemoryListener *listener,
 794                             MemoryRegionSection *section,
 795                             bool match_data, uint64_t data, int fd)
 796 {
 797     if (section->address_space == get_system_memory()) {
 798         kvm_mem_ioeventfd_add(section, match_data, data, fd);
 799     } else {
 800         kvm_io_ioeventfd_add(section, match_data, data, fd);
 801     }
 802 }
 803
 804 static void kvm_eventfd_del(MemoryListener *listener,
 805                             MemoryRegionSection *section,
 806                             bool match_data, uint64_t data, int fd)
 807 {
 808     if (section->address_space == get_system_memory()) {
 809         kvm_mem_ioeventfd_del(section, match_data, data, fd);
 810     } else {
 811         kvm_io_ioeventfd_del(section, match_data, data, fd);
 812     }
 813 }
 814
 815 static MemoryListener kvm_memory_listener = {
 816     .begin = kvm_begin,
 817     .commit = kvm_commit,
 818     .region_add = kvm_region_add,
 819     .region_del = kvm_region_del,
 820     .region_nop = kvm_region_nop,
 821     .log_start = kvm_log_start,
 822     .log_stop = kvm_log_stop,
 823     .log_sync = kvm_log_sync,
 824     .log_global_start = kvm_log_global_start,
 825     .log_global_stop = kvm_log_global_stop,
 826     .eventfd_add = kvm_eventfd_add,
 827     .eventfd_del = kvm_eventfd_del,
 828     .priority = 10,
 829 };
 830
 831 static void kvm_handle_interrupt(CPUState *env, int mask)
 832 {
 833     env->interrupt_request |= mask;
 834
 835     if (!qemu_cpu_is_self(env)) {
 836         qemu_cpu_kick(env);
 837     }
 838 }
 839
 840 int kvm_irqchip_set_irq(KVMState *s, int irq, int level)
 841 {
 842     struct kvm_irq_level event;
 843     int ret;
 844
 845     assert(kvm_irqchip_in_kernel());
 846
 847     event.level = level;
 848     event.irq = irq;
 849     ret = kvm_vm_ioctl(s, s->irqchip_inject_ioctl, &event);
 850     if (ret < 0) {
 851         perror("kvm_set_irqchip_line");
 852         abort();
 853     }
 854
 855     return (s->irqchip_inject_ioctl == KVM_IRQ_LINE) ? 1 : event.status;
 856 }
 857
 858 #ifdef KVM_CAP_IRQ_ROUTING
 859 static void set_gsi(KVMState *s, unsigned int gsi)
 860 {
 861     assert(gsi < s->max_gsi);
 862
 863     s->used_gsi_bitmap[gsi / 32] |= 1U << (gsi % 32);
 864 }
 865
 866 static void kvm_init_irq_routing(KVMState *s)
 867 {
 868     int gsi_count;
 869
 870     gsi_count = kvm_check_extension(s, KVM_CAP_IRQ_ROUTING);
 871     if (gsi_count > 0) {
 872         unsigned int gsi_bits, i;
 873
 874         /* Round up so we can search ints using ffs */
 875         gsi_bits = (gsi_count + 31) / 32;
 876         s->used_gsi_bitmap = g_malloc0(gsi_bits / 8);
 877         s->max_gsi = gsi_bits;
 878
 879         /* Mark any over-allocated bits as already in use */
 880         for (i = gsi_count; i < gsi_bits; i++) {
 881             set_gsi(s, i);
 882         }
 883     }
 884
 885     s->irq_routes = g_malloc0(sizeof(*s->irq_routes));
 886     s->nr_allocated_irq_routes = 0;
 887
 888     kvm_arch_init_irq_routing(s);
 889 }
 890
 891 void kvm_add_routing_entry(KVMState *s,
 892                            struct kvm_irq_routing_entry *entry)
 893 {
 894     struct kvm_irq_routing_entry *new;
 895     int n, size;
 896
 897     if (s->irq_routes->nr == s->nr_allocated_irq_routes) {
 898         n = s->nr_allocated_irq_routes * 2;
 899         if (n < 64) {
 900             n = 64;
 901         }
 902         size = sizeof(struct kvm_irq_routing);
 903         size += n * sizeof(*new);
 904         s->irq_routes = g_realloc(s->irq_routes, size);
 905         s->nr_allocated_irq_routes = n;
 906     }
 907     n = s->irq_routes->nr++;
 908     new = &s->irq_routes->entries[n];
 909     memset(new, 0, sizeof(*new));
 910     new->gsi = entry->gsi;
 911     new->type = entry->type;
 912     new->flags = entry->flags;
 913     new->u = entry->u;
 914
 915     set_gsi(s, entry->gsi);
 916 }
 917
 918 void kvm_irqchip_add_route(KVMState *s, int irq, int irqchip, int pin)
 919 {
 920     struct kvm_irq_routing_entry e;
 921
 922     e.gsi = irq;
 923     e.type = KVM_IRQ_ROUTING_IRQCHIP;
 924     e.flags = 0;
 925     e.u.irqchip.irqchip = irqchip;
 926     e.u.irqchip.pin = pin;
 927     kvm_add_routing_entry(s, &e);
 928 }
 929
 930 int kvm_irqchip_commit_routes(KVMState *s)
 931 {
 932     s->irq_routes->flags = 0;
 933     return kvm_vm_ioctl(s, KVM_SET_GSI_ROUTING, s->irq_routes);
 934 }
 935
 936 #else /* !KVM_CAP_IRQ_ROUTING */
 937
 938 static void kvm_init_irq_routing(KVMState *s)
 939 {
 940 }
 941 #endif /* !KVM_CAP_IRQ_ROUTING */
 942
 943 static int kvm_irqchip_create(KVMState *s)
 944 {
 945     QemuOptsList *list = qemu_find_opts("machine");
 946     int ret;
 947
 948     if (QTAILQ_EMPTY(&list->head) ||
 949         !qemu_opt_get_bool(QTAILQ_FIRST(&list->head),
 950                            "kernel_irqchip", false) ||
 951         !kvm_check_extension(s, KVM_CAP_IRQCHIP)) {
 952         return 0;
 953     }
 954
 955     ret = kvm_vm_ioctl(s, KVM_CREATE_IRQCHIP);
 956     if (ret < 0) {
 957         fprintf(stderr, "Create kernel irqchip failed\n");
 958         return ret;
 959     }
 960
 961     s->irqchip_inject_ioctl = KVM_IRQ_LINE;
 962     if (kvm_check_extension(s, KVM_CAP_IRQ_INJECT_STATUS)) {
 963         s->irqchip_inject_ioctl = KVM_IRQ_LINE_STATUS;
 964     }
 965     kvm_kernel_irqchip = true;
 966
 967     kvm_init_irq_routing(s);
 968
 969     return 0;
 970 }
 971
 972 int kvm_init(void)
 973 {
 974     static const char upgrade_note[] =
 975         "Please upgrade to at least kernel 2.6.29 or recent kvm-kmod\n"
 976         "(see http://sourceforge.net/projects/kvm).\n";
 977     KVMState *s;
 978     const KVMCapabilityInfo *missing_cap;
 979     int ret;
 980     int i;
 981
 982     s = g_malloc0(sizeof(KVMState));
 983
 984 #ifdef KVM_CAP_SET_GUEST_DEBUG
 985     QTAILQ_INIT(&s->kvm_sw_breakpoints);
 986 #endif
 987     for (i = 0; i < ARRAY_SIZE(s->slots); i++) {
 988         s->slots[i].slot = i;
 989     }
 990     s->vmfd = -1;
 991     s->fd = qemu_open("/dev/kvm", O_RDWR);
 992     if (s->fd == -1) {
 993         fprintf(stderr, "Could not access KVM kernel module: %m\n");
 994         ret = -errno;
 995         goto err;
 996     }
 997
 998     ret = kvm_ioctl(s, KVM_GET_API_VERSION, 0);
 999     if (ret < KVM_API_VERSION) {
1000         if (ret > 0) {
1001             ret = -EINVAL;
1002         }
1003         fprintf(stderr, "kvm version too old\n");
1004         goto err;
1005     }
1006
1007     if (ret > KVM_API_VERSION) {
1008         ret = -EINVAL;
1009         fprintf(stderr, "kvm version not supported\n");
1010         goto err;
1011     }
1012
1013     s->vmfd = kvm_ioctl(s, KVM_CREATE_VM, 0);
1014     if (s->vmfd < 0) {
1015 #ifdef TARGET_S390X
1016         fprintf(stderr, "Please add the 'switch_amode' kernel parameter to "
1017                         "your host kernel command line\n");
1018 #endif
1019         ret = s->vmfd;
1020         goto err;
1021     }
1022
1023     missing_cap = kvm_check_extension_list(s, kvm_required_capabilites);
1024     if (!missing_cap) {
1025         missing_cap =
1026             kvm_check_extension_list(s, kvm_arch_required_capabilities);
1027     }
1028     if (missing_cap) {
1029         ret = -EINVAL;
1030         fprintf(stderr, "kvm does not support %s\n%s",
1031                 missing_cap->name, upgrade_note);
1032         goto err;
1033     }
1034
1035     s->coalesced_mmio = kvm_check_extension(s, KVM_CAP_COALESCED_MMIO);
1036
1037     s->broken_set_mem_region = 1;
1038     ret = kvm_check_extension(s, KVM_CAP_JOIN_MEMORY_REGIONS_WORKS);
1039     if (ret > 0) {
1040         s->broken_set_mem_region = 0;
1041     }
1042
1043 #ifdef KVM_CAP_VCPU_EVENTS
1044     s->vcpu_events = kvm_check_extension(s, KVM_CAP_VCPU_EVENTS);
1045 #endif
1046
1047     s->robust_singlestep =
1048         kvm_check_extension(s, KVM_CAP_X86_ROBUST_SINGLESTEP);
1049
1050 #ifdef KVM_CAP_DEBUGREGS
1051     s->debugregs = kvm_check_extension(s, KVM_CAP_DEBUGREGS);
1052 #endif
1053
1054 #ifdef KVM_CAP_XSAVE
1055     s->xsave = kvm_check_extension(s, KVM_CAP_XSAVE);
1056 #endif
1057
1058 #ifdef KVM_CAP_XCRS
1059     s->xcrs = kvm_check_extension(s, KVM_CAP_XCRS);
1060 #endif
1061
1062     s->pit_state2 = 0;
1063 #ifdef KVM_CAP_PIT_STATE2
1064     s->pit_state2 = kvm_check_extension(s, KVM_CAP_PIT_STATE2);
1065 #endif
1066
1067     ret = kvm_arch_init(s);
1068     if (ret < 0) {
1069         goto err;
1070     }
1071
1072     ret = kvm_irqchip_create(s);
1073     if (ret < 0) {
1074         goto err;
1075     }
1076
1077     kvm_state = s;
1078     memory_listener_register(&kvm_memory_listener, NULL);
1079
1080     s->many_ioeventfds = kvm_check_many_ioeventfds();
1081
1082     cpu_interrupt_handler = kvm_handle_interrupt;
1083
1084     return 0;
1085
1086 err:
1087     if (s) {
1088         if (s->vmfd >= 0) {
1089             close(s->vmfd);
1090         }
1091         if (s->fd != -1) {
1092             close(s->fd);
1093         }
1094     }
1095     g_free(s);
1096
1097     return ret;
1098 }
1099
1100 static void kvm_handle_io(uint16_t port, void *data, int direction, int size,
1101                           uint32_t count)
1102 {
1103     int i;
1104     uint8_t *ptr = data;
1105
1106     for (i = 0; i < count; i++) {
1107         if (direction == KVM_EXIT_IO_IN) {
1108             switch (size) {
1109             case 1:
1110                 stb_p(ptr, cpu_inb(port));
1111                 break;
1112             case 2:
1113                 stw_p(ptr, cpu_inw(port));
1114                 break;
1115             case 4:
1116                 stl_p(ptr, cpu_inl(port));
1117                 break;
1118             }
1119         } else {
1120             switch (size) {
1121             case 1:
1122                 cpu_outb(port, ldub_p(ptr));
1123                 break;
1124             case 2:
1125                 cpu_outw(port, lduw_p(ptr));
1126                 break;
1127             case 4:
1128                 cpu_outl(port, ldl_p(ptr));
1129                 break;
1130             }
1131         }
1132
1133         ptr += size;
1134     }
1135 }
1136
1137 static int kvm_handle_internal_error(CPUState *env, struct kvm_run *run)
1138 {
1139     fprintf(stderr, "KVM internal error.");
1140     if (kvm_check_extension(kvm_state, KVM_CAP_INTERNAL_ERROR_DATA)) {
1141         int i;
1142
1143         fprintf(stderr, " Suberror: %d\n", run->internal.suberror);
1144         for (i = 0; i < run->internal.ndata; ++i) {
1145             fprintf(stderr, "extra data[%d]: %"PRIx64"\n",
1146                     i, (uint64_t)run->internal.data[i]);
1147         }
1148     } else {
1149         fprintf(stderr, "\n");
1150     }
1151     if (run->internal.suberror == KVM_INTERNAL_ERROR_EMULATION) {
1152         fprintf(stderr, "emulation failure\n");
1153         if (!kvm_arch_stop_on_emulation_error(env)) {
1154             cpu_dump_state(env, stderr, fprintf, CPU_DUMP_CODE);
1155             return EXCP_INTERRUPT;
1156         }
1157     }
1158     /* FIXME: Should trigger a qmp message to let management know
1159      * something went wrong.
1160      */
1161     return -1;
1162 }
1163
1164 void kvm_flush_coalesced_mmio_buffer(void)
1165 {
1166     KVMState *s = kvm_state;
1167
1168     if (s->coalesced_flush_in_progress) {
1169         return;
1170     }
1171
1172     s->coalesced_flush_in_progress = true;
1173
1174     if (s->coalesced_mmio_ring) {
1175         struct kvm_coalesced_mmio_ring *ring = s->coalesced_mmio_ring;
1176         while (ring->first != ring->last) {
1177             struct kvm_coalesced_mmio *ent;
1178
1179             ent = &ring->coalesced_mmio[ring->first];
1180
1181             cpu_physical_memory_write(ent->phys_addr, ent->data, ent->len);
1182             smp_wmb();
1183             ring->first = (ring->first + 1) % KVM_COALESCED_MMIO_MAX;
1184         }
1185     }
1186
1187     s->coalesced_flush_in_progress = false;
1188 }
1189
1190 static void do_kvm_cpu_synchronize_state(void *_env)
1191 {
1192     CPUState *env = _env;
1193
1194     if (!env->kvm_vcpu_dirty) {
1195         kvm_arch_get_registers(env);
1196         env->kvm_vcpu_dirty = 1;
1197     }
1198 }
1199
1200 void kvm_cpu_synchronize_state(CPUState *env)
1201 {
1202     if (!env->kvm_vcpu_dirty) {
1203         run_on_cpu(env, do_kvm_cpu_synchronize_state, env);
1204     }
1205 }
1206
1207 void kvm_cpu_synchronize_post_reset(CPUState *env)
1208 {
1209     kvm_arch_put_registers(env, KVM_PUT_RESET_STATE);
1210     env->kvm_vcpu_dirty = 0;
1211 }
1212
1213 void kvm_cpu_synchronize_post_init(CPUState *env)
1214 {
1215     kvm_arch_put_registers(env, KVM_PUT_FULL_STATE);
1216     env->kvm_vcpu_dirty = 0;
1217 }
1218
1219 int kvm_cpu_exec(CPUState *env)
1220 {
1221     struct kvm_run *run = env->kvm_run;
1222     int ret, run_ret;
1223
1224     DPRINTF("kvm_cpu_exec()\n");
1225
1226     if (kvm_arch_process_async_events(env)) {
1227         env->exit_request = 0;
1228         return EXCP_HLT;
1229     }
1230
1231     do {
1232         if (env->kvm_vcpu_dirty) {
1233             kvm_arch_put_registers(env, KVM_PUT_RUNTIME_STATE);
1234             env->kvm_vcpu_dirty = 0;
1235         }
1236
1237         kvm_arch_pre_run(env, run);
1238         if (env->exit_request) {
1239             DPRINTF("interrupt exit requested\n");
1240             /*
1241              * KVM requires us to reenter the kernel after IO exits to complete
1242              * instruction emulation. This self-signal will ensure that we
1243              * leave ASAP again.
1244              */
1245             qemu_cpu_kick_self();
1246         }
1247         qemu_mutex_unlock_iothread();
1248
1249         run_ret = kvm_vcpu_ioctl(env, KVM_RUN, 0);
1250
1251         qemu_mutex_lock_iothread();
1252         kvm_arch_post_run(env, run);
1253
1254         kvm_flush_coalesced_mmio_buffer();
1255
1256         if (run_ret < 0) {
1257             if (run_ret == -EINTR || run_ret == -EAGAIN) {
1258                 DPRINTF("io window exit\n");
1259                 ret = EXCP_INTERRUPT;
1260                 break;
1261             }
1262             fprintf(stderr, "error: kvm run failed %s\n",
1263                     strerror(-run_ret));
1264             abort();
1265         }
1266
1267         switch (run->exit_reason) {
1268         case KVM_EXIT_IO:
1269             DPRINTF("handle_io\n");
1270             kvm_handle_io(run->io.port,
1271                           (uint8_t *)run + run->io.data_offset,
1272                           run->io.direction,
1273                           run->io.size,
1274                           run->io.count);
1275             ret = 0;
1276             break;
1277         case KVM_EXIT_MMIO:
1278             DPRINTF("handle_mmio\n");
1279             cpu_physical_memory_rw(run->mmio.phys_addr,
1280                                    run->mmio.data,
1281                                    run->mmio.len,
1282                                    run->mmio.is_write);
1283             ret = 0;
1284             break;
1285         case KVM_EXIT_IRQ_WINDOW_OPEN:
1286             DPRINTF("irq_window_open\n");
1287             ret = EXCP_INTERRUPT;
1288             break;
1289         case KVM_EXIT_SHUTDOWN:
1290             DPRINTF("shutdown\n");
1291             qemu_system_reset_request();
1292             ret = EXCP_INTERRUPT;
1293             break;
1294         case KVM_EXIT_UNKNOWN:
1295             fprintf(stderr, "KVM: unknown exit, hardware reason %" PRIx64 "\n",
1296                     (uint64_t)run->hw.hardware_exit_reason);
1297             ret = -1;
1298             break;
1299         case KVM_EXIT_INTERNAL_ERROR:
1300             ret = kvm_handle_internal_error(env, run);
1301             break;
1302         default:
1303             DPRINTF("kvm_arch_handle_exit\n");
1304             ret = kvm_arch_handle_exit(env, run);
1305             break;
1306         }
1307     } while (ret == 0);
1308
1309     if (ret < 0) {
1310         cpu_dump_state(env, stderr, fprintf, CPU_DUMP_CODE);
1311         vm_stop(RUN_STATE_INTERNAL_ERROR);
1312     }
1313
1314     env->exit_request = 0;
1315     return ret;
1316 }
1317
1318 int kvm_ioctl(KVMState *s, int type, ...)
1319 {
1320     int ret;
1321     void *arg;
1322     va_list ap;
1323
1324     va_start(ap, type);
1325     arg = va_arg(ap, void *);
1326     va_end(ap);
1327
1328     ret = ioctl(s->fd, type, arg);
1329     if (ret == -1) {
1330         ret = -errno;
1331     }
1332     return ret;
1333 }
1334
1335 int kvm_vm_ioctl(KVMState *s, int type, ...)
1336 {
1337     int ret;
1338     void *arg;
1339     va_list ap;
1340
1341     va_start(ap, type);
1342     arg = va_arg(ap, void *);
1343     va_end(ap);
1344
1345     ret = ioctl(s->vmfd, type, arg);
1346     if (ret == -1) {
1347         ret = -errno;
1348     }
1349     return ret;
1350 }
1351
1352 int kvm_vcpu_ioctl(CPUState *env, int type, ...)
1353 {
1354     int ret;
1355     void *arg;
1356     va_list ap;
1357
1358     va_start(ap, type);
1359     arg = va_arg(ap, void *);
1360     va_end(ap);
1361
1362     ret = ioctl(env->kvm_fd, type, arg);
1363     if (ret == -1) {
1364         ret = -errno;
1365     }
1366     return ret;
1367 }
1368
1369 int kvm_has_sync_mmu(void)
1370 {
1371     return kvm_check_extension(kvm_state, KVM_CAP_SYNC_MMU);
1372 }
1373
1374 int kvm_has_vcpu_events(void)
1375 {
1376     return kvm_state->vcpu_events;
1377 }
1378
1379 int kvm_has_robust_singlestep(void)
1380 {
1381     return kvm_state->robust_singlestep;
1382 }
1383
1384 int kvm_has_debugregs(void)
1385 {
1386     return kvm_state->debugregs;
1387 }
1388
1389 int kvm_has_xsave(void)
1390 {
1391     return kvm_state->xsave;
1392 }
1393
1394 int kvm_has_xcrs(void)
1395 {
1396     return kvm_state->xcrs;
1397 }
1398
1399 int kvm_has_pit_state2(void)
1400 {
1401     return kvm_state->pit_state2;
1402 }
1403
1404 int kvm_has_many_ioeventfds(void)
1405 {
1406     if (!kvm_enabled()) {
1407         return 0;
1408     }
1409     return kvm_state->many_ioeventfds;
1410 }
1411
1412 int kvm_has_gsi_routing(void)
1413 {
1414 #ifdef KVM_CAP_IRQ_ROUTING
1415     return kvm_check_extension(kvm_state, KVM_CAP_IRQ_ROUTING);
1416 #else
1417     return false;
1418 #endif
1419 }
1420
1421 int kvm_allows_irq0_override(void)
1422 {
1423     return !kvm_irqchip_in_kernel() || kvm_has_gsi_routing();
1424 }
1425
1426 void kvm_setup_guest_memory(void *start, size_t size)
1427 {
1428     if (!kvm_has_sync_mmu()) {
1429         int ret = qemu_madvise(start, size, QEMU_MADV_DONTFORK);
1430
1431         if (ret) {
1432             perror("qemu_madvise");
1433             fprintf(stderr,
1434                     "Need MADV_DONTFORK in absence of synchronous KVM MMU\n");
1435             exit(1);
1436         }
1437     }
1438 }
1439
1440 #ifdef KVM_CAP_SET_GUEST_DEBUG
1441 struct kvm_sw_breakpoint *kvm_find_sw_breakpoint(CPUState *env,
1442                                                  target_ulong pc)
1443 {
1444     struct kvm_sw_breakpoint *bp;
1445
1446     QTAILQ_FOREACH(bp, &env->kvm_state->kvm_sw_breakpoints, entry) {
1447         if (bp->pc == pc) {
1448             return bp;
1449         }
1450     }
1451     return NULL;
1452 }
1453
1454 int kvm_sw_breakpoints_active(CPUState *env)
1455 {
1456     return !QTAILQ_EMPTY(&env->kvm_state->kvm_sw_breakpoints);
1457 }
1458
1459 struct kvm_set_guest_debug_data {
1460     struct kvm_guest_debug dbg;
1461     CPUState *env;
1462     int err;
1463 };
1464
1465 static void kvm_invoke_set_guest_debug(void *data)
1466 {
1467     struct kvm_set_guest_debug_data *dbg_data = data;
1468     CPUState *env = dbg_data->env;
1469
1470     dbg_data->err = kvm_vcpu_ioctl(env, KVM_SET_GUEST_DEBUG, &dbg_data->dbg);
1471 }
1472
1473 int kvm_update_guest_debug(CPUState *env, unsigned long reinject_trap)
1474 {
1475     struct kvm_set_guest_debug_data data;
1476
1477     data.dbg.control = reinject_trap;
1478
1479     if (env->singlestep_enabled) {
1480         data.dbg.control |= KVM_GUESTDBG_ENABLE | KVM_GUESTDBG_SINGLESTEP;
1481     }
1482     kvm_arch_update_guest_debug(env, &data.dbg);
1483     data.env = env;
1484
1485     run_on_cpu(env, kvm_invoke_set_guest_debug, &data);
1486     return data.err;
1487 }
1488
1489 int kvm_insert_breakpoint(CPUState *current_env, target_ulong addr,
1490                           target_ulong len, int type)
1491 {
1492     struct kvm_sw_breakpoint *bp;
1493     CPUState *env;
1494     int err;
1495
1496     if (type == GDB_BREAKPOINT_SW) {
1497         bp = kvm_find_sw_breakpoint(current_env, addr);
1498         if (bp) {
1499             bp->use_count++;
1500             return 0;
1501         }
1502
1503         bp = g_malloc(sizeof(struct kvm_sw_breakpoint));
1504         if (!bp) {
1505             return -ENOMEM;
1506         }
1507
1508         bp->pc = addr;
1509         bp->use_count = 1;
1510         err = kvm_arch_insert_sw_breakpoint(current_env, bp);
1511         if (err) {
1512             g_free(bp);
1513             return err;
1514         }
1515
1516         QTAILQ_INSERT_HEAD(&current_env->kvm_state->kvm_sw_breakpoints,
1517                           bp, entry);
1518     } else {
1519         err = kvm_arch_insert_hw_breakpoint(addr, len, type);
1520         if (err) {
1521             return err;
1522         }
1523     }
1524
1525     for (env = first_cpu; env != NULL; env = env->next_cpu) {
1526         err = kvm_update_guest_debug(env, 0);
1527         if (err) {
1528             return err;
1529         }
1530     }
1531     return 0;
1532 }
1533
1534 int kvm_remove_breakpoint(CPUState *current_env, target_ulong addr,
1535                           target_ulong len, int type)
1536 {
1537     struct kvm_sw_breakpoint *bp;
1538     CPUState *env;
1539     int err;
1540
1541     if (type == GDB_BREAKPOINT_SW) {
1542         bp = kvm_find_sw_breakpoint(current_env, addr);
1543         if (!bp) {
1544             return -ENOENT;
1545         }
1546
1547         if (bp->use_count > 1) {
1548             bp->use_count--;
1549             return 0;
1550         }
1551
1552         err = kvm_arch_remove_sw_breakpoint(current_env, bp);
1553         if (err) {
1554             return err;
1555         }
1556
1557         QTAILQ_REMOVE(&current_env->kvm_state->kvm_sw_breakpoints, bp, entry);
1558         g_free(bp);
1559     } else {
1560         err = kvm_arch_remove_hw_breakpoint(addr, len, type);
1561         if (err) {
1562             return err;
1563         }
1564     }
1565
1566     for (env = first_cpu; env != NULL; env = env->next_cpu) {
1567         err = kvm_update_guest_debug(env, 0);
1568         if (err) {
1569             return err;
1570         }
1571     }
1572     return 0;
1573 }
1574
1575 void kvm_remove_all_breakpoints(CPUState *current_env)
1576 {
1577     struct kvm_sw_breakpoint *bp, *next;
1578     KVMState *s = current_env->kvm_state;
1579     CPUState *env;
1580
1581     QTAILQ_FOREACH_SAFE(bp, &s->kvm_sw_breakpoints, entry, next) {
1582         if (kvm_arch_remove_sw_breakpoint(current_env, bp) != 0) {
1583             /* Try harder to find a CPU that currently sees the breakpoint. */
1584             for (env = first_cpu; env != NULL; env = env->next_cpu) {
1585                 if (kvm_arch_remove_sw_breakpoint(env, bp) == 0) {
1586                     break;
1587                 }
1588             }
1589         }
1590     }
1591     kvm_arch_remove_all_hw_breakpoints();
1592
1593     for (env = first_cpu; env != NULL; env = env->next_cpu) {
1594         kvm_update_guest_debug(env, 0);
1595     }
1596 }
1597
1598 #else /* !KVM_CAP_SET_GUEST_DEBUG */
1599
1600 int kvm_update_guest_debug(CPUState *env, unsigned long reinject_trap)
1601 {
1602     return -EINVAL;
1603 }
1604
1605 int kvm_insert_breakpoint(CPUState *current_env, target_ulong addr,
1606                           target_ulong len, int type)
1607 {
1608     return -EINVAL;
1609 }
1610
1611 int kvm_remove_breakpoint(CPUState *current_env, target_ulong addr,
1612                           target_ulong len, int type)
1613 {
1614     return -EINVAL;
1615 }
1616
1617 void kvm_remove_all_breakpoints(CPUState *current_env)
1618 {
1619 }
1620 #endif /* !KVM_CAP_SET_GUEST_DEBUG */
1621
1622 int kvm_set_signal_mask(CPUState *env, const sigset_t *sigset)
1623 {
1624     struct kvm_signal_mask *sigmask;
1625     int r;
1626
1627     if (!sigset) {
1628         return kvm_vcpu_ioctl(env, KVM_SET_SIGNAL_MASK, NULL);
1629     }
1630
1631     sigmask = g_malloc(sizeof(*sigmask) + sizeof(*sigset));
1632
1633     sigmask->len = 8;
1634     memcpy(sigmask->sigset, sigset, sizeof(*sigset));
1635     r = kvm_vcpu_ioctl(env, KVM_SET_SIGNAL_MASK, sigmask);
1636     g_free(sigmask);
1637
1638     return r;
1639 }
1640
1641 int kvm_set_ioeventfd_mmio_long(int fd, uint32_t addr, uint32_t val, bool assign)
1642 {
1643     int ret;
1644     struct kvm_ioeventfd iofd;
1645
1646     iofd.datamatch = val;
1647     iofd.addr = addr;
1648     iofd.len = 4;
1649     iofd.flags = KVM_IOEVENTFD_FLAG_DATAMATCH;
1650     iofd.fd = fd;
1651
1652     if (!kvm_enabled()) {
1653         return -ENOSYS;
1654     }
1655
1656     if (!assign) {
1657         iofd.flags |= KVM_IOEVENTFD_FLAG_DEASSIGN;
1658     }
1659
1660     ret = kvm_vm_ioctl(kvm_state, KVM_IOEVENTFD, &iofd);
1661
1662     if (ret < 0) {
1663         return -errno;
1664     }
1665
1666     return 0;
1667 }
1668
1669 int kvm_set_ioeventfd_pio_word(int fd, uint16_t addr, uint16_t val, bool assign)
1670 {
1671     struct kvm_ioeventfd kick = {
1672         .datamatch = val,
1673         .addr = addr,
1674         .len = 2,
1675         .flags = KVM_IOEVENTFD_FLAG_DATAMATCH | KVM_IOEVENTFD_FLAG_PIO,
1676         .fd = fd,
1677     };
1678     int r;
1679     if (!kvm_enabled()) {
1680         return -ENOSYS;
1681     }
1682     if (!assign) {
1683         kick.flags |= KVM_IOEVENTFD_FLAG_DEASSIGN;
1684     }
1685     r = kvm_vm_ioctl(kvm_state, KVM_IOEVENTFD, &kick);
1686     if (r < 0) {
1687         return r;
1688     }
1689     return 0;
1690 }
1691
1692 int kvm_set_irqfd(int gsi, int fd, bool assigned)
1693 {
1694     struct kvm_irqfd irqfd = {
1695         .fd = fd,
1696         .gsi = gsi,
1697         .flags = assigned ? 0 : KVM_IRQFD_FLAG_DEASSIGN,
1698     };
1699     int r;
1700     if (!kvm_enabled() || !kvm_irqchip_in_kernel())
1701         return -ENOSYS;
1702
1703     r = kvm_vm_ioctl(kvm_state, KVM_IRQFD, &irqfd);
1704     if (r < 0)
1705         return r;
1706     return 0;
1707 }
1708
1709 int kvm_on_sigbus_vcpu(CPUState *env, int code, void *addr)
1710 {
1711     return kvm_arch_on_sigbus_vcpu(env, code, addr);
1712 }
1713
1714 int kvm_on_sigbus(int code, void *addr)
1715 {
1716     return kvm_arch_on_sigbus(code, addr);
1717 }
1718
1719 #undef PAGE_SIZE
1720 #include "qemu-kvm.c"