mm/mempolicy.c

   1 /*
   2  * Simple NUMA memory policy for the Linux kernel.
   3  *
   4  * Copyright 2003,2004 Andi Kleen, SuSE Labs.
   5  * Subject to the GNU Public License, version 2.
   6  *
   7  * NUMA policy allows the user to give hints in which node(s) memory should
   8  * be allocated.
   9  *
  10  * Support four policies per VMA and per process:
  11  *
  12  * The VMA policy has priority over the process policy for a page fault.
  13  *
  14  * interleave     Allocate memory interleaved over a set of nodes,
  15  *                with normal fallback if it fails.
  16  *                For VMA based allocations this interleaves based on the
  17  *                offset into the backing object or offset into the mapping
  18  *                for anonymous memory. For process policy an process counter
  19  *                is used.
  20  * bind           Only allocate memory on a specific set of nodes,
  21  *                no fallback.
  22  * preferred       Try a specific node first before normal fallback.
  23  *                As a special case node -1 here means do the allocation
  24  *                on the local CPU. This is normally identical to default,
  25  *                but useful to set in a VMA when you have a non default
  26  *                process policy.
  27  * default        Allocate on the local node first, or when on a VMA
  28  *                use the process policy. This is what Linux always did
  29  *                in a NUMA aware kernel and still does by, ahem, default.
  30  *
  31  * The process policy is applied for most non interrupt memory allocations
  32  * in that process' context. Interrupts ignore the policies and always
  33  * try to allocate on the local CPU. The VMA policy is only applied for memory
  34  * allocations for a VMA in the VM.
  35  *
  36  * Currently there are a few corner cases in swapping where the policy
  37  * is not applied, but the majority should be handled. When process policy
  38  * is used it is not remembered over swap outs/swap ins.
  39  *
  40  * Only the highest zone in the zone hierarchy gets policied. Allocations
  41  * requesting a lower zone just use default policy. This implies that
  42  * on systems with highmem kernel lowmem allocation don't get policied.
  43  * Same with GFP_DMA allocations.
  44  *
  45  * For shmfs/tmpfs/hugetlbfs shared memory the policy is shared between
  46  * all users and remembered even when nobody has memory mapped.
  47  */
  48
  49 /* Notebook:
  50    fix mmap readahead to honour policy and enable policy for any page cache
  51    object
  52    statistics for bigpages
  53    global policy for page cache? currently it uses process policy. Requires
  54    first item above.
  55    handle mremap for shared memory (currently ignored for the policy)
  56    grows down?
  57    make bind policy root only? It can trigger oom much faster and the
  58    kernel is not always grateful with that.
  59    could replace all the switch()es with a mempolicy_ops structure.
  60 */
  61
  62 #include <linux/mempolicy.h>
  63 #include <linux/mm.h>
  64 #include <linux/highmem.h>
  65 #include <linux/hugetlb.h>
  66 #include <linux/kernel.h>
  67 #include <linux/sched.h>
  68 #include <linux/mm.h>
  69 #include <linux/nodemask.h>
  70 #include <linux/cpuset.h>
  71 #include <linux/gfp.h>
  72 #include <linux/slab.h>
  73 #include <linux/string.h>
  74 #include <linux/module.h>
  75 #include <linux/interrupt.h>
  76 #include <linux/init.h>
  77 #include <linux/compat.h>
  78 #include <linux/mempolicy.h>
  79 #include <asm/tlbflush.h>
  80 #include <asm/uaccess.h>
  81
  82 static kmem_cache_t *policy_cache;
  83 static kmem_cache_t *sn_cache;
  84
  85 #define PDprintk(fmt...)
  86
  87 /* Highest zone. An specific allocation for a zone below that is not
  88    policied. */
  89 static int policy_zone;
  90
  91 static struct mempolicy default_policy = {
  92         .refcnt = ATOMIC_INIT(1), /* never free it */
  93         .policy = MPOL_DEFAULT,
  94 };
  95
  96 /* Check if all specified nodes are online */
  97 static int nodes_online(unsigned long *nodes)
  98 {
  99         DECLARE_BITMAP(online2, MAX_NUMNODES);
 100
 101         bitmap_copy(online2, nodes_addr(node_online_map), MAX_NUMNODES);
 102         if (bitmap_empty(online2, MAX_NUMNODES))
 103                 set_bit(0, online2);
 104         if (!bitmap_subset(nodes, online2, MAX_NUMNODES))
 105                 return -EINVAL;
 106         return 0;
 107 }
 108
 109 /* Do sanity checking on a policy */
 110 static int mpol_check_policy(int mode, unsigned long *nodes)
 111 {
 112         int empty = bitmap_empty(nodes, MAX_NUMNODES);
 113
 114         switch (mode) {
 115         case MPOL_DEFAULT:
 116                 if (!empty)
 117                         return -EINVAL;
 118                 break;
 119         case MPOL_BIND:
 120         case MPOL_INTERLEAVE:
 121                 /* Preferred will only use the first bit, but allow
 122                    more for now. */
 123                 if (empty)
 124                         return -EINVAL;
 125                 break;
 126         }
 127         return nodes_online(nodes);
 128 }
 129
 130 /* Copy a node mask from user space. */
 131 static int get_nodes(unsigned long *nodes, unsigned long __user *nmask,
 132                      unsigned long maxnode, int mode)
 133 {
 134         unsigned long k;
 135         unsigned long nlongs;
 136         unsigned long endmask;
 137
 138         --maxnode;
 139         bitmap_zero(nodes, MAX_NUMNODES);
 140         if (maxnode == 0 || !nmask)
 141                 return 0;
 142
 143         nlongs = BITS_TO_LONGS(maxnode);
 144         if ((maxnode % BITS_PER_LONG) == 0)
 145                 endmask = ~0UL;
 146         else
 147                 endmask = (1UL << (maxnode % BITS_PER_LONG)) - 1;
 148
 149         /* When the user specified more nodes than supported just check
 150            if the non supported part is all zero. */
 151         if (nlongs > BITS_TO_LONGS(MAX_NUMNODES)) {
 152                 if (nlongs > PAGE_SIZE/sizeof(long))
 153                         return -EINVAL;
 154                 for (k = BITS_TO_LONGS(MAX_NUMNODES); k < nlongs; k++) {
 155                         unsigned long t;
 156                         if (get_user(t,  nmask + k))
 157                                 return -EFAULT;
 158                         if (k == nlongs - 1) {
 159                                 if (t & endmask)
 160                                         return -EINVAL;
 161                         } else if (t)
 162                                 return -EINVAL;
 163                 }
 164                 nlongs = BITS_TO_LONGS(MAX_NUMNODES);
 165                 endmask = ~0UL;
 166         }
 167
 168         if (copy_from_user(nodes, nmask, nlongs*sizeof(unsigned long)))
 169                 return -EFAULT;
 170         nodes[nlongs-1] &= endmask;
 171         /* Update current mems_allowed */
 172         cpuset_update_current_mems_allowed();
 173         /* Ignore nodes not set in current->mems_allowed */
 174         cpuset_restrict_to_mems_allowed(nodes);
 175         return mpol_check_policy(mode, nodes);
 176 }
 177
 178 /* Generate a custom zonelist for the BIND policy. */
 179 static struct zonelist *bind_zonelist(unsigned long *nodes)
 180 {
 181         struct zonelist *zl;
 182         int num, max, nd;
 183
 184         max = 1 + MAX_NR_ZONES * bitmap_weight(nodes, MAX_NUMNODES);
 185         zl = kmalloc(sizeof(void *) * max, GFP_KERNEL);
 186         if (!zl)
 187                 return NULL;
 188         num = 0;
 189         for (nd = find_first_bit(nodes, MAX_NUMNODES);
 190              nd < MAX_NUMNODES;
 191              nd = find_next_bit(nodes, MAX_NUMNODES, 1+nd)) {
 192                 int k;
 193                 for (k = MAX_NR_ZONES-1; k >= 0; k--) {
 194                         struct zone *z = &NODE_DATA(nd)->node_zones[k];
 195                         if (!z->present_pages)
 196                                 continue;
 197                         zl->zones[num++] = z;
 198                         if (k > policy_zone)
 199                                 policy_zone = k;
 200                 }
 201         }
 202         BUG_ON(num >= max);
 203         zl->zones[num] = NULL;
 204         return zl;
 205 }
 206
 207 /* Create a new policy */
 208 static struct mempolicy *mpol_new(int mode, unsigned long *nodes)
 209 {
 210         struct mempolicy *policy;
 211
 212         PDprintk("setting mode %d nodes[0] %lx\n", mode, nodes[0]);
 213         if (mode == MPOL_DEFAULT)
 214                 return NULL;
 215         policy = kmem_cache_alloc(policy_cache, GFP_KERNEL);
 216         if (!policy)
 217                 return ERR_PTR(-ENOMEM);
 218         atomic_set(&policy->refcnt, 1);
 219         switch (mode) {
 220         case MPOL_INTERLEAVE:
 221                 bitmap_copy(policy->v.nodes, nodes, MAX_NUMNODES);
 222                 break;
 223         case MPOL_PREFERRED:
 224                 policy->v.preferred_node = find_first_bit(nodes, MAX_NUMNODES);
 225                 if (policy->v.preferred_node >= MAX_NUMNODES)
 226                         policy->v.preferred_node = -1;
 227                 break;
 228         case MPOL_BIND:
 229                 policy->v.zonelist = bind_zonelist(nodes);
 230                 if (policy->v.zonelist == NULL) {
 231                         kmem_cache_free(policy_cache, policy);
 232                         return ERR_PTR(-ENOMEM);
 233                 }
 234                 break;
 235         }
 236         policy->policy = mode;
 237         return policy;
 238 }
 239
 240 /* Ensure all existing pages follow the policy. */
 241 static int check_pte_range(struct mm_struct *mm, pmd_t *pmd,
 242                 unsigned long addr, unsigned long end, unsigned long *nodes)
 243 {
 244         pte_t *orig_pte;
 245         pte_t *pte;
 246
 247         spin_lock(&mm->page_table_lock);
 248         orig_pte = pte = pte_offset_map(pmd, addr);
 249         do {
 250                 unsigned long pfn;
 251                 unsigned int nid;
 252
 253                 if (!pte_present(*pte))
 254                         continue;
 255                 pfn = pte_pfn(*pte);
 256                 if (!pfn_valid(pfn))
 257                         continue;
 258                 nid = pfn_to_nid(pfn);
 259                 if (!test_bit(nid, nodes))
 260                         break;
 261         } while (pte++, addr += PAGE_SIZE, addr != end);
 262         pte_unmap(orig_pte);
 263         spin_unlock(&mm->page_table_lock);
 264         return addr != end;
 265 }
 266
 267 static inline int check_pmd_range(struct mm_struct *mm, pud_t *pud,
 268                 unsigned long addr, unsigned long end, unsigned long *nodes)
 269 {
 270         pmd_t *pmd;
 271         unsigned long next;
 272
 273         pmd = pmd_offset(pud, addr);
 274         do {
 275                 next = pmd_addr_end(addr, end);
 276                 if (pmd_none_or_clear_bad(pmd))
 277                         continue;
 278                 if (check_pte_range(mm, pmd, addr, next, nodes))
 279                         return -EIO;
 280         } while (pmd++, addr = next, addr != end);
 281         return 0;
 282 }
 283
 284 static inline int check_pud_range(struct mm_struct *mm, pgd_t *pgd,
 285                 unsigned long addr, unsigned long end, unsigned long *nodes)
 286 {
 287         pud_t *pud;
 288         unsigned long next;
 289
 290         pud = pud_offset(pgd, addr);
 291         do {
 292                 next = pud_addr_end(addr, end);
 293                 if (pud_none_or_clear_bad(pud))
 294                         continue;
 295                 if (check_pmd_range(mm, pud, addr, next, nodes))
 296                         return -EIO;
 297         } while (pud++, addr = next, addr != end);
 298         return 0;
 299 }
 300
 301 static inline int check_pgd_range(struct mm_struct *mm,
 302                 unsigned long addr, unsigned long end, unsigned long *nodes)
 303 {
 304         pgd_t *pgd;
 305         unsigned long next;
 306
 307         pgd = pgd_offset(mm, addr);
 308         do {
 309                 next = pgd_addr_end(addr, end);
 310                 if (pgd_none_or_clear_bad(pgd))
 311                         continue;
 312                 if (check_pud_range(mm, pgd, addr, next, nodes))
 313                         return -EIO;
 314         } while (pgd++, addr = next, addr != end);
 315         return 0;
 316 }
 317
 318 /* Step 1: check the range */
 319 static struct vm_area_struct *
 320 check_range(struct mm_struct *mm, unsigned long start, unsigned long end,
 321             unsigned long *nodes, unsigned long flags)
 322 {
 323         int err;
 324         struct vm_area_struct *first, *vma, *prev;
 325
 326         first = find_vma(mm, start);
 327         if (!first)
 328                 return ERR_PTR(-EFAULT);
 329         prev = NULL;
 330         for (vma = first; vma && vma->vm_start < end; vma = vma->vm_next) {
 331                 if (!vma->vm_next && vma->vm_end < end)
 332                         return ERR_PTR(-EFAULT);
 333                 if (prev && prev->vm_end < vma->vm_start)
 334                         return ERR_PTR(-EFAULT);
 335                 if ((flags & MPOL_MF_STRICT) && !is_vm_hugetlb_page(vma)) {
 336                         err = check_pgd_range(vma->vm_mm,
 337                                            vma->vm_start, vma->vm_end, nodes);
 338                         if (err) {
 339                                 first = ERR_PTR(err);
 340                                 break;
 341                         }
 342                 }
 343                 prev = vma;
 344         }
 345         return first;
 346 }
 347
 348 /* Apply policy to a single VMA */
 349 static int policy_vma(struct vm_area_struct *vma, struct mempolicy *new)
 350 {
 351         int err = 0;
 352         struct mempolicy *old = vma->vm_policy;
 353
 354         PDprintk("vma %lx-%lx/%lx vm_ops %p vm_file %p set_policy %p\n",
 355                  vma->vm_start, vma->vm_end, vma->vm_pgoff,
 356                  vma->vm_ops, vma->vm_file,
 357                  vma->vm_ops ? vma->vm_ops->set_policy : NULL);
 358
 359         if (vma->vm_ops && vma->vm_ops->set_policy)
 360                 err = vma->vm_ops->set_policy(vma, new);
 361         if (!err) {
 362                 mpol_get(new);
 363                 vma->vm_policy = new;
 364                 mpol_free(old);
 365         }
 366         return err;
 367 }
 368
 369 /* Step 2: apply policy to a range and do splits. */
 370 static int mbind_range(struct vm_area_struct *vma, unsigned long start,
 371                        unsigned long end, struct mempolicy *new)
 372 {
 373         struct vm_area_struct *next;
 374         int err;
 375
 376         err = 0;
 377         for (; vma && vma->vm_start < end; vma = next) {
 378                 next = vma->vm_next;
 379                 if (vma->vm_start < start)
 380                         err = split_vma(vma->vm_mm, vma, start, 1);
 381                 if (!err && vma->vm_end > end)
 382                         err = split_vma(vma->vm_mm, vma, end, 0);
 383                 if (!err)
 384                         err = policy_vma(vma, new);
 385                 if (err)
 386                         break;
 387         }
 388         return err;
 389 }
 390
 391 /* Change policy for a memory range */
 392 asmlinkage long sys_mbind(unsigned long start, unsigned long len,
 393                           unsigned long mode,
 394                           unsigned long __user *nmask, unsigned long maxnode,
 395                           unsigned flags)
 396 {
 397         struct vm_area_struct *vma;
 398         struct mm_struct *mm = current->mm;
 399         struct mempolicy *new;
 400         unsigned long end;
 401         DECLARE_BITMAP(nodes, MAX_NUMNODES);
 402         int err;
 403
 404         if ((flags & ~(unsigned long)(MPOL_MF_STRICT)) || mode > MPOL_MAX)
 405                 return -EINVAL;
 406         if (start & ~PAGE_MASK)
 407                 return -EINVAL;
 408         if (mode == MPOL_DEFAULT)
 409                 flags &= ~MPOL_MF_STRICT;
 410         len = (len + PAGE_SIZE - 1) & PAGE_MASK;
 411         end = start + len;
 412         if (end < start)
 413                 return -EINVAL;
 414         if (end == start)
 415                 return 0;
 416
 417         err = get_nodes(nodes, nmask, maxnode, mode);
 418         if (err)
 419                 return err;
 420
 421         new = mpol_new(mode, nodes);
 422         if (IS_ERR(new))
 423                 return PTR_ERR(new);
 424
 425         PDprintk("mbind %lx-%lx mode:%ld nodes:%lx\n",start,start+len,
 426                         mode,nodes[0]);
 427
 428         down_write(&mm->mmap_sem);
 429         vma = check_range(mm, start, end, nodes, flags);
 430         err = PTR_ERR(vma);
 431         if (!IS_ERR(vma))
 432                 err = mbind_range(vma, start, end, new);
 433         up_write(&mm->mmap_sem);
 434         mpol_free(new);
 435         return err;
 436 }
 437
 438 /* Set the process memory policy */
 439 asmlinkage long sys_set_mempolicy(int mode, unsigned long __user *nmask,
 440                                    unsigned long maxnode)
 441 {
 442         int err;
 443         struct mempolicy *new;
 444         DECLARE_BITMAP(nodes, MAX_NUMNODES);
 445
 446         if (mode > MPOL_MAX)
 447                 return -EINVAL;
 448         err = get_nodes(nodes, nmask, maxnode, mode);
 449         if (err)
 450                 return err;
 451         new = mpol_new(mode, nodes);
 452         if (IS_ERR(new))
 453                 return PTR_ERR(new);
 454         mpol_free(current->mempolicy);
 455         current->mempolicy = new;
 456         if (new && new->policy == MPOL_INTERLEAVE)
 457                 current->il_next = find_first_bit(new->v.nodes, MAX_NUMNODES);
 458         return 0;
 459 }
 460
 461 /* Fill a zone bitmap for a policy */
 462 static void get_zonemask(struct mempolicy *p, unsigned long *nodes)
 463 {
 464         int i;
 465
 466         bitmap_zero(nodes, MAX_NUMNODES);
 467         switch (p->policy) {
 468         case MPOL_BIND:
 469                 for (i = 0; p->v.zonelist->zones[i]; i++)
 470                         __set_bit(p->v.zonelist->zones[i]->zone_pgdat->node_id, nodes);
 471                 break;
 472         case MPOL_DEFAULT:
 473                 break;
 474         case MPOL_INTERLEAVE:
 475                 bitmap_copy(nodes, p->v.nodes, MAX_NUMNODES);
 476                 break;
 477         case MPOL_PREFERRED:
 478                 /* or use current node instead of online map? */
 479                 if (p->v.preferred_node < 0)
 480                         bitmap_copy(nodes, nodes_addr(node_online_map), MAX_NUMNODES);
 481                 else
 482                         __set_bit(p->v.preferred_node, nodes);
 483                 break;
 484         default:
 485                 BUG();
 486         }
 487 }
 488
 489 static int lookup_node(struct mm_struct *mm, unsigned long addr)
 490 {
 491         struct page *p;
 492         int err;
 493
 494         err = get_user_pages(current, mm, addr & PAGE_MASK, 1, 0, 0, &p, NULL);
 495         if (err >= 0) {
 496                 err = page_to_nid(p);
 497                 put_page(p);
 498         }
 499         return err;
 500 }
 501
 502 /* Copy a kernel node mask to user space */
 503 static int copy_nodes_to_user(unsigned long __user *mask, unsigned long maxnode,
 504                               void *nodes, unsigned nbytes)
 505 {
 506         unsigned long copy = ALIGN(maxnode-1, 64) / 8;
 507
 508         if (copy > nbytes) {
 509                 if (copy > PAGE_SIZE)
 510                         return -EINVAL;
 511                 if (clear_user((char __user *)mask + nbytes, copy - nbytes))
 512                         return -EFAULT;
 513                 copy = nbytes;
 514         }
 515         return copy_to_user(mask, nodes, copy) ? -EFAULT : 0;
 516 }
 517
 518 /* Retrieve NUMA policy */
 519 asmlinkage long sys_get_mempolicy(int __user *policy,
 520                                   unsigned long __user *nmask,
 521                                   unsigned long maxnode,
 522                                   unsigned long addr, unsigned long flags)
 523 {
 524         int err, pval;
 525         struct mm_struct *mm = current->mm;
 526         struct vm_area_struct *vma = NULL;
 527         struct mempolicy *pol = current->mempolicy;
 528
 529         if (flags & ~(unsigned long)(MPOL_F_NODE|MPOL_F_ADDR))
 530                 return -EINVAL;
 531         if (nmask != NULL && maxnode < MAX_NUMNODES)
 532                 return -EINVAL;
 533         if (flags & MPOL_F_ADDR) {
 534                 down_read(&mm->mmap_sem);
 535                 vma = find_vma_intersection(mm, addr, addr+1);
 536                 if (!vma) {
 537                         up_read(&mm->mmap_sem);
 538                         return -EFAULT;
 539                 }
 540                 if (vma->vm_ops && vma->vm_ops->get_policy)
 541                         pol = vma->vm_ops->get_policy(vma, addr);
 542                 else
 543                         pol = vma->vm_policy;
 544         } else if (addr)
 545                 return -EINVAL;
 546
 547         if (!pol)
 548                 pol = &default_policy;
 549
 550         if (flags & MPOL_F_NODE) {
 551                 if (flags & MPOL_F_ADDR) {
 552                         err = lookup_node(mm, addr);
 553                         if (err < 0)
 554                                 goto out;
 555                         pval = err;
 556                 } else if (pol == current->mempolicy &&
 557                                 pol->policy == MPOL_INTERLEAVE) {
 558                         pval = current->il_next;
 559                 } else {
 560                         err = -EINVAL;
 561                         goto out;
 562                 }
 563         } else
 564                 pval = pol->policy;
 565
 566         if (vma) {
 567                 up_read(&current->mm->mmap_sem);
 568                 vma = NULL;
 569         }
 570
 571         if (policy && put_user(pval, policy))
 572                 return -EFAULT;
 573
 574         err = 0;
 575         if (nmask) {
 576                 DECLARE_BITMAP(nodes, MAX_NUMNODES);
 577                 get_zonemask(pol, nodes);
 578                 err = copy_nodes_to_user(nmask, maxnode, nodes, sizeof(nodes));
 579         }
 580
 581  out:
 582         if (vma)
 583                 up_read(&current->mm->mmap_sem);
 584         return err;
 585 }
 586
 587 #ifdef CONFIG_COMPAT
 588
 589 asmlinkage long compat_sys_get_mempolicy(int __user *policy,
 590                                      compat_ulong_t __user *nmask,
 591                                      compat_ulong_t maxnode,
 592                                      compat_ulong_t addr, compat_ulong_t flags)
 593 {
 594         long err;
 595         unsigned long __user *nm = NULL;
 596         unsigned long nr_bits, alloc_size;
 597         DECLARE_BITMAP(bm, MAX_NUMNODES);
 598
 599         nr_bits = min_t(unsigned long, maxnode-1, MAX_NUMNODES);
 600         alloc_size = ALIGN(nr_bits, BITS_PER_LONG) / 8;
 601
 602         if (nmask)
 603                 nm = compat_alloc_user_space(alloc_size);
 604
 605         err = sys_get_mempolicy(policy, nm, nr_bits+1, addr, flags);
 606
 607         if (!err && nmask) {
 608                 err = copy_from_user(bm, nm, alloc_size);
 609                 /* ensure entire bitmap is zeroed */
 610                 err |= clear_user(nmask, ALIGN(maxnode-1, 8) / 8);
 611                 err |= compat_put_bitmap(nmask, bm, nr_bits);
 612         }
 613
 614         return err;
 615 }
 616
 617 asmlinkage long compat_sys_set_mempolicy(int mode, compat_ulong_t __user *nmask,
 618                                      compat_ulong_t maxnode)
 619 {
 620         long err = 0;
 621         unsigned long __user *nm = NULL;
 622         unsigned long nr_bits, alloc_size;
 623         DECLARE_BITMAP(bm, MAX_NUMNODES);
 624
 625         nr_bits = min_t(unsigned long, maxnode-1, MAX_NUMNODES);
 626         alloc_size = ALIGN(nr_bits, BITS_PER_LONG) / 8;
 627
 628         if (nmask) {
 629                 err = compat_get_bitmap(bm, nmask, nr_bits);
 630                 nm = compat_alloc_user_space(alloc_size);
 631                 err |= copy_to_user(nm, bm, alloc_size);
 632         }
 633
 634         if (err)
 635                 return -EFAULT;
 636
 637         return sys_set_mempolicy(mode, nm, nr_bits+1);
 638 }
 639
 640 asmlinkage long compat_sys_mbind(compat_ulong_t start, compat_ulong_t len,
 641                              compat_ulong_t mode, compat_ulong_t __user *nmask,
 642                              compat_ulong_t maxnode, compat_ulong_t flags)
 643 {
 644         long err = 0;
 645         unsigned long __user *nm = NULL;
 646         unsigned long nr_bits, alloc_size;
 647         DECLARE_BITMAP(bm, MAX_NUMNODES);
 648
 649         nr_bits = min_t(unsigned long, maxnode-1, MAX_NUMNODES);
 650         alloc_size = ALIGN(nr_bits, BITS_PER_LONG) / 8;
 651
 652         if (nmask) {
 653                 err = compat_get_bitmap(bm, nmask, nr_bits);
 654                 nm = compat_alloc_user_space(alloc_size);
 655                 err |= copy_to_user(nm, bm, alloc_size);
 656         }
 657
 658         if (err)
 659                 return -EFAULT;
 660
 661         return sys_mbind(start, len, mode, nm, nr_bits+1, flags);
 662 }
 663
 664 #endif
 665
 666 /* Return effective policy for a VMA */
 667 static struct mempolicy *
 668 get_vma_policy(struct vm_area_struct *vma, unsigned long addr)
 669 {
 670         struct mempolicy *pol = current->mempolicy;
 671
 672         if (vma) {
 673                 if (vma->vm_ops && vma->vm_ops->get_policy)
 674                         pol = vma->vm_ops->get_policy(vma, addr);
 675                 else if (vma->vm_policy &&
 676                                 vma->vm_policy->policy != MPOL_DEFAULT)
 677                         pol = vma->vm_policy;
 678         }
 679         if (!pol)
 680                 pol = &default_policy;
 681         return pol;
 682 }
 683
 684 /* Return a zonelist representing a mempolicy */
 685 static struct zonelist *zonelist_policy(unsigned int __nocast gfp, struct mempolicy *policy)
 686 {
 687         int nd;
 688
 689         switch (policy->policy) {
 690         case MPOL_PREFERRED:
 691                 nd = policy->v.preferred_node;
 692                 if (nd < 0)
 693                         nd = numa_node_id();
 694                 break;
 695         case MPOL_BIND:
 696                 /* Lower zones don't get a policy applied */
 697                 /* Careful: current->mems_allowed might have moved */
 698                 if ((gfp & GFP_ZONEMASK) >= policy_zone)
 699                         if (cpuset_zonelist_valid_mems_allowed(policy->v.zonelist))
 700                                 return policy->v.zonelist;
 701                 /*FALL THROUGH*/
 702         case MPOL_INTERLEAVE: /* should not happen */
 703         case MPOL_DEFAULT:
 704                 nd = numa_node_id();
 705                 break;
 706         default:
 707                 nd = 0;
 708                 BUG();
 709         }
 710         return NODE_DATA(nd)->node_zonelists + (gfp & GFP_ZONEMASK);
 711 }
 712
 713 /* Do dynamic interleaving for a process */
 714 static unsigned interleave_nodes(struct mempolicy *policy)
 715 {
 716         unsigned nid, next;
 717         struct task_struct *me = current;
 718
 719         nid = me->il_next;
 720         BUG_ON(nid >= MAX_NUMNODES);
 721         next = find_next_bit(policy->v.nodes, MAX_NUMNODES, 1+nid);
 722         if (next >= MAX_NUMNODES)
 723                 next = find_first_bit(policy->v.nodes, MAX_NUMNODES);
 724         me->il_next = next;
 725         return nid;
 726 }
 727
 728 /* Do static interleaving for a VMA with known offset. */
 729 static unsigned offset_il_node(struct mempolicy *pol,
 730                 struct vm_area_struct *vma, unsigned long off)
 731 {
 732         unsigned nnodes = bitmap_weight(pol->v.nodes, MAX_NUMNODES);
 733         unsigned target = (unsigned)off % nnodes;
 734         int c;
 735         int nid = -1;
 736
 737         c = 0;
 738         do {
 739                 nid = find_next_bit(pol->v.nodes, MAX_NUMNODES, nid+1);
 740                 c++;
 741         } while (c <= target);
 742         BUG_ON(nid >= MAX_NUMNODES);
 743         BUG_ON(!test_bit(nid, pol->v.nodes));
 744         return nid;
 745 }
 746
 747 /* Allocate a page in interleaved policy.
 748    Own path because it needs to do special accounting. */
 749 static struct page *alloc_page_interleave(unsigned int __nocast gfp, unsigned order, unsigned nid)
 750 {
 751         struct zonelist *zl;
 752         struct page *page;
 753
 754         BUG_ON(!node_online(nid));
 755         zl = NODE_DATA(nid)->node_zonelists + (gfp & GFP_ZONEMASK);
 756         page = __alloc_pages(gfp, order, zl);
 757         if (page && page_zone(page) == zl->zones[0]) {
 758                 zone_pcp(zl->zones[0],get_cpu())->interleave_hit++;
 759                 put_cpu();
 760         }
 761         return page;
 762 }
 763
 764 /**
 765  *      alloc_page_vma  - Allocate a page for a VMA.
 766  *
 767  *      @gfp:
 768  *      %GFP_USER    user allocation.
 769  *      %GFP_KERNEL  kernel allocations,
 770  *      %GFP_HIGHMEM highmem/user allocations,
 771  *      %GFP_FS      allocation should not call back into a file system.
 772  *      %GFP_ATOMIC  don't sleep.
 773  *
 774  *      @vma:  Pointer to VMA or NULL if not available.
 775  *      @addr: Virtual Address of the allocation. Must be inside the VMA.
 776  *
 777  *      This function allocates a page from the kernel page pool and applies
 778  *      a NUMA policy associated with the VMA or the current process.
 779  *      When VMA is not NULL caller must hold down_read on the mmap_sem of the
 780  *      mm_struct of the VMA to prevent it from going away. Should be used for
 781  *      all allocations for pages that will be mapped into
 782  *      user space. Returns NULL when no page can be allocated.
 783  *
 784  *      Should be called with the mm_sem of the vma hold.
 785  */
 786 struct page *
 787 alloc_page_vma(unsigned int __nocast gfp, struct vm_area_struct *vma, unsigned long addr)
 788 {
 789         struct mempolicy *pol = get_vma_policy(vma, addr);
 790
 791         cpuset_update_current_mems_allowed();
 792
 793         if (unlikely(pol->policy == MPOL_INTERLEAVE)) {
 794                 unsigned nid;
 795                 if (vma) {
 796                         unsigned long off;
 797                         BUG_ON(addr >= vma->vm_end);
 798                         BUG_ON(addr < vma->vm_start);
 799                         off = vma->vm_pgoff;
 800                         off += (addr - vma->vm_start) >> PAGE_SHIFT;
 801                         nid = offset_il_node(pol, vma, off);
 802                 } else {
 803                         /* fall back to process interleaving */
 804                         nid = interleave_nodes(pol);
 805                 }
 806                 return alloc_page_interleave(gfp, 0, nid);
 807         }
 808         return __alloc_pages(gfp, 0, zonelist_policy(gfp, pol));
 809 }
 810
 811 /**
 812  *      alloc_pages_current - Allocate pages.
 813  *
 814  *      @gfp:
 815  *              %GFP_USER   user allocation,
 816  *              %GFP_KERNEL kernel allocation,
 817  *              %GFP_HIGHMEM highmem allocation,
 818  *              %GFP_FS     don't call back into a file system.
 819  *              %GFP_ATOMIC don't sleep.
 820  *      @order: Power of two of allocation size in pages. 0 is a single page.
 821  *
 822  *      Allocate a page from the kernel page pool.  When not in
 823  *      interrupt context and apply the current process NUMA policy.
 824  *      Returns NULL when no page can be allocated.
 825  *
 826  *      Don't call cpuset_update_current_mems_allowed() unless
 827  *      1) it's ok to take cpuset_sem (can WAIT), and
 828  *      2) allocating for current task (not interrupt).
 829  */
 830 struct page *alloc_pages_current(unsigned int __nocast gfp, unsigned order)
 831 {
 832         struct mempolicy *pol = current->mempolicy;
 833
 834         if ((gfp & __GFP_WAIT) && !in_interrupt())
 835                 cpuset_update_current_mems_allowed();
 836         if (!pol || in_interrupt())
 837                 pol = &default_policy;
 838         if (pol->policy == MPOL_INTERLEAVE)
 839                 return alloc_page_interleave(gfp, order, interleave_nodes(pol));
 840         return __alloc_pages(gfp, order, zonelist_policy(gfp, pol));
 841 }
 842 EXPORT_SYMBOL(alloc_pages_current);
 843
 844 /* Slow path of a mempolicy copy */
 845 struct mempolicy *__mpol_copy(struct mempolicy *old)
 846 {
 847         struct mempolicy *new = kmem_cache_alloc(policy_cache, GFP_KERNEL);
 848
 849         if (!new)
 850                 return ERR_PTR(-ENOMEM);
 851         *new = *old;
 852         atomic_set(&new->refcnt, 1);
 853         if (new->policy == MPOL_BIND) {
 854                 int sz = ksize(old->v.zonelist);
 855                 new->v.zonelist = kmalloc(sz, SLAB_KERNEL);
 856                 if (!new->v.zonelist) {
 857                         kmem_cache_free(policy_cache, new);
 858                         return ERR_PTR(-ENOMEM);
 859                 }
 860                 memcpy(new->v.zonelist, old->v.zonelist, sz);
 861         }
 862         return new;
 863 }
 864
 865 /* Slow path of a mempolicy comparison */
 866 int __mpol_equal(struct mempolicy *a, struct mempolicy *b)
 867 {
 868         if (!a || !b)
 869                 return 0;
 870         if (a->policy != b->policy)
 871                 return 0;
 872         switch (a->policy) {
 873         case MPOL_DEFAULT:
 874                 return 1;
 875         case MPOL_INTERLEAVE:
 876                 return bitmap_equal(a->v.nodes, b->v.nodes, MAX_NUMNODES);
 877         case MPOL_PREFERRED:
 878                 return a->v.preferred_node == b->v.preferred_node;
 879         case MPOL_BIND: {
 880                 int i;
 881                 for (i = 0; a->v.zonelist->zones[i]; i++)
 882                         if (a->v.zonelist->zones[i] != b->v.zonelist->zones[i])
 883                                 return 0;
 884                 return b->v.zonelist->zones[i] == NULL;
 885         }
 886         default:
 887                 BUG();
 888                 return 0;
 889         }
 890 }
 891
 892 /* Slow path of a mpol destructor. */
 893 void __mpol_free(struct mempolicy *p)
 894 {
 895         if (!atomic_dec_and_test(&p->refcnt))
 896                 return;
 897         if (p->policy == MPOL_BIND)
 898                 kfree(p->v.zonelist);
 899         p->policy = MPOL_DEFAULT;
 900         kmem_cache_free(policy_cache, p);
 901 }
 902
 903 /*
 904  * Hugetlb policy. Same as above, just works with node numbers instead of
 905  * zonelists.
 906  */
 907
 908 /* Find first node suitable for an allocation */
 909 int mpol_first_node(struct vm_area_struct *vma, unsigned long addr)
 910 {
 911         struct mempolicy *pol = get_vma_policy(vma, addr);
 912
 913         switch (pol->policy) {
 914         case MPOL_DEFAULT:
 915                 return numa_node_id();
 916         case MPOL_BIND:
 917                 return pol->v.zonelist->zones[0]->zone_pgdat->node_id;
 918         case MPOL_INTERLEAVE:
 919                 return interleave_nodes(pol);
 920         case MPOL_PREFERRED:
 921                 return pol->v.preferred_node >= 0 ?
 922                                 pol->v.preferred_node : numa_node_id();
 923         }
 924         BUG();
 925         return 0;
 926 }
 927
 928 /* Find secondary valid nodes for an allocation */
 929 int mpol_node_valid(int nid, struct vm_area_struct *vma, unsigned long addr)
 930 {
 931         struct mempolicy *pol = get_vma_policy(vma, addr);
 932
 933         switch (pol->policy) {
 934         case MPOL_PREFERRED:
 935         case MPOL_DEFAULT:
 936         case MPOL_INTERLEAVE:
 937                 return 1;
 938         case MPOL_BIND: {
 939                 struct zone **z;
 940                 for (z = pol->v.zonelist->zones; *z; z++)
 941                         if ((*z)->zone_pgdat->node_id == nid)
 942                                 return 1;
 943                 return 0;
 944         }
 945         default:
 946                 BUG();
 947                 return 0;
 948         }
 949 }
 950
 951 /*
 952  * Shared memory backing store policy support.
 953  *
 954  * Remember policies even when nobody has shared memory mapped.
 955  * The policies are kept in Red-Black tree linked from the inode.
 956  * They are protected by the sp->lock spinlock, which should be held
 957  * for any accesses to the tree.
 958  */
 959
 960 /* lookup first element intersecting start-end */
 961 /* Caller holds sp->lock */
 962 static struct sp_node *
 963 sp_lookup(struct shared_policy *sp, unsigned long start, unsigned long end)
 964 {
 965         struct rb_node *n = sp->root.rb_node;
 966
 967         while (n) {
 968                 struct sp_node *p = rb_entry(n, struct sp_node, nd);
 969
 970                 if (start >= p->end)
 971                         n = n->rb_right;
 972                 else if (end <= p->start)
 973                         n = n->rb_left;
 974                 else
 975                         break;
 976         }
 977         if (!n)
 978                 return NULL;
 979         for (;;) {
 980                 struct sp_node *w = NULL;
 981                 struct rb_node *prev = rb_prev(n);
 982                 if (!prev)
 983                         break;
 984                 w = rb_entry(prev, struct sp_node, nd);
 985                 if (w->end <= start)
 986                         break;
 987                 n = prev;
 988         }
 989         return rb_entry(n, struct sp_node, nd);
 990 }
 991
 992 /* Insert a new shared policy into the list. */
 993 /* Caller holds sp->lock */
 994 static void sp_insert(struct shared_policy *sp, struct sp_node *new)
 995 {
 996         struct rb_node **p = &sp->root.rb_node;
 997         struct rb_node *parent = NULL;
 998         struct sp_node *nd;
 999
1000         while (*p) {
1001                 parent = *p;
1002                 nd = rb_entry(parent, struct sp_node, nd);
1003                 if (new->start < nd->start)
1004                         p = &(*p)->rb_left;
1005                 else if (new->end > nd->end)
1006                         p = &(*p)->rb_right;
1007                 else
1008                         BUG();
1009         }
1010         rb_link_node(&new->nd, parent, p);
1011         rb_insert_color(&new->nd, &sp->root);
1012         PDprintk("inserting %lx-%lx: %d\n", new->start, new->end,
1013                  new->policy ? new->policy->policy : 0);
1014 }
1015
1016 /* Find shared policy intersecting idx */
1017 struct mempolicy *
1018 mpol_shared_policy_lookup(struct shared_policy *sp, unsigned long idx)
1019 {
1020         struct mempolicy *pol = NULL;
1021         struct sp_node *sn;
1022
1023         if (!sp->root.rb_node)
1024                 return NULL;
1025         spin_lock(&sp->lock);
1026         sn = sp_lookup(sp, idx, idx+1);
1027         if (sn) {
1028                 mpol_get(sn->policy);
1029                 pol = sn->policy;
1030         }
1031         spin_unlock(&sp->lock);
1032         return pol;
1033 }
1034
1035 static void sp_delete(struct shared_policy *sp, struct sp_node *n)
1036 {
1037         PDprintk("deleting %lx-l%x\n", n->start, n->end);
1038         rb_erase(&n->nd, &sp->root);
1039         mpol_free(n->policy);
1040         kmem_cache_free(sn_cache, n);
1041 }
1042
1043 struct sp_node *
1044 sp_alloc(unsigned long start, unsigned long end, struct mempolicy *pol)
1045 {
1046         struct sp_node *n = kmem_cache_alloc(sn_cache, GFP_KERNEL);
1047
1048         if (!n)
1049                 return NULL;
1050         n->start = start;
1051         n->end = end;
1052         mpol_get(pol);
1053         n->policy = pol;
1054         return n;
1055 }
1056
1057 /* Replace a policy range. */
1058 static int shared_policy_replace(struct shared_policy *sp, unsigned long start,
1059                                  unsigned long end, struct sp_node *new)
1060 {
1061         struct sp_node *n, *new2 = NULL;
1062
1063 restart:
1064         spin_lock(&sp->lock);
1065         n = sp_lookup(sp, start, end);
1066         /* Take care of old policies in the same range. */
1067         while (n && n->start < end) {
1068                 struct rb_node *next = rb_next(&n->nd);
1069                 if (n->start >= start) {
1070                         if (n->end <= end)
1071                                 sp_delete(sp, n);
1072                         else
1073                                 n->start = end;
1074                 } else {
1075                         /* Old policy spanning whole new range. */
1076                         if (n->end > end) {
1077                                 if (!new2) {
1078                                         spin_unlock(&sp->lock);
1079                                         new2 = sp_alloc(end, n->end, n->policy);
1080                                         if (!new2)
1081                                                 return -ENOMEM;
1082                                         goto restart;
1083                                 }
1084                                 n->end = start;
1085                                 sp_insert(sp, new2);
1086                                 new2 = NULL;
1087                                 break;
1088                         } else
1089                                 n->end = start;
1090                 }
1091                 if (!next)
1092                         break;
1093                 n = rb_entry(next, struct sp_node, nd);
1094         }
1095         if (new)
1096                 sp_insert(sp, new);
1097         spin_unlock(&sp->lock);
1098         if (new2) {
1099                 mpol_free(new2->policy);
1100                 kmem_cache_free(sn_cache, new2);
1101         }
1102         return 0;
1103 }
1104
1105 int mpol_set_shared_policy(struct shared_policy *info,
1106                         struct vm_area_struct *vma, struct mempolicy *npol)
1107 {
1108         int err;
1109         struct sp_node *new = NULL;
1110         unsigned long sz = vma_pages(vma);
1111
1112         PDprintk("set_shared_policy %lx sz %lu %d %lx\n",
1113                  vma->vm_pgoff,
1114                  sz, npol? npol->policy : -1,
1115                 npol ? npol->v.nodes[0] : -1);
1116
1117         if (npol) {
1118                 new = sp_alloc(vma->vm_pgoff, vma->vm_pgoff + sz, npol);
1119                 if (!new)
1120                         return -ENOMEM;
1121         }
1122         err = shared_policy_replace(info, vma->vm_pgoff, vma->vm_pgoff+sz, new);
1123         if (err && new)
1124                 kmem_cache_free(sn_cache, new);
1125         return err;
1126 }
1127
1128 /* Free a backing policy store on inode delete. */
1129 void mpol_free_shared_policy(struct shared_policy *p)
1130 {
1131         struct sp_node *n;
1132         struct rb_node *next;
1133
1134         if (!p->root.rb_node)
1135                 return;
1136         spin_lock(&p->lock);
1137         next = rb_first(&p->root);
1138         while (next) {
1139                 n = rb_entry(next, struct sp_node, nd);
1140                 next = rb_next(&n->nd);
1141                 mpol_free(n->policy);
1142                 kmem_cache_free(sn_cache, n);
1143         }
1144         spin_unlock(&p->lock);
1145         p->root = RB_ROOT;
1146 }
1147
1148 /* assumes fs == KERNEL_DS */
1149 void __init numa_policy_init(void)
1150 {
1151         policy_cache = kmem_cache_create("numa_policy",
1152                                          sizeof(struct mempolicy),
1153                                          0, SLAB_PANIC, NULL, NULL);
1154
1155         sn_cache = kmem_cache_create("shared_policy_node",
1156                                      sizeof(struct sp_node),
1157                                      0, SLAB_PANIC, NULL, NULL);
1158
1159         /* Set interleaving policy for system init. This way not all
1160            the data structures allocated at system boot end up in node zero. */
1161
1162         if (sys_set_mempolicy(MPOL_INTERLEAVE, nodes_addr(node_online_map),
1163                                                         MAX_NUMNODES) < 0)
1164                 printk("numa_policy_init: interleaving failed\n");
1165 }
1166
1167 /* Reset policy of current process to default.
1168  * Assumes fs == KERNEL_DS */
1169 void numa_default_policy(void)
1170 {
1171         sys_set_mempolicy(MPOL_DEFAULT, NULL, 0);
1172 }