mm/page_alloc.c

   1 /*
   2  *  linux/mm/page_alloc.c
   3  *
   4  *  Copyright (C) 1991, 1992, 1993, 1994  Linus Torvalds
   5  *  Swap reorganised 29.12.95, Stephen Tweedie
   6  *  Support of BIGMEM added by Gerhard Wichert, Siemens AG, July 1999
   7  *  Reshaped it to be a zoned allocator, Ingo Molnar, Red Hat, 1999
   8  *  Discontiguous memory support, Kanoj Sarcar, SGI, Nov 1999
   9  *  Zone balancing, Kanoj Sarcar, SGI, Jan 2000
  10  */
  11
  12 #include <linux/config.h>
  13 #include <linux/mm.h>
  14 #include <linux/swap.h>
  15 #include <linux/swapctl.h>
  16 #include <linux/interrupt.h>
  17 #include <linux/pagemap.h>
  18 #include <linux/bootmem.h>
  19
  20 /* Use NUMNODES instead of numnodes for better code inside kernel APIs */
  21 #ifndef CONFIG_DISCONTIGMEM
  22 #define NUMNODES 1
  23 #else
  24 #define NUMNODES numnodes
  25 #endif
  26
  27 int nr_swap_pages;
  28 int nr_lru_pages;
  29 pg_data_t *pgdat_list;
  30
  31 static char *zone_names[MAX_NR_ZONES] = { "DMA", "Normal", "HighMem" };
  32 static int zone_balance_ratio[MAX_NR_ZONES] = { 128, 128, 128, };
  33 static int zone_balance_min[MAX_NR_ZONES] = { 10 , 10, 10, };
  34 static int zone_balance_max[MAX_NR_ZONES] = { 255 , 255, 255, };
  35
  36 /*
  37  * Free_page() adds the page to the free lists. This is optimized for
  38  * fast normal cases (no error jumps taken normally).
  39  *
  40  * The way to optimize jumps for gcc-2.2.2 is to:
  41  *  - select the "normal" case and put it inside the if () { XXX }
  42  *  - no else-statements if you can avoid them
  43  *
  44  * With the above two rules, you get a straight-line execution path
  45  * for the normal case, giving better asm-code.
  46  */
  47
  48 #define memlist_init(x) INIT_LIST_HEAD(x)
  49 #define memlist_add_head list_add
  50 #define memlist_add_tail list_add_tail
  51 #define memlist_del list_del
  52 #define memlist_entry list_entry
  53 #define memlist_next(x) ((x)->next)
  54 #define memlist_prev(x) ((x)->prev)
  55
  56 /*
  57  * Temporary debugging check.
  58  */
  59 #define BAD_RANGE(zone,x) (((zone) != (x)->zone) || (((x)-mem_map) < (zone)->offset) || (((x)-mem_map) >= (zone)->offset+(zone)->size))
  60
  61 /*
  62  * Buddy system. Hairy. You really aren't expected to understand this
  63  *
  64  * Hint: -mask = 1+~mask
  65  */
  66
  67 static void FASTCALL(__free_pages_ok (struct page *page, unsigned long order));
  68 static void __free_pages_ok (struct page *page, unsigned long order)
  69 {
  70         unsigned long index, page_idx, mask, flags;
  71         free_area_t *area;
  72         struct page *base;
  73         zone_t *zone;
  74
  75         /*
  76          * Subtle. We do not want to test this in the inlined part of
  77          * __free_page() - it's a rare condition and just increases
  78          * cache footprint unnecesserily. So we do an 'incorrect'
  79          * decrement on page->count for reserved pages, but this part
  80          * makes it safe.
  81          */
  82         if (PageReserved(page))
  83                 return;
  84
  85         if (page->buffers)
  86                 BUG();
  87         if (page->mapping)
  88                 BUG();
  89         if (page-mem_map >= max_mapnr)
  90                 BUG();
  91         if (PageSwapCache(page))
  92                 BUG();
  93         if (PageLocked(page))
  94                 BUG();
  95         if (PageDecrAfter(page))
  96                 BUG();
  97         if (PageDirty(page))
  98                 BUG();
  99
 100         zone = page->zone;
 101
 102         mask = (~0UL) << order;
 103         base = mem_map + zone->offset;
 104         page_idx = page - base;
 105         if (page_idx & ~mask)
 106                 BUG();
 107         index = page_idx >> (1 + order);
 108
 109         area = zone->free_area + order;
 110
 111         spin_lock_irqsave(&zone->lock, flags);
 112
 113         zone->free_pages -= mask;
 114
 115         while (mask + (1 << (MAX_ORDER-1))) {
 116                 struct page *buddy1, *buddy2;
 117
 118                 if (area >= zone->free_area + MAX_ORDER)
 119                         BUG();
 120                 if (!test_and_change_bit(index, area->map))
 121                         /*
 122                          * the buddy page is still allocated.
 123                          */
 124                         break;
 125                 /*
 126                  * Move the buddy up one level.
 127                  */
 128                 buddy1 = base + (page_idx ^ -mask);
 129                 buddy2 = base + page_idx;
 130                 if (BAD_RANGE(zone,buddy1))
 131                         BUG();
 132                 if (BAD_RANGE(zone,buddy2))
 133                         BUG();
 134
 135                 memlist_del(&buddy1->list);
 136                 mask <<= 1;
 137                 area++;
 138                 index >>= 1;
 139                 page_idx &= mask;
 140         }
 141         memlist_add_head(&(base + page_idx)->list, &area->free_list);
 142
 143         spin_unlock_irqrestore(&zone->lock, flags);
 144
 145         if (zone->free_pages > zone->pages_high) {
 146                 zone->zone_wake_kswapd = 0;
 147                 zone->low_on_memory = 0;
 148         }
 149 }
 150
 151 #define MARK_USED(index, order, area) \
 152         change_bit((index) >> (1+(order)), (area)->map)
 153
 154 static inline struct page * expand (zone_t *zone, struct page *page,
 155          unsigned long index, int low, int high, free_area_t * area)
 156 {
 157         unsigned long size = 1 << high;
 158
 159         while (high > low) {
 160                 if (BAD_RANGE(zone,page))
 161                         BUG();
 162                 area--;
 163                 high--;
 164                 size >>= 1;
 165                 memlist_add_head(&(page)->list, &(area)->free_list);
 166                 MARK_USED(index, high, area);
 167                 index += size;
 168                 page += size;
 169         }
 170         if (BAD_RANGE(zone,page))
 171                 BUG();
 172         return page;
 173 }
 174
 175 static FASTCALL(struct page * rmqueue(zone_t *zone, unsigned long order));
 176 static struct page * rmqueue(zone_t *zone, unsigned long order)
 177 {
 178         free_area_t * area = zone->free_area + order;
 179         unsigned long curr_order = order;
 180         struct list_head *head, *curr;
 181         unsigned long flags;
 182         struct page *page;
 183
 184         spin_lock_irqsave(&zone->lock, flags);
 185         do {
 186                 head = &area->free_list;
 187                 curr = memlist_next(head);
 188
 189                 if (curr != head) {
 190                         unsigned int index;
 191
 192                         page = memlist_entry(curr, struct page, list);
 193                         if (BAD_RANGE(zone,page))
 194                                 BUG();
 195                         memlist_del(curr);
 196                         index = (page - mem_map) - zone->offset;
 197                         MARK_USED(index, curr_order, area);
 198                         zone->free_pages -= 1 << order;
 199
 200                         page = expand(zone, page, index, order, curr_order, area);
 201                         spin_unlock_irqrestore(&zone->lock, flags);
 202
 203                         set_page_count(page, 1);
 204                         if (BAD_RANGE(zone,page))
 205                                 BUG();
 206                         return page;
 207                 }
 208                 curr_order++;
 209                 area++;
 210         } while (curr_order < MAX_ORDER);
 211         spin_unlock_irqrestore(&zone->lock, flags);
 212
 213         return NULL;
 214 }
 215
 216 /*
 217  * This is the 'heart' of the zoned buddy allocator:
 218  */
 219 struct page * __alloc_pages(zonelist_t *zonelist, unsigned long order)
 220 {
 221         zone_t **zone;
 222         extern wait_queue_head_t kswapd_wait;
 223
 224         /*
 225          * (If anyone calls gfp from interrupts nonatomically then it
 226          * will sooner or later tripped up by a schedule().)
 227          *
 228          * We are falling back to lower-level zones if allocation
 229          * in a higher zone fails.
 230          */
 231
 232         zone = zonelist->zones;
 233         for (;;) {
 234                 zone_t *z = *(zone++);
 235                 if (!z)
 236                         break;
 237                 if (!z->size)
 238                         BUG();
 239
 240                 /* Are we supposed to free memory? Don't make it worse.. */
 241                 if (!z->zone_wake_kswapd) {
 242                         struct page *page = rmqueue(z, order);
 243                         if (z->free_pages < z->pages_low) {
 244                                 z->zone_wake_kswapd = 1;
 245                                 if (waitqueue_active(&kswapd_wait))
 246                                         wake_up_interruptible(&kswapd_wait);
 247                         }
 248                         if (page)
 249                                 return page;
 250                 }
 251         }
 252
 253         /* Three possibilities to get here
 254          * - Previous alloc_pages resulted in last zone set to have
 255          *   zone_wake_kswapd and start it. kswapd has not been able
 256          *   to release enough pages so that one zone does not have
 257          *   zone_wake_kswapd set.
 258          * - Different sets of zones (zonelist)
 259          *   previous did not have all zones with zone_wake_kswapd but
 260          *   this one has... should kswapd be woken up? it will run once.
 261          * - SMP race, kswapd went to sleep slightly after it as running
 262          *   in 'if (waitqueue_active(...))' above.
 263          * + anyway the test is very cheap to do...
 264          */
 265         if (waitqueue_active(&kswapd_wait))
 266                 wake_up_interruptible(&kswapd_wait);
 267
 268         /*
 269          * Ok, we don't have any zones that don't need some
 270          * balancing.. See if we have any that aren't critical..
 271          */
 272         zone = zonelist->zones;
 273         for (;;) {
 274                 zone_t *z = *(zone++);
 275                 if (!z)
 276                         break;
 277                 if (!z->low_on_memory) {
 278                         struct page *page = rmqueue(z, order);
 279                         if (z->free_pages < z->pages_min)
 280                                 z->low_on_memory = 1;
 281                         if (page)
 282                                 return page;
 283                 }
 284         }
 285
 286         /*
 287          * Uhhuh. All the zones have been critical, which means that
 288          * we'd better do some synchronous swap-out. kswapd has not
 289          * been able to cope..
 290          */
 291         if (!(current->flags & PF_MEMALLOC)) {
 292                 int gfp_mask = zonelist->gfp_mask;
 293                 if (!try_to_free_pages(gfp_mask)) {
 294                         if (!(gfp_mask & __GFP_HIGH))
 295                                 goto fail;
 296                 }
 297         }
 298
 299         /*
 300          * Final phase: allocate anything we can!
 301          */
 302         zone = zonelist->zones;
 303         for (;;) {
 304                 struct page *page;
 305
 306                 zone_t *z = *(zone++);
 307                 if (!z)
 308                         break;
 309                 page = rmqueue(z, order);
 310                 if (page)
 311                         return page;
 312         }
 313
 314 fail:
 315         /* No luck.. */
 316         return NULL;
 317 }
 318
 319 /*
 320  * Common helper functions.
 321  */
 322 unsigned long __get_free_pages(int gfp_mask, unsigned long order)
 323 {
 324         struct page * page;
 325
 326         page = alloc_pages(gfp_mask, order);
 327         if (!page)
 328                 return 0;
 329         return page_address(page);
 330 }
 331
 332 unsigned long get_zeroed_page(int gfp_mask)
 333 {
 334         struct page * page;
 335
 336         page = alloc_pages(gfp_mask, 0);
 337         if (page) {
 338                 unsigned long address = page_address(page);
 339                 clear_page((void *)address);
 340                 return address;
 341         }
 342         return 0;
 343 }
 344
 345 void __free_pages(struct page *page, unsigned long order)
 346 {
 347         if (put_page_testzero(page))
 348                 __free_pages_ok(page, order);
 349 }
 350
 351 void free_pages(unsigned long addr, unsigned long order)
 352 {
 353         unsigned long map_nr;
 354
 355 #ifdef CONFIG_DISCONTIGMEM
 356         if (addr == 0) return;
 357 #endif
 358         map_nr = MAP_NR(addr);
 359         if (map_nr < max_mapnr)
 360                 __free_pages(mem_map + map_nr, order);
 361 }
 362
 363 /*
 364  * Total amount of free (allocatable) RAM:
 365  */
 366 unsigned int nr_free_pages (void)
 367 {
 368         unsigned int sum;
 369         zone_t *zone;
 370         int i;
 371
 372         sum = 0;
 373         for (i = 0; i < NUMNODES; i++)
 374                 for (zone = NODE_DATA(i)->node_zones; zone < NODE_DATA(i)->node_zones + MAX_NR_ZONES; zone++)
 375                         sum += zone->free_pages;
 376         return sum;
 377 }
 378
 379 /*
 380  * Amount of free RAM allocatable as buffer memory:
 381  */
 382 unsigned int nr_free_buffer_pages (void)
 383 {
 384         unsigned int sum;
 385         zone_t *zone;
 386         int i;
 387
 388         sum = nr_lru_pages;
 389         for (i = 0; i < NUMNODES; i++)
 390                 for (zone = NODE_DATA(i)->node_zones; zone <= NODE_DATA(i)->node_zones+ZONE_NORMAL; zone++)
 391                         sum += zone->free_pages;
 392         return sum;
 393 }
 394
 395 #if CONFIG_HIGHMEM
 396 unsigned int nr_free_highpages (void)
 397 {
 398         int i;
 399         unsigned int pages = 0;
 400
 401         for (i = 0; i < NUMNODES; i++)
 402                 pages += NODE_DATA(i)->node_zones[ZONE_HIGHMEM].free_pages;
 403         return pages;
 404 }
 405 #endif
 406
 407 /*
 408  * Show free area list (used inside shift_scroll-lock stuff)
 409  * We also calculate the percentage fragmentation. We do this by counting the
 410  * memory on each free list with the exception of the first item on the list.
 411  */
 412 void show_free_areas_core(int nid)
 413 {
 414         unsigned long order;
 415         unsigned type;
 416
 417         printk("Free pages:      %6dkB (%6dkB HighMem)\n",
 418                 nr_free_pages() << (PAGE_SHIFT-10),
 419                 nr_free_highpages() << (PAGE_SHIFT-10));
 420
 421         printk("( Free: %d, lru_cache: %d (%d %d %d) )\n",
 422                 nr_free_pages(),
 423                 nr_lru_pages,
 424                 freepages.min,
 425                 freepages.low,
 426                 freepages.high);
 427
 428         for (type = 0; type < MAX_NR_ZONES; type++) {
 429                 struct list_head *head, *curr;
 430                 zone_t *zone = NODE_DATA(nid)->node_zones + type;
 431                 unsigned long nr, total, flags;
 432
 433                 printk("  %s: ", zone->name);
 434
 435                 total = 0;
 436                 if (zone->size) {
 437                         spin_lock_irqsave(&zone->lock, flags);
 438                         for (order = 0; order < MAX_ORDER; order++) {
 439                                 head = &(zone->free_area + order)->free_list;
 440                                 curr = head;
 441                                 nr = 0;
 442                                 for (;;) {
 443                                         curr = memlist_next(curr);
 444                                         if (curr == head)
 445                                                 break;
 446                                         nr++;
 447                                 }
 448                                 total += nr * (1 << order);
 449                                 printk("%lu*%lukB ", nr,
 450                                                 (PAGE_SIZE>>10) << order);
 451                         }
 452                         spin_unlock_irqrestore(&zone->lock, flags);
 453                 }
 454                 printk("= %lukB)\n", total * (PAGE_SIZE>>10));
 455         }
 456
 457 #ifdef SWAP_CACHE_INFO
 458         show_swap_cache_info();
 459 #endif
 460 }
 461
 462 void show_free_areas(void)
 463 {
 464         show_free_areas_core(0);
 465 }
 466
 467 /*
 468  * Builds allocation fallback zone lists.
 469  */
 470 static inline void build_zonelists(pg_data_t *pgdat)
 471 {
 472         int i, j, k;
 473
 474         for (i = 0; i < NR_GFPINDEX; i++) {
 475                 zonelist_t *zonelist;
 476                 zone_t *zone;
 477
 478                 zonelist = pgdat->node_zonelists + i;
 479                 memset(zonelist, 0, sizeof(*zonelist));
 480
 481                 zonelist->gfp_mask = i;
 482                 j = 0;
 483                 k = ZONE_NORMAL;
 484                 if (i & __GFP_HIGHMEM)
 485                         k = ZONE_HIGHMEM;
 486                 if (i & __GFP_DMA)
 487                         k = ZONE_DMA;
 488
 489                 switch (k) {
 490                         default:
 491                                 BUG();
 492                         /*
 493                          * fallthrough:
 494                          */
 495                         case ZONE_HIGHMEM:
 496                                 zone = pgdat->node_zones + ZONE_HIGHMEM;
 497                                 if (zone->size) {
 498 #ifndef CONFIG_HIGHMEM
 499                                         BUG();
 500 #endif
 501                                         zonelist->zones[j++] = zone;
 502                                 }
 503                         case ZONE_NORMAL:
 504                                 zone = pgdat->node_zones + ZONE_NORMAL;
 505                                 if (zone->size)
 506                                         zonelist->zones[j++] = zone;
 507                         case ZONE_DMA:
 508                                 zone = pgdat->node_zones + ZONE_DMA;
 509                                 if (zone->size)
 510                                         zonelist->zones[j++] = zone;
 511                 }
 512                 zonelist->zones[j++] = NULL;
 513         }
 514 }
 515
 516 #define LONG_ALIGN(x) (((x)+(sizeof(long))-1)&~((sizeof(long))-1))
 517
 518 /*
 519  * Set up the zone data structures:
 520  *   - mark all pages reserved
 521  *   - mark all memory queues empty
 522  *   - clear the memory bitmaps
 523  */
 524 void __init free_area_init_core(int nid, pg_data_t *pgdat, struct page **gmap,
 525         unsigned long *zones_size, unsigned long zone_start_paddr,
 526         unsigned long *zholes_size)
 527 {
 528         struct page *p, *lmem_map;
 529         unsigned long i, j;
 530         unsigned long map_size;
 531         unsigned long totalpages, offset, realtotalpages;
 532         unsigned int cumulative = 0;
 533
 534         pgdat->node_next = pgdat_list;
 535         pgdat_list = pgdat;
 536
 537         totalpages = 0;
 538         for (i = 0; i < MAX_NR_ZONES; i++) {
 539                 unsigned long size = zones_size[i];
 540                 totalpages += size;
 541         }
 542         realtotalpages = totalpages;
 543         if (zholes_size)
 544                 for (i = 0; i < MAX_NR_ZONES; i++)
 545                         realtotalpages -= zholes_size[i];
 546
 547         printk("On node %d totalpages: %lu\n", nid, realtotalpages);
 548
 549         /*
 550          * Select nr of pages we try to keep free for important stuff
 551          * with a minimum of 10 pages and a maximum of 256 pages, so
 552          * that we don't waste too much memory on large systems.
 553          * This is fairly arbitrary, but based on some behaviour
 554          * analysis.
 555          */
 556         i = realtotalpages >> 7;
 557         if (i < 10)
 558                 i = 10;
 559         if (i > 256)
 560                 i = 256;
 561         freepages.min += i;
 562         freepages.low += i * 2;
 563         freepages.high += i * 3;
 564         memlist_init(&lru_cache);
 565
 566         /*
 567          * Some architectures (with lots of mem and discontinous memory
 568          * maps) have to search for a good mem_map area:
 569          * For discontigmem, the conceptual mem map array starts from
 570          * PAGE_OFFSET, we need to align the actual array onto a mem map
 571          * boundary, so that MAP_NR works.
 572          */
 573         map_size = (totalpages + 1)*sizeof(struct page);
 574         lmem_map = (struct page *) alloc_bootmem_node(nid, map_size);
 575         lmem_map = (struct page *)(PAGE_OFFSET +
 576                         MAP_ALIGN((unsigned long)lmem_map - PAGE_OFFSET));
 577         *gmap = pgdat->node_mem_map = lmem_map;
 578         pgdat->node_size = totalpages;
 579         pgdat->node_start_paddr = zone_start_paddr;
 580         pgdat->node_start_mapnr = (lmem_map - mem_map);
 581
 582         /*
 583          * Initially all pages are reserved - free ones are freed
 584          * up by free_all_bootmem() once the early boot process is
 585          * done.
 586          */
 587         for (p = lmem_map; p < lmem_map + totalpages; p++) {
 588                 set_page_count(p, 0);
 589                 SetPageReserved(p);
 590                 init_waitqueue_head(&p->wait);
 591                 memlist_init(&p->list);
 592         }
 593
 594         offset = lmem_map - mem_map;
 595         for (j = 0; j < MAX_NR_ZONES; j++) {
 596                 zone_t *zone = pgdat->node_zones + j;
 597                 unsigned long mask;
 598                 unsigned long size, realsize;
 599
 600                 realsize = size = zones_size[j];
 601                 if (zholes_size)
 602                         realsize -= zholes_size[j];
 603
 604                 printk("zone(%lu): %lu pages.\n", j, size);
 605                 zone->size = size;
 606                 zone->name = zone_names[j];
 607                 zone->lock = SPIN_LOCK_UNLOCKED;
 608                 zone->zone_pgdat = pgdat;
 609                 zone->free_pages = 0;
 610                 if (!size)
 611                         continue;
 612
 613                 zone->offset = offset;
 614                 cumulative += size;
 615                 mask = (realsize / zone_balance_ratio[j]);
 616                 if (mask < zone_balance_min[j])
 617                         mask = zone_balance_min[j];
 618                 else if (mask > zone_balance_max[j])
 619                         mask = zone_balance_max[j];
 620                 zone->pages_min = mask;
 621                 zone->pages_low = mask*2;
 622                 zone->pages_high = mask*3;
 623                 zone->low_on_memory = 0;
 624                 zone->zone_wake_kswapd = 0;
 625                 zone->zone_mem_map = mem_map + offset;
 626                 zone->zone_start_mapnr = offset;
 627                 zone->zone_start_paddr = zone_start_paddr;
 628
 629                 for (i = 0; i < size; i++) {
 630                         struct page *page = mem_map + offset + i;
 631                         page->zone = zone;
 632                         if (j != ZONE_HIGHMEM) {
 633                                 page->virtual = (unsigned long)(__va(zone_start_paddr));
 634                                 zone_start_paddr += PAGE_SIZE;
 635                         }
 636                 }
 637
 638                 offset += size;
 639                 mask = -1;
 640                 for (i = 0; i < MAX_ORDER; i++) {
 641                         unsigned long bitmap_size;
 642
 643                         memlist_init(&zone->free_area[i].free_list);
 644                         mask += mask;
 645                         size = (size + ~mask) & mask;
 646                         bitmap_size = size >> i;
 647                         bitmap_size = (bitmap_size + 7) >> 3;
 648                         bitmap_size = LONG_ALIGN(bitmap_size);
 649                         zone->free_area[i].map =
 650                           (unsigned int *) alloc_bootmem_node(nid, bitmap_size);
 651                 }
 652         }
 653         build_zonelists(pgdat);
 654 }
 655
 656 void __init free_area_init(unsigned long *zones_size)
 657 {
 658         free_area_init_core(0, NODE_DATA(0), &mem_map, zones_size, 0, 0);
 659 }
 660
 661 static int __init setup_mem_frac(char *str)
 662 {
 663         int j = 0;
 664
 665         while (get_option(&str, &zone_balance_ratio[j++]) == 2);
 666         printk("setup_mem_frac: ");
 667         for (j = 0; j < MAX_NR_ZONES; j++) printk("%d  ", zone_balance_ratio[j]);
 668         printk("\n");
 669         return 1;
 670 }
 671
 672 __setup("memfrac=", setup_mem_frac);