Please note that diffs are not public domain; they are subject to the
copyright notices on the relevant files.

===================================================================
RCS file: /ftp/cvs/cvsroot/src/sys/kern/subr_pool.c,v
rcsdiff: /ftp/cvs/cvsroot/src/sys/kern/subr_pool.c,v: warning: Unknown phrases like `commitid ...;' are present.
retrieving revision 1.110.2.2
retrieving revision 1.111.4.3
diff -u -p -r1.110.2.2 -r1.111.4.3
--- src/sys/kern/subr_pool.c	2006/03/01 09:28:46	1.110.2.2
+++ src/sys/kern/subr_pool.c	2006/06/01 22:38:09	1.111.4.3
@@ -1,4 +1,4 @@
-/*	$NetBSD: subr_pool.c,v 1.110.2.2 2006/03/01 09:28:46 yamt Exp $	*/
+/*	$NetBSD: subr_pool.c,v 1.111.4.3 2006/06/01 22:38:09 kardel Exp $	*/
 
 /*-
  * Copyright (c) 1997, 1999, 2000 The NetBSD Foundation, Inc.
@@ -38,7 +38,7 @@
  */
 
 #include <sys/cdefs.h>
-__KERNEL_RCSID(0, "$NetBSD: subr_pool.c,v 1.110.2.2 2006/03/01 09:28:46 yamt Exp $");
+__KERNEL_RCSID(0, "$NetBSD: subr_pool.c,v 1.111.4.3 2006/06/01 22:38:09 kardel Exp $");
 
 #include "opt_pool.h"
 #include "opt_poollog.h"
@@ -82,12 +82,16 @@ static struct pool phpool[PHPOOL_MAX];
 static struct pool psppool;
 #endif
 
+static SLIST_HEAD(, pool_allocator) pa_deferinitq =
+    SLIST_HEAD_INITIALIZER(pa_deferinitq);
+
 static void *pool_page_alloc_meta(struct pool *, int);
 static void pool_page_free_meta(struct pool *, void *);
 
 /* allocator for pool metadata */
 static struct pool_allocator pool_allocator_meta = {
-	pool_page_alloc_meta, pool_page_free_meta
+	pool_page_alloc_meta, pool_page_free_meta,
+	.pa_backingmapptr = &kmem_map,
 };
 
 /* # of seconds to retain page after last use */
@@ -183,8 +187,9 @@ static void	pool_prime_page(struct pool 
 		    struct pool_item_header *);
 static void	pool_update_curpage(struct pool *);
 
-void		*pool_allocator_alloc(struct pool *, int);
-void		pool_allocator_free(struct pool *, void *);
+static int	pool_grow(struct pool *, int);
+static void	*pool_allocator_alloc(struct pool *, int);
+static void	pool_allocator_free(struct pool *, void *);
 
 static void pool_print_pagelist(struct pool *, struct pool_pagelist *,
 	void (*)(const char *, ...));
@@ -442,12 +447,86 @@ pr_rmpage(struct pool *pp, struct pool_i
 	pool_update_curpage(pp);
 }
 
+static boolean_t
+pa_starved_p(struct pool_allocator *pa)
+{
+
+	if (pa->pa_backingmap != NULL) {
+		return vm_map_starved_p(pa->pa_backingmap);
+	}
+	return FALSE;
+}
+
+static int
+pool_reclaim_callback(struct callback_entry *ce, void *obj, void *arg)
+{
+	struct pool *pp = obj;
+	struct pool_allocator *pa = pp->pr_alloc;
+
+	KASSERT(&pp->pr_reclaimerentry == ce);
+	pool_reclaim(pp);
+	if (!pa_starved_p(pa)) {
+		return CALLBACK_CHAIN_ABORT;
+	}
+	return CALLBACK_CHAIN_CONTINUE;
+}
+
+static void
+pool_reclaim_register(struct pool *pp)
+{
+	struct vm_map *map = pp->pr_alloc->pa_backingmap;
+	int s;
+
+	if (map == NULL) {
+		return;
+	}
+
+	s = splvm(); /* not necessary for INTRSAFE maps, but don't care. */
+	callback_register(&vm_map_to_kernel(map)->vmk_reclaim_callback,
+	    &pp->pr_reclaimerentry, pp, pool_reclaim_callback);
+	splx(s);
+}
+
+static void
+pool_reclaim_unregister(struct pool *pp)
+{
+	struct vm_map *map = pp->pr_alloc->pa_backingmap;
+	int s;
+
+	if (map == NULL) {
+		return;
+	}
+
+	s = splvm(); /* not necessary for INTRSAFE maps, but don't care. */
+	callback_unregister(&vm_map_to_kernel(map)->vmk_reclaim_callback,
+	    &pp->pr_reclaimerentry);
+	splx(s);
+}
+
+static void
+pa_reclaim_register(struct pool_allocator *pa)
+{
+	struct vm_map *map = *pa->pa_backingmapptr;
+	struct pool *pp;
+
+	KASSERT(pa->pa_backingmap == NULL);
+	if (map == NULL) {
+		SLIST_INSERT_HEAD(&pa_deferinitq, pa, pa_q);
+		return;
+	}
+	pa->pa_backingmap = map;
+	TAILQ_FOREACH(pp, &pa->pa_list, pr_alloc_list) {
+		pool_reclaim_register(pp);
+	}
+}
+
 /*
  * Initialize all the pools listed in the "pools" link set.
  */
 void
-link_pool_init(void)
+pool_subsystem_init(void)
 {
+	struct pool_allocator *pa;
 	__link_set_decl(pools, struct link_pool_init);
 	struct link_pool_init * const *pi;
 
@@ -455,6 +534,13 @@ link_pool_init(void)
 		pool_init((*pi)->pp, (*pi)->size, (*pi)->align,
 		    (*pi)->align_offset, (*pi)->flags, (*pi)->wchan,
 		    (*pi)->palloc);
+
+	while ((pa = SLIST_FIRST(&pa_deferinitq)) != NULL) {
+		KASSERT(pa->pa_backingmapptr != NULL);
+		KASSERT(*pa->pa_backingmapptr != NULL);
+		SLIST_REMOVE_HEAD(&pa_deferinitq, pa_q);
+		pa_reclaim_register(pa);
+	}
 }
 
 /*
@@ -467,13 +553,27 @@ void
 pool_init(struct pool *pp, size_t size, u_int align, u_int ioff, int flags,
     const char *wchan, struct pool_allocator *palloc)
 {
-	int off, slack;
+#ifdef DEBUG
+	struct pool *pp1;
+#endif
 	size_t trysize, phsize;
-	int s;
+	int off, slack, s;
 
 	KASSERT((1UL << (CHAR_BIT * sizeof(pool_item_freelist_t))) - 2 >=
 	    PHPOOL_FREELIST_NELEM(PHPOOL_MAX - 1));
 
+#ifdef DEBUG
+	/*
+	 * Check that the pool hasn't already been initialised and
+	 * added to the list of all pools.
+	 */
+	LIST_FOREACH(pp1, &pool_head, pr_poollist) {
+		if (pp == pp1)
+			panic("pool_init: pool %s already initialised",
+			    wchan);
+	}
+#endif
+
 #ifdef POOL_DIAGNOSTIC
 	/*
 	 * Always log if POOL_DIAGNOSTIC is defined.
@@ -501,6 +601,10 @@ pool_init(struct pool *pp, size_t size, 
 		simple_lock_init(&palloc->pa_slock);
 		palloc->pa_pagemask = ~(palloc->pa_pagesz - 1);
 		palloc->pa_pageshift = ffs(palloc->pa_pagesz) - 1;
+
+		if (palloc->pa_backingmapptr != NULL) {
+			pa_reclaim_register(palloc);
+		}
 		palloc->pa_flags |= PA_INITIALIZED;
 	}
 
@@ -682,6 +786,7 @@ pool_init(struct pool *pp, size_t size, 
 	TAILQ_INSERT_TAIL(&palloc->pa_list, pp, pr_alloc_list);
 	simple_unlock(&palloc->pa_slock);
 	splx(s);
+	pool_reclaim_register(pp);
 }
 
 /*
@@ -702,6 +807,7 @@ pool_destroy(struct pool *pp)
 	simple_unlock(&pool_head_slock);
 
 	/* Remove this pool from its allocator's list of pools. */
+	pool_reclaim_unregister(pp);
 	s = splvm();
 	simple_lock(&pp->pr_alloc->pa_slock);
 	TAILQ_REMOVE(&pp->pr_alloc->pa_list, pp, pr_alloc_list);
@@ -867,6 +973,8 @@ pool_get(struct pool *pp, int flags)
 	 * has no items in its bucket.
 	 */
 	if ((ph = pp->pr_curpage) == NULL) {
+		int error;
+
 #ifdef DIAGNOSTIC
 		if (pp->pr_nitems != 0) {
 			simple_unlock(&pp->pr_slock);
@@ -882,18 +990,9 @@ pool_get(struct pool *pp, int flags)
 		 * may block.
 		 */
 		pr_leave(pp);
-		simple_unlock(&pp->pr_slock);
-		v = pool_allocator_alloc(pp, flags);
-		if (__predict_true(v != NULL))
-			ph = pool_alloc_item_header(pp, v, flags);
-
-		if (__predict_false(v == NULL || ph == NULL)) {
-			if (v != NULL)
-				pool_allocator_free(pp, v);
-
-			simple_lock(&pp->pr_slock);
-			pr_enter(pp, file, line);
-
+		error = pool_grow(pp, flags);
+		pr_enter(pp, file, line);
+		if (error != 0) {
 			/*
 			 * We were unable to allocate a page or item
 			 * header, but we released the lock during
@@ -903,33 +1002,12 @@ pool_get(struct pool *pp, int flags)
 			if (pp->pr_curpage != NULL)
 				goto startover;
 
-			if ((flags & PR_WAITOK) == 0) {
-				pp->pr_nfail++;
-				pr_leave(pp);
-				simple_unlock(&pp->pr_slock);
-				return (NULL);
-			}
-
-			/*
-			 * Wait for items to be returned to this pool.
-			 *
-			 * wake up once a second and try again,
-			 * as the check in pool_cache_put_paddr() is racy.
-			 */
-			pp->pr_flags |= PR_WANTED;
-			/* PA_WANTED is already set on the allocator. */
+			pp->pr_nfail++;
 			pr_leave(pp);
-			ltsleep(pp, PSWP, pp->pr_wchan, hz, &pp->pr_slock);
-			pr_enter(pp, file, line);
-			goto startover;
+			simple_unlock(&pp->pr_slock);
+			return (NULL);
 		}
 
-		/* We have more memory; add it to the pool */
-		simple_lock(&pp->pr_slock);
-		pr_enter(pp, file, line);
-		pool_prime_page(pp, v, ph);
-		pp->pr_npagealloc++;
-
 		/* Start the allocation process over. */
 		goto startover;
 	}
@@ -1044,7 +1122,6 @@ pool_do_put(struct pool *pp, void *v, st
 	struct pool_item *pi = v;
 	struct pool_item_header *ph;
 	caddr_t page;
-	int s;
 
 	LOCK_ASSERT(simple_lock_held(&pp->pr_slock));
 	SCHED_ASSERT_UNLOCKED();
@@ -1127,7 +1204,7 @@ pool_do_put(struct pool *pp, void *v, st
 		pp->pr_nidle++;
 		if (pp->pr_npages > pp->pr_minpages &&
 		    (pp->pr_npages > pp->pr_maxpages ||
-		     (pp->pr_alloc->pa_flags & PA_WANT) != 0)) {
+		     pa_starved_p(pp->pr_alloc))) {
 			pr_rmpage(pp, ph, pq);
 		} else {
 			LIST_REMOVE(ph, ph_pagelist);
@@ -1139,9 +1216,7 @@ pool_do_put(struct pool *pp, void *v, st
 			 * be reclaimed by the pagedaemon.  This minimizes
 			 * ping-pong'ing for memory.
 			 */
-			s = splclock();
-			ph->ph_time = mono_time;
-			splx(s);
+			getmicrotime(&ph->ph_time);
 		}
 		pool_update_curpage(pp);
 	}
@@ -1204,35 +1279,56 @@ pool_put(struct pool *pp, void *v)
 #endif
 
 /*
+ * pool_grow: grow a pool by a page.
+ *
+ * => called with pool locked.
+ * => unlock and relock the pool.
+ * => return with pool locked.
+ */
+
+static int
+pool_grow(struct pool *pp, int flags)
+{
+	struct pool_item_header *ph = NULL;
+	char *cp;
+
+	simple_unlock(&pp->pr_slock);
+	cp = pool_allocator_alloc(pp, flags);
+	if (__predict_true(cp != NULL)) {
+		ph = pool_alloc_item_header(pp, cp, flags);
+	}
+	if (__predict_false(cp == NULL || ph == NULL)) {
+		if (cp != NULL) {
+			pool_allocator_free(pp, cp);
+		}
+		simple_lock(&pp->pr_slock);
+		return ENOMEM;
+	}
+
+	simple_lock(&pp->pr_slock);
+	pool_prime_page(pp, cp, ph);
+	pp->pr_npagealloc++;
+	return 0;
+}
+
+/*
  * Add N items to the pool.
  */
 int
 pool_prime(struct pool *pp, int n)
 {
-	struct pool_item_header *ph = NULL;
-	caddr_t cp;
 	int newpages;
+	int error = 0;
 
 	simple_lock(&pp->pr_slock);
 
 	newpages = roundup(n, pp->pr_itemsperpage) / pp->pr_itemsperpage;
 
 	while (newpages-- > 0) {
-		simple_unlock(&pp->pr_slock);
-		cp = pool_allocator_alloc(pp, PR_NOWAIT);
-		if (__predict_true(cp != NULL))
-			ph = pool_alloc_item_header(pp, cp, PR_NOWAIT);
-
-		if (__predict_false(cp == NULL || ph == NULL)) {
-			if (cp != NULL)
-				pool_allocator_free(pp, cp);
-			simple_lock(&pp->pr_slock);
+		error = pool_grow(pp, PR_NOWAIT);
+		if (error) {
 			break;
 		}
-
-		simple_lock(&pp->pr_slock);
-		pool_prime_page(pp, cp, ph);
-		pp->pr_npagealloc++;
 		pp->pr_minpages++;
 	}
 
@@ -1240,7 +1336,7 @@ pool_prime(struct pool *pp, int n)
 		pp->pr_maxpages = pp->pr_minpages + 1;	/* XXX */
 
 	simple_unlock(&pp->pr_slock);
-	return (0);
+	return error;
 }
 
 /*
@@ -1256,7 +1352,6 @@ pool_prime_page(struct pool *pp, caddr_t
 	unsigned int align = pp->pr_align;
 	unsigned int ioff = pp->pr_itemoffset;
 	int n;
-	int s;
 
 	LOCK_ASSERT(simple_lock_held(&pp->pr_slock));
 
@@ -1272,9 +1367,7 @@ pool_prime_page(struct pool *pp, caddr_t
 	LIST_INIT(&ph->ph_itemlist);
 	ph->ph_page = storage;
 	ph->ph_nmissing = 0;
-	s = splclock();
-	ph->ph_time = mono_time;
-	splx(s);
+	getmicrotime(&ph->ph_time);
 	if ((pp->pr_roflags & PR_PHINPAGE) == 0)
 		SPLAY_INSERT(phtree, &pp->pr_phtree, ph);
 
@@ -1345,34 +1438,15 @@ pool_prime_page(struct pool *pp, caddr_t
 static int
 pool_catchup(struct pool *pp)
 {
-	struct pool_item_header *ph = NULL;
-	caddr_t cp;
 	int error = 0;
 
 	while (POOL_NEEDS_CATCHUP(pp)) {
-		/*
-		 * Call the page back-end allocator for more memory.
-		 *
-		 * XXX: We never wait, so should we bother unlocking
-		 * the pool descriptor?
-		 */
-		simple_unlock(&pp->pr_slock);
-		cp = pool_allocator_alloc(pp, PR_NOWAIT);
-		if (__predict_true(cp != NULL))
-			ph = pool_alloc_item_header(pp, cp, PR_NOWAIT);
-		if (__predict_false(cp == NULL || ph == NULL)) {
-			if (cp != NULL)
-				pool_allocator_free(pp, cp);
-			error = ENOMEM;
-			simple_lock(&pp->pr_slock);
+		error = pool_grow(pp, PR_NOWAIT);
+		if (error) {
 			break;
 		}
-		simple_lock(&pp->pr_slock);
-		pool_prime_page(pp, cp, ph);
-		pp->pr_npagealloc++;
 	}
-
-	return (error);
+	return error;
 }
 
 static void
@@ -1459,7 +1533,6 @@ pool_reclaim(struct pool *pp)
 	struct pool_pagelist pq;
 	struct pool_cache_grouplist pcgl;
 	struct timeval curtime, diff;
-	int s;
 
 	if (pp->pr_drain_hook != NULL) {
 		/*
@@ -1481,9 +1554,7 @@ pool_reclaim(struct pool *pp)
 	LIST_FOREACH(pc, &pp->pr_cachelist, pc_poollist)
 		pool_cache_reclaim(pc, &pq, &pcgl);
 
-	s = splclock();
-	curtime = mono_time;
-	splx(s);
+	getmicrotime(&curtime);
 
 	for (ph = LIST_FIRST(&pp->pr_emptypages); ph != NULL; ph = phnext) {
 		phnext = LIST_NEXT(ph, ph_pagelist);
@@ -1494,7 +1565,8 @@ pool_reclaim(struct pool *pp)
 
 		KASSERT(ph->ph_nmissing == 0);
 		timersub(&curtime, &ph->ph_time, &diff);
-		if (diff.tv_sec < pool_inactive_time)
+		if (diff.tv_sec < pool_inactive_time
+		    && !pa_starved_p(pp->pr_alloc))
 			continue;
 
 		/*
@@ -1540,7 +1612,8 @@ pool_drain(void *arg)
 		drainpp = LIST_NEXT(pp, pr_poollist);
 	}
 	simple_unlock(&pool_head_slock);
-	pool_reclaim(pp);
+	if (pp)
+		pool_reclaim(pp);
 	splx(s);
 }
 
@@ -2177,10 +2250,12 @@ void	pool_page_free(struct pool *, void 
 #ifdef POOL_SUBPAGE
 struct pool_allocator pool_allocator_kmem_fullpage = {
 	pool_page_alloc, pool_page_free, 0,
+	.pa_backingmapptr = &kmem_map,
 };
 #else
 struct pool_allocator pool_allocator_kmem = {
 	pool_page_alloc, pool_page_free, 0,
+	.pa_backingmapptr = &kmem_map,
 };
 #endif
 
@@ -2190,10 +2265,12 @@ void	pool_page_free_nointr(struct pool *
 #ifdef POOL_SUBPAGE
 struct pool_allocator pool_allocator_nointr_fullpage = {
 	pool_page_alloc_nointr, pool_page_free_nointr, 0,
+	.pa_backingmapptr = &kernel_map,
 };
 #else
 struct pool_allocator pool_allocator_nointr = {
 	pool_page_alloc_nointr, pool_page_free_nointr, 0,
+	.pa_backingmapptr = &kernel_map,
 };
 #endif
 
@@ -2203,6 +2280,7 @@ void	pool_subpage_free(struct pool *, vo
 
 struct pool_allocator pool_allocator_kmem = {
 	pool_subpage_alloc, pool_subpage_free, POOL_SUBPAGE,
+	.pa_backingmapptr = &kmem_map,
 };
 
 void	*pool_subpage_alloc_nointr(struct pool *, int);
@@ -2210,125 +2288,41 @@ void	pool_subpage_free_nointr(struct poo
 
 struct pool_allocator pool_allocator_nointr = {
 	pool_subpage_alloc, pool_subpage_free, POOL_SUBPAGE,
+	.pa_backingmapptr = &kmem_map,
 };
 #endif /* POOL_SUBPAGE */
 
-/*
- * We have at least three different resources for the same allocation and
- * each resource can be depleted.  First, we have the ready elements in the
- * pool.  Then we have the resource (typically a vm_map) for this allocator.
- * Finally, we have physical memory.  Waiting for any of these can be
- * unnecessary when any other is freed, but the kernel doesn't support
- * sleeping on multiple wait channels, so we have to employ another strategy.
- *
- * The caller sleeps on the pool (so that it can be awakened when an item
- * is returned to the pool), but we set PA_WANT on the allocator.  When a
- * page is returned to the allocator and PA_WANT is set, pool_allocator_free
- * will wake up all sleeping pools belonging to this allocator.
- *
- * XXX Thundering herd.
- */
-void *
-pool_allocator_alloc(struct pool *org, int flags)
+static void *
+pool_allocator_alloc(struct pool *pp, int flags)
 {
-	struct pool_allocator *pa = org->pr_alloc;
-	struct pool *pp, *start;
-	int s, freed;
+	struct pool_allocator *pa = pp->pr_alloc;
 	void *res;
 
-	LOCK_ASSERT(!simple_lock_held(&org->pr_slock));
-
-	do {
-		if ((res = (*pa->pa_alloc)(org, flags)) != NULL)
-			return (res);
-		if ((flags & PR_WAITOK) == 0) {
-			/*
-			 * We only run the drain hookhere if PR_NOWAIT.
-			 * In other cases, the hook will be run in
-			 * pool_reclaim().
-			 */
-			if (org->pr_drain_hook != NULL) {
-				(*org->pr_drain_hook)(org->pr_drain_hook_arg,
-				    flags);
-				if ((res = (*pa->pa_alloc)(org, flags)) != NULL)
-					return (res);
-			}
-			break;
-		}
+	LOCK_ASSERT(!simple_lock_held(&pp->pr_slock));
 
+	res = (*pa->pa_alloc)(pp, flags);
+	if (res == NULL && (flags & PR_WAITOK) == 0) {
 		/*
-		 * Drain all pools, that use this allocator.
-		 * We do this to reclaim VA space.
-		 * pa_alloc is responsible for waiting for
-		 * physical memory.
-		 *
-		 * XXX We risk looping forever if start if someone
-		 * calls pool_destroy on "start".  But there is no
-		 * other way to have potentially sleeping pool_reclaim,
-		 * non-sleeping locks on pool_allocator, and some
-		 * stirring of drained pools in the allocator.
-		 *
-		 * XXX Maybe we should use pool_head_slock for locking
-		 * the allocators?
+		 * We only run the drain hook here if PR_NOWAIT.
+		 * In other cases, the hook will be run in
+		 * pool_reclaim().
 		 */
-		freed = 0;
-
-		s = splvm();
-		simple_lock(&pa->pa_slock);
-		pp = start = TAILQ_FIRST(&pa->pa_list);
-		do {
-			TAILQ_REMOVE(&pa->pa_list, pp, pr_alloc_list);
-			TAILQ_INSERT_TAIL(&pa->pa_list, pp, pr_alloc_list);
-			simple_unlock(&pa->pa_slock);
-			freed = pool_reclaim(pp);
-			simple_lock(&pa->pa_slock);
-		} while ((pp = TAILQ_FIRST(&pa->pa_list)) != start &&
-			 freed == 0);
-
-		if (freed == 0) {
-			/*
-			 * We set PA_WANT here, the caller will most likely
-			 * sleep waiting for pages (if not, this won't hurt
-			 * that much), and there is no way to set this in
-			 * the caller without violating locking order.
-			 */
-			pa->pa_flags |= PA_WANT;
+		if (pp->pr_drain_hook != NULL) {
+			(*pp->pr_drain_hook)(pp->pr_drain_hook_arg, flags);
+			res = (*pa->pa_alloc)(pp, flags);
 		}
-		simple_unlock(&pa->pa_slock);
-		splx(s);
-	} while (freed);
-	return (NULL);
+	}
+	return res;
 }
 
-void
+static void
 pool_allocator_free(struct pool *pp, void *v)
 {
 	struct pool_allocator *pa = pp->pr_alloc;
-	int s;
 
 	LOCK_ASSERT(!simple_lock_held(&pp->pr_slock));
 
 	(*pa->pa_free)(pp, v);
-
-	s = splvm();
-	simple_lock(&pa->pa_slock);
-	if ((pa->pa_flags & PA_WANT) == 0) {
-		simple_unlock(&pa->pa_slock);
-		splx(s);
-		return;
-	}
-
-	TAILQ_FOREACH(pp, &pa->pa_list, pr_alloc_list) {
-		simple_lock(&pp->pr_slock);
-		if ((pp->pr_flags & PR_WANTED) != 0) {
-			pp->pr_flags &= ~PR_WANTED;
-			wakeup(pp);
-		}
-		simple_unlock(&pp->pr_slock);
-	}
-	pa->pa_flags &= ~PA_WANT;
-	simple_unlock(&pa->pa_slock);
-	splx(s);
 }
 
 void *