uct_search(): Remove prev_best, prev_winner checks
[pachi/derm.git] / HACKING
blob0912cdf3b4925f968727e7226984d276e33467db
1 This is brief developer-oriented overview in Pachi structure.
3 Pachi is completely Go-specific (c.f. Fuego; though e.g. atari go support
4 should be easy to add), but fairly modular. It has been built with focus
5 on MonteCarlo-based play, but it can in principle be used for other
6 play engines as well.
9 Basic architecture
10 ==================
12 Pachi consists of the following components:
15   +------+    +--------+    +---------+
16   | core | -- | engine | -- | playout |
17   +------+    +--------+    +---------+
18                      |        |
19                   +-------------+
20                   | aux library |
21                   +-------------+
23 * "core" takes care of the program's lifetime, GTP interface and basic
24   fast Go board implementation
26         zzgo.c          global initialization and the main loop
27         version.h       current version information
28         debug.h         debugging infrastructure
29         random.[ch]     fast random number generator
30         gtp.[ch]        GTP protocol interface
31         timeinfo.[ch]   Time-keeping information
32         stone.[ch]      one board point coloring definition
33         move.[ch]       one board move definition
34         board.[ch]      board definition and basic interface
36 * "aux library" provides extra functions like static tactical evaluation
37   and pattern matching; it is somewhat interwound with "core" component
39         tactics.[ch]    extended interfaces for the go board
40         mq.h            "move queue" data structure
41         stats.h         "move statistics" data structure
42         probdist.[ch]   "probability distribution" data structure
43         ownermap.[ch]   simulation-based finalpos. "owner map" data structure
44         pattern3.[ch]   fast 3x3 spatial pattern matcher
45         pattern.[ch]    general multi-feature pattern matcher
47 * "engine" receives notifications about opponent moves and is asked
48   to generate a move to play on given board
50         engine.h        abstract engine interface
51         random/         example "random move generator" engine
52         replay/         example "playout move generator" engine
53         montecarlo/     simple treeless Monte Carlo engine, quite bitrotten
54         uct/            the main UCT-player engine, see below
55         patternscan/    auxiliary engine for harvesting patterns from
56                                 existing games
58 * "playout" policy is asked to generate moves to play during the Monte Carlo
59   simulations, and to provide rough evaluation of moves feasibility for
60   the engine
62         playout.[ch]    abstract playout policy interface,
63                                 Monte Carlo simulation execution
64         playout/light   uniformly random playout policy
65         playout/moggy   rule-based "Mogo-like" playout policy
66         playout/elo     probdist-based "CrazyStone-like" playout policy
68 * Also, several ways of testing Pachi are provided:
70         t-unit/         interface for writing unit-tests for specific
71                                 functionality, mainly tactics
72         t-play/         interface for testing performance by playing games
73                                 against a fixed opponent (e.g. GNUGo)
76 UCT architecture
77 ================
79 The UCT engine has non-trivial structure by itself:
81   +-------------+    +-----+     +-------------------+
82   | node policy | -- | UCT | --- | node prior-hinter |
83   +-------------+    +-----+     +-------------------+
84                         |           |
85                    +---------+      |
86                    | playout | -----'
87                    +---------+
89 * "UCT" is the core of the engine
91         uct.[ch]        engine initialization, public interface
92         internal.h      internal state and data structures
93         tree.[ch]       minimax move tree with success statistics
94         walk.[ch]       filling the tree by walking it many times
95                                 and running MC simulations from leaves
97 * "node prior-hinter" assigns newly created nodes preliminary success
98   statistics ("prior values") to focus the search better
100         prior.[ch]      variety of methods for setting the priors
102 * "node policy" mainly chooses the current node's child to descend
103   through during the tree walk, based on the already recorded statistics;
104   it must balance exploration and exploitation well during the selection
106         policy/ucb1     the old-school original simple policy
107         policy/ucb1amaf the AMAF/RAVE-based policy gathering statistics rapidly
110 Board Implementation
111 ====================
113 The infrastructure is optimized for speed to make it well suited
114 for bruteforce engines, however tradeoffs are made to make it useful
115 for heavier MonteCarlo playouts as well (e.g. real liberties are
116 tracked instead of pseudoliberties). If you are looking for raw
117 light playout speed, libEGO is better choice.
119 Ruleset
120 -------
122 While the Pachi engines generally play according to Chinese rules,
123 internally, Pachi uses Tromp-Taylor rules because they are simple,
124 fast and universal; they are very close to the New Zealand rules.
125 That means, it simply counts the number of stones and one-point eyes
126 of each color on the board, plus komi and handicap correction.
128 Tromp-Taylor rules also mean that multi-stone suicide is allowed! If you
129 do not like that (basically if you want to pretend it plays according
130 to Chinese rules), you need to rule that out in your engine, currently.
131 The provided engines DO avoid multi-stone suicide (but the UCT engine
132 will never play it itself).
134 Tromp-Taylor rules have positional superko; the board implementation
135 will set a flag if it is violated, but play the move anyway. You need
136 to enforce the superko rule in your engine.
139 GTP Implementation
140 ==================
142 ...is a very sad hack. ENSURE that only trusted parties talk to Pachi's
143 GTP interface, as it is totally non-resilient to any kind of overflow
144 or bad input attacks and allowing arbitrary input to be entered within
145 is a major security hole. Yes, this needs to be cleaned up. Also, currently
146 engines cannot plug in their own commands and there is no GoGui interface.
148 Pachi supports only few GTP commands now. Most importantly, it does not
149 support the undo command and it does not support time-keeping.
150 The final_status_list command requires engine support.
153 General Pattern Matcher
154 =======================
156 Pachi has in-development general pattern matcher that can match various
157 sets of features (spatial and others), inspired by the CrazyStone pattern
158 model. Please see pattern.h for detailed description of the pattern concept
159 and recognized features.
161 To harvest patterns, use 'zzgo -e patternscan' (see patternscan/patternscan.c
162 for available options).  The output of the pattern scanner are two data
163 structures: The matched patterns
165         (feature1:payload feature2:payload ...)
167 and spatial dictionary. "Spatial" feature represents a particular
168 configuration of stones in a circle around the move-to-play; each
169 configuration has its own record in the dictionary and the spatial
170 feature references only the id in the dictionary; so you need to keep
171 both the patterns and the "patterns.spat" file.  Normally, 'patternscan'
172 will only match already existing dictionary entries, but you
173 can pass it "gen_spat_dict" so that it appends all newly found spatial
174 features to the dictionary - use "spat_threshold" to limit recording
175 only to frequently occuring spatial features; to start the dictionary
176 from scratch, simply remove any existing "patterns.spat" file.
178 There are few pre-made scripts to make the initialization of the pattern
179 matcher easy:
181 * pattern_byplayer.sh: Sorts out patterns from given SGF collection by
182   player names, one player per file in a dedicated directory. This is
183   useful if you want to use the patterns to e.g. recognize games of a
184   player by characteristic patterns. Spatial dictionary is autogenerated
185   in full.
187 * pattern_spatial_gen.sh: Initializes spatial dictionary by spatial features
188   found at least N times in given SGF collection.  This is useful for
189   further gathering of general pattern statistics while keeping the amount
190   of spatial features manageable.
192 * pattern_spatial_show.pl ID: Shows spatial pattern of given id in 2D plane.
194 * pattern_mm.sh: Combines patternsacn engine and the MM tool (see below),
195   producing gamma values for harvested patterns.
197 Minorization-majorization (CrazyStone patterns)
198 -----------------------------------------------
200 The pattern harvester can be used together with the MM tool by Remi Coulom:
202         http://remi.coulom.free.fr/Amsterdam2007/mm.tar.bz2
204 This tool will compute relative strength of individual features for teaming
205 them up and using the outcoming probability distribution for generating moves.
206 There is a script that will take you from SGF game collection to gamma values
207 in single shot - "pattern_mm.sh".
209 The resulting "patterns.gamma" file contains mapping from feature instances
210 to gamma floats, representing the features strength; note that it is totally
211 meaningless without the accompanying "patterns.spat" file generated by the
212 pattern_gather script. To make Pachi use the gamma values for tree bias and
213 in MC playouts, use the "elo" playout policy - but note that it's still in
214 heavy development.