TESTS: Explain about confidence interval vs stderr
[pachi.git] / TESTS
blob3d896c5a5ef972242d97ea304a2d1737f5636961
1 Default settings, 5000 playouts.
2 Opponent: gnugo --mode gtp --chinese-rules --capture-all-dead --level 10
3 GNUGo 3.7.12
5 gnugo 19x19 l1 vs l10 k 7.5:    29% (+-2.3%)
6 gnugo 19x19 l1 vs l10 k 0.5:    42.2% (+-2.5%)
7 gnugo 19x19 l1 vs l10 k -7.5:   52.5% (+-2.5%)
8 gnugo 19x19 l1 vs l10 k -14.5:  62.2% (+-2.4%)
9 gnugo 19x19 l1 vs l10 handi 2:  56.7% (+-2.5%)
12 Unfortunately, some early measurements use 95% confidence interval; all newer
13 ones use the standard error (/1.96) instead, since that's what gogui-twogtp
14 provides.
17 Template:
18 ../../gogui-1.1.10/bin/gogui-twogtp -black  'gnugo --mode gtp --chinese-rules --capture-all-dead --level 10' -white './zzgo-77d2d games=5000,policy=ucb1amaf,playout=moggy' -alternate -auto -verbose -size 9 -komi 7.5 -games 100 -sgffile f1-77d2d
19 for i in *.dat; do ../../gogui-1.1.10/bin/gogui-twogtp -force -analyze $i; done
21 ead8e   ucb1amaf        16.5% (+-4.5%)
23 b2185   ucb1amaf        50% (+-6%)
25 75fff   ucb1amaf        49% (+-4%)
27 c5bea   ucb1amaf        42.5% (+-2.5%)
29 95bf3   ucb1amaf        25.2% (+-4%)
31 c7249   ucb1amaf        34.2% (+-4.8%)
33 9367d   ucb1amaf        37% (+-8%)
35 ce540   ucb1amaf*       42% (+-2%)      selfatarirate=0
36 ce540   ucb1amaf        43% (+-2%)
38 62592   ucb1amaf*       47% (+-2.5%)    selfatarirate=0
39 62592   ucb1amaf        44% (+-2.5%)
40 62592   ucb1amaf*#      45.2% (+-2.5%)  selfatarirate=0,rave_prior
41 62592   ucb1amaf#       47.5% (+-2.5%)  rave_prior
43 1a1eb   ucb1            15% (+-2%)      selfatarirate=0:capturerate=0:lcapturerate=0
45 6e22f   ucb1amaf        49.5% (+-2.5%)
46 6e22f   ucb1amaf*0      48% (+-2.5%)    rave_equiv=6000
47 6e22f   ucb1amaf*1      49% (+-2.5%)    rave_equiv=500
48 6e22f   ucb1amaf#       43.2% (+-2.5%)  explore_p=0
49 6e22f   ucb1amaf#*0     45.8% (+-2.5%)  explore_p=0,rave_equiv=6000
50 6e22f   ucb1amaf#*1     48.8% (+-2.5%)  explore_p=0,rave_equiv=500
51 6e22f   ucb1amaf#0      49.5% (+-2.5%)  explore_p=0.01
52 6e22f   ucb1amaf#1      24.8% (+-2.5%)  explore_p=0.5
53 6e22f   19x19 ucb1amaf  0%
54 6e22f   19x19 ucb1amaf* 0%      explore_p=0.01,rave_equiv=100
56 88fe2   ucb1amaf        50.8% (+-2.5%)
57 88fe2   ucb1amaf*       49.5% (+-2.5%)  selfatarirate=0
59 04b7b   ucb1amaf        60.5% (+-2.4%)
60 04b7b   ucb1amaf*       60.2% (+-2.4%)  selfatarirate=0
61 04b7b   ucb1amaf%1      58.5% (+-2.5%)  rate=75
62 04b7b   ucb1amaf%2      60.8% (+-2.4%)  rate=100
63 04b7b   ucb1amaf#       54.5% (+-2.5%)  explore_p=0
64 04b7b   ucb1amaf^       63.5% (+-2.4%)  threads=2
65 04b7b   ucb1amaf+       71.2% (+-2.3%)  games=10000
66 04b7b   ucb1amaf!       79.5% (+-2%)    playout_amaf
67 04b7b   ucb1amaf!&      46% (+-2.5%)    playout_amaf,patternrate=0
69 82790   ucb1amaf        54.1% (+-2.9%)
70 82790   ucb1amaf!       79% (+-2.9%)    playout_amaf
72 129bb   ucb1amaf        64.5% (+-2.4%)
73 129bb   ucb1amaf!       77.2% (+-2.1%)  playout_amaf
75 <playout_amaf_nakade on by default>
77 605dd   ucb1amaf        56.2% (+-2.5%)
78 605dd   ucb1amaf!       63.5% (+-2.4%)  playout_amaf
80 <unknown playout_amaf regression>
82 c031a   ucb1amaf        52.5% (+-4.2%)
83 c031a   ucb1amaf!       63.4% (+-4.2%)  playout_amaf
85 87b9e   ucb1amaf        53.7% (+-2.1%)
86 87b9e   ucb1amaf#1      59.5% (+-1.7%)  explore_p_rave=0
87 87b9e   ucb1amaf#2      59.1% (+-1.7%)  explore_p=0.01,explore_p_rave=0.01
88 87b9e   ucb1amaf%       56.6% (+-2%)    local_assess
89 87b9e   ucb1amaf*       19% (+-1.3%)    patternrate=0
90 87b9e   ucb1amaf!$      62.8% (+-2.4%)  playout_amaf,rave_equiv=500
91 87b9e   ucb1amaf!#1     62.8% (+-1.7%)  playout_amaf,explore_p=0.01,explore_p_rave=0.01
92 87b9e   ucb1amaf!#2     61.6% (+-1.7%)  playout_amaf,explore_p_rave=0.01
93 87b9e   ucb1amaf!&      61.8% (+-2.4%)  playout_amaf,eqex=25
94 87b9e   ucb1amaf!       61.4% (+-2.1%)  playout_amaf
96 <playout_amaf is now default>
98 093e7   ucb1amaf        60.5% (+-2.4%)
99 093e7   ucb1amaf!       58.8% (+-2.5%)  plaout_amaf=0
100 093e7   ucb1amaf%       60.8% (+-2.4%)  ladders=0
102 <playout_amaf_nakade partially off>
104 635a3   ucb1amaf        65% (+-2.4%)
105 635a3   ucb1amaf        63% (+-2.4%)    explore_p_rave=0.01
107 <playout_amaf_nakade off by default>
109 eac23   ucb1amaf        77.4% (+-1.5%)
110 eac23   ucb1amaf#       76.6% (+-1.5%)  explore_p_rave=0.01
111 eac23   ucb1amaf!       74.3% (+-1.5%)  check_nakade=0
112 eac23   ucb1amaf!#      75.5% (+-1.6%)  check_nakade=0,explore_p_rave=0.01
113 eac23   ucb1amaf!#*     75% (+-1.5%)    check_nakade=0,explore_p_rave=0.01,explore_p=0.01
115 <explore_p_rave=0.01>
117 229b9   ucb1amaf 2k     65.5% (+-2.4%)
118 229b9   ucb1amaf 5k     77.5% (+-2.1%)
119 229b9   ucb1amaf 20k    83.8% (+-1.7%)
120 229b9   ucb1amaf 50k    90% (+-1.5%)
121 229b9   ucb1amaf! 2k    37.8% (+-2.4%)  playout_amaf=0
122 229b9   ucb1amaf! 5k    59% (+-2.5%)    playout_amaf=0
123 229b9   ucb1amaf! 20k   79% (+-2%)      playout_amaf=0
124 229b9   ucb1amaf! 50k   83.5% (+-1.9%)  playout_amaf=0
125 229b9   ucb1amaf% 5k    77.2% (+-2.1%)  ladders=0
126 229b9   ucb1amaf*# 5k   74.9% (+-2.2%)  explore_p=0.005,explore_p_rave=0.005
128 self-play:
129 229b9   ucb1amaf km5.5  B+57.5% (+-2.5%)
130 229b9   ucb1amaf km7.5  B+48.8% (+-2.5%)
132 2d54a   ucb1amaf        72.2% (+-2.2%)
134 8ac8a   ucb1amaf        77% (+-2.1%)
135 8ac8a   ucb1amaf@       77% (+-2.1%)    ladder catcher atari check disabled
136 8ac8a   ucb1amaf 50k    93.5% (+-1.2%)
139 fccfe   ucb1amaf        78% (+-2.1%)
140 fccfe   ucb1amaf#       78.5% (+-2.1%)  rave_prior=0
141 fccfe   ucb1amaf*0      76% (+-2.1%)    playout_amaf_cutoff=50
142 fccfe   ucb1amaf*0!     78.5% (+-2.1%)  playout_amaf_cutoff=50,playout_amaf_nakade=1
143 fccfe   ucb1amaf*1      79.8% (+-2%)    playout_amaf_cutoff=75
144 fccfe   ucb1amaf*1!     74% (+-2.2%)    playout_amaf_cutoff=75,playout_amaf_nakade=1
145 fccfe   ucb1amaf*2      76.7% (+-2.1%)  playout_amaf_cutoff=85
146 fccfe   ucb1amaf*2!     77% (+-2.1%)    playout_amaf_cutoff=85,playout_amaf_nakade=1
147 fccfe   ucb1amaf*3      72% (+-2.2%)    playout_amaf_cutoff=90
148 fccfe   ucb1amaf*3!     73% (+-2.2%)    playout_amaf_cutoff=90,playout_amaf_nakade=1
149 fccfe   ucb1amaf*3      72% (+-2.2%)    playout_amaf_cutoff=90
150 fccfe   ucb1amaf*3!     73% (+-2.2%)    playout_amaf_cutoff=90,playout_amaf_nakade=1
152 Threading test:
153 fccfe   ucb1amaf        78% (+-2.1%)
154 fccfe   ucb1amaf 10k    79.8% (+-2%)
155 fccfe   ucb1amaf t=2    75.5% (+-2.2%)
156 569d7   ucb1amaf t=2    82.9% (+-1.9%)
159 <Multiple board sizes from now on>
161 Fillboard investigations (only 4-lib fillboard yet):
163 569d7   9ucb1amaf!      81.2% (+-2%)    fillboardtries=10
164 569d7   9ucb1amaf 50k   90% (+-1.5%)
165 569d7   9ucb1amaf! 50k  90.8% (+-1.4%)  fillboardtries=10
167 ce382   13ucb1amaf      51.8% (+-2.5%)
168 ce382   13ucb1amaf 50k  79.6% (+-2.6%)
169 569d7   13ucb1amaf!     47% (+-2.5%)    fillboardtries=10
170 569d7   13ucb1amaf! 50k 82.8% (+-2.4%)  fillboardtries=10
173 <many optimizations>
175 4181b   9ucb1amaf       76% (+-2.4%)
176 4181b   13ucb1amaf      47.8% (+-2.5%)
177 4181b   19ucb1amaf      1.6% (+-0.9%)
178 4181b   19ucb1amaf!     1% (+-0.7%)     fillboardtries=10
181 0965e   9ucb1amaf       77.5% (+-2.1%)
182 0965e   9ucb1amaf#      9.5% (+-1.5%)   sylvain_rave=0
183 0965e   9ucb1amaf&      79% (+-2.1%)    self-atari protection turned off for single-stone groups
185 0965e   13ucb1amaf      45.2% (+-2.5%)
186 0965e   13ucb1amaf&     52.2% (+-2.5%)  self-atari protection turned off for single-stone groups
188 <permit snapbacks>
190 234b3   9ucb1amaf       77.2% (+-2.1%)
191 234b3   13ucb1amaf      47% (+-2.5%)
194 <add pattern2>
196 035fc   9ucb1amaf       70.5% (+-2.3%)
197 035fc   9ucb1amaf#      79.8% (+-2%)    pattern2=0
199 <add 2-liberty>
201 74b71   9ucb1amaf       74.2% (+-2.2%)
202 74b71   9ucb1amaf#      77% (+-2.1%)    pattern2=0
203 74b71   13ucb1amaf      46.8% (+-2.5%)
204 74b71   13ucb1amaf#     50.2% (+-2.5%)  pattern2=0
206 e34f9   9ucb1amaf       74.2% (+-2.2%)
207 e34f9   9ucb1amaf#      74% (+-2.2%)    pattern2=0
208 e34f9   9ucb1amaf*      76% (+-2.1%)    atarirate=0
209 e34f9   9ucb1amaf#*     79% (+-2%)      pattern2=0,atarirate=0
210 e34f9   13ucb1amaf      47.2% (+-2.5%)
211 e34f9   13ucb1amaf#     49.7% (+-2.8%)  pattern2=0
212 e34f9   13ucb1amaf#*    52.2% (+-2.5%)  pattern2=0,atarirate=0
214 ba2e1   9ucb1amaf       78.2% (+-2.1%)
215 ba2e1   9ucb1amaf#      81.8% (+-1.9%)  pattern2=0
216 ba2e1   9ucb1amaf*      74.5% (+-2.2%)  atarirate=0
217 ba2e1   9ucb1amaf#*     75.5% (+-2.2%)  pattern2=0,atarirate=0
218 ba2e1   9ucb1amaf#*+    78.5% (+-2.1%)  pattern2=0,atarirate=0,prior_cfgd=6
219 ba2e1   9ucb1amaf+%     81.2% (+-2%)    prior_cfgd=6,prior_b19=6
220 ba2e1   9ucb1amaf#+%    83% (+-1.9%)    pattern2=0,prior_cfgd=6,prior_b19=6
222 ba2e1   13ucb1amaf+     57% (+-2.5%)    prior_cfgd=6
223 ba2e1   13ucb1amaf+%    51.2% (+-2.5%)  prior_cfgd=6,prior_b19=6
224 ba2e1   13ucb1amaf#*+   54.8% (+-2.5%)  pattern2=0,atarirate=0,prior_cfgd=6
226 ba2e1   19ucb1amaf+!    13.8% (+-1.7%)  prior_cfgd=6,fillboard
227 ba2e1   19ucb1amaf+%2   21.2% (+-2%)    prior_cfgd=prior_b19=prior=20
228 ba2e1   19ucb1amaf+%2!  20.5% (+-2%)    prior_cfgd=prior_b19=prior=20,fillboard
229 ba2e1   19ucb1amaf+%3   20.8% (+-2%)    prior_cfgd=prior_b19=prior=30
230 ba2e1   19ucb1amaf+%4   25.8% (+-2.2%)  prior_cfgd=prior_b19=prior=40
231 ba2e1   19ucb1amaf+%5   23.2% (+-2.1%)  prior_cfgd=prior_b19=prior=50
232 ba2e1   19ucb1amaf#*+%! 9.8% (+-1.5%)   pattern2=0,atarirate=0,prior_cfgd=prior_b19=6,fillboard
233 ba2e1   19ucb1amaf#*+%2 25% (+-2.2%)    pattern2=0,atarirate=0,prior_cfgd=prior_b19=prior=20
234 ba2e1   19ucb1amaf#+%2  26.5% (+-2.2%)  pattern2=0,prior_cfgd=prior_b19=prior=20
235 ba2e1   19ucb1amaf#+%3  24% (+-2.2%)    pattern2=0,prior_cfgd=prior_b19=prior=30
236 ba2e1   19ucb1amaf#+%4  27% (+-2.2%)    pattern2=0,prior_cfgd=prior_b19=prior=40
237 ba2e1   19ucb1amaf#+%2! 22.5% (+-2.1%)  pattern2=0,prior_cfgd=prior_b19=prior=20,fillboard
238 ba2e1   19ucb1amaf#+%2_ 23.5% (+-2.1%)  pattern2=0,prior_cfgd=prior_b19=prior=20,prior_policy=10
239 ba2e1   19ucb1amaf#+%2a 1% (+-0.7%)     pattern2=0,prior_cfgd=prior_b19=prior=20,playouts=1000
240 ba2e1   19ucb1amaf#+%2b 7.2% (+-1.4%)   pattern2=0,prior_cfgd=prior_b19=prior=20,playouts=2000
242 <pattern2=0, prior_cfgd=prior_b19=-1, etc.>
243 <From now on, 19x19 always has % = prior=20>
245 49208   9ucb1amaf       80% (+-2%)
246 49208   9ucb1amaf&      76.8% (+-2.1%)  selfatarirate=0
247 49208   9ucb1amaf_      76.8% (+-2.1%)  can_capture_group() always true (really same rate)
248 49208   19ucb1amaf%     25.4% (+-2.3%)
249 49208   19ucb1amaf%&    18.8% (+-2%)    selfatarirate=0
250 49208   19ucb1amaf%_    19.5% (+-2%)    can_capture_group() always true (really same rate)
252 d11b1   9ucb1amaf       81.8% (+-1.9%)  
253 d11b1   9ucb1amaf_      81.5% (+-1.9%)  investigate all nakade neis only in case of snapback (945e5)
254 d11b1   9ucb1amaf*      81.2% (+-2%)    atarirate=0
255 d11b1   9ucb1amaf&      78.8% (+-2.1%)  explore_p_rave=0
257 <d11b1_&, explore coefficient outside of RAVE>
259 a0f85   9ucb1amaf       80.2% (+-2%)
260 a0f85   9ucb1amaf*1     80.8% (+-2%)    explore_p=0
261 a0f85   9ucb1amaf*2     81.2% (+-2%)    explore_p=0.01
262 a0f85   9ucb1amaf*3     40.2% (+-2.5%)  explore_p=0.6
264 <UCT value tracking>
266 5524c   9ucb1amaf       84.2% (+-1.8%)
267 5524c   9ucb1amaf^1     70.2% (+-3%)    fuego cfgd
268 5524c   9ucb1amaf^2     77% (+-2.1%)    fuego cfgd, 0.1 for pass
269 5524c   9ucb1amaf^2*    76.5% (+-2.1%)  fuego cfgd, 0.1 for pass, prior_cfgd=4
270 5524c   9ucb1amaf!      81.2% (+-2%)    prior_even is 0.1 for pass
272 2151a   9ucb1amaf       81.5% (+-1.9%)
273 443e1   9ucb1amaf_1     72.5% (+-2.2%)  Priors just like in Fuego
274 6c6cb   9ucb1amaf_2     70.5% (+-2.3%)  Priors just like in Fuego, including equivalent-best-move
277 TODO: playout_amaf with weight 1/2, sibling_amaf with weight 1, 1/2