sthg wrong with P_STOP
[dmvccm.git] / DMVCCM.org
blobc060a9777bf24662e1aadd1e9fd3d47960326d03
1 # -*- coding: mule-utf-8-unix -*-
3 #+STARTUP: overview
4 #+TAGS: OPTIMIZE PRETTIER
5 #+STARTUP: hidestars
6 #+TITLE: DMV/CCM -- todo-list / progress
7 #+AUTHOR: Kevin Brubeck Unhammer
8 #+EMAIL: K.BrubeckUnhammer at student uva nl 
9 #+OPTIONS: H:4 toc:3 ^:{} 
10 #+LANGUAGE: en
11 #+SEQ_TODO: TOGROK TODO DONE
13 * dmvccm report and project
14   DEADLINE: <2008-06-30 Mon>
15 But absolute, extended, really-quite-dead-now deadline: August
16 31... 
17 - [[file:src/dmv.py][dmv.py]]
18 - [[file:src/io.py][io.py]]
19 - [[file:src/harmonic.py::harmonic%20py%20initialization%20for%20dmv][harmonic.py]]
20 * TODO Adjacency and combining it with inner()
21 Each DMV_Rule now has both a probN and a probA, for
22 adjacencies. inner() needs the correct one in each case.
24 Adjacency gives a problem with duplicate words/tags, eg. in the
25 sentence "a a b". If this has the dependency structure b->a_{0}->a_{1},
26 then b is non-adjacent to a_{0} and should use probN (for the LRStop and
27 the attachment of a_{0}), while the other rules should all use
28 probA. But within the e(0,2,b) we can't just say "oh, a has index 0
29 so it's not adjacent to 2", since there's also an a at index 1, and
30 there's also a dependency structure b->a_{1}->a_{0} for that. We want
31 both. And in possibly much more complex versions.
33 Ideas:
34 - I first thought of decorating the individual words/tags in a
35   sentence with their indices, and perhaps just duplicating the
36   relevant rules (one for each index of the duplicate tags). But this
37   gives an explosion in attachment rules (although a contained
38   explosion, within the rules used in a sentence; but most sentences
39   will have at least two NN's so it will be a problem).
40 - Then, I had a /brilliant/ idea. Just let e(), the helper function of
41   inner(), parametrize for an extra pair of boolean values for whether
42   or not we've attached anything to the left or right yet ("yet"
43   meaning "below"). So now, e() has a chart of the form [s, t, LHS,
44   Lattach, Rattach], and of course e(s,t,LHS) is the sum of the four
45   possible values for (Lattach,Rattach). This makes e() lots more
46   complex and DMV-specific though, so it's been rewritten in
47   inner_dmv() in dmv.py.
48 ** TODO document this adjacency stuff better
49 ** TODO test and debug my brilliant idea
50 ** DONE implement my brilliant idea.
51     CLOSED: [2008-06-01 Sun 17:19]
52 [[file:src/dmv.py::def%20e%20s%20t%20LHS%20Lattach%20Rattach][e(sti) in dmv.py]]
54 ** DONE [#A] test inner() on sentences with duplicate words
55 Works with eg. the sentence "h h h"
58 * TODO [#A] P_STOP for IO/EM
59 [[file:src/dmv.py::DMV%20probabilities][dmv-P_STOP]]
60 Remember: The P_{STOP} formula is upside-down (left-to-right also).
61 (In the article..not the thesis)
63 Remember: Initialization makes some "short-cut" rules, these will also
64 have to be updated along with the other P_{STOP} updates:
65 - b[(NOBAR, n_{h}), 'h'] = 1.0       # always
66 - b[(RBAR, n_{h}), 'h'] = h_.probA  # h_ is RBAR stop rule
67 - b[(LRBAR, n_{h}), 'h'] = h_.probA * _ h_.probA
69 ** How is the P_STOP formula different given other values for dir and adj?
70 Assuming this:
71 - P_{STOP}(STOP|h,L,non_adj) = \sum_{corpus} \sum_{s<loc(h)} \sum_{t}
72   inner(s,t,(LRBAR,h)...) / \sum_{corpus} \sum_{s<loc(h)} \sum_{t} inner(s,t,(RBAR,h)...)
73 - P_{STOP}(STOP|h,L,adj) = \sum_{corpus} \sum_{s=loc(h)} \sum_{t}
74   inner(s,t,(LRBAR,h)...) / \sum_{corpus} \sum_{s=loc(h)} \sum_{t} inner(s,t,(RBAR,h)...)
75 - P_{STOP}(STOP|h,R,non_adj) = \sum_{corpus} \sum_{s} \sum_{t>loc(h)}
76   inner(s,t,(LRBAR,h)...) / \sum_{corpus} \sum_{s} \sum_{t>loc(h)} inner(s,t,(RBAR,h)...)
77 - P_{STOP}(STOP|h,R,adj) = \sum_{corpus} \sum_{s} \sum_{t=loc(h)}
78   inner(s,t,(LRBAR,h)...) / \sum_{corpus} \sum_{s} \sum_{t=loc(h)} inner(s,t,(RBAR,h)...)
82 (And P_{STOP}(-STOP|...) = 1 - P_{STOP}(STOP|...) )
83 * TODO P_CHOOSE for IO/EM
84 Write the formulas! should be easy?
85 * Initialization   
86 [[file:~/Documents/Skole/V08/Probability/dmvccm/src/dmv.py::Initialization%20todo][dmv-inits]]
88 We do have to go through the corpus, since the probabilities are based
89 on how far away in the sentence arguments are from their heads.
90 ** TODO Separate initialization to another file?                      :PRETTIER:
91 (It's rather messy.)
92 ** TOGROK CCM Initialization    
93 P_{SPLIT} used here... how, again?
94 ** DONE DMV Initialization probabilities
95 (from initialization frequency)
96 ** DONE DMV Initialization frequencies    
97    CLOSED: [2008-05-27 Tue 20:04]
98 *** P_STOP    
99 P_{STOP} is not well defined by K&M. One possible interpretation given
100 the sentence [det nn vb nn] is
101 : f_{STOP}( STOP|det, L, adj) +1
102 : f_{STOP}(-STOP|det, L, adj) +0  
103 : f_{STOP}( STOP|det, L, non_adj) +1
104 : f_{STOP}(-STOP|det, L, non_adj) +0
105 : f_{STOP}( STOP|det, R, adj) +0
106 : f_{STOP}(-STOP|det, R, adj) +1
108 : f_{STOP}( STOP|nn, L, adj) +0
109 : f_{STOP}(-STOP|nn, L, adj) +1
110 : f_{STOP}( STOP|nn, L, non_adj) +1  # since there's at least one to the left
111 : f_{STOP}(-STOP|nn, L, non_adj) +0
112 **** TODO tweak
113 # <<pstoptweak>>
114 :            f[head,  'STOP', 'LN'] += (i_h <= 1)     # first two words
115 :            f[head, '-STOP', 'LN'] += (not i_h <= 1)     
116 :            f[head,  'STOP', 'LA'] += (i_h == 0)     # very first word
117 :            f[head, '-STOP', 'LA'] += (not i_h == 0)     
118 :            f[head,  'STOP', 'RN'] += (i_h >= n - 2) # last two words
119 :            f[head, '-STOP', 'RN'] += (not i_h >= n - 2) 
120 :            f[head,  'STOP', 'RA'] += (i_h == n - 1) # very last word
121 :            f[head, '-STOP', 'RA'] += (not i_h == n - 1) 
123 :            # this one requires some additional rewriting since it
124 :            # introduces divisions by zero
125 :            f[head,  'STOP', 'LN'] += (i_h == 1)     # second word
126 :            f[head, '-STOP', 'LN'] += (not i_h <= 1) # not first two
127 :            f[head,  'STOP', 'LA'] += (i_h == 0)     # first word
128 :            f[head, '-STOP', 'LA'] += (not i_h == 0) # not first
129 :            f[head,  'STOP', 'RN'] += (i_h == n - 2)     # second-to-last
130 :            f[head, '-STOP', 'RN'] += (not i_h >= n - 2) # not last two
131 :            f[head,  'STOP', 'RA'] += (i_h == n - 1)     # last word
132 :            f[head, '-STOP', 'RA'] += (not i_h == n - 1) # not last
134 :            f[head,  'STOP', 'LN'] += (i_h == 1)     # second word
135 :            f[head, '-STOP', 'LN'] += (not i_h == 1) # not second
136 :            f[head,  'STOP', 'LA'] += (i_h == 0)     # first word
137 :            f[head, '-STOP', 'LA'] += (not i_h == 0) # not first
138 :            f[head,  'STOP', 'RN'] += (i_h == n - 2)     # second-to-last
139 :            f[head, '-STOP', 'RN'] += (not i_h == n - 2) # not second-to-last
140 :            f[head,  'STOP', 'RA'] += (i_h == n - 1)     # last word
141 :            f[head, '-STOP', 'RA'] += (not i_h == n - 1) # not last
142 vs 
143 "all words take the same number of arguments" interpreted as
144 :for all heads:
145 :    p_STOP(head, 'STOP', 'LN') = 0.3
146 :    p_STOP(head, 'STOP', 'LA') = 0.5
147 :    p_STOP(head, 'STOP', 'RN') = 0.4
148 :    p_STOP(head, 'STOP', 'RA') = 0.7
149 (which we easily may tweak in init_zeros())
150 *** P_CHOOSE
151 Go through the corpus, counting distances between heads and
152 arguments. In [det nn vb nn], we give 
153 - f_{CHOOSE}(nn|det, R) +1/1 + C
154 - f_{CHOOSE}(vb|det, R) +1/2 + C
155 - f_{CHOOSE}(nn|det, R) +1/3 + C
156   - If this were the full corpus, P_{CHOOSE}(nn|det, R) would have
157     (1+1/3+2C) / sum_a f_{CHOOSE}(a|det, R)
159 The ROOT gets "each argument with equal probability", so in a sentence
160 of three words, 1/3 for each (in [nn vb nn], 'nn' gets 2/3). Basically
161 just a frequency count of the corpus...
162 * [#C] Deferred
163 ** TODO inner_dmv() should disregard rules with heads not in sent     :OPTIMIZE:
164 If the sentence is "nn vbd det nn", we should not even look at rules
165 where
166 : rule.head() not in "nn vbd det nn".split()
167 This is ruled out by getting rules from g.rules(LHS, sent).
169 Also, we optimize this further by saying we don't even recurse into
170 attachment rules where
171 : rule.head() not in sent[ s :r+1]
172 : rule.head() not in sent[r+1:t+1]
173 meaning, if we're looking at the span "vbd det", we only use
174 attachment rules where both daughters are members of ['vbd','det']
175 (although we don't (yet) care about removing rules that rewrite to the
176 same tag if there are no duplicate tags in the span, etc., that would
177 be a lot of trouble for little potential gain).
178 ** TODO when reestimating P_STOP etc, remove rules with p < epsilon   :OPTIMIZE:
179 ** TODO inner_dmv, short ranges and impossible attachment             :OPTIMIZE:
180 If s-t <= 2, there can be only one attachment below, so don't recurse
181 with both Lattach=True and Rattach=True.
183 If s-t <= 1, there can be no attachment below, so only recurse with
184 Lattach=False, Rattach=False.
186 Put this in the loop under rewrite rules (could also do it in the STOP
187 section, but that would only have an effect on very short sentences).
188 ** TODO clean up the module files                                     :PRETTIER:
189 Is there better way to divide dmv and harmonic? There's a two-way
190 dependency between the modules. Guess there could be a third file that
191 imports both the initialization and the actual EM stuff, while a file
192 containing constants and classes could be imported by all others:
193 : dmv.py imports dmv_EM.py imports dmv_classes.py
194 : dmv.py imports dmv_inits.py imports dmv_classes.py
196 ** TOGROK Some (tagged) sentences are bound to come twice             :OPTIMIZE:
197 Eg, first sort and count, so that the corpus
198 [['nn','vbd','det','nn'],
199  ['vbd','nn','det','nn'],
200  ['nn','vbd','det','nn']]
201 becomes
202 [(['nn','vbd','det','nn'],2),
203  (['vbd','nn','det','nn'],1)]
204 and then in each loop through sentences, make sure we handle the
205 frequency correctly.
206           
207 Is there much to gain here?
209 ** TOGROK tags as numbers or tags as strings?                         :OPTIMIZE:
210 Need to clean up the representation.
212 Stick with tag-strings in initialization then switch to numbers for
213 IO-algorithm perhaps? Can probably afford more string-matching in
214 initialization..
215 * Expectation Maximation in IO/DMV-terms
216 inner(s,t,LHS) calculates the expected number of trees headed by LHS
217 from s to t (sentence positions). This uses the P_STOP and P_CHOOSE
218 values, which have been conveniently distributed into CNF rules as
219 probN and probA (non-adjacent and adjacent probabilites).
221 When re-estimating, we use the expected values from inner() to get new
222 values for P_STOP and P_CHOOSE. When we've re-estimated for the entire
223 corpus, we distribute P_STOP and P_CHOOSE into the CNF rules again, so
224 that in the next round we use new probN and probA to find
225 inner-probabilites.
227 The distribution of P_STOP and P_CHOOSE into CNF rules also happens in
228 init_normalize() (here along with the creation of P_STOP and
229 P_CHOOSE); P_STOP is used to create CNF rules where one branch of the
230 rule is STOP, P_CHOOSE is used to create rules of the form 
231 : h  -> h  _a_
232 : h_ -> h_ _a_
234 Since "adjacency" is not captured in regular CNF rules, we need two
235 probabilites for each rule, and inner() has to know when to use which.
237 ** TODO Corpus access
238 ** TOGROK sentences or rules as the "outer loop"?                     :OPTIMIZE:
239 In regard to the E/M-step, finding P_{STOP}, P_{CHOOSE}.
242 * Python-stuff
243 - [[file:src/pseudo.py][pseudo.py]]
244 - http://nltk.org/doc/en/structured-programming.html recursive dynamic
245 - http://nltk.org/doc/en/advanced-parsing.html 
246 - http://jaynes.colorado.edu/PythonIdioms.html
250 * Git
251 Setting up a new project:
252 : git init
253 : git add .
254 : git commit -m "first release"
256 Later on: (=-a= does =git rm= and =git add= automatically)
257 : git init
258 : git commit -a -m "some subsequent release"
260 Then push stuff up to the remote server:
261 : git push git+ssh://username@repo.or.cz/srv/git/dmvccm.git master
263 (=eval `ssh-agent`= and =ssh-add= to avoid having to type in keyphrase all
264 the time)
266 Make a copy of the (remote) master branch:
267 : git clone git://repo.or.cz/dmvccm.git 
269 Make and name a new branch in this folder
270 : git checkout -b mybranch
272 To save changes in =mybranch=:
273 : git commit -a 
275 Go back to the master branch (uncommitted changes from =mybranch= are
276 carried over):
277 : git checkout master
279 Try out:
280 : git add --interactive
282 Good tutorial:
283 http://www-cs-students.stanford.edu/~blynn//gitmagic/