Update to remove faulty gold parses. Seems Done now :)
[dmvccm.git] / DMVCCM.html~20080525~
blobadf9d5fdaa1682ba78fbb2b924283f4415d2e467
1 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN"
2                "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
3 <html xmlns="http://www.w3.org/1999/xhtml"
4 lang="en" xml:lang="en">
5 <head>
6 <title>DMV/CCM</title>
7 <meta http-equiv="Content-Type" content="text/html;charset=utf-8"/>
8 <meta name="generator" content="Org-mode"/>
9 <meta name="generated" content="2008/05/25 17:44:40"/>
10 <meta name="author" content="Kevin Brubeck Unhammer"/>
11 <link rel="stylesheet" type="text/css" href="org.css">
12 </head><body>
13 <h1 class="title">DMV/CCM</h1>
14 <div id="table-of-contents">
15 <h2>Table of Contents</h2>
16 <ul>
17 <li><a href="#sec-1">1 dmvccm</a>
18 <ul>
19 <li><a href="#sec-2">1.1 [#A] DMV-probabilities   </a></li>
20 <li><a href="#sec-3">1.2 Initialization   </a></li>
21 <li><a href="#sec-4">1.3 Adjacency and combining it with inner()</a></li>
22 <li><a href="#sec-5">1.4 What exactly is the E-step of DMV? Is the M-step just inner on the full sentence?</a></li>
23 <li><a href="#sec-6">1.5 Meet Yoav again about dmvccm</a>
24 <ul>
25 <li><a href="#sec-7">1.5.1 Initialization</a></li>
26 <li><a href="#sec-8">1.5.2 Corpus access?</a></li>
27 <li><a href="#sec-9">1.5.3 How do we interpret DMV as an inside/outside process?</a></li>
28 <li><a href="#sec-10">1.5.4 How do we know whether we are 'adjacent' or not? </a></li>
29 <li><a href="#sec-14">1.5.5 What are the formulas for P<sub>CHOOSE</sub> etc?</a></li>
30 <li><a href="#sec-15">1.5.6 How is the P<sub>STOP</sub> formula different given other values for dir and adj?</a></li>
31 </ul></li>
32 </ul>
33 </li>
34 <li><a href="#sec-16">2 Python-stuff</a></li>
35 </ul>
36 </div>
38 <div class="outline-2">
39 <h2 id="sec-1">1 dmvccm</h2>
41 <p><span class="timestamp-kwd">DEADLINE: </span> <span class="timestamp">2008-06-30 Mon</span><br/>
42 </p>
43 <p>
44 (But absolute, extended, really-quite-dead-now deadline: August 31&hellip;)
45 <a href="src/dmv.py">dmv.py</a>
46 <a href="src/io.py">io.py</a>
47 </p>
48 <div class="outline-3">
49 <h3 id="sec-2">1.1 <span class="todo">TODO</span> [#A] DMV-probabilities   </h3>
51 <p><a href="src/dmv.py">dmv.py</a>
52 </p></div>
54 <div class="outline-3">
55 <h3 id="sec-3">1.2 <span class="todo">TOGROK</span> Initialization   </h3>
57 </div>
59 <div class="outline-3">
60 <h3 id="sec-4">1.3 <span class="todo">TOGROK</span> Adjacency and combining it with inner()</h3>
62 </div>
64 <div class="outline-3">
65 <h3 id="sec-5">1.4 <span class="todo">TOGROK</span> What exactly is the E-step of DMV? Is the M-step just inner on the full sentence?</h3>
69 </div>
71 <div class="outline-3">
72 <h3 id="sec-6">1.5 Meet Yoav again about dmvccm</h3>
74 <p><span class="timestamp-kwd">SCHEDULED: </span> <span class="timestamp">2008-05-26 Mon</span><br/>
75 13:30, P3.21.
76 </p>
77 <p>
78 Questions:
79 </p>
80 <div class="outline-4">
81 <h4 id="sec-7">1.5.1 Initialization</h4>
83 </div>
85 <div class="outline-4">
86 <h4 id="sec-8">1.5.2 Corpus access?</h4>
88 </div>
90 <div class="outline-4">
91 <h4 id="sec-9">1.5.3 How do we interpret DMV as an inside/outside process?</h4>
93 <p>The upside-down P<sub>STOP</sub> formula (left-to-right also)
94 c<sub>s</sub>(x : i, j) is "the expected fraction of parses of s" with x from
95 i to j; expectation then uses the probabilities gotten from
96 initialization and previously gained probabilities, but these are of
97 the form P<sub>STOP</sub> and P<sub>CHOOSE</sub>, how do we translate this to inside
98 outside, which just uses the probabilities of CFG-rules?
99 </p></div>
101 <div class="outline-4">
102 <h4 id="sec-10">1.5.4 How do we know whether we are 'adjacent' or not? </h4>
104 <p>Can we even know that without the full tree?
105 </p>
106 <div class="outline-5">
107 <h5 id="sec-11">1.5.4.1 One configuration that I'm fairly certain of: right w/CHOOSE</h5>
109 <p>if we have 
110 \Tree [<sub>b</sub> [<sub>b</sub> b <u>c</u> ] <u>d</u> ] 
111 then the lower tree [<sub>b</sub> b <u>c</u> ] is adjacent since, working your way up
112 the tree, no argument has been created to the right "yet"; while the
113 outer tree [<sub>b</sub> [<sub>b</sub> &hellip; ] <u>d</u> ] is non-adjacent, since there is something in
114 between&hellip; Is it thus always adjacent to the right if the distance
115 is 2? (That is, in e(s,t,i) for the adjacent rule: t - s == 2; while
116 in the non_adj rule: t - s == 4) 
117 </p><ul>
118 <li>Implementing this:<br/>
119 Two different DMVRules? Or just two different prob-values per rule?
120 </li>
121 </ul>
122 </div>
124 <div class="outline-5">
125 <h5 id="sec-12">1.5.4.2 left w/CHOOSE</h5>
127 <p>Same deal here?
128 </p></div>
130 <div class="outline-5">
131 <h5 id="sec-13">1.5.4.3 R/L without CHOOSE, the "sealing operations"</h5>
133 <p><u>h</u> -&gt; STOP h_ and h_ -&gt; h STOP
134 </p>
136 What is "adjacency" here? That t - s == 1?
137 </p></div>
138 </div>
140 <div class="outline-4">
141 <h4 id="sec-14">1.5.5 What are the formulas for P<sub>CHOOSE</sub> etc?</h4>
143 <p>Is this the same as the regular E-step summation of Lari&amp;Young?
144 (Equation 20)
145 </p></div>
147 <div class="outline-4">
148 <h4 id="sec-15">1.5.6 How is the P<sub>STOP</sub> formula different given other values for dir and adj?</h4>
152 (Presumably, the P<sub>STOP</sub> formula where STOP is True is just the
153 rule-probability of <u>h</u> -&gt; STOP h_ or h_ -&gt; h STOP, but how does
154 adjacency fit in here?)
155 </p>
160 </div>
161 </div>
162 </div>
164 <div class="outline-2">
165 <h2 id="sec-16">2 Python-stuff</h2>
167 <p><a href="src/pseudo.py">pseudo.py</a>
168 </p>
170 <a href="http://nltk.org/doc/en/structured-programming.html">http://nltk.org/doc/en/structured-programming.html</a> recursive dynamic
171 <a href="http://nltk.org/doc/en/advanced-parsing.html">http://nltk.org/doc/en/advanced-parsing.html</a> 
172 </p>
174 </div>
175 <div id="postamble"><p class="author"> Author: Kevin Brubeck Unhammer
176 <a href="mailto:K.BrubeckUnhammer at student uva nl ">&lt;K.BrubeckUnhammer at student uva nl &gt;</a>
177 </p>
178 <p class="date"> Date: 2008/05/25 17:44:40</p>
179 </div><p class="postamble">Skrive vha. emacs + <a href='http://orgmode.org/'>org-mode</a></p></body>
180 </html>