before trying new pchoose reestimation
[dmvccm.git] / DMVCCM.org_archive
blob5f2b79bd7bba14f4ca8ef21055e5f826732726ef
1 # -*- mode: org -*-
2 # -*- coding: mule-utf-8-unix -*-
4 #+STARTUP: overview
5 #+TAGS: OPTIMIZE PRETTIER
6 #+STARTUP: hidestars
7 #+TITLE: DMV/CCM -- todo-list / progress ARCHIVED ENTRIES
8 #+AUTHOR: Kevin Brubeck Unhammer
9 #+EMAIL: K.BrubeckUnhammer at student uva nl 
10 #+OPTIONS: ^:{} 
11 #+LANGUAGE: en
12 #+SEQ_TODO: TOGROK TODO DONE
15 Archived entries from file /Users/kiwibird/dmvccm/DMVCCM.org
16 * DONE [#A] test and debug my brilliant idea
17   CLOSED: [2008-06-08 Sun 10:28]
18   :PROPERTIES:
19   :ARCHIVE_TIME: 2008-06-08 Sun 12:55
20   :ARCHIVE_FILE: ~/dmvccm/DMVCCM.org
21   :ARCHIVE_OLPATH: Adjacency and combining it with inner()
22   :ARCHIVE_CATEGORY: DMVCCM
23   :ARCHIVE_TODO: DONE
24   :END:
25 * DONE implement my brilliant idea.
26     CLOSED: [2008-06-01 Sun 17:19]
27   :PROPERTIES:
28     :ARCHIVE_TIME: 2008-06-08 Sun 12:55
29     :ARCHIVE_FILE: ~/dmvccm/DMVCCM.org
30     :ARCHIVE_OLPATH: Adjacency and combining it with inner()
31     :ARCHIVE_CATEGORY: DMVCCM
32     :ARCHIVE_TODO: DONE
33   :END:
34 [[file:src/dmv.py::def%20e%20s%20t%20LHS%20Lattach%20Rattach][e(sti) in dmv.py]]
36 * DONE [#A] test inner() on sentences with duplicate words
37   :PROPERTIES:
38   :ARCHIVE_TIME: 2008-06-08 Sun 12:55
39   :ARCHIVE_FILE: ~/dmvccm/DMVCCM.org
40   :ARCHIVE_OLPATH: Adjacency and combining it with inner()
41   :ARCHIVE_CATEGORY: DMVCCM
42   :ARCHIVE_TODO: DONE
43   :END:
44 Works with eg. the sentence "h h h"
45 * DONE [#A] How do we only count from completed trees?
46    CLOSED: [2008-06-13 Fri 11:40]
47   :PROPERTIES:
48    :ARCHIVE_TIME: 2008-06-15 Sun 23:52
49    :ARCHIVE_FILE: ~/dmvccm/DMVCCM.org
50    :ARCHIVE_OLPATH: P_STOP and P_CHOOSE for IO/EM (reestimation)
51    :ARCHIVE_CATEGORY: DMVCCM
52    :ARCHIVE_TODO: DONE
53   :END:
54 Use c(s,t,Node); inner * outer / P_sent
56 * DONE [#A] c(s,t,Node)
57   CLOSED: [2008-06-13 Fri 11:38]
58   :PROPERTIES:
59   :ARCHIVE_TIME: 2008-06-15 Sun 23:52
60   :ARCHIVE_FILE: ~/dmvccm/DMVCCM.org
61   :ARCHIVE_OLPATH: P_STOP and P_CHOOSE for IO/EM (reestimation)
62   :ARCHIVE_CATEGORY: DMVCCM
63   :ARCHIVE_TODO: DONE
64   :END:
65 = inner * outer / P_sent
67 implemented as inner * outer / inner_sent
68 * DONE if loc_h == t, no need to try right-attachment rules &v.v.     :OPTIMIZE:
69    CLOSED: [2008-06-10 Tue 14:34]
70   :PROPERTIES:
71    :ARCHIVE_TIME: 2008-06-15 Sun 23:52
72    :ARCHIVE_FILE: ~/dmvccm/DMVCCM.org
73    :ARCHIVE_OLPATH: Deferred
74    :ARCHIVE_CATEGORY: DMVCCM
75    :ARCHIVE_TODO: DONE
76   :END:
77 (and if loc_h == s, no need to try left-attachment rules.)
79 Modest speed increase (5%).
80 * DONE io.debug parameters should not call functions                  :OPTIMIZE:
81    CLOSED: [2008-06-10 Tue 12:26]
82   :PROPERTIES:
83    :ARCHIVE_TIME: 2008-06-15 Sun 23:52
84    :ARCHIVE_FILE: ~/dmvccm/DMVCCM.org
85    :ARCHIVE_OLPATH: Deferred
86    :ARCHIVE_CATEGORY: DMVCCM
87    :ARCHIVE_TODO: DONE
88   :END:
89 Exchanged all io.debug(str,'level') calls with statements of the form:
90 :if 'level' in io.DEBUG:
91 :    print str
93 and got an almost threefold speed increase on inner().
94 * DONE inner_dmv() should disregard rules with heads not in sent      :OPTIMIZE:
95    CLOSED: [2008-06-08 Sun 10:18]
96   :PROPERTIES:
97    :ARCHIVE_TIME: 2008-06-15 Sun 23:52
98    :ARCHIVE_FILE: ~/dmvccm/DMVCCM.org
99    :ARCHIVE_OLPATH: Deferred
100    :ARCHIVE_CATEGORY: DMVCCM
101    :ARCHIVE_TODO: DONE
102   :END:
103 If the sentence is "nn vbd det nn", we should not even look at rules
104 where
105 : rule.head() not in "nn vbd det nn".split()
106 This is ruled out by getting rules from g.rules(LHS, sent).
108 Also, we optimize this further by saying we don't even recurse into
109 attachment rules where
110 : rule.head() not in sent[ s :r+1]
111 : rule.head() not in sent[r+1:t+1]
112 meaning, if we're looking at the span "vbd det", we only use
113 attachment rules where both daughters are members of ['vbd','det']
114 (although we don't (yet) care about removing rules that rewrite to the
115 same tag if there are no duplicate tags in the span, etc., that would
116 be a lot of trouble for little potential gain).