Beschreibung der Trennzeichen
[wortliste.git] / dokumente / README.wortliste
bloba84a712a537f23ba14941be59e245f32db484f66
1 Wortliste deutscher Wörter mit gewichteten Trennungen
4 Bedeutung der Felder
5 ====================
7   1 Wort ungetrennt
8   2 Wort mit Trennungen, falls für alle Varianten identisch,
9     anderenfalls leer
10   3 falls Feld 2 leer, Trennung nach traditioneller Rechtschreibung
11   4 falls Feld 2 leer, Trennung nach reformierter Rechtschreibung (2006)
12   5 falls Feld 2 leer, Trennung für Wortform, die entweder in
13     der Schweiz oder mit Großbuchstaben oder Kapitälchen benutzt wird
14     und für traditionelle und reformierte Rechtschreibung identisch ist
15   6 falls Feld 5 leer, Trennung für Wortform, die entweder in
16     der Schweiz oder mit Großbuchstaben oder Kapitälchen benutzt wird,
17     traditionelle Rechtschreibung
18   7 falls Feld 5 leer, Trennung für Wortform, die entweder in
19     der Schweiz oder mit Großbuchstaben oder Kapitälchen benutzt wird,
20     reformierte Rechtschreibung (2006)
21   8 falls Feld 5 leer und nicht identisch mit Feld 6, Trennung nach
22     (deutsch)schweizerischer, traditioneller Rechtschreibung; insbesondere
23     Wörter mit `sss' gefolgt von einem Vokal, die wie andere
24     Dreifachkonsonanten gehandhabt wurden (also anders, als der Duden früher
25     vorgeschrieben hat), z.B. `süssauer'
27 Leere Felder sind mit `-x-' markiert (`x' ist die Feldnummer); Felder 3
28 und 4 als auch Felder 6, 7 und 8 treten immer simultan auf, um die
29 Lesbarkeit zu erhöhen.
31 Zur Erstellung von Trennmustern für die traditionelle Rechtschreibung
32 benötigt man Felder 2, 3, 5, und 6; für die reformierte Rechtschreibung
33 die Felder 2, 4, 5 und 7, und für die traditionelle
34 (deutsch)schweizerische die Felder 2, 3, 5, 6 und 8.  Felder mit höherer
35 Feldnummer haben Priorität.
38 Sortierung
39 ==========
41 Die Sortierung erfolgt nach Dudensortierung.  Die genauen Regeln sind in der
42 Datei `skripte/sort.py' beschrieben, welche auch zur maschinellen Sortierung
43 der Liste verwendet werden kann.
46 Kennzeichnung der Trennstellen
47 ==============================
49 Die Charakterisierung und Wichtung der Trennstellen ist nicht vollständig.
51 Kategorisierung
52 ---------------
54 Trennstellen an der Grenze sinnbildender Einheiten (Morpheme) werden
55 speziell gekennzeichnet:
57   =  an Wortfugen (zwischen Grundmorphemen): Wort=fu-ge
58   <  nach Präfix oder Verbalpartikel: Vor<sil-be, auf<zäh-len
59   >  vor Wortbildungssuffix: Gleich>heit, Freund>schaf-ten
61   -  innerhalb eines Morphems: ge-hen
62   ·  nicht kategorisiert: acker·bau·trei·ben·de
64 Motivation:
66 * Die Trennung an sinnbildenden Einheiten fördert den Lesefluss und ist
67   daher zu bevorzugen
69 * Die Markierung von Morphemgrenzen hilft bei der regelbasierten
70   Entscheidung über den Aufbruch typographischer Ligaturen und die
71   Schreibung des S-Lautes in Frakturschrift (Rund-S `s' vs. Lang-S `ſ').
73 Anmerkungen:
75 * Die Kategorisierung der Trennstellen ist nicht abgeschlossen.
76   Zur Zeit sind einige Trennstellen nach Präfix oder Verbalpartikel und
77   viele Trennstellen vor Suffixen noch mit `-' bezeichnet.
79 * Die Unterscheidung, ob ein Wortbestandteil ein Präfix, Suffix oder ein
80   Grundmorphem ist, ist oft nicht eindeutig:
82     em-por<ar-bei-ten oder em-por=ar-bei-ten
84 * Viele `etymologische' Präfixe, die im heutigen Sprachverständnis nicht
85   mehr als Präfixe wahrgenommen werden, sind nicht speziell markiert:
87     En-er-gie, Ant-wort
89   Kriterien sind neben der `Güte' der Trennstelle (Nicht-Störung des
90   Leseflusses bei Zeilenumbruch an dieser Stelle) die Lang-s-Schreibung
91   (Schluss-s auch bei s-s, s-t, oder s-p) und der Aufbruch von Ligaturen
92   an dieser Stelle.
94 * Morphemgrenzen an denen keine Trennung erfolgt werden nicht gekennzeichnet.
96   Im Gegensatz zu Präfixen, werden im Deutschen Wörter mit Suffix nicht nach
97   Ethymologie, sondern nach der `Sprechsilbenregel' getrennt:
99     An>ord-nung          An + ordn + ung
102 Wichtung
103 --------
105 Für die Bindungsstärke B von Trennstellen verschiedener Kategorien gilt
107   B(`-') > B(`<') = B(`>') > B(`=')
109 das heißt:
111   Aus<wahl=lis-te        (Aus + wahl) + (lis-te)
112   fern=ab<ge<le-gen      fern + (ab + (ge + (le-gen)))
113   Abend=lüft>chen        Abend + (lüft + chen)
115 Präfixe sind `rechtsbindend':
117   un<voll<stän-dig       un + (voll + ständig)
118   un<aus<ge<go-ren       un + (aus + (ge + (go-ren)))
120 Suffixe sind `linksbindend':
122   Acht>lo-sig>keit     (Acht + losig) + keit
124 Die unterschiedliche Bindungsstärke von Trennungen der Kategorie
125 `-' und `=' kann durch Doppellung des Trennzeichens markiert werden:
127   Alp=horn==trio              (Alp + horn) + trio
128   Berg===fünf=fin-ger==kraut  Berg + ((fünf + (fin-ger)) + kraut)
130 Verschiedene Trennstellen dieser Kategorien ohne Doppelung bezeichnen
131 entweder gleichwertige Wortbestandteile, Zerlegungsalternativen oder sind
132 (noch) nicht gewichtet:
134   Abend=brot=zeit        (Abend + brot) + zeit oder Abend + (brot + zeit)
136 Das gemischte Trennzeichen `<=' kennzeichnet die Bindungverhältnisse,
137 wenn sich ein echter Präfix auf das gesamte folgende Kompositum bezieht:
139   un<=wahr=schein-lich  un + (wahr + scheinlich)
141 Das gemischte Trennzeichen `>=' kennzeichnet die Bindungsverhältnisse, wenn
142 sich ein Suffix auf das gesamte vorhergehende Kompositum bezieht
144   an-dert=halb>=fach     ((an+dert) + halb) + fach
146 Das erste Zeichen eines gemischten Trennzeichens kennzeichnet die
147 Kategorie der Trennstelle.
149 Ebenso wie die Charakterisierung ist die Markierung der Bindungstärke
150 unvollständig.
153 Ungünstige Trennungen
154 ---------------------
156 Ungünstige (irreführende oder sinnentstellende) Trennstellen sind mit einem
157 Punkt markiert.  Der Punkt ersetzt das Trennzeichen für nicht kategorisierte
158 Trennstellen oder folgt auf Trennzeichen zur Kategorisierung:
160   An·den.ken, Ost=en-.de
162 Besonders ungünstige Trennstellen können mit mehreren Punkten
163 gekennzeichnet sein.
165   .    ungünstig: An·den.ken, Ost=en.de, Re<im<.port
166   ..   sehr ungünstig: Ge·winn·er..war·tung
167   ...  äußerst ungünstig: An<al-...pha-bet
169 Auch die Markierung ungünstiger Trennstellen ist weder eindeutig noch
170 vollständig.  Bei der Generation der Trennmustern für TeX werden alle als
171 ungünstige markierten Trennstellen als nicht vorhanden gewertet.
174 Spezielle Trennungen
175 --------------------
177 Folgende Notation wird verwendet, um spezielle Trennungen (für die
178 traditionelle Rechtschreibung) zu kennzeichnen:
180   {«ungetrennt»/«getrennt»}
182 Dreikonsonantenregel:
184   Ab-fa{ll/ll-l}a-ger
186 Trennung von `ck':
188   Dru{ck/k·k}er
190 Um z.B. eine Wortliste für TeX zu konstruieren (traditionelle
191 Rechtschreibung), das solche speziellen Trennungen nicht benutzen kann,
192 ist folgender regulärer Ausdruck in `perl' anzuwenden:
194   s| { ( [^/]* ) / [^}]* } | \1 |gx
197 Doppeldeutige Trennstellen werden folgendermaßen deklariert:
199   [«Variante A»/«Variante B»]
201 z.B.
203   er[b-/-b]recht
205 Für TeX-Trennmuster ist es vielleicht am besten, solche Einträge zu
206 entfernen und die häufigeren Fälle in einem \hyphenation-Block zu
207 behandeln.
209 Sowohl in `[…/…]' als auch in `{…/…}' können alle Arten von
210 gewichteten und ungewichteten Trennstellen auftreten.