1 Wortliste deutscher Wörter mit gewichteten Trennungen.
6 Das Zeichen „#“ leitet eine Kommentar ein.
8 Jede Zeile enthält einen Eintrag mit durch Semikolon „;“ getrennten Feldern.
13 Neben dem hier beschriebenem „Langformat“ gibt es das 2017
14 entwickelte „Kurzformat“, das in ../skripte/python/edit_tools/wortliste.py
18 2 Wort mit Trennungen, falls für alle Varianten identisch,
20 3 Falls Feld 2 leer, Trennung nach traditioneller Rechtschreibung.
21 4 Falls Feld 2 leer, Trennung nach reformierter Rechtschreibung (2006).
22 5 Falls Feld 2 leer, Trennung für Wortform, die in der Schweiz oder mit
23 Großbuchstaben oder Kapitälchen benutzt wird und für traditionelle und
24 reformierte Rechtschreibung identisch ist.
25 6 Falls Feld 5 leer, Trennung für Wortform, die in der Schweiz oder mit
26 Großbuchstaben oder Kapitälchen benutzt wird, traditionelle
28 7 Falls Feld 5 leer, Trennung für Wortform, die in der Schweiz oder mit
29 Großbuchstaben oder Kapitälchen benutzt wird, reformierte
30 Rechtschreibung (2006).
31 8 Falls Feld 5 leer und nicht identisch mit Feld 6, Trennung nach
32 (deutsch)schweizerischer, traditioneller Rechtschreibung; insbesondere
33 Wörter mit „sss“ gefolgt von einem Vokal, die wie andere
34 Dreifachkonsonanten gehandhabt wurden (also anders, als der Duden früher
35 vorgeschrieben hat), z.B. „süssauer“.
37 Leere Felder sind mit „-x-“ markiert („x“ ist die Feldnummer). Das
38 bedeutet, die Schreibweise existiert in der entsprechenden Rechtschreibung
42 Zur Vereinfachung wird bei Wörtern mit ß auf die „Auskreuzung“ von Feld 5
43 verzichtet. Ein Eintrag mit weniger als 5 Feldern bedeutet also nicht
44 automatisch, daß das entsprechende Wort in der Schweiz oder in
45 Versalschreibung existiert.
47 Felder 3 und 4 als auch Felder 6 und 7 treten immer simultan auf, um die
48 Lesbarkeit zu erhöhen.
50 Feld 8 wird nur angegeben, wenn die Schreibweise nach
51 (deutsch)schweizerischer, traditioneller Rechtschreibung sich von der
52 traditionellen Versalschreibung nach Duden unterscheidet.
54 Zur Erstellung von Trennmustern für die traditionelle Rechtschreibung
55 benötigt man Felder 2, 3, 5 und 6; für die reformierte Rechtschreibung die
56 Felder 2, 4, 5 und 7, und für die traditionelle (deutsch)schweizerische die
57 Felder 2, 3, 5, 6 und 8. Felder mit höherer Feldnummer haben Priorität.
63 Die Sortierung erfolgt nach Dudensortierung. Die genauen Regeln sind in
64 der Datei „skripte/sort.py“ beschrieben, welche auch zur maschinellen
65 Sortierung der Liste verwendet werden kann.
68 Kennzeichnung der Trennstellen
69 ==============================
71 Hinweis: Die Charakterisierung und Wichtung der Trennstellen ist nicht
78 Trennstellen an der Grenze sinnbildender Einheiten (Morpheme) werden
79 speziell gekennzeichnet:
81 = an Wortfugen (zwischen Grundmorphemen): Wort=fu-ge
82 < nach Präfix oder Verbalpartikel: Vor<sil-be, auf<zäh-len
83 > vor Suffix: Gleich>heit, Freund>schaf-ten
84 - innerhalb eines Morphems: ge-hen
86 Morphemgrenzen, an denen keine Trennung erfolgt, werden nicht
87 gekennzeichnet. Das betrifft einsilbige Präfixe und viele Suffixe. (Im
88 Gegensatz zu Präfixen werden im Deutschen Wörter mit Suffix nicht nach
89 Etymologie, sondern nach der „Sprechsilbenregel“ getrennt.)
92 An<ord-nung An + ordn + ung
96 * Die Trennung an sinnbildenden Einheiten fördert den Lesefluss und ist
99 * Die Markierung von Morphemgrenzen hilft bei der regelbasierten
100 Entscheidung über den Aufbruch typographischer Ligaturen und die
101 Schreibung des S-Lautes in Frakturschrift (Rund-S „s“ vs. Lang-S „ſ“).
105 * Die Unterscheidung, ob ein Wortbestandteil ein Präfix, Suffix oder ein
106 Grundmorphem ist, ist oft nicht eindeutig:
108 em-por<ar-bei-ten oder em-por=ar-bei-ten
110 Grundidee ist, daß „=“ Teile trennt, die als eigenständige Wörter
113 * Schwierig ist die Markierung von „historischen“ Präfixen, die im heutigen
114 Sprachverständnis nicht als eigenständig wahrgenommen werden:
116 en<er-gisch, En<er-gie # vgl. Syn<er-gie
120 Ant-wort, In-du-strie # trotz in<du-zie-ren
122 Kriterien sind neben dem Sprachgefühl des Bearbeiters die „Güte“ der
123 Trennstelle (geringe Störung des Leseflusses bei Zeilenumbruch an dieser
124 Stelle), die Lang-s-Schreibung (Schluss-s auch bei s-s, s-t, oder s-p) und
125 der Aufbruch von Ligaturen an dieser Stelle.
127 Immer markiert wird die Morphemgrenze, wenn dort abweichend von der
128 „Sprechsilbenregel“ getrennt werden kann, z.B.
130 In<sti-tut # de-1996: In<s-ti-tut
132 Trennstellen nach § 112 der amtlichen Regeln sind keine Morphemgrenzen:
134 Ma-gnet, Zy-klus, Fe-bruar
136 Bindungsstärke und Wichtung
137 ---------------------------
139 Die „Bindungsstärke“ gibt die Zusammengehörigkeit von Wortteilen an.
140 Für die oben eingeführten Kategorien gilt
142 - Sprechsilben starke Bindung
144 < Präfixgrenze mittlere Bindung
145 > Suffixgrenze mittlere Bindung
147 = Wortfugen schwache Bindung
151 Aus<wahl=lis-te (Aus + wahl) + (lis-te)
152 fern=ab<ge<le-gen fern + (ab + (ge + (le-gen)))
153 Abend=lüft>chen Abend + (lüft + chen)
155 Präfixe sind „rechtsbindend“:¹
157 un<voll<stän-dig un + (voll + ständig)
158 un<aus<ge<go-ren un + (aus + (ge + (go-ren)))
160 ¹ Ausnahme: Ein eingeschobenes „zu“ oder „ge“ übernimmt die Markierung
161 der Einschubstelle auf beiden Seiten:
163 nach<zu<wei-sen (nach + weisen) + zu
165 Suffixe sind „linksbindend“:
167 Acht>lo-sig>keit (Acht + lo-sig) + keit
170 Bei mehrteiligen Komposita kann die Bindungshierarchie durch Doppelung
171 des Trennzeichens genauer beschrieben werden:
173 Alp=horn==trio (Alp + horn) + trio
174 Berg===fünf=fin-ger==kraut Berg + ((fünf + (fin-ger)) + kraut)
176 Trennstellen gleicher Kategorie ohne Doppelung bezeichnen entweder
177 gleichwertige Wortbestandteile, Zerlegungsalternativen, eingeschobene Teile
178 oder sind (noch) nicht gewichtet:
180 Abend=brot=zeit Abendbrot-Zeit / Abend-Brotzeit
181 stand=zu=hal-ten stand+zu+halten (eingeschobenes zu)
183 Die gemischten Trennzeichen „<=“ und „=>“ kennzeichnen die
184 Bindungsverhältnisse, wenn sich ein Affix auf mehrere Teile eines
187 un<=wahr=schein-lich un + (wahr + scheinlich)
188 Be<=gut=ach-tungs==frist (Be + (gut + achtungs)) + frist
190 an-dert=halb=>fach (andert + halb) + fach
191 zwei==ein=halb==>fa-che (zwei + (ein + halb)) + fache
192 Vor<her=sag=>bar>keit (((Vor + her) + sag) + bar) + keit
194 Die Bindungsstärke nimmt dabei mit der Länge des Trennzeichens ab:
196 Bindungsstärke Zeichen
197 -------------- -------------
202 schwach ===, <==, ==>
205 Im Allgemeinen ist die Bindungsstärke umgekehrt proportional zur „Güte“
206 (oder dem „Gewicht“) einer Trennstelle:¹
208 Bindungsstärke Güte/Gewicht Beispiel
209 -------------- ----------------- -----------
210 schwach Vorzugstrennungen Auswahl-
216 stark weniger gut Auswahllis-
219 ¹ In eine genauere „Gütebestimmung“ geht auch der Abstand zu anderen
220 Trennstellen und die Position im Wort ein.
222 Ebenso wie die Kategorisierung ist die Markierung der Bindungsstärke
226 ungünstige Trennungen
227 ---------------------
229 Ungünstige (irreführende oder sinnentstellende) Trennstellen sind mit einem
230 Punkt markiert. Der Punkt folgt auf Trennzeichen zur Kategorisierung.
232 An<den-.ken, Ost=en-.de
234 Besonders ungünstige Trennstellen können mit mehreren Punkten gekennzeichnet
237 . ungünstig: An<den-.ken, Ost=en-.de, Re<im<.port
238 .. sehr ungünstig: Ge<winn=er<..war-tung
239 ... äußerst ungünstig: An<=al-...pha=bet
241 Auch die Markierung ungünstiger Trennstellen ist weder eindeutig noch
242 vollständig. Bei der Generation der Trennmustern für TeX werden alle als
243 ungünstig markierten Trennstellen als nicht vorhanden gewertet.
249 Folgende Notation wird verwendet, um spezielle Trennungen (für die
250 traditionelle Rechtschreibung) zu kennzeichnen:
252 {„ungetrennt“/„getrennt“}
254 Dreikonsonantenregel:
262 Um z.B. eine Wortliste für TeX zu konstruieren (traditionelle
263 Rechtschreibung), das solche speziellen Trennungen nicht benutzen kann, ist
264 folgender regulärer Ausdruck in „perl“ anzuwenden, um sie zu entfernen:
266 s|\{ (.*?) / .*? \}|$1|gx
269 doppeldeutige Trennungen
270 ------------------------
272 Doppeldeutige Trennstellen werden folgendermaßen deklariert:
274 [„Variante A“/„Variante B“]
278 er[<b/b=]recht Erb=recht / er<brecht
279 Kin[-der=/d=er<.]satz Kin-der=satz / Kind=er<.satz
281 Für TeX-Trennmuster ist es vielleicht am besten, solche Einträge zu
282 entfernen und die häufigeren Fälle in einem \hyphenation-Block zu behandeln.
283 Hier ein passender regulärer Ausdruck für „perl“:
285 s|\[ (.*?) / .*? \]|$1|gx
287 Sowohl in „[…/…]“ als auch in „{…/…}“ können alle Arten von Trennstellen