1 Wortliste deutscher Wörter mit gewichteten Trennungen.
6 Das Zeichen „#“ leitet eine Kommentar ein.
8 Jede Zeile enthält einen Eintrag mit durch Semikolon „;“ getrennten Feldern.
14 Neben dem hier beschriebenem „Langformat“ gibt es das 2017
15 entwickelte „Kurzformat“, das in ../skripte/python/edit_tools/wortliste.py
19 ---------- -------------------------------------------------------------
21 2 Wort mit Trennungen, falls für alle Varianten identisch,
23 3 Falls Feld 2 leer, Trennung nach traditioneller
25 4 Falls Feld 2 leer, Trennung nach reformierter Rechtschreibung
27 5 Falls Feld 2 leer, Trennung für Wortform, die in der Schweiz
28 oder mit Großbuchstaben oder Kapitälchen benutzt wird und für
29 traditionelle und reformierte Rechtschreibung identisch ist.
30 6 Falls Feld 5 leer, Trennung für Wortform, die in der Schweiz
31 oder mit Großbuchstaben oder Kapitälchen benutzt wird,
32 traditionelle Rechtschreibung.
33 7 Falls Feld 5 leer, Trennung für Wortform, die in der Schweiz
34 oder mit Großbuchstaben oder Kapitälchen benutzt wird,
35 reformierte Rechtschreibung (2006).
36 8 Falls Feld 5 leer und nicht identisch mit Feld 6, Trennung
37 nach (deutsch)schweizerischer, traditioneller Rechtschreibung
38 mit Trennung von „ss“, auch wenn es für „ß“ steht.
40 Leere Felder sind mit „-x-“ markiert („x“ ist die Feldnummer). Das
41 bedeutet, die Schreibweise existiert in der entsprechenden Rechtschreibung
45 Zur Vereinfachung wird bei Wörtern mit „ß“ auf die „Auskreuzung“ von
46 Feld 5 verzichtet. Ein Eintrag mit weniger als 5 Feldern bedeutet also
47 nicht automatisch, dass das entsprechende Wort in der Schweiz oder in
48 Versalschreibung existiert.
50 Felder 3 und 4 als auch Felder 6 und 7 treten immer simultan auf, um die
51 Lesbarkeit zu erhöhen.
53 Feld 8 wird nur angegeben, wenn die Schreibweise nach
54 (deutsch)schweizerischer, traditioneller Rechtschreibung sich von der
55 traditionellen Versalschreibung nach Duden unterscheidet.
57 Zur Erstellung von Trennmustern für die traditionelle Rechtschreibung
58 benötigt man Felder 2, 3, 5 und 6; für die reformierte Rechtschreibung die
59 Felder 2, 4, 5 und 7, und für die traditionelle (deutsch)schweizerische die
60 Felder 2, 3, 5, 6 und 8. Felder mit höherer Feldnummer haben Priorität.
66 Die Sortierung erfolgt nach Dudensortierung. Die genauen Regeln sind in
67 der Datei „skripte/sort.py“ beschrieben, welche auch zur maschinellen
68 Sortierung der Liste verwendet werden kann.
71 Kennzeichnung der Trennstellen
72 ==============================
74 Hinweis: Die Charakterisierung und Wichtung der Trennstellen ist nicht
81 Trennstellen an der Grenze funktionstragender Einheiten (Morpheme) werden
82 speziell gekennzeichnet:
84 Marker Bedeutung und Position
85 ------ --------------------------------------------------------
86 = an Wortfugen: Wort=fu-ge
87 < nach Präfix, Konfix oder Verbalpartikel: Vor<sil-be, auf<zäh-len
88 > vor Suffix: Gleich>heit, Freund>schaf-ten
89 - innerhalb eines Morphems: ge-hen
91 Morphemgrenzen, an denen keine Trennung erfolgt, werden nicht
92 gekennzeichnet. Das betrifft einvokalige und einige assimilierte Präfixe
93 sowie fremdsprachige Präfixe auf „s“ vor Vokal und die meisten Suffixe (im
94 Gegensatz zu Komposita und präfigierten Wörtern werden im Deutschen Wörter
95 mit Suffix nicht nach Etymologie, sondern nach einer formalisierten
96 „Sprechsilbenregel“ getrennt):
98 aso-zi-al # a- + sozial
99 osten-ta-tiv # < lat. ostendere < ob- + tendō
100 ob-so-let # < lat. obsoletus < obs- + alesco
101 tran-si-tiv # < lat. trāns- + īre
103 An<ord-nung # An- + ordn + -ung
106 aber trotz ausgefallenem „s“ vor sk, sp, sz:
108 Tran<skription # < lat. trans- + scribere
114 * Die Trennung an sinnbildenden Einheiten fördert den Lesefluss und ist
117 * Die Markierung von Morphemgrenzen hilft bei der regelbasierten
118 Entscheidung über den Aufbruch typographischer Ligaturen und die
119 Schreibung des S-Lautes in Frakturschrift (Rund-S „s“ vs. Lang-S „ſ“).
124 * Die Unterscheidung, ob ein Wortbestandteil ein Affix oder ein
125 lexikalisches Morphem ist, ist oft nicht eindeutig:
127 em-por<ar-bei-ten oder em-por=ar-bei-ten
128 wel-len>för-mig oder wel-len=för-mig
130 Grundidee ist, dass „=“ Teile trennt, die als eigenständige Teile
133 Morpheme, die eine lexikalische Bedeutung besitzen aber nicht frei
134 auftreten können (Konfixe/gebundene lexikalische Morpheme) werden aus
135 pragmatischen Gründen (meist) wie Affixe ausgezeichnet:
137 Alt=pleis-to<zän statt Alt==pleis-to=zän
139 Zu einigen dieser Konfixe existiert ein freies Homomym mit eigener
142 Au-to<kor<re<la-ti-on aber Au-to=ab<ga-se
143 Ra-dio<ak-ti-vi-tät aber Ra-dio=an<sa-ge-rin
145 * Schwierig ist die Markierung von „historischen“ Präfixen, die im heutigen
146 Sprachverständnis nicht als eigenständig wahrgenommen werden:
148 en<er-gisch, En<er-gie # vgl. Syn<er-gie
152 Ant-wort, In-du-strie # trotz in<du-zie-ren
154 Kriterien sind neben dem Sprachgefühl des Bearbeiters die „Güte“ der
155 Trennstelle (geringe Störung des Leseflusses bei Zeilenumbruch an dieser
156 Stelle), die Lang-s-Schreibung (Schluss-s auch bei „s-s“, „s-t“, oder
157 „s-p“) und der Aufbruch von Ligaturen an dieser Stelle.
159 Immer markiert wird die Morphemgrenze, wenn dort abweichend von der
160 „Sprechsilbenregel“ getrennt werden kann, z.B.
162 In<sti-tut # de-1996: In<s-ti-tut
164 Trennstellen nach §112 der amtlichen Regeln sind keine Morphemgrenzen:
166 Ma-gnet, Zy-klus, Fe-bru-ar
168 TODO: Entscheidung über Auszeichnung
170 assimilierter lat. Präfixe: „<“ oder „-“?
172 as-si-mi-liert / as<si-mi-liert
173 Kor-re<la-ti-on / Kor<re<la-ti-on
176 „Das 's' dieses Präfixes wird nicht mehr als Silbenauslaut
177 empfunden.“ (Duden 71, K44)
179 In AR stets Trennung vor dem „s“, Schreibung in Fraktur: abſ…
181 Im Duden (06) z.B. „ab|s|trakt“, „ab|s|t|rus“. Die Trennung ab-s ist mit
182 den amtlichen Regeln nur vereinbar, wenn „ab-“ als Präfix betrachtet wird,
183 den die optional fremdsprachige Trennung nach §112 gilt nicht für
184 Konsonantenverbindungen „st“ und „sp“.
188 ab<strakt;ab<s-trakt # < lat. ab + s + trahere
189 ab<strakt;ab<s-t-rakt # < lat. ab + s + trahere
190 ab<strakt;ab<st-rakt # < lat. ab + s + trahere
191 ab-strakt;abs-trakt # < lat. abs + trahere
192 ab-strakt;abs-t-rakt # < lat. abs + trahere
193 ab-strakt;abst-rakt # < lat. abs + trahere
194 ab-strakt;ab-s<trakt # < lat. abs + trahere
195 ab-strakt;ab-s<t-rakt # < lat. abs + trahere
199 Bindungsstärke und Wichtung
200 ---------------------------
202 Die „Bindungsstärke“ gibt die Zusammengehörigkeit von Wortteilen an.
203 Für die oben eingeführten Kategorien gilt
205 Marker Funktion Bindung
206 ------ ------------ -------
210 < Präfixgrenze mittel
211 > Suffixgrenze mittel
217 Aus<wahl=lis-te # (Aus + wahl) + (lis-te)
218 fern=ab<ge<le-gen # fern + (ab + (ge + (le-gen)))
219 Abend=lüft>chen # Abend + (lüft + chen)
221 Präfixe sind „rechtsbindend“:¹
223 un<voll<stän-dig # un + (voll + ständig)
224 un<aus<ge<go-ren # un + (aus + (ge + (go-ren)))
226 ¹ Ausnahme: Ein eingeschobenes „zu“ oder „ge“ übernimmt die Markierung der
227 Einschubstelle auf beiden Seiten:
229 nach<zu<wei-sen # (nach + weisen) + zu
231 Suffixe sind „linksbindend“:
233 Acht>lo-sig>keit # (Acht + lo-sig) + keit
235 Bei mehrteiligen Komposita kann die Bindungshierarchie durch Doppelung
236 des Trennzeichens genauer beschrieben werden:
238 Alp=horn==trio # (Alp + horn) + trio
239 Berg===fünf=fin-ger==kraut # Berg + ((fünf + (fin-ger)) + kraut)
241 Trennstellen gleicher Kategorie ohne Doppelung bezeichnen entweder
242 gleichwertige Wortbestandteile, Zerlegungsalternativen, eingeschobene Teile
243 oder sind (noch) nicht gewichtet:
245 Abend=brot=zeit # Abendbrot-Zeit / Abend-Brotzeit
246 stand=zu=hal-ten # stand+zu+halten (eingeschobenes zu)
248 Die gemischten Trennzeichen „<=“ und „=>“ kennzeichnen die
249 Bindungsverhältnisse, wenn sich ein Affix auf mehrere Teile eines
252 un<=wahr=schein-lich # un + (wahr + scheinlich)
253 Be<=gut=ach-tungs==frist # (Be + (gut + achtungs)) + frist
255 an-dert=halb=>fach # (andert + halb) + fach
256 zwei==ein=halb==>fa-che # (zwei + (ein + halb)) + fache
257 Vor<her=sag=>bar>keit # (((Vor + her) + sag) + bar) + keit
259 Die Bindungsstärke nimmt dabei mit der Länge des Trennzeichens ab:
261 Bindungsstärke Zeichen
262 -------------- -------------
267 schwach ===, <==, ==>
269 Im Allgemeinen ist die Bindungsstärke umgekehrt proportional zur „Güte“
270 (oder dem „Gewicht“) einer Trennstelle:¹
272 Bindungsstärke Güte/Gewicht Beispiel
273 -------------- ----------------- -----------
274 schwach Vorzugstrennungen Auswahl-
280 stark weniger gut Auswahllis-
283 ¹ In eine genauere „Gütebestimmung“ geht auch der Abstand zu anderen
284 Trennstellen und die Position im Wort ein.
286 Ebenso wie die Kategorisierung ist die Markierung der Bindungsstärke
290 ungünstige Trennungen
291 ---------------------
293 Ungünstige (irreführende oder sinnentstellende) Trennstellen sind mit einem
294 Punkt markiert. Der Punkt folgt auf Trennzeichen zur Kategorisierung.
296 An<den-.ken, Ost=en-.de
298 Besonders ungünstige Trennstellen können mit mehreren Punkten gekennzeichnet
301 Symbol Qualität Beispiele
302 ------ ----------------- ------------------------------------
303 . ungünstig An<den-.ken, Ost=en-.de, Re<im<.port
304 .. sehr ungünstig Ge<winn=er<..war-tung
305 ... äußerst ungünstig An<=al-...pha=bet
307 Auch die Markierung ungünstiger Trennstellen ist weder eindeutig noch
308 vollständig. Bei der Generation der Trennmustern für TeX werden alle als
309 ungünstig markierten Trennstellen als nicht vorhanden gewertet.
315 Nach § 107 E1 gilt (vgl. K79 in (Duden 71)):
317 Einzelne Vokalbuchstaben am Wortanfang oder -ende werden nicht ab-
318 getrennt, auch nicht bei Komposita.
320 Eine Ausnahme sind Notentexte: Hier muss jede getrennt gesprochene Silbe
321 abgeteilt werden. In Zweifelsfällen wird die Trennung in der Wortliste
324 A·i-da # getrennt gesprochen
325 Ka-sta-ni·e # getrennt gesprochen
326 A<·s-pekt # Wahltrennung nach §113: Präfix „a-“ oder Sprechsilbe
327 A·p-ri-ko-se # Wahltrennung nach §112: Herkunfstsprache oder Sprechsilbe
329 Hinweis: Die Wahltrennung nach §113 wird im Inneren mit „-“ markiert:
331 Areopag;-2-;A·re·o<pag;A·re-o<pag
333 Nach den amtlichen Regeln sind „Are-opag“ und „Areo-pag“ regulär zulässige
340 Folgende Notation wird verwendet, um spezielle Trennungen (für die
341 traditionelle Rechtschreibung) zu kennzeichnen:
343 {„ungetrennt“/„getrennt“}
345 Dreikonsonantenregel:
353 Um z.B. eine Wortliste für TeX zu konstruieren (traditionelle
354 Rechtschreibung), das solche speziellen Trennungen nicht benutzen kann, ist
355 folgender regulärer Ausdruck in „perl“ anzuwenden, um sie zu entfernen:
357 s|\{ (.*?) / .*? \}|$1|gx
360 doppeldeutige Trennungen
361 ------------------------
363 Abweichende Trennstellen in mehrdeutigen Wörtern werden folgendermaßen
366 [„Variante A“/„Variante B“]
370 er[<b/b=]recht # Erb=recht / er<brecht
371 Kin[-der=/d=er<.]satz # Kin-der=satz / Kind=er<.satz
373 Für TeX-Trennmuster ist es vielleicht am besten, solche Einträge zu
374 entfernen und die häufigeren Fälle in einem \hyphenation-Block zu behandeln.
375 Hier ein passender regulärer Ausdruck für „perl“:
377 s|\[ (.*?) / .*? \]|$1|gx
379 Sowohl in „[…/…]“ als auch in „{…/…}“ können alle Arten von Trennstellen