Mehrdeutiges Wort: Schiffstau.
[wortliste.git] / dokumente / README.wortliste
blob88e055fc2b93ccff3b17b40bed6445b70ddf7ad6
1 Wortliste deutscher Wörter mit gewichteten Trennungen
4 Bedeutung der Felder
5 ====================
7   1 Wort ungetrennt
8   2 Wort mit Trennungen, falls für alle Varianten identisch,
9     anderenfalls leer
10   3 falls Feld 2 leer, Trennung nach traditioneller Rechtschreibung
11   4 falls Feld 2 leer, Trennung nach reformierter Rechtschreibung (2006)
12   5 falls Feld 2 leer, Trennung für Wortform, die entweder in der
13     Schweiz oder mit Großbuchstaben oder Kapitälchen benutzt wird und
14     für traditionelle und reformierte Rechtschreibung identisch ist
15   6 falls Feld 5 leer, Trennung für Wortform, die entweder in der
16     Schweiz oder mit Großbuchstaben oder Kapitälchen benutzt wird,
17     traditionelle Rechtschreibung
18   7 falls Feld 5 leer, Trennung für Wortform, die entweder in der
19     Schweiz oder mit Großbuchstaben oder Kapitälchen benutzt wird,
20     reformierte Rechtschreibung (2006)
21   8 falls Feld 5 leer und nicht identisch mit Feld 6, Trennung nach
22     (deutsch)schweizerischer, traditioneller Rechtschreibung;
23     insbesondere Wörter mit „sss“ gefolgt von einem Vokal, die wie
24     andere Dreifachkonsonanten gehandhabt wurden (also anders, als der
25     Duden früher vorgeschrieben hat), z.B. „süssauer“
27 Leere Felder sind mit „-x-“ markiert („x“ ist die Feldnummer); Felder 3
28 und 4 als auch Felder 6, 7 und 8 treten immer simultan auf, um die
29 Lesbarkeit zu erhöhen.
31 Zur Erstellung von Trennmustern für die traditionelle Rechtschreibung
32 benötigt man Felder 2, 3, 5, und 6; für die reformierte Rechtschreibung
33 die Felder 2, 4, 5 und 7, und für die traditionelle
34 (deutsch)schweizerische die Felder 2, 3, 5, 6 und 8.  Felder mit höherer
35 Feldnummer haben Priorität.
38 Sortierung
39 ==========
41 Die Sortierung erfolgt nach Dudensortierung.  Die genauen Regeln sind in
42 der Datei „skripte/sort.py“ beschrieben, welche auch zur maschinellen
43 Sortierung der Liste verwendet werden kann.
46 Kennzeichnung der Trennstellen
47 ==============================
49 Die Charakterisierung und Wichtung der Trennstellen ist nicht
50 vollständig.
52 Kategorisierung
53 ---------------
55 Trennstellen an der Grenze sinnbildender Einheiten (Morpheme) werden
56 speziell gekennzeichnet:
58   =  an Wortfugen (zwischen Grundmorphemen): Wort=fu-ge
59   <  nach Präfix oder Verbalpartikel: Vor<sil-be, auf<zäh-len
60   >  vor Wortbildungssuffix: Gleich>heit, Freund>schaf-ten
62   -  innerhalb eines Morphems: ge-hen
64   ·  nicht kategorisiert: acker·bau·trei·ben·de
66 Motivation:
68 * Die Trennung an sinnbildenden Einheiten fördert den Lesefluss und ist
69   daher zu bevorzugen.
71 * Die Markierung von Morphemgrenzen hilft bei der regelbasierten
72   Entscheidung über den Aufbruch typographischer Ligaturen und die
73   Schreibung des S-Lautes in Frakturschrift (Rund-S „s“ vs. Lang-S „ſ“).
75 Anmerkungen:
77 * Die Kategorisierung der Trennstellen ist nicht abgeschlossen.  Zur
78   Zeit sind einige Trennstellen nach Präfix oder Verbalpartikel und
79   viele Trennstellen vor Suffixen noch mit „-“ bezeichnet.
81 * Die Unterscheidung, ob ein Wortbestandteil ein Präfix, Suffix oder ein
82   Grundmorphem ist, ist oft nicht eindeutig:
84     em-por<ar-bei-ten   oder   em-por=ar-bei-ten
86 * Viele Präfixe, die im heutigen Sprachverständnis nicht als eigenständig
87   wahrgenommen werden, sind nicht speziell markiert:
89     En-er-gie, Ant-wort
91   Kriterien sind neben der „Güte“ der Trennstelle (geringe Störung des
92   Leseflusses bei Zeilenumbruch an dieser Stelle) die Lang-s-Schreibung
93   (Schluss-s auch bei s-s, s-t, oder s-p) und der Aufbruch von Ligaturen
94   an dieser Stelle.
96 * Morphemgrenzen, an denen keine Trennung erfolgt, werden nicht
97   gekennzeichnet. Das betrifft einsilbige Präfixe und viele Suffixe.
98   (Im Gegensatz zu Präfixen werden im Deutschen Wörter mit Suffix nicht
99   nach Etymologie, sondern nach der „Sprechsilbenregel“ getrennt.)
101     asozi-al              a + sozial
102     An<ord-nung           An + ordn + ung
105 Bindungsstärke und Wichtung
106 ---------------------------
108 Die „Bindungsstärke“ gibt die Zusammengehörigkeit von Wortteilen an.
109 Für die oben eingeführten Kategorien gilt
111   -  Sprechsilben       starke Bindung
113   <  Präfixgrenze       mittlere Bindung
114   >  Suffixgrenze       mittlere Bindung
116   =  Wortfugen          schwache Bindung
118 Beispiele:
120   Aus<wahl=lis-te               (Aus + wahl) + (lis-te)
121   fern=ab<ge<le-gen             fern + (ab + (ge + (le-gen)))
122   Abend=lüft>chen               Abend + (lüft + chen)
124 Präfixe sind „rechtsbindend“:
126   un<voll<stän-dig              un + (voll + ständig)
127   un<aus<ge<go-ren              un + (aus + (ge + (go-ren)))
129 Suffixe sind „linksbindend“:
131   Acht>lo-sig>keit              (Acht + lo-sig) + keit
133 Bei mehrteiligen Komposita kann die Bindungshierarchie durch Doppelung
134 des Trennzeichens genauer beschrieben werden:
136   Alp=horn==trio                (Alp + horn) + trio
137   Berg===fünf=fin-ger==kraut    Berg + ((fünf + (fin-ger)) + kraut)
139 Trennstellen gleicher Kategorie ohne Doppelung bezeichnen entweder
140 gleichwertige Wortbestandteile, Zerlegungsalternativen oder sind (noch)
141 nicht gewichtet:
143   Abend=brot=zeit               Abendbrot-Zeit / Abend-Brotzeit
145 Das gemischte Trennzeichen „<=“ kennzeichnet die Bindungsverhältnisse,
146 wenn sich ein Präfix auf mehrere Teile eines Kompositums bezieht:
148   un<=wahr=schein-lich          un + (wahr + scheinlich)
149   Ober<=be<fehls=ha-ber         Ober + ((be + fehls) + haber)
150   Be<=gut=ach-tungs==frist      (Be + (gut + achtungs)) + frist
152 Das gemischte Trennzeichen „=>“ kennzeichnet die Bindungsverhältnisse,
153 wenn sich ein Suffix auf das vorhergehende Kompositum bezieht:
155   an-dert=halb=>fach            (andert + halb) + fach
156   zwei==ein=halb==>fa-che       (zwei + (ein + halb)) + fache
157   Vor<her=sag=>bar>keit         (((Vor + her) + sag) + bar) + keit
159 Die Bindungsstärke nimmt dabei mit der Länge des Trennzeichens ab:
161   =================   ===============
162   Bindungsstärke      Zeichen
163   =================   ===============
164   stark               -
165   .                   <, >
166   .                   =
167   .                   ==, <=, =>
168   schwach             ===, <==, ==>
169   =================   ===============
172 Im Allgemeinen ist die Bindungsstärke umgekehrt proportional zur „Güte“
173 (oder dem „Gewicht“) einer Trennstelle:¹
175   ================    ==================      ===========
176   Bindungsstärke      Güte/Gewicht            Beispiel
177   ================    ==================      ===========
179   schwach             Vorzugstrennungen       Auswahl-
180                                               liste
182   mittel              mittel                  Aus-
183                                               wahlliste
185   stark               weniger gut             Auswahllis-
186                                               te
187   ================    ==================      ===========
189 ¹ In eine genauere „Gütebestimmung“ geht auch der Abstand zu anderen
190   Trennstellen und die Position im Wort ein.
192 Ebenso wie die Kategorisierung ist die Markierung der Bindungsstärke
193 unvollständig.
196 Ungünstige Trennungen
197 ---------------------
199 Ungünstige (irreführende oder sinnentstellende) Trennstellen sind mit
200 einem Punkt markiert.  Der Punkt ersetzt das Trennzeichen für nicht
201 kategorisierte Trennstellen oder folgt auf Trennzeichen zur
202 Kategorisierung:
204   An·den.ken, Ost=en-.de
206 Besonders ungünstige Trennstellen können mit mehreren Punkten
207 gekennzeichnet sein.
209   .    ungünstig: An·den.ken, Ost=en.de, Re<im<.port
210   ..   sehr ungünstig: Ge·winn·er..war·tung
211   ...  äußerst ungünstig: An<al-...pha-bet
213 Auch die Markierung ungünstiger Trennstellen ist weder eindeutig noch
214 vollständig.  Bei der Generation der Trennmustern für TeX werden alle
215 als ungünstig markierten Trennstellen als nicht vorhanden gewertet.
218 Spezielle Trennungen
219 --------------------
221 Folgende Notation wird verwendet, um spezielle Trennungen (für die
222 traditionelle Rechtschreibung) zu kennzeichnen:
224   {«ungetrennt»/«getrennt»}
226 Dreikonsonantenregel:
228   Ab-fa{ll/ll=l}a-ger
230 Trennung von „ck“:
232   Dru{ck/k-k}er
234 Um z.B. eine Wortliste für TeX zu konstruieren (traditionelle
235 Rechtschreibung), das solche speziellen Trennungen nicht benutzen kann,
236 ist folgender regulärer Ausdruck in „perl“ anzuwenden:
238   s| { ( [^/]* ) / [^}]* } | \1 |gx
241 Doppeldeutige Trennungen
242 ------------------------
244 Doppeldeutige Trennstellen werden folgendermaßen deklariert:
246   [»Variante A«/»Variante B«]
248 z.B.
250   er[<b/b=]recht                Erb=recht   / er<brecht
251   Kin[-der=/d=er<.]satz         Kinder=satz / Kind=ersatz
253 Für TeX-Trennmuster ist es vielleicht am besten, solche Einträge zu
254 entfernen und die häufigeren Fälle in einem \hyphenation-Block zu
255 behandeln.
257 Sowohl in „[…/…]“ als auch in „{…/…}“ können alle Arten von Trennstellen
258 auftreten.