Revidiere `README.wortliste'.
[wortliste.git] / dokumente / README.wortliste
blob8279d567f26f10f0385e615dce7db13b5a92a244
1 Wortliste deutscher Wörter mit gewichteten Trennungen
4 Bedeutung der Felder
5 ====================
7   1 Wort ungetrennt
8   2 Wort mit Trennungen, falls für alle Varianten identisch,
9     anderenfalls leer
10   3 falls Feld 2 leer, Trennung nach traditioneller Rechtschreibung
11   4 falls Feld 2 leer, Trennung nach reformierter Rechtschreibung (2006)
12   5 falls Feld 2 leer, Trennung für Wortform, die entweder in der
13     Schweiz oder mit Großbuchstaben oder Kapitälchen benutzt wird und
14     für traditionelle und reformierte Rechtschreibung identisch ist
15   6 falls Feld 5 leer, Trennung für Wortform, die entweder in der
16     Schweiz oder mit Großbuchstaben oder Kapitälchen benutzt wird,
17     traditionelle Rechtschreibung
18   7 falls Feld 5 leer, Trennung für Wortform, die entweder in der
19     Schweiz oder mit Großbuchstaben oder Kapitälchen benutzt wird,
20     reformierte Rechtschreibung (2006)
21   8 falls Feld 5 leer und nicht identisch mit Feld 6, Trennung nach
22     (deutsch)schweizerischer, traditioneller Rechtschreibung;
23     insbesondere Wörter mit „sss“ gefolgt von einem Vokal, die wie
24     andere Dreifachkonsonanten gehandhabt wurden (also anders, als der
25     Duden früher vorgeschrieben hat), z.B. „süssauer“
27 Leere Felder sind mit „-x-“ markiert („x“ ist die Feldnummer); Felder 3
28 und 4 als auch Felder 6, 7 und 8 treten immer simultan auf, um die
29 Lesbarkeit zu erhöhen.
31 Zur Erstellung von Trennmustern für die traditionelle Rechtschreibung
32 benötigt man Felder 2, 3, 5, und 6; für die reformierte Rechtschreibung
33 die Felder 2, 4, 5 und 7, und für die traditionelle
34 (deutsch)schweizerische die Felder 2, 3, 5, 6 und 8.  Felder mit höherer
35 Feldnummer haben Priorität.
38 Sortierung
39 ==========
41 Die Sortierung erfolgt nach Dudensortierung.  Die genauen Regeln sind in
42 der Datei „skripte/sort.py“ beschrieben, welche auch zur maschinellen
43 Sortierung der Liste verwendet werden kann.
46 Kennzeichnung der Trennstellen
47 ==============================
49 Die Charakterisierung und Wichtung der Trennstellen ist nicht
50 vollständig.
52 Kategorisierung
53 ---------------
55 Trennstellen an der Grenze sinnbildender Einheiten (Morpheme) werden
56 speziell gekennzeichnet:
58   =  an Wortfugen (zwischen Grundmorphemen): Wort=fu-ge
59   <  nach Präfix oder Verbalpartikel: Vor<sil-be, auf<zäh-len
60   >  vor Wortbildungssuffix: Gleich>heit, Freund>schaf-ten
62   -  innerhalb eines Morphems: ge-hen
63   ·  nicht kategorisiert: acker·bau·trei·ben·de
65 Motivation:
67 * Die Trennung an sinnbildenden Einheiten fördert den Lesefluss und ist
68   daher zu bevorzugen.
70 * Die Markierung von Morphemgrenzen hilft bei der regelbasierten
71   Entscheidung über den Aufbruch typographischer Ligaturen und die
72   Schreibung des S-Lautes in Frakturschrift (Rund-S „s“ vs. Lang-S „ſ“).
74 Anmerkungen:
76 * Die Kategorisierung der Trennstellen ist nicht abgeschlossen.  Zur
77   Zeit sind einige Trennstellen nach Präfix oder Verbalpartikel und
78   viele Trennstellen vor Suffixen noch mit „-“ bezeichnet.
80 * Die Unterscheidung, ob ein Wortbestandteil ein Präfix, Suffix oder ein
81   Grundmorphem ist, ist oft nicht eindeutig:
83     em-por<ar-bei-ten   oder   em-por=ar-bei-ten
85 * Viele „etymologische“ Präfixe, die im heutigen Sprachverständnis nicht
86   mehr als Präfixe wahrgenommen werden, sind nicht speziell markiert:
88     En-er-gie, Ant-wort
90   Kriterien sind neben der „Güte“ der Trennstelle (geringe Störung des
91   Leseflusses bei Zeilenumbruch an dieser Stelle) die Lang-s-Schreibung
92   (Schluss-s auch bei s-s, s-t, oder s-p) und der Aufbruch von Ligaturen
93   an dieser Stelle.
95 * Morphemgrenzen, an denen keine Trennung erfolgt, werden nicht
96   gekennzeichnet.
98   Im Gegensatz zu Präfixen werden im Deutschen Wörter mit Suffix nicht
99   nach Etymologie, sondern nach der „Sprechsilbenregel“ getrennt:
101     An<ord-nung           An + ordn + ung
104 Bindungsstärke und Wichtung
105 ---------------------------
107 Die „Bindungsstärke“ gibt die Zusammengehörigkeit von Wortteilen an.
108 Für die oben eingeführten Kategorien gilt
110   =  Wortfugen          schwache Bindung
112   <  Präfixgrenze       mittlere Bindung
113   >  Suffixgrenze       mittlere Bindung
115   -  Sprechsilben       starke Bindung
117 Beispiele:
119   Aus<wahl=lis-te               (Aus + wahl) + (lis-te)
120   fern=ab<ge<le-gen             fern + (ab + (ge + (le-gen)))
121   Abend=lüft>chen               Abend + (lüft + chen)
123 Präfixe sind „rechtsbindend“:
125   un<voll<stän-dig              un + (voll + ständig)
126   un<aus<ge<go-ren              un + (aus + (ge + (go-ren)))
128 Suffixe sind „linksbindend“:
130   Acht>lo-sig>keit              (Acht + losig) + keit
132 Eine schwächere Bindung an Trennstellen kann durch Doppelung des
133 Trennzeichens markiert werden:
135   Alp=horn==trio                (Alp + horn) + trio
136   Berg===fünf=fin-ger==kraut    Berg + ((fünf + (fin-ger)) + kraut)
138 Trennstellen gleicher Kategorie ohne Doppelung bezeichnen entweder
139 gleichwertige Wortbestandteile, Zerlegungsalternativen oder sind (noch)
140 nicht gewichtet:
142   Abend=brot=zeit               (Abend + brot) + zeit
143                           oder
144                                 Abend + (brot + zeit)
146 Das gemischte Trennzeichen „<=“ kennzeichnet die Bindungsverhältnisse,
147 wenn sich ein Präfix auf mehrere Teile eines Kompositums bezieht:
149   un<=wahr=schein-lich          un + (wahr + scheinlich)
150   Ober<=be<fehls=ha-ber         Ober + ((be + fehls) + haber)
151   Be<=gut=ach-tungs==frist      (Be + (gut + achtungs)) + frist
153 Das gemischte Trennzeichen „=>“ kennzeichnet die Bindungsverhältnisse,
154 wenn sich ein Suffix auf das vorhergehende Kompositum bezieht:
156   an-dert=halb=>fach            (andert + halb) + fach
157   zwei==ein=halb==>fa-che       (zwei + (ein + halb)) + fache
158   Vor<her=sag=>bar>keit         (((Vor + her) + sag) + bar) + keit
160 Sortiert man die Trennzeichen nach der Bindungsstärke, ergeben sich
161 folgende Relationsketten:
163   -  >  =  =>  ==  ==>  ===  ...
164   -  <  =  <=  ==  <==  ===  ...
166 Im weiteren ist die Bindungsstärke umgekehrt proportional zur „Güte“
167 (oder dem „Gewicht“) einer Trennstelle:¹
169   schwache Bindung -> Vorzugstrennungen
170   mittlere Bindung -> mittlere Trenngüte
171   starke Bindung   -> Trennung beeinträchtigt den Lesefluss
173 Beispiel:
175   schwach:     Auswahl-
176                liste
178   mittel:      Aus-
179                wahlliste
181   stark:       Auswahllis-
182                te
184 Ebenso wie die Kategorisierung ist die Markierung der Bindungsstärke
185 unvollständig.
188 ¹ In eine genauere „Gütebestimmung“ geht auch der Abstand zu anderen
189   Trennstellen und die Position im Wort ein.
192 Ungünstige Trennungen
193 ---------------------
195 Ungünstige (irreführende oder sinnentstellende) Trennstellen sind mit
196 einem Punkt markiert.  Der Punkt ersetzt das Trennzeichen für nicht
197 kategorisierte Trennstellen oder folgt auf Trennzeichen zur
198 Kategorisierung:
200   An·den.ken, Ost=en-.de
202 Besonders ungünstige Trennstellen können mit mehreren Punkten
203 gekennzeichnet sein.
205   .    ungünstig: An·den.ken, Ost=en.de, Re<im<.port
206   ..   sehr ungünstig: Ge·winn·er..war·tung
207   ...  äußerst ungünstig: An<al-...pha-bet
209 Auch die Markierung ungünstiger Trennstellen ist weder eindeutig noch
210 vollständig.  Bei der Generation der Trennmustern für TeX werden alle
211 als ungünstig markierten Trennstellen als nicht vorhanden gewertet.
214 Spezielle Trennungen
215 --------------------
217 Folgende Notation wird verwendet, um spezielle Trennungen (für die
218 traditionelle Rechtschreibung) zu kennzeichnen:
220   {«ungetrennt»/«getrennt»}
222 Dreikonsonantenregel:
224   Ab-fa{ll/ll=l}a-ger
226 Trennung von „ck“:
228   Dru{ck/k-k}er
230 Um z.B. eine Wortliste für TeX zu konstruieren (traditionelle
231 Rechtschreibung), das solche speziellen Trennungen nicht benutzen kann,
232 ist folgender regulärer Ausdruck in „perl“ anzuwenden:
234   s| { ( [^/]* ) / [^}]* } | \1 |gx
237 Doppeldeutige Trennungen
238 ------------------------
240 Doppeldeutige Trennstellen werden folgendermaßen deklariert:
242   [»Variante A«/»Variante B«]
244 z.B.
246   er[<b/b=]recht
247   Kin[-der=/d=er<.]satz
249 Für TeX-Trennmuster ist es vielleicht am besten, solche Einträge zu
250 entfernen und die häufigeren Fälle in einem \hyphenation-Block zu
251 behandeln.
253 Sowohl in „[…/…]“ als auch in „{…/…}“ können alle Arten von Trennstellen
254 auftreten.