Kleinere administrative Änderungen.
[wortliste.git] / dokumente / README.wortliste
blobf19795b02b78dfcd3e638bf349082bcccd75bac2
1 Wortliste deutscher Wörter mit gewichteten Trennungen.
3 Format
4 ======
6 Das Zeichen „#“ leitet eine Kommentar ein.
8 Jede Zeile enthält einen Eintrag mit durch Semikolon „;“ getrennten Feldern.
10 Bedeutung der Felder
11 --------------------
13 Neben dem hier beschriebenem „Langformat“ gibt es das 2017
14 entwickelte „Kurzformat“, das in ../skripte/python/edit_tools/wortliste.py
15 beschrieben ist.
17   1 Wort ungetrennt.
18   2 Wort mit Trennungen, falls für alle Varianten identisch,
19     anderenfalls leer.
20   3 Falls Feld 2 leer, Trennung nach traditioneller Rechtschreibung.
21   4 Falls Feld 2 leer, Trennung nach reformierter Rechtschreibung (2006).
22   5 Falls Feld 2 leer, Trennung für Wortform, die in der Schweiz oder mit
23     Großbuchstaben oder Kapitälchen benutzt wird und für traditionelle und
24     reformierte Rechtschreibung identisch ist.
25   6 Falls Feld 5 leer, Trennung für Wortform, die in der Schweiz oder mit
26     Großbuchstaben oder Kapitälchen benutzt wird, traditionelle
27     Rechtschreibung.
28   7 Falls Feld 5 leer, Trennung für Wortform, die in der Schweiz oder mit
29     Großbuchstaben oder Kapitälchen benutzt wird, reformierte
30     Rechtschreibung (2006).
31   8 Falls Feld 5 leer und nicht identisch mit Feld 6, Trennung nach
32     (deutsch)schweizerischer, traditioneller Rechtschreibung; insbesondere
33     Wörter mit „sss“ gefolgt von einem Vokal, die wie andere
34     Dreifachkonsonanten gehandhabt wurden (also anders, als der Duden früher
35     vorgeschrieben hat), z.B. „süssauer“.
37 Leere Felder sind mit „-x-“ markiert („x“ ist die Feldnummer).  Das
38 bedeutet, die Schreibweise existiert in der entsprechenden Rechtschreibung
39 nicht.
41 Ausnahme:
42   Zur Vereinfachung wird bei Wörtern mit ß auf die „Auskreuzung“ von Feld 5
43   verzichtet.  Ein Eintrag mit weniger als 5 Feldern bedeutet also nicht
44   automatisch, daß das entsprechende Wort in der Schweiz oder in
45   Versalschreibung existiert.
47 Felder 3 und 4 als auch Felder 6 und 7 treten immer simultan auf, um die
48 Lesbarkeit zu erhöhen.
50 Feld 8 wird nur angegeben, wenn die Schreibweise nach
51 (deutsch)schweizerischer, traditioneller Rechtschreibung sich von der
52 traditionellen Versalschreibung nach Duden unterscheidet.
54 Zur Erstellung von Trennmustern für die traditionelle Rechtschreibung
55 benötigt man Felder 2, 3, 5 und 6; für die reformierte Rechtschreibung die
56 Felder 2, 4, 5 und 7, und für die traditionelle (deutsch)schweizerische die
57 Felder 2, 3, 5, 6 und 8.  Felder mit höherer Feldnummer haben Priorität.
60 Sortierung
61 ==========
63 Die Sortierung erfolgt nach Dudensortierung.  Die genauen Regeln sind in
64 der Datei „skripte/sort.py“ beschrieben, welche auch zur maschinellen
65 Sortierung der Liste verwendet werden kann.
68 Kennzeichnung der Trennstellen
69 ==============================
71 Hinweis: Die Charakterisierung und Wichtung der Trennstellen ist nicht
72 vollständig.
75 Kategorisierung
76 ---------------
78 Trennstellen an der Grenze sinnbildender Einheiten (Morpheme) werden
79 speziell gekennzeichnet:
81   =  an Wortfugen (zwischen Grundmorphemen): Wort=fu-ge
82   <  nach Präfix oder Verbalpartikel: Vor<sil-be, auf<zäh-len
83   >  vor Suffix: Gleich>heit, Freund>schaf-ten
84   -  innerhalb eines Morphems: ge-hen
86 Morphemgrenzen, an denen keine Trennung erfolgt, werden nicht
87 gekennzeichnet.  Das betrifft einsilbige Präfixe und viele Suffixe.  (Im
88 Gegensatz zu Präfixen werden im Deutschen Wörter mit Suffix nicht nach
89 Etymologie, sondern nach der „Sprechsilbenregel“ getrennt.)
91   aso-zi-al             a + sozial
92   An<ord-nung           An + ordn + ung
94 Motivation:
96 * Die Trennung an sinnbildenden Einheiten fördert den Lesefluss und ist
97   daher zu bevorzugen.
99 * Die Markierung von Morphemgrenzen hilft bei der regelbasierten
100   Entscheidung über den Aufbruch typographischer Ligaturen und die
101   Schreibung des S-Lautes in Frakturschrift (Rund-S „s“ vs. Lang-S „ſ“).
103 Anmerkungen:
105 * Die Unterscheidung, ob ein Wortbestandteil ein Präfix, Suffix oder ein
106   Grundmorphem ist, ist oft nicht eindeutig:
108     em-por<ar-bei-ten   oder   em-por=ar-bei-ten
110   Grundidee ist, daß „=“ Teile trennt, die als eigenständige Wörter
111   wahrgenommen werden.
113 * Schwierig ist die Markierung von „historischen“ Präfixen, die im heutigen
114   Sprachverständnis nicht als eigenständig wahrgenommen werden:
116     en<er-gisch, En<er-gie # vgl. Syn<er-gie
118   aber
120     Ant-wort, In-du-strie # trotz in<du-zie-ren
122   Kriterien sind neben dem Sprachgefühl des Bearbeiters die „Güte“ der
123   Trennstelle (geringe Störung des Leseflusses bei Zeilenumbruch an dieser
124   Stelle), die Lang-s-Schreibung (Schluss-s auch bei s-s, s-t, oder s-p) und
125   der Aufbruch von Ligaturen an dieser Stelle.
127   Immer markiert wird die Morphemgrenze, wenn dort abweichend von der
128   „Sprechsilbenregel“ getrennt werden kann, z.B.
130     In<sti-tut # de-1996: In<s-ti-tut
132   Trennstellen nach § 112 der amtlichen Regeln sind keine Morphemgrenzen:
134     Ma-gnet, Zy-klus, Fe-bruar
136 Bindungsstärke und Wichtung
137 ---------------------------
139 Die „Bindungsstärke“ gibt die Zusammengehörigkeit von Wortteilen an.
140 Für die oben eingeführten Kategorien gilt
142   -  Sprechsilben       starke Bindung
144   <  Präfixgrenze       mittlere Bindung
145   >  Suffixgrenze       mittlere Bindung
147   =  Wortfugen          schwache Bindung
149 Beispiele:
151   Aus<wahl=lis-te               (Aus + wahl) + (lis-te)
152   fern=ab<ge<le-gen             fern + (ab + (ge + (le-gen)))
153   Abend=lüft>chen               Abend + (lüft + chen)
155 Präfixe sind „rechtsbindend“:¹
157   un<voll<stän-dig              un + (voll + ständig)
158   un<aus<ge<go-ren              un + (aus + (ge + (go-ren)))
160   ¹ Ausnahme: Ein eingeschobenes „zu“ oder „ge“ übernimmt die Markierung
161     der Einschubstelle auf beiden Seiten:
163       nach<zu<wei-sen           (nach + weisen) + zu
165 Suffixe sind „linksbindend“:
167   Acht>lo-sig>keit              (Acht + lo-sig) + keit
170 Bei mehrteiligen Komposita kann die Bindungshierarchie durch Doppelung
171 des Trennzeichens genauer beschrieben werden:
173   Alp=horn==trio                (Alp + horn) + trio
174   Berg===fünf=fin-ger==kraut    Berg + ((fünf + (fin-ger)) + kraut)
176 Trennstellen gleicher Kategorie ohne Doppelung bezeichnen entweder
177 gleichwertige Wortbestandteile, Zerlegungsalternativen, eingeschobene Teile
178 oder sind (noch) nicht gewichtet:
180   Abend=brot=zeit               Abendbrot-Zeit / Abend-Brotzeit
181   stand=zu=hal-ten              stand+zu+halten (eingeschobenes zu)
183 Die gemischten Trennzeichen „<=“ und „=>“ kennzeichnen die
184 Bindungsverhältnisse, wenn sich ein Affix auf mehrere Teile eines
185 Kompositums bezieht:
187   un<=wahr=schein-lich          un + (wahr + scheinlich)
188   Be<=gut=ach-tungs==frist      (Be + (gut + achtungs)) + frist
190   an-dert=halb=>fach            (andert + halb) + fach
191   zwei==ein=halb==>fa-che       (zwei + (ein + halb)) + fache
192   Vor<her=sag=>bar>keit         (((Vor + her) + sag) + bar) + keit
194 Die Bindungsstärke nimmt dabei mit der Länge des Trennzeichens ab:
196   Bindungsstärke   Zeichen
197   --------------   -------------
198   stark            -
199   .                <, >
200   .                =
201   .                ==, <=, =>
202   schwach          ===, <==, ==>
205 Im Allgemeinen ist die Bindungsstärke umgekehrt proportional zur „Güte“
206 (oder dem „Gewicht“) einer Trennstelle:¹
208   Bindungsstärke      Güte/Gewicht            Beispiel
209   --------------      -----------------       -----------
210   schwach             Vorzugstrennungen       Auswahl-
211                                               liste
213   mittel              mittel                  Aus-
214                                               wahlliste
216   stark               weniger gut             Auswahllis-
217                                               te
219 ¹ In eine genauere „Gütebestimmung“ geht auch der Abstand zu anderen
220   Trennstellen und die Position im Wort ein.
222 Ebenso wie die Kategorisierung ist die Markierung der Bindungsstärke
223 unvollständig.
226 ungünstige Trennungen
227 ---------------------
229 Ungünstige (irreführende oder sinnentstellende) Trennstellen sind mit einem
230 Punkt markiert.  Der Punkt folgt auf Trennzeichen zur Kategorisierung.
232   An<den-.ken, Ost=en-.de
234 Besonders ungünstige Trennstellen können mit mehreren Punkten gekennzeichnet
235 sein.
237   .    ungünstig: An<den-.ken, Ost=en-.de, Re<im<.port
238   ..   sehr ungünstig: Ge<winn=er<..war-tung
239   ...  äußerst ungünstig: An<=al-...pha=bet
241 Auch die Markierung ungünstiger Trennstellen ist weder eindeutig noch
242 vollständig.  Bei der Generation der Trennmustern für TeX werden alle als
243 ungünstig markierten Trennstellen als nicht vorhanden gewertet.
246 spezielle Trennungen
247 --------------------
249 Folgende Notation wird verwendet, um spezielle Trennungen (für die
250 traditionelle Rechtschreibung) zu kennzeichnen:
252   {„ungetrennt“/„getrennt“}
254 Dreikonsonantenregel:
256   Ab-fa{ll/ll=l}a-ger
258 Trennung von „ck“:
260   Dru{ck/k-k}er
262 Um z.B. eine Wortliste für TeX zu konstruieren (traditionelle
263 Rechtschreibung), das solche speziellen Trennungen nicht benutzen kann, ist
264 folgender regulärer Ausdruck in „perl“ anzuwenden, um sie zu entfernen:
266   s|\{ (.*?) / .*? \}|$1|gx
269 doppeldeutige Trennungen
270 ------------------------
272 Doppeldeutige Trennstellen werden folgendermaßen deklariert:
274   [„Variante A“/„Variante B“]
276 Beispiel:
278   er[<b/b=]recht                Erb=recht    / er<brecht
279   Kin[-der=/d=er<.]satz         Kin-der=satz / Kind=er<.satz
281 Für TeX-Trennmuster ist es vielleicht am besten, solche Einträge zu
282 entfernen und die häufigeren Fälle in einem \hyphenation-Block zu behandeln.
283 Hier ein passender regulärer Ausdruck für „perl“:
285   s|\[ (.*?) / .*? \]|$1|gx
287 Sowohl in „[…/…]“ als auch in „{…/…}“ können alle Arten von Trennstellen
288 auftreten.