dokumente/README.wortliste

   1 Wortliste deutscher Wörter mit gewichteten Trennungen
   2
   3
   4 Bedeutung der Felder
   5 ====================
   6
   7   1 Wort ungetrennt
   8   2 Wort mit Trennungen, falls für alle Varianten identisch,
   9     anderenfalls leer
  10   3 falls Feld 2 leer, Trennung nach traditioneller Rechtschreibung
  11   4 falls Feld 2 leer, Trennung nach reformierter Rechtschreibung (2006)
  12   5 falls Feld 2 leer, Trennung für Wortform, die entweder in der
  13     Schweiz oder mit Großbuchstaben oder Kapitälchen benutzt wird und
  14     für traditionelle und reformierte Rechtschreibung identisch ist
  15   6 falls Feld 5 leer, Trennung für Wortform, die entweder in der
  16     Schweiz oder mit Großbuchstaben oder Kapitälchen benutzt wird,
  17     traditionelle Rechtschreibung
  18   7 falls Feld 5 leer, Trennung für Wortform, die entweder in der
  19     Schweiz oder mit Großbuchstaben oder Kapitälchen benutzt wird,
  20     reformierte Rechtschreibung (2006)
  21   8 falls Feld 5 leer und nicht identisch mit Feld 6, Trennung nach
  22     (deutsch)schweizerischer, traditioneller Rechtschreibung;
  23     insbesondere Wörter mit „sss“ gefolgt von einem Vokal, die wie
  24     andere Dreifachkonsonanten gehandhabt wurden (also anders, als der
  25     Duden früher vorgeschrieben hat), z.B. „süssauer“
  26
  27 Leere Felder sind mit „-x-“ markiert („x“ ist die Feldnummer); Felder 3
  28 und 4 als auch Felder 6, 7 und 8 treten immer simultan auf, um die
  29 Lesbarkeit zu erhöhen.
  30
  31 Zur Erstellung von Trennmustern für die traditionelle Rechtschreibung
  32 benötigt man Felder 2, 3, 5, und 6; für die reformierte Rechtschreibung
  33 die Felder 2, 4, 5 und 7, und für die traditionelle
  34 (deutsch)schweizerische die Felder 2, 3, 5, 6 und 8.  Felder mit höherer
  35 Feldnummer haben Priorität.
  36
  37
  38 Sortierung
  39 ==========
  40
  41 Die Sortierung erfolgt nach Dudensortierung.  Die genauen Regeln sind in
  42 der Datei „skripte/sort.py“ beschrieben, welche auch zur maschinellen
  43 Sortierung der Liste verwendet werden kann.
  44
  45
  46 Kennzeichnung der Trennstellen
  47 ==============================
  48
  49 Die Charakterisierung und Wichtung der Trennstellen ist nicht
  50 vollständig.
  51
  52 Kategorisierung
  53 ---------------
  54
  55 Trennstellen an der Grenze sinnbildender Einheiten (Morpheme) werden
  56 speziell gekennzeichnet:
  57
  58   =  an Wortfugen (zwischen Grundmorphemen): Wort=fu-ge
  59   <  nach Präfix oder Verbalpartikel: Vor<sil-be, auf<zäh-len
  60   >  vor Wortbildungssuffix: Gleich>heit, Freund>schaf-ten
  61
  62   -  innerhalb eines Morphems: ge-hen
  63   ·  nicht kategorisiert: acker·bau·trei·ben·de
  64
  65 Motivation:
  66
  67 * Die Trennung an sinnbildenden Einheiten fördert den Lesefluss und ist
  68   daher zu bevorzugen.
  69
  70 * Die Markierung von Morphemgrenzen hilft bei der regelbasierten
  71   Entscheidung über den Aufbruch typographischer Ligaturen und die
  72   Schreibung des S-Lautes in Frakturschrift (Rund-S „s“ vs. Lang-S „ſ“).
  73
  74 Anmerkungen:
  75
  76 * Die Kategorisierung der Trennstellen ist nicht abgeschlossen.  Zur
  77   Zeit sind einige Trennstellen nach Präfix oder Verbalpartikel und
  78   viele Trennstellen vor Suffixen noch mit „-“ bezeichnet.
  79
  80 * Die Unterscheidung, ob ein Wortbestandteil ein Präfix, Suffix oder ein
  81   Grundmorphem ist, ist oft nicht eindeutig:
  82
  83     em-por<ar-bei-ten   oder   em-por=ar-bei-ten
  84
  85 * Viele „etymologische“ Präfixe, die im heutigen Sprachverständnis nicht
  86   mehr als Präfixe wahrgenommen werden, sind nicht speziell markiert:
  87
  88     En-er-gie, Ant-wort
  89
  90   Kriterien sind neben der „Güte“ der Trennstelle (geringe Störung des
  91   Leseflusses bei Zeilenumbruch an dieser Stelle) die Lang-s-Schreibung
  92   (Schluss-s auch bei s-s, s-t, oder s-p) und der Aufbruch von Ligaturen
  93   an dieser Stelle.
  94
  95 * Morphemgrenzen, an denen keine Trennung erfolgt, werden nicht
  96   gekennzeichnet.
  97
  98   Im Gegensatz zu Präfixen werden im Deutschen Wörter mit Suffix nicht
  99   nach Etymologie, sondern nach der „Sprechsilbenregel“ getrennt:
 100
 101     An<ord-nung           An + ordn + ung
 102
 103
 104 Bindungsstärke und Wichtung
 105 ---------------------------
 106
 107 Die „Bindungsstärke“ gibt die Zusammengehörigkeit von Wortteilen an.
 108 Für die oben eingeführten Kategorien gilt
 109
 110   =  Wortfugen          schwache Bindung
 111
 112   <  Präfixgrenze       mittlere Bindung
 113   >  Suffixgrenze       mittlere Bindung
 114
 115   -  Sprechsilben       starke Bindung
 116
 117 Beispiele:
 118
 119   Aus<wahl=lis-te               (Aus + wahl) + (lis-te)
 120   fern=ab<ge<le-gen             fern + (ab + (ge + (le-gen)))
 121   Abend=lüft>chen               Abend + (lüft + chen)
 122
 123 Präfixe sind „rechtsbindend“:
 124
 125   un<voll<stän-dig              un + (voll + ständig)
 126   un<aus<ge<go-ren              un + (aus + (ge + (go-ren)))
 127
 128 Suffixe sind „linksbindend“:
 129
 130   Acht>lo-sig>keit              (Acht + losig) + keit
 131
 132 Eine schwächere Bindung an Trennstellen kann durch Doppelung des
 133 Trennzeichens markiert werden:
 134
 135   Alp=horn==trio                (Alp + horn) + trio
 136   Berg===fünf=fin-ger==kraut    Berg + ((fünf + (fin-ger)) + kraut)
 137
 138 Trennstellen gleicher Kategorie ohne Doppelung bezeichnen entweder
 139 gleichwertige Wortbestandteile, Zerlegungsalternativen oder sind (noch)
 140 nicht gewichtet:
 141
 142   Abend=brot=zeit               (Abend + brot) + zeit
 143                           oder
 144                                 Abend + (brot + zeit)
 145
 146 Das gemischte Trennzeichen „<=“ kennzeichnet die Bindungsverhältnisse,
 147 wenn sich ein Präfix auf mehrere Teile eines Kompositums bezieht:
 148
 149   un<=wahr=schein-lich          un + (wahr + scheinlich)
 150   Ober<=be<fehls=ha-ber         Ober + ((be + fehls) + haber)
 151   Be<=gut=ach-tungs==frist      (Be + (gut + achtungs)) + frist
 152
 153 Das gemischte Trennzeichen „=>“ kennzeichnet die Bindungsverhältnisse,
 154 wenn sich ein Suffix auf das vorhergehende Kompositum bezieht:
 155
 156   an-dert=halb=>fach            (andert + halb) + fach
 157   zwei==ein=halb==>fa-che       (zwei + (ein + halb)) + fache
 158   Vor<her=sag=>bar>keit         (((Vor + her) + sag) + bar) + keit
 159
 160 Sortiert man die Trennzeichen nach der Bindungsstärke, ergeben sich
 161 folgende Relationsketten:
 162
 163   -  >  =  =>  ==  ==>  ===  ...
 164   -  <  =  <=  ==  <==  ===  ...
 165
 166 Im weiteren ist die Bindungsstärke umgekehrt proportional zur „Güte“
 167 (oder dem „Gewicht“) einer Trennstelle:¹
 168
 169   schwache Bindung -> Vorzugstrennungen
 170   mittlere Bindung -> mittlere Trenngüte
 171   starke Bindung   -> Trennung beeinträchtigt den Lesefluss
 172
 173 Beispiel:
 174
 175   schwach:     Auswahl-
 176                liste
 177
 178   mittel:      Aus-
 179                wahlliste
 180
 181   stark:       Auswahllis-
 182                te
 183
 184 Ebenso wie die Kategorisierung ist die Markierung der Bindungsstärke
 185 unvollständig.
 186
 187
 188 ¹ In eine genauere „Gütebestimmung“ geht auch der Abstand zu anderen
 189   Trennstellen und die Position im Wort ein.
 190
 191
 192 Ungünstige Trennungen
 193 ---------------------
 194
 195 Ungünstige (irreführende oder sinnentstellende) Trennstellen sind mit
 196 einem Punkt markiert.  Der Punkt ersetzt das Trennzeichen für nicht
 197 kategorisierte Trennstellen oder folgt auf Trennzeichen zur
 198 Kategorisierung:
 199
 200   An·den.ken, Ost=en-.de
 201
 202 Besonders ungünstige Trennstellen können mit mehreren Punkten
 203 gekennzeichnet sein.
 204
 205   .    ungünstig: An·den.ken, Ost=en.de, Re<im<.port
 206   ..   sehr ungünstig: Ge·winn·er..war·tung
 207   ...  äußerst ungünstig: An<al-...pha-bet
 208
 209 Auch die Markierung ungünstiger Trennstellen ist weder eindeutig noch
 210 vollständig.  Bei der Generation der Trennmustern für TeX werden alle
 211 als ungünstig markierten Trennstellen als nicht vorhanden gewertet.
 212
 213
 214 Spezielle Trennungen
 215 --------------------
 216
 217 Folgende Notation wird verwendet, um spezielle Trennungen (für die
 218 traditionelle Rechtschreibung) zu kennzeichnen:
 219
 220   {«ungetrennt»/«getrennt»}
 221
 222 Dreikonsonantenregel:
 223
 224   Ab-fa{ll/ll=l}a-ger
 225
 226 Trennung von „ck“:
 227
 228   Dru{ck/k-k}er
 229
 230 Um z.B. eine Wortliste für TeX zu konstruieren (traditionelle
 231 Rechtschreibung), das solche speziellen Trennungen nicht benutzen kann,
 232 ist folgender regulärer Ausdruck in „perl“ anzuwenden:
 233
 234   s| { ( [^/]* ) / [^}]* } | \1 |gx
 235
 236
 237 Doppeldeutige Trennungen
 238 ------------------------
 239
 240 Doppeldeutige Trennstellen werden folgendermaßen deklariert:
 241
 242   [»Variante A«/»Variante B«]
 243
 244 z.B.
 245
 246   er[<b/b=]recht
 247   Kin[-der=/d=er<.]satz
 248
 249 Für TeX-Trennmuster ist es vielleicht am besten, solche Einträge zu
 250 entfernen und die häufigeren Fälle in einem \hyphenation-Block zu
 251 behandeln.
 252
 253 Sowohl in „[…/…]“ als auch in „{…/…}“ können alle Arten von Trennstellen
 254 auftreten.