dokumente/README.wortliste

   1 Wortliste deutscher Wörter mit gewichteten Trennungen
   2
   3
   4 Bedeutung der Felder
   5 ====================
   6
   7   1 Wort ungetrennt
   8   2 Wort mit Trennungen, falls für alle Varianten identisch,
   9     anderenfalls leer
  10   3 falls Feld 2 leer, Trennung nach traditioneller Rechtschreibung
  11   4 falls Feld 2 leer, Trennung nach reformierter Rechtschreibung (2006)
  12   5 falls Feld 2 leer, Trennung für Wortform, die entweder in
  13     der Schweiz oder mit Großbuchstaben oder Kapitälchen benutzt wird
  14     und für traditionelle und reformierte Rechtschreibung identisch ist
  15   6 falls Feld 5 leer, Trennung für Wortform, die entweder in
  16     der Schweiz oder mit Großbuchstaben oder Kapitälchen benutzt wird,
  17     traditionelle Rechtschreibung
  18   7 falls Feld 5 leer, Trennung für Wortform, die entweder in
  19     der Schweiz oder mit Großbuchstaben oder Kapitälchen benutzt wird,
  20     reformierte Rechtschreibung (2006)
  21   8 falls Feld 5 leer und nicht identisch mit Feld 6, Trennung nach
  22     (deutsch)schweizerischer, traditioneller Rechtschreibung; insbesondere
  23     Wörter mit `sss' gefolgt von einem Vokal, die wie andere
  24     Dreifachkonsonanten gehandhabt wurden (also anders, als der Duden früher
  25     vorgeschrieben hat), z.B. `süssauer'
  26
  27 Leere Felder sind mit `-x-' markiert (`x' ist die Feldnummer); Felder 3
  28 und 4 als auch Felder 6, 7 und 8 treten immer simultan auf, um die
  29 Lesbarkeit zu erhöhen.
  30
  31 Zur Erstellung von Trennmustern für die traditionelle Rechtschreibung
  32 benötigt man Felder 2, 3, 5, und 6; für die reformierte Rechtschreibung
  33 die Felder 2, 4, 5 und 7, und für die traditionelle
  34 (deutsch)schweizerische die Felder 2, 3, 5, 6 und 8.  Felder mit höherer
  35 Feldnummer haben Priorität.
  36
  37
  38 Sortierung
  39 ==========
  40
  41 Die Sortierung erfolgt nach Dudensortierung.  Die genauen Regeln sind in der
  42 Datei `skripte/sort.py' beschrieben, welche auch zur maschinellen Sortierung
  43 der Liste verwendet werden kann.
  44
  45
  46 Kennzeichnung der Trennstellen
  47 ==============================
  48
  49 Die Charakterisierung und Wichtung der Trennstellen ist nicht vollständig.
  50
  51 Kategorisierung
  52 ---------------
  53
  54 Trennstellen an der Grenze sinnbildender Einheiten (Morpheme) werden
  55 speziell gekennzeichnet:
  56
  57   =  an Wortfugen (zwischen Grundmorphemen): Wort=fu-ge
  58   <  nach Präfix oder Verbalpartikel: Vor<sil-be, auf<zäh-len
  59   >  vor Wortbildungssuffix: Gleich>heit, Freund>schaf-ten
  60
  61   -  innerhalb eines Morphems: ge-hen
  62   ·  nicht kategorisiert: acker·bau·trei·ben·de
  63
  64 Motivation:
  65
  66 * Die Trennung an sinnbildenden Einheiten fördert den Lesefluss und ist
  67   daher zu bevorzugen
  68
  69 * Die Markierung von Morphemgrenzen hilft bei der regelbasierten
  70   Entscheidung über den Aufbruch typographischer Ligaturen und die
  71   Schreibung des S-Lautes in Frakturschrift (Rund-S `s' vs. Lang-S `ſ').
  72
  73 Anmerkungen:
  74
  75 * Die Kategorisierung der Trennstellen ist nicht abgeschlossen.
  76   Zur Zeit sind einige Trennstellen nach Präfix oder Verbalpartikel und
  77   viele Trennstellen vor Suffixen noch mit `-' bezeichnet.
  78
  79 * Die Unterscheidung, ob ein Wortbestandteil ein Präfix, Suffix oder ein
  80   Grundmorphem ist, ist oft nicht eindeutig:
  81
  82     em-por<ar-bei-ten oder em-por=ar-bei-ten
  83
  84 * Viele `etymologische' Präfixe, die im heutigen Sprachverständnis nicht
  85   mehr als Präfixe wahrgenommen werden, sind nicht speziell markiert:
  86
  87     En-er-gie, Ant-wort
  88
  89   Kriterien sind neben der `Güte' der Trennstelle (Nicht-Störung des
  90   Leseflusses bei Zeilenumbruch an dieser Stelle) die Lang-s-Schreibung
  91   (Schluss-s auch bei s-s, s-t, oder s-p) und der Aufbruch von Ligaturen
  92   an dieser Stelle.
  93
  94 * Morphemgrenzen an denen keine Trennung erfolgt werden nicht gekennzeichnet.
  95
  96   Im Gegensatz zu Präfixen, werden im Deutschen Wörter mit Suffix nicht nach
  97   Ethymologie, sondern nach der `Sprechsilbenregel' getrennt:
  98
  99     An>ord-nung          An + ordn + ung
 100
 101
 102 Wichtung
 103 --------
 104
 105 Für die Bindungsstärke B von Trennstellen verschiedener Kategorien gilt
 106
 107   B(`-') > B(`<') = B(`>') > B(`=')
 108
 109 das heißt:
 110
 111   Aus<wahl=lis-te        (Aus + wahl) + (lis-te)
 112   fern=ab<ge<le-gen      fern + (ab + (ge + (le-gen)))
 113   Abend=lüft>chen        Abend + (lüft + chen)
 114
 115 Präfixe sind `rechtsbindend':
 116
 117   un<voll<stän-dig       un + (voll + ständig)
 118   un<aus<ge<go-ren       un + (aus + (ge + (go-ren)))
 119
 120 Suffixe sind `linksbindend':
 121
 122   Acht>lo-sig>keit     (Acht + losig) + keit
 123
 124 Die unterschiedliche Bindungsstärke von Trennungen der Kategorie
 125 `-' und `=' kann durch Doppellung des Trennzeichens markiert werden:
 126
 127   Alp=horn==trio              (Alp + horn) + trio
 128   Berg===fünf=fin-ger==kraut  Berg + ((fünf + (fin-ger)) + kraut)
 129
 130 Verschiedene Trennstellen dieser Kategorien ohne Doppelung bezeichnen
 131 entweder gleichwertige Wortbestandteile, Zerlegungsalternativen oder sind
 132 (noch) nicht gewichtet:
 133
 134   Abend=brot=zeit        (Abend + brot) + zeit oder Abend + (brot + zeit)
 135
 136 Das gemischte Trennzeichen `<=' kennzeichnet die Bindungverhältnisse,
 137 wenn sich ein echter Präfix auf das gesamte folgende Kompositum bezieht:
 138
 139   un<=wahr=schein-lich  un + (wahr + scheinlich)
 140
 141 Das gemischte Trennzeichen `>=' kennzeichnet die Bindungsverhältnisse, wenn
 142 sich ein Suffix auf das gesamte vorhergehende Kompositum bezieht
 143
 144   an-dert=halb>=fach     ((an+dert) + halb) + fach
 145
 146 Das erste Zeichen eines gemischten Trennzeichens kennzeichnet die
 147 Kategorie der Trennstelle.
 148
 149 Ebenso wie die Charakterisierung ist die Markierung der Bindungstärke
 150 unvollständig.
 151
 152
 153 Ungünstige Trennungen
 154 ---------------------
 155
 156 Ungünstige (irreführende oder sinnentstellende) Trennstellen sind mit einem
 157 Punkt markiert.  Der Punkt ersetzt das Trennzeichen für nicht kategorisierte
 158 Trennstellen oder folgt auf Trennzeichen zur Kategorisierung:
 159
 160   An·den.ken, Ost=en-.de
 161
 162 Besonders ungünstige Trennstellen können mit mehreren Punkten
 163 gekennzeichnet sein.
 164
 165   .    ungünstig: An·den.ken, Ost=en.de, Re<im<.port
 166   ..   sehr ungünstig: Ge·winn·er..war·tung
 167   ...  äußerst ungünstig: An<al-...pha-bet
 168
 169 Auch die Markierung ungünstiger Trennstellen ist weder eindeutig noch
 170 vollständig.  Bei der Generation der Trennmustern für TeX werden alle als
 171 ungünstige markierten Trennstellen als nicht vorhanden gewertet.
 172
 173
 174 Spezielle Trennungen
 175 --------------------
 176
 177 Folgende Notation wird verwendet, um spezielle Trennungen (für die
 178 traditionelle Rechtschreibung) zu kennzeichnen:
 179
 180   {«ungetrennt»/«getrennt»}
 181
 182 Dreikonsonantenregel:
 183
 184   Ab-fa{ll/ll-l}a-ger
 185
 186 Trennung von `ck':
 187
 188   Dru{ck/k·k}er
 189
 190 Um z.B. eine Wortliste für TeX zu konstruieren (traditionelle
 191 Rechtschreibung), das solche speziellen Trennungen nicht benutzen kann,
 192 ist folgender regulärer Ausdruck in `perl' anzuwenden:
 193
 194   s| { ( [^/]* ) / [^}]* } | \1 |gx
 195
 196
 197 Doppeldeutige Trennstellen werden folgendermaßen deklariert:
 198
 199   [«Variante A»/«Variante B»]
 200
 201 z.B.
 202
 203   er[b-/-b]recht
 204
 205 Für TeX-Trennmuster ist es vielleicht am besten, solche Einträge zu
 206 entfernen und die häufigeren Fälle in einem \hyphenation-Block zu
 207 behandeln.
 208
 209 Sowohl in `[…/…]' als auch in `{…/…}' können alle Arten von
 210 gewichteten und ungewichteten Trennstellen auftreten.