dokumente/README.wortliste

   1 Wortliste deutscher Wörter mit gewichteten Trennungen.
   2
   3 Format
   4 ======
   5
   6 Das Zeichen „#“ leitet eine Kommentar ein.
   7
   8 Jede Zeile enthält einen Eintrag mit durch Semikolon „;“ getrennten Feldern.
   9
  10 Bedeutung der Felder
  11 --------------------
  12
  13 Neben dem hier beschriebenem „Langformat“ gibt es das 2017
  14 entwickelte „Kurzformat“, das in ../skripte/python/edit_tools/wortliste.py
  15 beschrieben ist.
  16
  17   1 Wort ungetrennt.
  18   2 Wort mit Trennungen, falls für alle Varianten identisch,
  19     anderenfalls leer.
  20   3 Falls Feld 2 leer, Trennung nach traditioneller Rechtschreibung.
  21   4 Falls Feld 2 leer, Trennung nach reformierter Rechtschreibung (2006).
  22   5 Falls Feld 2 leer, Trennung für Wortform, die in der Schweiz oder mit
  23     Großbuchstaben oder Kapitälchen benutzt wird und für traditionelle und
  24     reformierte Rechtschreibung identisch ist.
  25   6 Falls Feld 5 leer, Trennung für Wortform, die in der Schweiz oder mit
  26     Großbuchstaben oder Kapitälchen benutzt wird, traditionelle
  27     Rechtschreibung.
  28   7 Falls Feld 5 leer, Trennung für Wortform, die in der Schweiz oder mit
  29     Großbuchstaben oder Kapitälchen benutzt wird, reformierte
  30     Rechtschreibung (2006).
  31   8 Falls Feld 5 leer und nicht identisch mit Feld 6, Trennung nach
  32     (deutsch)schweizerischer, traditioneller Rechtschreibung; insbesondere
  33     Wörter mit „sss“ gefolgt von einem Vokal, die wie andere
  34     Dreifachkonsonanten gehandhabt wurden (also anders, als der Duden früher
  35     vorgeschrieben hat), z.B. „süssauer“.
  36
  37 Leere Felder sind mit „-x-“ markiert („x“ ist die Feldnummer).  Das
  38 bedeutet, die Schreibweise existiert in der entsprechenden Rechtschreibung
  39 nicht.
  40
  41 Ausnahme:
  42   Zur Vereinfachung wird bei Wörtern mit ß auf die „Auskreuzung“ von Feld 5
  43   verzichtet.  Ein Eintrag mit weniger als 5 Feldern bedeutet also nicht
  44   automatisch, daß das entsprechende Wort in der Schweiz oder in
  45   Versalschreibung existiert.
  46
  47 Felder 3 und 4 als auch Felder 6 und 7 treten immer simultan auf, um die
  48 Lesbarkeit zu erhöhen.
  49
  50 Feld 8 wird nur angegeben, wenn die Schreibweise nach
  51 (deutsch)schweizerischer, traditioneller Rechtschreibung sich von der
  52 traditionellen Versalschreibung nach Duden unterscheidet.
  53
  54 Zur Erstellung von Trennmustern für die traditionelle Rechtschreibung
  55 benötigt man Felder 2, 3, 5 und 6; für die reformierte Rechtschreibung die
  56 Felder 2, 4, 5 und 7, und für die traditionelle (deutsch)schweizerische die
  57 Felder 2, 3, 5, 6 und 8.  Felder mit höherer Feldnummer haben Priorität.
  58
  59
  60 Sortierung
  61 ==========
  62
  63 Die Sortierung erfolgt nach Dudensortierung.  Die genauen Regeln sind in
  64 der Datei „skripte/sort.py“ beschrieben, welche auch zur maschinellen
  65 Sortierung der Liste verwendet werden kann.
  66
  67
  68 Kennzeichnung der Trennstellen
  69 ==============================
  70
  71 Hinweis: Die Charakterisierung und Wichtung der Trennstellen ist nicht
  72 vollständig.
  73
  74
  75 Kategorisierung
  76 ---------------
  77
  78 Trennstellen an der Grenze sinnbildender Einheiten (Morpheme) werden
  79 speziell gekennzeichnet:
  80
  81   =  an Wortfugen (zwischen Grundmorphemen): Wort=fu-ge
  82   <  nach Präfix oder Verbalpartikel: Vor<sil-be, auf<zäh-len
  83   >  vor Suffix: Gleich>heit, Freund>schaf-ten
  84   -  innerhalb eines Morphems: ge-hen
  85
  86 Morphemgrenzen, an denen keine Trennung erfolgt, werden nicht
  87 gekennzeichnet.  Das betrifft einsilbige Präfixe und viele Suffixe.  (Im
  88 Gegensatz zu Präfixen werden im Deutschen Wörter mit Suffix nicht nach
  89 Etymologie, sondern nach der „Sprechsilbenregel“ getrennt.)
  90
  91   aso-zi-al             a + sozial
  92   An<ord-nung           An + ordn + ung
  93
  94 Motivation:
  95
  96 * Die Trennung an sinnbildenden Einheiten fördert den Lesefluss und ist
  97   daher zu bevorzugen.
  98
  99 * Die Markierung von Morphemgrenzen hilft bei der regelbasierten
 100   Entscheidung über den Aufbruch typographischer Ligaturen und die
 101   Schreibung des S-Lautes in Frakturschrift (Rund-S „s“ vs. Lang-S „ſ“).
 102
 103 Anmerkungen:
 104
 105 * Die Unterscheidung, ob ein Wortbestandteil ein Präfix, Suffix oder ein
 106   Grundmorphem ist, ist oft nicht eindeutig:
 107
 108     em-por<ar-bei-ten   oder   em-por=ar-bei-ten
 109
 110   Grundidee ist, daß „=“ Teile trennt, die als eigenständige Wörter
 111   wahrgenommen werden.
 112
 113 * Schwierig ist die Markierung von „historischen“ Präfixen, die im heutigen
 114   Sprachverständnis nicht als eigenständig wahrgenommen werden:
 115
 116     en<er-gisch, En<er-gie # vgl. Syn<er-gie
 117
 118   aber
 119
 120     Ant-wort, In-du-strie # trotz in<du-zie-ren
 121
 122   Kriterien sind neben dem Sprachgefühl des Bearbeiters die „Güte“ der
 123   Trennstelle (geringe Störung des Leseflusses bei Zeilenumbruch an dieser
 124   Stelle), die Lang-s-Schreibung (Schluss-s auch bei s-s, s-t, oder s-p) und
 125   der Aufbruch von Ligaturen an dieser Stelle.
 126
 127   Immer markiert wird die Morphemgrenze, wenn dort abweichend von der
 128   „Sprechsilbenregel“ getrennt werden kann, z.B.
 129
 130     In<sti-tut # de-1996: In<s-ti-tut
 131
 132   Trennstellen nach § 112 der amtlichen Regeln sind keine Morphemgrenzen:
 133
 134     Ma-gnet, Zy-klus, Fe-bruar
 135
 136 Bindungsstärke und Wichtung
 137 ---------------------------
 138
 139 Die „Bindungsstärke“ gibt die Zusammengehörigkeit von Wortteilen an.
 140 Für die oben eingeführten Kategorien gilt
 141
 142   -  Sprechsilben       starke Bindung
 143
 144   <  Präfixgrenze       mittlere Bindung
 145   >  Suffixgrenze       mittlere Bindung
 146
 147   =  Wortfugen          schwache Bindung
 148
 149 Beispiele:
 150
 151   Aus<wahl=lis-te               (Aus + wahl) + (lis-te)
 152   fern=ab<ge<le-gen             fern + (ab + (ge + (le-gen)))
 153   Abend=lüft>chen               Abend + (lüft + chen)
 154
 155 Präfixe sind „rechtsbindend“:¹
 156
 157   un<voll<stän-dig              un + (voll + ständig)
 158   un<aus<ge<go-ren              un + (aus + (ge + (go-ren)))
 159
 160   ¹ Ausnahme: Ein eingeschobenes „zu“ oder „ge“ übernimmt die Markierung
 161     der Einschubstelle auf beiden Seiten:
 162
 163       nach<zu<wei-sen           (nach + weisen) + zu
 164
 165 Suffixe sind „linksbindend“:
 166
 167   Acht>lo-sig>keit              (Acht + lo-sig) + keit
 168
 169
 170 Bei mehrteiligen Komposita kann die Bindungshierarchie durch Doppelung
 171 des Trennzeichens genauer beschrieben werden:
 172
 173   Alp=horn==trio                (Alp + horn) + trio
 174   Berg===fünf=fin-ger==kraut    Berg + ((fünf + (fin-ger)) + kraut)
 175
 176 Trennstellen gleicher Kategorie ohne Doppelung bezeichnen entweder
 177 gleichwertige Wortbestandteile, Zerlegungsalternativen, eingeschobene Teile
 178 oder sind (noch) nicht gewichtet:
 179
 180   Abend=brot=zeit               Abendbrot-Zeit / Abend-Brotzeit
 181   stand=zu=hal-ten              stand+zu+halten (eingeschobenes zu)
 182
 183 Die gemischten Trennzeichen „<=“ und „=>“ kennzeichnen die
 184 Bindungsverhältnisse, wenn sich ein Affix auf mehrere Teile eines
 185 Kompositums bezieht:
 186
 187   un<=wahr=schein-lich          un + (wahr + scheinlich)
 188   Be<=gut=ach-tungs==frist      (Be + (gut + achtungs)) + frist
 189
 190   an-dert=halb=>fach            (andert + halb) + fach
 191   zwei==ein=halb==>fa-che       (zwei + (ein + halb)) + fache
 192   Vor<her=sag=>bar>keit         (((Vor + her) + sag) + bar) + keit
 193
 194 Die Bindungsstärke nimmt dabei mit der Länge des Trennzeichens ab:
 195
 196   Bindungsstärke   Zeichen
 197   --------------   -------------
 198   stark            -
 199   .                <, >
 200   .                =
 201   .                ==, <=, =>
 202   schwach          ===, <==, ==>
 203
 204
 205 Im Allgemeinen ist die Bindungsstärke umgekehrt proportional zur „Güte“
 206 (oder dem „Gewicht“) einer Trennstelle:¹
 207
 208   Bindungsstärke      Güte/Gewicht            Beispiel
 209   --------------      -----------------       -----------
 210   schwach             Vorzugstrennungen       Auswahl-
 211                                               liste
 212
 213   mittel              mittel                  Aus-
 214                                               wahlliste
 215
 216   stark               weniger gut             Auswahllis-
 217                                               te
 218
 219 ¹ In eine genauere „Gütebestimmung“ geht auch der Abstand zu anderen
 220   Trennstellen und die Position im Wort ein.
 221
 222 Ebenso wie die Kategorisierung ist die Markierung der Bindungsstärke
 223 unvollständig.
 224
 225
 226 ungünstige Trennungen
 227 ---------------------
 228
 229 Ungünstige (irreführende oder sinnentstellende) Trennstellen sind mit einem
 230 Punkt markiert.  Der Punkt folgt auf Trennzeichen zur Kategorisierung.
 231
 232   An<den-.ken, Ost=en-.de
 233
 234 Besonders ungünstige Trennstellen können mit mehreren Punkten gekennzeichnet
 235 sein.
 236
 237   .    ungünstig: An<den-.ken, Ost=en-.de, Re<im<.port
 238   ..   sehr ungünstig: Ge<winn=er<..war-tung
 239   ...  äußerst ungünstig: An<=al-...pha=bet
 240
 241 Auch die Markierung ungünstiger Trennstellen ist weder eindeutig noch
 242 vollständig.  Bei der Generation der Trennmustern für TeX werden alle als
 243 ungünstig markierten Trennstellen als nicht vorhanden gewertet.
 244
 245
 246 spezielle Trennungen
 247 --------------------
 248
 249 Folgende Notation wird verwendet, um spezielle Trennungen (für die
 250 traditionelle Rechtschreibung) zu kennzeichnen:
 251
 252   {„ungetrennt“/„getrennt“}
 253
 254 Dreikonsonantenregel:
 255
 256   Ab-fa{ll/ll=l}a-ger
 257
 258 Trennung von „ck“:
 259
 260   Dru{ck/k-k}er
 261
 262 Um z.B. eine Wortliste für TeX zu konstruieren (traditionelle
 263 Rechtschreibung), das solche speziellen Trennungen nicht benutzen kann, ist
 264 folgender regulärer Ausdruck in „perl“ anzuwenden, um sie zu entfernen:
 265
 266   s|\{ (.*?) / .*? \}|$1|gx
 267
 268
 269 doppeldeutige Trennungen
 270 ------------------------
 271
 272 Doppeldeutige Trennstellen werden folgendermaßen deklariert:
 273
 274   [„Variante A“/„Variante B“]
 275
 276 Beispiel:
 277
 278   er[<b/b=]recht                Erb=recht    / er<brecht
 279   Kin[-der=/d=er<.]satz         Kin-der=satz / Kind=er<.satz
 280
 281 Für TeX-Trennmuster ist es vielleicht am besten, solche Einträge zu
 282 entfernen und die häufigeren Fälle in einem \hyphenation-Block zu behandeln.
 283 Hier ein passender regulärer Ausdruck für „perl“:
 284
 285   s|\[ (.*?) / .*? \]|$1|gx
 286
 287 Sowohl in „[…/…]“ als auch in „{…/…}“ können alle Arten von Trennstellen
 288 auftreten.