Kategorie- und Wichtungskorrekturen
[wortliste.git] / dokumente / README.wortliste
blob33dc5c10ff946c95c2b2a13daa1ffebeed828008
1 Wortliste deutscher Wörter mit Trennungen.
4 Format
5 ======
7 Das Zeichen „#“ leitet eine Kommentar ein.
9 Jede Zeile enthält einen Eintrag mit durch Semikolon „;“ getrennten Feldern.
11 Bedeutung der Felder
12 --------------------
14 Neben dem hier beschriebenem „Langformat“ gibt es das 2017 entwickelte
15 „Kurzformat“, das in „../skripte/python/edit_tools/wortliste.py“ beschrieben
16 ist.
18   Feldnummer  Bedeutung
19   ----------  -------------------------------------------------------------
20         1     Wort ungetrennt.
21         2     Wort mit Trennungen, falls für alle Varianten identisch,
22               anderenfalls leer.
23         3     Falls Feld 2 leer, Trennung nach traditioneller
24               Rechtschreibung.
25         4     Falls Feld 2 leer, Trennung nach reformierter Rechtschreibung
26               (2006).
27         5     Falls Feld 2 leer, Trennung für Wortform, die in der Schweiz
28               oder mit Großbuchstaben oder Kapitälchen benutzt wird und für
29               traditionelle und reformierte Rechtschreibung identisch ist.
30         6     Falls Feld 5 leer, Trennung für Wortform, die in der Schweiz
31               oder mit Großbuchstaben oder Kapitälchen benutzt wird,
32               traditionelle Rechtschreibung.
33         7     Falls Feld 5 leer, Trennung für Wortform, die in der Schweiz
34               oder mit Großbuchstaben oder Kapitälchen benutzt wird,
35               reformierte Rechtschreibung (2006).
36         8     Falls Feld 5 leer und nicht identisch mit Feld 6, Trennung
37               nach (deutsch)schweizerischer, traditioneller Rechtschreibung
38               mit Trennung von „ss“, auch wenn es für „ß“ steht.
40 Leere Felder sind mit „-x-“ markiert („x“ ist die Feldnummer).  Das
41 bedeutet, die Schreibweise existiert in der entsprechenden Rechtschreibung
42 nicht.
44 Ausnahme:
45   Zur Vereinfachung wird bei Wörtern mit „ß“ auf die „Auskreuzung“ von
46   Feld 5 verzichtet.  Ein Eintrag mit weniger als 5 Feldern bedeutet also
47   nicht automatisch, dass das entsprechende Wort in der Schweiz oder in
48   Versalschreibung existiert.
50 Felder 3 und 4 als auch Felder 6 und 7 treten immer simultan auf, um die
51 Lesbarkeit zu erhöhen.
53 Feld 8 wird nur angegeben, wenn sich die Schreibweise nach
54 (deutsch)schweizerischer, traditioneller Rechtschreibung von der
55 traditionellen Versalschreibung nach Duden unterscheidet.
57 Zur Erstellung von Trennmustern für die traditionelle Rechtschreibung
58 benötigt man Felder 2, 3, 5 und 6; für die reformierte Rechtschreibung die
59 Felder 2, 4, 5 und 7, und für die traditionelle (deutsch)schweizerische die
60 Felder 2, 3, 5, 6 und 8.  Felder mit höherer Feldnummer haben Priorität.
63 Sortierung
64 ==========
66 Die Sortierung erfolgt nach Dudensortierung.  Die genauen Regeln sind in der
67 Datei „skripte/sort.py“ beschrieben, welche auch zur maschinellen Sortierung
68 der Liste verwendet werden kann.
71 Kennzeichnung der Trennstellen
72 ==============================
74 (Un)Vollständigkeit
75 -------------------
77 Es sind nicht alle regulär zulässigen Trennstellen markiert. Dies betrifft
78 einige Trennungen zwischen Vokalen mit uneinheitlicher Aussprache sowie eine
79 größere Zahl der mit der Rechtschreibreform 1996 eingeführten Wahltrennungen.
81 Motivation:
83 * Ein Ziel der Alternativ-Trennregeln ist es, dass der Schreibende
84   auch ohne Bezug auf ein explizites Wörterverzeichnis konforme
85   Trennungen setzen kann (gut für den Schreiber).
87   Die Wortliste ist ein explizites Wörterverzeichnis mit dem Ziel, Schreib-
88   oder Anzeigeprogrammen „gute“ Trennungen beizubringen (gut für den Leser).
89   Ein Test, ob eine gegebene Trennung nach amtlichen Regeln zulässig ist,
90   gehört nicht zu den Anwendungsfällen.
92   Die unterschiedliche Zielsetzung erklärt auch Abweichungen von anderen
93   Wörterverzeichnissen bei der Auswahl gekennzeichneter Trennstellen.
95 * Im Falle der Alternativtrennungen in Fremdwörtern nach §112
96   (no-b-le, Zy-k-lus, Fe-b-ru-ar, Hy-d-rant, Ar-th-ri-tis, ...) sind
97   nur die traditionellen Trennstellen markiert. Trennungen nach
98   deutschen Regelsilben können automatisiert erstellt werden (vgl.
99   „Trennstile.txt“). Die Aufnahme von nach §112 formal zulässigen,
100   aber in traditioneller Rechtschreibung unzulässigen Trennungen
101   (Te-chnik, Zen-tner, Inte-rnat) erscheint kontraproduktiv.
103 * Bei Trennung nach „Empfinden“ des Schreibenden bei „verblasster
104   Herkunft“, §113 gibt es keine allgemeingültige Festlegung über die
105   Trennmöglichkeiten.  Daher kann eine Vollständigkeit grundsätzlich nicht
106   erreicht werden. In der Wortliste sind Alternativtrennungen nur
107   gekennzeichnet, wenn sie für hilfreich (oder zumindest unschädlich) für
108   das Textverständnis und günstig für die Silbentrennung in Gesangstexten
109   angesehen werden.
111 * Auch bei Trennung nach Aussprache („Vokalbuchstaben, die zu verschiedenen
112   Silben gehören“, §109) existiert eine Grauzone. In der Wortliste werden die
113   traditionellen Trennstellen gekennzeichnet, wenn sie mit den aktuellen
114   Regeln konform sind.
117 Kategorisierung
118 ---------------
120 Trennstellen an der Grenze funktionstragender Einheiten (Morpheme) werden
121 speziell gekennzeichnet:
123   Marker  Bedeutung und Position
124   ------  ----------------------------------------------------------------
125       =   an der Fuge in Zusammensetzungen: Wort=fu-ge
126       <   nach Präfix, Konfix oder Verbalpartikel: Vor<sil-be, auf<zäh-len
128       >   vor Suffix: Gleich>heit, Freund>schaf-ten
130       -   innerhalb eines Morphems: ge-hen
132       ·   am Rand eines Morphems oder bei einzeln ausgesprochenen
133           Abkürzungen: A·i-da, P·K·Ws.
134           Nur im Gesangstext zulässig (siehe unten).
136 Kombinationen dieser Zeichen kennzeichnen die „Wichtung“ einer Trennstelle
137 oder eine Kombination von Eigenschaften (siehe unten):
139     A<·scor-bin, Be<=gut=ach-tungs==frist
141 Motivation:
143 * Die Trennung an sinnbildenden Einheiten fördert den Lesefluss und ist
144   daher zu bevorzugen.
146 * Die Markierung von Morphemgrenzen hilft bei der regelbasierten
147   Entscheidung über den Aufbruch typographischer Ligaturen und die
148   Schreibung des S-Lautes in Frakturschrift (Rund-S „s“ vs. Lang-S „ſ“).
150 * Die Markierung erlaubt die Zuordnung von Wahltrennungen nach §113 des
151   amtlichen Regelwerks (vgl. „Trennstile.txt“):
153     hi-n<auf, Chry-s<an-the-me, He-li-ko<p-ter, Li-n<o-le-um, Pä-d<a-go-gik
155 Anmerkungen:
157 * Morphemgrenzen, an denen keine Trennung erfolgt, werden nicht
158   gekennzeichnet.
160 * Schwierig ist die Markierung von assimilierten und „verblassten” Präfixen,
161   die im heutigen Sprachverständnis nicht als eigenständig wahrgenommen
162   werden.
164   Kriterien sind die „Güte“ der Trennstelle (geringe Störung des Leseflusses
165   bei Zeilenumbruch an dieser Stelle), Abweichungen von den Regeln zum
166   Trennen einfacher Wörter, die Lang-S-Schreibung im Fraktursatz und der
167   Aufbruch von Ligaturen an dieser Stelle.
169     En<er-gie     # Vokal am Silbenanfang
170     Af-fekt       # ff-Ligatur trotz < lat. afficere < ad- + facere
172   Wenn keine besonderen Gründe vorliegen, wird die einfache Auszeichnung
173   bevorzugt:
175     Ant-wort, Di-rek-tor, In-te-gral  # trotz in<te-ger
177 * Trennstellen nach §112 der amtlichen Regeln (Muta cum Liquida) sind keine
178   Morphemgrenzen, können aber mit diesen zusammenfallen
180     Ma-gnet, Zy-klus, Re<flek-tor, Di·a<gno-se
183 * Die Unterscheidung, ob ein Wortbestandteil ein Affix oder ein
184   lexikalisches Morphem ist, ist oft nicht eindeutig:
186     em-por<ar-bei-ten    oder    em-por=ar-bei-ten
187     wel-len>för-mig      oder    wel-len=för-mig
189   Grundidee ist, dass „=“ Teile trennt, die als eigenständige Teile
190   wahrgenommen werden.
192   Morpheme, die eine lexikalische Bedeutung besitzen, aber nicht frei
193   auftreten können (Konfixe bzw. gebundene lexikalische Morpheme), werden
194   aus pragmatischen Gründen (meist) wie Affixe ausgezeichnet:
196     Alt=pleis-to<zän  statt  Alt==pleis-to=zän
198   Zu einigen dieser Konfixe existiert ein freies Homonym mit eigener
199   Bedeutung:
201     Au-to<kor<re<la-ti.on  aber  Au-to=ab<ga-se
202     Ra-dio<ak-ti-vi-tät    aber  Ra-dio=an<sa-ge-rin
204 Für Details siehe `Trennzeichen-HOWTO.txt`.
207 Bindungsstärke und Wichtung
208 ---------------------------
210 Die „Bindungsstärke“ gibt die Zusammengehörigkeit von Wortteilen an.
211 Für die oben eingeführten Kategorien gilt:
213   Marker  Funktion      Bindung
214   ------  ------------  -------
215      -    Sprechsilben  stark
217      <    Präfixgrenze  mittel
218      >    Suffixgrenze  mittel
220      =    Wortfugen     schwach
222 Beispiele:
224   Aus<wahl=lis-te    # (Aus- + wahl) + liste
225   fern=ab<ge<le-gen  # fern + (ab- + (ge- + legen))
226   Abend=lüft>chen    # Abend + (lüft + -chen)
228 Präfixtrenner sind „rechtsbindend“:¹
230   un<voll<stän-dig  # un + (voll + ständig)
231   un<aus<ge<go-ren  # un + (aus + (ge + (go-ren)))
233   ¹ Ausnahme: Ein eingeschobenes „zu“ oder „ge“ übernimmt die Markierung der
234     Einschubstelle auf beiden Seiten:
236       nach<zu<wei-sen  # (nach + weisen) + zu
237       ab<ge<fah-ren    # (ab- + fahren) + ge-
239 Suffixtrenner sind „linksbindend“:
241   Acht>lo-sig>keit  # (Acht + lo-sig) + keit
243 Bei mehrteiligen Komposita kann die Bindungshierarchie durch Doppelung des
244 Trennzeichens genauer beschrieben werden:
246   Alp=horn==trio              # (Alp + horn) + trio
247   Berg===fünf=fin-ger==kraut  # Berg + ((fünf + (fin-ger)) + kraut)
249 Trennstellen gleicher Kategorie ohne Doppelung bezeichnen entweder
250 gleichwertige Wortbestandteile, Zerlegungsalternativen, eingeschobene Teile
251 oder sind noch nicht gewichtet:
253   Abend=brot=zeit   # Abendbrot-Zeit / Abend-Brotzeit
255   stand=zu=hal-ten  # stand+zu+halten (eingeschobenes zu)
256   Bundes=familien=ministerium # Bundesministerium für Familie, Senioren, Frauen und Jugend
258 Die gemischten Trennzeichen „<=“ und „=>“ kennzeichnen die
259 Bindungsverhältnisse, wenn sich ein Affix auf mehrere Teile eines
260 Kompositums bezieht:
262   un<=wahr=schein-lich      # un + (wahr + scheinlich)
263   Be<=gut=ach-tungs==frist  # (Be + (gut + achtungs)) + frist
265   an-dert=halb=>fach        # (andert + halb) + fach
266   zwei==ein=halb==>fa-che   # (zwei + (ein + halb)) + fache
267   Vor<her=sag=>bar=>keit    # (((Vor + her) + sag) + bar) + keit
269 Die Bindungsstärke nimmt dabei mit der Länge des Trennzeichens ab:
271   Bindungsstärke  Zeichen
272   --------------  -------------
273   stark           -
274   .               <, >
275   .               =
276   .               ==, <=, =>
277   schwach         ===, <==, ==>
279 Im Allgemeinen ist die Bindungsstärke umgekehrt proportional zur „Güte“
280 (oder dem „Gewicht“) einer Trennstelle:²
282   Bindungsstärke  Güte/Gewicht       Beispiel
283   --------------  -----------------  -----------
284   schwach         Vorzugstrennungen  Auswahl-
285                                      liste
287   mittel          mittel             Aus-
288                                      wahlliste
290   stark           weniger gut        Auswahllis-
291                                      te
293 ² In eine genauere „Gütebestimmung“ geht auch der Abstand zu anderen
294   Trennstellen und die Position im Wort ein.
296 ungünstige Trennungen
297 ---------------------
299 Ungünstige Trennstellen sind mit einem Punkt markiert. In der Regel folgt
300 der Punkt dem Trennzeichen:
302   An<den-.ken, Re<im<.port  # ↗irreführende Trennungen
303   Se-.en                    # ↗Nottrennung
305 es sei denn, die Trennung soll im Gesangstext unterdrückt werden:
307   Thy-mi.an                 # ↗Schwankungsfall
309 Achtung:
310   Die Markierung ungünstiger Trennstellen ist weder eindeutig noch
311   vollständig.
313 Bei der Generation der Trennmustern für TeX werden diese Trennstellen in der
314 Regel aussortiert (bis auf ↗Schwankungsfälle wenn kein Flattervokal
315 vorliegt: ge-ni.al, Ra-ti.on).
316 In einigen Trennstilen (Gesangstext oder enge Spalten) werden auch
317 ungünstige Trennstellen berücksichtigt (↗Trennstile.txt).
319 irreführende Trennungen
320 ~~~~~~~~~~~~~~~~~~~~~~~
321 Bei irreführenden oder sinnentstellenden Trennungen folgt der Punkt auf das
322 Trennzeichen. Besonders ungünstige Trennstellen können mit mehreren Punkten
323 gekennzeichnet sein.
325   Punktzahl  Qualität           Beispiele
326   ---------  -----------------  ------------------------------------
327       1      ungünstig          An<den-.ken, Ost=en-.de, Re<im<.port
328       2      sehr ungünstig     Ge<winn=er<..war-tung
329       3      äußerst ungünstig  An<=al-...pha=bet
331 Nottrennungen
332 ~~~~~~~~~~~~~
334 Im Regelteil der Leipziger Dudenausgabe von 1971 wird die Trennung
336 * bei Ableitungen slawischer Namen auf -ow (Teltow-.er;Telto-.wer),
337 * in Vokalverbindungen im ↗Schwankungsfall (Mil-li.on, Mil-li.o-när)
338 * und bei entfallenem „e“ (Arme-.en, Se-.en, Demokrati-.en)
340 als zulässig, aber nicht empfohlen beschrieben.
342 Der „Einheitsduden“ (1991) und Wahrig (1980) nutzen den Begriff der
343 Nottrennung nicht. Im Wörterverzeichnis werden Nottrenstellen entweder als
344 reguläre Trennstellen markiert, oder (wenn eine Ein-Vokal-Silbe folgt und
345 bei entfallenem „e“) nicht angegeben.
347 Die „amtlichen Regeln“ (1996) geben keine Trennempfehlungen,
348 Wörterverzeichnisse in neuer Rechtschreibung listen die Nottrennstellen
349 als zulässige Trennmöglichkeiten auf. Die Empfehlungen des
350 Online-Duden schließen zum Teil frühere Nottrennungen ein.
352 Schwankungsfälle
353 ~~~~~~~~~~~~~~~~
354 In einigen Wörtern ist unklar, ob benachbarte Vokale zur gleichen Silbe oder
355 zu verschiedenen Silben gehören:
357   Ion/I-on, ge-nial/ge-ni-al, Ri-vie-ra/Ri-vi-e-ra, Mil-lio-nen/Mil-li-o-nen
359 Häufig weichen die im aktuellen Duden angegebenen Trennmöglichkeiten
360 von der Textverteilung in Liedern ab:
362   Duden(2006): na-ti-o-nal
363   Liedtext:    „Ju- gend al- ler Na- tio- nen…“
365 Diese Trennungen werden in der Wortliste mit einem einfachen Punkt (ohne
366 vorangestelltes Trennzeichen) gekennzeichnet
368   Na-ti.on, Mil-li.on, To.i-let-te, ge-ni.al, ge-ni.a-le
370 und, im Gegensatz zu anderen ungünstigen Trennungen, bei der Ausgabe von
371 Gesangstext nicht berücksichtigt.
374 Gesangstrennungen
375 -----------------
377 Im Gesangstext unter Noten muss jede getrennt gesprochene Silbe abgeteilt
378 werden (↗Trennstile.txt, ↗Gesangstext.txt). Die im „normalen“ Text nicht
379 zulässigen Trennungen an Wortanfang oder -ende sowie zwischen einzeln
380 gesprochenen Buchstaben von Abkürzungen werden mit dem Mittenpunkt „·“
381 markiert:
383   A·i-da        # getrennt gesprochen
384   Ka-sta-ni·e   # getrennt gesprochen
385   Zo·o<lo-gie   # getrennt gesprochen
386   A<·s-pekt     # Wahltrennung nach §113: Präfix „a-“ oder Sprechsilbe
387   A·pri-ko-se   # Trennung nach §112
388   A·R·D         # Abk.: allg. Rundfunk Deutschlands
389   P·K·Ws        # Abk.: Personenkraftwagen (Mz.)
391 Hinweis:
392   Fällt eine Randtrennung mit einer Wahltrennung nach §113 zusammen, wird
393   sie mit „-“ markiert.
395     Abitur;-2-;Ab<i·tur;A·b<i-tur
397   (Nach den amtlichen Regeln sind „Ab-itur“ und „Abi-tur“ zulässig.)
400 spezielle Trennungen
401 --------------------
403 Folgende Notation wird verwendet, um spezielle Trennungen (für die
404 traditionelle Rechtschreibung) zu kennzeichnen:
406   {„ungetrennt“/„getrennt“}
408 Dreikonsonantenregel:
410   Ab<fa{ll/ll=l}a-ger
412 Trennung von „ck“:
414   Dru{ck/k-k}er
416 Um z.B. eine Wortliste für TeX zu konstruieren (traditionelle
417 Rechtschreibung), das solche speziellen Trennungen nicht benutzen kann, ist
418 folgender regulärer Ausdruck in „perl“ anzuwenden, um sie zu entfernen:
420   s|\{ (.*?) / .*? \}|$1|gx
422 doppeldeutige Trennungen
423 ------------------------
425 Abweichende Trennstellen in mehrdeutigen Wörtern werden folgendermaßen
426 deklariert:
428   [„Variante A“/„Variante B“]
430 Beispiel:
432   er[<b/b=]recht         # Erb=recht    / er<brecht
433   Kin[-der=/d=er<.]satz  # Kin-der=satz / Kind=er<.satz
435 Für TeX-Trennmuster ist es vielleicht am besten, solche Einträge zu
436 entfernen und die häufigeren Fälle in einem \hyphenation-Block zu behandeln.
437 Hier der entsprechende Code für „perl“:
439   sub entferne_marker {
440     my $arg = shift;
441     $arg =~ s/[.·<>=-]//g;
442     return $arg;
443   }
445   s|\[ (.*?) / .*? \]|entferne_marker($1)|egx;
447 Sowohl in „[…/…]“ als auch in „{…/…}“ können alle Arten von Trennstellen
448 auftreten.