Neue Komposita.
[wortliste.git] / dokumente / README.wortliste
blob8c47d2c780705835694cdb080932500a7affc400
1 Wortliste deutscher Wörter mit Trennungen.
4 Format
5 ======
7 Das Zeichen „#“ leitet eine Kommentar ein.
8 (Zur Syntax der Kommentare siehe letzter Abschnitt.)
10 Jede Zeile enthält einen Eintrag mit durch Semikolon „;“ getrennten Feldern.
12 Bedeutung der Felder
13 --------------------
15 Neben dem hier beschriebenem „Langformat“ gibt es das 2017 entwickelte
16 „Kurzformat“, das in „../skripte/lib/py_wortliste/wortliste.py“ beschrieben
17 ist.
19   Feldnummer  Bedeutung
20   ----------  -------------------------------------------------------------
21         1     Wort ungetrennt.
22         2     Wort mit Trennungen, falls für alle Varianten identisch,
23               anderenfalls leer.
24         3     Falls Feld 2 leer, Trennung nach traditioneller
25               Rechtschreibung.
26         4     Falls Feld 2 leer, Trennung nach reformierter Rechtschreibung
27               (2006).
28         5     Falls Feld 2 leer, Trennung für Wortform, die in der Schweiz
29               oder mit Großbuchstaben oder Kapitälchen benutzt wird und für
30               traditionelle und reformierte Rechtschreibung identisch ist.
31         6     Falls Feld 5 leer, Trennung für Wortform, die in der Schweiz
32               oder mit Großbuchstaben oder Kapitälchen benutzt wird,
33               traditionelle Rechtschreibung.
34         7     Falls Feld 5 leer, Trennung für Wortform, die in der Schweiz
35               oder mit Großbuchstaben oder Kapitälchen benutzt wird,
36               reformierte Rechtschreibung (2006).
37         8     Falls Feld 5 leer und nicht identisch mit Feld 6, Trennung
38               nach (deutsch)schweizerischer, traditioneller Rechtschreibung
39               mit Trennung von „ss“, auch wenn es für „ß“ steht.
41 Leere Felder sind mit „-x-“ markiert („x“ ist die Feldnummer).  Das
42 bedeutet, die Schreibweise existiert in der entsprechenden Rechtschreibung
43 nicht.
45 Ausnahme:
46   Zur Vereinfachung wird bei Wörtern mit „ß“ auf die „Auskreuzung“ von
47   Feld 5 verzichtet.  Ein Eintrag mit weniger als 5 Feldern bedeutet also
48   nicht automatisch, dass das entsprechende Wort in der Schweiz oder in
49   Versalschreibung existiert.
51 Felder 3 und 4 als auch Felder 6 und 7 treten immer simultan auf, um die
52 Lesbarkeit zu erhöhen.
54 Feld 8 wird nur angegeben, wenn sich die Schreibweise nach
55 (deutsch)schweizerischer, traditioneller Rechtschreibung von der
56 traditionellen Versalschreibung nach Duden unterscheidet.
58 Zur Erstellung von Trennmustern für die traditionelle Rechtschreibung
59 benötigt man Felder 2, 3, 5 und 6; für die reformierte Rechtschreibung die
60 Felder 2, 4, 5 und 7, und für die traditionelle (deutsch)schweizerische die
61 Felder 2, 3, 5, 6 und 8.  Felder mit höherer Feldnummer haben Priorität.
64 Sortierung
65 ==========
67 Die Sortierung erfolgt nach Dudensortierung.  Die genauen Regeln sind in der
68 Datei „skripte/sort.py“ beschrieben, welche auch zur maschinellen Sortierung
69 der Liste verwendet werden kann.
72 Kennzeichnung der Trennstellen
73 ==============================
75 (Un)Vollständigkeit
76 -------------------
78 Es sind nicht alle regulär zulässigen Trennstellen markiert. Dies betrifft
79 einige Trennungen zwischen Vokalen mit uneinheitlicher Aussprache sowie eine
80 größere Zahl der mit der Rechtschreibreform 1996 eingeführten Wahltrennungen.
82 Motivation:
84 * Ein Ziel der Alternativ-Trennregeln ist es, dass der Schreibende
85   auch ohne Bezug auf ein explizites Wörterverzeichnis konforme
86   Trennungen setzen kann (gut für den Schreiber).
88   Die Wortliste ist ein explizites Wörterverzeichnis mit dem Ziel, Schreib-
89   oder Anzeigeprogrammen „gute“ Trennungen beizubringen (gut für den Leser).
90   Ein Test, ob eine gegebene Trennung nach amtlichen Regeln zulässig ist,
91   gehört nicht zu den Anwendungsfällen.
93   Die unterschiedliche Zielsetzung erklärt auch Abweichungen von anderen
94   Wörterverzeichnissen bei der Auswahl gekennzeichneter Trennstellen.
96 * Im Falle der Alternativtrennungen in Fremdwörtern nach §112
97   (no-b-le, Zy-k-lus, Fe-b-ru-ar, Hy-d-rant, Ar-th-ri-tis, ...) sind
98   nur die traditionellen Trennstellen markiert. Trennungen nach
99   deutschen Regelsilben können automatisiert erstellt werden (vgl.
100   „Trennstile.txt“). Die Aufnahme von nach §112 formal zulässigen,
101   aber in traditioneller Rechtschreibung unzulässigen Trennungen
102   (Te-chnik, Zen-tner, Inte-rnat) erscheint kontraproduktiv.
104 * Bei Trennung nach „Empfinden“ des Schreibenden bei „verblasster
105   Herkunft“, §113 gibt es keine allgemeingültige Festlegung über die
106   Trennmöglichkeiten.  Daher kann eine Vollständigkeit grundsätzlich nicht
107   erreicht werden. In der Wortliste sind Alternativtrennungen nur
108   gekennzeichnet, wenn sie für hilfreich (oder zumindest unschädlich) für
109   das Textverständnis und günstig für die Silbentrennung in Gesangstexten
110   angesehen werden.
112 * Auch bei Trennung nach Aussprache („Vokalbuchstaben, die zu verschiedenen
113   Silben gehören“, §109) existiert eine Grauzone. In der Wortliste werden die
114   traditionellen Trennstellen gekennzeichnet, wenn sie mit den aktuellen
115   Regeln konform sind.
118 Kategorisierung
119 ---------------
121 Trennstellen an der Grenze funktionstragender Einheiten (Morpheme) werden
122 speziell gekennzeichnet:
124   Marker  Bedeutung und Position
125   ------  ----------------------------------------------------------------
126       =   an der Fuge in Zusammensetzungen: Wort=fu-ge
127       <   nach Präfix, Konfix oder Verbalpartikel: Vor<sil-be, auf<zäh-len
129       >   vor Suffix: Gleich>heit, Freund>schaf-ten
131       -   innerhalb eines Morphems: ge-hen
133       ·   am Rand eines Morphems oder bei einzeln ausgesprochenen
134           Abkürzungen: A·i-da, P·K·Ws.
135           Nur im Gesangstext zulässig (siehe unten).
137 Kombinationen dieser Zeichen kennzeichnen die „Wichtung“ einer Trennstelle
138 oder eine Kombination von Eigenschaften (siehe unten):
140     A<·scor-bin, Be<=gut=ach-tungs==frist
142 Motivation:
144 * Die Trennung an sinnbildenden Einheiten fördert den Lesefluss und ist
145   daher zu bevorzugen.
147 * Die Markierung von Morphemgrenzen hilft bei der regelbasierten
148   Entscheidung über den Aufbruch typographischer Ligaturen und die
149   Schreibung des S-Lautes in Frakturschrift (Rund-S „s“ vs. Lang-S „ſ“).
151 * Die Markierung erlaubt die Zuordnung von Wahltrennungen nach §113 des
152   amtlichen Regelwerks (vgl. „Trennstile.txt“):
154     hi-n<auf, Chry-s<an-the-me, He-li-ko<p-ter, Li-n<o-le-um, Pä-d<a-go-gik
156 Anmerkungen:
158 * Morphemgrenzen, an denen keine Trennung erfolgt, werden nicht
159   gekennzeichnet.
161 * Schwierig ist die Markierung von assimilierten und „verblassten” Präfixen,
162   die im heutigen Sprachverständnis nicht als eigenständig wahrgenommen
163   werden.
165   Kriterien sind die „Güte“ der Trennstelle (geringe Störung des Leseflusses
166   bei Zeilenumbruch an dieser Stelle), Abweichungen von den Regeln zum
167   Trennen einfacher Wörter, die Lang-S-Schreibung im Fraktursatz und der
168   Aufbruch von Ligaturen an dieser Stelle.
170     En<er-gie     # Vokal am Silbenanfang
171     Af-fekt       # ff-Ligatur trotz < lat. afficere < ad- + facere
173   Wenn keine besonderen Gründe vorliegen, wird die einfache Auszeichnung
174   bevorzugt:
176     Ant-wort, Di-rek-tor, In-te-gral  # trotz in<te-ger
178 * Trennstellen nach §112 der amtlichen Regeln (Muta cum Liquida) sind keine
179   Morphemgrenzen, können aber mit diesen zusammenfallen
181     Ma-gnet, Zy-klus, Re<flek-tor, Di·a<gno-se
184 * Die Unterscheidung, ob ein Wortbestandteil ein Affix oder ein
185   lexikalisches Morphem ist, ist oft nicht eindeutig:
187     em-por<ar-bei-ten    oder    em-por=ar-bei-ten
188     wel-len>för-mig      oder    wel-len=för-mig
190   Grundidee ist, dass „=“ Teile trennt, die als eigenständige Teile
191   wahrgenommen werden.
193   Morpheme, die eine lexikalische Bedeutung besitzen, aber nicht frei
194   auftreten können (Konfixe bzw. gebundene lexikalische Morpheme), werden
195   aus pragmatischen Gründen (meist) wie Affixe ausgezeichnet:
197     Alt=pleis-to<zän  statt  Alt==pleis-to=zän
199   Zu einigen dieser Konfixe existiert ein freies Homonym mit eigener
200   Bedeutung:
202     Au-to<kor<re<la-ti.on  aber  Au-to=ab<ga-se
203     Ra-dio<ak-ti-vi-tät    aber  Ra-dio=an<sa-ge-rin
205 Für Details siehe `Trennzeichen-HOWTO.txt`.
208 Bindungsstärke und Wichtung
209 ---------------------------
211 Die „Bindungsstärke“ gibt die Zusammengehörigkeit von Wortteilen an.
212 Für die oben eingeführten Kategorien gilt:
214   Marker  Funktion      Bindung
215   ------  ------------  -------
216      -    Sprechsilben  stark
218      <    Präfixgrenze  mittel
219      >    Suffixgrenze  mittel
221      =    Wortfugen     schwach
223 Beispiele:
225   Aus<wahl=lis-te    # (Aus- + wahl) + liste
226   fern=ab<ge<le-gen  # fern + (ab- + (ge- + legen))
227   Abend=lüft>chen    # Abend + (lüft + -chen)
229 Präfixtrenner sind „rechtsbindend“:¹
231   un<voll<stän-dig  # un + (voll + ständig)
232   un<aus<ge<go-ren  # un + (aus + (ge + (go-ren)))
234   ¹ Ausnahme: Ein eingeschobenes „zu“ oder „ge“ übernimmt die Markierung der
235     Einschubstelle auf beiden Seiten:
237       nach<zu<wei-sen  # (nach + weisen) + zu
238       ab<ge<fah-ren    # (ab- + fahren) + ge-
240 Suffixtrenner sind „linksbindend“:
242   Acht>lo-sig>keit  # (Acht + lo-sig) + keit
244 Bei mehrteiligen Komposita kann die Bindungshierarchie durch Doppelung des
245 Trennzeichens genauer beschrieben werden:
247   Alp=horn==trio              # (Alp + horn) + trio
248   Berg===fünf=fin-ger==kraut  # Berg + ((fünf + (fin-ger)) + kraut)
250 Trennstellen gleicher Kategorie ohne Doppelung bezeichnen entweder
251 gleichwertige Wortbestandteile, Zerlegungsalternativen, eingeschobene Teile
252 oder sind noch nicht gewichtet:
254   Abend=brot=zeit   # Abendbrot-Zeit / Abend-Brotzeit
256   stand=zu=hal-ten  # stand+zu+halten (eingeschobenes zu)
257   Bundes=familien=ministerium # Bundesministerium für Familie, Senioren, Frauen und Jugend
259 Die gemischten Trennzeichen „<=“ und „=>“ kennzeichnen die
260 Bindungsverhältnisse, wenn sich ein Affix auf mehrere Teile eines
261 Kompositums bezieht:
263   un<=wahr=schein-lich      # un + (wahr + scheinlich)
264   Be<=gut=ach-tungs==frist  # (Be + (gut + achtungs)) + frist
266   an-dert=halb=>fach        # (andert + halb) + fach
267   zwei==ein=halb==>fa-che   # (zwei + (ein + halb)) + fache
268   Vor<her=sag=>bar=>keit    # (((Vor + her) + sag) + bar) + keit
270 Die Bindungsstärke nimmt dabei mit der Länge des Trennzeichens ab:
272   Bindungsstärke  Zeichen
273   --------------  -------------
274   stark           -
275   .               <, >
276   .               =
277   .               ==, <=, =>
278   schwach         ===, <==, ==>
280 Im Allgemeinen ist die Bindungsstärke umgekehrt proportional zur „Güte“
281 (oder dem „Gewicht“) einer Trennstelle:²
283   Bindungsstärke  Güte/Gewicht       Beispiel
284   --------------  -----------------  -----------
285   schwach         Vorzugstrennungen  Auswahl-
286                                      liste
288   mittel          mittel             Aus-
289                                      wahlliste
291   stark           weniger gut        Auswahllis-
292                                      te
294 ² In eine genauere „Gütebestimmung“ geht auch der Abstand zu anderen
295   Trennstellen und die Position im Wort ein.
297 ungünstige Trennungen
298 ---------------------
300 Ungünstige Trennstellen sind mit einem Punkt markiert. In der Regel folgt
301 der Punkt dem Trennzeichen:
303   An<den-.ken, Re<im<.port  # ↗irreführende Trennungen
304   Se-.en                    # ↗Nottrennung
306 es sei denn, die Trennung soll im Gesangstext unterdrückt werden:
308   Thy-mi.an                 # ↗Schwankungsfall
310 Achtung:
311   Die Markierung ungünstiger Trennstellen ist weder eindeutig noch
312   vollständig.
314 Bei der Generation der Trennmustern für TeX werden diese Trennstellen in der
315 Regel aussortiert (bis auf ↗Schwankungsfälle wenn kein Flattervokal
316 vorliegt: ge-ni.al, Ra-ti.on).
317 In einigen Trennstilen (Gesangstext oder enge Spalten) werden auch
318 ungünstige Trennstellen berücksichtigt (↗Trennstile.txt).
320 Treten Flattervokale bei einer ungünstigen Trennung auf, sind beide
321 Trennstellen als ungünstig markiert:
323   Staats=e·x<.a-.men
325 irreführende Trennungen
326 ~~~~~~~~~~~~~~~~~~~~~~~
327 Bei irreführenden oder sinnentstellenden Trennungen folgt der Punkt auf das
328 Trennzeichen. Besonders ungünstige Trennstellen können mit mehreren Punkten
329 gekennzeichnet sein.
331   Punktzahl  Qualität           Beispiele
332   ---------  -----------------  ------------------------------------
333       1      ungünstig          An<den-.ken, Ost=en-.de, Re<im<.port
334       2      sehr ungünstig     Ge<winn=er<..war-tung
335       3      äußerst ungünstig  An<=al-...pha=bet
337 Nottrennungen
338 ~~~~~~~~~~~~~
340 Im Regelteil der Leipziger Dudenausgabe von 1971 wird die Trennung
342 * bei Ableitungen slawischer Namen auf -ow (Teltow-.er;Telto-.wer),
343 * in Vokalverbindungen im ↗Schwankungsfall (Mil-li.on, Mil-li.o-när)
344 * und bei entfallenem „e“ (Arme-.en, Se-.en, Demokrati-.en)
346 als zulässig, aber nicht empfohlen beschrieben.
348 Der „Einheitsduden“ (1991) und Wahrig (1980) nutzen den Begriff der
349 Nottrennung nicht. Im Wörterverzeichnis werden Nottrenstellen entweder als
350 reguläre Trennstellen markiert, oder (wenn eine Ein-Vokal-Silbe folgt und
351 bei entfallenem „e“) nicht angegeben.
353 Die „amtlichen Regeln“ (1996) geben keine Trennempfehlungen,
354 Wörterverzeichnisse in neuer Rechtschreibung listen die Nottrennstellen
355 als zulässige Trennmöglichkeiten auf. Die Empfehlungen des
356 Online-Duden schließen zum Teil frühere Nottrennungen ein.
358 Schwankungsfälle
359 ~~~~~~~~~~~~~~~~
360 In einigen Wörtern ist unklar, ob benachbarte Vokale zur gleichen Silbe oder
361 zu verschiedenen Silben gehören:
363   Ion/I-on, ge-nial/ge-ni-al, Ri-vie-ra/Ri-vi-e-ra, Mil-lio-nen/Mil-li-o-nen
365 Häufig weichen die im aktuellen Duden angegebenen Trennmöglichkeiten
366 von der Textverteilung in Liedern ab:
368   Duden(2006): na-ti-o-nal
369   Liedtext:    „Ju- gend al- ler Na- tio- nen…“
371 Diese Trennungen werden in der Wortliste mit einem einfachen Punkt (ohne
372 vorangestelltes Trennzeichen) gekennzeichnet
374   Na-ti.on, Mil-li.on, To.i-let-te, ge-ni.al, ge-ni.a-le
376 und, im Gegensatz zu anderen ungünstigen Trennungen, bei der Ausgabe von
377 Gesangstext nicht berücksichtigt.
380 Gesangstrennungen
381 -----------------
383 Im Gesangstext unter Noten muss jede getrennt gesprochene Silbe abgeteilt
384 werden (↗Trennstile.txt, ↗Gesangstext.txt). Die im „normalen“ Text nicht
385 zulässigen Trennungen an Wortanfang oder -ende sowie zwischen einzeln
386 gesprochenen Buchstaben von Abkürzungen werden mit dem Mittenpunkt „·“
387 markiert:
389   A·i-da        # getrennt gesprochen
390   Ka-sta-ni·e   # getrennt gesprochen
391   Zo·o<lo-gie   # getrennt gesprochen
392   A<·s-pekt     # Wahltrennung nach §113: Präfix „a-“ oder Sprechsilbe
393   A·pri-ko-se   # Trennung nach §112
394   A·R·D         # Abk.: allg. Rundfunk Deutschlands
395   P·K·Ws        # Abk.: Personenkraftwagen (Mz.)
397 Hinweis:
398   Fällt eine Randtrennung mit einer Wahltrennung nach §113 zusammen, wird
399   sie mit „-“ markiert.
401     Abitur;-2-;Ab<i·tur;A·b<i-tur
403   (Nach den amtlichen Regeln sind „Ab-itur“ und „Abi-tur“ zulässig.)
406 spezielle Trennungen
407 --------------------
409 Folgende Notation wird verwendet, um spezielle Trennungen (für die
410 traditionelle Rechtschreibung) zu kennzeichnen:
412   {„ungetrennt“/„getrennt“}
414 Dreikonsonantenregel:
416   Ab<fa{ll/ll=l}a-ger
418 Trennung von „ck“:
420   Dru{ck/k-k}er
422 Um z.B. eine Wortliste für TeX zu konstruieren (traditionelle
423 Rechtschreibung), das solche speziellen Trennungen nicht benutzen kann, ist
424 folgender regulärer Ausdruck in „perl“ anzuwenden, um sie zu entfernen:
426   s|\{ (.*?) / .*? \}|$1|gx
428 doppeldeutige Trennungen
429 ------------------------
431 Abweichende Trennstellen in mehrdeutigen Wörtern werden folgendermaßen
432 deklariert:
434   [„Variante A“/„Variante B“]
436 Beispiel:
438   er[<b/b=]recht         # Erb=recht    / er<brecht
439   Kin[-der=/d=er<.]satz  # Kin-der=satz / Kind=er<.satz
441 Für TeX-Trennmuster ist es vielleicht am besten, solche Einträge zu
442 entfernen und die häufigeren Fälle in einem \hyphenation-Block zu behandeln.
443 Hier der entsprechende Code für „perl“:
445   sub entferne_marker {
446     my $arg = shift;
447     $arg =~ s/[.·<>=-]//g;
448     return $arg;
449   }
451   s|\[ (.*?) / .*? \]|entferne_marker($1)|egx;
453 Sowohl in „[…/…]“ als auch in „{…/…}“ können alle Arten von Trennstellen
454 auftreten.
456 Kommentare
457 ==========
459 Optionale Kommentare geben Zusatzinformationen zu Bedeutung, Herkunft oder
460 Anwendungsbereich. Sie sind für die Editoren der Wortliste und für Skripte
461 zur automatischen Bearbeitung bestimmt.
463 Zeichen mit besonderer Bedeutung
464 --------------------------------
466   <   Herkunft
467   /   Alternativen
468   ,   Trennzeichen in Kommentaren (bitte kein „;” verwenden)
469   =   Synonym/Bedeutung
470   []  Aussprache
472 Schlüsselwörter
473 ---------------
475 Schlüsselwörter dienen (neben der allg. Information für Bearbeiter) der
476 Markierung von Wörtern, die von den allgemeinen Regeln der Rechtschreibung
477 und Silbentrennung abweichen können.
479   Name      Eigenname / Markenname
480   Abk.      Abkürzung
481   Kurzwort  Neubildung durch Zusammensetzung von Teilen einer Bezeichnung
482   
483 Herkunftssprachen
484 -----------------
486 Für die Angabe der Herkunftssprache werden die dudenüblichen Abkürzungen
487 verwendet. Bei Lehnwörtern wird das Herkunftszeichen „<“ vorangestellt.
489   Account;Ac-count # engl.
490   Bergasse;Ber-gas-se # franz. Name
491   abhorreszieren;ab<hor-res-zie-ren # < lat.
492   Bosporus;Bos=po-rus # < griech. Rinder=furt
494 Abkürzungen
495 -----------
497   Abk.    Abkürzung
498   bio.    Biologie
499   bot.    Botanik (Pflanzenname)
500   chem.   Chemisch
501   obs.    obsolet
502   techn.  Technisch
503   ugs.    umgangssprachlich
504   vulg.   vulgär
505   zool.   Zoologie (Tiernamen)