Neueintrag Terminterpretation, Hinweis von Alexander Malkis.
[wortliste.git] / dokumente / README.wortliste
blobb125162e1af94267843a0cdc47577e2d15defc48
1 Wortliste deutscher Wörter mit Trennungen.
4 Format
5 ======
7 Das Zeichen „#“ leitet eine Kommentar ein.
8 (Zur Syntax der Kommentare siehe letzter Abschnitt.)
10 Jede Zeile enthält einen Eintrag mit durch Semikolon „;“ getrennten Feldern.
12 Bedeutung der Felder
13 --------------------
15 Neben dem hier beschriebenem „Langformat“ gibt es das 2017 entwickelte
16 „Kurzformat“, das in „../skripte/lib/py_wortliste/wortliste.py“ beschrieben
17 ist.
19   Feldnummer  Bedeutung
20   ----------  -------------------------------------------------------------
21         1     Wort ungetrennt.
22         2     Wort mit Trennungen, falls für alle Varianten identisch,
23               anderenfalls leer.
24         3     Falls Feld 2 leer, Trennung nach traditioneller
25               Rechtschreibung.
26         4     Falls Feld 2 leer, Trennung nach reformierter Rechtschreibung
27               (2006).
28         5     Falls Feld 2 leer, Trennung für Wortform, die in der Schweiz
29               oder mit Großbuchstaben oder Kapitälchen benutzt wird und für
30               traditionelle und reformierte Rechtschreibung identisch ist.
31         6     Falls Feld 5 leer, Trennung für Wortform, die in der Schweiz
32               oder mit Großbuchstaben oder Kapitälchen benutzt wird,
33               traditionelle Rechtschreibung.
34         7     Falls Feld 5 leer, Trennung für Wortform, die in der Schweiz
35               oder mit Großbuchstaben oder Kapitälchen benutzt wird,
36               reformierte Rechtschreibung (2006).
37         8     Falls Feld 5 leer und nicht identisch mit Feld 6, Trennung
38               nach (deutsch)schweizerischer, traditioneller Rechtschreibung
39               mit Trennung von „ss“, auch wenn es für „ß“ steht.
41 Leere Felder sind mit „-x-“ markiert („x“ ist die Feldnummer).  Das
42 bedeutet, die Schreibweise existiert in der entsprechenden Rechtschreibung
43 nicht.
45 Ausnahme:
46   Zur Vereinfachung wird bei Wörtern mit „ß“ auf die „Auskreuzung“ von
47   Feld 5 verzichtet.  Ein Eintrag mit weniger als 5 Feldern bedeutet also
48   nicht automatisch, dass das entsprechende Wort in der Schweiz oder in
49   Versalschreibung existiert.
51 Felder 3 und 4 als auch Felder 6 und 7 treten immer simultan auf, um die
52 Lesbarkeit zu erhöhen.
54 Feld 8 wird nur angegeben, wenn sich die Schreibweise nach
55 (deutsch)schweizerischer, traditioneller Rechtschreibung von der
56 traditionellen Versalschreibung nach Duden unterscheidet.
58 Zur Erstellung von Trennmustern für die traditionelle Rechtschreibung
59 benötigt man Felder 2, 3, 5 und 6; für die reformierte Rechtschreibung die
60 Felder 2, 4, 5 und 7, und für die traditionelle (deutsch)schweizerische die
61 Felder 2, 3, 5, 6 und 8.  Felder mit höherer Feldnummer haben Priorität.
64 Sortierung
65 ==========
67 Die Sortierung erfolgt nach Dudensortierung.  Die genauen Regeln sind in der
68 Datei „skripte/sort.py“ beschrieben, welche auch zur maschinellen Sortierung
69 der Liste verwendet werden kann.
72 Kennzeichnung der Trennstellen
73 ==============================
75 (Un)Vollständigkeit
76 -------------------
78 Es sind nicht alle regulär zulässigen Trennstellen markiert. Dies betrifft
79 einige Trennungen zwischen Vokalen mit uneinheitlicher Aussprache sowie eine
80 größere Zahl der mit der Rechtschreibreform 1996 eingeführten Wahltrennungen.
82 Motivation:
84 * Ein Ziel der Alternativ-Trennregeln ist es, dass der Schreibende
85   auch ohne Bezug auf ein explizites Wörterverzeichnis konforme
86   Trennungen setzen kann (gut für den Schreiber).
88   Die Wortliste ist ein explizites Wörterverzeichnis mit dem Ziel, Schreib-
89   oder Anzeigeprogrammen „gute“ Trennungen beizubringen (gut für den Leser).
90   Ein Test, ob eine gegebene Trennung nach amtlichen Regeln zulässig ist,
91   gehört nicht zu den Anwendungsfällen.
93   Die unterschiedliche Zielsetzung erklärt auch Abweichungen von anderen
94   Wörterverzeichnissen bei der Auswahl gekennzeichneter Trennstellen.
96 * Im Falle der Alternativtrennungen in Fremdwörtern nach §112
97   (no-b-le, Zy-k-lus, Fe-b-ru-ar, Hy-d-rant, Ar-th-ri-tis, ...) sind
98   nur die traditionellen Trennstellen markiert. Trennungen nach
99   deutschen Regelsilben können automatisiert erstellt werden (vgl.
100   „Trennstile.txt“). Die Aufnahme von nach §112 formal zulässigen,
101   aber in traditioneller Rechtschreibung unzulässigen Trennungen
102   (Te-chnik, Zen-tner, Inte-rnat) erscheint kontraproduktiv.
104 * Bei Trennung nach „Empfinden“ des Schreibenden bei „verblasster
105   Herkunft“, §113 gibt es keine allgemeingültige Festlegung über die
106   Trennmöglichkeiten.  Daher kann eine Vollständigkeit grundsätzlich nicht
107   erreicht werden. In der Wortliste sind Alternativtrennungen nur
108   gekennzeichnet, wenn sie für hilfreich (oder zumindest unschädlich) für
109   das Textverständnis und günstig für die Silbentrennung in Gesangstexten
110   angesehen werden.
112 * Auch bei Trennung nach Aussprache („Vokalbuchstaben, die zu verschiedenen
113   Silben gehören“, §109) existiert eine Grauzone. In der Wortliste werden die
114   traditionellen Trennstellen gekennzeichnet, wenn sie mit den aktuellen
115   Regeln konform sind.
118 Kategorisierung
119 ---------------
121 Trennstellen an der Grenze funktionstragender Einheiten (Morpheme) werden
122 speziell gekennzeichnet:
124   Marker  Bedeutung und Position
125   ------  ----------------------------------------------------------------
126       =   an der Fuge in Zusammensetzungen: Wort=fu-ge
127       <   nach Präfix, Konfix oder Verbalpartikel: Vor<sil-be, auf<zäh-len
129       >   vor Suffix: Gleich>heit, Freund>schaf-ten
131       -   innerhalb eines Morphems: ge-hen
133       ·   am Rand eines Morphems oder bei einzeln ausgesprochenen
134           Abkürzungen: A·i-da, P·K·Ws.
135           Nur im Gesangstext zulässig (siehe unten).
137 Kombinationen dieser Zeichen kennzeichnen die „Wichtung“ einer Trennstelle
138 oder eine Kombination von Eigenschaften (siehe unten):
140     A<·scor-bin, Be<=gut=ach-tungs==frist
142 Motivation:
144 * Die Trennung an sinnbildenden Einheiten fördert den Lesefluss und ist
145   daher zu bevorzugen.
147 * Die Markierung von Morphemgrenzen hilft bei der regelbasierten
148   Entscheidung über den Aufbruch typographischer Ligaturen und die
149   Schreibung des S-Lautes in Frakturschrift (Rund-S „s“ vs. Lang-S „ſ“).
151 * Die Markierung erlaubt die Zuordnung von Wahltrennungen nach §113 des
152   amtlichen Regelwerks (vgl. „Trennstile.txt“):
154     hi-n<auf, He-li-ko<p-ter, Os-t=al-gie, Mon-t=re-al, Pä-d<a-go-gik
156 Anmerkungen:
158 * Morphemgrenzen, an denen keine Trennung erfolgt, werden nicht
159   gekennzeichnet.
161 * Schwierig ist die Markierung von assimilierten und „verblassten” Präfixen,
162   die im heutigen Sprachverständnis nicht als eigenständig wahrgenommen
163   werden.
165   Kriterien sind die „Güte“ der Trennstelle (geringe Störung des Leseflusses
166   bei Zeilenumbruch an dieser Stelle), Abweichungen von den Regeln zum
167   Trennen einfacher Wörter, die Lang-S-Schreibung im Fraktursatz und der
168   Aufbruch von Ligaturen an dieser Stelle.
170     En<er-gie     # Vokal am Silbenanfang
171     Af-fekt       # ff-Ligatur trotz < lat. afficere < ad- + facere
173   Wenn keine besonderen Gründe vorliegen, wird die einfache Auszeichnung
174   bevorzugt:
176     Ant-wort, Di-rek-tor, In-te-gral  # trotz in<te-ger
178 * Trennstellen nach §112 der amtlichen Regeln (Muta cum Liquida) sind keine
179   Morphemgrenzen, können aber mit diesen zusammenfallen
181     Ma-gnet, Zy-klus, Re<flek-tor, Di·a<gno-se
184 * Die Unterscheidung, ob ein Wortbestandteil ein Affix oder ein
185   lexikalisches Morphem ist, ist oft nicht eindeutig:
187     em-por<ar-bei-ten    oder    em-por=ar-bei-ten
188     wel-len>för-mig      oder    wel-len=för-mig
190   Grundidee ist, dass „=“ Teile trennt, die als eigenständige Teile
191   wahrgenommen werden.
193   Morpheme, die eine lexikalische Bedeutung besitzen, aber nicht frei
194   auftreten können (Konfixe bzw. gebundene lexikalische Morpheme), werden
195   aus pragmatischen Gründen (meist) wie Affixe ausgezeichnet:
197     Alt=pleis-to<zän  statt  Alt==pleis-to=zän
199   Zu einigen dieser Konfixe existiert ein freies Homonym mit eigener
200   Bedeutung:
202     Au-to<kor<re<la-ti.on  aber  Au-to=ab<ga-se
203     Ra-dio<ak-ti-vi-tät    aber  Ra-dio=an<sa-ge-rin
205 Für Details siehe `Trennzeichen-HOWTO.txt`.
208 Bindungsstärke und Wichtung
209 ---------------------------
211 Die „Bindungsstärke“ gibt die Zusammengehörigkeit von Wortteilen an.
212 Für die oben eingeführten Kategorien gilt:
214   Marker  Funktion      Bindung
215   ------  ------------  -------
216      -    Sprechsilben  stark
218      <    Präfixgrenze  .
219      >    Suffixgrenze  .
221      =    Wortfugen     schwach
223 Beispiele:
225   Aus<wahl=lis-te    # (Aus- + wahl) + liste
226   fern=ab<ge<le-gen  # fern + (ab- + (ge- + legen))
227   Abend=lüft>chen    # Abend + (lüft + -chen)
229 Präfixtrenner sind „rechtsbindend“:¹
231   un<voll<stän-dig  # un + (voll + ständig)
232   un<aus<ge<go-ren  # un + (aus + (ge + (go-ren)))
234   ¹ Ausnahme: Ein eingeschobenes „zu“ oder „ge“ übernimmt die Markierung der
235     Einschubstelle auf beiden Seiten:
237       nach<zu<wei-sen  # (nach + weisen) + zu
238       ab<ge<fah-ren    # (ab- + fahren) + ge-
240 Suffixtrenner sind „linksbindend“:
242   Acht>lo-sig>keit  # (Acht + lo-sig) + keit
244 Bei mehrteiligen Komposita kann die Bindungshierarchie durch Doppelung des
245 Trennzeichens genauer beschrieben werden:
247   Alp=horn==trio              # (Alp + horn) + trio
248   Berg===fünf=fin-ger==kraut  # Berg + ((fünf + (fin-ger)) + kraut)
250 Trennstellen gleicher Kategorie ohne Doppelung bezeichnen entweder
251 gleichwertige Wortbestandteile, Zerlegungsalternativen, eingeschobene Teile
252 oder sind noch nicht gewichtet:
254   Abend=brot=zeit   # Abendbrot-Zeit / Abend-Brotzeit
256   stand=zu=hal-ten  # stand+zu+halten (eingeschobenes zu)
257   Bundes=familien=ministerium # Bundesministerium für Familie, Senioren, Frauen und Jugend
259 Die gemischten Trennzeichen „<=“ und „=>“ kennzeichnen die
260 Bindungsverhältnisse, wenn sich ein Affix auf mehrere Teile eines
261 Kompositums bezieht:
263   un<=wahr=schein-lich      # un + (wahr + scheinlich)
264   Be<=gut=ach-tungs==frist  # (Be + (gut + achtungs)) + frist
266   an-dert=halb=>fach        # (andert + halb) + fach
267   zwei==ein=halb==>fa-che   # (zwei + (ein + halb)) + fache
268   Vor<her=sag=>bar=>keit    # (((Vor + her) + sag) + bar) + keit
270 Die Bindungsstärke nimmt dabei mit der Länge des Trennzeichens ab:
272   Bindungsstärke  Zeichen
273   --------------  -------------
274   stark           -
275   .               <
276   .               >
277   .               =
278   .               ==
279   .               <=
280   .               =>
281   .               ===
282   .               <==
283   schwach         ==>
285 Im Allgemeinen ist die Bindungsstärke umgekehrt proportional zur „Güte“
286 (oder dem „Gewicht“) einer Trennstelle:²
288   Bindungsstärke  Güte/Gewicht       Beispiel
289   --------------  -----------------  -----------
290   schwach         gut                Auswahl-
291                                      liste
293   mittel          mittel             Aus-
294                                      wahlliste
296   stark           ungünstig          Auswahllis-
297                                      te
299 ² In eine genauere „Gütebestimmung“ geht auch der Abstand zu anderen
300   Trennstellen und die Position im Wort ein.
302 ungünstige Trennungen
303 ---------------------
305 Ungünstige Trennstellen sind mit einem Punkt markiert. In der Regel folgt
306 der Punkt dem Trennzeichen:
308   An<den-.ken, Re<im<.port  # ↗irreführende Trennungen
309   Se-.en                    # ↗Nottrennung
311 es sei denn, die Trennung soll im Gesangstext unterdrückt werden:
313   Thy-mi.an                 # ↗Schwankungsfall
315 Achtung:
316   Die Markierung ungünstiger Trennstellen ist weder eindeutig noch
317   vollständig.
319 Bei der Generation der Trennmustern für TeX werden diese Trennstellen in der
320 Regel aussortiert (bis auf ↗Schwankungsfälle wenn kein Flattervokal
321 vorliegt: ge-ni.al, Ra-ti.on).
322 In einigen Trennstilen (Gesangstext oder enge Spalten) werden auch
323 ungünstige Trennstellen berücksichtigt (↗Trennstile.txt).
325 Treten Flattervokale bei einer ungünstigen Trennung auf, sind beide
326 Trennstellen als ungünstig markiert:
328   Staats=e·x<.a-.men
330 irreführende Trennungen
331 ~~~~~~~~~~~~~~~~~~~~~~~
332 Bei irreführenden oder sinnentstellenden Trennungen folgt der Punkt auf das
333 Trennzeichen. Besonders ungünstige Trennstellen können mit mehreren Punkten
334 gekennzeichnet sein.
336   Punktzahl  Qualität           Beispiele
337   ---------  -----------------  ------------------------------------
338       1      ungünstig          An<den-.ken, Ost=en-.de, Re<im<.port
339       2      sehr ungünstig     Ge<winn=er<..war-tung
340       3      äußerst ungünstig  An<=al-...pha=bet
342 Nottrennungen
343 ~~~~~~~~~~~~~
345 Im Regelteil der Leipziger Dudenausgabe von 1971 wird die Trennung
347 * bei Ableitungen slawischer Namen auf -ow (Teltow-.er;Telto-.wer),
348 * in Vokalverbindungen im ↗Schwankungsfall (Mil-li.on, Mil-li.o-när)
349 * und bei entfallenem „e“ (Arme-.en, Se-.en, Demokrati-.en)
351 als zulässig, aber nicht empfohlen beschrieben.
353 Der „Einheitsduden“ (1991) und Wahrig (1980) nutzen den Begriff der
354 Nottrennung nicht. Im Wörterverzeichnis werden Nottrenstellen entweder als
355 reguläre Trennstellen markiert, oder (wenn eine Ein-Vokal-Silbe folgt und
356 bei entfallenem „e“) nicht angegeben.
358 Die „amtlichen Regeln“ (1996) geben keine Trennempfehlungen,
359 Wörterverzeichnisse in neuer Rechtschreibung listen die Nottrennstellen
360 als zulässige Trennmöglichkeiten auf. Die Empfehlungen des
361 Online-Duden schließen zum Teil frühere Nottrennungen ein.
363 Schwankungsfälle
364 ~~~~~~~~~~~~~~~~
365 In einigen Wörtern ist unklar, ob benachbarte Vokale zur gleichen Silbe oder
366 zu verschiedenen Silben gehören:
368   Ion/I-on, ge-nial/ge-ni-al, Ri-vie-ra/Ri-vi-e-ra, Mil-lio-nen/Mil-li-o-nen
370 Häufig weichen die im aktuellen Duden angegebenen Trennmöglichkeiten
371 von der Textverteilung in Liedern ab:
373   Duden(2006): na-ti-o-nal
374   Liedtext:    „Ju- gend al- ler Na- tio- nen…“
376 Diese Trennungen werden in der Wortliste mit einem einfachen Punkt (ohne
377 vorangestelltes Trennzeichen) gekennzeichnet
379   Na-ti.on, Mil-li.on, To.i-let-te, ge-ni.al, ge-ni.a-le
381 und, im Gegensatz zu anderen ungünstigen Trennungen, bei der Ausgabe von
382 Gesangstext nicht berücksichtigt.
385 Gesangstrennungen
386 -----------------
388 Im Gesangstext unter Noten muss jede getrennt gesprochene Silbe abgeteilt
389 werden (↗Trennstile.txt, ↗Gesangstext.txt). Die im „normalen“ Text nicht
390 zulässigen Trennungen an Wortanfang oder -ende sowie zwischen einzeln
391 gesprochenen Buchstaben von Abkürzungen werden mit dem Mittenpunkt „·“
392 markiert:
394   A·i-da        # getrennt gesprochen
395   Ka-sta-ni·e   # getrennt gesprochen
396   Zo·o<lo-gie   # getrennt gesprochen
397   A<·s-pekt     # Wahltrennung nach §113: Präfix „a-“ oder Sprechsilbe
398   A·pri-ko-se   # Trennung nach §112
399   A·R·D         # Abk.: allg. Rundfunk Deutschlands
400   P·K·Ws        # Abk.: Personenkraftwagen (Mz.)
402 Hinweis:
403   Fällt eine Randtrennung mit einer Wahltrennung nach §113 zusammen, wird
404   sie mit „-“ markiert.
406     Abitur;-2-;Ab<i·tur;A·b<i-tur
408   (Nach den amtlichen Regeln sind „Ab-itur“ und „Abi-tur“ zulässig.)
411 spezielle Trennungen
412 --------------------
414 Folgende Notation wird verwendet, um spezielle Trennungen (für die
415 traditionelle Rechtschreibung) zu kennzeichnen:
417   {„ungetrennt“/„getrennt“}
419 Dreikonsonantenregel:
421   Ab<fa{ll/ll=l}a-ger
423 Trennung von „ck“:
425   Dru{ck/k-k}er
427 Um z.B. eine Wortliste für TeX zu konstruieren (traditionelle
428 Rechtschreibung), das solche speziellen Trennungen nicht benutzen kann, ist
429 folgender regulärer Ausdruck in „perl“ anzuwenden, um sie zu entfernen:
431   s|\{ (.*?) / .*? \}|$1|gx
433 doppeldeutige Trennungen
434 ------------------------
436 Abweichende Trennstellen in mehrdeutigen Wörtern werden folgendermaßen
437 deklariert:
439   [„Variante A“/„Variante B“]
441 Beispiel:
443   er[<b/b=]recht         # Erb=recht    / er<brecht
444   Kin[-der=/d=er<.]satz  # Kin-der=satz / Kind=er<.satz
446 Für TeX-Trennmuster ist es vielleicht am besten, solche Einträge zu
447 entfernen und die häufigeren Fälle in einem \hyphenation-Block zu behandeln.
448 Hier der entsprechende Code für „perl“:
450   sub entferne_marker {
451     my $arg = shift;
452     $arg =~ s/[.·<>=-]//g;
453     return $arg;
454   }
456   s|\[ (.*?) / .*? \]|entferne_marker($1)|egx;
458 Sowohl in „[…/…]“ als auch in „{…/…}“ können alle Arten von Trennstellen
459 auftreten.
461 Kommentare
462 ==========
464 Optionale Kommentare geben Zusatzinformationen zu Bedeutung, Herkunft oder
465 Anwendungsbereich. Sie sind für die Editoren der Wortliste und für Skripte
466 zur automatischen Bearbeitung bestimmt.
468 Zeichen mit besonderer Bedeutung
469 --------------------------------
471   <   Herkunft
472   /   Alternativen
473   ,   Trennzeichen in Kommentaren (bitte kein „;” verwenden)
474   =   Synonym/Bedeutung
475   []  Aussprache
477 Schlüsselwörter
478 ---------------
480 Schlüsselwörter dienen (neben der allg. Information für Bearbeiter) der
481 Markierung von Wörtern, die von den allgemeinen Regeln der Rechtschreibung
482 und Silbentrennung abweichen können.
484   Name      Eigenname / Markenname
485   Abk.      Abkürzung
486   Kurzwort  Neubildung durch Zusammensetzung von Teilen einer Bezeichnung
487   
488 Herkunftssprachen
489 -----------------
491 Für die Angabe der Herkunftssprache werden die dudenüblichen Abkürzungen
492 verwendet. Bei Lehnwörtern wird das Herkunftszeichen „<“ vorangestellt.
494   Account;Ac-count # engl.
495   Bergasse;Ber-gas-se # franz. Name
496   abhorreszieren;ab<hor-res-zie-ren # < lat.
497   Bosporus;Bos=po-rus # < griech. Rinder=furt
499 Abkürzungen
500 -----------
502   Abk.    Abkürzung
503   bio.    Biologie
504   bot.    Botanik (Pflanzenname)
505   chem.   Chemisch
506   obs.    obsolet
507   techn.  Technisch
508   ugs.    umgangssprachlich
509   vulg.   vulgär
510   zool.   Zoologie (Tiernamen)