Version 1.0.
[wortliste.git] / dokumente / README.wortliste
blobd04fbc991781f80640743cb7090717b92daa81bb
1 Wortliste deutscher Wörter mit Trennungen
2 *****************************************
4 Beschreibung der in der Datei "wortliste" verwendeten Syntax.
7 Format
8 ======
10 Jede Zeile enthält einen Eintrag mit durch Semikolon „;“ getrennten Feldern.
12 Das Zeichen „#“ leitet eine Kommentar ein.
13 (Zur Syntax in Kommentaren siehe letzter Abschnitt ↗Kommentare.)
16 Bedeutung der Felder
17 --------------------
19 Neben dem hier beschriebenem „Langformat“ gibt es das 2017 entwickelte
20 „Kurzformat“, das in „../skripte/lib/py_wortliste/wortliste.py“ beschrieben
21 ist.
23   Feldnummer  Bedeutung
24   ----------  -------------------------------------------------------------
25         1     Wort ungetrennt.
26         2     Wort mit Trennungen, falls für alle Varianten identisch,
27               anderenfalls leer.
28         3     Falls Feld 2 leer, Trennung nach traditioneller
29               Rechtschreibung.
30         4     Falls Feld 2 leer, Trennung nach reformierter Rechtschreibung
31               (2006).
32         5     Falls Feld 2 leer, Trennung für Wortform, die in der Schweiz
33               oder mit Großbuchstaben oder Kapitälchen benutzt wird und für
34               traditionelle und reformierte Rechtschreibung identisch ist.
35         6     Falls Feld 5 leer, Trennung für Wortform, die in der Schweiz
36               oder mit Großbuchstaben oder Kapitälchen benutzt wird,
37               traditionelle Rechtschreibung.
38         7     Falls Feld 5 leer, Trennung für Wortform, die in der Schweiz
39               oder mit Großbuchstaben oder Kapitälchen benutzt wird,
40               reformierte Rechtschreibung (2006).
41         8     Falls Feld 5 leer und nicht identisch mit Feld 6, Trennung
42               nach (deutsch)schweizerischer, traditioneller Rechtschreibung
43               mit Trennung von „ss“, auch wenn es für „ß“ steht.
45 Leere Felder sind mit „-x-“ markiert („x“ ist die Feldnummer).  Das
46 bedeutet, die Schreibweise existiert in der entsprechenden Rechtschreibung
47 nicht.
49 Ausnahme:
50   Zur Vereinfachung wird bei Wörtern mit „ß“ auf die „Auskreuzung“ von
51   Feld 5 verzichtet.  Ein Eintrag mit weniger als 5 Feldern bedeutet also
52   nicht automatisch, dass das entsprechende Wort in der Schweiz oder in
53   Versalschreibung existiert.
55 Felder 3 und 4 als auch Felder 6 und 7 treten immer simultan auf, um die
56 Lesbarkeit zu erhöhen.
58 Feld 8 wird nur angegeben, wenn sich die Schreibweise nach
59 (deutsch)schweizerischer, traditioneller Rechtschreibung von der
60 traditionellen Versalschreibung nach Duden unterscheidet.
62 Zur Erstellung von Trennmustern für die traditionelle Rechtschreibung
63 benötigt man Felder 2, 3, 5 und 6; für die reformierte Rechtschreibung die
64 Felder 2, 4, 5 und 7, und für die traditionelle (deutsch)schweizerische die
65 Felder 2, 3, 5, 6 und 8.  Felder mit höherer Feldnummer haben Priorität.
68 Sortierung
69 ==========
71 Die Sortierung erfolgt nach Dudensortierung.  Die genauen Regeln sind in der
72 Datei „skripte/sort.py“ beschrieben, welche auch zur maschinellen Sortierung
73 der Liste verwendet werden kann.
76 Kennzeichnung der Trennstellen
77 ==============================
79 Zur Wahl der Markierungen in neuen Einträgen, siehe auch
80 Trennzeichen-HOWTO.txt.
83 Unvollständigkeit
84 -----------------
86 Es sind nicht alle regulär zulässigen Trennstellen markiert. Dies betrifft
87 einige Trennungen zwischen Vokalen mit uneinheitlicher Aussprache sowie eine
88 größere Zahl der mit der Rechtschreibreform 1996 eingeführten Wahltrennungen.
90 Motivation:
92 * Ein Ziel der Alternativ-Trennregeln ist es, dass der Schreibende
93   auch ohne Bezug auf ein explizites Wörterverzeichnis konforme
94   Trennungen setzen kann (gut für den Schreiber).
96   Die Wortliste ist ein explizites Wörterverzeichnis mit dem Ziel, Schreib-
97   oder Anzeigeprogrammen „gute“ Trennungen beizubringen (gut für den Leser).
98   Ein Test, ob eine gegebene Trennung nach amtlichen Regeln zulässig ist,
99   gehört nicht zu den Anwendungsfällen.
101   Die unterschiedliche Zielsetzung erklärt auch Abweichungen von anderen
102   Wörterverzeichnissen bei der Auswahl gekennzeichneter Trennstellen.
104 * Im Falle der Alternativtrennungen in Fremdwörtern nach §112
105   (no-b-le, Zy-k-lus, Fe-b-ru-ar, Hy-d-rant, Ar-th-ri-tis, ...) sind
106   nur die traditionellen Trennstellen markiert. Trennungen nach
107   deutschen Regelsilben können automatisiert erstellt werden (vgl.
108   „Trennstile.txt“). Die Aufnahme von nach §112 formal zulässigen,
109   aber in traditioneller Rechtschreibung unzulässigen Trennungen
110   (Te-chnik, Zen-tner, Inte-rnat) erscheint kontraproduktiv.
112 * Bei Trennung nach „Empfinden“ des Schreibenden bei „verblasster
113   Herkunft“, §113 gibt es keine allgemeingültige Festlegung über die
114   Trennmöglichkeiten.  Daher kann eine Vollständigkeit grundsätzlich nicht
115   erreicht werden. In der Wortliste sind Alternativtrennungen nur
116   gekennzeichnet, wenn sie für hilfreich (oder zumindest unschädlich) für
117   das Textverständnis und günstig für die Silbentrennung in Gesangstexten
118   angesehen werden.
120 * Auch bei Trennung nach Aussprache („Vokalbuchstaben, die zu verschiedenen
121   Silben gehören“, §109) existiert eine Grauzone. In der Wortliste werden die
122   traditionellen Trennstellen gekennzeichnet, wenn sie mit den aktuellen
123   Regeln konform sind.
126 Kategorisierung
127 ---------------
129 Trennstellen an der Grenze funktionstragender Einheiten (Morpheme) können
130 speziell gekennzeichnet sein:
132   Marker  Bedeutung und Position
133   ------  ----------------------------------------------------------------
134       =   an der Fuge in Zusammensetzungen: Wort=fu-ge
136       <   nach Präfix, Konfix oder Verbalpartikel: Vor<sil-be, auf<zäh-len
138       >   vor Suffix: Gleich>heit, Freund>schaf-ten
140       -   innerhalb eines Morphems: ge-hen
142 Kombinationen dieser Zeichen kennzeichnen die „Wichtung“ einer Trennstelle
143 oder eine Kombination von Eigenschaften (siehe unten):
145     A<·scor-bin, Be<=gut=ach-tungs==frist
147 Motivation:
149 * Die Trennung an sinnbildenden Einheiten fördert den Lesefluss und ist
150   daher zu bevorzugen.
152 * Die Markierung von Morphemgrenzen hilft bei der regelbasierten
153   Entscheidung über den Aufbruch typographischer Ligaturen und die
154   Schreibung des S-Lautes in Frakturschrift (Rund-S „s“ vs. Lang-S „ſ“).
156 * Die Markierung erlaubt die Zuordnung von Wahltrennungen nach §113 des
157   amtlichen Regelwerks (vgl. „Trennstile.txt“):
159     hi-n<auf, He-li-ko<p-ter, Os-t=al-gie, Mon-t=re-al, Pä-d<a-go-gik
161 Anmerkungen:
163 * Morphemgrenzen, an denen keine Trennung erfolgt, werden nicht
164   gekennzeichnet.
166 * Schwierig ist die Markierung von assimilierten und „verblassten” Affixen,
167   die im heutigen Sprachverständnis nicht als eigenständig wahrgenommen
168   werden.
170   Kriterien sind die „Güte“ der Trennstelle (geringe Störung des Leseflusses
171   bei Zeilenumbruch an dieser Stelle), Abweichungen von den Regeln zum
172   Trennen einfacher Wörter, die Lang-S-Schreibung im Fraktursatz und der
173   Aufbruch von Ligaturen an dieser Stelle.
175     En<er-gie     # Vokal am Silbenanfang
176     Af-fekt       # ff-Ligatur trotz < lat. afficere < ad- + facere
177     Pe-ri<o·de    # Trennung nach Präfix nur im Gesangstext erlaubt
179   Wenn keine besonderen Gründe vorliegen, wird die einfache Auszeichnung
180   bevorzugt:
182     Ant-wort, Di-rek-tor, In-te-gral (trotz in<te-ger),
183     Va-ri-a-ble
185 * Trennstellen nach §112 der amtlichen Regeln (Muta cum Liquida) sind keine
186   Morphemgrenzen, können aber mit diesen zusammenfallen
188     Ma-gnet, Zy-klus, Re<flek-tor, Di·a<gno-se
190 * Die Unterscheidung, ob ein Wortbestandteil ein Affix oder ein
191   lexikalisches Morphem ist, ist oft nicht eindeutig:
193     em-por<ar-bei-ten    oder    em-por=ar-bei-ten
194     wel-len>för-mig      oder    wel-len=för-mig
196   Grundidee ist, dass „=“ Teile trennt, die als eigenständige Teile
197   wahrgenommen werden.
199   Morpheme, die eine lexikalische Bedeutung besitzen, aber nicht frei
200   auftreten können (Konfixe bzw. gebundene lexikalische Morpheme), werden
201   aus pragmatischen Gründen (meist) wie Affixe ausgezeichnet:
203     Alt=pleis-to<zän  statt  Alt==pleis-to=zän
205   Zu einigen dieser Konfixe existiert ein freies Homonym mit eigener
206   Bedeutung:
208     Au-to<kor<re<la-ti.on  aber  Au-to=ab<ga-se
209     Ra-dio<ak-ti-vi-tät    aber  Ra-dio=an<sa-ge-rin
211 Für Details siehe `Trennzeichen-HOWTO.txt`.
214 Bindungsstärke und Wichtung
215 ---------------------------
217 Die „Bindungsstärke“ gibt die Zusammengehörigkeit von Wortteilen an.
218 Für die oben eingeführten Kategorien gilt:
220   Marker  Funktion      Bindung
221   ------  ------------  -------
222      -    Sprechsilben  stark
224      <    Präfixgrenze  .
225      >    Suffixgrenze  .
227      =    Wortfugen     schwach
229 Beispiele:
231   Aus<wahl=lis-te    # (Aus- + wahl) + liste
232   fern=ab<ge<le-gen  # fern + (ab- + (ge- + legen))
233   Abend=lüft>chen    # Abend + (lüft + -chen)
235 Falls eine Trennstelle weder einen Teil eines Kompositums markiert noch
236 ein Präfix oder ein Suffix abgrenzt, aber trotzdem bevorzugt ist, wird
237 „--“ verwendet:
239   Lan-go--bar-de
241 Präfixtrenner sind „rechtsbindend“:¹
243   un<voll<stän-dig  # un + (voll + ständig)
244   un<aus<ge<go-ren  # un + (aus + (ge + (go-ren)))
246   ¹ Ausnahme: Ein eingeschobenes „zu“ oder „ge“ übernimmt die Markierung der
247     Einschubstelle auf beiden Seiten:
249       nach<zu<wei-sen  # (nach + weisen) + zu
250       ab<ge<fah-ren    # (ab- + fahren) + ge-
252 Es gibt auch eine kleine Zahl von komplexen, vorangestellten Konfixen, wo
253 „<“ gedoppelt ist:
255   Tri<go-no<<me-trie  # (Tri + gono) + metrie
257 Suffixtrenner sind „linksbindend“:
259   Acht>lo-sig>keit  # (Acht + lo-sig) + keit
261 Bei mehrteiligen Komposita kann die Bindungshierarchie durch Doppelung des
262 Trennzeichens genauer beschrieben werden:
264   Alp=horn==trio              # (Alp + horn) + trio
265   Berg===fünf=fin-ger==kraut  # Berg + ((fünf + (fin-ger)) + kraut)
267 Trennstellen gleicher Kategorie ohne Doppelung bezeichnen entweder
268 gleichwertige Wortbestandteile, Zerlegungsalternativen, eingeschobene Teile
269 oder sind noch nicht gewichtet:
271   Abend=brot=zeit   # Abendbrot-Zeit / Abend-Brotzeit
273   stand=zu=hal-ten  # stand+zu+halten (eingeschobenes zu)
274   Bundes=familien=ministerium # Bundesministerium für Familie,
275                                 Senioren, Frauen und Jugend
277 Die gemischten Trennzeichen „<=“ und „=>“ kennzeichnen die
278 Bindungsverhältnisse, wenn sich ein Affix auf mehrere Teile eines
279 Kompositums bezieht:
281   un<=wahr=schein-lich      # un + (wahr + scheinlich)
282   Be<=gut=ach-tungs==frist  # (Be + (gut + achtungs)) + frist
284   an-dert=halb=>fach        # (andert + halb) + fach
285   zwei==ein=halb==>fa-che   # (zwei + (ein + halb)) + fache
286   Vor<her=sag=>bar=>keit    # (((Vor + her) + sag) + bar) + keit
288 Die Bindungsstärke nimmt dabei in der Regel mit der Länge des
289 Trennzeichens ab:
291   Bindungsstärke  Zeichen
292   --------------  -------------
293   stark           -
294   .               --
295   .               <
296   .               >
297   .               <<
298   .               =
299   .               <=
300   .               =>
301   .               ==
302   .               <==
303   .               ==>
304   schwach         ===
306 Im Allgemeinen ist die Bindungsstärke umgekehrt proportional zur „Güte“
307 (oder dem „Gewicht“) einer Trennstelle:²
309   Bindungsstärke  Güte/Gewicht       Beispiel
310   --------------  -----------------  -----------
311   schwach         gut                Auswahl-
312                                      liste
314   mittel          mittel             Aus-
315                                      wahlliste
317   stark           ungünstig          Auswahllis-
318                                      te
320 ² In eine genauere „Gütebestimmung“ geht auch der Abstand zu anderen
321   Trennstellen und die Position im Wort ein.
323 ungünstige Trennungen
324 ---------------------
326 Ungünstige Trennstellen sind mit einem Punkt markiert. In der Regel folgt
327 der Punkt dem Trennzeichen:
329   An<den-.ken, Re<im<.port  # ↗irreführende Trennungen
330   Se-.en                    # ↗Nottrennung
332 es sei denn, die Trennung soll im Gesangstext unterdrückt werden:
334   Thy-mi.an                 # ↗Schwankungsfall
336 Achtung:
337   Die Markierung ungünstiger Trennstellen ist weder eindeutig noch
338   vollständig.
340 Bei der Generation der Trennmustern für TeX werden diese Trennstellen in der
341 Regel aussortiert (bis auf ↗Schwankungsfälle wenn kein Flattervokal
342 vorliegt: ge-ni.al, Ra-ti.on).
343 In einigen Trennstilen (Gesangstext oder enge Spalten) werden auch
344 ungünstige Trennstellen berücksichtigt (↗Trennstile.txt).
346 Treten Flattervokale bei einer ungünstigen Trennung auf, sind beide
347 Trennstellen als ungünstig markiert:
349   Staats=e·x<.a-.men
351 irreführende Trennungen
352 ~~~~~~~~~~~~~~~~~~~~~~~
353 Bei irreführenden oder sinnentstellenden Trennungen folgt der Punkt auf das
354 Trennzeichen. Besonders ungünstige Trennstellen können mit mehreren Punkten
355 gekennzeichnet sein.
357   Punktzahl  Qualität           Beispiele
358   ---------  -----------------  ------------------------------------
359       1      ungünstig          An<den-.ken, Ost=en-.de, Re<im<.port
360       2      sehr ungünstig     Ge<winn=er<..war-tung
361       3      äußerst ungünstig  An<=al-...pha=bet
363 Nottrennungen
364 ~~~~~~~~~~~~~
366 Im Regelteil der Leipziger Dudenausgabe von 1971 wird die Trennung
368 * bei Ableitungen slawischer Namen auf -ow (Teltow-.er;Telto-.wer),
369 * in Vokalverbindungen im ↗Schwankungsfall (Mil-li.on, Mil-li.o-när)
370 * und bei entfallenem „e“ (Arme-.en, Se-.en, Demokrati-.en)
372 als zulässig, aber nicht empfohlen beschrieben.
374 Der „Einheitsduden“ (1991) und Wahrig (1980) nutzen den Begriff der
375 Nottrennung nicht. Im Wörterverzeichnis werden Nottrenstellen entweder als
376 reguläre Trennstellen markiert, oder (wenn eine Ein-Vokal-Silbe folgt und
377 bei entfallenem „e“) nicht angegeben.
379 Die „amtlichen Regeln“ (1996) geben keine Trennempfehlungen,
380 Wörterverzeichnisse in neuer Rechtschreibung listen die Nottrennstellen
381 als zulässige Trennmöglichkeiten auf. Die Empfehlungen des
382 Online-Duden schließen zum Teil frühere Nottrennungen ein.
384 Schwankungsfälle
385 ~~~~~~~~~~~~~~~~
386 In einigen Wörtern ist unklar, ob benachbarte Vokale zur gleichen Silbe oder
387 zu verschiedenen Silben gehören:
389   Ion/I-on, ge-nial/ge-ni-al, Ri-vie-ra/Ri-vi-e-ra, Mil-lio-nen/Mil-li-o-nen
391 Häufig weichen die im aktuellen Duden angegebenen Trennmöglichkeiten
392 von der Textverteilung in Liedern ab:
394   Duden(2006): na-ti-o-nal
395   Liedtext:    „Ju- gend al- ler Na- tio- nen…“
397 Diese Trennungen werden in der Wortliste mit einem einfachen Punkt (ohne
398 vorangestelltes Trennzeichen) gekennzeichnet
400   Na-ti.on, Mil-li.on, To.i-let-te, ge-ni.al, ge-ni.a-le
402 und, im Gegensatz zu anderen ungünstigen Trennungen, bei der Ausgabe von
403 Gesangstext nicht berücksichtigt.
406 Gesangstrennungen
407 -----------------
409 Im Gesangstext unter Noten muss jede getrennt gesprochene Silbe abgeteilt
410 werden (↗Trennstile.txt, ↗Gesangstext.txt). Die im „normalen“ Text nicht
411 zulässigen Trennungen an Wortanfang oder -ende sowie zwischen einzeln
412 gesprochenen Buchstaben von Abkürzungen werden mit dem Mittenpunkt „·“
413 markiert:
415   A·i-da        # getrennt gesprochen
416   schau·e       # ""
417   Back=o·fen    # auch neben einer Wortfuge wird nur im Gesangstext getrennt
418   Zo·o<lo-gie   # ""
419   Bo-rus-si.·a  # Schwankungsfall am Wortrand (meist dreisilbig gesungen)
420   A<·s-pekt     # Wahltrennung nach §113: Präfix „a-“ oder Sprechsilbe
421   A·pri-ko-se   # Trennung nach §112 (Muta cum Liquida)
422   A·R·D         # Abk.: allg. Rundfunk Deutschlands
423   I·SO          # Abk.: International Standard Organization
424   P·K·Ws        # Abk.: Personenkraftwagen (Mz.)
426 Hinweis:
427   Fällt eine Randtrennung mit einer Wahltrennung nach §113 zusammen, wird
428   sie in NR mit „-“ oder „.“ markiert.
430     Abitur;-2-;Ab<i·tur;A·b<i-tur
431     Santiago;-2-;Sant=i.·a-go;San-t=i.a-go
433   (Nach den amtlichen Regeln sind „Ab-itur“ und „Abi-tur“ zulässig.)
436 spezielle Trennungen
437 --------------------
439 Folgende Notation wird verwendet, um spezielle Trennungen (für die
440 traditionelle Rechtschreibung) zu kennzeichnen:
442   {„ungetrennt“/„getrennt“}
444 Dreikonsonantenregel:
446   Ab<fa{ll/ll=l}a-ger
448 Trennung von „ck“:
450   Dru{ck/k-k}er
452 Um z.B. eine Wortliste für TeX zu konstruieren (traditionelle
453 Rechtschreibung), das solche speziellen Trennungen nicht benutzen kann, ist
454 folgender regulärer Ausdruck in „perl“ anzuwenden, um sie zu entfernen:
456   s|\{ (.*?) / .*? \}|$1|gx
458 doppeldeutige Trennungen
459 ------------------------
461 Abweichende Trennstellen in mehrdeutigen Wörtern werden folgendermaßen
462 deklariert:
464   [„Variante A“/„Variante B“]
466 Beispiel:
468   er[<b/b=]recht         # Erb=recht    / er<brecht
469   Kin[-der=/d=er<.]satz  # Kin-der=satz / Kind=er<.satz
471 Für TeX-Trennmuster ist es vielleicht am besten, solche Einträge zu
472 entfernen und die häufigeren Fälle in einem \hyphenation-Block zu behandeln.
473 Hier der entsprechende Code für „perl“:
475   sub entferne_marker {
476     my $arg = shift;
477     $arg =~ s/[.·<>=-]//g;
478     return $arg;
479   }
481   s|\[ (.*?) / .*? \]|entferne_marker($1)|egx;
483 Sowohl in „[…/…]“ als auch in „{…/…}“ können alle Arten von Trennstellen
484 auftreten.
486 Kommentare
487 ==========
489 Optionale Kommentare geben Zusatzinformationen zu Bedeutung, Herkunft oder
490 Anwendungsbereich. Sie sind für die Editoren der Wortliste und für Skripte
491 zur automatischen Bearbeitung bestimmt.
493 Kommentare werden im Allg. nur für die Stammform eines Wortes gesetzt.
496 Zeichen mit besonderer Bedeutung
497 --------------------------------
499   <   Herkunft
500   /   Alternativen
501   ,   Trennzeichen in Kommentaren (bitte kein „;” verwenden)
502   =   Synonym/Bedeutung
503   []  Aussprache
505 Schlüsselwörter
506 ---------------
508 Schlüsselwörter dienen (neben der allg. Information für Bearbeiter) der
509 Markierung von Wörtern, die von den allgemeinen Regeln der Rechtschreibung
510 und Silbentrennung abweichen können.
512   Name      Eigenname / Markenname
513   Abk.      Abkürzung
514   Kurzwort  Neubildung durch Zusammensetzung von Teilen einer Bezeichnung
516 Herkunftssprachen
517 -----------------
519 Für die Angabe der Herkunftssprache werden die dudenüblichen Abkürzungen
520 verwendet. Bei Lehnwörtern wird das Herkunftszeichen „<“ vorangestellt.
522   Account;Ac-count # engl.
523   Bergasse;Ber-gas-se # franz. Name
524   abhorreszieren;ab<hor-res-zie-ren # < lat.
525   Bosporus;Bos=po-rus # < griech. Rinder=furt
527 Abkürzungen
528 -----------
530   Abk.    Abkürzung
531   bio.    Biologie
532   bot.    Botanik (Pflanzenname)
533   chem.   Chemisch
534   obs.    obsolet
535   techn.  Technisch
536   ugs.    umgangssprachlich
537   vulg.   vulgär
538   zool.   Zoologie (Tiernamen)