Markierung von -zid als Endung.
[wortliste.git] / dokumente / README.wortliste
blob4d126adf26c258b3936cb9866190ac8ee78c2e56
1 Wortliste deutscher Wörter mit Trennungen.
4 Format
5 ======
7 Das Zeichen „#“ leitet eine Kommentar ein.
9 Jede Zeile enthält einen Eintrag mit durch Semikolon „;“ getrennten Feldern.
11 Bedeutung der Felder
12 --------------------
14 Neben dem hier beschriebenem „Langformat“ gibt es das 2017 entwickelte
15 „Kurzformat“, das in „../skripte/python/edit_tools/wortliste.py“ beschrieben
16 ist.
18   Feldnummer  Bedeutung
19   ----------  -------------------------------------------------------------
20         1     Wort ungetrennt.
21         2     Wort mit Trennungen, falls für alle Varianten identisch,
22               anderenfalls leer.
23         3     Falls Feld 2 leer, Trennung nach traditioneller
24               Rechtschreibung.
25         4     Falls Feld 2 leer, Trennung nach reformierter Rechtschreibung
26               (2006).
27         5     Falls Feld 2 leer, Trennung für Wortform, die in der Schweiz
28               oder mit Großbuchstaben oder Kapitälchen benutzt wird und für
29               traditionelle und reformierte Rechtschreibung identisch ist.
30         6     Falls Feld 5 leer, Trennung für Wortform, die in der Schweiz
31               oder mit Großbuchstaben oder Kapitälchen benutzt wird,
32               traditionelle Rechtschreibung.
33         7     Falls Feld 5 leer, Trennung für Wortform, die in der Schweiz
34               oder mit Großbuchstaben oder Kapitälchen benutzt wird,
35               reformierte Rechtschreibung (2006).
36         8     Falls Feld 5 leer und nicht identisch mit Feld 6, Trennung
37               nach (deutsch)schweizerischer, traditioneller Rechtschreibung
38               mit Trennung von „ss“, auch wenn es für „ß“ steht.
40 Leere Felder sind mit „-x-“ markiert („x“ ist die Feldnummer).  Das
41 bedeutet, die Schreibweise existiert in der entsprechenden Rechtschreibung
42 nicht.
44 Ausnahme:
45   Zur Vereinfachung wird bei Wörtern mit „ß“ auf die „Auskreuzung“ von
46   Feld 5 verzichtet.  Ein Eintrag mit weniger als 5 Feldern bedeutet also
47   nicht automatisch, dass das entsprechende Wort in der Schweiz oder in
48   Versalschreibung existiert.
50 Felder 3 und 4 als auch Felder 6 und 7 treten immer simultan auf, um die
51 Lesbarkeit zu erhöhen.
53 Feld 8 wird nur angegeben, wenn sich die Schreibweise nach
54 (deutsch)schweizerischer, traditioneller Rechtschreibung von der
55 traditionellen Versalschreibung nach Duden unterscheidet.
57 Zur Erstellung von Trennmustern für die traditionelle Rechtschreibung
58 benötigt man Felder 2, 3, 5 und 6; für die reformierte Rechtschreibung die
59 Felder 2, 4, 5 und 7, und für die traditionelle (deutsch)schweizerische die
60 Felder 2, 3, 5, 6 und 8.  Felder mit höherer Feldnummer haben Priorität.
63 Sortierung
64 ==========
66 Die Sortierung erfolgt nach Dudensortierung.  Die genauen Regeln sind in der
67 Datei „skripte/sort.py“ beschrieben, welche auch zur maschinellen Sortierung
68 der Liste verwendet werden kann.
71 Kennzeichnung der Trennstellen
72 ==============================
74 (Un)Vollständigkeit
75 -------------------
77 Es sind nicht alle regulär zulässigen Trennstellen markiert. Dies betrifft
78 einige Trennungen zwischen Vokalen mit uneinheitlicher Aussprache sowie eine
79 größere Zahl der mit der Rechtschreibreform 1996 eingeführten Wahltrennungen.
81 Motivation:
83 * Ein Ziel der Alternativ-Trennregeln ist es, dass der Schreibende
84   auch ohne Bezug auf ein explizites Wörterverzeichnis konforme
85   Trennungen setzen kann (gut für den Schreiber).
87   Die Wortliste ist ein explizites Wörterverzeichnis mit dem Ziel, Schreib-
88   oder Anzeigeprogrammen „gute“ Trennungen beizubringen (gut für den Leser).
89   Ein Test, ob eine gegebene Trennung nach amtlichen Regeln zulässig ist,
90   gehört nicht zu den Anwendungsfällen.
92   Die unterschiedliche Zielsetzung erklärt auch Abweichungen von anderen
93   Wörterverzeichnissen bei der Auswahl gekennzeichneter Trennstellen.
95 * Im Falle der Alternativtrennungen in Fremdwörtern nach §112
96   (no-b-le, Zy-k-lus, Fe-b-ru-ar, Hy-d-rant, Ar-th-ri-tis, ...) sind
97   nur die traditionellen Trennstellen markiert. Trennungen nach
98   deutschen Regelsilben können automatisiert erstellt werden (vgl.
99   „Trennstile.txt“). Die Aufnahme von nach §112 formal zulässigen,
100   aber in traditioneller Rechtschreibung unzulässigen Trennungen
101   (Te-chnik, Zen-tner, Inte-rnat) erscheint kontraproduktiv.
103 * Bei Trennung nach „Empfinden“ des Schreibenden bei „verblasster
104   Herkunft“, §113 gibt es keine allgemeingültige Festlegung über die
105   Trennmöglichkeiten.  Daher kann eine Vollständigkeit grundsätzlich nicht
106   erreicht werden. In der Wortliste sind Alternativtrennungen nur
107   gekennzeichnet, wenn sie für hilfreich (oder zumindest unschädlich) für
108   das Textverständnis und günstig für die Silbentrennung in Gesangstexten
109   angesehen werden.
111 * Auch bei Trennung nach Aussprache („Vokalbuchstaben, die zu verschiedenen
112   Silben gehören“, §109) existiert eine Grauzone. In der Wortliste werden die
113   traditionellen Trennstellen gekennzeichnet, wenn sie mit den aktuellen
114   Regeln konform sind.
117 Kategorisierung
118 ---------------
120 Trennstellen an der Grenze funktionstragender Einheiten (Morpheme) werden
121 speziell gekennzeichnet:
123   Marker  Bedeutung und Position
124   ------  ----------------------------------------------------------------
125       =   an der Fuge in Zusammensetzungen: Wort=fu-ge
126       <   nach Präfix, Konfix oder Verbalpartikel: Vor<sil-be, auf<zäh-len
128       >   vor Suffix: Gleich>heit, Freund>schaf-ten
130       -   innerhalb eines Morphems: ge-hen
132       ·   am Rand eines Morphems oder bei einzeln ausgesprochenen
133           Abkürzungen: A·i-da, P·K·Ws.
134           Nur im Gesangstext zulässig (siehe unten).
136 Kombinationen dieser Zeichen kennzeichnen die „Wichtung“ einer Trennstelle
137 oder eine Kombination von Eigenschaften (siehe unten):
139     A<·scor-bin, Be<=gut=ach-tungs==frist
141 Motivation:
143 * Die Trennung an sinnbildenden Einheiten fördert den Lesefluss und ist
144   daher zu bevorzugen.
146 * Die Markierung von Morphemgrenzen hilft bei der regelbasierten
147   Entscheidung über den Aufbruch typographischer Ligaturen und die
148   Schreibung des S-Lautes in Frakturschrift (Rund-S „s“ vs. Lang-S „ſ“).
150 * Die Markierung erlaubt die Zuordnung von Wahltrennungen nach §113 des
151   amtlichen Regelwerks (vgl. „Trennstile.txt“):
153     hi-n<auf, Chry-s<an-the-me, He-li-ko<p-ter, Li-n<o-le-um, Pä-d<a-go-gik
155 Anmerkungen:
157 * Morphemgrenzen, an denen keine Trennung erfolgt, werden nicht
158   gekennzeichnet.
160 * Schwierig ist die Markierung von assimilierten und „verblassten” Präfixen,
161   die im heutigen Sprachverständnis nicht als eigenständig wahrgenommen
162   werden.
164   Kriterien sind die „Güte“ der Trennstelle (geringe Störung des Leseflusses
165   bei Zeilenumbruch an dieser Stelle), Abweichungen von den Regeln zum
166   Trennen einfacher Wörter, die Lang-S-Schreibung im Fraktursatz und der
167   Aufbruch von Ligaturen an dieser Stelle.
169     En<er-gie     # Vokal am Silbenanfang
170     Af-fekt       # ff-Ligatur trotz < lat. afficere < ad- + facere
172   Wenn keine besonderen Gründe vorliegen, wird die einfache Auszeichnung
173   bevorzugt:
175     Ant-wort, Di-rek-tor, In-te-gral  # trotz in<te-ger
177 * Trennstellen nach §112 der amtlichen Regeln (Muta cum Liquida) sind keine
178   Morphemgrenzen, können aber mit diesen zusammenfallen
180     Ma-gnet, Zy-klus, Re<flek-tor, Di·a<gno-se
183 * Die Unterscheidung, ob ein Wortbestandteil ein Affix oder ein
184   lexikalisches Morphem ist, ist oft nicht eindeutig:
186     em-por<ar-bei-ten    oder    em-por=ar-bei-ten
187     wel-len>för-mig      oder    wel-len=för-mig
189   Grundidee ist, dass „=“ Teile trennt, die als eigenständige Teile
190   wahrgenommen werden.
192   Morpheme, die eine lexikalische Bedeutung besitzen, aber nicht frei
193   auftreten können (Konfixe bzw. gebundene lexikalische Morpheme), werden
194   aus pragmatischen Gründen (meist) wie Affixe ausgezeichnet:
196     Alt=pleis-to<zän  statt  Alt==pleis-to=zän
198   Zu einigen dieser Konfixe existiert ein freies Homonym mit eigener
199   Bedeutung:
201     Au-to<kor<re<la-ti.on  aber  Au-to=ab<ga-se
202     Ra-dio<ak-ti-vi-tät    aber  Ra-dio=an<sa-ge-rin
204 Für Details siehe `Trennzeichen-HOWTO.txt`.
207 Bindungsstärke und Wichtung
208 ---------------------------
210 Die „Bindungsstärke“ gibt die Zusammengehörigkeit von Wortteilen an.
211 Für die oben eingeführten Kategorien gilt:
213   Marker  Funktion      Bindung
214   ------  ------------  -------
215      -    Sprechsilben  stark
217      <    Präfixgrenze  mittel
218      >    Suffixgrenze  mittel
220      =    Wortfugen     schwach
222 Beispiele:
224   Aus<wahl=lis-te    # (Aus- + wahl) + liste
225   fern=ab<ge<le-gen  # fern + (ab- + (ge- + legen))
226   Abend=lüft>chen    # Abend + (lüft + -chen)
228 Präfixtrenner sind „rechtsbindend“:¹
230   un<voll<stän-dig  # un + (voll + ständig)
231   un<aus<ge<go-ren  # un + (aus + (ge + (go-ren)))
233   ¹ Ausnahme: Ein eingeschobenes „zu“ oder „ge“ übernimmt die Markierung der
234     Einschubstelle auf beiden Seiten:
236       nach<zu<wei-sen  # (nach + weisen) + zu
237       ab<ge<fah-ren    # (ab- + fahren) + ge-
239 Suffixtrenner sind „linksbindend“:
241   Acht>lo-sig>keit  # (Acht + lo-sig) + keit
243 Bei mehrteiligen Komposita kann die Bindungshierarchie durch Doppelung des
244 Trennzeichens genauer beschrieben werden:
246   Alp=horn==trio              # (Alp + horn) + trio
247   Berg===fünf=fin-ger==kraut  # Berg + ((fünf + (fin-ger)) + kraut)
249 Trennstellen gleicher Kategorie ohne Doppelung bezeichnen entweder
250 gleichwertige Wortbestandteile, Zerlegungsalternativen, eingeschobene Teile
251 oder sind noch nicht gewichtet:
253   Abend=brot=zeit   # Abendbrot-Zeit / Abend-Brotzeit
255   stand=zu=hal-ten  # stand+zu+halten (eingeschobenes zu)
256   Bundes=familien=ministerium # Bundesministerium für Familie, Senioren, Frauen und Jugend
258 Die gemischten Trennzeichen „<=“ und „=>“ kennzeichnen die
259 Bindungsverhältnisse, wenn sich ein Affix auf mehrere Teile eines
260 Kompositums bezieht:
262   un<=wahr=schein-lich      # un + (wahr + scheinlich)
263   Be<=gut=ach-tungs==frist  # (Be + (gut + achtungs)) + frist
265   an-dert=halb=>fach        # (andert + halb) + fach
266   zwei==ein=halb==>fa-che   # (zwei + (ein + halb)) + fache
267   Vor<her=sag=>bar=>keit    # (((Vor + her) + sag) + bar) + keit
269 Die Bindungsstärke nimmt dabei mit der Länge des Trennzeichens ab:
271   Bindungsstärke  Zeichen
272   --------------  -------------
273   stark           -
274   .               <, >
275   .               =
276   .               ==, <=, =>
277   schwach         ===, <==, ==>
279 Im Allgemeinen ist die Bindungsstärke umgekehrt proportional zur „Güte“
280 (oder dem „Gewicht“) einer Trennstelle:²
282   Bindungsstärke  Güte/Gewicht       Beispiel
283   --------------  -----------------  -----------
284   schwach         Vorzugstrennungen  Auswahl-
285                                      liste
287   mittel          mittel             Aus-
288                                      wahlliste
290   stark           weniger gut        Auswahllis-
291                                      te
293 ² In eine genauere „Gütebestimmung“ geht auch der Abstand zu anderen
294   Trennstellen und die Position im Wort ein.
296 ungünstige Trennungen
297 ---------------------
299 Ungünstige Trennstellen sind mit einem Punkt markiert. In der Regel folgt
300 der Punkt dem Trennzeichen:
302   An<den-.ken, Re<im<.port  # ↗irreführende Trennungen
303   Se-.en                    # ↗Nottrennung
305 es sei denn, die Trennung soll im Gesangstext unterdrückt werden:
307   Thy-mi.an                 # ↗Schwankungsfall
309 Achtung:
310   Die Markierung ungünstiger Trennstellen ist weder eindeutig noch
311   vollständig.
313 Bei der Generation der Trennmustern für TeX werden diese Trennstellen in der
314 Regel aussortiert (bis auf ↗Schwankungsfälle wenn kein Flattervokal
315 vorliegt: ge-ni.al, Ra-ti.on).
316 In einigen Trennstilen (Gesangstext oder enge Spalten) werden auch
317 ungünstige Trennstellen berücksichtigt (↗Trennstile.txt).
319 Treten Flattervokale bei einer ungünstigen Trennung auf, sind beide
320 Trennstellen als ungünstig markiert:
322   Staats=e·x<.a-.men
324 irreführende Trennungen
325 ~~~~~~~~~~~~~~~~~~~~~~~
326 Bei irreführenden oder sinnentstellenden Trennungen folgt der Punkt auf das
327 Trennzeichen. Besonders ungünstige Trennstellen können mit mehreren Punkten
328 gekennzeichnet sein.
330   Punktzahl  Qualität           Beispiele
331   ---------  -----------------  ------------------------------------
332       1      ungünstig          An<den-.ken, Ost=en-.de, Re<im<.port
333       2      sehr ungünstig     Ge<winn=er<..war-tung
334       3      äußerst ungünstig  An<=al-...pha=bet
336 Nottrennungen
337 ~~~~~~~~~~~~~
339 Im Regelteil der Leipziger Dudenausgabe von 1971 wird die Trennung
341 * bei Ableitungen slawischer Namen auf -ow (Teltow-.er;Telto-.wer),
342 * in Vokalverbindungen im ↗Schwankungsfall (Mil-li.on, Mil-li.o-när)
343 * und bei entfallenem „e“ (Arme-.en, Se-.en, Demokrati-.en)
345 als zulässig, aber nicht empfohlen beschrieben.
347 Der „Einheitsduden“ (1991) und Wahrig (1980) nutzen den Begriff der
348 Nottrennung nicht. Im Wörterverzeichnis werden Nottrenstellen entweder als
349 reguläre Trennstellen markiert, oder (wenn eine Ein-Vokal-Silbe folgt und
350 bei entfallenem „e“) nicht angegeben.
352 Die „amtlichen Regeln“ (1996) geben keine Trennempfehlungen,
353 Wörterverzeichnisse in neuer Rechtschreibung listen die Nottrennstellen
354 als zulässige Trennmöglichkeiten auf. Die Empfehlungen des
355 Online-Duden schließen zum Teil frühere Nottrennungen ein.
357 Schwankungsfälle
358 ~~~~~~~~~~~~~~~~
359 In einigen Wörtern ist unklar, ob benachbarte Vokale zur gleichen Silbe oder
360 zu verschiedenen Silben gehören:
362   Ion/I-on, ge-nial/ge-ni-al, Ri-vie-ra/Ri-vi-e-ra, Mil-lio-nen/Mil-li-o-nen
364 Häufig weichen die im aktuellen Duden angegebenen Trennmöglichkeiten
365 von der Textverteilung in Liedern ab:
367   Duden(2006): na-ti-o-nal
368   Liedtext:    „Ju- gend al- ler Na- tio- nen…“
370 Diese Trennungen werden in der Wortliste mit einem einfachen Punkt (ohne
371 vorangestelltes Trennzeichen) gekennzeichnet
373   Na-ti.on, Mil-li.on, To.i-let-te, ge-ni.al, ge-ni.a-le
375 und, im Gegensatz zu anderen ungünstigen Trennungen, bei der Ausgabe von
376 Gesangstext nicht berücksichtigt.
379 Gesangstrennungen
380 -----------------
382 Im Gesangstext unter Noten muss jede getrennt gesprochene Silbe abgeteilt
383 werden (↗Trennstile.txt, ↗Gesangstext.txt). Die im „normalen“ Text nicht
384 zulässigen Trennungen an Wortanfang oder -ende sowie zwischen einzeln
385 gesprochenen Buchstaben von Abkürzungen werden mit dem Mittenpunkt „·“
386 markiert:
388   A·i-da        # getrennt gesprochen
389   Ka-sta-ni·e   # getrennt gesprochen
390   Zo·o<lo-gie   # getrennt gesprochen
391   A<·s-pekt     # Wahltrennung nach §113: Präfix „a-“ oder Sprechsilbe
392   A·pri-ko-se   # Trennung nach §112
393   A·R·D         # Abk.: allg. Rundfunk Deutschlands
394   P·K·Ws        # Abk.: Personenkraftwagen (Mz.)
396 Hinweis:
397   Fällt eine Randtrennung mit einer Wahltrennung nach §113 zusammen, wird
398   sie mit „-“ markiert.
400     Abitur;-2-;Ab<i·tur;A·b<i-tur
402   (Nach den amtlichen Regeln sind „Ab-itur“ und „Abi-tur“ zulässig.)
405 spezielle Trennungen
406 --------------------
408 Folgende Notation wird verwendet, um spezielle Trennungen (für die
409 traditionelle Rechtschreibung) zu kennzeichnen:
411   {„ungetrennt“/„getrennt“}
413 Dreikonsonantenregel:
415   Ab<fa{ll/ll=l}a-ger
417 Trennung von „ck“:
419   Dru{ck/k-k}er
421 Um z.B. eine Wortliste für TeX zu konstruieren (traditionelle
422 Rechtschreibung), das solche speziellen Trennungen nicht benutzen kann, ist
423 folgender regulärer Ausdruck in „perl“ anzuwenden, um sie zu entfernen:
425   s|\{ (.*?) / .*? \}|$1|gx
427 doppeldeutige Trennungen
428 ------------------------
430 Abweichende Trennstellen in mehrdeutigen Wörtern werden folgendermaßen
431 deklariert:
433   [„Variante A“/„Variante B“]
435 Beispiel:
437   er[<b/b=]recht         # Erb=recht    / er<brecht
438   Kin[-der=/d=er<.]satz  # Kin-der=satz / Kind=er<.satz
440 Für TeX-Trennmuster ist es vielleicht am besten, solche Einträge zu
441 entfernen und die häufigeren Fälle in einem \hyphenation-Block zu behandeln.
442 Hier der entsprechende Code für „perl“:
444   sub entferne_marker {
445     my $arg = shift;
446     $arg =~ s/[.·<>=-]//g;
447     return $arg;
448   }
450   s|\[ (.*?) / .*? \]|entferne_marker($1)|egx;
452 Sowohl in „[…/…]“ als auch in „{…/…}“ können alle Arten von Trennstellen
453 auftreten.