Update der Behandlung von Flatterbuchstaben.
[wortliste.git] / dokumente / README.wortliste
blob4236a45f3291295c18adf6a8911c88378ff26e44
1 Wortliste deutscher Wörter mit gewichteten Trennungen.
3 Format
4 ======
6 Das Zeichen „#“ leitet eine Kommentar ein.
8 Jede Zeile enthält einen Eintrag mit durch Semikolon „;“ getrennten Feldern.
11 Bedeutung der Felder
12 --------------------
14 Neben dem hier beschriebenem „Langformat“ gibt es das 2017
15 entwickelte „Kurzformat“, das in ../skripte/python/edit_tools/wortliste.py
16 beschrieben ist.
18   Feldnummer  Bedeutung
19   ----------  -------------------------------------------------------------
20         1     Wort ungetrennt.
21         2     Wort mit Trennungen, falls für alle Varianten identisch,
22               anderenfalls leer.
23         3     Falls Feld 2 leer, Trennung nach traditioneller
24               Rechtschreibung.
25         4     Falls Feld 2 leer, Trennung nach reformierter Rechtschreibung
26               (2006).
27         5     Falls Feld 2 leer, Trennung für Wortform, die in der Schweiz
28               oder mit Großbuchstaben oder Kapitälchen benutzt wird und für
29               traditionelle und reformierte Rechtschreibung identisch ist.
30         6     Falls Feld 5 leer, Trennung für Wortform, die in der Schweiz
31               oder mit Großbuchstaben oder Kapitälchen benutzt wird,
32               traditionelle Rechtschreibung.
33         7     Falls Feld 5 leer, Trennung für Wortform, die in der Schweiz
34               oder mit Großbuchstaben oder Kapitälchen benutzt wird,
35               reformierte Rechtschreibung (2006).
36         8     Falls Feld 5 leer und nicht identisch mit Feld 6, Trennung
37               nach (deutsch)schweizerischer, traditioneller Rechtschreibung
38               mit Trennung von „ss“, auch wenn es für „ß“ steht.
40 Leere Felder sind mit „-x-“ markiert („x“ ist die Feldnummer).  Das
41 bedeutet, die Schreibweise existiert in der entsprechenden Rechtschreibung
42 nicht.
44 Ausnahme:
45   Zur Vereinfachung wird bei Wörtern mit „ß“ auf die „Auskreuzung“ von
46   Feld 5 verzichtet.  Ein Eintrag mit weniger als 5 Feldern bedeutet also
47   nicht automatisch, dass das entsprechende Wort in der Schweiz oder in
48   Versalschreibung existiert.
50 Felder 3 und 4 als auch Felder 6 und 7 treten immer simultan auf, um die
51 Lesbarkeit zu erhöhen.
53 Feld 8 wird nur angegeben, wenn die Schreibweise nach
54 (deutsch)schweizerischer, traditioneller Rechtschreibung sich von der
55 traditionellen Versalschreibung nach Duden unterscheidet.
57 Zur Erstellung von Trennmustern für die traditionelle Rechtschreibung
58 benötigt man Felder 2, 3, 5 und 6; für die reformierte Rechtschreibung die
59 Felder 2, 4, 5 und 7, und für die traditionelle (deutsch)schweizerische die
60 Felder 2, 3, 5, 6 und 8.  Felder mit höherer Feldnummer haben Priorität.
63 Sortierung
64 ==========
66 Die Sortierung erfolgt nach Dudensortierung.  Die genauen Regeln sind in
67 der Datei „skripte/sort.py“ beschrieben, welche auch zur maschinellen
68 Sortierung der Liste verwendet werden kann.
71 Kennzeichnung der Trennstellen
72 ==============================
74 Hinweis: Die Charakterisierung und Wichtung der Trennstellen ist nicht
75 vollständig.
78 Kategorisierung
79 ---------------
81 Trennstellen an der Grenze funktionstragender Einheiten (Morpheme) werden
82 speziell gekennzeichnet:
84   Marker  Bedeutung und Position
85   ------  --------------------------------------------------------
86       =   an Wortfugen: Wort=fu-ge
87       <   nach Präfix, Konfix oder Verbalpartikel: Vor<sil-be, auf<zäh-len
88       >   vor Suffix: Gleich>heit, Freund>schaf-ten
89       -   innerhalb eines Morphems: ge-hen
91 Morphemgrenzen, an denen keine Trennung erfolgt, werden nicht
92 gekennzeichnet.  Das betrifft einvokalige und einige assimilierte Präfixe
93 sowie fremdsprachige Präfixe auf „s“ vor Vokal und die meisten Suffixe (im
94 Gegensatz zu Komposita und präfigierten Wörtern werden im Deutschen Wörter
95 mit Suffix nicht nach Etymologie, sondern nach einer formalisierten
96 „Sprechsilbenregel“ getrennt):
98   aso-zi-al    # a- + sozial
99   osten-ta-tiv # < lat. ostendere < ob- + tendō
100   ob-so-let    # < lat. obsoletus < obs- + alesco
101   tran-si-tiv  # < lat. trāns- + īre
103   An<ord-nung  # An- + ordn + -ung
104   nö-tig       # < Not + -ig
106 aber trotz ausgefallenem „s“ vor sk, sp, sz:
108   Tran<skription # < lat. trans- + scribere
109   tran<spirieren
110   tran<szendent
112 Motivation:
114 * Die Trennung an sinnbildenden Einheiten fördert den Lesefluss und ist
115   daher zu bevorzugen.
117 * Die Markierung von Morphemgrenzen hilft bei der regelbasierten
118   Entscheidung über den Aufbruch typographischer Ligaturen und die
119   Schreibung des S-Lautes in Frakturschrift (Rund-S „s“ vs. Lang-S „ſ“).
122 Anmerkungen:
124 * Die Unterscheidung, ob ein Wortbestandteil ein Affix oder ein
125   lexikalisches Morphem ist, ist oft nicht eindeutig:
127     em-por<ar-bei-ten    oder    em-por=ar-bei-ten
128     wel-len>för-mig      oder    wel-len=för-mig
130   Grundidee ist, dass „=“ Teile trennt, die als eigenständige Teile
131   wahrgenommen werden.
133   Morpheme, die eine lexikalische Bedeutung besitzen aber nicht frei
134   auftreten können (Konfixe/gebundene lexikalische Morpheme) werden aus
135   pragmatischen Gründen (meist) wie Affixe ausgezeichnet:
137      Alt=pleis-to<zän  statt  Alt==pleis-to=zän
139   Zu einigen dieser Konfixe existiert ein freies Homomym mit eigener
140   Bedeutung:
142      Au-to<kor<re<la-ti-on  aber  Au-to=ab<ga-se
143      Ra-dio<ak-ti-vi-tät    aber  Ra-dio=an<sa-ge-rin
145 * Schwierig ist die Markierung von „historischen“ Präfixen, die im heutigen
146   Sprachverständnis nicht als eigenständig wahrgenommen werden:
148     en<er-gisch, En<er-gie  # vgl. Syn<er-gie
150   aber
152     Ant-wort, In-du-strie  # trotz in<du-zie-ren
154   Kriterien sind neben dem Sprachgefühl des Bearbeiters die „Güte“ der
155   Trennstelle (geringe Störung des Leseflusses bei Zeilenumbruch an dieser
156   Stelle), die Lang-s-Schreibung (Schluss-s auch bei „s-s“, „s-t“, oder
157   „s-p“) und der Aufbruch von Ligaturen an dieser Stelle.
159   Immer markiert wird die Morphemgrenze, wenn dort abweichend von der
160   „Sprechsilbenregel“ getrennt werden kann, z.B.
162     In<sti-tut  # de-1996: In<s-ti-tut
164   Trennstellen nach §112 der amtlichen Regeln sind keine Morphemgrenzen:
166     Ma-gnet, Zy-klus, Fe-bru-ar
168 TODO: Entscheidung über Auszeichnung
170   assimilierter lat. Präfixe: „<“ oder „-“?
172     as-si-mi-liert    /  as<si-mi-liert
173     Kor-re<la-ti-on   /  Kor<re<la-ti-on
175   Präfix „abs-“:
176     „Das 's' dieses Präfixes wird nicht mehr als Silbenauslaut
177     empfunden.“ (Duden 71, K44)
179   In AR stets Trennung vor dem „s“, Schreibung in Fraktur: abſ…
181   Im Duden (06) z.B. „ab|s|trakt“, „ab|s|t|rus“. Die Trennung ab-s ist mit
182   den amtlichen Regeln nur vereinbar, wenn „ab-“ als Präfix betrachtet wird,
183   den die optional fremdsprachige Trennung nach §112 gilt nicht für
184   Konsonantenverbindungen „st“ und „sp“.
186   Optionen:
188     ab<strakt;ab<s-trakt   # < lat. ab + s + trahere
189     ab<strakt;ab<s-t-rakt  # < lat. ab + s + trahere
190     ab<strakt;ab<st-rakt   # < lat. ab + s + trahere
191     ab-strakt;abs-trakt    # < lat. abs + trahere
192     ab-strakt;abs-t-rakt   # < lat. abs + trahere
193     ab-strakt;abst-rakt    # < lat. abs + trahere
194     ab-strakt;ab-s<trakt   # < lat. abs + trahere
195     ab-strakt;ab-s<t-rakt  # < lat. abs + trahere
199 Bindungsstärke und Wichtung
200 ---------------------------
202 Die „Bindungsstärke“ gibt die Zusammengehörigkeit von Wortteilen an.
203 Für die oben eingeführten Kategorien gilt
205   Marker  Funktion      Bindung
206   ------  ------------  -------
208      -    Sprechsilben  stark
210      <    Präfixgrenze  mittel
211      >    Suffixgrenze  mittel
213      =    Wortfugen     schwach
215 Beispiele:
217   Aus<wahl=lis-te    # (Aus + wahl) + (lis-te)
218   fern=ab<ge<le-gen  # fern + (ab + (ge + (le-gen)))
219   Abend=lüft>chen    # Abend + (lüft + chen)
221 Präfixe sind „rechtsbindend“:¹
223   un<voll<stän-dig  # un + (voll + ständig)
224   un<aus<ge<go-ren  # un + (aus + (ge + (go-ren)))
226   ¹ Ausnahme: Ein eingeschobenes „zu“ oder „ge“ übernimmt die Markierung der
227     Einschubstelle auf beiden Seiten:
229       nach<zu<wei-sen  # (nach + weisen) + zu
231 Suffixe sind „linksbindend“:
233   Acht>lo-sig>keit  # (Acht + lo-sig) + keit
235 Bei mehrteiligen Komposita kann die Bindungshierarchie durch Doppelung
236 des Trennzeichens genauer beschrieben werden:
238   Alp=horn==trio              # (Alp + horn) + trio
239   Berg===fünf=fin-ger==kraut  # Berg + ((fünf + (fin-ger)) + kraut)
241 Trennstellen gleicher Kategorie ohne Doppelung bezeichnen entweder
242 gleichwertige Wortbestandteile, Zerlegungsalternativen, eingeschobene Teile
243 oder sind (noch) nicht gewichtet:
245   Abend=brot=zeit   # Abendbrot-Zeit / Abend-Brotzeit
246   stand=zu=hal-ten  # stand+zu+halten (eingeschobenes zu)
248 Die gemischten Trennzeichen „<=“ und „=>“ kennzeichnen die
249 Bindungsverhältnisse, wenn sich ein Affix auf mehrere Teile eines
250 Kompositums bezieht:
252   un<=wahr=schein-lich      # un + (wahr + scheinlich)
253   Be<=gut=ach-tungs==frist  # (Be + (gut + achtungs)) + frist
255   an-dert=halb=>fach        # (andert + halb) + fach
256   zwei==ein=halb==>fa-che   # (zwei + (ein + halb)) + fache
257   Vor<her=sag=>bar>keit     # (((Vor + her) + sag) + bar) + keit
259 Die Bindungsstärke nimmt dabei mit der Länge des Trennzeichens ab:
261   Bindungsstärke   Zeichen
262   --------------   -------------
263   stark            -
264   .                <, >
265   .                =
266   .                ==, <=, =>
267   schwach          ===, <==, ==>
269 Im Allgemeinen ist die Bindungsstärke umgekehrt proportional zur „Güte“
270 (oder dem „Gewicht“) einer Trennstelle:¹
272   Bindungsstärke  Güte/Gewicht       Beispiel
273   --------------  -----------------  -----------
274   schwach         Vorzugstrennungen  Auswahl-
275                                      liste
277   mittel          mittel             Aus-
278                                      wahlliste
280   stark           weniger gut        Auswahllis-
281                                      te
283   ¹ In eine genauere „Gütebestimmung“ geht auch der Abstand zu anderen
284     Trennstellen und die Position im Wort ein.
286 Ebenso wie die Kategorisierung ist die Markierung der Bindungsstärke
287 unvollständig.
290 ungünstige Trennungen
291 ---------------------
293 Ungünstige (irreführende oder sinnentstellende) Trennstellen sind mit einem
294 Punkt markiert.  Der Punkt folgt auf Trennzeichen zur Kategorisierung.
296   An<den-.ken, Ost=en-.de
298 Besonders ungünstige Trennstellen können mit mehreren Punkten gekennzeichnet
299 sein.
301   Symbol  Qualität           Beispiele
302   ------  -----------------  ------------------------------------
303     .     ungünstig          An<den-.ken, Ost=en-.de, Re<im<.port
304     ..    sehr ungünstig     Ge<winn=er<..war-tung
305     ...   äußerst ungünstig  An<=al-...pha=bet
307 Auch die Markierung ungünstiger Trennstellen ist weder eindeutig noch
308 vollständig.  Bei der Generation der Trennmustern für TeX werden alle als
309 ungünstig markierten Trennstellen als nicht vorhanden gewertet.
312 Randtrennungen
313 --------------
315 Nach § 107 E1 gilt (vgl. K79 in (Duden 71)):
317   Einzelne Vokalbuchstaben am Wortanfang oder -ende werden nicht ab-
318   getrennt, auch nicht bei Komposita.
320 Eine Ausnahme sind Notentexte: Hier muss jede getrennt gesprochene Silbe
321 abgeteilt werden. In Zweifelsfällen wird die Trennung in der Wortliste
322 mit „·“ markiert:
324   A·i-da        # getrennt gesprochen
325   Ka-sta-ni·e   # getrennt gesprochen
326   A<·s-pekt     # Wahltrennung nach §113: Präfix „a-“ oder Sprechsilbe
327   A·p-ri-ko-se  # Wahltrennung nach §112: Herkunfstsprache oder Sprechsilbe
329 Hinweis: Die Wahltrennung nach §113 wird im Inneren mit „-“ markiert:
331   Areopag;-2-;A·re·o<pag;A·re-o<pag
333 Nach den amtlichen Regeln sind „Are-opag“ und „Areo-pag“ regulär zulässige
334 Trennungen.
337 spezielle Trennungen
338 --------------------
340 Folgende Notation wird verwendet, um spezielle Trennungen (für die
341 traditionelle Rechtschreibung) zu kennzeichnen:
343   {„ungetrennt“/„getrennt“}
345 Dreikonsonantenregel:
347   Ab-fa{ll/ll=l}a-ger
349 Trennung von „ck“:
351   Dru{ck/k-k}er
353 Um z.B. eine Wortliste für TeX zu konstruieren (traditionelle
354 Rechtschreibung), das solche speziellen Trennungen nicht benutzen kann, ist
355 folgender regulärer Ausdruck in „perl“ anzuwenden, um sie zu entfernen:
357   s|\{ (.*?) / .*? \}|$1|gx
360 doppeldeutige Trennungen
361 ------------------------
363 Abweichende Trennstellen in mehrdeutigen Wörtern werden folgendermaßen
364 deklariert:
366   [„Variante A“/„Variante B“]
368 Beispiel:
370   er[<b/b=]recht         # Erb=recht    / er<brecht
371   Kin[-der=/d=er<.]satz  # Kin-der=satz / Kind=er<.satz
373 Für TeX-Trennmuster ist es vielleicht am besten, solche Einträge zu
374 entfernen und die häufigeren Fälle in einem \hyphenation-Block zu behandeln.
375 Hier ein passender regulärer Ausdruck für „perl“:
377   s|\[ (.*?) / .*? \]|$1|gx
379 Sowohl in „[…/…]“ als auch in „{…/…}“ können alle Arten von Trennstellen
380 auftreten.