Nachkorrekturen, Harmonisierungen.
[wortliste.git] / dokumente / Grammatisches_Kurzformat.txt
blobc40c3cc3a4d55beb5e915dc8022e16801e0e3a5b
1 Das grammatische Kurzformat ist ein 2020 entwickeltes besonders kompaktes
2 Wortlistenformat, das sich verlustfrei in das Langformat (dokumentiert in
3 „README.wortliste“) und das Kurzformat (dokumentiert in
4 „../skripte/python/edit_tools/wortliste.py“) konvertieren läßt.
6 Langformat <-> Kurzformat <-> grammatisches Kurzformat
8 Das grammatische Kurzformat basiert auf dem gewöhnlichen Kurzformat und hat
9 diesem gegenüber den Vorteil einer erheblich geringeren Anzahl von Einträgen
10 durch die Einsparung gebeugter Wortformen. Der hierfür zu zahlende Preis ist
11 die Aufnahme einer zusätzlichen Information pro Zeile zur Codierung der
12 Beugungsklasse.
15 Unterstützte Beugungsklassen
16 ----------------------------
17 Die folgende Tabelle stellt die zur Zeit unterstützten Beugungsklassen
18 überblicksartig zusammen.
20   Codierung  Bedeutung
21   ---------  -----------------------------------------------------------------
22   A          Adjektiv (auch: Partizip, Pronomen, Zahlwort) mit regelmäßiger
23              Deklination (ohne Berücksichtigung der Komparation)
25   SeU        Substantiv ohne Genitivmarkierung mit Plural auf -e und
26              Umlautbildung
27              Bsp.: die Hand, der Hand, die Hände
29   Sn         Substantiv mit Genitiv auf -n oder oder ohne Genitivmarkierung
30              und Plural auf -(e)n
31              Bsp. 1: der Junge, des Jungen, die Jungen
32              Bsp. 2: die Karte, der Karte, die Karten
33              Bsp. 3: die Frau, der Frau, die Frauen
34              Bsp. 4: die Ahnung, der Ahnung, die Ahnungen
35              Bsp. 5: die Lehrerin, der Lehrerin, die Lehrerinnen
37   Ss         Substantiv mit einziger Beugungsform auf -s
38              Bsp. 1: der Park, des Parks, die Parks
39              Bsp. 2: die Kamera, der Kamera, die Kameras
40              Bsp. 3: das Niveau, des Niveaus, die Niveaus
41              Bsp. 4: Anna, Annas
43   Sse        Substantiv mit Genitiv auf -(e)s und Plural auf -e oder -en
44              Bsp. 1: der Tag, des Tag(e)s, die Tage
45              Bsp. 2: das Bett, des Bett(e)s, die Betten
46              Bsp. 3: das Zeugnis, des Zeugnisses, die Zeugnisse
47              Bsp. 4: der Schrei, des Schrei(e)s, die Schreie
48              Bsp. 5: der König, des Königs, die Könige
49              Bsp. 6: der Skandal, des Skandals, die Skandale
50              Bei vielen Fremdwörtern (insbesondere solchen, die auf einen
51              einzelnen Konsonanten enden) gibt es keinen alternativen Genitiv
52              auf -es. Daher wird bei Substantiven, die auf -ik, -al, -pel, -il,
53              -ll, -ül, -em, -mm, -om, -erm, -ym, -en, -on, -op, -ar, -är, -or,
54              -ör, -ur, -it oder -iv enden, keine Form auf -es angenommen, es
55              sei denn, der Duden verzeichnet eine solche.
56              Außerdem wird bei Wörtern auf -end, -ig und -ing kein Genitiv auf
57              -es angenommen.
58              Substantive mit Genitiv auf -s, aber nicht -es und Plural auf -en
59              gehören in die Klasse Ssn.
61   SseU       Substantiv mit Genitiv auf -(e)s und Plural auf -e mit
62              Umlautbildung
63              Bsp. 1: der Wolf, des Wolf(e)s, die Wölfe
64              Bsp. 2: der Saal, des Saal(e)s, die Säle
66   Ssn        Substantiv mit Genitiv auf -s und Plural oder Dativ Plural
67              auf -(e)n
68              Bsp. 1: der Lehrer, des Lehrer, die Lehrer, den Lehrern
69              Bsp. 2: der Hebel, des Hebels, die Hebel, den Hebeln
70              Bsp. 3: der Vetter, des Vetters, die Vettern
71              Bsp. 4: der Autor, des Autors, die Autoren
72              Bsp. 5: das Elektron, des Elektrons, die Elektronen
73              Bsp. 6: der Typ, des Typs, die Typen
74              Substantive mit Genitiv auf -es und Plural auf -en gehören in die
75              Klasse Sse.
77   SsU        Substantiv mit Genitiv auf -s und umgelautetem Plural
78              Bsp. 1: der Bruder, des Bruders, die Brüder
79              Bsp. 2: der Apfel, des Apfels, die Äpfel
80              Bsp. 3: der Garten, des Gartens, die Gärten
82   Ssr        Substantiv mit Genitiv auf -(e)s und Plural auf -er
83              Bsp. 1: das Kind, des Kind(e)s, die Kinder
84              Bsp. 2: das Licht, des Licht(e)s, die Lichter
86   SsrU       Substantiv mit Genitiv auf -(e)s und Plural auf -er mit
87              Umlautbildung
88              Bsp. 1: das Dach, des Dach(e)s, die Dächer
89              Bsp. 2: das Gras, des Grases, die Gräser
90              Bsp. 3: das Haus, des Hauses, die Häuser
92   SU         Substantiv ohne Genitivmarkierung mit umgelautetem Plural
93              Bsp.: die Mutter, der Mutter, die Mütter
95 Alle Wörter, die in keine definierte Beugungsklasse fallen, gelten technisch
96 gesehen als unflektierbar.
99 Eintragsformat
100 --------------
101 Ein Listeneintrag im grammatischen Kurzformat hat einen Trennteil und einen
102 Kommentarteil. Der Trennteil enthält gewichtete Angaben zur Worttrennung in bis
103 zu fünf durch Semikola getrennten Feldern. Er ist identisch zum entsprechenden
104 Listeneintrag des Worts im Kurzformat.
105 Der Kommentarteil enthält die codierte Beugungsklasse und ggf. einen Kommentar
106 zum Eintrag wie er sich auch im Langformat und im Kurzformat findet. Der
107 Kommentarteil wird durch „#“ eingeleitet. Danach folgt ggf. die Beugungsklasse
108 und – falls vorhanden – der eigentliche Kommentar, der durch „--“ eingeleitet
109 wird. Ist weder eine Beugungsklasse anzugeben noch ein Kommentar vorhanden, so
110 entfällt der Kommentarteil.
112 Beispiele:
114   1. flektierbares Wort ohne Kommentar
115      >> acht=köp-fig # A
116      >> Ma-ga-zin # Sse
117      >> Un<fall # SseU
118      >> zier=rat=>los;-2- # A
119      >> -1-;zie-rat>los # A
121   2. flektierbares Wort mit Kommentar
122      >> a·part # A -- < franz. à part
123      >> gipf-lig # A -- Zahlensuffix
124      >> Toll-patsch;-2- # Sse -- vgl. Tolpatsch
126   3. unflektierbares Wort ohne Kommentar
127      >> so<bald
128      >> Bass=drum;Bass=drum
129      >> Au-ßen=ma-ße;Au-ßen=ma-ße;Aus-sen=mas-se;Au-ssen=ma[-s/s-]se
131   4. unflektierbares Wort mit Kommentar
132      >> Bahn=steig==gleis # -- Antonym: Nebengleis
133      >> flö-ße;flö-ße;flös-se;flös-se # -- trad. versal: FLÖ-SSE und FLÖS-SE
134      >> Gangs-ter=boss;Gang-ster=boss # -- engl.
137 Formatkonversion
138 ----------------
139 Zur Konverversion zwischen dem herkömmlichen Kurzformat und dem grammatischen
140 Kurzformat dient das Lua-Skript „beugung.lua“. Dieses kann wahlweise mit den
141 Programmen „texlua“ oder „lua5.3“ ausgeführt werden. Die Hilfe zum Skript ist
142 aus dem Wurzelverzeichnis der Wortliste über den Befehl
143   $ texlua skripte/wortliste/beugung.lua -h
144 abrufbar.
146 Umwandlung der Wortliste im Langformat ins grammatische Kurzformat:
147   $ ./skripte/umformatierung.py -ku < wortliste \
148     | texlua skripte/wortliste/beugung.lua -G | ./skripte/sort.py > ausgabedatei
150 Umwandlung einer Datei vom grammatischen Kurzformat ins Langformat:
151   $ texlua skripte/wortliste/beugung.lua < eingabedatei \
152     | ./skripte/umformatierung.py > ausgabedatei
155 Konversionsregeln
156 -----------------
157 Der grundsätzliche Ablauf der Konversion vom Kurzformat ins grammatische
158 Kurzformat ist folgender:
160   1. Suche nach Adjektiven, die nicht auf „e“ enden
161      Sei „Z“ eine beliebige Zeichenkette und „K“ ein Konsonant einschließlich
162      sch, ch, ck und ß, aber ohne c, j, q, w, y. Suche zu allen Einträgen der
163      Wortliste mit Schlüssel der Form „ZK“ nach Einträgen der Form „Z-Ke“,
164      „Z-Kem“, „Z-Ken“, „Z-Ker“, „Z-Kes“ und gleicher Feldbelegung wie „ZK“.
165      Falls diese alle vorhanden sind, markiere sie als gebeugte Formen und
166      setze für „ZK“ den Beugungstyp „A“.
167      Sei „Z“ eine beliebige Zeichenkette und „D“ einer der Diphthonge „au“,
168      „ei“ und „eu“. Suche zu allen Einträgen der Wortliste mit Schlüssel der
169      Form „ZD“ nach Einträgen der Form „ZD·e“, „ZD-em“, „ZD-en“, „ZD-er“,
170      „ZD-es“ und gleicher Feldbelegung wie „ZD“. Falls diese alle vorhanden
171      sind, markiere sie als gebeugte Formen und setze für „ZD“ den Beugungstyp
172      „A“.
173      Gebeugte Formen können selbst den Beugungstyp „A“ erhalten. Beispielweise
174      wird „schö-ner“ als gebeugte Form von „schön“ und gleichzeitig als
175      Grundform von „schö-ne-re“, „schö-ne-rem“ etc. gebucht.
177   2. Suche nach Substantiven, die nicht auf „e“ enden
178      Suche unter den großgeschriebenen, nicht mit dem Beugungstyp „A“
179      markierten Wörtern nach Substantiven, die nicht auf „e“ enden. Für Wörter,
180      die auf „sch“, „ch“, „ck“ oder „ß“ enden werden die Beugungsklassen „Sse“,
181      „SseU“, „Ssr“, „SsrU“ und „SeU“ in Betracht gezogen, für Wörter die auf
182      einen Konsonanten (außer c, j, q, w, y) enden, die Beugungsklassen „Sse“,
183      „SseU“, „Ssn“, „SsU“, „Ssr“, „SsrU“, „SeU“, „SU“, „Sn“ (diese nicht für
184      Wörter auf „er“) und „Ss“ (diese nicht für Wörter auf „s“). Für Wörter,
185      die auf einen Diphthong enden, werden die Beugungsklassen „Sse“, „Ssr“,
186      „Sn“ und „Ss“ berücksichtigt, für Wörter die auf einen einfachen Vokal
187      enden, nur die Beugungsklasse „Ss“.
189   3. Suche nach Adjektiven mit der Endung „e“
190      Sei „Z“ eine beliebige Zeichenkette. Suche zu allen Einträgen der
191      Wortliste mit Schlüssel der Form „Ze“, die in den vorherigen Schritten
192      nicht als gebeugte Form markiert wurden, nach Einträgen der Form „Zem“,
193      „Zen“, „Zer“, „Zes“ und gleicher Feldbelegung wie „Ze“. Falls diese alle
194      vorhanden sind, markiere sie als gebeugte Formen und setze für „Ze“ den
195      Beugungstyp „A“.
197   4. Suche nach Substantiven mit der Endung „e“
198      Hierbei werden die Beugungsklassen „Ssn“, „Sn“, und „Ss“ in
199      Betracht gezogen. Außerdem werden Wörter auf „er“, die noch keine
200      Beugungsklasse haben, auf das Vorliegen der Klasse „Sn“ untersucht.
202   5. Ausgabe
203      Ausgegeben mit einem Beugungstyp werden alle entsprechend detektierten
204      Einträge. Ohne Beugungstyp ausgegeben werden alle übrigen Einträge, die
205      nicht als gebeugte Form markiert wurden.
207 Die Konversion in umgekehrter Richtung ist im wesentlichen trivial und wird
208 hier nicht näher erläutert.
211 Probleme
212 --------
214   1. Die verwendete Heuristik beim Erzeugen des grammatischen Kurzformats kann
215      zu Phantomeinträgen führen.
216      So wird aus der Verbform „sicherst“ und den Superlativformen „sicherste“,
217      „sicherstem“, „sichersten“, „sicherster“, „sicherstes“ auf ein Adjektiv
218      „sicherst“ geschlossen.
220   2. Bei Fremdwortadjektiven auf „-el“ (z. B. „sensibel“) und „-er“ (z. B.
221      „illuster“) wird die eigentliche Grundform nicht erkannt. Hierdurch
222      entstehen Doppeleinträge wie
223      >> il<lus-ter
224      >> il<lus-tre # A
225      >> sen-si-bel
226      >> sen-si-ble # A
228   3. Falls in der Wortliste einzelne Beugungsformen eines Wortes fehlen oder in
229      der Großschreibung abweichen, ist eine Zusammenfassung der Einträge nicht
230      möglich. Die vorhandenen Formen werden dann als unflektierbar oder in
231      einer falschen Beugungsklasse gebucht.
232      Das gleiche Problem tritt auf, wenn eine gebeugte Form einen eigenen
233      Kommentar besitzt.
235   4. Das Skript „beugung.lua“ gibt die Ausgabe unsortiert aus. Die Sortierung
236      von Unicode-Zeichenketten ist in Lua nur mit großem Aufwand zu
237      bewerkstelligen, weshalb auf das vorhandene Skript „sort.py“ verwiesen
238      sei.
241 Mögliche Weiterentwicklungen
242 ----------------------------
244   * Einführung einer Beugungsklasse für regelmäßig steigerbare Adjektive, um
245     Positiv-, Komparativ- und Superlativformen zu einem Eintrag
246     zusammenzufassen
248   * Einführung einer Beugungsklasse für regelmäßige Verben (oder von zwei
249     Klassen für Verben mit und ohne regelmäßige Vergangenheitsform)
251   * Aufstellen von Negativlisten für die einzelnen Beugungsklassen, um
252     Phantomeinträge zu vermeiden
255 Literatur
256 ---------
257 Deklinationsklassen im Deutschen: https://grammis.ids-mannheim.de/progr@mm/4064