1 Das grammatische Kurzformat ist ein 2020 entwickeltes besonders kompaktes
2 Wortlistenformat, das sich verlustfrei in das Langformat (dokumentiert in
3 „README.wortliste“) und das Kurzformat (dokumentiert in
4 „../skripte/python/edit_tools/wortliste.py“) konvertieren läßt.
6 Langformat <-> Kurzformat <-> grammatisches Kurzformat
8 Das grammatische Kurzformat basiert auf dem gewöhnlichen Kurzformat und hat
9 diesem gegenüber den Vorteil einer erheblich geringeren Anzahl von Einträgen
10 durch die Einsparung gebeugter Wortformen. Der hierfür zu zahlende Preis ist
11 die Aufnahme einer zusätzlichen Information pro Zeile zur Codierung der
15 Unterstützte Beugungsklassen
16 ----------------------------
17 Die folgende Tabelle stellt die zur Zeit unterstützten Beugungsklassen
18 überblicksartig zusammen.
21 --------- -----------------------------------------------------------------
22 A Adjektiv (auch: Partizip, Pronomen, Zahlwort) mit regelmäßiger
23 Deklination (ohne Berücksichtigung der Komparation)
25 SeU Substantiv ohne Genitivmarkierung mit Plural auf -e und
27 Bsp.: die Hand, der Hand, die Hände
29 Sn Substantiv mit Genitiv auf -n oder oder ohne Genitivmarkierung
31 Bsp. 1: der Junge, des Jungen, die Jungen
32 Bsp. 2: die Karte, der Karte, die Karten
33 Bsp. 3: die Frau, der Frau, die Frauen
34 Bsp. 4: die Ahnung, der Ahnung, die Ahnungen
35 Bsp. 5: die Lehrerin, der Lehrerin, die Lehrerinnen
37 Ss Substantiv mit einziger Beugungsform auf -s
38 Bsp. 1: der Park, des Parks, die Parks
39 Bsp. 2: die Kamera, der Kamera, die Kameras
40 Bsp. 3: das Niveau, des Niveaus, die Niveaus
43 Sse Substantiv mit Genitiv auf -(e)s und Plural auf -e oder -en
44 Bsp. 1: der Tag, des Tag(e)s, die Tage
45 Bsp. 2: das Bett, des Bett(e)s, die Betten
46 Bsp. 3: das Zeugnis, des Zeugnisses, die Zeugnisse
47 Bsp. 4: der Schrei, des Schrei(e)s, die Schreie
48 Bsp. 5: der König, des Königs, die Könige
49 Bsp. 6: der Skandal, des Skandals, die Skandale
50 Bei vielen Fremdwörtern (insbesondere solchen, die auf einen
51 einzelnen Konsonanten enden) gibt es keinen alternativen Genitiv
52 auf -es. Daher wird bei Substantiven, die auf -ik, -al, -pel, -il,
53 -ll, -ül, -em, -mm, -om, -erm, -ym, -en, -on, -op, -ar, -är, -or,
54 -ör, -ur, -it oder -iv enden, keine Form auf -es angenommen, es
55 sei denn, der Duden verzeichnet eine solche.
56 Außerdem wird bei Wörtern auf -end, -ig und -ing kein Genitiv auf
58 Substantive mit Genitiv auf -s, aber nicht -es und Plural auf -en
59 gehören in die Klasse Ssn.
61 SseU Substantiv mit Genitiv auf -(e)s und Plural auf -e mit
63 Bsp. 1: der Wolf, des Wolf(e)s, die Wölfe
64 Bsp. 2: der Saal, des Saal(e)s, die Säle
66 Ssn Substantiv mit Genitiv auf -s und Plural oder Dativ Plural
68 Bsp. 1: der Lehrer, des Lehrer, die Lehrer, den Lehrern
69 Bsp. 2: der Hebel, des Hebels, die Hebel, den Hebeln
70 Bsp. 3: der Vetter, des Vetters, die Vettern
71 Bsp. 4: der Autor, des Autors, die Autoren
72 Bsp. 5: das Elektron, des Elektrons, die Elektronen
73 Bsp. 6: der Typ, des Typs, die Typen
74 Substantive mit Genitiv auf -es und Plural auf -en gehören in die
77 SsU Substantiv mit Genitiv auf -s und umgelautetem Plural
78 Bsp. 1: der Bruder, des Bruders, die Brüder
79 Bsp. 2: der Apfel, des Apfels, die Äpfel
80 Bsp. 3: der Garten, des Gartens, die Gärten
82 Ssr Substantiv mit Genitiv auf -(e)s und Plural auf -er
83 Bsp. 1: das Kind, des Kind(e)s, die Kinder
84 Bsp. 2: das Licht, des Licht(e)s, die Lichter
86 SsrU Substantiv mit Genitiv auf -(e)s und Plural auf -er mit
88 Bsp. 1: das Dach, des Dach(e)s, die Dächer
89 Bsp. 2: das Gras, des Grases, die Gräser
90 Bsp. 3: das Haus, des Hauses, die Häuser
92 SU Substantiv ohne Genitivmarkierung mit umgelautetem Plural
93 Bsp.: die Mutter, der Mutter, die Mütter
95 Alle Wörter, die in keine definierte Beugungsklasse fallen, gelten technisch
96 gesehen als unflektierbar.
101 Ein Listeneintrag im grammatischen Kurzformat hat einen Trennteil und einen
102 Kommentarteil. Der Trennteil enthält gewichtete Angaben zur Worttrennung in bis
103 zu fünf durch Semikola getrennten Feldern. Er ist identisch zum entsprechenden
104 Listeneintrag des Worts im Kurzformat.
105 Der Kommentarteil enthält die codierte Beugungsklasse und ggf. einen Kommentar
106 zum Eintrag wie er sich auch im Langformat und im Kurzformat findet. Der
107 Kommentarteil wird durch „#“ eingeleitet. Danach folgt ggf. die Beugungsklasse
108 und – falls vorhanden – der eigentliche Kommentar, der durch „--“ eingeleitet
109 wird. Ist weder eine Beugungsklasse anzugeben noch ein Kommentar vorhanden, so
110 entfällt der Kommentarteil.
114 1. flektierbares Wort ohne Kommentar
118 >> zier=rat=>los;-2- # A
119 >> -1-;zie-rat>los # A
121 2. flektierbares Wort mit Kommentar
122 >> a·part # A -- < franz. à part
123 >> gipf-lig # A -- Zahlensuffix
124 >> Toll-patsch;-2- # Sse -- vgl. Tolpatsch
126 3. unflektierbares Wort ohne Kommentar
128 >> Bass=drum;Bass=drum
129 >> Au-ßen=ma-ße;Au-ßen=ma-ße;Aus-sen=mas-se;Au-ssen=ma[-s/s-]se
131 4. unflektierbares Wort mit Kommentar
132 >> Bahn=steig==gleis # -- Antonym: Nebengleis
133 >> flö-ße;flö-ße;flös-se;flös-se # -- trad. versal: FLÖ-SSE und FLÖS-SE
134 >> Gangs-ter=boss;Gang-ster=boss # -- engl.
139 Zur Konverversion zwischen dem herkömmlichen Kurzformat und dem grammatischen
140 Kurzformat dient das Lua-Skript „beugung.lua“. Dieses kann wahlweise mit den
141 Programmen „texlua“ oder „lua5.3“ ausgeführt werden. Die Hilfe zum Skript ist
142 aus dem Wurzelverzeichnis der Wortliste über den Befehl
143 $ texlua skripte/wortliste/beugung.lua -h
146 Umwandlung der Wortliste im Langformat ins grammatische Kurzformat:
147 $ ./skripte/umformatierung.py -ku < wortliste \
148 | texlua skripte/wortliste/beugung.lua -G | ./skripte/sort.py > ausgabedatei
150 Umwandlung einer Datei vom grammatischen Kurzformat ins Langformat:
151 $ texlua skripte/wortliste/beugung.lua < eingabedatei \
152 | ./skripte/umformatierung.py > ausgabedatei
157 Der grundsätzliche Ablauf der Konversion vom Kurzformat ins grammatische
158 Kurzformat ist folgender:
160 1. Suche nach Adjektiven, die nicht auf „e“ enden
161 Sei „Z“ eine beliebige Zeichenkette und „K“ ein Konsonant einschließlich
162 sch, ch, ck und ß, aber ohne c, j, q, w, y. Suche zu allen Einträgen der
163 Wortliste mit Schlüssel der Form „ZK“ nach Einträgen der Form „Z-Ke“,
164 „Z-Kem“, „Z-Ken“, „Z-Ker“, „Z-Kes“ und gleicher Feldbelegung wie „ZK“.
165 Falls diese alle vorhanden sind, markiere sie als gebeugte Formen und
166 setze für „ZK“ den Beugungstyp „A“.
167 Sei „Z“ eine beliebige Zeichenkette und „D“ einer der Diphthonge „au“,
168 „ei“ und „eu“. Suche zu allen Einträgen der Wortliste mit Schlüssel der
169 Form „ZD“ nach Einträgen der Form „ZD·e“, „ZD-em“, „ZD-en“, „ZD-er“,
170 „ZD-es“ und gleicher Feldbelegung wie „ZD“. Falls diese alle vorhanden
171 sind, markiere sie als gebeugte Formen und setze für „ZD“ den Beugungstyp
173 Gebeugte Formen können selbst den Beugungstyp „A“ erhalten. Beispielweise
174 wird „schö-ner“ als gebeugte Form von „schön“ und gleichzeitig als
175 Grundform von „schö-ne-re“, „schö-ne-rem“ etc. gebucht.
177 2. Suche nach Substantiven, die nicht auf „e“ enden
178 Suche unter den großgeschriebenen, nicht mit dem Beugungstyp „A“
179 markierten Wörtern nach Substantiven, die nicht auf „e“ enden. Für Wörter,
180 die auf „sch“, „ch“, „ck“ oder „ß“ enden werden die Beugungsklassen „Sse“,
181 „SseU“, „Ssr“, „SsrU“ und „SeU“ in Betracht gezogen, für Wörter die auf
182 einen Konsonanten (außer c, j, q, w, y) enden, die Beugungsklassen „Sse“,
183 „SseU“, „Ssn“, „SsU“, „Ssr“, „SsrU“, „SeU“, „SU“, „Sn“ (diese nicht für
184 Wörter auf „er“) und „Ss“ (diese nicht für Wörter auf „s“). Für Wörter,
185 die auf einen Diphthong enden, werden die Beugungsklassen „Sse“, „Ssr“,
186 „Sn“ und „Ss“ berücksichtigt, für Wörter die auf einen einfachen Vokal
187 enden, nur die Beugungsklasse „Ss“.
189 3. Suche nach Adjektiven mit der Endung „e“
190 Sei „Z“ eine beliebige Zeichenkette. Suche zu allen Einträgen der
191 Wortliste mit Schlüssel der Form „Ze“, die in den vorherigen Schritten
192 nicht als gebeugte Form markiert wurden, nach Einträgen der Form „Zem“,
193 „Zen“, „Zer“, „Zes“ und gleicher Feldbelegung wie „Ze“. Falls diese alle
194 vorhanden sind, markiere sie als gebeugte Formen und setze für „Ze“ den
197 4. Suche nach Substantiven mit der Endung „e“
198 Hierbei werden die Beugungsklassen „Ssn“, „Sn“, und „Ss“ in
199 Betracht gezogen. Außerdem werden Wörter auf „er“, die noch keine
200 Beugungsklasse haben, auf das Vorliegen der Klasse „Sn“ untersucht.
203 Ausgegeben mit einem Beugungstyp werden alle entsprechend detektierten
204 Einträge. Ohne Beugungstyp ausgegeben werden alle übrigen Einträge, die
205 nicht als gebeugte Form markiert wurden.
207 Die Konversion in umgekehrter Richtung ist im wesentlichen trivial und wird
208 hier nicht näher erläutert.
214 1. Die verwendete Heuristik beim Erzeugen des grammatischen Kurzformats kann
215 zu Phantomeinträgen führen.
216 So wird aus der Verbform „sicherst“ und den Superlativformen „sicherste“,
217 „sicherstem“, „sichersten“, „sicherster“, „sicherstes“ auf ein Adjektiv
218 „sicherst“ geschlossen.
220 2. Bei Fremdwortadjektiven auf „-el“ (z. B. „sensibel“) und „-er“ (z. B.
221 „illuster“) wird die eigentliche Grundform nicht erkannt. Hierdurch
222 entstehen Doppeleinträge wie
228 3. Falls in der Wortliste einzelne Beugungsformen eines Wortes fehlen oder in
229 der Großschreibung abweichen, ist eine Zusammenfassung der Einträge nicht
230 möglich. Die vorhandenen Formen werden dann als unflektierbar oder in
231 einer falschen Beugungsklasse gebucht.
232 Das gleiche Problem tritt auf, wenn eine gebeugte Form einen eigenen
235 4. Das Skript „beugung.lua“ gibt die Ausgabe unsortiert aus. Die Sortierung
236 von Unicode-Zeichenketten ist in Lua nur mit großem Aufwand zu
237 bewerkstelligen, weshalb auf das vorhandene Skript „sort.py“ verwiesen
241 Mögliche Weiterentwicklungen
242 ----------------------------
244 * Einführung einer Beugungsklasse für regelmäßig steigerbare Adjektive, um
245 Positiv-, Komparativ- und Superlativformen zu einem Eintrag
248 * Einführung einer Beugungsklasse für regelmäßige Verben (oder von zwei
249 Klassen für Verben mit und ohne regelmäßige Vergangenheitsform)
251 * Aufstellen von Negativlisten für die einzelnen Beugungsklassen, um
252 Phantomeinträge zu vermeiden
257 Deklinationsklassen im Deutschen: https://grammis.ids-mannheim.de/progr@mm/4064