*Absaugesystem -> Absaugsystem
[wortliste.git] / dokumente / Grammatisches_Kurzformat.txt
blob29ab315820663c0007d1a07a042e76bc81b4c6cc
1 Das grammatische Kurzformat ist ein 2020 entwickeltes besonders kompaktes
2 Wortlistenformat, das sich verlustfrei in das Langformat (dokumentiert in
3 „README.wortliste“) und das Kurzformat (dokumentiert in
4 „../skripte/python/edit_tools/wortliste.py“) konvertieren läßt.
6 Langformat <-> Kurzformat <-> grammatisches Kurzformat
8 Das grammatische Kurzformat basiert auf dem gewöhnlichen Kurzformat und hat
9 diesem gegenüber den Vorteil einer erheblich geringeren Anzahl von Einträgen
10 durch die Einsparung gebeugter Wortformen. Der hierfür zu zahlende Preis ist
11 die Aufnahme einer zusätzlichen Information pro Zeile zur Codierung der
12 Beugungsklasse.
15 Unterstützte Beugungsklassen
16 ----------------------------
17 Die folgende Tabelle stellt die zur Zeit unterstützten Beugungsklassen
18 überblicksartig zusammen.
20   Codierung  Bedeutung
21   ---------  -----------------------------------------------------------------
22   A          Adjektiv (auch: Partizip, Pronomen, Zahlwort) mit regelmäßiger
23              Deklination (ohne Berücksichtigung der Komparation)
25   SeU        Substantiv ohne Genitivmarkierung mit Plural auf -e und
26              Umlautbildung
27              Bsp.: die Hand, der Hand, die Hände
29   Sn         Substantiv mit Genitiv auf -n oder oder ohne Genitivmarkierung
30              und Plural auf -(e)n
31              Bsp. 1: der Junge, des Jungen, die Jungen
32              Bsp. 2: die Karte, der Karte, die Karten
33              Bsp. 3: die Frau, der Frau, die Frauen
34              Bsp. 4: die Ahnung, der Ahnung, die Ahnungen
35              Bsp. 5: die Lehrerin, der Lehrerin, die Lehrerinnen
37   Srn        Substantiv auf -e mit starkem Nominativ auf -er und Plural auf -en
38              Bsp. 1: der Beamte, ein Beamter, die Beamten
39              Bsp. 2: der Vorsitzende, ein Vorsitzender, die Vorsitzenden
41   Ss         Substantiv mit einziger Beugungsform auf -s
42              Bsp. 1: der Park, des Parks, die Parks
43              Bsp. 2: die Kamera, der Kamera, die Kameras
44              Bsp. 3: das Niveau, des Niveaus, die Niveaus
45              Bsp. 4: Anna, Annas
47   Sse        Substantiv mit Genitiv auf -(e)s und Plural auf -e oder -en
48              Bsp. 1: der Tag, des Tag(e)s, die Tage
49              Bsp. 2: das Bett, des Bett(e)s, die Betten
50              Bsp. 3: das Zeugnis, des Zeugnisses, die Zeugnisse
51              Bsp. 4: der Schrei, des Schrei(e)s, die Schreie
52              Bsp. 5: der König, des Königs, die Könige
53              Bsp. 6: der Skandal, des Skandals, die Skandale
54              Bei vielen Fremdwörtern (insbesondere solchen, die auf einen
55              einzelnen Konsonanten enden) gibt es keinen alternativen Genitiv
56              auf -es. Daher wird bei Substantiven, die auf -ik, -al, -pel, -il,
57              -ll, -ul, -ül, -em, -mm, -om, -erm, -ym, -en, -in, -on, -op, -ar,
58              -är, -ier, -or, -ör, -ur, -it oder -iv enden, keine Form auf -es
59              angenommen, es sei denn, der Duden verzeichnet eine solche.
60              Außerdem wird bei Wörtern auf -end, -ig und -ing kein Genitiv auf
61              -es angenommen.
62              Substantive mit Genitiv auf -s, aber nicht -es und Plural auf -en
63              gehören in die Klasse Ssn.
65   SseU       Substantiv mit Genitiv auf -(e)s und Plural auf -e mit
66              Umlautbildung
67              Bsp. 1: der Wolf, des Wolf(e)s, die Wölfe
68              Bsp. 2: der Saal, des Saal(e)s, die Säle
70   Ssn        Substantiv mit Genitiv auf -s und Plural oder Dativ Plural
71              auf -(e)n
72              Bsp. 1: der Lehrer, des Lehrer, die Lehrer, den Lehrern
73              Bsp. 2: der Hebel, des Hebels, die Hebel, den Hebeln
74              Bsp. 3: der Vetter, des Vetters, die Vettern
75              Bsp. 4: der Autor, des Autors, die Autoren
76              Bsp. 5: das Elektron, des Elektrons, die Elektronen
77              Bsp. 6: der Typ, des Typs, die Typen
78              Substantive mit Genitiv auf -es und Plural auf -en gehören in die
79              Klasse Sse.
81   SsU        Substantiv mit Genitiv auf -s und umgelautetem Plural
82              Bsp. 1: der Bruder, des Bruders, die Brüder
83              Bsp. 2: der Apfel, des Apfels, die Äpfel
84              Bsp. 3: der Garten, des Gartens, die Gärten
86   Ssr        Substantiv mit Genitiv auf -(e)s und Plural auf -er
87              Bsp. 1: das Kind, des Kind(e)s, die Kinder
88              Bsp. 2: das Licht, des Licht(e)s, die Lichter
90   SsrU       Substantiv mit Genitiv auf -(e)s und Plural auf -er mit
91              Umlautbildung
92              Bsp. 1: das Dach, des Dach(e)s, die Dächer
93              Bsp. 2: das Gras, des Grases, die Gräser
94              Bsp. 3: das Haus, des Hauses, die Häuser
96   SU         Substantiv ohne Genitivmarkierung mit umgelautetem Plural
97              Bsp.: die Mutter, der Mutter, die Mütter
99   V          Verb mit regelmäßigen Gegenwarts- und Vergangenheitsformen
100              Bsp. 1: hören, ich höre, ich hörte
101              Bsp. 2: schauen, ich schaue, ich schaute
102              Bsp. 3: lächeln, ich lächle, ich lächelte
103              Bsp. 4: klettern, ich klettere, ich kletterte
105   VG         Verb mit regelmäßigen Gegenwartsformen
106              Bsp. 1: gehen, ich gehe
107              Bsp. 2: schreien, ich schreie
108              Bsp. 3: tun, ich tue
110   VV         Vergangenheitsform eines starken oder gemischten Verbs
111              Bsp. 1: ich ging
112              Bsp. 2: ich schrie
113              Bsp. 3: ich brachte
115 Alle Wörter, die in keine definierte Beugungsklasse fallen, gelten technisch
116 gesehen als unflektierbar.
119 Eintragsformat
120 --------------
121 Ein Listeneintrag im grammatischen Kurzformat hat einen Trennteil und einen
122 Kommentarteil. Der Trennteil enthält gewichtete Angaben zur Worttrennung in bis
123 zu fünf durch Semikola getrennten Feldern. Er ist identisch zum entsprechenden
124 Listeneintrag des Worts im Kurzformat.
125 Der Kommentarteil enthält die codierte Beugungsklasse und ggf. einen Kommentar
126 zum Eintrag wie er sich auch im Langformat und im Kurzformat findet. Der
127 Kommentarteil wird durch „#“ eingeleitet. Danach folgt ggf. die Beugungsklasse
128 und – falls vorhanden – der eigentliche Kommentar, der durch „--“ eingeleitet
129 wird. Ist weder eine Beugungsklasse anzugeben noch ein Kommentar vorhanden, so
130 entfällt der Kommentarteil.
132 Beispiele:
134   1. flektierbares Wort ohne Kommentar
135      >> acht=köp-fig # A
136      >> Ma-ga-zin # Sse
137      >> Un<fall # SseU
138      >> zier=rat=>los;-2- # A
139      >> -1-;zie-rat>los # A
141   2. flektierbares Wort mit Kommentar
142      >> a·part # A -- < franz. à part
143      >> gipf-lig # A -- Zahlensuffix
144      >> Toll-patsch;-2- # Sse -- vgl. Tolpatsch
146   3. unflektierbares Wort ohne Kommentar
147      >> so<bald
148      >> Bass=drum;Bass=drum
149      >> Au-ßen=ma-ße;Au-ßen=ma-ße;Aus-sen=mas-se;Au-ssen=ma[-s/s-]se
151   4. unflektierbares Wort mit Kommentar
152      >> Bahn=steig==gleis # -- Antonym: Nebengleis
153      >> flö-ße;flö-ße;flös-se;flös-se # -- trad. versal: FLÖ-SSE und FLÖS-SE
154      >> Gangs-ter=boss;Gang-ster=boss # -- engl.
157 Formatkonversion
158 ----------------
159 Zur Konverversion zwischen dem herkömmlichen Kurzformat und dem grammatischen
160 Kurzformat dient das Lua-Skript „beugung.lua“. Dieses kann wahlweise mit den
161 Programmen „texlua“ oder „lua5.3“ ausgeführt werden. Die Hilfe zum Skript ist
162 aus dem Wurzelverzeichnis der Wortliste über den Befehl
163   $ texlua skripte/wortliste/beugung.lua -h
164 abrufbar.
166 Umwandlung der Wortliste im Langformat ins grammatische Kurzformat:
167   $ ./skripte/umformatierung.py -ku < wortliste \
168     | texlua skripte/wortliste/beugung.lua -G | ./skripte/sort.py > ausgabedatei
170 Umwandlung einer Datei vom grammatischen Kurzformat ins Langformat:
171   $ texlua skripte/wortliste/beugung.lua < eingabedatei \
172     | ./skripte/umformatierung.py > ausgabedatei
175 Konversionsregeln
176 -----------------
177 Der grundsätzliche Ablauf der Konversion vom Kurzformat ins grammatische
178 Kurzformat ist folgender:
180   1. Suche nach Verben mit regelmäßigen Gegenwarts- und Vergangenheitsformen
181      sowie nach Adjektiven und Substantiven, die nicht auf „e“ enden
182      Als Verben werden nur kleingeschriebene, als Substantive nur
183      großgeschriebene Wörter in Betracht gezogen. Um Phantomeinträge zu
184      vermeiden, wird für Substantive auf „er“ die Beugungsklasse „Sn“ nicht in
185      Betracht gezogen.
186      Gebeugte Formen können in diesem Schritt selbst einen Beugungstyp
187      erhalten. Beispielsweise wird „schö-ner“ als gebeugte Form von „schön“
188      und gleichzeitig als Grundform von „schö-ne-re“, „schö-ne-rem“ etc.
189      gebucht.
191   2. Suche nach Adjektiven und Substantiven, die auf „e“ enden, sowie nach
192      Vergangenheitsformen starker und gemischter Verben
193      Bereits als gebeugte Formen markierte Einträge bleiben in diesem Schritt
194      unberücksichtigt.
196   3. Suche nach Substantiven mit der Endung „er“ und Verben mit regelmäßigen
197      Gegenwartsformen
198      Wörter auf „er“, die noch keine Beugungsklasse haben, werden hier auf das
199      Vorliegen der Klasse „Sn“ untersucht.
200      Bereits als gebeugte Formen markierte Einträge bleiben in diesem Schritt
201      unberücksichtigt.
203   4. Ausgabe
204      Ausgegeben mit einem Beugungstyp werden alle entsprechend detektierten
205      Einträge. Ohne Beugungstyp ausgegeben werden alle übrigen Einträge, die
206      nicht als gebeugte Form markiert wurden.
208 Die gewählte Abfolge hat das Ziel, Phantomeinträge möglichst zu vermeiden.
209 Die Konversion in umgekehrter Richtung ist im wesentlichen trivial und wird
210 hier nicht näher erläutert.
213 Probleme
214 --------
216   1. Die verwendete Heuristik beim Erzeugen des grammatischen Kurzformats kann
217      zu Phantomeinträgen führen.
218      So wird aus der Verbform „sicherst“ und den Superlativformen „sicherste“,
219      „sicherstem“, „sichersten“, „sicherster“, „sicherstes“ auf ein Adjektiv
220      „sicherst“ geschlossen.
222   2. Bei Fremdwortadjektiven auf „-el“ (z. B. „sensibel“) und „-er“ (z. B.
223      „illuster“) wird die eigentliche Grundform nicht erkannt. Hierdurch
224      entstehen Doppeleinträge wie
225      >> il<lus-ter
226      >> il<lus-tre # A
227      >> sen-si-bel
228      >> sen-si-ble # A
230   3. Falls in der Wortliste einzelne Beugungsformen eines Wortes fehlen oder in
231      der Großschreibung abweichen, ist eine Zusammenfassung der Einträge nicht
232      möglich. Die vorhandenen Formen werden dann als unflektierbar oder in
233      einer falschen Beugungsklasse gebucht.
234      Das gleiche Problem tritt auf, wenn eine gebeugte Form einen eigenen
235      Kommentar besitzt.
237   4. Das Skript „beugung.lua“ gibt die Ausgabe unsortiert aus. Die Sortierung
238      von Unicode-Zeichenketten ist in Lua nur mit großem Aufwand zu
239      bewerkstelligen, weshalb auf das vorhandene Skript „sort.py“ verwiesen
240      sei.
243 Mögliche Weiterentwicklungen
244 ----------------------------
246   * Einführung einer Beugungsklasse für regelmäßig steigerbare Adjektive, um
247     Positiv-, Komparativ- und Superlativformen zu einem Eintrag
248     zusammenzufassen
250   * Berücksichtigung von Imperativ- und Konjunktivformen in den Klassen für
251     Verben
253   * Aufstellen von Negativlisten für die einzelnen Beugungsklassen, um
254     Phantomeinträge zu vermeiden
257 Literatur
258 ---------
259 Deklinationsklassen im Deutschen: https://grammis.ids-mannheim.de/progr@mm/4064