skripte/MANIFEST

   1 apply-pattern.pl
   2 # Dieses Perl-Skript wendet die TeX-Trennmusterdatei $1 auf den Datenstrom
   3 # an, wobei $2 als Translationsdatei benutzt wird (das ist diejenige Datei,
   4 # die `patgen' als viertes Argument benötigt).
   5 #
   6 # Folgende Zeichen werden vor der Weiterverarbeitung aus der Eingabe
   7 # herausgefiltert:
   8 #
   9 #   · - = |
  10 #
  11 # Ist Option `-1' nicht gegeben, werden Trennungen direkt nach dem ersten
  12 # und vor dem letzten Buchstaben in der Ausgabe entfernt, wie z.B. bei
  13 # deutschen Trennungen erforderlich.
  14 #
  15 # Dieses Skript benützt patgen, nicht TeX!  Die Trennmusterdatei darf daher
  16 # keine TeX-Konstrukte (Makros u.ä.) enthalten.
  17 #
  18 # Aufruf:  perl apply-pattern.pl trennmuster german.tr < eingabe > ausgabe
  19
  20 extract-tex.pl
  21 # Dieses Perl-Skript extrahiert einfache Wortlisten aus der
  22 # »wortliste«-Datenbank (oder ähnlichen Dateien mit gleichem Dateiformat),
  23 # die beispielsweise als Eingabedateien für »patgen« verwendet werden
  24 # können.
  25 #
  26 # Aufruf:
  27 #
  28 #   perl extract-tex.pl [Optionen...] [liste1 liste2 ...] > input.patgen
  29 #
  30 # Die Eingabedateien müssen in UTF-8 kodiert sein; ist keine Eingabedatei
  31 # angegeben, verwendet das Skript die Standardeingabe.  Beispiele:
  32 #
  33 #   perl extract-tex.pl -l < ../wortliste > wortliste.ref.latin9
  34 #   perl extract-tex.pl -t ../wortliste > wortliste.trad.utf8
  35 #
  36 #
  37 # Optionen
  38 # --------
  39 #
  40 # -t
  41 # -s  Option »-t« wählt die traditionelle deutsche Rechtschreibung aus,
  42 #     Option »-s« die traditionelle (deutsch)schweizerische Rechtschreibung.
  43 #     Wenn weder »-s« noch »-t« gesetzt ist, wird die reformierte deutsche
  44 #     Rechtschreibung ausgewählt.
  45 #
  46 # -x  Ignoriere Optionen »-g« und »-u« und gebe die sprachspezifischen
  47 #     Felder unbearbeitet aus.
  48 #
  49 # -g  Gib Wörter mit gewichteten Trennstellen aus; Wörter mit »·« werden
  50 #     ignoriert.  Optional kann ein ganzzahliges Argument angegeben werden:
  51 #     Wert 0 gibt alle gewichtete Trennstellen aus inklusive »-« (das ist
  52 #     der Standardwert), Wert 1 nur die Trennstellen mit der höchsten
  53 #     Wichtung (ohne »-«), Wert 2 die Trennstellen mit der höchsten und
  54 #     zweithöchsten Wichtung (ohne »-«), usw.
  55 #
  56 #     Beachte, dass bei nahe beieinanderstehenden Trennstellen derzeit keine
  57 #     zusätzliche Wichtung vorgenommen wird.  Beispielsweise ist in dem Wort
  58 #
  59 #       ab<be<ru-fen
  60 #
  61 #     die Trennung »abbe-rufen« schlecht, weil ganz nahe der optimalen
  62 #     Trennstelle (nach »ab«).  Das Skript gibt trotzdem diese Trennstelle
  63 #     als zweitbeste aus.
  64 #
  65 # -u  Verhindere die Ausgabe von Wörtern mit Markern für unerwünschte
  66 #     Trennungen (z.B. »An-al.pha-bet«).
  67 #
  68 # -v  Verhindere die Ausgabe von Versalformen, wo »ß« durch »ss« ersetzt
  69 #     ist.
  70 #
  71 # -l  Konvertiere die Ausgabe von UTF-8 nach latin-9 (wie von »patgen«
  72 #     benötigt).
  73
  74 make-full-pattern.sh
  75 # -*- coding: utf-8 -*-
  76 #
  77 # Dieses Skript generiert deutsche Trennmuster.
  78 #
  79 # Aufruf:
  80 #
  81 #   sh make-full-pattern.sh words.hyphenated german.tr
  82
  83 merge-wordlists.sh
  84 # Fügt mehrere Wortlisten zu einer sortierten Gesamtliste der einfachen
  85 # (ungetrennten) Wörter)zusammen.
  86 #
  87 # Eingabe: ein oder mehrere Dateinamen.
  88 # Ausgabe ist nach stdout.
  89
  90 patgen-list-diff.awk
  91 # Dieses Skript liest eine DIFF-Datei der Patgen-Eingabelisten (siehe
  92 # Skript patgen-list-diff.sh) und zerlegt sie in Wörter,
  93 #
  94 #  * die neu hinzugefügt,
  95 #  * die entfernt,
  96 #  * deren Trennung korrigiert und
  97 #  * deren Klein- und Großschreibung korrigiert
  98 #
  99 # wurde.  Die Wörter werden in Dateien der Form <Eingabedatei>.<ext>
 100 # gespeichert.  <ext> ist entsprechend 'added', 'removed', 'case' oder
 101 # 'hyph'.  Beim Aufruf des Skripts muss die Variable 'ftr' mit dem Namen
 102 # der Translate-Datei für Patgen vorbelegt werden:
 103 #   gawk -v ftr=<translate datei> ...
 104
 105 patgen-list-diff.sh
 106 # -*- coding: utf-8 -*-
 107 #
 108 # Dieses Skript erzeugt Differenzbilder (diff) für die
 109 # Patgen-Eingabelisten zwischen zwei angegebenen Commits.  Wird nur ein
 110 # Commit angegeben, wird als Zielcommit "master" verwendet.  Die
 111 # Ausgabedateien werden als Dateien
 112 #
 113 #   dehyph*-x/<Start-Commit-Hash>-<Ziel-Commit-Hash>.diff
 114 #
 115 # in Verzeichnissen gespeichert, die der jeweiligen Rechtschreibung
 116 # entsprechen.  Start- und Ziel-Commit können in jeder gültigen
 117 # Git-Syntax angegeben werden.  Für die Dateinamen werden die
 118 # entsprechenden abgekürzten alphanumerischen Commit-Hashes
 119 # verwendet.
 120
 121 prepare-wordlist.sh
 122 #     $ sh prepare-wordlist.sh < Textdatei
 123 #
 124 # listet alle Wörter mit mindestens vier Buchstaben, die keine römischen
 125 # Zahlen sind, aus einer gegebenen Textdatei auf und …
 126 #
 127 #     $ sh prepare-wordlist.sh < Textdatei | grep -Fixvf Prüfliste
 128 #
 129 # … prüft sie gegen eine ebenfalls gegebene Prüfliste von bekannten Wörtern.
 130 # Eine solche Prüfliste kann beispielsweise mit
 131 #
 132 #   perl extract-tex.pl ../wortliste | sed 's/-//g' > wortliste.ref
 133 #
 134 # erzeugt werden.
 135
 136 validate.lua
 137   Syntax-Test der Wortliste.  Benötigt ``texlua`` als Interpreter.
 138
 139   Aufruf:  ``texlua validate.lua < ../wortliste``
 140   Optionen:
 141   -h, --help                print help
 142   -s, --statistics          output record statistics
 143
 144 sort.py
 145   Sortiere eine oder mehrere Dateien im "Wortliste-Format".
 146   Aufrufbeispiele:
 147
 148   Filter: spezieller Dateiname „-“
 149     ./Sort.py - <../wortliste > ../wortliste.sortiert
 150
 151   Zusammenfügen und sortieren:
 152     ./sort.py liste.c liste.a liste.b > liste.abc
 153
 154   Einsortieren in die nach Alphabet gesplitteten Dateien „wl-a“ bis „wl-z“:
 155      ./sort.py neu.todo wl-* --split -o wl-
 156
 157   Einsortieren und Patch erstellen:
 158     ./sort.py ../wortliste neu.todo --diff -o ../wortliste.patch
 159
 160     Sortiere die Wortliste und erstelle einen Patch im "unified diff" Format.
 161     Anwenden des Patches: ``patch wortliste < wortliste-sortiert.patch``
 162
 163   Details mit ``./sort.py -h``
 164
 165   Für einen Test der inneren Konsistenz der Wortliste
 166   (Doppeleinträge, Übereinstimmung Schlüssel-Trennmuster) siehe
 167   skripte/python/werkzeug.py.
 168
 169 umformatierung.py
 170   Wandlung zwischen Lang- und Kurzformat der Wortliste (8-Spalten/5-Spalten)
 171
 172   Aufruf: siehe ``./umformatierung.py -h``
 173
 174   Bspiele::
 175
 176      umformatierung.py -k ../wortliste > ../wlst
 177
 178      umformatierung.py ../wlst > ../wortliste.roundtrip
 179
 180
 181 wlsort.pl
 182   Ein Perl-Skript, das das gleiche wie »sort.py« im Filtermodus tut.
 183
 184 python/
 185   Python-Module, Hilfsdateien und experimentelle Skripte zur Arbeit mit der
 186   Wortliste. Siehe python/MANIFEST
 187
 188 lua/
 189   Lua-Module und Hilfsdateien zur Arbeit mit der Wortliste.  Enthält
 190   u.a. eine formale Beschreibung zulässiger Wörter und Datensätze in der
 191   Wortliste.  Siehe lua/MANIFEST.