skripte/MANIFEST

   1 apply-pattern.pl
   2 # Dieses Perl-Skript wendet die TeX-Trennmusterdatei $1 auf den Datenstrom
   3 # an, wobei $2 als Translationsdatei benutzt wird (das ist diejenige Datei,
   4 # die `patgen' als viertes Argument benötigt).
   5 #
   6 # Folgende Zeichen werden vor der Weiterverarbeitung aus der Eingabe
   7 # herausgefiltert:
   8 #
   9 #   · - = |
  10 #
  11 # Ist Option `-1' nicht gegeben, werden Trennungen direkt nach dem ersten
  12 # und vor dem letzten Buchstaben in der Ausgabe entfernt, wie z.B. bei
  13 # deutschen Trennungen erforderlich.
  14 #
  15 # Dieses Skript benützt patgen, nicht TeX!  Die Trennmusterdatei darf daher
  16 # keine TeX-Konstrukte (Makros u.ä.) enthalten.
  17 #
  18 # Aufruf:  perl apply-pattern.pl trennmuster german.tr < eingabe > ausgabe
  19
  20 extract-tex.pl
  21 # Dieses Perl-Skript extrahiert einfache Wortlisten aus der
  22 # »wortliste«-Datenbank, die beispielsweise als Eingabedateien für »patgen«
  23 # verwendet werden können.
  24 #
  25 # Aufruf:  perl extract-tex.pl [Optionen...] < wortliste > input.patgen
  26 #
  27 # Die »wortliste«-Datei muss in UTF-8 kodiert sein.
  28 #
  29 # Option »-t« wählt die traditionelle deutsche Rechtschreibung aus, Option
  30 # »-s« die traditionelle (deutsch)schweizerische Rechtschreibung.  Wenn
  31 # weder »-s« noch »-t« gesetzt ist, wird die reformierte deutsche
  32 # Rechtschreibung ausgewählt.
  33 #
  34 # Ist Option »-x« gesetzt, werden Optionen »-g« und »-u« ignoriert und die
  35 # die sprachspezifischen Felder unbearbeitet ausgegeben.
  36 #
  37 # Option »-g« bewirkt die Ausgabe von Wörtern mit gewichteten Trennstellen;
  38 # Wörter mit »·« werden ignoriert.
  39 #
  40 # Option »-u« verhindert die Ausgabe von Wörtern mit Markern für
  41 # unerwünschte Trennungen (z.B. »An-al.pha-bet«).
  42 #
  43 # Option »-v« verhindert die Ausgabe von Versalformen, wo »ß« durch »ss«
  44 # ersetzt ist.
  45 #
  46 # Option »-l« konvertiert die Ausgabe nach latin-1 (wie von »patgen«
  47 # benötigt).
  48
  49 make-full-pattern.sh
  50 # -*- coding: utf-8 -*-
  51 #
  52 # Dieses Skript generiert deutsche Trennmuster.
  53 #
  54 # Aufruf:
  55 #
  56 #   sh make-full-pattern.sh words.hyphenated german.tr
  57
  58 merge-wordlists.sh
  59 # Fügt mehrere Wortlisten zu einer sortierten Gesamtliste der einfachen
  60 # (ungetrennten) Wörter)zusammen.
  61 #
  62 # Eingabe: ein oder mehrere Dateinamen.
  63 # Ausgabe ist nach stdout.
  64
  65 patgen-list-diff.awk
  66 # Dieses Skript liest eine DIFF-Datei der Patgen-Eingabelisten (siehe
  67 # Skript patgen-list-diff.sh) und zerlegt sie in Wörter,
  68 #
  69 #  * die neu hinzugefügt,
  70 #  * die entfernt,
  71 #  * deren Trennung korrigiert und
  72 #  * deren Klein- und Großschreibung korrigiert
  73 #
  74 # wurde.  Die Wörter werden in Dateien der Form <Eingabedatei>.<ext>
  75 # gespeichert.  <ext> ist entsprechend 'added', 'removed', 'case' oder
  76 # 'hyph'.  Beim Aufruf des Skripts muss die Variable 'ftr' mit dem Namen
  77 # der Translate-Datei für Patgen vorbelegt werden:
  78 #   gawk -v ftr=<translate datei> ...
  79 # latin1
  80
  81 patgen-list-diff.sh
  82 # -*- coding: utf-8 -*-
  83 #
  84 # Dieses Skript erzeugt Differenzbilder (diff) für die
  85 # Patgen-Eingabelisten zwischen zwei angegebenen Commits.  Wird nur ein
  86 # Commit angegeben, wird als Zielcommit "master" verwendet.  Die
  87 # Ausgabedateien werden als Dateien
  88 #
  89 #   dehyph*-x/<Start-Commit-Hash>-<Ziel-Commit-Hash>.diff
  90 #
  91 # in Verzeichnissen gespeichert, die der jeweiligen Rechtschreibung
  92 # entsprechen.  Start- und Ziel-Commit können in jeder gültigen
  93 # Git-Syntax angegeben werden.  Für die Dateinamen werden die
  94 # entsprechenden abgekürzten alphanumerischen Commit-Hashes
  95 # verwendet.
  96
  97 validate.lua
  98   Syntax-Test der Wortliste.  Benötigt ``texlua`` als Interpreter.
  99
 100   Aufruf:  ``texlua validate.lua < ../wortliste``
 101   Optionen:
 102   -h, --help                print help
 103   -s, --statistics          output record statistics
 104
 105 sort.py
 106   Sortiere die Wortliste und erstelle einen Patch im "unified diff" Format.
 107
 108   Aufruf: ``./sort.py`` oder ``python sort.py``
 109
 110   Anwenden des Patches: ``patch ../wortliste < wortliste-sortiert.patch``
 111
 112   Details mit ``./sort.py -h``
 113
 114   Für einen Test der inneren Konsistenz der Wortliste
 115   (Doppeleinträge, Übereinstimmung Schlüssel-Trennmuster) siehe
 116   skripte/python/werkzeug.py.
 117
 118
 119 python/
 120   Python-Module, Hilfsdateien und experimentelle Skripte zur Arbeit mit der
 121   Wortliste. Siehe python/MANIFEST
 122
 123 lua/
 124   Lua-Module und Hilfsdateien zur Arbeit mit der Wortliste.  Enthält
 125   u.a. eine formale Beschreibung zulässiger Wörter und Datensätze in der
 126   Wortliste.  Siehe lua/MANIFEST.