skripte/python/spellcheck.py

   1 #!/usr/bin/env python
   2 # -*- coding: utf8 -*-
   3 # :Copyright: © 2014 Günter Milde.
   4 #             Released without warranty under the terms of the
   5 #             GNU General Public License (v. 2 or later)
   6 # :Id:        $Id:  $
   7
   8 # "Korporavergleich (Wortliste vs. diverse Rechtschreibprüfprogramme)
   9 # ===================================================================
  10 #
  11 # Liste Differenz der Stichproben in der "wortliste" und dem "Dumping" von
  12 # aspell/hunspell.
  13 #
  14 # ::
  15
  16 import re, sys, codecs, copy
  17 from werkzeug import WordFile, WordEntry, join_word, udiff
  18 # from abgleich_teilwoerter import wortliste_to_teilwoerter
  19
  20 # Konfiguration
  21 # -------------
  22 #
  23 # Sprachvarianten
  24 # ~~~~~~~~~~~~~~~
  25 # Sprach-Tag nach [BCP47]_::
  26
  27 # sprachvariante = 'de-1901'         # "traditionell"
  28 sprachvariante = 'de-1996'         # Reformschreibung
  29 # sprachvariante = 'de-1901-x-GROSS'   # ohne ß (Schweiz oder GROSS)
  30 # sprachvariante = 'de-1996-x-GROSS' # ohne ß (Schweiz oder GROSS)
  31 # sprachvariante = 'de-CH-1901'     # ohne ß (Schweiz) ("süssauer")
  32
  33 # Vergleichsbasis
  34 # ~~~~~~~~~~~~~~~
  35 #
  36 # ::
  37
  38 spelldatei = '../../spell/aspell-de-1996-compact'
  39
  40 korrekturdatei = '../../spell/korrekturen'
  41
  42 # Funktionen
  43 # -----------
  44 # ::
  45
  46 if __name__ == '__main__':
  47
  48     # sys.stdout mit UTF8 encoding.
  49     sys.stdout = codecs.getwriter('UTF-8')(sys.stdout)
  50
  51 # `Wortliste` einlesen::
  52
  53     wordfile = WordFile('../../wortliste')
  54     words = wordfile.asdict()
  55
  56 # Korrekturen einlesen::
  57
  58     korrekturen = []
  59     for line in open(korrekturdatei, 'r'):
  60         if not line.startswith('-'):
  61             continue
  62         # Dekodieren, Zeilenende entfernen
  63         line = line.decode('utf8')
  64         korrekturen.append(line[1:].strip())
  65
  66 # Vergleichswörter einlesen::
  67
  68     for line in open(spelldatei, 'r'):
  69         # if line.startswith('#'):
  70         #     continue
  71         # Dekodieren, Zeilenende entfernen
  72         line = line.decode('utf8').strip()
  73         # Tags entfernen (bei "-compact")
  74         key = line.split(u'/')[0]
  75
  76         # kurze Wörter haben wir nicht:
  77         if len(key) < 4:
  78             continue
  79
  80 # Ausgabe "neuer" Wörter::
  81
  82         if (key not in words
  83             and key.lower() not in words
  84             and key.title() not in words
  85             and key not in korrekturen
  86            ):
  87             print key
  88
  89