skripte/python/wortfugen.py

   1 #!/usr/bin/env python
   2 # -*- coding: utf8 -*-
   3 # :Copyright: © 2014 Günter Milde.
   4 #             Released without warranty under the terms of the
   5 #             GNU General Public License (v. 2 or later)
   6 # :Id: $Id:  $
   7
   8 # wortfugen.py: Teste unkategorisierte Trennstellen auf Wortfugen
   9 # ===============================================================
  10 #
  11 # ::
  12
  13 """Suche nach "Teilwortkandidaten" in der `Wortliste`"""
  14
  15 # .. contents::
  16 #
  17 # Vorspann
  18 # ========
  19 #
  20 # Importiere Python Module::
  21
  22 import re       # Funktionen und Klassen für reguläre Ausdrücke
  23 import sys      # sys.exit() zum Abbruch vor Ende (für Testzwecke)
  24 import codecs
  25 from collections import defaultdict  # Wörterbuch mit Default
  26 from copy import deepcopy
  27
  28 from werkzeug import WordFile, join_word, udiff
  29 from analyse import read_teilwoerter, teilwoerter
  30 from abgleich_teilwoerter import wortliste_to_teilwoerter
  31
  32 # sys.stdout mit UTF8 encoding.
  33 sys.stdout = codecs.getwriter('UTF-8')(sys.stdout)
  34
  35 # Globale Variablen
  36 # -----------------
  37 #
  38 # Ausgangsbasis
  39 # -------------
  40 #
  41 # Die freie `Wortliste der deutschsprachigen Trennmustermannschaft`_
  42 # ("Lembergsche Liste")::
  43
  44 wordfile = WordFile('../../wortliste') # ≅ 400 000 Einträge/Zeilen
  45
  46 # Sprachvarianten
  47 # ---------------
  48 #
  49 # Sprach-Tag nach [BCP47]_::
  50
  51 # sprachvariante = 'de-1901'         # "traditionell"
  52 sprachvariante = 'de-1996'         # Reformschreibung
  53 # sprachvariante = 'de-x-GROSS'      # ohne ß (Großbuchstaben und Kapitälchen)
  54 # sprachvariante = 'de-1901-x-GROSS'   # ohne ß (Schweiz oder GROSS)
  55 # sprachvariante = 'de-1996-x-GROSS' # ohne ß (Schweiz oder GROSS)
  56 # sprachvariante = 'de-CH-1901'     # ohne ß (Schweiz) ("süssauer")
  57
  58 # Vergleichsbasis
  59 # ~~~~~~~~~~~~~~~
  60 # Verwende die Wortliste oder die mit ``analyse.py`` generierte Teilwortliste
  61 # als Quelle der kategorisierten Trennungen::
  62
  63 use_teilwoerter = False
  64 # use_teilwoerter = True
  65 # use_teilwoerter = None   # use spelldict
  66
  67 # Textdateien mit Wortbestandteilen
  68 # ---------------------------------
  69 #
  70 # * Ein Wortteil/Zeile
  71 # * Groß/Kleinschreibung unterschieden
  72 # * Kodierung: utf8 (bis auf 'ogerman')
  73
  74 # Wörterbucher für die Rechtschreibprüfprogramme Ispell/Aspell
  75 # Unterscheiden Groß-/Kleinschreibung und beinhalten auch kurze Wörter. ::
  76
  77 def wortdatei(wortfile, encoding='utf8'):
  78     for line in open(wortfile):
  79         yield line.rstrip().decode(encoding)
  80
  81 if use_teilwoerter is None:
  82     if sprachvariante == 'de-1996':
  83         spellfile = '../../spell/hunspell-%s'%sprachvariante
  84     else:
  85         spellfile = '../../spell/aspell-%s'%sprachvariante
  86
  87         spelldict = set(w for w in wortdatei(spellfile)
  88                         if len(w) > 2)
  89
  90     # print "spelldict", len(spelldict)
  91     # print spelldict
  92     # sys.exit()
  93
  94 # Entferne Wörter/Silben, die (fast) nie in Wortverbindungen vorkommen
  95 # TODO: Solitäre aus einer Datei lesen. ::
  96
  97     for solitaer in ('baren', 'RAF'):
  98         spelldict.discard(solitaer)
  99
 100 # Präfixe (auch als Präfix verwendete Partikel, Adjektive, ...)::
 101
 102 praefixe = set(w for w in wortdatei('wortteile/praefixe'))
 103
 104 # Präfixe die keine selbständigen Wörter sind::
 105
 106 vorsilben = set(w for w in wortdatei('wortteile/vorsilben'))
 107
 108 # Erstsilben: Wörter, die häufig als erste
 109 # Silbe eines Wortes (aber nicht oder nur selten als Teilwörter) auftreten
 110 # aber keine Vorsilben sind ::
 111
 112 erstsilben = set(w for w in wortdatei('wortteile/erstsilben'))
 113
 114 # Endsilben, die keine eigenständigen Wörter sind
 115 # (nicht (nur) Endungen im morphologischen Sinne, sondern ganze Silben)::
 116
 117 endsilben = set(w for w in wortdatei('wortteile/endsilben'))
 118
 119
 120 # Einträge der "Wortliste"
 121 # ------------------------
 122 # ::
 123
 124 wordfile = WordFile('../../wortliste') # ≅ 400 000 Einträge/Zeilen
 125 wortliste = list(wordfile)
 126
 127 # Sammeln unbekannter Wortteile::
 128
 129 unbekannt1 = defaultdict(list)
 130 unbekannt2 = defaultdict(list)
 131
 132 # Wörterbuch zum Aufsuchen der Teilwörter
 133 # ---------------------------------------
 134
 135 if use_teilwoerter:
 136     words = read_teilwoerter(path='teilwoerter-%s.txt'%sprachvariante)
 137     words = set(words.trennvarianten.keys())
 138 elif use_teilwoerter is False: # Gesamtwörter als "Teilwörter":
 139     words = wortliste_to_teilwoerter(wortliste, sprachvariante)
 140     words = set(words.trennvarianten.keys())
 141 else:
 142     words = spelldict
 143
 144
 145 # 2. Durchlauf: Analyse
 146 # =====================
 147 #
 148 # Durchlaufe alle Einträge::
 149
 150 wortliste_neu = deepcopy(wortliste)
 151
 152 for entry in wortliste_neu:
 153
 154 # Wort mit Trennungen in Sprachvariante::
 155
 156     wort = entry.get(sprachvariante)
 157     if wort is None: # Wort existiert nicht in der Sprachvariante
 158         continue
 159
 160 # Spezielle Teilwörter suchen::
 161
 162     # teile = wort.split(u'-')
 163     # if teile[-1] == 'burg':
 164     #     print ('-'.join(teile[:-1]) + '=' + teile[-1])
 165     # continue
 166
 167     if u'·' not in wort:  # keine unkategorisierte Trennstelle
 168         continue
 169
 170 # Trenne an unkategorisierten Trennstellen (markiert durch '·')::
 171
 172     teile = wort.split(u'·')
 173
 174 # Wortteile analysieren::
 175
 176     for i in range(1,len(teile)):
 177         erstwort = u'·'.join(teile[:i])
 178         zweitwort =  u'·'.join(teile[i:])
 179
 180 # Key: Teilwort ohne Trennung, Groß/Kleinschreibung übertragen::
 181
 182         try:
 183             erstkey = join_word(erstwort)
 184             zweitkey = join_word(zweitwort)
 185         except AssertionError, e:  # Spezialtrennung
 186             print e
 187             continue
 188         if wort[0].istitle():
 189             zweitkey = zweitkey.title()
 190
 191 # Bearbeiten
 192 # ==========
 193
 194 # Blöcke zur regelbasierten Kategorisierung.
 195 # Zum Auskommentieren und Anpassen.
 196
 197 # Fugen-s o.ä. weglassen oder hinzufügen::
 198
 199         # erstkey = erstkey[:-1]
 200         # erstkey = erstkey + 's'
 201
 202 # Komposita::
 203
 204         if ((erstkey in words
 205              or erstkey.lower() in words
 206              or erstkey.upper() in words)
 207             and erstkey not in erstsilben
 208             and erstkey.lower() not in vorsilben
 209             and erstkey.lower() not in praefixe
 210             and
 211             (zweitkey in words
 212                  or zweitkey.lower() in words
 213                  or zweitkey.upper() in words)
 214             and zweitkey.lower() not in endsilben
 215            ):
 216             compound = '='.join((erstwort, zweitwort.lower()))
 217             print u'%-30s %-15s %s'% (compound, erstkey,zweitkey)
 218             entry.set(compound, sprachvariante)
 219
 220 # Vorsilben::
 221
 222         # if (erstkey in vorsilben
 223         #     # and zweitkey in words
 224         #    ):
 225         #     print str(entry), (u'%s<%s'% (erstkey,zweitwort))
 226         #     entry.set('-'.join((erstwort, zweitwort)), sprachvariante)
 227
 228 # Endsilben::
 229
 230         # if (erstkey in words
 231         #     and zweitkey.lower() in endsilben
 232         #    ):
 233         #     print str(entry), (u'%s-%s'% (erstkey,zweitwort))
 234         #     entry.set('-'.join((erstwort, zweitwort)), sprachvariante)
 235
 236
 237 # # Erstsilben::
 238
 239         # if (erstkey in erstsilben or erstkey in vorsilben):
 240         #     print str(entry), (u'%s-%s'% (erstkey,zweitwort))
 241         #     entry.set('-'.join((erstwort, zweitwort)), sprachvariante)
 242
 243 # # Neueintragskandidaten::
 244 #
 245 #         if (erstkey not in words
 246 #             and erstkey not in vorsilben
 247 #             and erstkey not in erstsilben
 248 #            ):
 249 #             unbekannt1[erstwort].append(wort)
 250 #         #
 251 #         elif (zweitkey not in words
 252 #             and zweitkey.lower() not in endsilben
 253 #            ):
 254 #             unbekannt2[zweitwort].append(wort)
 255 #         else:
 256 #             print ("%s-%s %s" % (erstwort, zweitwort, entry))
 257
 258
 259 # Ausgabe
 260 # ==========
 261
 262 # Unbekannte Teilwörter/Silben::
 263
 264 def testausgabe(unbekannt):
 265     checkliste = ['%3d %s %s' % (len(unbekannt[key]), key,
 266                                  ','.join(unbekannt[key]))
 267                   for key in sorted(unbekannt.keys())]
 268     checkliste.sort()
 269     return u'\n'.join(checkliste) + '\n'
 270
 271
 272 if unbekannt1:
 273     print testausgabe(unbekannt1)
 274 if unbekannt2:
 275     print testausgabe(unbekannt2)
 276
 277
 278 # Ein Patch für die wortliste::
 279
 280 patch = udiff(wortliste, wortliste_neu,
 281               wordfile.name, wordfile.name+'-neu',
 282               encoding=wordfile.encoding)
 283
 284 if patch:
 285     # print patch
 286     patchfile = open('wortliste.patch', 'w')
 287     patchfile.write(patch + '\n')
 288 else:
 289     print u'keine Änderungen'