skripte/python/edit_tools/abgleich_sprachvarianten.py

   1 #!/usr/bin/env python
   2 # -*- coding: utf8 -*-
   3 # :Copyright: © 2014 Günter Milde.
   4 #             Released without warranty under the terms of the
   5 #             GNU General Public License (v. 2 or later)
   6 # :Id: $Id:  $
   7
   8 # Abgleich der Trennstellen zwischen Sprachvarianten
   9 # ====================================================
  10 #
  11 # * Übertragen von kategorisierten Trennstellen zwischen Sprachvarianten
  12 #   desselben Wortes, und/oder
  13 #
  14 # * Zusammenfassen von Feldern mit gleichem Inhalt wenn das Ergebnis ein
  15 #   wohlgeformter Eintrag ist.
  16 #
  17 # * Ergänzen von Formen mit SS statt ß.
  18 #
  19 # ::
  20
  21 import re, sys, codecs, copy
  22 from wortliste import WordFile, WordEntry, join_word, udiff, sprachabgleich
  23
  24
  25 # Zusammenfassen von Feldern mit gleichem Inhalt z.B.
  26 #
  27 #      hallo;-2-;hal-lo;hal-o     --> hallo;hal-lo
  28 #
  29 # in allen Einträgen von `wortliste`.
  30 # Siehe ``WordEntry.conflate_fields()`` in wortliste.py.
  31 #
  32 # Anwendung 2012-03-13
  33 # (getestet mit ``texlua validate.lua < ../wortliste``)
  34 #
  35 # =========   ======   =======
  36 # Typ         Vorher   Nachher
  37 # ---------   ------   -------
  38 # ua          371807   374614
  39 # uxtr        41156    38349
  40 # =========   ======   =======
  41 #
  42 # ::
  43
  44 if __name__ == '__main__':
  45
  46     # sys.stdout mit UTF8 encoding.
  47     sys.stdout = codecs.getwriter('UTF-8')(sys.stdout)
  48
  49     # Die `Wortliste`::
  50
  51     wordfile = WordFile('../../../wortliste') # ≅ 400 000 Einträge/Zeilen
  52     wortliste = list(wordfile)
  53     wortliste_neu = []
  54
  55     wordfile.seek(0)            # Pointer zurücksetzen
  56     words = wordfile.asdict()
  57
  58     for oldentry in wortliste:
  59         if len(oldentry) <= 2:
  60             # Ggf. Ergänzen der GROSS-Variante:
  61             if (u'ß' in oldentry[0]
  62                 and oldentry[0].replace(u'ß', u'ss') not in words
  63                 and oldentry[0].replace(u'ß', u'ss').lower() not in words
  64                 and oldentry[0].replace(u'ß', u'ss').title() not in words
  65                ):
  66                 entry = WordEntry(oldentry[0].replace(u'ß', u'ss')
  67                                   + u';-2-;-3-;-4-;'
  68                                   + oldentry[1].replace(u'ß', u'ss'))
  69                 wortliste_neu.append(entry)
  70             wortliste_neu.append(oldentry)
  71             continue
  72         entry = copy.copy(oldentry)
  73         sprachabgleich(entry)
  74         # Sprachabgleich mit ß-Form (Strassenschild vs. Straßenschild)
  75         if oldentry == entry and u'ss' in entry[0]:
  76             # Vergleichseintrag für Sprachabgleich finden:
  77             for field in entry[1:]:
  78                 if not field.startswith(u'-'):
  79                     break # ``field`` ist jetzt erstes nichtleeres Feld
  80             try:
  81                 v_entry = words[join_word(field.replace(u'ss', u'ß'))]
  82                 sprachabgleich(entry, v_entry)
  83             except KeyError:
  84                 print entry[0].replace(u'ss', u'ß'), "fehlt"
  85                 # if entry.get('de-1901-x-GROSS'):
  86                 #     wort1901 = entry.get('de-1901-x-GROSS')
  87                 #     wort1901 = wort1901.replace(u'ss', u'ß')
  88                 #     if not u'/' in wort1901 and len(wort1901)>3:
  89                 #         print u'%s;-2-;%s;-4-' % (join_word(wort1901), wort1901)
  90                 pass  # e.g. "Abfahrtßpezialisten"
  91         if oldentry == entry and u'ß' in entry[0]:
  92             try:
  93                 sprachabgleich(entry, words[entry[0].replace(u'ß', u'ss')])
  94             except KeyError:
  95                 # Ergänzen der GROSS-Variante
  96                 if entry.get('de-1996') is None:
  97                     oldentry = WordEntry(u';'.join(
  98                                         [entry[0].replace(u'ß', u'ss'),
  99                                          u'-2-;-3-',
 100                                          entry[2].replace(u'ß', u'ss'),
 101                                          entry[2].replace(u'ß', u'ss')]))
 102                 elif entry.get('de-1996') is None:
 103                     # Dämmmassnahmen;-2-;-3-;-4-;-5-;-6-;Dämm==mass=nah-men;-8-
 104                     oldentry = WordEntry(entry[0].replace(u'ß', u'ss')
 105                                       + u';-2-;-3-;-4-;-5-;-6-;'
 106                                       + entry[3].replace(u'ß', u'ss')
 107                                       + u'-8-')
 108                 else:
 109                     oldentry = WordEntry(u';'.join(
 110                                         [entry[0].replace(u'ß', u'ss'),
 111                                          u'-2-;-3-;-4-;-5-',
 112                                          entry[2].replace(u'ß', u'ss'),
 113                                          entry[3].replace(u'ß', u'ss'),
 114                                          u'-8-']))
 115
 116                 wortliste_neu.append(oldentry)
 117
 118         wortliste_neu.append(entry)
 119
 120
 121
 122     # Patch erstellen::
 123
 124     patch = udiff(wortliste, wortliste_neu, 'wortliste', 'wortliste-neu',
 125                   encoding=wordfile.encoding)
 126     if patch:
 127         # print patch
 128         patchfile = open('wortliste.patch', 'w')
 129         patchfile.write(patch + '\n')
 130     else:
 131         print "empty patch"