From 7a6063a0e00e985767cacd0ea61f17cd3f4c4f10 Mon Sep 17 00:00:00 2001
From: =?utf8?q?G=C3=BCnter=20Milde?= <milde@users.sf.net>
Date: Fri, 18 May 2018 23:58:45 +0200
Subject: [PATCH] Update Trennstile und -filter.

fix keine_einzelvokale()

Vereinfachte Filterauswahl: ein Trennstil ist eine Liste von
anderen Trennstilen oder Filtern.
---
 skripte/python/edit_tools/sprachauszug.py | 211 +++++++++++++++---------------
 skripte/python/edit_tools/wortliste.py    |  10 +-
 2 files changed, 111 insertions(+), 110 deletions(-)

diff --git a/skripte/python/edit_tools/sprachauszug.py b/skripte/python/edit_tools/sprachauszug.py
index 53e7eb9..5f2a272 100755
--- a/skripte/python/edit_tools/sprachauszug.py
+++ b/skripte/python/edit_tools/sprachauszug.py
@@ -29,96 +29,83 @@ from wortliste import (WordEntry, ShortEntry, verblasst, fremdwortsilben,
                        keine_einzelvokale, scoretext, unguenstig)
 
 
-# Trennstilfilter
-# ---------------
-#
-# Funktionen zur Auswahl von Trennstellen nach Trennstil.
-#
-# Wahltrennungen
-# """"""""""""""
-#
-# etymologisch()
-# ~~~~~~~~~~~~~~
-#
-# Wähle etymologische Trennungen auch bei verblasster Etymologie:
-#
-# >>> from sprachauszug import etymologisch
-# >>> etymologisch(u'Psy-ch<i-a-t-rie')
-# u'Psy-ch<ia-trie'
-# >>> etymologisch(u'An<woh-ner=in<.i-ti-a-ti-ve')
-# u'An<woh-ner=in<.iti-a-ti-ve'
-#
-# ::
+# Nachbehandlung mit Filtern
+# --------------------------
 
-def etymologisch(word):
-    """Select traditional hyphenation of foreign words."""
-    return fremdwortsilben(verblasst(word))
-
-
-# modern()
-# ~~~~~~~~
-#
-# Wähle Trennung nach Sprechsilbenregel, wenn die Herkunft der Wörter
-# nicht klar erkennbar ist:
-#
-# >>> from sprachauszug import modern
-# >>> modern(u'An<woh-ner=in<.i-ti-a-ti-ve')
-# u'An<woh-ner=ini-ti-a-ti-ve'
-# >>> print modern(u'Pä-d<i-a-t-rie')
-# Pä-di-at-rie
-#
-# ::
+# Hilfsfunktion für modernen Trennstil:
+# Aufruf von verblasst() und fremdwortsilben() mit argument 'modern')::
 
 def modern(word):
-    """Select "modern" hyphenation of foreign words."""
     word = verblasst(word, 'modern')
     return fremdwortsilben(word, 'modern')
 
+# Trennstile
+# """"""""""
 
-# Trennhäufigkeit
-# """""""""""""""
-#
-# standard()
-# ~~~~~~~~~~
-#
-# Unterdrücke als ungünstig markierte Trennstellen (die mit Punkt):
-#
-# >>> from sprachauszug import standard
-# >>> standard(u'Text=il<..lu-stra-ti-.on')
-#
-# ::
+# Definition unterstützter Trennstile::
 
-def standard(word):
-    """Select avoid single vowels."""
-    word = unguenstig(word)
+trennstile = {# Wahltrennungen
 
+              # Wähle etymologische Trennungen auch bei verblasster Etymologie:
+              "etymologisch": [fremdwortsilben, verblasst],
+              # Wähle Sprechsilbentrennungen bei verblasster Etymologie:
+              "modern": [modern],
+              
+              # Trennhäufigkeit
 
-# fixiert()
-# ~~~~~~~~~
-#
-# Standardunterdrückung, keine „Flatterbuchstaben“.
+              # als ungünstig markierte Trennstellen weglassen:
+              "standard": [unguenstig],
+              # Standardunterdrückung, keine „Flatterbuchstaben“:
+              "fix": [unguenstig, keine_einzelvokale],
+              # alle Trennungen zulassen (auch irreführende und Nottrennungen):
+              "inklusiv": [],
+              # zusätzlich Trennungen an Wortanfang und -ende erlauben:
+              "notentext": [scoretext],
+             }
+
+# run_filters()
+# """""""""""""
 #
-# >>> from sprachauszug import fixiert
-# >>> fixiert(u'Psy-ch<i-a-t-rie')
+# Anwenden der Trennstile auf ein Wort:
+
+# >>> from sprachauszug import run_filters
+# >>> run_filters(['fix'], u'Psy-ch<i-a-t-rie')
 # u'Psy-ch<ia-t-rie'
-# >>> fixiert(u'An<woh-ner=in<.i-ti-a-ti-ve')
+# >>> run_filters(['fix'], u'An<woh-ner=in<.i-ti-a-ti-ve')
 # u'An<woh-ner=ini-tia-ti-ve'
 #
-# ::
-
-def fixiert(word):
-    """Select avoid single vowels."""
-    word = unguenstig(word)
-    return keine_einzelvokale(word)
-
-
 # Test: Trennungen wie bisher im 'dehyphen-exptl' TeX-Paket:
 #
-# >>> fixiert(etymologisch(u'Psy-ch<i-a-t-rie'))
+# >>> run_filters(['etymologisch', 'fix'], u'Psy-ch<i-a-t-rie')
 # u'Psy-ch<ia-trie'
-# >>> fixiert(etymologisch(u'An<woh-ner=in<.i-ti-a-ti-ve'))
+# >>> run_filters(['etymologisch', 'fix'], u'An<woh-ner=in<.i-ti-a-ti-ve')
 # u'An<woh-ner=initia-ti-ve'
 
+# >>> run_filters(['standard'], u'Text=il<..lu-stra-ti-.on')
+# u'Text=illu-stra-tion'
+
+# >>> run_filters(['etymologisch'], u'Psy-ch<i-a-t-rie')
+# u'Psy-ch<ia-trie'
+# >>> run_filters(['etymologisch'], u'An<woh-ner=in<.i-ti-a-ti-ve')
+# u'An<woh-ner=in<.iti-a-ti-ve'
+# >>> run_filters(['etymologisch'], u'ger<i-a-t-ri-sche')
+# u'ger<ia-tri-sche'
+
+# ::
+
+def run_filters(styles, word):
+    """Apply a sequence of hyphenation `styles` to `word`."""
+    
+    for style in styles:
+        try:
+            word = run_filters(trennstile[style], word)
+        except KeyError:
+            try:
+                word = style(word)
+            except TypeError:
+                if style:
+                    raise ValueError(u'Trennstil %s nicht definiert' % style)
+    return word
 
 
 # Hauptfunktion
@@ -132,10 +119,15 @@ if __name__ == '__main__':
 
     # sys.stdout = codecs.getwriter('UTF-8')(sys.stdout)
 
-# Optionen::
+# Optionen
+# """"""""
+#
+# ::
 
     parser = argparse.ArgumentParser(description = __doc__,
                                     formatter_class=argparse.RawDescriptionHelpFormatter)
+    parser.add_argument('INFILES', nargs='*',
+                        help=u'Eingabedatei(en), Default: Standardeingabe.')
     parser.add_argument('-l', '--language',
                         help=u'Sprachvariante (Vorgabe "de-1996")',
                         default="de-1996")
@@ -143,17 +135,16 @@ if __name__ == '__main__':
                         help=u'Input ist Wortliste im Kurzformat. '
                         u'(Default: Langformat)', default=False)
     parser.add_argument('-s', '--stil',
-                        help=u'Trennstil (Vorgabe "etymologisch")',
-                        # choices=["all", "etymologisch", "fixiert",
-                        #          "modern", "notentext"],
-                        default="dehyphen")
+                        help=u'Trennstil (Vorgabe "etymologisch-fix")',
+                        default="etymologisch-fix")
     parser.add_argument('-v', '--verbose', action="store_true",
                         help=u'Kommentarzeilen behalten, '
                         u'Einträge für andere Sprachvarianten als Kommentar',
                         default=False)
-    parser.add_argument('-c', '--only-changed', action="store_true",
-                        help=u'Schreibe nur Wörter die durch Filter geändert '
-                        'wurden (zum Testen).')
+    parser.add_argument('-t', '--test-filter', action='store_true',
+                        help=u'Schreibe nur geänderte Wörter.')
+    parser.add_argument('-1', '--test-1er', action='store_true',
+                        help=u'Schreibe nur Wörter mit „Flattertrennung“.')
 
     args = parser.parse_args()
 
@@ -162,47 +153,55 @@ if __name__ == '__main__':
         entry_class = ShortEntry
     else:
         entry_class = WordEntry
+        
 
-# Auswahl bei Wahltrennungen::
+# Einlesen in eine Liste::
 
-    alternatives = etymologisch
-    if "modern" in args.stil.split('-'):
-        alternatives = modern
-    elif "flatterhaft" in args.stil.split('-'):
-        alternatives = None
+    infiles = [open(arg) for arg in args.INFILES] or sys.stdin
+    # verschachtelte Listen entflechten: [i for lst in lsts for i in lst]
+    lines = (line.rstrip().decode('utf-8')
+             for infile in infiles for line in infile)
 
-# Auswahl der Permissivität (Unterdrückung von Trennstellen)::
 
-    postprocess = standard
-    if "notentext" in args.stil.split('-'):
-        postprocess = scoretext
-    if "fixiert" in args.stil.split('-'):
-        postprocess = fixiert
-    elif "inklusiv" in args.stil.split('-'):
-        postprocess = None
+# Iteration über Eingabe
+# """"""""""""""""""""""
+#
+# ::
 
+    for line in lines:
 
-# Iteration über Eingabe::
+# Zeile lesen und in WordEntry oder ShortEntry Objekt wandeln::
 
-    for line in sys.stdin:
-        line = line.decode('utf8').strip()
         if not line or line.startswith(u'#'):
             if args.verbose:
                 print line
             continue
         entry = entry_class(line)
-        auszug = entry.get(args.language)
-        if not auszug:
+
+# Wort in der gewünschten Sprachvarietät aussuchen::
+
+        word = entry.get(args.language)
+        if not word:
             if args.verbose:
                print (u'# ' + line).encode('utf8')
             continue
-        if alternatives is not None:
-            processed = alternatives(auszug)
-        if postprocess is not None:
-            processed = postprocess(processed)
-        if args.only_changed and processed == auszug:
+
+# Trennstil (Filter anwenden)::
+
+        processed = run_filters(args.stil.split('-'), word)
+
+# Reduzierte Ausgabe für Testzwecke::
+
+        #keine Ausgabe, wenn Filter ohne Effekt:
+        if args.test_filter and processed == word:
+            continue
+        # Keine Ausgabe, wenn alle "Flatterbuchstaben" entfernt::
+        if args.test_1er and not re.search(u'[-<>=.][^-<>=./][-<>=.]', 
+                                           processed):
             continue
-        auszug = processed
+
+# Auf Standardausgabe ausgeben::
+
         if entry.comment:
-            auszug += u' # ' + entry.comment.lstrip()
-        print auszug.encode('utf8')
+            processed += u' # ' + entry.comment.lstrip()
+        print processed.encode('utf8')
diff --git a/skripte/python/edit_tools/wortliste.py b/skripte/python/edit_tools/wortliste.py
index 88a23cc..da89b47 100755
--- a/skripte/python/edit_tools/wortliste.py
+++ b/skripte/python/edit_tools/wortliste.py
@@ -2405,7 +2405,7 @@ def long2short(lines, prune=True, drop_sz=False):
 # >>> from wortliste import fremdwortsilben
 #
 # >>> fremdwoerter = (u'no-b-le Zy-k-lus Ma-g-net Fe-b-ru-ar '
-# ...                 u'Hy-d-rant Ar-th-ri-tis')
+# ...                 u'Hy-d-rant Ar-th-ri-tis ger<i-a-t-ri-sche')
 # >>> for wort in fremdwoerter.split():
 # ...     print wort, '->', fremdwortsilben(wort)
 # no-b-le -> no-ble
@@ -2414,6 +2414,7 @@ def long2short(lines, prune=True, drop_sz=False):
 # Fe-b-ru-ar -> Fe-bru-ar
 # Hy-d-rant -> Hy-drant
 # Ar-th-ri-tis -> Ar-thri-tis
+# ger<i-a-t-ri-sche -> ger<i-a-tri-sche
 #
 # >>> for wort in fremdwoerter.split():
 # ...     print wort, '->', fremdwortsilben(wort, 'modern')
@@ -2423,15 +2424,16 @@ def long2short(lines, prune=True, drop_sz=False):
 # Fe-b-ru-ar -> Feb-ru-ar
 # Hy-d-rant -> Hyd-rant
 # Ar-th-ri-tis -> Arth-ri-tis
+# ger<i-a-t-ri-sche -> ger<i-at-ri-sche
 #
 # ::
 
 def fremdwortsilben(wort, style='etymologisch'):
     """Select in-word hyphenation of foreign words."""
     if style == "modern": # Sprechsilbenregel
-        return re.sub(u'-([bcdfgkptv]|th|st)-(?=[lrn])', u'\\1-', wort) # §112
+        return re.sub(u'-([bcdfgkptv]|th)-(?=[lrn])', u'\\1-', wort) # §112
     else: # morphematisch
-        return re.sub(u'-([bcdfgkptv]|th|st)-(?=[lrn])', u'-\\1', wort) # K86, K87
+        return re.sub(u'-([bcdfgkptv]|th)-(?=[lrn])', u'-\\1', wort) # K86, K87
     # Versuch: auch Alternativtrennung nach führendem Vokal:
     # Ap-ri-kose -> Apri-kose aber auch Ad-ler -> Adler (!)
     # return re.sub(u'(-|^[AEIOUÄÖÜaeiouäöü])([bcdfgkptv]|th|st)-(?=[lrn])',
@@ -2687,7 +2689,7 @@ def scoretext(word):
 
 def keine_einzelvokale(wort):
     """Drop hyphenation marker after single vowels."""
-    return re.sub(u'-[.]*([aeiouyäöü]-[^.])', u'\\1', wort)
+    return re.sub(u'-[.]*([aeiouyäöü])(?=-[^.])', u'\\1', wort)
 
 
 # unguenstig()
-- 
2.11.4.GIT