skripte/python/edit_tools/abgleich_neueintraege.py

   1 #!/usr/bin/env python
   2 # -*- coding: utf8 -*-
   3 # :Copyright: © 2014 Günter Milde.
   4 #             Released without warranty under the terms of the
   5 #             GNU General Public License (v. 2 or later)
   6 # :Id:        $Id:  $
   7
   8 # Versuche Trennstellen neuer Wörter aus vorhandenen zu ermitteln
   9 # ===============================================================
  10
  11 u"""Trenne neue Wörter durch Ableitung von Einträgen der Wortliste.
  12
  13 Eingabe: 1 ungetrenntes Wort oder Eintrag im Wortliste-Format pro Zeile.
  14
  15 Ausgabe: Wortliste-Einträge (Vorschläge), sortiert nach:
  16   identisch (falls Eingabe bereits Wortliste-Eintrag ist und eindeutig ist),
  17   eindeutig abgeleitet
  18   eindeutig abgeleitet (andere Großschreibung),
  19   mehrdeutig abgeleitet,
  20   Rest.
  21
  22 Bsp: python abgleich_neueintraege.py < dict-fail.txt > neu.todo
  23
  24      (``neu.todo`` kann (nach Durchsicht!!) mit `prepare_patch.py neu`
  25      in die Wortliste eingepflegt werden.)
  26 """
  27
  28 # ::
  29
  30 import sys, os, codecs, optparse
  31 from collections import defaultdict  # Wörterbuch mit Default
  32
  33 # path for local Python modules (parent dir of this file's dir)
  34 sys.path.insert(0,
  35         os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
  36 from wortliste import WordFile, WordEntry, join_word, toggle_case, sortkey_duden
  37 from expand_teilwoerter import expand_words
  38
  39 # Funktionen
  40 # -----------
  41
  42 # Übertrag von Praefixen auf Wörter ohne Präfix::
  43
  44 def praefixabgleich(key, praefix, grossklein=False):
  45
  46     if key.istitle():
  47         praefix = praefix.title()
  48
  49     if not key.startswith(join_word(praefix)):
  50         return ''
  51
  52     altkey = key[len(join_word(praefix)):]
  53
  54     if grossklein:
  55         altkey = toggle_case(altkey)
  56
  57     try:
  58         altentry = words[altkey]
  59     except KeyError:
  60         return ''
  61
  62     entry = WordEntry(key)
  63     # print "fundum", key, unicode(entry)
  64     for wort in altentry[1:]:
  65         if not wort.startswith(u'-'):
  66             wort = wort.lower()
  67             wort = u'<'.join([praefix, wort])
  68         entry.append(wort)
  69
  70     return entry
  71
  72 praefixe = [u'abo',
  73             u'ab',
  74             u'ab<zu',
  75             u'auf<zu',
  76             u'aus<zu',
  77             u'ein<zu',
  78             u'mit<zu',
  79             u'um<zu',
  80             u'un-ter<zu',
  81             u'weg<zu',
  82             u'aber',
  83             u'ad',
  84             u'aero',
  85             u'af-ro',
  86             u'ag-ro',
  87             u'al-lergo',
  88             u'al-lein',
  89             u'all',
  90             u'als',
  91             u'am-bi',
  92             u'ami-no',
  93             u'an-dro',
  94             u'an-gio',
  95             u'an-thro-po',
  96             u'an-ti',
  97             u'ang-lo',
  98             u'an',
  99             u'apo',
 100             u'ar-chaeo',
 101             u'ar-che',
 102             u'ar-chäo',
 103             u'ar-terio',
 104             u'ar-thro',
 105             u'asyn',
 106             u'at-mo',
 107             u'au-ßer',
 108             u'auf',
 109             u'aus',
 110             u'aus<zu',
 111             u'aut',
 112             u'ba-ro',
 113             u'bak-te-rio',
 114             u'be',
 115             u'bei',
 116             u'ben-zo',
 117             u'bi-blio',
 118             u'bio',
 119             u'che-mo',
 120             u'chi-ro',
 121             u'chlo-ro',
 122             u'cho-reo',
 123             u'chro-mo',
 124             u'chro-no',
 125             u'cy-ano',
 126             u'dar',
 127             u'de-ka',
 128             u'de-zi',
 129             u'demo',
 130             u'der-ma-to',
 131             u'des',
 132             u'di-cho',
 133             u'di-no',
 134             u'dia',
 135             u'dis',
 136             u'dis-ko',
 137             u'down',
 138             u'drein',
 139             u'durch',
 140             u'dys',
 141             u'e-tho',
 142             u'ego',
 143             u'ein',
 144             u'elek-tro',
 145             u'em-por',
 146             u'emp',
 147             u'en-do',
 148             u'en-te-ro',
 149             u'ent',
 150             u'epi',
 151             u'er-go',
 152             u'er',
 153             u'es-chato',
 154             u'eth-no',
 155             u'ety-mo',
 156             u'ext-ro',
 157             u'ex',
 158             u'fe-ro',
 159             u'fem-to',
 160             u'fer-ro',
 161             u'fo-no',
 162             u'fort',
 163             u'fran-ko',
 164             u'für',
 165             u'ga-so',
 166             u'ge-gen',
 167             u'ge-no',
 168             u'ge-ron-to',
 169             u'geo',
 170             u'ge',
 171             u'gi-ga',
 172             u'gi-gan-to',
 173             u'go-no',
 174             u'gra-fo',
 175             u'gra-pho',
 176             u'gy-nä-ko',
 177             u'he-lio',
 178             u'he-te-ro',
 179             u'he-xa',
 180             u'hek-to',
 181             u'hekt',
 182             u'hemi',
 183             u'her',
 184             u'hier',
 185             u'hin',
 186             u'hin-ter',
 187             u'hint',
 188             u'ho-lo',
 189             u'ho-mo',
 190             u'ho-möo',
 191             u'hoch',
 192             u'hy-dro',
 193             u'hy-per',
 194             u'hy-po',
 195             u'hym-no',
 196             u'hyp-no',
 197             u'hä-ma-to',
 198             u'hä-mo',
 199             u'ideo',
 200             u'idio',
 201             u'iko-no',
 202             u'il',
 203             u'im',
 204             u'im-mu-no',
 205             u'in',
 206             u'in-fra',
 207             u'in-ter',
 208             u'in-tra',
 209             u'ins',
 210             u'int-ro',
 211             u'io-no',
 212             u'kar-dio',
 213             u'kar-to',
 214             u'kata',
 215             u'klep-to',
 216             u'kli-no',
 217             u'kon',
 218             u'kon-tra',
 219             u'kor-re',
 220             u'kos-mo',
 221             u'kri-mi-no',
 222             u'kri-no',
 223             u'kryp-to',
 224             u'leu-ko',
 225             u'leuk',
 226             u'le-xi-ko',
 227             u'li-tho',
 228             u'lim-no',
 229             u'lo-go',
 230             u'los',
 231             u'lym-pho',
 232             u'ma-gne-to',
 233             u'mak-ro',
 234             u'mam-mo',
 235             u'me-ga',
 236             u'me-lo',
 237             u'me-so',
 238             u'me-ta',
 239             u'me-teo-ro',
 240             u'me-tho-do',
 241             u'mik-ro',
 242             u'mil-li',
 243             u'miss',
 244             u'mit',
 245             u'mo-no',
 246             u'mor-pho',
 247             u'mu-si-ko',
 248             u'mul-ti',
 249             u'my-co',
 250             u'my-tho',
 251             u'na-no',
 252             u'nach',
 253             u'ne-ben',
 254             u'neo',
 255             u'neu-ro',
 256             u'neur',
 257             u'nie-der',
 258             u'no-wo',
 259             u'non',
 260             u'nost',
 261             u'ob',
 262             u'oben',
 263             u'ober',
 264             u'off',
 265             u'ohn',
 266             u'oli-go',
 267             u'olig',
 268             u'om-ni',
 269             u'on-ko',
 270             u'on-to',
 271             u'op-to',
 272             u'or-tho',
 273             u'oszil-lo',
 274             u'out',
 275             u'over',
 276             u'oxy',
 277             u'ozea-no',
 278             u'pa-ra',
 279             u'pa-tho',
 280             u'pa-tri',
 281             u'pan-to',
 282             u'pe-re',
 283             u'pen-ta',
 284             u'pet-ro',
 285             u'phar-ma',
 286             u'phar-ma-ko',
 287             u'phi-lo',
 288             u'phil',
 289             u'pho-no',
 290             u'pho-to',
 291             u'phra-seo',
 292             u'phy-lo',
 293             u'phy-sio',
 294             u'phy-to',
 295             u'phä-no',
 296             u'pneu-mo',
 297             u'po-eto',
 298             u'po-li-to',
 299             u'po-ly',
 300             u'po-ten-tio',
 301             u'pro-to',
 302             u'prä',
 303             u'pseud',
 304             u'psy-cho',
 305             u'py-ro',
 306             u'pä-do',
 307             u'päd',
 308             u'raus',
 309             u're',
 310             u'rein',
 311             u'ret-ro',
 312             u'ri-bo',
 313             u'rä-to',
 314             u'rück',
 315             u'sa-mo',
 316             u'sak-ro',
 317             u'se-mi',
 318             u'seis-mo',
 319             u'selb',
 320             u'ser-bo',
 321             u'si-no',
 322             u'so',
 323             u'so-zio',
 324             u'sou',
 325             u'spek-tro',
 326             u'ste-no',
 327             u'ste-reo',
 328             u'ste-tho',
 329             u'stra-to',
 330             u'su-per',
 331             u'sub',
 332             u'sup-ra',
 333             u'sus',
 334             u'syn',
 335             u'ta-xo',
 336             u'tau-to',
 337             u'te-leo',
 338             u'te-ra',
 339             u'tech-no',
 340             u'tele',
 341             u'telo',
 342             u'ter-mi-no',
 343             u'tet-ra',
 344             u'ther-mo',
 345             u'throm-bo',
 346             u'to-mo',
 347             u'to-po',
 348             u'to-xi-ko',
 349             u'tra-gi',
 350             u'trans',
 351             u'tro-po',
 352             u'tur-bo',
 353             u'ty-po',
 354             u'ul-tra',
 355             u'um',
 356             u'un',
 357             u'un-der',
 358             u'un-ter',
 359             u'uni',
 360             u'ur',
 361             u'uro',
 362             u'ver',
 363             u'vi-no',
 364             u'vi-ro',
 365             u'vib-ra',
 366             u'voll',
 367             u'von',
 368             u'vor',
 369             u'vorn',
 370             u'vul-ka-no',
 371             u'weg',
 372             u'wi-der',
 373             u'xe-no',
 374             u'xy-lo',
 375             u'zen-ti',
 376             u'zen-tri',
 377             u'zer',
 378             u'zu',
 379             u'zwie',
 380             u'zy-klo',
 381             u'zy-to',
 382             u'ägyp-to',
 383             u'öko',
 384             u'über',
 385            ]
 386
 387 # Nach Länge sortieren, damit spezifischere zuerst Probiert werden:
 388 praefixe.sort(key = len)
 389 praefixe.reverse()
 390
 391
 392 # Übertrag von Einträgen auf Wörter mit anderer Endung::
 393
 394 def endungsabgleich(key, alt, neu, grossklein=False):
 395
 396     if not key.endswith(join_word(neu)):
 397         return None
 398     OK = True
 399     altkey = key[:-len(join_word(neu))] + join_word(alt)
 400     if grossklein:
 401         altkey = toggle_case(altkey)
 402
 403     try:
 404         altentry = words[altkey]
 405     except KeyError:
 406         return None
 407
 408     entry = WordEntry(key)
 409     # print "fundum", key, unicode(entry)
 410     for wort in altentry[1:]:
 411         if wort.startswith(u'-'):
 412             continue
 413         if not wort.endswith(neu):
 414             continue
 415         if alt:
 416             wort = wort[:-len(alt)]
 417         wort += neu
 418         if grossklein:
 419             wort = toggle_case(wort)
 420         if join_word(wort) != key:
 421             OK = False
 422         entry.append(wort)
 423
 424     if OK is False:
 425         print u"# Übertragungsproblem: %s -> %s (%s,%s) %s" % (
 426                                             altkey, key, alt, neu, unicode(entry))
 427         return None
 428     if len(entry) == 1: # keine Übertragung möglich
 429         return None
 430
 431     entry.regelaenderungen() # Sprachabgleich
 432     return entry
 433
 434
 435 # Endungen
 436 # --------
 437 # ``(<alt>, <neu>)`` Paare von Endungen::
 438
 439 endungen = [
 440             (u'', u'-de'),
 441             # (u'', u'-en'),
 442             # (u'', u'-er'),
 443             # (u'', u'-is-mus'),
 444             # (u'', u'-ität'),
 445             (u'', u'-lein'),
 446             (u'', u'-ne'),
 447             (u'', u'-nem'),
 448             (u'', u'-nen'),
 449             (u'', u'-ner'),
 450             (u'', u'-sche'),
 451             (u'', u'-tum'),
 452             (u'', u'>ar-tig'),
 453             (u'', u'>chen'),
 454             (u'', u'>heit'),
 455             (u'', u'>keit'),
 456             (u'', u'>los'),
 457             (u'', u'>schaft'),
 458             (u'', u'>schaft'),
 459             (u'', u'>wei-se'),
 460             # (u'', u'd'),
 461             # (u'', u'e'),
 462             # (u'', u'e-rin'),
 463             # (u'', u'er'),
 464             # (u'', u'is-mus'),
 465             # (u'', u'm'),
 466             # (u'', u'n'),
 467             # (u'', u'ner'),
 468             # (u'', u'r'),
 469             # (u'', u's'),
 470             # (u'', u's-te'),
 471             # (u'', u's-te'),
 472             # (u'', u's>los'),
 473             # (u'', u'st'),
 474             # (u'', u't'),
 475             # (u'', u't-te'),
 476             (u'-al', u'a-le'),
 477             (u'-an', u'a-ne'),
 478             (u'-at', u'a-te'),
 479             (u'-ben', u'b-ne'),
 480             # (u'-che', u'ch'),
 481             (u'-de', u'd'),
 482             (u'-en', u'>bar>keit'),
 483             # (u'-en', u'e'),
 484             (u'-en', u'e-ne'),
 485             (u'-er', u'e-rei'),
 486             (u'-er', u'e-rin'),
 487             (u'-ern', u'e-re'),
 488             (u'-ge', u'g'),
 489             (u'-gen', u'g'),
 490             (u'-in', u'i-ne'),
 491             (u'-on', u'o-nen'),
 492             (u'-re', u'r'),
 493             (u'-re', u'rt'),
 494             (u'-ren', u'r-ne'),
 495             (u'-ren', u'rt'),
 496             (u'-sche', u'sch'),
 497             (u'-sen', u's-ne'),
 498             (u'-sten', u's-mus'),
 499             (u'-te',u't'),
 500             (u'-tern', u't-re'),
 501             (u'-ös', u'ö-se'),
 502             (u'a', u'ar'),
 503             (u'a', u'as'),
 504             (u'b', u'-be'),
 505             (u'b', u'-ber'),
 506             (u'bar', u't'),
 507             (u'bt', u'b-te'),
 508             (u'ce', u'-cen'),
 509             (u'ch', u'-che'),
 510             (u'ch', u'-cher'),
 511             (u'ck', u'-cke'),
 512             (u'ck', u'-cker'),
 513             (u'd', u'-de'),
 514             (u'd', u'-dem'),
 515             (u'd', u'-den'),
 516             (u'd', u'-der'),
 517             (u'd', u'-des'),
 518             (u'd', u'>heit'),
 519             (u'e', u'en'),
 520             (u'e-ren', u'-ti-on'),
 521             (u'e-ren', u'sch'),
 522             (u'el', u'le'),
 523             # (u'en', u'e'),
 524             (u'en', u'em'),
 525             (u'en', u'en-de'),
 526             (u'en', u'end'),
 527             (u'en', u'er'),
 528             (u'en', u'es'),
 529             (u'en', u'est'),
 530             (u'en', u't'),
 531             (u'en', u'te'),
 532             (u'en', u'us'),
 533             (u'end',u'en' ),
 534             # (u'er', u'e'),
 535             (u'er', u'e-rei'),
 536             (u'er', u'ens'),
 537             (u'er', u'in'),
 538             (u'er', u'ung'),
 539             (u'es', u'est'),
 540             (u'es', u's-te'),
 541             (u'f', u'-fe'),
 542             (u'f', u'-fer'),
 543             (u'g', u'-ge'),
 544             (u'g', u'-gen'),
 545             (u'g', u'-ger'),
 546             (u'g', u'-ger'),
 547             (u'g', u'-ges'),
 548             (u'g', u'-gung'),
 549             (u'ie', u'e'),
 550             (u'in', u'en'),
 551             (u'isch', u'i-sche'),
 552             (u'ck', u'-cke'),
 553             (u'k', u'-ke'),
 554             (u'k', u'-ken'),
 555             (u'k', u'-ker'),
 556             (u'l', u'-le'),
 557             (u'l', u'-len'),
 558             (u'l', u'-ler'),
 559             (u'l', u'-lis-mus'),
 560             (u'le', u'-ler'),
 561             (u'li-che', u'tem'),
 562             (u'li-che', u'ten'),
 563             (u'ln', u'-le'),
 564             (u'lt', u'-le'),
 565             (u'm', u'-me'),
 566             (u'm', u'-mer'),
 567             (u'me', u'men'),
 568             (u'mus', u'men'),
 569             (u'mus', u'ten'),
 570             (u'mus', u'tik'),
 571             (u'n', u'-at'),
 572             (u'n', u'-er'),
 573             (u'n', u'-ne'),
 574             (u'n', u'-nen'),
 575             (u'on', u'o-nis-mus'),
 576             (u'n', u'-nis-mus'),
 577             (u'n', u'r'),
 578             (u'n', u'st'),
 579             (u'n', u't'),
 580             (u'n',u'-ner'),
 581             (u'nd',u'n'),
 582             (u'ne',u'ner'),
 583             # (u'ne',u'n'),
 584             (u'o',u'-on'),
 585             (u'o',u'-os'),
 586             (u'o',u'en'),
 587             (u'on',u'o-nen'),
 588             (u'p', u'-pe'),
 589             (u'p', u'-pen'),
 590             (u'p', u'-per'),
 591             (u'ph', u'-phen'),
 592             (u'ph', u'-phis-mus'),
 593             (u'r', u'-re'),
 594             (u'r', u'-rei'),
 595             (u'r', u'-ren'),
 596             (u'r', u'-rin'),
 597             (u'r', u'-ris-mus'),
 598             (u'r', u'-rung'),
 599             (u're', u'ste'),
 600             (u'ren', u'r-te'),
 601             (u'ren', u'rst'),
 602             (u'ren', u'rt'),
 603             (u'rn', u'-re'),
 604             (u'rn', u'-rung'),
 605             (u'rn', u'-rung'),
 606             (u'rt', u'-re'),
 607             (u'rt', u'r-te'),
 608             (u's', u''),
 609             (u's', u'-se'),
 610             (u's', u'-se-re'),
 611             (u's', u'-se-res'),
 612             (u's', u'-ser'),
 613             (u's', u's-se'),
 614             (u's', u's-ses'),
 615             (u'sch', u'-sche'),
 616             (u'sch', u'-schen'),
 617             (u'sch', u'-scher'),
 618             (u'st', u'-ste'),
 619             (u'st', u'-sten'),
 620             (u'st', u'n'),
 621             (u't', u'-ba-re'),
 622             (u't', u'>bar'),
 623             (u't', u'-te'),
 624             (u't', u'-te'),
 625             (u't', u'-ten'),
 626             (u't', u'-ter'),
 627             (u't', u'-tes'),
 628             (u't', u'-tin'),
 629             (u't', u'-tis-mus'),
 630             # (u't', u'e'),
 631             (u't', u'n'),
 632             (u't', u'st'),
 633             (u'te', u'le'),
 634             # (u'te', u't'),
 635             (u'ten', u'mus'),
 636             (u'ten', u'ren'),
 637             (u'ten', u'tung'),
 638             (u'ter', u'te-ren'),
 639             (u'ti-on', u'tor'),
 640             (u'um', u'a'),
 641             (u'us', u'en'),
 642             (u'v', u'-ve'),
 643             (u'v', u'-ver'),
 644             (u'v', u'-vis-mus'),
 645             (u'-ve', u'v'),
 646             (u'z', u'-ten'),
 647             (u'z', u'-ze'),
 648             (u'z', u'-zen'),
 649             (u'z', u'-zer'),
 650             (u'ß', u'-ße'),
 651             (u'ß', u's-se'),
 652             (u'ös', u'ö-se'),
 653             (u'=öl', u'=öle'),
 654            ]
 655
 656 # Zerlege einen String mit von vorn bis hinten wandernder Bruchstelle::
 657 #
 658 # >>> from abgleich_neueintraege import zerlege
 659 # >>> list(zerlege(u'wolle'))
 660 # [(u'w', u'olle'), (u'wo', u'lle'), (u'wol', u'le'), (u'woll', u'e')]
 661 #
 662 # ::
 663
 664 def zerlege(s):
 665     for i in range(1, len(s)):
 666         yield s[:i], s[i:]
 667
 668 # Zerlege Kompositum in gleichberechtigte Teile::
 669
 670 # >>> from abgleich_neueintraege import split_composits
 671 # >>> from edit_tools.wortliste import WordEntry
 672 # >>> split_composits(WordEntry(u'Blockheizkraftwerk;Block===heiz==kraft=werk'))
 673 # [u'Block', u'heiz', u'kraft', u'werk']
 674 #
 675 # ::
 676
 677 def split_composits(entry):
 678     return [w for w in entry[1].split(u'=') if w]
 679
 680 # Zerlege String, wenn die Teile in der Wortliste vorhanden sind, setze
 681 # sie neu zusammen und übernimm die Trennmarkierer:
 682
 683
 684 def trenne_key(key, grossklein = False):
 685     entries = []
 686     sep = u'='
 687     for k1, k2 in zerlege(key):
 688         if grossklein:
 689             k1 = toggle_case(k1)
 690         if k1.istitle():
 691             k2 = k2.title()
 692         e1 = words.get(k1)
 693         e2 = words.get(k2)
 694         if not e2:
 695             e2 = words.get(toggle_case(k2))
 696         if e1 and e2:
 697             # Falls ein Teil in Sprachvarianten existiert, verdopple den 2.
 698             if len(e1) != len(e2):
 699                 if len(e1) == 2:
 700                     e1 = [e1[1]] * len(e2)
 701                 elif len(e2) == 2:
 702                     e2 = [e2[1]] * len(e1)
 703                 else:
 704                     continue
 705             entry = WordEntry(key)
 706             for w1, w2 in zip(e1,e2)[1:]:
 707                 if w1.startswith(u'-'): # empty column -2-, -3-, ...
 708                     wort = w1
 709                 elif w2.startswith(u'-'):
 710                     wort = w2
 711                 else:
 712                     if grossklein:
 713                         w1 = toggle_case(w1)
 714                     w2 = w2.lower()
 715                     level = 1
 716                     while (level*sep in w1) or (level*sep in w2):
 717                         level += 1
 718                     wort = (level*sep).join([w1, w2])
 719                 entry.append(wort)
 720             entry.prune()
 721             entries.append(entry)
 722             # Teste auf 3-teilige Composita und entferne die Wichtung:
 723             # ['Kau==zahn=weh', 'Kau=zahn=weh'] -> ['Kau=zahn=weh']
 724             if len(entries) == 2:
 725                 teile = [split_composits(entry) for entry in entries]
 726                 if teile[0] == teile[1]:
 727                     level = 1
 728                     while level*sep in teile[0]:
 729                         level += 1
 730                     entries = [entries[0]]
 731                     entries[0][1] = entries[0][1].replace((level+1)*sep, level*sep)
 732     return entries
 733
 734 def filter_neuliste(liste, words):
 735     for line in liste:
 736         line = line.decode('utf8').strip()
 737         if line.startswith('#'):
 738             yield line
 739             continue
 740         neukey = line.split(u';')[0]
 741         if neukey in words:
 742             # print 'vorhanden:', line
 743             continue
 744         if neukey.title() in words:
 745             # print 'Vorhanden:', line
 746             continue
 747         if neukey.lower() in words:
 748             # print 'vorhanden (kleingeschrieben):', line
 749             continue
 750         yield line
 751
 752 class SortableDict(dict):
 753     """Dictionary with additional sorting methods
 754
 755     Tip: use key starting with with '_' for sorting before small letters
 756          and with '~' for sorting after small letters.
 757     """
 758     def sortedkeys(self):
 759         """Return sorted list of keys"""
 760         keys = self.keys()
 761         keys.sort()
 762         return keys
 763
 764     def sortedvalues(self):
 765         """Return list of values sorted by keys"""
 766         return [self[key] for key in self.sortedkeys()]
 767
 768 def filter_ableitungen(liste):
 769     words = SortableDict()
 770     words['#'] = '# Ableitungen entfernt'
 771     for line in liste:
 772         line = line.decode('utf8').strip()
 773         if line.startswith('#'):
 774             words['#'] += '\n' + line
 775             continue
 776         key = line.split(u';')[0]
 777         gibts_schon = False
 778         for alt, neu in endungen:
 779             altkey = key[:-len(join_word(neu))] + join_word(alt)
 780             if altkey in words:
 781                 gibts_schon = True
 782                 break
 783         if not gibts_schon:
 784             words[key] = line
 785     return words.sortedvalues()
 786
 787 def print_proposal(entry):
 788     proposal = getattr(entry, "proposal", u'')
 789     if proposal and len(proposal) > 1:
 790         print u' ' + unicode(entry)
 791         print u'#' + unicode(proposal)
 792     else:
 793         print unicode(entry)
 794
 795 if __name__ == '__main__':
 796
 797 # Pfad zu "../../../wortliste" unabhängig vom Arbeitsverzeichnis::
 798
 799     default_wortliste = os.path.relpath(os.path.join(
 800         os.path.dirname(os.path.dirname(os.path.dirname(os.path.dirname(
 801             os.path.abspath(__file__))))),
 802         'wortliste'))
 803
 804 # Optionen::
 805
 806     usage = '%prog [Optionen]\n' + __doc__
 807
 808     parser = optparse.OptionParser(usage=usage)
 809     parser.add_option('-i', '--file', dest='wortliste',
 810                       help='Vergleichsdatei, Vorgabe "%s"'%default_wortliste,
 811                       default=default_wortliste)
 812     parser.add_option('-f', '--filter', action="store_true",
 813                       help=u'in WORTLISTE vorhandene Wörter aussortieren',
 814                       default=False)
 815     parser.add_option('-a', '--filter-ableitungen', action="store_true",
 816                       help=u'Ableitungen von Wörtern der Eingabe aussortieren',
 817                       default=False)
 818     (options, args) = parser.parse_args()
 819
 820     # sys.stdout mit UTF8 encoding.
 821     sys.stdout = codecs.getwriter('UTF-8')(sys.stdout)
 822
 823     wordfile = WordFile(options.wortliste)
 824
 825 # Filtern::
 826
 827     if options.filter:
 828         words = wordfile.asdict()
 829         for line in filter_neuliste(sys.stdin, words):
 830             print line
 831         sys.exit()
 832
 833     if options.filter_ableitungen:
 834         for line in filter_ableitungen(sys.stdin):
 835             print line
 836         sys.exit()
 837
 838 # `Wortliste` einlesen
 839
 840 # Wörter, Teilwörter und Kombinationen (siehe expand_teilwoerter.py)
 841 # entweder vom "cache", oder "live" expandiert::
 842
 843     cache = "wortliste-expandiert"
 844     try:
 845         cache_mtime = os.path.getmtime(cache)
 846     except OSError:
 847         cache_mtime = 0
 848
 849     # Umschreiben in Dictionary, Aussortieren von Abkürzungen
 850     words = dict()
 851     for entry in wordfile:
 852         if not entry or u'Abk.' in entry.comment:
 853             continue
 854         words[entry[0]] = entry
 855
 856     if os.path.getmtime(options.wortliste) <= cache_mtime:
 857         words.update(WordFile(cache).asdict())
 858     else:
 859         words.update(expand_words(words))
 860
 861
 862 # Aussortieren von Wörtern, die zu "false positives" führen::
 863
 864     # Wörter, die oft als Endungen auftauchen:
 865     for alt, neu in endungen:
 866         words.pop(join_word(neu), None)
 867
 868     for unwort in [u'ei', u'Ei', u'em', u'est', u'et', u'Mc',
 869                    u'in', u'is', u'so', u'Tu', u'Um', u'Wa']:
 870         words.pop(unwort, None)
 871
 872
 873 # Erstellen der neuen Einträge::
 874
 875     neue = []
 876     neue_grossklein = []
 877     rest = []
 878
 879     proposals = [WordEntry(line.decode('utf8').strip())
 880                  for line in sys.stdin
 881                  if not line.startswith('#')]
 882
 883     for newentry in proposals:
 884         OK = False
 885         key = newentry[0]
 886
 887         # print key, unicode(newentry)
 888         # continue
 889
 890 # Test auf vorhandene (Teil-) Wörter:
 891
 892         entry = words.get(key)
 893         if entry:
 894             neue.append(entry)
 895             continue
 896         # kleingeschrieben
 897         entry = words.get(key.lower())
 898         if entry:
 899             neue_grossklein.append(entry)
 900             continue
 901         # Großgeschrieben
 902         entry = words.get(key.title())
 903         if entry:
 904             neue_grossklein.append(entry)
 905             continue
 906
 907 # Endungsabgleich::
 908
 909         for alt, neu in endungen:
 910             entry = endungsabgleich(key, alt, neu, grossklein=False)
 911             if entry:
 912                 entry.comment = newentry.comment
 913                 neue.append(entry)
 914                 OK = True
 915                 # break
 916         if OK:
 917             continue
 918
 919         for alt, neu in endungen:
 920             entry = endungsabgleich(key, alt, neu, grossklein=True)
 921             if entry:
 922                 entry.comment = newentry.comment
 923                 neue_grossklein.append(entry)
 924                 OK = True
 925                 # break
 926         if OK:
 927             continue
 928
 929 # Präfixabgleich::
 930
 931         for praefix in praefixe:
 932             entry = praefixabgleich(key, praefix, grossklein=False)
 933             if entry:
 934                 entry.comment = newentry.comment
 935                 neue.append(entry)
 936                 OK = True
 937                 break
 938             entry = praefixabgleich(key, praefix, grossklein=True)
 939             if entry:
 940                 entry.comment = newentry.comment
 941                 neue_grossklein.append(entry)
 942                 OK = True
 943                 break
 944         if OK:
 945             continue
 946
 947 # Zerlegen und test auf Fugen::
 948
 949         entries = trenne_key(key, grossklein=False)
 950         if entries:
 951             neue.extend(entries)
 952             continue
 953         entries = trenne_key(key, grossklein=True)
 954         if entries:
 955             neue_grossklein.extend(entries)
 956             continue
 957
 958 # Nicht gefundene Wörter::
 959
 960         rest.append(newentry)
 961
 962 # Mehrdeutige aussortieren::
 963
 964     alle_neuen = {}
 965     doppelkeys = set()
 966     doppelkeys_gleich = defaultdict(int)
 967
 968     # doppelte keys finden:
 969     for entry in neue + neue_grossklein:
 970         key = entry[0].lower()
 971         if key in alle_neuen:
 972             if entry == alle_neuen[key]:
 973                 doppelkeys_gleich[key] += 1
 974             else:
 975                 doppelkeys.add(key)
 976         alle_neuen[key] = entry
 977
 978     # doppelte Einträge "verlegen":
 979     eindeutige = []
 980     eindeutige_grossklein = []
 981     doppelte = []
 982
 983     for entry in neue:
 984         key = entry[0].lower()
 985         if key in doppelkeys:
 986             doppelte.append(entry)
 987         elif doppelkeys_gleich[key] > 0:
 988             doppelkeys_gleich[key] -= 1
 989         else:
 990             eindeutige.append(entry)
 991
 992     for entry in neue_grossklein:
 993         key = entry[0].lower()
 994         if key in doppelkeys:
 995             doppelte.append(entry)
 996         elif doppelkeys_gleich[key] > 0:
 997             doppelkeys_gleich[key] -= 1
 998         else:
 999             eindeutige_grossklein.append(entry)
1000
1001
1002 # Vergleich mit Original::
1003
1004     identische = {}
1005     for proposal in proposals:
1006         key = proposal[0].lower()
1007         newentry = alle_neuen.get(key)
1008         if proposal == newentry:
1009             identische[key] = proposal
1010         else:
1011             if newentry:
1012                 newentry.proposal = proposal
1013
1014 # Ausgabe::
1015
1016     print u'\n## identisch rekonstruiert:'
1017     for entry in sorted(identische.values(), key=sortkey_duden):
1018         print unicode(entry)
1019
1020     print u'\n## eindeutig abgeleitet'
1021     for entry in eindeutige:
1022         if entry[0].lower() not in identische:
1023             print_proposal(entry)
1024     print u'\n## eindeutig abgeleitet (andere Großschreibung)'
1025     for entry in eindeutige_grossklein:
1026         if entry[0].lower() not in identische:
1027             print_proposal(entry)
1028
1029     print u'\n## mehrdeutig abgeleitet'
1030     for entry in doppelte:
1031         print_proposal(entry)
1032
1033
1034     print u'\n## Rest'
1035
1036     for entry in rest:
1037         print_proposal(entry)