Vervollständige dreibuchstabige Wörter mit Eszett.
[wortliste.git] / skripte / strippunct.sed
blobc4d0b1d19cbd01ae309b3ac64fec9ebebc633d99
1 # wird von prepare-wordlist.sh verwendet.
3 s|/| |g                                         # Slash raus
4 s|{[^}]*}| |g                                   # soll {sowas} herausfiltern
5 s|<[^>]*>| |g                                   # soll <sowas> herausfiltern
6 s|\[[^\]]*\]| |g                                # soll [sowas] herausfilterna  ← erwischt irgendwie nicht alle. ?
7 s|\\[^ ]*| |g                                   # soll \sowas herausfiltern
8 s|\&[^ ]*\;| |g                                 # lösche Entities wie &nbsp;
9 s/[-,'"·*+=~.:;!?()_‚‘’„“”›‹»«@©•—…0-9]/ /g     # ersetzt (fast) alle nichtalphabetischen durch Leerzeichen
10 s/[IVXLDMC.]\{2,\}/ /g                          # entfernt römische Zahlen
11 s/ /\n/g                                        # ersetzt Leerzeichen durch Zeilenumbruch