Vervollständige dreibuchstabige Wörter mit Eszett.
[wortliste.git] / skripte / prepare-wordlist.sh
blob4df53ef0f130ce9b0ed7e60cfe35deed2a9ba729
1 LC_COLLATE=de_DE.UTF8
3 # $ sh prepare-wordlist.sh < Textdatei
5 # listet alle Wörter mit mindestens vier Buchstaben, die keine römischen
6 # Zahlen sind, aus einer gegebenen Textdatei auf und …
8 # $ sh prepare-wordlist.sh < Textdatei | grep -Fixvf Prüfliste
9 #
10 # … prüft sie gegen eine ebenfalls gegebene Prüfliste von bekannten Wörtern.
11 # Eine solche Prüfliste kann beispielsweise mit
13 # perl extract-tex.pl ../wortliste | sed 's/-//g' > wortliste.ref
15 # erzeugt werden.
18 p=$(echo $0 | sed "s|\(.*\)/.*|\1|") # der Pfad zu den Skripten
20 sed -f $p/strippunct.sed \
21 | sed '/..../!d' \
22 | sort -i \
23 | uniq -i