Projektbeschr: Aufgabenliste ueberarbeitet.
[wortliste.git] / extract-tex-trad.pl
bloba694a2c4a3f6dc4fc45f04633633bd8bc176c82a
1 #! /usr/bin/perl -w
3 # extract-tex-trad.pl
5 # Dieses Perl-Skript extrahiert aus der `wortliste'-Datei eine Eingabedatei
6 # für Patgen, und zwar für die traditionelle deutsche Rechtschreibung.
8 # Aufruf: perl extract-tex-trad.pl < wortliste > input.patgen
10 use strict;
12 my $prog = $0;
13 $prog =~ s@.*/@@;
15 while (<>) {
16 chop;
17 next if /^#/;
19 # entferne Kommentare
20 s/#.*$//;
22 # entferne Leerzeichen aller Art
23 s/\s+//g;
25 my @feld = split(';');
26 next if $#feld < 0;
28 # Felder 2, 3, 5, 6 und 8
29 my $zeile = $feld[1];
30 $zeile = $feld[2] if defined $feld[2] && $feld[2] ne "-3-";
31 $zeile = $feld[4] if defined $feld[4] && $feld[4] ne "-5-";
32 $zeile = $feld[5] if defined $feld[5] && $feld[5] ne "-6-";
33 $zeile = $feld[7] if defined $feld[7] && $feld[7] ne "-8-";
34 next if $zeile eq "-2-";
36 # entferne spezielle Trennungen
37 $zeile =~ s/\{(.*?)\|.*?\}/$1/g;
38 # entferne Doppeldeutigkeiten
39 $zeile =~ s/\[-*(.*?)-*\|.*?\]/$1/g;
40 # entferne Markierungen für schlechte Trennungen
41 $zeile =~ s/\.//g;
43 print "$zeile\n";
46 # eof