Projektbeschr: Aufgabenliste ueberarbeitet.
[wortliste.git] / extract-tex-refo.pl
blobb92662f0f3a80e02e4766064718f97a5ba77fb7f
1 #! /usr/bin/perl -w
3 # extract-tex-refo.pl
5 # Dieses Perl-Skript extrahiert aus der `wortliste'-Datei eine Eingabedatei
6 # für Patgen, und zwar für die reformierte deutsche Rechtschreibung.
8 # Aufruf: perl extract-tex-refo.pl < wortliste > input.patgen
10 use strict;
12 my $prog = $0;
13 $prog =~ s@.*/@@;
15 while (<>) {
16 chop;
17 next if /^#/;
19 # entferne Kommentare
20 s/#.*$//;
22 # entferne Leerzeichen aller Art
23 s/\s+//g;
25 my @feld = split(';');
26 next if $#feld < 0;
28 # Felder 2, 4, 5 und 7
29 my $zeile = $feld[1];
30 $zeile = $feld[3] if defined $feld[3] && $feld[3] ne "-4-";
31 $zeile = $feld[4] if defined $feld[4] && $feld[4] ne "-5-";
32 $zeile = $feld[6] if defined $feld[6] && $feld[6] ne "-7-";
33 next if $zeile eq "-2-";
35 # entferne Doppeldeutigkeiten
36 $zeile =~ s/\[-*(.*?)-*\|.*?\]/$1/g;
37 # entferne Markierungen für schlechte Trennungen
38 $zeile =~ s/\.//g;
40 print "$zeile\n";
43 # eof