Fixing things
[apertium.git] / apertium-eu-es / README
blob23931eab584f75f47c367d3dcc43b4e3024f9882
2 TRANSLATOR
4 These are the linguistic data for the Apertium Basque--Spanish machine translator.
5 It translates only in the direction Basque--Spanish. 
6 You need apertium-2.0 and lttoolbox-2.0 to use this translator.
9 To compile the linguistical data simply do:
11 $ ./configure
13 to generate a Makefile file and then
15 $ make
17 inside of this directory.
20 TAGGER 
22 To use this language-pair package with apertium YOU DO NOT NEED TO
23 RETRAIN THE TAGGER. Probabilities and auxiliary data are provided for
24 both the en-ca and the ca-en translation directions which should be
25 acceptable for most applications, and should work even if you change
26 the dictionaries in a reasonably way.
28 If for some reason you need to retrain the tagger (for example, you
29 have made really extensive changes to the dictionaries such as
30 creating new lexical categories), you have three alternatives:
32 * To perform a supervised training:
34   To this end tagged corpora is provided, but tagged corpora
35   (eu-tagger-data/eu.tagged ) could be
36   obsolete for some words. If this is the case, the tagger training 
37   program  will show you where the problems are and you will need 
38   to solve them by hand. Be sure to solve the problems by modifying 
39   ONLY the .tagged file, NEVER the .untagged file that is 
40   automatically generated.
42   The supervised training is done by typing: 
44   make -f eu-es-supervised.make (for the Basque part-of-speech tagger)
45 * To perform an unsupervised training:
47   For this purpose you will need to assemble a large (hundreds of
48   thousand of words) plain-text corpus for each language (for example,
49   using a robot to harvest text from online newspapers) and put them in
50   the proper place, for instance eu-tagger-data/eu.crp.txt. This type
51 of training does not need human
52   intervention but, as expected, results will be less adequate than
53   those obtained with the supervised training.
55   The unsupervised training is done through the iterative Baum-Welch
56   algorithm. By default the number of iterations is set to 8, but you
57   can change this value by editing the Makefile and changing the
58   value of TAGGER_UNSUPERVISED_ITERATIONS.
60   The unsupervised training is done by typing:
62   make -f eu-es-unsupervised.make (for the Basque part-of-speech tagger)
64   This is the training method followed to train the basque tagger.
67 * To perform an unsupervised training by using target-language
68   information and the rest of the modules of the Apertium MT engine:
70   To do so you need large plain-text corpora on both languages. Please
71   download the apertium-tagger-training-tools package and follow the
72   instructions provided there.