cross_validation.py

   1 #!/usr/bin/python
   2 import sys
   3 import subprocess
   4 import os
   5 from gostyle import *
   6 from math import sqrt
   7 import numpy
   8
   9 from data_about_players import Data
  10
  11 from knn import KNNOutputVectorGenerator
  12
  13 class NeuralNet:
  14         def __init__( self, filename ):
  15                 self.null = open('/dev/null','w')
  16
  17                 s = "./gnet/gnet_train -l 3 -n 30 -p 30 -e 0.0003 -o gonet.net ./"+filename
  18                 args = s.split()
  19                 ret = subprocess.call(args,stdout=self.null)
  20                 s = "./gnet/gnet_run gonet.net"
  21                 args = s.split()
  22                 self.p = subprocess.Popen(args, stdin=subprocess.PIPE, stdout=subprocess.PIPE, stderr=self.null)
  23         def __call__(self, vector):
  24                 self.p.stdin.write(' '.join([str(a) for a in vector]) + '\n')
  25                 a = self.p.stdout.readline()
  26                 return [ float(num) for num in a.split()]
  27         def close(self):
  28                 self.p.stdin.close()
  29                 self.p.stdout.close()
  30                 self.null.close()
  31
  32 if __name__ == '__main__':
  33         main_pat_filename = Data.main_pat_filename
  34         num_features = 400
  35
  36         # Neural net
  37         #typ = 'nn'
  38         #typ = 'knn'
  39         # random
  40         #typ = 'rnd'
  41         typ = 'joint_nn_knn'
  42
  43         player_vector = Data.questionare_total
  44         #       players_ignore = [ "Yi Ch'ang-ho 2004-" ]#, "Fujisawa Hideyuki","Yuki Satoshi", "Otake Hideo", "Yi Ch'ang-ho 2005+","Takao Shinji","Hane Naoki","Kobayashi Koichi" ]
  45         players_ignore = [ "Yi Ch'ang-ho 2004-", "Yi Ch'ang-ho 2005+" ]#,"Takao Shinji","Hane Naoki","Kobayashi Koichi" ]
  46         players_all = [ p for p in player_vector.keys() if p not in players_ignore ]
  47
  48         ### Object creating input vector when called
  49         print "Creating input vector generator from main pat file:", main_pat_filename
  50         i = InputVectorGenerator(main_pat_filename, num_features)
  51
  52         # Create list of input vectors
  53         input_vectors = []
  54         for name in players_all:
  55                 input_vectors += [i(Data.pat_files_folder + name)]
  56
  57         #print '"%s"'%(players_all[2],)
  58         #print input_vectors[2]
  59
  60         if len(input_vectors) == 0:
  61                 print >>sys.stderr, "No reference vectors."
  62                 sys.exit()
  63
  64         ### PCA example usage
  65         # Change this to False, if you do not want to use PCA
  66         use_pca = True
  67         if use_pca:
  68                 # Create PCA object, trained on input_vectors
  69                 print >>sys.stderr, "Running PCA."
  70                 pca = PCA(input_vectors, reduce=True)
  71                 # Perform a PCA on input vectors
  72                 input_vectors = pca.process_list_of_vectors(input_vectors)
  73                 # Creates a Composed object that first generates an input vector
  74                 # and then performs a PCA analysis on it.
  75                 i = Compose(i, pca)
  76
  77         ### n/4-fold cross validation
  78         #bounds = random.sample(range(1,len(players_all)), len(players_all) / 10 )
  79         bounds=[]
  80         for x in range(1,len(players_all)/4):
  81                 bounds += [4*x for _ in [1] if 4*x < len(players_all)]
  82         if not bounds:
  83                 print >>sys.stderr, "Pop too small."
  84                 sys.exit()
  85         bounds.sort()
  86
  87         def norm(vec):
  88                 return [ (x - 1) / 4.5 - 1.0 for x in vec ]
  89         def revnorm(vec):
  90                 return [ (x + 1) * 4.5 + 1.0 for x in vec ]
  91
  92         def rand_vect(k):
  93                 return list(2.0*numpy.random.random(k)-1.0)
  94
  95         print >>sys.stderr, "Running Cross-validation."
  96         print
  97         errs=[ [] for _ in xrange(len(players_all)) ]
  98         es=[]
  99         esps=[[],[],[],[]]
 100         sentinel=len(players_all)
 101         number_runs = 200
 102         for _ in xrange(number_runs):
 103                 pairs = zip(players_all, input_vectors)
 104                 random.shuffle(pairs)
 105                 players_all = [ a for a, b in pairs ]
 106                 input_vectors = [ b for a, b in pairs ]
 107                 prev=0
 108                 for b in bounds+[sentinel]:
 109                         validation_set = range(prev, b)
 110                         reference_set = range(0,prev) + range(b,sentinel)
 111                         if False:
 112                                 print "Reference set :",
 113                                 for pr in range(0, prev):
 114                                         print "R",
 115                                 for pr in validation_set:
 116                                         print "_",
 117                                 for pr in range(b, sentinel):
 118                                         print "R",
 119                                 print
 120                         prev = b
 121                         if  typ == 'nn':
 122                                 data =[]
 123                                 for index in reference_set:
 124                                         data.append( (input_vectors[index], norm(player_vector[players_all[index]])) )
 125
 126
 127                                 ### We can enlarge the data set by adding linear combinations of input and output vectors
 128                                 use_lin_combinations = False
 129                                 if use_lin_combinations:
 130                                         data += Combinator().combine(data)
 131
 132                                 print_set_to_file(data,'nn_cross.data')
 133
 134                                 nn = NeuralNet('nn_cross.data')
 135                                 # Create list of output vectors using weighted kNN algorithm approximating output_vector
 136                                 output_vectors = [ nn(input_vectors[index]) for index in validation_set ]
 137                                 nn.close()
 138                         elif typ == 'knn':
 139                                 ### Object creating output vector when called;
 140                                 ref_dict = {}
 141                                 for index in reference_set:
 142                                         ref_dict[tuple(input_vectors[index])] = norm(player_vector[players_all[index]])
 143
 144
 145                                 # best pro InputVectorGenerator rescale=Rescale
 146                                 oknn = KNNOutputVectorGenerator(ref_dict, k=3, weight_param=0.8)
 147
 148                                 # Create list of output vectors using weighted kNN algorithm approximating output_vector
 149                                 output_vectors = [ oknn(input_vectors[index]) for index in validation_set ]
 150                         elif  typ == 'joint_nn_knn':
 151                                 data =[]
 152                                 ref_dict = {}
 153                                 for index in reference_set:
 154                                         data.append( (input_vectors[index], norm(player_vector[players_all[index]])) )
 155                                         ref_dict[tuple(input_vectors[index])] = norm(player_vector[players_all[index]])
 156
 157                                 print_set_to_file(data,'nn_cross.data')
 158                                 nn = NeuralNet('nn_cross.data')
 159                                 # Create list of output vectors using weighted kNN algorithm approximating output_vector
 160                                 ov_3 = [ nn(input_vectors[index]) for index in validation_set ]
 161
 162                                 nn.close()
 163
 164                                 oknn = KNNOutputVectorGenerator(ref_dict, k=3, weight_param=0.8)
 165                                 ov_1 = [ oknn(input_vectors[index]) for index in validation_set ]
 166
 167                                 oknn = KNNOutputVectorGenerator(ref_dict, k=1, weight_param=0.8)
 168                                 ov_2 = [ oknn(input_vectors[index]) for index in validation_set ]
 169
 170                                 oknn = KNNOutputVectorGenerator(ref_dict, k=1, weight_param=0.8)
 171                                 ov_4 = [ oknn(input_vectors[index]) for index in validation_set ]
 172
 173                                 output_vectors = [ [a[0],b[1],c[2],d[3]] for a,b,c,d in zip(ov_1, ov_2, ov_3, ov_4)]
 174                         elif typ == 'rnd':
 175                                 output_vectors = [ rand_vect(4) for index in validation_set ]
 176
 177                         output_vectors = [ revnorm(x) for x in output_vectors ]
 178                         desired_vectors = [ player_vector[players_all[index]] for index in validation_set ]
 179                         #desired_vectors = [ norm(player_vector[players_all[index]]) for index in validation_set ]
 180
 181                         if False:
 182                                 for vec_set,text in [(output_vectors, "Output: "), (desired_vectors, "Desired:")]:
 183                                         print text,
 184                                         for o in vec_set:
 185                                                 for x in o:
 186                                                         print "%02.3f"%(x,),
 187                                                 print "; ",
 188                                         print
 189
 190                         for num1, (o,d) in zip(validation_set, zip(output_vectors, desired_vectors)):
 191                                 err = 0.0
 192                                 for num,(x,y) in enumerate(zip(o,d)):
 193                                         e = (1.0*x-1.0*y)**2
 194                                         esps[num]+=[e]
 195                                         es += [e]
 196                                         err += e
 197                                 errs[num1] += [err]
 198
 199         if  typ == 'joint_nn_knn':
 200                 print "Joint classifier:"
 201         elif  typ == 'knn':
 202                 print "k-NN classifier:"
 203         elif  typ == 'nn':
 204                 print "Neural network classifier:"
 205         elif  typ == 'rnd':
 206                 print "Random classifier:"
 207         #print "Total square err: %2.3f"%( sum(errs) / number_runs,)
 208         mar = numpy.array(errs)
 209         mean = mar.mean()
 210         print "Mean square err per player: " + "%2.3f ( = sd %2.3f)  "%(mean, sqrt(mean))
 211         mean = numpy.array(es).mean()
 212         print "Mean square err per style:  " + "%2.3f ( = sd %2.3f)  "%(mean, sqrt(mean))
 213         for num, style in enumerate(esps):
 214                 mean = numpy.array(style).mean()
 215                 print "Style %1d : %2.3f ( = sd %2.3f)"%(num+1, mean, sqrt(mean))
 216                 #print "%2.3f &"%(mean,),
 217
 218         #mean = numpy.array(es).mean()
 219         #print "%2.3f &"%(mean),
 220         #print "%2.3f \\\\\\hline"%(11.776 / mean)
 221
 222         #print
 223         #print "Players sorted by mean square error:"
 224         #p = zip([numpy.array(errs[p]).mean() for p in xrange(len(players_all)) ], players_all)
 225         #p.sort()
 226         #for err, name in p:
 227 #               print "%2.3f %s"%(err,name)
 228 #               #print "%s"%(name,)
 229 #       sys.exit()