Save embeddings

Ubuntu · Ubuntu · commit 8e2602ced5ba · 2019-06-02T00:15:37.000Z
diff --git a/main.py b/main.py
@@ -125,10 +125,10 @@ def sarcasm(text_field, label_field, train_filepath, test_filepath, options, hea
     label = train.predict(args.predict, cnn, text_field, label_field, args.cuda)
     print('\n[Text]  {}\n[Label] {}\n'.format(args.predict, label))
 elif args.test:
-    try:
-        train.eval(test_iter, cnn, args) 
-    except Exception as e:
-        print("\nSorry. The test dataset doesn't  exist.\n")
+    # try:
+    train.eval(test_iter, cnn, args) 
+    # except Exception as e:
+    #     print("\nSorry. The test dataset doesn't  exist.\n")
 else:
     print()
     try:
diff --git a/model.py b/model.py
@@ -53,6 +53,6 @@ def forward(self, x):
         x3 = self.conv_and_pool(x,self.conv15) #(N,Co)
         x = torch.cat((x1, x2, x3), 1) # (N,len(Ks)*Co)
         '''
-        x = self.dropout(x)  # (N, len(Ks)*Co)
-        logit = self.fc1(x)  # (N, C)
-        return logit
+        x_drop = self.dropout(x)  # (N, len(Ks)*Co)
+        logit = self.fc1(x_drop)  # (N, C)
+        return logit, x
diff --git a/train.py b/train.py
@@ -3,6 +3,7 @@
 import torch
 import torch.autograd as autograd
 import torch.nn.functional as F
+import numpy as np
 
 
 def train(train_iter, dev_iter, model, args):
@@ -23,7 +24,7 @@ def train(train_iter, dev_iter, model, args):
                 feature, target = feature.cuda(), target.cuda()
 
             optimizer.zero_grad()
-            logit = model(feature)
+            logit, embedding = model(feature)
 
             #print('logit vector', logit.size())
             #print('target vector', target.size())
@@ -58,26 +59,35 @@ def train(train_iter, dev_iter, model, args):
 def eval(data_iter, model, args):
     model.eval()
     corrects, avg_loss = 0, 0
+    embeddings = []
     for batch in data_iter:
         feature, target = batch.text, batch.label
         feature.t_(), target.data.sub_(1)  # batch first, index align
         if args.cuda:
             feature, target = feature.cuda(), target.cuda()
 
-        logit = model(feature)
+        logit, embedding = model(feature)
         loss = F.cross_entropy(logit, target, size_average=False)
 
         avg_loss += loss
         corrects += (torch.max(logit, 1)
                      [1].view(target.size()).data == target.data).sum()
-
+        embeddings.extend(embedding)
+        
     size = len(data_iter.dataset)
     avg_loss /= size
     accuracy = 100.0 * corrects/size
     print('\nEvaluation - loss: {:.6f}  acc: {:.4f}%({}/{}) \n'.format(avg_loss, 
                                                                        accuracy, 
                                                                        corrects, 
                                                                        size))
+    if args.test:
+        new_embeddings = []
+        for idx, embed in enumerate(embeddings):
+            print(embed.type())
+            new_embeddings.append(embed.detach().cpu().numpy())
+        print(len(embeddings), len(embeddings[0]))
+        np.save('./embeddings.npy', np.array(new_embeddings))
     return accuracy
 
 
@@ -92,7 +102,7 @@ def predict(text, model, text_field, label_feild, cuda_flag):
     if cuda_flag:
         x = x.cuda()
     print(x)
-    output = model(x)
+    output, embedding = model(x)
     _, predicted = torch.max(output, 1)
     #return label_feild.vocab.itos[predicted.data[0][0]+1]
     return label_feild.vocab.itos[predicted.data[0]+1]