Why do we need stop gradient here?

PiperOrigin-RevId: 188341955
tensorflow · lukaszkaiser · Mar 10, 2018 · Mar 2, 2018 · Mar 2, 2018 · Mar 5, 2018
commit 7056827fda3dd94ab70b4f13e0c5d268545ab2a2
diff --git a/tensor2tensor/layers/discretization.py b/tensor2tensor/layers/discretization.py
@@ -109,7 +109,7 @@ def nearest_neighbor(x,
     else:
       nearest_idx = tf.argmax(-dist, axis=-1)
     nearest_hot = tf.one_hot(nearest_idx, block_v_size)
-  return tf.stop_gradient(nearest_hot)
+  return nearest_hot
 
 
 def embedding_lookup(x,