apache · ahirreddy · Aug 13, 2014 · JoshRosen · Aug 13, 2014 · davies
diff --git a/python/pyspark/sql.py b/python/pyspark/sql.py
@@ -1267,7 +1267,9 @@ def func(iterator):
             for x in iterator:
                 if not isinstance(x, basestring):
                     x = unicode(x)
-                yield x.encode("utf-8")
+                if isinstance(x, unicode):
+                    x = x.encode("utf-8")
+                yield x
         keyed = rdd.mapPartitions(func)
         keyed._bypass_serializer = True
         jrdd = keyed._jrdd.map(self._jvm.BytesToString())