simplify the code and add comments

apache · goldmedal · Sep 25, 2017 · Sep 25, 2017 · Sep 25, 2017 · Sep 25, 2017
commit f5429677ac66ded20b63dc9641ff69193c08897f
diff --git a/python/pyspark/sql/readwriter.py b/python/pyspark/sql/readwriter.py
@@ -438,9 +438,13 @@ def func(iterator):
             keyed = path.mapPartitions(func)
             keyed._bypass_serializer = True
             jrdd = keyed._jrdd.map(self._spark._jvm.BytesToString())
+            # [SPARK-22112]
+            # There aren't any jvm api for creating a dataframe from rdd storing csv.
+            # We can do it through creating a jvm dataset firstly and using the jvm api
+            # for creating a dataframe from dataset storing csv.
             jdataset = self._spark._ssql_ctx.createDataset(
                 jrdd.rdd(),
-                self._spark._sc._jvm.Encoders.STRING())
+                self._spark._jvm.Encoders.STRING())
             return self._df(self._jreader.csv(jdataset))
         else:
             raise TypeError("path can be only string, list or RDD")