for grouped map results, get columns based on name instead of position

apache · BryanCutler · May 24, 2018 · May 24, 2018 · May 24, 2018 · May 25, 2018
commit a653e9b5606c235746eeca7ed451fdbf1a90503d
diff --git a/python/pyspark/worker.py b/python/pyspark/worker.py
@@ -110,9 +110,7 @@ def wrapped(key_series, value_series):
                 "Number of columns of the returned pandas.DataFrame "
                 "doesn't match specified schema. "
                 "Expected: {} Actual: {}".format(len(return_type), len(result.columns)))
-        arrow_return_types = (to_arrow_type(field.dataType) for field in return_type)
-        return [(result[result.columns[i]], arrow_type)
-                for i, arrow_type in enumerate(arrow_return_types)]
+        return [(result[field.name], to_arrow_type(field.dataType)) for field in return_type]
 
     return wrapped