Call clear after each batch.

viirya · viirya · commit 093728ef75f4 · 2018-05-13T00:29:09.000Z
diff --git a/python/pyspark/sql/tests.py b/python/pyspark/sql/tests.py
@@ -4680,6 +4680,26 @@ def test_supported_types(self):
         self.assertPandasEqual(expected2, result2)
         self.assertPandasEqual(expected3, result3)
 
+    def test_array_type_correct(self):
+        from pyspark.sql.functions import pandas_udf, PandasUDFType, array, col
+
+        df = self.data.withColumn("arr", array(col("id"))).repartition(1, "id")
+
+        output_schema = StructType(
+            [StructField('id', LongType()),
+             StructField('v', IntegerType()),
+             StructField('arr', ArrayType(LongType()))])
+
+        udf = pandas_udf(
+            lambda pdf: pdf,
+            output_schema,
+            PandasUDFType.GROUPED_MAP
+        )
+
+        result = df.groupby('id').apply(udf).sort('id').toPandas()
+        expected = df.toPandas().groupby('id').apply(udf.func).reset_index(drop=True)
+        self.assertPandasEqual(expected, result)
+
     def test_register_grouped_map_udf(self):
         from pyspark.sql.functions import pandas_udf, PandasUDFType
 
diff --git a/sql/core/src/main/scala/org/apache/spark/sql/execution/arrow/ArrowWriter.scala b/sql/core/src/main/scala/org/apache/spark/sql/execution/arrow/ArrowWriter.scala
@@ -311,6 +311,7 @@ private[arrow] class ArrayWriter(
   override def reset(): Unit = {
     super.reset()
     elementWriter.reset()
+    valueVector.clear()
   }
 }
 

Original file line number	Diff line number	Diff line change
`@@ -311,6 +311,7 @@ private[arrow] class ArrayWriter(`
`311`	`311`	`override def reset(): Unit = {`
`312`	`312`	`super.reset()`
`313`	`313`	`elementWriter.reset()`
	`314`	`+ valueVector.clear()`
`314`	`315`	`}`
`315`	`316`	`}`
`316`	`317`