Add failing regression test for SPARK-7687

apache · JoshRosen · May 17, 2015 · May 17, 2015 · May 18, 2015 · May 18, 2015
commit 307ecbf314b1a01a8f5051e5f9aa8b5985b93ac0
diff --git a/python/pyspark/sql/dataframe.py b/python/pyspark/sql/dataframe.py
@@ -599,11 +599,11 @@ def describe(self, *cols):
         +-------+---+
         |summary|age|
         +-------+---+
-        |  count|  2|
+        |  count|2.0|
         |   mean|3.5|
         | stddev|1.5|
-        |    min|  2|
-        |    max|  5|
+        |    min|2.0|
+        |    max|5.0|
         +-------+---+
         """
         jdf = self._jdf.describe(self._jseq(cols))

diff --git a/sql/core/src/test/scala/org/apache/spark/sql/DataFrameSuite.scala b/sql/core/src/test/scala/org/apache/spark/sql/DataFrameSuite.scala
@@ -388,6 +388,11 @@ class DataFrameSuite extends QueryTest {
     val describeTwoCols = describeTestData.describe("age", "height")
     assert(getSchemaAsSeq(describeTwoCols) === Seq("summary", "age", "height"))
     checkAnswer(describeTwoCols, describeResult)
+    // All aggregate value should have been cast to double, including `count`
+    describeTwoCols.collect().foreach { row =>
+      assert(row.get(1).isInstanceOf[Double], "expected double but found " + row.get(1).getClass)
+      assert(row.get(2).isInstanceOf[Double], "expected double but found " + row.get(2).getClass)
+    }
 
     val describeAllCols = describeTestData.describe()
     assert(getSchemaAsSeq(describeAllCols) === Seq("summary", "age", "height"))