The filter used by Metadata-only queries should not have Unevaluable

apache · cxzl25 · Apr 28, 2020 · May 1, 2020 · May 1, 2020 · May 1, 2020
commit c34f030e634018d6c64171bfa9baa75de5ecabec
diff --git a/sql/core/src/main/scala/org/apache/spark/sql/execution/OptimizeMetadataOnlyQuery.scala b/sql/core/src/main/scala/org/apache/spark/sql/execution/OptimizeMetadataOnlyQuery.scala
@@ -119,6 +119,10 @@ case class OptimizeMetadataOnlyQuery(catalog: SessionCatalog) extends Rule[Logic
       }
     }
 
+    if (normalizedFilters.exists(_.find(_.isInstanceOf[Unevaluable]).isDefined)) {
+      return child
+    }
+
     child transform {
       case plan if plan eq relation =>
         relation match {

diff --git a/sql/core/src/test/scala/org/apache/spark/sql/execution/OptimizeMetadataOnlyQuerySuite.scala b/sql/core/src/test/scala/org/apache/spark/sql/execution/OptimizeMetadataOnlyQuerySuite.scala
@@ -150,4 +150,30 @@ class OptimizeMetadataOnlyQuerySuite extends QueryTest with SharedSparkSession {
       }
     }
   }
+
+  test("SPARK-31590 The filter used by Metadata-only queries should not have Unevaluable") {
+    withTable("test_tbl") {
+      withSQLConf(OPTIMIZER_METADATA_ONLY.key -> "true") {
+        sql("CREATE TABLE test_tbl (a INT,d STRING,h STRING) USING PARQUET PARTITIONED BY (d ,h)")
+        sql("""
+            |INSERT OVERWRITE TABLE test_tbl PARTITION(d,h)
+            |SELECT 1,'2020-01-01','23'
+            |UNION ALL
+            |SELECT 2,'2020-01-02','01'
+            |UNION ALL
+            |SELECT 3,'2020-01-02','02'
+            """.stripMargin)
+        sql(
+          s"""
+             |SELECT d, MAX(h) AS h
+             |FROM test_tbl
+             |WHERE d= (
+             |  SELECT MAX(d) AS d
+             |  FROM test_tbl
+             |)
+             |GROUP BY d
+        """.stripMargin).collect()
+      }
+    }
+  }
 }