use pushedFilters in ParquetPartitionReaderFactory

apache · gengliangwang · Jun 4, 2019 · Jun 7, 2019 · Jun 7, 2019 · Jun 14, 2019
commit b530e5f15a9698b28b76ff49f3dae45264386cc7
diff --git a/...org/apache/spark/sql/execution/datasources/v2/parquet/ParquetPartitionReaderFactory.scala b/...org/apache/spark/sql/execution/datasources/v2/parquet/ParquetPartitionReaderFactory.scala
@@ -51,7 +51,7 @@ import org.apache.spark.util.SerializableConfiguration
  * @param dataSchema Schema of Parquet files.
  * @param readDataSchema Required schema of Parquet files.
  * @param partitionSchema Schema of partitions.
- * @param filters Filters of the batch scan.
+ * @param filters Filters to be pushed down in the batch scan.
  */
 case class ParquetPartitionReaderFactory(
     sqlConf: SQLConf,

diff --git a/...re/src/main/scala/org/apache/spark/sql/execution/datasources/v2/parquet/ParquetScan.scala b/...re/src/main/scala/org/apache/spark/sql/execution/datasources/v2/parquet/ParquetScan.scala
@@ -39,7 +39,6 @@ case class ParquetScan(
     dataSchema: StructType,
     readDataSchema: StructType,
     readPartitionSchema: StructType,
-    filters: Array[Filter],
     pushedFilters: Array[Filter],
     options: CaseInsensitiveStringMap)
   extends FileScan(sparkSession, fileIndex, readDataSchema, readPartitionSchema) {
@@ -77,14 +76,14 @@ case class ParquetScan(
     val broadcastedConf = sparkSession.sparkContext.broadcast(
       new SerializableConfiguration(hadoopConf))
     ParquetPartitionReaderFactory(sparkSession.sessionState.conf, broadcastedConf,
-      dataSchema, readDataSchema, readPartitionSchema, filters)
+      dataSchema, readDataSchema, readPartitionSchema, pushedFilters)
   }
 
   override def equals(obj: Any): Boolean = obj match {
     case p: ParquetScan =>
       fileIndex == p.fileIndex && dataSchema == p.dataSchema &&
         readDataSchema == p.readDataSchema && readPartitionSchema == p.readPartitionSchema &&
-        options == p.options && equivalentFilters(filters, p.filters)
+        options == p.options && equivalentFilters(pushedFilters, p.pushedFilters)
     case _ => false
   }
 

diff --git a/...main/scala/org/apache/spark/sql/execution/datasources/v2/parquet/ParquetScanBuilder.scala b/...main/scala/org/apache/spark/sql/execution/datasources/v2/parquet/ParquetScanBuilder.scala
@@ -70,6 +70,6 @@ case class ParquetScanBuilder(
 
   override def build(): Scan = {
     ParquetScan(sparkSession, hadoopConf, fileIndex, dataSchema, readDataSchema(),
-      readPartitionSchema(), filters, _pushedFilters, options)
+      readPartitionSchema(), _pushedFilters, options)
   }
 }