[SPARK-21786][SQL] The 'spark.sql.parquet.compression.codec' and 'spa…

…rk.sql.orc.compression.codec' configuration doesn't take effect on hive table writing Fix some issue
apache · fjh100456 · Sep 13, 2017 · Sep 14, 2017 · Sep 15, 2017 · Sep 15, 2017
commit 90cbcb3c58e115995eaa58f61a9cc818d2f17cdf
diff --git a/sql/hive/src/main/scala/org/apache/spark/sql/hive/execution/SaveAsHiveFile.scala b/sql/hive/src/main/scala/org/apache/spark/sql/hive/execution/SaveAsHiveFile.scala
@@ -69,18 +69,22 @@ private[hive] trait SaveAsHiveFile extends DataWritingCommand {
     }
 
     fileSinkConf.tableInfo.getOutputFileFormatClassName match {
-      case formatName if formatName.endsWith("ParquetOutputFormat") =>
+      case formatName if formatName.toLowerCase.endsWith("parquetoutputformat") =>
         val compressionConf = "parquet.compression"
-        val compressionCodec = getCompressionByPriority(fileSinkConf, compressionConf,
-          sparkSession.sessionState.conf.parquetCompressionCodec) match {
+        val compressionCodec = getCompressionByPriority(
+          fileSinkConf,
+          compressionConf,
+          default = sparkSession.sessionState.conf.parquetCompressionCodec) match {
           case "NONE" => "UNCOMPRESSED"
           case _@x => x
         }
         hadoopConf.set(compressionConf, compressionCodec)
       case formatName if formatName.endsWith("OrcOutputFormat") =>
         val compressionConf = "orc.compress"
-        val compressionCodec = getCompressionByPriority(fileSinkConf, compressionConf,
-          sparkSession.sessionState.conf.orcCompressionCodec) match {
+        val compressionCodec = getCompressionByPriority(
+          fileSinkConf,
+          compressionConf,
+          default = sparkSession.sessionState.conf.orcCompressionCodec) match {
           case "UNCOMPRESSED" => "NONE"
           case _@x => x
         }
@@ -106,8 +110,13 @@ private[hive] trait SaveAsHiveFile extends DataWritingCommand {
       options = Map.empty)
   }
 
+  // Because compression configurations can come in a variety of ways,
+  // we choose the compression configuration in this order:
+  // For parquet: `compression` > `parquet.compression` > `spark.sql.parquet.compression.codec`
+  // For orc: `compression` > `orc.compress` > `spark.sql.orc.compression.codec`
   private def getCompressionByPriority(fileSinkConf: FileSinkDesc,
     compressionConf: String, default: String): String = {
+    // The variable `default` was set to spark sql conf.
     val props = fileSinkConf.tableInfo.getProperties
     val priorities = List("compression", compressionConf)
     priorities.find(props.getProperty(_, null) != null)