Addressing Hyukjin's review comments

apache · MaxGekk · Feb 11, 2018 · Feb 11, 2018 · Feb 13, 2018 · Feb 13, 2018
commit e7be77d52a1c13a8817eba086f25454c06981e6f
diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/json/JSONOptions.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/json/JSONOptions.scala
@@ -126,9 +126,4 @@ private[sql] class JSONOptions(
       allowBackslashEscapingAnyCharacter)
     factory.configure(JsonParser.Feature.ALLOW_UNQUOTED_CONTROL_CHARS, allowUnquotedControlChars)
   }
-
-  def getTextOptions: Map[String, String] = {
-    Map[String, String]() ++
-      encoding.map("encoding" -> _) ++ lineSeparator.map("lineSep" -> _)
-  }
 }
diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/json/JacksonParser.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/json/JacksonParser.scala
@@ -363,11 +363,11 @@ class JacksonParser(
         throw BadRecordException(() => recordLiteral(record), () => None, e)
       case e: CharConversionException if options.encoding.isEmpty =>
         val msg =
-          """Failed to parse a character. Charset was detected automatically.
-            |You might want to set it explicitly via the charset option like:
-            |  .option("charset", "UTF-8")
-            |Example of supported charsets:
-            |  UTF-8, UTF-16, UTF-16BE, UTF-16LE, UTF-32, UTF-32BE, UTF-32LE
+          """Failed to parse a character. Encoding was detected automatically.
+            |You might want to set it explicitly via the encoding option like:
+            |  .option("encoding", "UTF-8")
+            |Example of supported encodings:
+            |  UTF-8, UTF-16BE, UTF-16LE, UTF-32BE, UTF-32LE
             |""".stripMargin + e.getMessage
         throw new CharConversionException(msg)
     }

diff --git a/sql/core/src/main/scala/org/apache/spark/sql/execution/datasources/json/JsonDataSource.scala b/sql/core/src/main/scala/org/apache/spark/sql/execution/datasources/json/JsonDataSource.scala
@@ -111,15 +111,18 @@ object TextInputJsonDataSource extends JsonDataSource {
   private def createBaseDataset(
       sparkSession: SparkSession,
       inputPaths: Seq[FileStatus],
-      parsedOptions: JSONOptions
-  ): Dataset[String] = {
+      parsedOptions: JSONOptions): Dataset[String] = {
     val paths = inputPaths.map(_.getPath.toString)
+    val textOptions = Map.empty[String, String] ++
+      parsedOptions.encoding.map("encoding" -> _) ++
+      parsedOptions.lineSeparator.map("lineSep" -> _)
+
     sparkSession.baseRelationToDataFrame(
       DataSource.apply(
         sparkSession,
         paths = paths,
         className = classOf[TextFileFormat].getName,
-        options = parsedOptions.getTextOptions
+        options = textOptions
       ).resolveRelation(checkFilesExist = false))
       .select("value").as(Encoders.STRING)
   }
@@ -163,8 +166,7 @@ object MultiLineJsonDataSource extends JsonDataSource {
     JsonInferSchema.infer[PortableDataStream](
       sampled,
       parsedOptions,
-      createParser(_, _, parsedOptions.encoding)
-    )
+      createParser(_, _, parsedOptions.encoding))
   }
 
   private def createBaseRdd(

diff --git a/sql/core/src/main/scala/org/apache/spark/sql/execution/datasources/json/JsonFileFormat.scala b/sql/core/src/main/scala/org/apache/spark/sql/execution/datasources/json/JsonFileFormat.scala
@@ -155,7 +155,7 @@ private[json] class JsonOutputWriter(
 
   private val encoding = options.encoding match {
     case Some(charsetName) => Charset.forName(charsetName)
-    case _ => StandardCharsets.UTF_8
+    case None => StandardCharsets.UTF_8
   }
 
   private val writer = CodecStreams.createOutputStreamWriter(

diff --git a/sql/core/src/test/scala/org/apache/spark/sql/execution/datasources/json/JsonSuite.scala b/sql/core/src/test/scala/org/apache/spark/sql/execution/datasources/json/JsonSuite.scala
@@ -2070,9 +2070,9 @@ class JsonSuite extends QueryTest with SharedSQLContext with TestJsonData {
       // Read
       val data =
         s"""
-           |  {"f":
-           |"a", "f0": 1}$lineSep{"f":
-           |
+          |  {"f":
+          |"a", "f0": 1}$lineSep{"f":
+          |
           |"c",  "f0": 2}$lineSep{"f": "d",  "f0": 3}
         """.stripMargin
       val dataWithTrailingLineSep = s"$data$lineSep"
@@ -2140,9 +2140,7 @@ class JsonSuite extends QueryTest with SharedSQLContext with TestJsonData {
       .option("encoding", "UTF-16")
       .json(testFile(fileName))
 
-    checkAnswer(jsonDF, Seq(
-      Row("Chris", "Baird"), Row("Doug", "Rood")
-    ))
+    checkAnswer(jsonDF, Seq(Row("Chris", "Baird"), Row("Doug", "Rood")))
   }
 
   test("SPARK-23723: multi-line json in UTF-32BE with BOM") {
@@ -2207,10 +2205,9 @@ class JsonSuite extends QueryTest with SharedSQLContext with TestJsonData {
   }
 
   def checkEncoding(
-    expectedEncoding: String,
-    pathToJsonFiles: String,
-    expectedContent: String
-  ): Unit = {
+      expectedEncoding: String,
+      pathToJsonFiles: String,
+      expectedContent: String): Unit = {
     val jsonFiles = new File(pathToJsonFiles)
       .listFiles()
       .filter(_.isFile)
@@ -2288,13 +2285,8 @@ class JsonSuite extends QueryTest with SharedSQLContext with TestJsonData {
     }
   }
 
-  def checkReadJson(
-    lineSep: String,
-    encodingOption: String,
-    encoding: String,
-    inferSchema: Boolean,
-    runId: Int
-  ): Unit = {
+  def checkReadJson(lineSep: String, encodingOption: String, encoding: String,
+      inferSchema: Boolean, runId: Int): Unit = {
     test(s"SPARK-23724: checks reading json in ${encoding} #${runId}") {
       val lineSepInBytes = {
         if (lineSep.startsWith("x")) {