Fix libsvm and text too

apache · HyukjinKwon · Jul 9, 2017 · Aug 23, 2017 · Aug 24, 2017 · Aug 24, 2017
commit 5ce9895d24a372fda8b18778b915c0c522ee21e1
diff --git a/mllib/src/main/scala/org/apache/spark/ml/source/libsvm/LibSVMRelation.scala b/mllib/src/main/scala/org/apache/spark/ml/source/libsvm/LibSVMRelation.scala
@@ -41,12 +41,10 @@ import org.apache.spark.util.SerializableConfiguration
 private[libsvm] class LibSVMOutputWriter(
     path: String,
     dataSchema: StructType,
-    lineSeparator: Option[String],
+    lineSeparator: String,
     context: TaskAttemptContext)
   extends OutputWriter {
 
-  private val lineSep = lineSeparator.getOrElse("\n")
-
   private val writer = CodecStreams.createOutputStreamWriter(context, new Path(path))
 
   // This `asInstanceOf` is safe because it's guaranteed by `LibSVMFileFormat.verifySchema`
@@ -60,7 +58,7 @@ private[libsvm] class LibSVMOutputWriter(
       writer.write(s" ${i + 1}:$v")
     }
 
-    writer.write(lineSep)
+    writer.write(lineSeparator)
   }
 
   override def close(): Unit = {

diff --git a/mllib/src/main/scala/org/apache/spark/mllib/util/MLUtils.scala b/mllib/src/main/scala/org/apache/spark/mllib/util/MLUtils.scala
@@ -107,10 +107,8 @@ object MLUtils extends Logging {
   private[spark] def parseLibSVMFile(
       sparkSession: SparkSession,
       paths: Seq[String],
-      lineSep: Option[String]): RDD[(Double, Array[Int], Array[Double])] = {
-    val textOptions = lineSep
-      .map(sep => Map(TextOptions.LINE_SEPARATOR -> sep))
-      .getOrElse(Map.empty[String, String])
+      lineSeparator: String): RDD[(Double, Array[Int], Array[Double])] = {
+    val textOptions = Map(TextOptions.LINE_SEPARATOR -> lineSeparator)
 
     val lines = sparkSession.baseRelationToDataFrame(
       DataSource.apply(

diff --git a/sql/hive/src/test/scala/org/apache/spark/sql/sources/SimpleTextRelation.scala b/sql/hive/src/test/scala/org/apache/spark/sql/sources/SimpleTextRelation.scala
@@ -95,7 +95,7 @@ class SimpleTextSource extends TextBasedFileFormat with DataSourceRegister {
       val projection = new InterpretedProjection(outputAttributes, inputAttributes)
 
       val unsafeRowIterator =
-        new HadoopFileLinesReader(file, None, broadcastedHadoopConf.value.value).map { line =>
+        new HadoopFileLinesReader(file, "\n", broadcastedHadoopConf.value.value).map { line =>
           val record = line.toString
           new GenericInternalRow(record.split(",", -1).zip(fieldTypes).map {
             case (v, dataType) =>