Fix SimpleIndexer fit method to set inputCol and outputCol correctly

Alessandro Gagliardi · Alessandro Gagliardi · commit 894345ef51ed · 2017-06-20T10:00:25.000-07:00
diff --git a/src/main/scala/com/high-performance-spark-examples/ml/CustomPipeline.scala b/src/main/scala/com/high-performance-spark-examples/ml/CustomPipeline.scala
@@ -122,7 +122,10 @@ class SimpleIndexer(override val uid: String)
     import dataset.sparkSession.implicits._
     val words = dataset.select(dataset($(inputCol)).as[String]).distinct
       .collect()
-    new SimpleIndexerModel(uid, words)
+    val model = new SimpleIndexerModel(uid, words)
+    model.set(inputCol, $(inputCol))
+    model.set(outputCol, $(outputCol))
+    model
   }
 }
 
diff --git a/src/test/scala/com/high-performance-spark-examples/ml/CustomPipeline.scala b/src/test/scala/com/high-performance-spark-examples/ml/CustomPipeline.scala
@@ -0,0 +1,40 @@
+/**
+  * Simple tests for our CustomPipeline demo pipeline stage
+  */
+package com.highperformancespark.examples.ml
+
+import com.holdenkarau.spark.testing.DataFrameSuiteBase
+import org.apache.spark.sql.Dataset
+import org.scalatest.FunSuite
+
+case class TestRow(id: Int, inputColumn: String)
+
+class CustomPipelineSuite extends FunSuite with DataFrameSuiteBase {
+  val d = List(
+    TestRow(0, "a"),
+    TestRow(1, "b"),
+    TestRow(2, "c"),
+    TestRow(3, "a"),
+    TestRow(4, "a"),
+    TestRow(5, "c")
+  )
+
+  test("test spark context") {
+    val session = spark
+    val rdd = session.sparkContext.parallelize(1 to 10)
+    assert(rdd.sum === 55)
+  }
+
+  test("simple indexer test") {
+    val session = spark
+    import session.implicits._
+    val ds: Dataset[TestRow] = session.createDataset(d)
+    val indexer = new SimpleIndexer()
+    indexer.setInputCol("inputColumn")
+    indexer.setOutputCol("categoryIndex")
+    val model = indexer.fit(ds)
+    val predicted = model.transform(ds)
+    assert(predicted.columns.contains("categoryIndex"))
+    predicted.show()
+  }
+}

Original file line number	Diff line number	Diff line change
`@@ -122,7 +122,10 @@ class SimpleIndexer(override val uid: String)`
`122`	`122`	`import dataset.sparkSession.implicits._`
`123`	`123`	`val words = dataset.select(dataset($(inputCol)).as[String]).distinct`
`124`	`124`	`.collect()`
`125`		`- new SimpleIndexerModel(uid, words)`
	`125`	`+ val model = new SimpleIndexerModel(uid, words)`
	`126`	`+ model.set(inputCol, $(inputCol))`
	`127`	`+ model.set(outputCol, $(outputCol))`
	`128`	`+ model`
`126`	`129`	`}`
`127`	`130`	`}`
`128`	`131`