mima fix

apache · hhbyyh · Mar 11, 2017 · Mar 11, 2017 · Mar 11, 2017 · Mar 12, 2017
commit 40cf4497432bd4e2cbeec8e6647b52c4c8e74072
diff --git a/mllib/src/main/scala/org/apache/spark/ml/fpm/FPGrowth.scala b/mllib/src/main/scala/org/apache/spark/ml/fpm/FPGrowth.scala
@@ -220,7 +220,7 @@ object FPGrowth extends DefaultParamsReadable[FPGrowth] {
 class FPGrowthModel private[ml] (
     @Since("2.2.0") override val uid: String,
     @Since("2.2.0") @transient val freqItemsets: DataFrame,
-    @Since("2.4.0") val numTrainingRecords: Long)
+    @Since("2.4.0") val numTrainingRecords: Long = -1)
   extends Model[FPGrowthModel] with FPGrowthParams with MLWritable {
 
   /** @group setParam */
@@ -359,7 +359,7 @@ private[fpm] object AssociationRules {
    *                from algorithms like [[FPGrowth]].
    * @param itemsCol column name for frequent itemsets
    * @param freqCol column name for frequent itemsets count
-   * @param numTrainingRecords count of training Dataset
+   * @param numTrainingRecords count of training Dataset, default -1.
    * @param minConfidence minimum confidence for the result association rules
    * @return a DataFrame("antecedent", "consequent", "confidence", "support") containing the
    *         association rules.
@@ -376,15 +376,26 @@ private[fpm] object AssociationRules {
     val rows = new MLlibAssociationRules()
       .setMinConfidence(minConfidence)
       .run(freqItemSetRdd)
-      .map(r => Row(r.antecedent, r.consequent, r.confidence, r.freqUnion / numTrainingRecords))
+      .map { r =>
+        if (numTrainingRecords > 0) {
+          Row(r.antecedent, r.consequent, r.confidence, r.freqUnion / numTrainingRecords)
+        } else {
+          Row(r.antecedent, r.consequent, r.confidence)
+        }
+
+      }
 
     val dt = dataset.schema(itemsCol).dataType
     val schema = StructType(Seq(
       StructField("antecedent", dt, nullable = false),
       StructField("consequent", dt, nullable = false),
-      StructField("confidence", DoubleType, nullable = false),
-      StructField("support", DoubleType, nullable = false)))
-    val rules = dataset.sparkSession.createDataFrame(rows, schema)
+      StructField("confidence", DoubleType, nullable = false)))
+    val rulesSchema = if (numTrainingRecords > 0) {
+      schema.add(StructField("support", DoubleType, nullable = false))
+    } else {
+      schema
+    }
+    val rules = dataset.sparkSession.createDataFrame(rows, rulesSchema)
     rules
   }
 }
diff --git a/mllib/src/test/scala/org/apache/spark/ml/fpm/FPGrowthSuite.scala b/mllib/src/test/scala/org/apache/spark/ml/fpm/FPGrowthSuite.scala
@@ -38,6 +38,7 @@ class FPGrowthSuite extends SparkFunSuite with MLlibTestSparkContext with Defaul
       val data = dataset.withColumn("items", col("items").cast(ArrayType(dt)))
       val model = new FPGrowth().setMinSupport(0.5).fit(data)
       val generatedRules = model.setMinConfidence(0.5).associationRules
+      generatedRules.show()
       val expectedRules = spark.createDataFrame(Seq(
         (Array("2"), Array("1"), 1.0, 0.75),
         (Array("1"), Array("2"), 0.75, 0.75)

diff --git a/project/MimaExcludes.scala b/project/MimaExcludes.scala
@@ -93,6 +93,9 @@ object MimaExcludes {
     ProblemFilters.exclude[InheritedNewAbstractMethodProblem]("org.apache.spark.ml.param.shared.HasValidationIndicatorCol.getValidationIndicatorCol"),
     ProblemFilters.exclude[InheritedNewAbstractMethodProblem]("org.apache.spark.ml.param.shared.HasValidationIndicatorCol.org$apache$spark$ml$param$shared$HasValidationIndicatorCol$_setter_$validationIndicatorCol_="),
     ProblemFilters.exclude[InheritedNewAbstractMethodProblem]("org.apache.spark.ml.param.shared.HasValidationIndicatorCol.validationIndicatorCol")
+
+    // [SPARK-19939][ML] Add support for association rules in ML
+    ProblemFilters.exclude[DirectMissingMethodProblem]("org.apache.spark.ml.fpm.FPGrowthModel.this")
   )
 
   // Exclude rules for 2.3.x