fix deviance calculation when y = 0

apache · tengpeng · Apr 23, 2018 · Apr 23, 2018 · Apr 23, 2018 · 3c6a4dab973851e385b6c9a2c77e5684ad6171a4
commit 3c6a4dab973851e385b6c9a2c77e5684ad6171a4
diff --git a/mllib/src/main/scala/org/apache/spark/ml/regression/GeneralizedLinearRegression.scala b/mllib/src/main/scala/org/apache/spark/ml/regression/GeneralizedLinearRegression.scala
@@ -782,8 +782,12 @@ object GeneralizedLinearRegression extends DefaultParamsReadable[GeneralizedLine
 
     override def variance(mu: Double): Double = mu
 
+    private def ylogy(y: Double, mu: Double): Double = {
+      if (y == 0) 0.0 else y * math.log(y / mu)
+    }
+
     override def deviance(y: Double, mu: Double, weight: Double): Double = {
-      2.0 * weight * (y * math.log(y / mu) - (y - mu))
+      2.0 * weight * (ylogy(y, mu) - (y - mu))
     }
 
     override def aic(

diff --git a/mllib/src/test/scala/org/apache/spark/ml/regression/GeneralizedLinearRegressionSuite.scala b/mllib/src/test/scala/org/apache/spark/ml/regression/GeneralizedLinearRegressionSuite.scala
@@ -495,8 +495,8 @@ class GeneralizedLinearRegressionSuite extends MLTest with DefaultReadWriteTest
        [1] 1.8121235  -0.1747493  -0.5815417
      */
     val expected = Seq(
-      Vectors.dense(0.0, -0.0457441, -0.6833928),
-      Vectors.dense(1.8121235, -0.1747493, -0.5815417))
+      Vectors.dense(0.0, -0.0457441, -0.6833928, 3.8093),
+      Vectors.dense(1.8121235, -0.1747493, -0.5815417, 3.7006))
 
     import GeneralizedLinearRegression._
 
@@ -507,7 +507,8 @@ class GeneralizedLinearRegressionSuite extends MLTest with DefaultReadWriteTest
       val trainer = new GeneralizedLinearRegression().setFamily("poisson").setLink(link)
         .setFitIntercept(fitIntercept).setLinkPredictionCol("linkPrediction")
       val model = trainer.fit(dataset)
-      val actual = Vectors.dense(model.intercept, model.coefficients(0), model.coefficients(1))
+      val actual = Vectors.dense(model.intercept, model.coefficients(0), model.coefficients(1),
+        model.summary.deviance)
       assert(actual ~= expected(idx) absTol 1e-4, "Model mismatch: GLM with poisson family, " +
         s"$link link and fitIntercept = $fitIntercept (with zero values).")
       idx += 1