Normalize posteriors, change signature to Map interface

apache · actgardner · Dec 5, 2014 · Dec 5, 2014 · Dec 6, 2014 · Mar 2, 2015
commit 7d6b5b4801c9402bfdfedf0eb8d9f87be8345efa
diff --git a/mllib/src/main/scala/org/apache/spark/mllib/classification/NaiveBayes.scala b/mllib/src/main/scala/org/apache/spark/mllib/classification/NaiveBayes.scala
@@ -68,19 +68,20 @@ class NaiveBayesModel private[mllib] (
   }
 
   def classProbabilities(testData: RDD[Vector]):
-   RDD[mutable.Map[Double, Double]] = {
+   RDD[scala.collection.Map[Double, Double]] = {
     val bcModel = testData.context.broadcast(this)
     testData.mapPartitions { iter =>
       val model = bcModel.value
       iter.map(model.classProbabilities)
     }
   }
 
-  def classProbabilities(testData: Vector): mutable.Map[Double, Double] = {
+  def classProbabilities(testData: Vector): scala.collection.Map[Double, Double] = {
     val posteriors = (brzPi + brzTheta * testData.toBreeze) 
+    val sum = posteriors.sum
     val probs:mutable.Map[Double,Double] = 
       mutable.Map.empty[Double, Double]
-    posteriors.foreachPair((k,v) => probs += (labels(k) -> v))
+    posteriors.foreachPair((k,v) => probs += (labels(k) -> v/sum))
     probs
   }