refine the code according to Imran's comments and the design doc

apache · liyezhang556520 · Aug 17, 2015 · Aug 17, 2015 · Aug 17, 2015 · Aug 18, 2015
commit 27b7da1b775b0c4101af3f1f6ee454668a49cdc1
diff --git a/core/src/main/scala/org/apache/spark/executor/Executor.scala b/core/src/main/scala/org/apache/spark/executor/Executor.scala
@@ -437,7 +437,7 @@ private[spark] class Executor(
           metrics.updateAccumulators()
 
           if (isLocal) {
-            // JobProgressListener will hold an reference of it during
+            // JobProgressListener will hold a reference of it during
             // onExecutorMetricsUpdate(), then JobProgressListener can not see
             // the changes of metrics any more, so make a deep copy of it
             val copiedMetrics = Utils.deserialize[TaskMetrics](Utils.serialize(metrics))
@@ -452,6 +452,9 @@ private[spark] class Executor(
 
     env.blockTransferService.getMemMetrics(this.executorMetrics)
     val executorMetrics = if (isLocal) {
+      // JobProgressListener might hold a reference of it during onExecutorMetricsUpdate()
+      // in future, if then JobProgressListener can not see the changes of metrics any
+      // more, so make a deep copy of it here for future change.
       Utils.deserialize[ExecutorMetrics](Utils.serialize(this.executorMetrics))
     } else {
       this.executorMetrics

diff --git a/core/src/main/scala/org/apache/spark/executor/ExecutorMetrics.scala b/core/src/main/scala/org/apache/spark/executor/ExecutorMetrics.scala
@@ -50,7 +50,5 @@ class ExecutorMetrics extends Serializable {
 @DeveloperApi
 case class TransportMetrics(
     timeStamp: Long,
-    clientOnheapSize: Long,
-    clientDirectheapSize: Long,
-    serverOnheapSize: Long,
-    serverDirectheapSize: Long)
+    onHeapSize: Long,
+    directSize: Long)
diff --git a/core/src/main/scala/org/apache/spark/network/netty/NettyBlockTransferService.scala b/core/src/main/scala/org/apache/spark/network/netty/NettyBlockTransferService.scala
@@ -22,7 +22,7 @@ import scala.concurrent.{Future, Promise}
 
 import io.netty.buffer._
 
-import org.apache.spark.{SecurityManager, SparkConf}
+import org.apache.spark.{SecurityManager, SparkConf, SparkEnv}
 import org.apache.spark.executor.{TransportMetrics, ExecutorMetrics}
 import org.apache.spark.network._
 import org.apache.spark.network.buffer.ManagedBuffer
@@ -32,7 +32,6 @@ import org.apache.spark.network.server._
 import org.apache.spark.network.shuffle.{RetryingBlockFetcher, BlockFetchingListener, OneForOneBlockFetcher}
 import org.apache.spark.network.shuffle.protocol.UploadBlock
 import org.apache.spark.serializer.JavaSerializer
-import org.apache.spark.SparkEnv
 import org.apache.spark.storage.{BlockId, StorageLevel}
 import org.apache.spark.util.{Clock, Utils, SystemClock}
 
@@ -64,17 +63,17 @@ class NettyBlockTransferService(conf: SparkConf, securityManager: SecurityManage
     val currentTime = clock.getTimeMillis()
     val clientPooledAllocator = clientFactory.getPooledAllocator()
     val serverAllocator = server.getAllocator()
-    val clientDirectHeapSize: Long = sumOfMetrics(
+    val clientDirectSize: Long = sumOfMetrics(
       clientPooledAllocator.directArenas().asScala.toList)
     val clientOnHeapSize: Long = sumOfMetrics(clientPooledAllocator.heapArenas().asScala.toList)
-    val serverDirectHeapSize: Long = sumOfMetrics(serverAllocator.directArenas().asScala.toList)
+    val serverDirectSize: Long = sumOfMetrics(serverAllocator.directArenas().asScala.toList)
     val serverOnHeapSize: Long = sumOfMetrics(serverAllocator.heapArenas().asScala.toList)
-    executorMetrics.setTransportMetrics(Some(TransportMetrics(currentTime,
-      clientOnHeapSize, clientDirectHeapSize, serverOnHeapSize, serverDirectHeapSize)))
-    logDebug(s"current Netty client directHeapSize is $clientDirectHeapSize, " +
-      s"client heapSize is $clientOnHeapSize, server directHeapsize is $serverDirectHeapSize, " +
+    logDebug(s"Current Netty Client directSize is $clientDirectSize, " +
+      s"Client HeapSize is $clientOnHeapSize, server directHeapsize is $serverDirectSize, " +
       s"server heapsize is $serverOnHeapSize, executer id is " +
       s"${SparkEnv.get.blockManager.blockManagerId.executorId}")
+    executorMetrics.setTransportMetrics(Some(TransportMetrics(currentTime,
+      clientOnHeapSize + serverOnHeapSize, clientDirectSize + serverDirectSize)))
   }
 
   private def sumOfMetrics(arenaMetricList: List[PoolArenaMetric]): Long = {

diff --git a/core/src/main/scala/org/apache/spark/scheduler/EventLoggingListener.scala b/core/src/main/scala/org/apache/spark/scheduler/EventLoggingListener.scala
@@ -20,7 +20,6 @@ package org.apache.spark.scheduler
 import java.io._
 import java.net.URI
 
-import akka.remote.transport.Transport
 import org.apache.spark.executor.TransportMetrics
 
 import scala.collection.mutable
@@ -97,8 +96,9 @@ private[spark] class EventLoggingListener(
   private[scheduler] val logPath = getLogPath(
     logBaseDir, appId, appAttemptId, compressionCodecName)
 
-  private val latestMetrics = new HashMap[String, SparkListenerExecutorMetricsUpdate]
-  private val modifiedMetrics = new HashMap[String, SparkListenerExecutorMetricsUpdate]
+  private val executorIdToLatestMetrics = new HashMap[String, SparkListenerExecutorMetricsUpdate]
+  private val executorIdToModifiedMaxMetrics = new
+    HashMap[String, SparkListenerExecutorMetricsUpdate]
 
   /**
    * Creates the log file in the configured log directory.
@@ -161,17 +161,23 @@ private[spark] class EventLoggingListener(
     }
   }
 
-  // We log the event both when stage submitted and stage completed, and after each logEvent call,
-  // replace the modifiedMetrics with the latestMetrics. In case the stages submit and complete
-  // time might be interleaved. So as to make the result the same with the running time.
-  private def logMetricsUpdateEvent() : Unit = {
-    modifiedMetrics.map(metrics => logEvent(metrics._2))
-    latestMetrics.map(metrics => modifiedMetrics.update(metrics._1, metrics._2))
+  // When a stage is submitted and completed, we updated our executor memory metrics for that stage,
+  // and then log the metrics. Anytime we receive more executor metrics, we update our running set of
+  // {{executorIdToLatestMetrics}} and {{executorIdToModifiedMaxMetrics}}. Since stages submit and
+  // complete time might be interleaved, we maintain the latest and max metrics for each time segment.
+  // So, for each stage start and stage complete, we replace each item in
+  // {{executorIdToModifiedMaxMetrics}} with that in {{executorIdToLatestMetrics}}.
+  private def updateAndLogExecutorMemoryMetrics() : Unit = {
+    executorIdToModifiedMaxMetrics.foreach { case(_, metrics) => logEvent(metrics) }
+    executorIdToLatestMetrics.foreach {case(_, metrics) => logEvent(metrics) }
+    executorIdToLatestMetrics.foreach { case (executorId, metrics) =>
+      executorIdToModifiedMaxMetrics.update(executorId, metrics)
+    }
   }
 
   // Events that do not trigger a flush
   override def onStageSubmitted(event: SparkListenerStageSubmitted): Unit = {
-    logMetricsUpdateEvent()
+    updateAndLogExecutorMemoryMetrics()
     logEvent(event)
   }
 
@@ -185,7 +191,7 @@ private[spark] class EventLoggingListener(
 
   // Events that trigger a flush
   override def onStageCompleted(event: SparkListenerStageCompleted): Unit = {
-    logMetricsUpdateEvent()
+    updateAndLogExecutorMemoryMetrics()
     logEvent(event, flushLogger = true)
   }
 
@@ -218,8 +224,8 @@ private[spark] class EventLoggingListener(
   }
 
   override def onExecutorRemoved(event: SparkListenerExecutorRemoved): Unit = {
-    latestMetrics.remove(event.executorId)
-    modifiedMetrics.remove(event.executorId)
+    executorIdToLatestMetrics.remove(event.executorId)
+    executorIdToModifiedMaxMetrics.remove(event.executorId)
     logEvent(event, flushLogger = true)
   }
 
@@ -228,7 +234,7 @@ private[spark] class EventLoggingListener(
 
   // No-op because logging every update would be overkill
   override def onExecutorMetricsUpdate(event: SparkListenerExecutorMetricsUpdate): Unit = {
-    latestMetrics.update(event.execId, event)
+    executorIdToLatestMetrics.update(event.execId, event)
     updateModifiedMetrics(event.execId)
   }
 
@@ -258,10 +264,10 @@ private[spark] class EventLoggingListener(
    * @param executorId  the executor whose metrics will be modified
    */
   private def updateModifiedMetrics(executorId: String): Unit = {
-    val toBeModifiedEvent = modifiedMetrics.get(executorId)
-    val latestEvent = latestMetrics.get(executorId)
+    val toBeModifiedEvent = executorIdToModifiedMaxMetrics.get(executorId)
+    val latestEvent = executorIdToLatestMetrics.get(executorId)
     if (toBeModifiedEvent.isEmpty) {
-      if (latestEvent.isDefined) modifiedMetrics.update(executorId, latestEvent.get)
+      if (latestEvent.isDefined) executorIdToModifiedMaxMetrics.update(executorId, latestEvent.get)
     } else {
       val toBeModifiedMetrics = toBeModifiedEvent.get.executorMetrics.transportMetrics
       if (toBeModifiedMetrics.isDefined) {
@@ -270,29 +276,23 @@ private[spark] class EventLoggingListener(
         val toBeModTransMetrics = toBeModifiedMetrics.get
         var timeStamp: Long = toBeModTransMetrics.timeStamp
         // the logic here should be the same with that for memoryListener
-        val (clientOnheapSize, serverOnheapSize) =
-          if (latestTransMetrics.clientOnheapSize + latestTransMetrics.serverOnheapSize >
-            toBeModTransMetrics.clientOnheapSize + toBeModTransMetrics.serverOnheapSize) {
+        val onHeapSize = if (latestTransMetrics.onHeapSize > toBeModTransMetrics.onHeapSize) {
             timeStamp = latestTransMetrics.timeStamp
-            (latestTransMetrics.clientOnheapSize, latestTransMetrics.serverOnheapSize)
+            latestTransMetrics.onHeapSize
           } else {
-            (toBeModTransMetrics.clientOnheapSize, toBeModTransMetrics.serverOnheapSize)
+            toBeModTransMetrics.onHeapSize
           }
-        val (clientDirectheapSize, serverDirectheapSize) =
-          if (latestTransMetrics.clientDirectheapSize + latestTransMetrics.serverDirectheapSize >
-            toBeModTransMetrics.clientDirectheapSize + toBeModTransMetrics.serverDirectheapSize) {
+        val directSize = if (latestTransMetrics.directSize > toBeModTransMetrics.directSize) {
             timeStamp = latestTransMetrics.timeStamp
-            (latestTransMetrics.clientDirectheapSize, latestTransMetrics.serverDirectheapSize)
+            latestTransMetrics.directSize
           } else {
-            (toBeModTransMetrics.clientDirectheapSize, toBeModTransMetrics.serverDirectheapSize)
+            toBeModTransMetrics.directSize
           }
         toBeModifiedEvent.get.executorMetrics.setTransportMetrics(
-          Some(TransportMetrics(timeStamp, clientOnheapSize, clientDirectheapSize,
-            serverOnheapSize, serverDirectheapSize)))
+          Some(TransportMetrics(timeStamp, onHeapSize, directSize)))
       }
     }
   }
-
 }
 
 private[spark] object EventLoggingListener extends Logging {

diff --git a/core/src/main/scala/org/apache/spark/ui/memory/MemoryTab.scala b/core/src/main/scala/org/apache/spark/ui/memory/MemoryTab.scala
@@ -41,11 +41,11 @@ class MemoryListener extends SparkListener {
   type ExecutorId = String
   val activeExecutorIdToMem = new HashMap[ExecutorId, MemoryUIInfo]
   val removedExecutorIdToMem = new HashMap[ExecutorId, MemoryUIInfo]
-  // latestExecIdToExecMetrics include all executors that is active and removed.
+  // latestExecIdToExecMetrics including all executors that is active and removed.
   // this may consume a lot of memory when executors are changing frequently, e.g. in dynamical
   // allocation mode.
   val latestExecIdToExecMetrics = new HashMap[ExecutorId, ExecutorMetrics]
-  // stagesIdToMem a map maintains all executors memory information of each stage,
+  // activeStagesToMem a map maintains all executors memory information of each stage,
   // the Map type is [(stageId, attemptId), Seq[(executorId, MemoryUIInfo)]
   val activeStagesToMem = new HashMap[(Int, Int), HashMap[ExecutorId, MemoryUIInfo]]
   val completedStagesToMem = new HashMap[(Int, Int), HashMap[ExecutorId, MemoryUIInfo]]
@@ -55,10 +55,9 @@ class MemoryListener extends SparkListener {
     val executorMetrics = event.executorMetrics
     val memoryInfo = activeExecutorIdToMem.getOrElseUpdate(executorId, new MemoryUIInfo)
     memoryInfo.updateExecutorMetrics(executorMetrics)
-    activeStagesToMem.map {stageToMem =>
-      if (stageToMem._2.contains(executorId)) {
-        val memInfo = stageToMem._2.get(executorId).get
-        memInfo.updateExecutorMetrics(executorMetrics)
+    activeStagesToMem.foreach { case (_, stageMemMetrics) =>
+      if(stageMemMetrics.contains(executorId)) {
+        stageMemMetrics.get(executorId).get.updateExecutorMetrics(executorMetrics)
       }
     }
     latestExecIdToExecMetrics.update(executorId, executorMetrics)
@@ -84,21 +83,19 @@ class MemoryListener extends SparkListener {
   override def onStageSubmitted(event: SparkListenerStageSubmitted): Unit = {
     val stage = (event.stageInfo.stageId, event.stageInfo.attemptId)
     val memInfoMap = new HashMap[ExecutorId, MemoryUIInfo]
-    activeExecutorIdToMem.map(idToMem => memInfoMap.update(idToMem._1, new MemoryUIInfo))
+    activeExecutorIdToMem.foreach(idToMem => memInfoMap.update(idToMem._1, new MemoryUIInfo))
     activeStagesToMem.update(stage, memInfoMap)
   }
 
   override def onStageCompleted(event: SparkListenerStageCompleted): Unit = {
     val stage = (event.stageInfo.stageId, event.stageInfo.attemptId)
-    val memInfoMap = activeStagesToMem.get(stage)
-    if (memInfoMap.isDefined) {
-      activeExecutorIdToMem.map { idToMem =>
-        val executorId = idToMem._1
-        val memInfo = memInfoMap.get.getOrElse(executorId, new MemoryUIInfo)
-        if (latestExecIdToExecMetrics.contains(executorId)) {
-          memInfo.updateExecutorMetrics(latestExecIdToExecMetrics.get(executorId).get)
+    activeStagesToMem.get(stage).map { memInfoMap =>
+      activeExecutorIdToMem.foreach { case (executorId, _) =>
+        val memInfo = memInfoMap.getOrElse(executorId, new MemoryUIInfo)
+        latestExecIdToExecMetrics.get(executorId).foreach { prevExecutorMetrics =>
+          memInfo.updateExecutorMetrics(prevExecutorMetrics)
         }
-        memInfoMap.get.update(executorId, memInfo)
+        memInfoMap.update(executorId, memInfo)
       }
       completedStagesToMem.put(stage, activeStagesToMem.remove(stage).get)
     }
@@ -107,46 +104,42 @@ class MemoryListener extends SparkListener {
 
 class MemoryUIInfo {
   var executorAddress: String = _
-  var transportInfo: Option[transportMemSize] = None
+  var transportInfo: Option[TransportMemSize] = None
 
   def this(execInfo: ExecutorInfo) = {
     this()
     executorAddress = execInfo.executorHost
   }
 
   def updateExecutorMetrics(execMetrics: ExecutorMetrics): Unit = {
-    if (execMetrics.transportMetrics.isDefined) {
+    execMetrics.transportMetrics.map { transPortMetrics =>
       transportInfo = transportInfo match {
         case Some(transportMemSize) => transportInfo
-        case _ => Some(new transportMemSize)
+        case _ => Some(new TransportMemSize)
       }
       executorAddress = execMetrics.hostname
-      if (execMetrics.transportMetrics.isDefined) {
-        transportInfo.get.updateTransport(execMetrics.transportMetrics.get)
-      }
+      transportInfo.get.updateTransport(transPortMetrics)
     }
   }
 }
 
-class transportMemSize {
-  var onheapSize: Long = _
-  var directheapSize: Long = _
-  var peakOnheapSizeTime: MemTime = new MemTime()
-  var peakDirectheapSizeTime: MemTime = new MemTime()
+class TransportMemSize {
+  var onHeapSize: Long = _
+  var directSize: Long = _
+  var peakOnHeapSizeTime: MemTime = new MemTime()
+  var peakDirectSizeTime: MemTime = new MemTime()
 
   def updateTransport(transportMetrics: TransportMetrics): Unit = {
-    val updatedOnheapSize = transportMetrics.clientOnheapSize +
-      transportMetrics.serverOnheapSize
-    val updatedDirectheapSize = transportMetrics.clientDirectheapSize +
-      transportMetrics.serverDirectheapSize
+    val updatedOnHeapSize = transportMetrics.onHeapSize
+    val updatedDirectSize = transportMetrics.directSize
     val updateTime: Long = transportMetrics.timeStamp
-    onheapSize = updatedOnheapSize
-    directheapSize = updatedDirectheapSize
-    if (updatedOnheapSize >= peakOnheapSizeTime.memorySize) {
-      peakOnheapSizeTime = MemTime(updatedOnheapSize, updateTime)
+    onHeapSize = updatedOnHeapSize
+    directSize = updatedDirectSize
+    if (updatedOnHeapSize >= peakOnHeapSizeTime.memorySize) {
+      peakOnHeapSizeTime = MemTime(updatedOnHeapSize, updateTime)
     }
-    if (updatedDirectheapSize >= peakDirectheapSizeTime.memorySize) {
-      peakDirectheapSizeTime = MemTime(updatedDirectheapSize, updateTime)
+    if (updatedDirectSize >= peakDirectSizeTime.memorySize) {
+      peakDirectSizeTime = MemTime(updatedDirectSize, updateTime)
     }
   }
 }

diff --git a/core/src/main/scala/org/apache/spark/ui/memory/MemoryTable.scala b/core/src/main/scala/org/apache/spark/ui/memory/MemoryTable.scala
@@ -34,10 +34,10 @@ private[ui] class MemTableBase(
   protected def columns: Seq[Node] = {
     <th>Executor ID</th>
     <th>Address</th>
-    <th>Net Memory (on-heap)</th>
-    <th>Net Memory (direct-heap)</th>
-    <th>Peak Net Memory (on-heap) / Happen Time</th>
-    <th>Peak Net Read (direct-heap) / Happen Time</th>
+    <th>Network Memory (on-heap)</th>
+    <th>Network Memory (direct-heap)</th>
+    <th>Peak Network Memory (on-heap) / Happen Time</th>
+    <th>Peak Network Read (direct-heap) / Happen Time</th>
   }
 
   def toNodeSeq: Seq[Node] = {
@@ -68,20 +68,20 @@ private[ui] class MemTableBase(
       </td>
       {if (info._2.transportInfo.isDefined) {
         <td>
-          {Utils.bytesToString(info._2.transportInfo.get.onheapSize)}
+          {Utils.bytesToString(info._2.transportInfo.get.onHeapSize)}
         </td>
         <td>
-          {Utils.bytesToString(info._2.transportInfo.get.directheapSize)}
+          {Utils.bytesToString(info._2.transportInfo.get.directSize)}
         </td>
         <td>
-          {Utils.bytesToString(info._2.transportInfo.get.peakOnheapSizeTime.memorySize)}
+          {Utils.bytesToString(info._2.transportInfo.get.peakOnHeapSizeTime.memorySize)}
           /
-          {UIUtils.formatDate(info._2.transportInfo.get.peakOnheapSizeTime.timeStamp)}
+          {UIUtils.formatDate(info._2.transportInfo.get.peakOnHeapSizeTime.timeStamp)}
         </td>
         <td>
-          {Utils.bytesToString(info._2.transportInfo.get.peakDirectheapSizeTime.memorySize)}
+          {Utils.bytesToString(info._2.transportInfo.get.peakDirectSizeTime.memorySize)}
           /
-          {UIUtils.formatDate(info._2.transportInfo.get.peakDirectheapSizeTime.timeStamp)}
+          {UIUtils.formatDate(info._2.transportInfo.get.peakDirectSizeTime.timeStamp)}
         </td>
       } else {
         <td>N/A</td>