moving it to streamexecution

ericm-db · ericm-db · Jun 6, 2024 · Jun 6, 2024 · Jun 6, 2024 · Jun 7, 2024
commit 838c239c02becdaced126014f18abc3dce9a8000
diff --git a/sql/core/src/main/scala/org/apache/spark/sql/execution/streaming/MicroBatchExecution.scala b/sql/core/src/main/scala/org/apache/spark/sql/execution/streaming/MicroBatchExecution.scala
@@ -31,7 +31,7 @@ import org.apache.spark.sql.catalyst.util.truncatedString
 import org.apache.spark.sql.connector.catalog.{SupportsRead, SupportsWrite, TableCapability}
 import org.apache.spark.sql.connector.read.streaming.{MicroBatchStream, Offset => OffsetV2, ReadLimit, SparkDataStream, SupportsAdmissionControl, SupportsTriggerAvailableNow}
 import org.apache.spark.sql.errors.QueryExecutionErrors
-import org.apache.spark.sql.execution.{SparkPlan, SQLExecution}
+import org.apache.spark.sql.execution.SQLExecution
 import org.apache.spark.sql.execution.datasources.LogicalRelation
 import org.apache.spark.sql.execution.datasources.v2.{DataSourceV2Relation, StreamingDataSourceV2Relation, StreamingDataSourceV2ScanRelation, StreamWriterCommitProgress, WriteToDataSourceV2Exec}
 import org.apache.spark.sql.execution.streaming.sources.{WriteToMicroBatchDataSource, WriteToMicroBatchDataSourceV1}
@@ -88,22 +88,6 @@ class MicroBatchExecution(
 
   @volatile protected[sql] var triggerExecutor: TriggerExecutor = _
 
-  private lazy val operatorStateMetadatas: Map[Long, OperatorStateMetadataLog] = {
-    populateOperatorStateMetadatas(getLatestExecutionContext().executionPlan.executedPlan)
-  }
-
-  private def populateOperatorStateMetadatas(plan: SparkPlan):
-  Map[Long, OperatorStateMetadataLog] = {
-    plan.flatMap {
-      case s: StateStoreWriter => s.stateInfo.map { info =>
-        val metadataPath = s.metadataFilePath()
-        info.operatorId -> new OperatorStateMetadataLog(sparkSession,
-          metadataPath.toString)
-      }
-      case _ => Seq.empty
-    }.toMap
-  }
-
   protected def getTrigger(): TriggerExecutor = {
     assert(sources.nonEmpty, "sources should have been retrieved from the plan!")
     trigger match {
@@ -922,7 +906,7 @@ class MicroBatchExecution(
         case s: StateStoreWriter =>
           val metadata = s.operatorStateMetadata()
           val id = metadata.operatorInfo.operatorId
-          val metadataFile = operatorStateMetadatas(id)
+          val metadataFile = operatorStateMetadataLogs(id)
           if (!metadataFile.add(execCtx.batchId, metadata)) {
             throw QueryExecutionErrors.concurrentStreamLogUpdate(execCtx.batchId)
           }

diff --git a/sql/core/src/main/scala/org/apache/spark/sql/execution/streaming/StreamExecution.scala b/sql/core/src/main/scala/org/apache/spark/sql/execution/streaming/StreamExecution.scala
@@ -40,6 +40,7 @@ import org.apache.spark.sql.catalyst.streaming.InternalOutputModes._
 import org.apache.spark.sql.connector.catalog.{SupportsWrite, Table}
 import org.apache.spark.sql.connector.read.streaming.{Offset => OffsetV2, ReadLimit, SparkDataStream}
 import org.apache.spark.sql.connector.write.{LogicalWriteInfoImpl, SupportsTruncate, Write}
+import org.apache.spark.sql.execution.SparkPlan
 import org.apache.spark.sql.execution.command.StreamingExplainCommand
 import org.apache.spark.sql.execution.streaming.sources.ForeachBatchUserFuncException
 import org.apache.spark.sql.internal.SQLConf
@@ -239,6 +240,22 @@ abstract class StreamExecution(
    */
   val commitLog = new CommitLog(sparkSession, checkpointFile("commits"))
 
+  lazy val operatorStateMetadataLogs: Map[Long, OperatorStateMetadataLog] = {
+    populateOperatorStateMetadatas(getLatestExecutionContext().executionPlan.executedPlan)
+  }
+
+  private def populateOperatorStateMetadatas(
+      plan: SparkPlan): Map[Long, OperatorStateMetadataLog] = {
+    plan.flatMap {
+      case s: StateStoreWriter => s.stateInfo.map { info =>
+        val metadataPath = s.metadataFilePath()
+        info.operatorId -> new OperatorStateMetadataLog(sparkSession,
+          metadataPath.toString)
+      }
+      case _ => Seq.empty
+    }.toMap
+  }
+
   /** Whether all fields of the query have been initialized */
   private def isInitialized: Boolean = state.get != INITIALIZING