[SPARK-37203][SQL] Fix NotSerializableException when observe with TypedImperativeAggregate #34474

beliefer · 2021-11-03T08:03:37Z

What changes were proposed in this pull request?

Currently,

val namedObservation = Observation("named")

val df = spark.range(100)
val observed_df = df.observe(
   namedObservation, percentile_approx($"id", lit(0.5), lit(100)).as("percentile_approx_val"))

observed_df.collect()
namedObservation.get

throws exception as follows:

15:16:27.994 ERROR org.apache.spark.util.Utils: Exception encountered
java.io.NotSerializableException: org.apache.spark.sql.catalyst.expressions.aggregate.ApproximatePercentile$PercentileDigest
	at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1184)
	at java.io.ObjectOutputStream.defaultWriteFields(ObjectOutputStream.java:1548)
	at java.io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1509)
	at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1432)
	at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1178)
	at java.io.ObjectOutputStream.writeArray(ObjectOutputStream.java:1378)
	at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1174)
	at java.io.ObjectOutputStream.defaultWriteFields(ObjectOutputStream.java:1548)
	at java.io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1509)
	at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1432)
	at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1178)
	at java.io.ObjectOutputStream.defaultWriteFields(ObjectOutputStream.java:1548)
	at java.io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1509)
	at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1432)
	at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1178)
	at java.io.ObjectOutputStream.writeObject(ObjectOutputStream.java:348)
	at org.apache.spark.scheduler.DirectTaskResult.$anonfun$writeExternal$2(TaskResult.scala:55)
	at org.apache.spark.scheduler.DirectTaskResult.$anonfun$writeExternal$2$adapted(TaskResult.scala:55)
	at scala.collection.Iterator.foreach(Iterator.scala:943)
	at scala.collection.Iterator.foreach$(Iterator.scala:943)
	at scala.collection.AbstractIterator.foreach(Iterator.scala:1431)
	at scala.collection.IterableLike.foreach(IterableLike.scala:74)
	at scala.collection.IterableLike.foreach$(IterableLike.scala:73)
	at scala.collection.AbstractIterable.foreach(Iterable.scala:56)
	at org.apache.spark.scheduler.DirectTaskResult.$anonfun$writeExternal$1(TaskResult.scala:55)
	at scala.runtime.java8.JFunction0$mcV$sp.apply(JFunction0$mcV$sp.java:23)
	at org.apache.spark.util.Utils$.tryOrIOException(Utils.scala:1434)
	at org.apache.spark.scheduler.DirectTaskResult.writeExternal(TaskResult.scala:51)
	at java.io.ObjectOutputStream.writeExternalData(ObjectOutputStream.java:1459)
	at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1430)
	at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1178)
	at java.io.ObjectOutputStream.writeObject(ObjectOutputStream.java:348)
	at org.apache.spark.serializer.JavaSerializationStream.writeObject(JavaSerializer.scala:44)
	at org.apache.spark.serializer.JavaSerializerInstance.serialize(JavaSerializer.scala:101)
	at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:616)
	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
	at java.lang.Thread.run(Thread.java:748)

This PR will fix the issue. After the change,
assert(namedObservation.get === Map("percentile_approx_val" -> 49))
java.io.NotSerializableException will not happen.

Why are the changes needed?

Fix NotSerializableException when observe with TypedImperativeAggregate.

Does this PR introduce any user-facing change?

No. This PR change the implement of AggregatingAccumulator who uses serialize and deserialize of TypedImperativeAggregate now.

How was this patch tested?

New tests.

SparkQA · 2021-11-03T09:22:06Z

Kubernetes integration test starting
URL: https://amplab.cs.berkeley.edu/jenkins/job/SparkPullRequestBuilder-K8s/49343/

SparkQA · 2021-11-03T10:03:43Z

Kubernetes integration test status failure
URL: https://amplab.cs.berkeley.edu/jenkins/job/SparkPullRequestBuilder-K8s/49343/

SparkQA · 2021-11-03T10:29:56Z

Kubernetes integration test starting
URL: https://amplab.cs.berkeley.edu/jenkins/job/SparkPullRequestBuilder-K8s/49345/

SparkQA · 2021-11-03T11:13:31Z

Kubernetes integration test status failure
URL: https://amplab.cs.berkeley.edu/jenkins/job/SparkPullRequestBuilder-K8s/49345/

SparkQA · 2021-11-03T13:26:07Z

Test build #144873 has finished for PR 34474 at commit 1eacf82.

This patch passes all tests.
This patch merges cleanly.
This patch adds no public classes.

MaxGekk · 2021-11-03T14:12:58Z

...c/main/scala/org/apache/spark/sql/catalyst/expressions/aggregate/ApproximatePercentile.scala

   * @param summaries underlying probabilistic data structure [[QuantileSummaries]].
   */
-  class PercentileDigest(private var summaries: QuantileSummaries) {
+  class PercentileDigest(private var summaries: QuantileSummaries) extends Serializable {


hmm, there are special methods for (de-)serialization of PercentileDigest:

spark/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/aggregate/ApproximatePercentile.scala

Lines 212 to 218 in 08123a3

override def serialize(obj: PercentileDigest): Array[Byte] = {

ApproximatePercentile.serializer.serialize(obj)

}

override def deserialize(bytes: Array[Byte]): PercentileDigest = {

ApproximatePercentile.serializer.deserialize(bytes)

}

Do you know why the methods are used instead of extending of Serializable?

cc @cloud-fan

Can we just add the proper logic to observe? Adding serialization will fix this particular problem, but it won't work for other aggregates.

I agree if that's possible - I couldn't tell if this was something observe() should never have to pull back and does accidentally, or whether it is necessary to return metrics about percentile_approx somehow

I probably forgot to add it...

@MaxGekk @hvanhovell @srowen I updated the code and it will fix the issue for AggregatingAccumulator takes any TypedImperativeAggregate.

SparkQA · 2021-11-03T14:29:45Z

Test build #144875 has finished for PR 34474 at commit a2f1fbb.

This patch passes all tests.
This patch merges cleanly.
This patch adds no public classes.

srowen · 2021-11-03T16:16:46Z

Looking at the implementation, it's never meant to be serialized by Java or Kryo, but is serialized 'manually' and internally by Spark. I think it must be related to observe() here, that somehow this object gets caught up in what is returned? I don't know a lot about observe().

It's possible the answer is that observe() should do something different, but not sure.

We can make this Serializable, but then need to implement methods for the Java serializer that would reuse the existing serializer code. That seems plausible.

cloud-fan · 2021-11-04T08:55:05Z

sql/core/src/main/scala/org/apache/spark/sql/execution/AggregatingAccumulator.scala


+  override def withBufferSerialized(): AggregatingAccumulator = {
+    if (!isAtDriverSide) {
+      val input = getOrCreateTempBuffer()


why do we need to create temp buffer here?

SparkQA · 2021-11-04T09:35:08Z

Kubernetes integration test starting
URL: https://amplab.cs.berkeley.edu/jenkins/job/SparkPullRequestBuilder-K8s/49368/

cloud-fan · 2021-11-04T10:04:23Z

core/src/main/scala/org/apache/spark/util/AccumulatorV2.scala

   */
  def value: OUT

+  // We assume that serialization of AccumulatorV2 runs on executor is not necessary.


// Serialize the buffer of this accumulator before sending back this accumulator to the driver. // By default this method does nothing.

cloud-fan · 2021-11-04T10:05:57Z

sql/core/src/main/scala/org/apache/spark/sql/execution/AggregatingAccumulator.scala

  }

+  override def withBufferSerialized(): AggregatingAccumulator = {
+    if (!isAtDriverSide) {


I think we can do assert(!isAtDriverSide)

cloud-fan · 2021-11-04T10:09:35Z

...catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/aggregate/interfaces.scala


+  /**
+   * In-place replaces SparkSQL internally supported underlying storage format (BinaryType),
+   * with the aggregation buffer object stored at buffer's index `mutableAggBufferOffset`.


stored at buffer's index mutableAggBufferOffset describes the binary, should be put before with the aggregation buffer object ...

cloud-fan · 2021-11-04T10:10:16Z

...catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/aggregate/interfaces.scala

+   * with the aggregation buffer object stored at buffer's index `mutableAggBufferOffset`.
+   *
+   * This is only called when AggregatingAccumulator running on driver, after the framework
+   * shuffle in aggregate buffers.


This is nothing to do with shuffle

cloud-fan · 2021-11-04T10:15:20Z

sql/core/src/main/scala/org/apache/spark/sql/execution/AggregatingAccumulator.scala

          val otherBuffer = agg.buffer
+          // If AggregatingAccumulator runs on driver,
+          // we should deserialize all TypedImperativeAggregate.
+          if (isAtDriverSide) {


We don't need to add a new code. We can just change the existing code

while (i < typedImperatives.length) { typedImperatives(i).mergeBuffersObjects(buffer, otherBuffer) i += 1 }

to

if (atDriverSide) { while (i < typedImperatives.length) { // The input buffer stores serialized data typedImperatives(i).merge(buffer, otherBuffer) i += 1 } } else { while (i < typedImperatives.length) { // The input buffer stores deserialized object typedImperatives(i). mergeBuffersObjects(buffer, otherBuffer) i += 1 } }

SparkQA · 2021-11-04T10:19:45Z

Kubernetes integration test status failure
URL: https://amplab.cs.berkeley.edu/jenkins/job/SparkPullRequestBuilder-K8s/49368/

SparkQA · 2021-11-04T10:34:34Z

Kubernetes integration test starting
URL: https://amplab.cs.berkeley.edu/jenkins/job/SparkPullRequestBuilder-K8s/49369/

SparkQA · 2021-11-04T11:20:54Z

Kubernetes integration test status failure
URL: https://amplab.cs.berkeley.edu/jenkins/job/SparkPullRequestBuilder-K8s/49369/

SparkQA · 2021-11-04T11:36:15Z

Test build #144898 has finished for PR 34474 at commit 6c2f71c.

This patch passes all tests.
This patch merges cleanly.
This patch adds no public classes.

cloud-fan · 2021-11-04T15:39:08Z

sql/core/src/test/scala/org/apache/spark/sql/DatasetSuite.scala

+    val namedObservation = Observation("named")
+
+    val df = spark.range(100)
+    val observed_df = df.observe(


can we test a DataFrame with no data?

SparkQA · 2021-11-04T16:27:59Z

Kubernetes integration test starting
URL: https://amplab.cs.berkeley.edu/jenkins/job/SparkPullRequestBuilder-K8s/49373/

SparkQA · 2021-11-04T17:10:58Z

Kubernetes integration test status failure
URL: https://amplab.cs.berkeley.edu/jenkins/job/SparkPullRequestBuilder-K8s/49373/

SparkQA · 2021-11-04T18:00:39Z

Test build #144899 has finished for PR 34474 at commit 84f9657.

This patch fails from timeout after a configured wait of 500m.
This patch merges cleanly.
This patch adds no public classes.

SparkQA · 2021-11-04T18:16:06Z

Test build #144903 has finished for PR 34474 at commit 5e7afac.

This patch passes all tests.
This patch merges cleanly.
This patch adds no public classes.

SparkQA · 2021-11-05T03:25:46Z

Kubernetes integration test starting
URL: https://amplab.cs.berkeley.edu/jenkins/job/SparkPullRequestBuilder-K8s/49384/

SparkQA · 2021-11-05T04:07:46Z

Kubernetes integration test status failure
URL: https://amplab.cs.berkeley.edu/jenkins/job/SparkPullRequestBuilder-K8s/49384/

SparkQA · 2021-11-05T05:34:27Z

Test build #144913 has finished for PR 34474 at commit acddbf3.

This patch passes all tests.
This patch merges cleanly.
This patch adds no public classes.

cloud-fan · 2021-11-05T06:06:47Z

@beliefer can you update the PR description? Yes. PercentileDigest extends Serializable. this is wrong now.

beliefer · 2021-11-05T06:43:25Z

@beliefer can you update the PR description? Yes. PercentileDigest extends Serializable. this is wrong now.

OK

cloud-fan · 2021-11-05T06:56:31Z

Yes. This PR let AggregatingAccumulator uses serialize and deserialize of TypedImperativeAggregate.

Is it a user-facing change?

beliefer · 2021-11-05T07:43:16Z

Yes. This PR let AggregatingAccumulator uses serialize and deserialize of TypedImperativeAggregate.

Is it a user-facing change?

No

beliefer · 2021-11-05T08:27:48Z

@cloud-fan Thanks for your hard work！@srowen @MaxGekk @hvanhovell ， thank you for review.

…edImperativeAggregate Currently, ``` val namedObservation = Observation("named") val df = spark.range(100) val observed_df = df.observe( namedObservation, percentile_approx($"id", lit(0.5), lit(100)).as("percentile_approx_val")) observed_df.collect() namedObservation.get ``` throws exception as follows: ``` 15:16:27.994 ERROR org.apache.spark.util.Utils: Exception encountered java.io.NotSerializableException: org.apache.spark.sql.catalyst.expressions.aggregate.ApproximatePercentile$PercentileDigest at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1184) at java.io.ObjectOutputStream.defaultWriteFields(ObjectOutputStream.java:1548) at java.io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1509) at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1432) at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1178) at java.io.ObjectOutputStream.writeArray(ObjectOutputStream.java:1378) at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1174) at java.io.ObjectOutputStream.defaultWriteFields(ObjectOutputStream.java:1548) at java.io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1509) at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1432) at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1178) at java.io.ObjectOutputStream.defaultWriteFields(ObjectOutputStream.java:1548) at java.io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1509) at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1432) at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1178) at java.io.ObjectOutputStream.writeObject(ObjectOutputStream.java:348) at org.apache.spark.scheduler.DirectTaskResult.$anonfun$writeExternal$2(TaskResult.scala:55) at org.apache.spark.scheduler.DirectTaskResult.$anonfun$writeExternal$2$adapted(TaskResult.scala:55) at scala.collection.Iterator.foreach(Iterator.scala:943) at scala.collection.Iterator.foreach$(Iterator.scala:943) at scala.collection.AbstractIterator.foreach(Iterator.scala:1431) at scala.collection.IterableLike.foreach(IterableLike.scala:74) at scala.collection.IterableLike.foreach$(IterableLike.scala:73) at scala.collection.AbstractIterable.foreach(Iterable.scala:56) at org.apache.spark.scheduler.DirectTaskResult.$anonfun$writeExternal$1(TaskResult.scala:55) at scala.runtime.java8.JFunction0$mcV$sp.apply(JFunction0$mcV$sp.java:23) at org.apache.spark.util.Utils$.tryOrIOException(Utils.scala:1434) at org.apache.spark.scheduler.DirectTaskResult.writeExternal(TaskResult.scala:51) at java.io.ObjectOutputStream.writeExternalData(ObjectOutputStream.java:1459) at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1430) at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1178) at java.io.ObjectOutputStream.writeObject(ObjectOutputStream.java:348) at org.apache.spark.serializer.JavaSerializationStream.writeObject(JavaSerializer.scala:44) at org.apache.spark.serializer.JavaSerializerInstance.serialize(JavaSerializer.scala:101) at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:616) at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149) at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624) at java.lang.Thread.run(Thread.java:748) ``` This PR will fix the issue. After the change, `assert(namedObservation.get === Map("percentile_approx_val" -> 49))` `java.io.NotSerializableException` will not happen. Fix `NotSerializableException` when observe with `TypedImperativeAggregate`. No. This PR change the implement of `AggregatingAccumulator` who uses serialize and deserialize of `TypedImperativeAggregate` now. New tests. Closes #34474 from beliefer/SPARK-37203. Authored-by: Jiaan Geng <[email protected]> Signed-off-by: Wenchen Fan <[email protected]> (cherry picked from commit 3f3201a) Signed-off-by: Wenchen Fan <[email protected]>

cloud-fan · 2021-11-05T08:29:51Z

thanks, merging to master/3.2/3.1!

…edImperativeAggregate Currently, ``` val namedObservation = Observation("named") val df = spark.range(100) val observed_df = df.observe( namedObservation, percentile_approx($"id", lit(0.5), lit(100)).as("percentile_approx_val")) observed_df.collect() namedObservation.get ``` throws exception as follows: ``` 15:16:27.994 ERROR org.apache.spark.util.Utils: Exception encountered java.io.NotSerializableException: org.apache.spark.sql.catalyst.expressions.aggregate.ApproximatePercentile$PercentileDigest at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1184) at java.io.ObjectOutputStream.defaultWriteFields(ObjectOutputStream.java:1548) at java.io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1509) at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1432) at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1178) at java.io.ObjectOutputStream.writeArray(ObjectOutputStream.java:1378) at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1174) at java.io.ObjectOutputStream.defaultWriteFields(ObjectOutputStream.java:1548) at java.io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1509) at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1432) at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1178) at java.io.ObjectOutputStream.defaultWriteFields(ObjectOutputStream.java:1548) at java.io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1509) at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1432) at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1178) at java.io.ObjectOutputStream.writeObject(ObjectOutputStream.java:348) at org.apache.spark.scheduler.DirectTaskResult.$anonfun$writeExternal$2(TaskResult.scala:55) at org.apache.spark.scheduler.DirectTaskResult.$anonfun$writeExternal$2$adapted(TaskResult.scala:55) at scala.collection.Iterator.foreach(Iterator.scala:943) at scala.collection.Iterator.foreach$(Iterator.scala:943) at scala.collection.AbstractIterator.foreach(Iterator.scala:1431) at scala.collection.IterableLike.foreach(IterableLike.scala:74) at scala.collection.IterableLike.foreach$(IterableLike.scala:73) at scala.collection.AbstractIterable.foreach(Iterable.scala:56) at org.apache.spark.scheduler.DirectTaskResult.$anonfun$writeExternal$1(TaskResult.scala:55) at scala.runtime.java8.JFunction0$mcV$sp.apply(JFunction0$mcV$sp.java:23) at org.apache.spark.util.Utils$.tryOrIOException(Utils.scala:1434) at org.apache.spark.scheduler.DirectTaskResult.writeExternal(TaskResult.scala:51) at java.io.ObjectOutputStream.writeExternalData(ObjectOutputStream.java:1459) at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1430) at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1178) at java.io.ObjectOutputStream.writeObject(ObjectOutputStream.java:348) at org.apache.spark.serializer.JavaSerializationStream.writeObject(JavaSerializer.scala:44) at org.apache.spark.serializer.JavaSerializerInstance.serialize(JavaSerializer.scala:101) at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:616) at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149) at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624) at java.lang.Thread.run(Thread.java:748) ``` This PR will fix the issue. After the change, `assert(namedObservation.get === Map("percentile_approx_val" -> 49))` `java.io.NotSerializableException` will not happen. Fix `NotSerializableException` when observe with `TypedImperativeAggregate`. No. This PR change the implement of `AggregatingAccumulator` who uses serialize and deserialize of `TypedImperativeAggregate` now. New tests. Closes apache#34474 from beliefer/SPARK-37203. Authored-by: Jiaan Geng <[email protected]> Signed-off-by: Wenchen Fan <[email protected]> (cherry picked from commit 3f3201a) Signed-off-by: Wenchen Fan <[email protected]> (cherry picked from commit 11c4745) Signed-off-by: Dongjoon Hyun <[email protected]>

…edImperativeAggregate Currently, ``` val namedObservation = Observation("named") val df = spark.range(100) val observed_df = df.observe( namedObservation, percentile_approx($"id", lit(0.5), lit(100)).as("percentile_approx_val")) observed_df.collect() namedObservation.get ``` throws exception as follows: ``` 15:16:27.994 ERROR org.apache.spark.util.Utils: Exception encountered java.io.NotSerializableException: org.apache.spark.sql.catalyst.expressions.aggregate.ApproximatePercentile$PercentileDigest at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1184) at java.io.ObjectOutputStream.defaultWriteFields(ObjectOutputStream.java:1548) at java.io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1509) at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1432) at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1178) at java.io.ObjectOutputStream.writeArray(ObjectOutputStream.java:1378) at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1174) at java.io.ObjectOutputStream.defaultWriteFields(ObjectOutputStream.java:1548) at java.io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1509) at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1432) at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1178) at java.io.ObjectOutputStream.defaultWriteFields(ObjectOutputStream.java:1548) at java.io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1509) at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1432) at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1178) at java.io.ObjectOutputStream.writeObject(ObjectOutputStream.java:348) at org.apache.spark.scheduler.DirectTaskResult.$anonfun$writeExternal$2(TaskResult.scala:55) at org.apache.spark.scheduler.DirectTaskResult.$anonfun$writeExternal$2$adapted(TaskResult.scala:55) at scala.collection.Iterator.foreach(Iterator.scala:943) at scala.collection.Iterator.foreach$(Iterator.scala:943) at scala.collection.AbstractIterator.foreach(Iterator.scala:1431) at scala.collection.IterableLike.foreach(IterableLike.scala:74) at scala.collection.IterableLike.foreach$(IterableLike.scala:73) at scala.collection.AbstractIterable.foreach(Iterable.scala:56) at org.apache.spark.scheduler.DirectTaskResult.$anonfun$writeExternal$1(TaskResult.scala:55) at scala.runtime.java8.JFunction0$mcV$sp.apply(JFunction0$mcV$sp.java:23) at org.apache.spark.util.Utils$.tryOrIOException(Utils.scala:1434) at org.apache.spark.scheduler.DirectTaskResult.writeExternal(TaskResult.scala:51) at java.io.ObjectOutputStream.writeExternalData(ObjectOutputStream.java:1459) at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1430) at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1178) at java.io.ObjectOutputStream.writeObject(ObjectOutputStream.java:348) at org.apache.spark.serializer.JavaSerializationStream.writeObject(JavaSerializer.scala:44) at org.apache.spark.serializer.JavaSerializerInstance.serialize(JavaSerializer.scala:101) at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:616) at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149) at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624) at java.lang.Thread.run(Thread.java:748) ``` This PR will fix the issue. After the change, `assert(namedObservation.get === Map("percentile_approx_val" -> 49))` `java.io.NotSerializableException` will not happen. Fix `NotSerializableException` when observe with `TypedImperativeAggregate`. No. This PR change the implement of `AggregatingAccumulator` who uses serialize and deserialize of `TypedImperativeAggregate` now. New tests. Closes apache#34474 from beliefer/SPARK-37203. Authored-by: Jiaan Geng <[email protected]> Signed-off-by: Wenchen Fan <[email protected]> (cherry picked from commit 3f3201a) Signed-off-by: Wenchen Fan <[email protected]>

MaxGekk · 2022-09-22T13:07:35Z

sql/core/src/main/scala/org/apache/spark/sql/execution/AggregatingAccumulator.scala

+    var i = 0
+    // AggregatingAccumulator runs on executor, we should serialize all TypedImperativeAggregate.
+    while (i < typedImperatives.length) {
+      typedImperatives(i).serializeAggregateBufferInPlace(buffer)


I have an example in which we get NPE here because buffer is null, see SPARK-40535

I will investigate it.

Fix NotSerializableException when observe with percentile_approx

1eacf82

github-actions bot added the SQL label Nov 3, 2021

Add test

a2f1fbb

github-actions bot added the STRUCTURED STREAMING label Nov 3, 2021

MaxGekk reviewed Nov 3, 2021

View reviewed changes

Improve code

6c2f71c

github-actions bot added the CORE label Nov 4, 2021

cloud-fan reviewed Nov 4, 2021

View reviewed changes

Improve code

84f9657

cloud-fan reviewed Nov 4, 2021

View reviewed changes

beliefer changed the title ~~[SPARK-37203][SQL] Fix NotSerializableException when observe with percentile_approx~~ [SPARK-37203][SQL] Fix NotSerializableException when observe with TypedImperativeAggregate Nov 4, 2021

Update code

5e7afac

cloud-fan reviewed Nov 4, 2021

View reviewed changes

Update code

acddbf3

cloud-fan approved these changes Nov 5, 2021

View reviewed changes

cloud-fan closed this in 3f3201a Nov 5, 2021

MaxGekk reviewed Sep 22, 2022

View reviewed changes

	override def serialize(obj: PercentileDigest): Array[Byte] = {
	ApproximatePercentile.serializer.serialize(obj)
	}

	override def deserialize(bytes: Array[Byte]): PercentileDigest = {
	ApproximatePercentile.serializer.deserialize(bytes)
	}

[SPARK-37203][SQL] Fix NotSerializableException when observe with TypedImperativeAggregate #34474

[SPARK-37203][SQL] Fix NotSerializableException when observe with TypedImperativeAggregate #34474

Uh oh!

Conversation

beliefer commented Nov 3, 2021 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

What changes were proposed in this pull request?

Why are the changes needed?

Does this PR introduce any user-facing change?

How was this patch tested?

Uh oh!

SparkQA commented Nov 3, 2021

Uh oh!

SparkQA commented Nov 3, 2021

Uh oh!

SparkQA commented Nov 3, 2021

Uh oh!

SparkQA commented Nov 3, 2021

Uh oh!

SparkQA commented Nov 3, 2021

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

beliefer Nov 4, 2021 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Choose a reason for hiding this comment

Uh oh!

SparkQA commented Nov 3, 2021

Uh oh!

srowen commented Nov 3, 2021

Uh oh!

Choose a reason for hiding this comment

Uh oh!

SparkQA commented Nov 4, 2021

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

SparkQA commented Nov 4, 2021

Uh oh!

SparkQA commented Nov 4, 2021

Uh oh!

SparkQA commented Nov 4, 2021

Uh oh!

SparkQA commented Nov 4, 2021

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

SparkQA commented Nov 4, 2021

Uh oh!

SparkQA commented Nov 4, 2021

Uh oh!

SparkQA commented Nov 4, 2021

Uh oh!

SparkQA commented Nov 4, 2021

Uh oh!

SparkQA commented Nov 5, 2021

Uh oh!

SparkQA commented Nov 5, 2021

Uh oh!

SparkQA commented Nov 5, 2021

Uh oh!

cloud-fan commented Nov 5, 2021

Uh oh!

beliefer commented Nov 5, 2021

beliefer commented Nov 3, 2021 •

edited

Loading

beliefer Nov 4, 2021 •

edited

Loading