[SPARK-21269][Core][WIP] Fix FetchFailedException when enable maxReqSizeShuffleToMem and KryoSerializer #18490

wangyum · 2017-06-30T14:25:46Z

What changes were proposed in this pull request?

Spark cluster can reproduce, local can't:

Start a spark context with spark.reducer.maxReqSizeShuffleToMem=1K and spark.serializer=org.apache.spark.serializer.KryoSerializer:

$ spark-shell --conf spark.reducer.maxReqSizeShuffleToMem=1K --conf spark.serializer=org.apache.spark.serializer.KryoSerializer

A shuffle:

scala> sc.parallelize(0 until 3000000, 10).repartition(2001).count()

The error messages:

org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle 0
        at org.apache.spark.MapOutputTracker$$anonfun$convertMapStatuses$2.apply(MapOutputTracker.scala:808)
        at org.apache.spark.MapOutputTracker$$anonfun$convertMapStatuses$2.apply(MapOutputTracker.scala:804)
        at scala.collection.TraversableLike$WithFilter$$anonfun$foreach$1.apply(TraversableLike.scala:733)
        at scala.collection.IndexedSeqOptimized$class.foreach(IndexedSeqOptimized.scala:33)
        at scala.collection.mutable.ArrayOps$ofRef.foreach(ArrayOps.scala:186)
        at scala.collection.TraversableLike$WithFilter.foreach(TraversableLike.scala:732)
        at org.apache.spark.MapOutputTracker$.convertMapStatuses(MapOutputTracker.scala:804)
        at org.apache.spark.MapOutputTrackerWorker.getMapSizesByExecutorId(MapOutputTracker.scala:618)
        at org.apache.spark.shuffle.BlockStoreShuffleReader.read(BlockStoreShuffleReader.scala:49)
        at org.apache.spark.rdd.ShuffledRDD.compute(ShuffledRDD.scala:105)
        at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:323)
        at org.apache.spark.rdd.RDD.iterator(RDD.scala:287)
        at org.apache.spark.rdd.CoalescedRDD$$anonfun$compute$1.apply(CoalescedRDD.scala:100)
        at org.apache.spark.rdd.CoalescedRDD$$anonfun$compute$1.apply(CoalescedRDD.scala:99)
        at scala.collection.Iterator$$anon$12.nextCur(Iterator.scala:434)
        at scala.collection.Iterator$$anon$12.hasNext(Iterator.scala:440)
        at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:408)
        at org.apache.spark.util.Utils$.getIteratorSize(Utils.scala:1802)
        at org.apache.spark.rdd.RDD$$anonfun$count$1.apply(RDD.scala:1159)
        at org.apache.spark.rdd.RDD$$anonfun$count$1.apply(RDD.scala:1159)
        at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:2065)
        at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:2065)
        at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:87)
        at org.apache.spark.scheduler.Task.run(Task.scala:108)
        at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:341)
        at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
        at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
        at java.lang.Thread.run(Thread.java:745)

)
...

This PR fix this issue.

How was this patch tested?

Add later

SparkQA · 2017-06-30T16:34:18Z

Test build #78987 has finished for PR 18490 at commit 1c837b6.

This patch fails Spark unit tests.
This patch merges cleanly.
This patch adds no public classes.

zsxwing · 2017-06-30T17:57:25Z

I don't get it. ~~Could you point out which place serializes MapStatus using Kyro?~~ NVM

zsxwing · 2017-06-30T22:38:19Z

I cannot reproduce this issue. Could you provide a unit test to reproduce this?

Anyway, I suggest using kryo.register(classOf[HighlyCompressedMapStatus], new KryoJavaSerializer()) to force Kryo using Java serialization so that we don't need to worry about if the Kryo default serializer works or not.

Try fix

1c837b6

HyukjinKwon mentioned this pull request Jul 31, 2017

[INFRA] Close stale PRs #18780

Closed

asfgit closed this in 3a45c7f Aug 5, 2017

wangyum deleted the missing-output-location branch September 11, 2017 22:44

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

[SPARK-21269][Core][WIP] Fix FetchFailedException when enable maxReqSizeShuffleToMem and KryoSerializer #18490

[SPARK-21269][Core][WIP] Fix FetchFailedException when enable maxReqSizeShuffleToMem and KryoSerializer #18490

Uh oh!

wangyum commented Jun 30, 2017

Uh oh!

SparkQA commented Jun 30, 2017

Uh oh!

zsxwing commented Jun 30, 2017 •

edited

Loading

Uh oh!

zsxwing commented Jun 30, 2017

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

[SPARK-21269][Core][WIP] Fix FetchFailedException when enable maxReqSizeShuffleToMem and KryoSerializer #18490

[SPARK-21269][Core][WIP] Fix FetchFailedException when enable maxReqSizeShuffleToMem and KryoSerializer #18490

Uh oh!

Conversation

wangyum commented Jun 30, 2017

What changes were proposed in this pull request?

How was this patch tested?

Uh oh!

SparkQA commented Jun 30, 2017

Uh oh!

zsxwing commented Jun 30, 2017 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

zsxwing commented Jun 30, 2017

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

zsxwing commented Jun 30, 2017 •

edited

Loading