Fix a race condition when reporting ExecutorState in the shutdown hook

zsxwing · zsxwing · commit bedaeade3ae7 · 2015-12-10T16:53:54.000-08:00
diff --git a/core/src/main/scala/org/apache/spark/deploy/LocalSparkCluster.scala b/core/src/main/scala/org/apache/spark/deploy/LocalSparkCluster.scala
@@ -75,6 +75,8 @@ class LocalSparkCluster(
     // Stop the workers before the master so they don't get upset that it disconnected
     workerRpcEnvs.foreach(_.shutdown())
     masterRpcEnvs.foreach(_.shutdown())
+    workerRpcEnvs.foreach(_.awaitTermination())
+    masterRpcEnvs.foreach(_.awaitTermination())
     masterRpcEnvs.clear()
     workerRpcEnvs.clear()
   }
diff --git a/core/src/main/scala/org/apache/spark/deploy/worker/ExecutorRunner.scala b/core/src/main/scala/org/apache/spark/deploy/worker/ExecutorRunner.scala
@@ -71,6 +71,11 @@ private[deploy] class ExecutorRunner(
     workerThread.start()
     // Shutdown hook that kills actors on shutdown.
     shutdownHook = ShutdownHookManager.addShutdownHook { () =>
+      // It's possible that we arrive here before calling `fetchAndRunExecutor`, then `state` will
+      // be `ExecutorState.RUNNING`. In this case, we should set `state` to `FAILED`.
+      if (state == ExecutorState.RUNNING) {
+        state = ExecutorState.FAILED
+      }
       killProcess(Some("Worker shutting down")) }
   }
 

Original file line number	Diff line number	Diff line change
`@@ -75,6 +75,8 @@ class LocalSparkCluster(`
`75`	`75`	`// Stop the workers before the master so they don't get upset that it disconnected`
`76`	`76`	`workerRpcEnvs.foreach(_.shutdown())`
`77`	`77`	`masterRpcEnvs.foreach(_.shutdown())`
	`78`	`+ workerRpcEnvs.foreach(_.awaitTermination())`
	`79`	`+ masterRpcEnvs.foreach(_.awaitTermination())`
`78`	`80`	`masterRpcEnvs.clear()`
`79`	`81`	`workerRpcEnvs.clear()`
`80`	`82`	`}`