Add regression test to hadoopFsRelationSuites

JoshRosen · JoshRosen · commit 56b13e58b402 · 2015-05-26T14:42:34.000-07:00
diff --git a/sql/core/src/main/scala/org/apache/spark/sql/execution/ExistingRDD.scala b/sql/core/src/main/scala/org/apache/spark/sql/execution/ExistingRDD.scala
@@ -37,8 +37,6 @@ object RDDConversions {
       val mutableRow = new GenericMutableRow(numColumns)
       val converters = outputTypes.map(CatalystTypeConverters.createToCatalystConverter)
       iterator.map { r =>
-        assert (r.productArity == numColumns,
-          s"Expected row with $numColumns but got ${r.productArity} instead")
         var i = 0
         while (i < numColumns) {
           mutableRow(i) = converters(i)(r.productElement(i))
@@ -59,8 +57,6 @@ object RDDConversions {
       val mutableRow = new GenericMutableRow(numColumns)
       val converters = outputTypes.map(CatalystTypeConverters.createToCatalystConverter)
       iterator.map { r =>
-        assert (r.length == numColumns,
-          s"Expected row with $numColumns but got ${r.length} instead")
         var i = 0
         while (i < numColumns) {
           mutableRow(i) = converters(i)(r(i))
diff --git a/sql/core/src/main/scala/org/apache/spark/sql/sources/DataSourceStrategy.scala b/sql/core/src/main/scala/org/apache/spark/sql/sources/DataSourceStrategy.scala
@@ -309,7 +309,7 @@ private[sql] object DataSourceStrategy extends Strategy with Logging {
       output: Seq[Attribute],
       rdd: RDD[Row]): SparkPlan = {
     val converted = if (relation.needConversion) {
-      execution.RDDConversions.rowToRowRdd(rdd, output.map(_.dataType))
+      execution.RDDConversions.rowToRowRdd(rdd, relation.schema.map(_.dataType))
     } else {
       rdd
     }
diff --git a/sql/hive/src/test/scala/org/apache/spark/sql/sources/hadoopFsRelationSuites.scala b/sql/hive/src/test/scala/org/apache/spark/sql/sources/hadoopFsRelationSuites.scala
@@ -76,6 +76,12 @@ abstract class HadoopFsRelationTest extends QueryTest with SQLTestUtils {
       df.filter('a > 1 && 'p1 < 2).select('b, 'p1),
       for (i <- 2 to 3; _ <- Seq("foo", "bar")) yield Row(s"val_$i", 1))
 
+    // Project many copies of columns with different types (reproduction for SPARK-7858)
+    checkAnswer(
+      df.filter('a > 1 && 'p1 < 2).select('b, 'b, 'b, 'b, 'p1, 'p1, 'p1, 'p1),
+      for (i <- 2 to 3; _ <- Seq("foo", "bar"))
+        yield Row(s"val_$i", s"val_$i", s"val_$i", s"val_$i", 1, 1, 1, 1))
+
     // Self-join
     df.registerTempTable("t")
     withTempTable("t") {

Original file line number	Diff line number	Diff line change
`@@ -309,7 +309,7 @@ private[sql] object DataSourceStrategy extends Strategy with Logging {`
`309`	`309`	`output: Seq[Attribute],`
`310`	`310`	`rdd: RDD[Row]): SparkPlan = {`
`311`	`311`	`val converted = if (relation.needConversion) {`
`312`		`- execution.RDDConversions.rowToRowRdd(rdd, output.map(_.dataType))`
	`312`	`+ execution.RDDConversions.rowToRowRdd(rdd, relation.schema.map(_.dataType))`
`313`	`313`	`} else {`
`314`	`314`	`rdd`
`315`	`315`	`}`