[SPARK-36726] Upgrade Parquet to 1.12.1

sunchao · dbtsai · commit a7dc8242ea91 · 2021-09-15T19:17:49.000Z
### What changes were proposed in this pull request? Upgrade Apache Parquet to 1.12.1 ### Why are the changes needed? Parquet 1.12.1 contains the following bug fixes: - PARQUET-2064: Make Range public accessible in RowRanges - PARQUET-2022: ZstdDecompressorStream should close `zstdInputStream` - PARQUET-2052: Integer overflow when writing huge binary using dictionary encoding - PARQUET-1633: Fix integer overflow - PARQUET-2054: fix TCP leaking when calling ParquetFileWriter.appendFile - PARQUET-2072: Do Not Determine Both Min/Max for Binary Stats - PARQUET-2073: Fix estimate remaining row count in ColumnWriteStoreBase - PARQUET-2078: Failed to read parquet file after writing with the same In particular PARQUET-2078 is a blocker for the upcoming Apache Spark 3.2.0 release. ### Does this PR introduce _any_ user-facing change? No ### How was this patch tested? Existing tests + a new test for the issue in SPARK-36696 Closes #33969 from sunchao/upgrade-parquet-12.1. Authored-by: Chao Sun <sunchao@apple.com> Signed-off-by: DB Tsai <d_tsai@apple.com> (cherry picked from commit a927b08) Signed-off-by: DB Tsai <d_tsai@apple.com>
diff --git a/dev/deps/spark-deps-hadoop-2.7-hive-2.3 b/dev/deps/spark-deps-hadoop-2.7-hive-2.3
@@ -201,12 +201,12 @@ orc-shims/1.6.10//orc-shims-1.6.10.jar
 oro/2.0.8//oro-2.0.8.jar
 osgi-resource-locator/1.0.3//osgi-resource-locator-1.0.3.jar
 paranamer/2.8//paranamer-2.8.jar
-parquet-column/1.12.0//parquet-column-1.12.0.jar
-parquet-common/1.12.0//parquet-common-1.12.0.jar
-parquet-encoding/1.12.0//parquet-encoding-1.12.0.jar
-parquet-format-structures/1.12.0//parquet-format-structures-1.12.0.jar
-parquet-hadoop/1.12.0//parquet-hadoop-1.12.0.jar
-parquet-jackson/1.12.0//parquet-jackson-1.12.0.jar
+parquet-column/1.12.1//parquet-column-1.12.1.jar
+parquet-common/1.12.1//parquet-common-1.12.1.jar
+parquet-encoding/1.12.1//parquet-encoding-1.12.1.jar
+parquet-format-structures/1.12.1//parquet-format-structures-1.12.1.jar
+parquet-hadoop/1.12.1//parquet-hadoop-1.12.1.jar
+parquet-jackson/1.12.1//parquet-jackson-1.12.1.jar
 protobuf-java/2.5.0//protobuf-java-2.5.0.jar
 py4j/0.10.9.2//py4j-0.10.9.2.jar
 pyrolite/4.30//pyrolite-4.30.jar
diff --git a/dev/deps/spark-deps-hadoop-3.2-hive-2.3 b/dev/deps/spark-deps-hadoop-3.2-hive-2.3
@@ -172,12 +172,12 @@ orc-shims/1.6.10//orc-shims-1.6.10.jar
 oro/2.0.8//oro-2.0.8.jar
 osgi-resource-locator/1.0.3//osgi-resource-locator-1.0.3.jar
 paranamer/2.8//paranamer-2.8.jar
-parquet-column/1.12.0//parquet-column-1.12.0.jar
-parquet-common/1.12.0//parquet-common-1.12.0.jar
-parquet-encoding/1.12.0//parquet-encoding-1.12.0.jar
-parquet-format-structures/1.12.0//parquet-format-structures-1.12.0.jar
-parquet-hadoop/1.12.0//parquet-hadoop-1.12.0.jar
-parquet-jackson/1.12.0//parquet-jackson-1.12.0.jar
+parquet-column/1.12.1//parquet-column-1.12.1.jar
+parquet-common/1.12.1//parquet-common-1.12.1.jar
+parquet-encoding/1.12.1//parquet-encoding-1.12.1.jar
+parquet-format-structures/1.12.1//parquet-format-structures-1.12.1.jar
+parquet-hadoop/1.12.1//parquet-hadoop-1.12.1.jar
+parquet-jackson/1.12.1//parquet-jackson-1.12.1.jar
 protobuf-java/2.5.0//protobuf-java-2.5.0.jar
 py4j/0.10.9.2//py4j-0.10.9.2.jar
 pyrolite/4.30//pyrolite-4.30.jar
diff --git a/pom.xml b/pom.xml
@@ -136,7 +136,7 @@
     <kafka.version>2.8.0</kafka.version>
     <!-- After 10.15.1.3, the minimum required version is JDK9 -->
     <derby.version>10.14.2.0</derby.version>
-    <parquet.version>1.12.0</parquet.version>
+    <parquet.version>1.12.1</parquet.version>
     <orc.version>1.6.10</orc.version>
     <jetty.version>9.4.43.v20210629</jetty.version>
     <jakartaservlet.version>4.0.3</jakartaservlet.version>
diff --git a/sql/core/src/test/resources/test-data/malformed-file-offset.parquet b/sql/core/src/test/resources/test-data/malformed-file-offset.parquet
diff --git a/sql/core/src/test/scala/org/apache/spark/sql/execution/datasources/parquet/ParquetIOSuite.scala b/sql/core/src/test/scala/org/apache/spark/sql/execution/datasources/parquet/ParquetIOSuite.scala
@@ -855,6 +855,12 @@ class ParquetIOSuite extends QueryTest with ParquetTest with SharedSparkSession
     }
   }
 
+  test("SPARK-36726: test incorrect Parquet row group file offset") {
+    readParquetFile(testFile("test-data/malformed-file-offset.parquet")) { df =>
+      assert(df.count() == 3650)
+    }
+  }
+
   test("VectorizedParquetRecordReader - direct path read") {
     val data = (0 to 10).map(i => (i, (i + 'a').toChar.toString))
     withTempPath { dir =>

Original file line number	Diff line number	Diff line change
`@@ -855,6 +855,12 @@ class ParquetIOSuite extends QueryTest with ParquetTest with SharedSparkSession`
`855`	`855`	`}`
`856`	`856`	`}`
`857`	`857`
	`858`	`+ test("SPARK-36726: test incorrect Parquet row group file offset") {`
	`859`	`+ readParquetFile(testFile("test-data/malformed-file-offset.parquet")) { df =>`
	`860`	`+ assert(df.count() == 3650)`
	`861`	`+ }`
	`862`	`+ }`
	`863`	`+`
`858`	`864`	`test("VectorizedParquetRecordReader - direct path read") {`
`859`	`865`	`val data = (0 to 10).map(i => (i, (i + 'a').toChar.toString))`
`860`	`866`	`withTempPath { dir =>`