darklinght
diff --git a/‎.github/workflows/consistency-ci.yml‎
Lines changed: 1 addition & 1 deletion b/‎.github/workflows/consistency-ci.yml‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎.github/workflows/flink-cdc-hdfs-test.yml‎
Lines changed: 1 addition & 1 deletion b/‎.github/workflows/flink-cdc-hdfs-test.yml‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎.github/workflows/flink-cdc-test.yml‎
Lines changed: 1 addition & 1 deletion b/‎.github/workflows/flink-cdc-test.yml‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎lakesoul-flink/src/main/java/org/apache/flink/lakesoul/tool/FlinkUtil.java‎
Lines changed: 1 addition & 0 deletions b/‎lakesoul-flink/src/main/java/org/apache/flink/lakesoul/tool/FlinkUtil.java‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎lakesoul-presto/src/main/java/com/facebook/presto/lakesoul/LakeSoulConfig.java‎
Lines changed: 10 additions & 0 deletions b/‎lakesoul-presto/src/main/java/com/facebook/presto/lakesoul/LakeSoulConfig.java‎
Lines changed: 10 additions & 0 deletions
diff --git a/‎lakesoul-presto/src/main/java/com/facebook/presto/lakesoul/LakeSoulPageSource.java‎
Lines changed: 1 addition & 0 deletions b/‎lakesoul-presto/src/main/java/com/facebook/presto/lakesoul/LakeSoulPageSource.java‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎lakesoul-presto/src/main/java/com/facebook/presto/lakesoul/LakeSoulRecordCursor.java‎
Lines changed: 1 addition & 0 deletions b/‎lakesoul-presto/src/main/java/com/facebook/presto/lakesoul/LakeSoulRecordCursor.java‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎lakesoul-spark/pom.xml‎
Lines changed: 52 additions & 1 deletion b/‎lakesoul-spark/pom.xml‎
Lines changed: 52 additions & 1 deletion
@@ -116,7 +116,7 @@ jobs:
       - name: Generate benchmark data and expected query results
         run: |
           mkdir -p lakesoul/test_files/tpch/data
-          git clone https://github.com/databricks/tpch-dbgen.git
+          git clone --branch master --depth 1 https://github.com/databricks/tpch-dbgen.git
           cd tpch-dbgen
           make
           ./dbgen -f -s 0.1
 
@@ -128,7 +128,7 @@ jobs:
       - name: Start compaction task
         run: |
           cd ./script/benchmark/work-dir
-          nohup docker run --cpus 2 -m 5000m --net lakesoul-docker-compose-env_default --rm -t -v $HADOOP_HOME:/opt/hadoop --env HADOOP_HOME=/opt/hadoop -v ${PWD}:/opt/spark/work-dir --env lakesoul_home=/opt/spark/work-dir/lakesoul.properties bitnami/spark:3.3.1 spark-submit --proxy-user flink --driver-memory 2G --executor-memory 2G --conf spark.driver.memoryOverhead=1500m --conf spark.executor.memoryOverhead=1500m --conf spark.hadoop.fs.s3.buffer.dir=/tmp --conf spark.hadoop.fs.s3a.buffer.dir=/tmp  --conf spark.hadoop.fs.s3a.fast.upload.buffer=disk --conf spark.hadoop.fs.s3a.fast.upload=true --conf spark.dmetasoul.lakesoul.native.io.enable=true --conf spark.dmetasoul.lakesoul.compaction.level1.file.number.limit=5 --conf spark.dmetasoul.lakesoul.compaction.level1.file.merge.num.limit=2 --class com.dmetasoul.lakesoul.spark.compaction.NewCompactionTask --master local[4] /opt/spark/work-dir/$SPARK_JAR_NAME --threadpool.size=10 --database="" --file_num_limit=5 --file_size_limit=10KB > compaction.log 2>&1 &
+          nohup docker run --cpus 2 -m 5000m --net lakesoul-docker-compose-env_default --rm -t -v $HADOOP_HOME:/opt/hadoop --env HADOOP_HOME=/opt/hadoop -v ${PWD}:/opt/spark/work-dir --env lakesoul_home=/opt/spark/work-dir/lakesoul.properties bitnami/spark:3.3.1 spark-submit --proxy-user flink --driver-memory 2G --executor-memory 2G --conf spark.driver.memoryOverhead=1500m --conf spark.executor.memoryOverhead=1500m --conf spark.hadoop.fs.s3.buffer.dir=/tmp --conf spark.hadoop.fs.s3a.buffer.dir=/tmp  --conf spark.hadoop.fs.s3a.fast.upload.buffer=disk --conf spark.hadoop.fs.s3a.fast.upload=true --conf spark.dmetasoul.lakesoul.native.io.enable=true --conf spark.dmetasoul.lakesoul.compaction.level.file.number.limit=5 --conf spark.dmetasoul.lakesoul.compaction.level.file.merge.num.limit=2 --class com.dmetasoul.lakesoul.spark.compaction.NewCompactionTask --master local[4] /opt/spark/work-dir/$SPARK_JAR_NAME --threadpool.size=10 --database="" --file_num_limit=5 --file_size_limit=10KB > compaction.log 2>&1 &
       - name: Start flink mysql cdc task-1
         run: |
           docker exec -t -u flink lakesoul-docker-compose-env-jobmanager-1 flink run -d -c org.apache.flink.lakesoul.entry.MysqlCdc /opt/flink/work-dir/$FLINK_JAR_NAME --source_db.host mysql --source_db.port 3306 --source_db.db_name test_cdc --source_db.user root --source_db.password root --source.parallelism 2 --sink.parallelism 4 --use.cdc true --warehouse_path hdfs://172.17.0.1:9000/lakesoul-test-bucket/data/ --flink.checkpoint hdfs://172.17.0.1:9000/lakesoul-test-bucket/chk --flink.savepoint hdfs://172.17.0.1:9000/lakesoul-test-bucket/svp --job.checkpoint_interval 5000 --server_time_zone UTC
 
@@ -117,7 +117,7 @@ jobs:
       - name: Start compaction task
         run: |
           cd ./script/benchmark/work-dir
-          nohup docker run --cpus 2 -m 5000m --net lakesoul-docker-compose-env_default --rm -t -v ${PWD}:/opt/spark/work-dir --env lakesoul_home=/opt/spark/work-dir/lakesoul.properties bitnami/spark:3.3.1 spark-submit --driver-memory 2G --executor-memory 2G --conf spark.driver.memoryOverhead=1500m --conf spark.executor.memoryOverhead=1500m --conf spark.hadoop.fs.s3.buffer.dir=/tmp --conf spark.hadoop.fs.s3a.buffer.dir=/tmp --conf spark.hadoop.fs.s3.impl=org.apache.hadoop.fs.s3a.S3AFileSystem --conf spark.hadoop.fs.s3a.path.style.access=true --conf spark.hadoop.fs.s3a.endpoint=http://minio:9000 --conf spark.hadoop.fs.s3a.access.key=minioadmin1 --conf spark.hadoop.fs.s3a.secret.key=minioadmin1 --conf spark.sql.warehouse.dir=s3://lakesoul-test-bucket/ --conf spark.hadoop.fs.s3a.fast.upload.buffer=disk --conf spark.hadoop.fs.s3a.fast.upload=true --conf spark.dmetasoul.lakesoul.native.io.enable=true --conf spark.dmetasoul.lakesoul.compaction.level1.file.number.limit=5 --conf spark.dmetasoul.lakesoul.compaction.level1.file.merge.num.limit=2 --class com.dmetasoul.lakesoul.spark.compaction.NewCompactionTask --master local[4] /opt/spark/work-dir/$SPARK_JAR_NAME --threadpool.size=10 --database="" --file_num_limit=5 --file_size_limit=10KB > compaction.log 2>&1 &
+          nohup docker run --cpus 2 -m 5000m --net lakesoul-docker-compose-env_default --rm -t -v ${PWD}:/opt/spark/work-dir --env lakesoul_home=/opt/spark/work-dir/lakesoul.properties bitnami/spark:3.3.1 spark-submit --driver-memory 2G --executor-memory 2G --conf spark.driver.memoryOverhead=1500m --conf spark.executor.memoryOverhead=1500m --conf spark.hadoop.fs.s3.buffer.dir=/tmp --conf spark.hadoop.fs.s3a.buffer.dir=/tmp --conf spark.hadoop.fs.s3.impl=org.apache.hadoop.fs.s3a.S3AFileSystem --conf spark.hadoop.fs.s3a.path.style.access=true --conf spark.hadoop.fs.s3a.endpoint=http://minio:9000 --conf spark.hadoop.fs.s3a.access.key=minioadmin1 --conf spark.hadoop.fs.s3a.secret.key=minioadmin1 --conf spark.sql.warehouse.dir=s3://lakesoul-test-bucket/ --conf spark.hadoop.fs.s3a.fast.upload.buffer=disk --conf spark.hadoop.fs.s3a.fast.upload=true --conf spark.dmetasoul.lakesoul.native.io.enable=true --conf spark.dmetasoul.lakesoul.compaction.level.file.number.limit=5 --conf spark.dmetasoul.lakesoul.compaction.level.file.merge.num.limit=2 --class com.dmetasoul.lakesoul.spark.compaction.NewCompactionTask --master local[4] /opt/spark/work-dir/$SPARK_JAR_NAME --threadpool.size=10 --database="" --file_num_limit=5 --file_size_limit=10KB > compaction.log 2>&1 &
       - name: Start flink mysql cdc task-1
         run: |
           docker exec -t lakesoul-docker-compose-env-jobmanager-1 flink run -d -c org.apache.flink.lakesoul.entry.MysqlCdc /opt/flink/work-dir/$FLINK_JAR_NAME --source_db.host mysql --source_db.port 3306 --source_db.db_name test_cdc --source_db.user root --source_db.password root --source.parallelism 2 --sink.parallelism 4 --use.cdc true --warehouse_path s3://lakesoul-test-bucket/data/ --flink.checkpoint s3://lakesoul-test-bucket/chk --flink.savepoint s3://lakesoul-test-bucket/svp --job.checkpoint_interval 5000 --server_time_zone UTC
 
@@ -411,6 +411,7 @@ public static void setIOConfigs(Configuration conf, NativeIOBase io) {
         setFSConf(conf, "fs.s3a.endpoint", "fs.s3a.endpoint", io);
         setFSConf(conf, "fs.s3a.endpoint.region", "fs.s3a.endpoint.region", io);
         setFSConf(conf, "fs.s3a.path.style.access", "fs.s3a.path.style.access", io);
+        setFSConf(conf, "fs.s3a.s3.signing-algorithm", "fs.s3a.s3.signing-algorithm", io);
         // try flink's s3 credential configs
         setFSConf(conf, S3_ACCESS_KEY.key(), "fs.s3a.access.key", io);
         setFSConf(conf, S3_SECRET_KEY.key(), "fs.s3a.secret.key", io);
 
@@ -27,6 +27,7 @@ private LakeSoulConfig(Map<String, String> config){
         this.region = config.get("fs.s3a.endpoint.region");
         this.bucketName = config.get("fs.s3a.bucket");
         this.endpoint = config.get("fs.s3a.endpoint");
+        this.signer = config.get("fs.s3a.s3.signing-algorithm");
         this.defaultFS = config.get("fs.defaultFS");
         this.user = config.get("fs.hdfs.user");
         this.virtualPathStyle = Boolean.parseBoolean(config.getOrDefault("fs.s3a.path.style.access", "false"));
@@ -38,6 +39,7 @@ private LakeSoulConfig(Map<String, String> config){
     private String region;
     private String bucketName;
     private String endpoint;
+    private String signer;
     private String user;
     private String defaultFS;
     private String timeZone;
@@ -84,6 +86,14 @@ public void setEndpoint(String endpoint) {
         this.endpoint = endpoint;
     }
 
+    public String getSigner() {
+        return signer;
+    }
+
+    public void setSigner(String signer) {
+        this.signer = signer;
+    }
+
     public String getUser() {
         return user;
     }
 
@@ -101,6 +101,7 @@ public LakeSoulPageSource(LakeSoulSplit split, ArrowBlockBuilder arrowBlockBuild
                 LakeSoulConfig.getInstance().getRegion(),
                 LakeSoulConfig.getInstance().getBucketName(),
                 LakeSoulConfig.getInstance().getEndpoint(),
+                LakeSoulConfig.getInstance().getSigner(),
                 LakeSoulConfig.getInstance().getDefaultFS(),
                 LakeSoulConfig.getInstance().getUser(),
                 LakeSoulConfig.getInstance().isVirtualPathStyle()
 
@@ -98,6 +98,7 @@ public LakeSoulRecordCursor(LakeSoulRecordSet recordSet) throws IOException {
                 LakeSoulConfig.getInstance().getRegion(),
                 LakeSoulConfig.getInstance().getBucketName(),
                 LakeSoulConfig.getInstance().getEndpoint(),
+                LakeSoulConfig.getInstance().getSigner(),
                 LakeSoulConfig.getInstance().getDefaultFS(),
                 LakeSoulConfig.getInstance().getUser(),
                 LakeSoulConfig.getInstance().isVirtualPathStyle()
 
@@ -140,6 +140,10 @@ SPDX-License-Identifier: Apache-2.0
                     <groupId>com.google.protobuf</groupId>
                     <artifactId>protobuf-java</artifactId>
                 </exclusion>
+                <exclusion>
+                    <groupId>org.apache.hadoop</groupId>
+                    <artifactId>*</artifactId>
+                </exclusion>
             </exclusions>
         </dependency>
         <!-- https://mvnrepository.com/artifact/io.jhdf/jhdf -->
@@ -161,6 +165,10 @@ SPDX-License-Identifier: Apache-2.0
                     <groupId>com.google.protobuf</groupId>
                     <artifactId>protobuf-java</artifactId>
                 </exclusion>
+                <exclusion>
+                    <groupId>org.apache.hadoop</groupId>
+                    <artifactId>*</artifactId>
+                </exclusion>
             </exclusions>
         </dependency>
 
@@ -189,6 +197,16 @@ SPDX-License-Identifier: Apache-2.0
             <artifactId>spark-sql-kafka-0-10_2.12</artifactId>
             <version>${spark.version}</version>
             <scope>${local.scope}</scope>
+            <exclusions>
+                <exclusion>
+                    <groupId>com.google.protobuf</groupId>
+                    <artifactId>protobuf-java</artifactId>
+                </exclusion>
+                <exclusion>
+                    <groupId>org.apache.hadoop</groupId>
+                    <artifactId>*</artifactId>
+                </exclusion>
+            </exclusions>
         </dependency>
         <dependency>
             <groupId>org.apache.kafka</groupId>
@@ -260,6 +278,10 @@ SPDX-License-Identifier: Apache-2.0
                     <groupId>com.fasterxml.jackson.core</groupId>
                     <artifactId>*</artifactId>
                 </exclusion>
+                <exclusion>
+                    <groupId>org.apache.hadoop</groupId>
+                    <artifactId>*</artifactId>
+                </exclusion>
             </exclusions>
         </dependency>
 
@@ -298,13 +320,29 @@ SPDX-License-Identifier: Apache-2.0
             <version>${spark.version}</version>
             <scope>test</scope>
             <classifier>tests</classifier>
+            <exclusions>
+                <exclusion>
+                    <groupId>com.google.protobuf</groupId>
+                    <artifactId>protobuf-java</artifactId>
+                </exclusion>
+                <exclusion>
+                    <groupId>org.apache.hadoop</groupId>
+                    <artifactId>*</artifactId>
+                </exclusion>
+            </exclusions>
         </dependency>
         <dependency>
             <groupId>org.apache.spark</groupId>
             <artifactId>spark-hive_${scala.binary.version}</artifactId>
             <version>${spark.version}</version>
             <scope>test</scope>
             <classifier>tests</classifier>
+            <exclusions>
+                <exclusion>
+                    <groupId>org.apache.hadoop</groupId>
+                    <artifactId>*</artifactId>
+                </exclusion>
+            </exclusions>
         </dependency>
 
         <dependency>
@@ -318,7 +356,19 @@ SPDX-License-Identifier: Apache-2.0
         <dependency>
             <groupId>org.apache.hadoop</groupId>
             <artifactId>hadoop-aws</artifactId>
-            <version>3.3.6</version>
+            <version>3.3.4</version>
+            <scope>provided</scope>
+        </dependency>
+        <dependency>
+            <groupId>org.apache.hadoop</groupId>
+            <artifactId>hadoop-client-api</artifactId>
+            <version>3.3.4</version>
+            <scope>provided</scope>
+        </dependency>
+        <dependency>
+            <groupId>org.apache.hadoop</groupId>
+            <artifactId>hadoop-client-runtime</artifactId>
+            <version>3.3.4</version>
             <scope>provided</scope>
         </dependency>
 
@@ -333,6 +383,7 @@ SPDX-License-Identifier: Apache-2.0
             <groupId>org.apache.spark</groupId>
             <artifactId>spark-mllib_${scala.binary.version}</artifactId>
             <version>${spark.version}</version>
+            <scope>provided</scope>
         </dependency>
 
         <!-- for test only. we don't rely on gluten during package and runtime -->