Hive小文件处理

MR任务

set hive.exec.reducers.max=3

set hive.exec.dynamic.partition.mode = true; --使用动态分区时，设置为ture。 set hive.exec.dynamic.partition.mode = nonstrict; --动态分区模式，默认值：strict，表示必须指定一个分区为静态分区；nonstrict模式表示允许所有的分区字段都可以使用动态分区。一般需要设置为nonstrict。 set hive.exec.max.dynamic.partitions.pernode =10; --在每个执行MR的节点上，最多可以创建多少个动态分区，默认值：100。 set hive.exec.max.dynamic.partitions =1000; --在所有执行MR的节点上，最多一共可以创建多少个动态分区，默认值：1000。 set hive.exec.max.created.files = 100000; --整个MR Job中最多可以创建多少个HDFS文件，默认值：100000。 set hive.error.on.empty.partition = false; --当有空分区产生时，是否抛出异常，默认值：false。 Hive文件产生大量小文件的原因：一是文件本身的原因：小文件多，以及文件的大小；二是使用动态分区，可能会导致产生大量分区，从而产生很多小文件，也会导致产生很多Mapper；三是Reduce数量较多，Hive SQL输出文件的数量和Reduce的个数是一样的。小文件带来的影响：文件的数量和大小决定Mapper任务的数量，小文件越多，Mapper任务越多，每一个Mapper都会启动一个JVM来运行，所以这些任务的初始化和执行会花费大量的资源，严重影响性能。在NameNode中每个文件大约占150字节，小文件多，会严重影响NameNode性能。解决小文件问题：如果动态分区数量不可预测，最好不用。如果用，最好使用distributed by分区字段，这样会对字段进行一个hash操作，把相同的分区给同一个Reduce处理；减少Reduce数量；进行以一些参数调整。

Hdfs文件数

指定目录下的文件夹，文件，容量大小
[root@mz-hadoop-01 ~]# hdfs dfs -count  /user/hive/warehouse/paascloud_tcm.db/dwd/dwd_t_record_detailed
         568         7433         6065483664 /user/hive/warehouse/paascloud_tcm.db/dwd/dwd_t_record_detailed
 
[root@mz-hadoop-01 ~]# hdfs dfs -count -h /user/hive/warehouse/paascloud_tcm.db/dwd/dwd_t_record_detailed
         568        7.3 K              5.6 G /user/hive/warehouse/paascloud_tcm.db/dwd/dwd_t_record_detailed
 
1
2
3
4
5
6
7

Hive文件数

SELECT tbl_id,SUM(PARAM_VALUE) AS file_cnts
FROM
(
SELECT * FROM PARTITIONS WHERE tbl_id='97387'
) a
 LEFT JOIN (SELECT * FROM partition_params WHERE PARAM_KEY='numFiles' ) b
ON a.part_id=b.part_id

GROUP BY tbl_id
ORDER BY file_cnts DESC;

TBL_ID  file_cnts  
------  -----------
 97387         2082
1
2
3
4
5
6
7
8
9
10
11
12
13
14

所有文件数

SELECT SUM(PARAM_VALUE) AS file_cnts
FROM
(
SELECT * FROM PARTITIONS
) a
 LEFT JOIN (SELECT * FROM partition_params WHERE PARAM_KEY='numFiles' ) b
ON a.part_id=b.part_id


file_cnts  
-----------
     340323
1
2
3
4
5
6
7
8
9
10
11
12

表文件数topN

SELECT e.*,f.*
FROM 
(

SELECT c.*,d.db_id,d.tbl_name
FROM
(
SELECT tbl_id,SUM(PARAM_VALUE) AS file_cnts
FROM
(
SELECT * FROM PARTITIONS
) a
 LEFT JOIN (
 SELECT * FROM partition_params WHERE PARAM_KEY='numFiles' 
 ) b
ON a.part_id=b.part_id

GROUP BY tbl_id
ORDER BY file_cnts DESC
) c
 LEFT JOIN (
 SELECT * FROM tbls
) d
ON c.tbl_id=d.tbl_id

) e LEFT JOIN
(

SELECT db_id AS db_id2,`desc`,DB_LOCATION_URI,NAME as db_name,OWNER_NAME,OWNER_TYPE FROM dbs
)f ON e.db_id=f.DB_ID2
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

库文件数topN

select 
db_id,db_name,DB_LOCATION_URI,sum(file_cnts) as file_cnts
from (

SELECT e.*,f.*
FROM 
(

SELECT c.*,d.db_id,d.tbl_name
FROM
(
SELECT tbl_id,SUM(PARAM_VALUE) AS file_cnts
FROM
(
SELECT * FROM PARTITIONS
) a
 LEFT JOIN (
 SELECT * FROM partition_params WHERE PARAM_KEY='numFiles' 
 ) b
ON a.part_id=b.part_id

GROUP BY tbl_id
ORDER BY file_cnts DESC
) c
 LEFT JOIN (
 SELECT * FROM tbls
) d
ON c.tbl_id=d.tbl_id

) e LEFT JOIN
(

SELECT db_id AS db_id2,`desc`,DB_LOCATION_URI,NAME as db_name,OWNER_NAME,OWNER_TYPE FROM dbs
)f ON e.db_id=f.DB_ID2


)g group by db_id,db_name,DB_LOCATION_URI order by file_cnts desc

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38

小文件压缩任务

package com.mingzhi.common.universal

import com.mingzhi.common.interf.{IDate, MySaveMode}
import com.mingzhi.common.utils.{HiveUtil, SinkUtil, SparkUtils, TableUtils}
import org.apache.commons.lang3.StringUtils
import org.apache.spark.sql.{DataFrame, SparkSession}
import org.apache.spark.storage.StorageLevel

/**
 * 处理只有一个分区dt的表
 */
object table_compress_process {

  private var hive_dbs: String = "paascloud"
  private var hive_tables: String = "dwd_order_info_abi"
  private var dt: String = "2023-06-30"
  private var dt1: String = "2023-06-30"

  def main(args: Array[String]): Unit = {


    System.setProperty("HADOOP_USER_NAME", "root")

    val builder = SparkUtils.getBuilder

    if (System.getProperties.getProperty("os.name").contains("Windows")) {

      builder.master("local[*]")
    } else {
      hive_dbs = args(0)
      hive_tables = args(1)
      dt = args(2)
      dt1 = args(3)
    }

    val spark: SparkSession = builder.appName("clean_process").getOrCreate()
    HiveUtil.openDynamicPartition(spark)
    spark.sql("set spark.sql.shuffle.partitions=1")

    if ("all".equalsIgnoreCase(hive_dbs)) {

      val builder = new StringBuilder()


      val frame_db = spark.sql("show databases").select("databaseName")

      frame_db.show(false)

      frame_db.collect().foreach(db => {

        builder.append(db.toString().replace("[", "").replace("]", ","))

      })


      println("dbs:" + builder.toString())

      hive_dbs = builder.toString()

    }

    hive_dbs.split(",").foreach(db => {

      if (StringUtils.isNotBlank(db)) {

        if ("all".equalsIgnoreCase(hive_tables)) {

          compress_all_table(spark, db)

        } else {

          hive_tables.split(",").foreach(t => {

            compress_the_table(spark, db, t)
          })

        }
      }
    })
    spark.stop()

  }

  private def compress_the_table(spark: SparkSession, hive_db: String, table: String): Unit = {

    println("compress_the_table======>:" + hive_db + "." + table)

    spark.sql(s"use $hive_db")
    if (TableUtils.tableExists(spark, hive_db, table)) {

      try {

        new IDate {
          override def onDate(dt: String): Unit = {


            /**
             * 建议：对需要checkpoint的RDD，先执行persist(StorageLevel.DISK_ONLY)
             */
            val f1 = spark.sql(
              s"""
                 |
                 |select * from $hive_db.$table where dt='$dt'
                 |""".stripMargin)
              .persist(StorageLevel.MEMORY_ONLY)

            val r_ck: (DataFrame, String) = SparkUtils.persistDataFrame(spark, f1)


            val f2 = r_ck._1

            println("f2 show===>")
            f2.show(false)
            
            val type_ = TableUtils.getCompressType(spark, hive_db, table)

            if ("HiveFileFormat".equalsIgnoreCase(type_)) {

              println("sink HiveFileFormat table:" + table)

              SinkUtil.sink_to_hive_HiveFileFormat(spark, f2, hive_db, table, null)

            } else {

              //spark表
              SinkUtil.sink_to_hive(dt
                , spark
                , f2
                , hive_db
                , table
                , type_
                , MySaveMode.OverWriteByDt
                , 1)

            }

            spark.sql(s"drop table ${r_ck._2} ")
          }
        }.invoke(dt, dt1)

      } catch {
        case e: org.apache.spark.sql.AnalysisException => {
          println("exception1:" + e)
        }
        case e: Exception => println("exception:" + e)
      }

    }
  }

  private def compress_all_table(spark: SparkSession, hive_db: String): Unit = {

    spark.sql(s"use $hive_db")
    val frame_table = spark.sql(s"show tables")

    frame_table.show(100, false)
    frame_table.printSchema()

    frame_table
      .filter(r => {
        !r.getAs[Boolean]("isTemporary")
      })
      .select("tableName").collect().foreach(r => {
      //r:[ads_order_topn]
      val table = r.toString().replace("[", "").replace("]", "")

      println("compress table:" + hive_db + "." + table)

      if (TableUtils.tableExists(spark, hive_db, table)) {

        try {

          new IDate {
            override def onDate(dt: String): Unit = {


              val f1 = spark.sql(
                s"""
                   |
                   |select * from $hive_db.$table where dt='$dt'
                   |""".stripMargin)

              SinkUtil.sink_to_hive(dt, spark, f1, hive_db, table, "orc", MySaveMode.OverWriteByDt, 1)

            }
          }.invoke(dt, dt1)


        } catch {
          case e: org.apache.spark.sql.AnalysisException => {
            println("exception1:" + e)
          }
          case e: Exception => println("exception:" + e)
        }

      }
    })
  }
}

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200

相关阅读:
【根据国防科大学报官网word模板修改的Latex模板】
HTML做一个传统节日端午节带设计报告4500字
 计及电池储能寿命损耗的微电网经济调度（matlab代码）
springboot导入excel（POI）
小白实操搭建Nginx1.2.0+PHP7.0+MySQL5.7+Thinkphp5项目，看这篇就够了
 最新版发布，快扶我起来，Android 13 现已正式发布至 AOSP
深度学习开发环境及编程基础
 Flutter 中 Gap 和 SizedBox 的比较与区别
 vue3 框架学习概念笔记
 PAT乙级1023 组个最小数
原文地址：https://blog.csdn.net/u013727054/article/details/134515394