• Hive矢量化


    Hive 计算的时候默认是一次处理一行。在处理下一行之前,这一行数据需要先经过所有计算。这种处理模式的 CPU 使用效率非常低。而且Hive 目前严重依赖比较慢的反序列化方式,数据会通过一层对象检查器,用来标识列类型、反序列化数据并在内部循环中确定适当的(计算)表达式。这些虚拟方法调用会进一步减慢了处理速度。(翻译自https://issues.apache.org/jira/browse/HIVE-4160)

    所以 Hive 添加了矢量化查询、执行的支持,这样在 Hive 中就能一次处理大约一千行的批次(默认),而不是一行。批处理中的每一列都表示为基本数据类型的向量。执行的内部循环的时候能非常快速地扫描这些向量,避免了方法调用、反序列化、不必要的 if-then-else 等,这大大减少了CPU的使用时间。

    支持的数据类型:

    当前支持以下数据类型:

    • tinyint
    • smallint
    • int
    • bigint
    • boolean
    • float
    • double
    • decimal
    • date
    • timestamp
    • string

    表达式:

    在受支持的类型上使用时,可以对以下表达式进行矢量化:

    • 算术: +, -, *, /, %
    • 并且,或者,不是
    • 比较<、>、<=、>=、=、!=、BETWEEN、IN( )
    • 使用 AND、OR、NOT、<、>、<=、>=、=、=、!= 的布尔值表达式(非筛选器)
    • IS [NOT] NULL
    • 所有数学函数(SIN, LOG等)
    • 字符串函数 SUBSTR, CONCAT, TRIM, LTRIM, RTRIM, LOWER, UPPER, LENGTH
    • 类型转换函数
    • Hive 用户定义函数,包括标准和通用 UDF
    • 日期函数(YEAR, MONTH, DAY, HOUR, MINUTE, SECOND, UNIX_TIMESTAMP)
    • IF 条件表达式

    开启方式

    hive开启矢量执行

    set hive.vectorized.execution.enabled=true;

    指定哪些文件可以矢量化处理,支持逗号分割

    set hive.vectorized.input.format.excludes=org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat

    执行计划

    在这里插入图片描述

    注意:

    并不是只有orc支持,parquet在https://issues.apache.org/jira/browse/HIVE-14826也加入矢量支持。

    仅当时间戳值介于 1677-09-20 和 2262-04-11 之间时,时间戳才能正确处理矢量化执行。此限制是由于矢量化时间戳值存储为1970-01-01 00:00:00 UTC 的 Unix Epoch 时间之前/之后的纳秒的长值。

    矢量化筛选器操作按从左到右的顺序计算,因此为了获得最佳性能,请将 UDF 放在 WHERE 子句的 ANDed 表达式列表中的右侧。例如,使用

    column1 = 10 and myUDF(column2) = "x"
    
    • 1

    而不是

    myUDF(column2) = "x" and column1 = 10
    
    • 1
  • 相关阅读:
    图论------如何使用矩阵来存储图的信息(邻接矩阵表示法)。
    【论文解读】QLORA: Efficient Finetuning of Quantized LLMs
    C# I/O流: FileStream
    最漂亮:yWorks yFiles Diagramming SDK 5.4.0.2
    底层技术揭密:java调试工具实现原理与使用技巧
    2024/6/30 英语每日一段
    3D模型怎么贴法线贴图?
    MATLAB计算各种复合干热指数,如SDHI、DHMI等
    案例 | 医学大数据智能平台:专科疾病临床+科研,数字化两手都要抓
    【数据结构】自写简易顺序表ArrayList
  • 原文地址:https://blog.csdn.net/qq_19933029/article/details/127413391