• [Hive] 常见函数


    字符串函数

    CONCAT(string1, string2, …):将多个字符串连接成一个字符串。

    LENGTH(string):返回字符串的长度。

    LOWER(string):将字符串转换为小写。

    UPPER(string):将字符串转换为大写。

    TRIM(string):去除字符串两端的空格。

    SUBSTR(string, start, length):从字符串中提取子字符串,从指定的起始位置开始,指定长度。

    REPLACE(string, search, replace):替换字符串中的指定子字符串。

    REGEXP_REPLACE(string, pattern, replace):使用正则表达式替换字符串中的匹配项。

    SPLIT(string, delimiter):将字符串按指定分隔符拆分为数组。

    INSTR(string, substring):返回子字符串在字符串中第一次出现的位置。

    LIKE(string, pattern):判断字符串是否与指定模式匹配(支持通配符)。

    RTRIM(string):去除字符串末尾的空格。

    LTRIM(string):去除字符串开头的空格。

    CONCAT_WS(separator, string1, string2, …):将多个字符串使用指定的分隔符连接成一个字符串。

    INITCAP(string):将字符串的首字母大写。


    数值函数

    ABS(x):返回数值的绝对值。

    ROUND(x, d):将数值四舍五入到指定的小数位数。

    CEIL(x):向上取整。

    FLOOR(x):向下取整。


    随机函数

    rand():生成一个 0 到 1 之间的随机浮点数。

    随机取出一张表的10条数据
    select * from t1 order by rand() limit 10

    randn():生成一个符合标准正态分布(均值为 0,标准差为 1)的随机浮点数。
    rand_seed(n):使用给定的种子值 n 来初始化随机数生成器,从而产生可重复的随机数序列。
    rand_integer(n):生成一个 0 到 n-1 之间的随机整数。
    rand_array(n, expr):生成一个包含 n 个元素的数组,每个元素的值由表达式 expr 决定。


    日期和时间函数

    CURRENT_DATE():返回当前日期。

    CURRENT_TIMESTAMP():返回当前时间戳。

    YEAR(date):返回日期中的年份。

    MONTH(date):返回日期中的月份。

    DAY(date):返回日期中的天数。

    DATEDIFF(enddate, startdate):返回两个日期之间的天数差异。

    DATE_ADD(startdate, num_days):将指定数量的天数添加到给定日期中。

    DATE_SUB(startdate, num_days):从给定日期中减去指定数量的天数。

    字符串转时间

    TO_DATE(string, format):将字符串转换为日期类型。format 参数指定字符串的日期格式。

    TO_TIMESTAMP(string):将字符串转换为时间戳类型。

    UNIX_TIMESTAMP(string, format):将字符串转换为 Unix 时间戳。format 参数指定字符串的日期格式。

    FROM_UNIXTIME(unix_time, format):将 Unix 时间戳转换为指定格式的时间字符串。

    日期格式的模式包括以下常用的符号:

    • yyyy:四位数的年份。
    • MM:两位数的月份(01-12)。
    • dd:两位数的日期(01-31)。
    • HH:24 小时制的小时数(00-23)。
    • mm:分钟数(00-59)。
    • ss:秒数(00-59)。

    以下是一些示例

    ‘2023-10-25’ 的格式为 ‘yyyy-MM-dd’。
    ‘10/25/23’ 的格式为 ‘MM/dd/yy’。
    ‘2023-10-25 15:30:45’ 的格式为 ‘yyyy-MM-dd HH:mm:ss’。
    ‘25-Oct-23’ 的格式为 ‘dd-MMM-yy’。


    聚合函数

    SUM(column):计算列的总和。

    AVG(column):计算列的平均值。

    MAX(column):返回列的最大值。

    MIN(column):返回列的最小值。

    COUNT(column):计算非空行的数量。

    进阶聚合函数

    GROUP_CONCAT(expr[, sep]):将分组内的多个值连接成一个字符串,并可以指定分隔符。

    COLLECT_LIST(expr):返回分组内的所有值作为一个数组。

    COLLECT_SET(expr):返回分组内的所有唯一值作为一个集合。

    FIRST(expr):返回分组内的第一个非空值。

    LAST(expr):返回分组内的最后一个非空值。

    PERCENTILE(expr, p):计算分组内的某个百分位数。

    STDDEV(expr):计算分组内值的标准差。

    VARIANCE(expr):计算分组内值的方差。


    数组函数

    SIZE(array):返回数组的大小。

    ARRAY_CONTAINS(array, value):检查数组是否包含指定的值。

    EXPLODE(array):将数组展开为多行。

    array_intersect(arr1, arr2) 函数来判断两个数组是否存在交集。该函数将返回两个数组中共有的元素组成的一个新数组。


    结构体函数

    STRUCT(col1, col2, …):创建一个结构体。

    col_name.field_name:访问结构体中的字段。


    数组函数

    ARRAY(col1, col2, …):创建一个数组。

    SIZE(array):返回数组的大小。

    ELEMENT_AT(array, index):返回数组中指定索引位置的元素。

    EXPLODE(array):将数组展开为多行。

    ARRAY_CONTAINS(array, value):检查数组是否包含指定的值。


    映射函数 map

    MAP(key1, value1, key2, value2, …):创建一个映射。

    MAP_KEYS(map):返回映射中的所有键。

    MAP_VALUES(map):返回映射中的所有值。

    GET_JSON_OBJECT(json_string, path):从 JSON 字符串中提取指定路径的值。
    复杂数据类型转换函数:

    STRUCT_TO_MAP(struct):将结构体转换为映射。

    MAP_TO_STRUCT(map):将映射转换为结构体。



    正则

    Hive 的正则表达式函数使用的是 Java 的正则表达式语法。

    REGEXP_EXTRACT(string, pattern, index):从字符串中使用正则表达式模式提取匹配的子字符串。index 参数用于指定提取的子字符串索引。

    regexp_extract_all(str, regexp[, index]) 函数来返回所有匹配的元素的一个数组

    REGEXP_REPLACE(string, pattern, replacement):使用正则表达式模式替换字符串中的匹配项为指定的替换字符串。

    REGEXP_SPLIT(string, pattern):根据正则表达式模式将字符串拆分为数组。

    RLIKE(string, pattern):检查字符串是否与正则表达式模式匹配,返回布尔值。


    处理JSON

    GET_JSON_OBJECT(json_string, path):从 JSON 字符串中提取指定路径的值。

    JSON_TUPLE(json_string, col1, col2, …):将 JSON 字符串解析为指定的列。

    JSON_ARRAY(json_string, col1, col2, …):将 JSON 数组字符串解析为指定的列。

    JSON_OBJECT(key1, value1, key2, value2, …):创建一个 JSON 对象。

    JSON_SIZE(json_string):返回 JSON 字符串中顶层元素的数量。

    JSON_EXTTRACT(json_string, json_path):从 JSON 字符串中提取满足 JSONPath 表达式的值。

  • 相关阅读:
    爱了爱了,这是什么神仙级Apache Dubbo实战资料,清晰,齐全,已跪
    数据结构——树
    用 19 个基本脉动调查问题追踪趋势
    第一次接触web前端开发
    基于spring boot的医疗管理系统 /基于java的医疗系统
    美团秋招笔试——算法岗
    Zero-Shot Learning by Harnessing Adversarial Samples 理论 & 代码解读
    机器学习-集成学习(模型融合)方法概述
    有趣的 Go HttpClient 超时机制
    视觉人机器视觉线下培训遵循十大原则
  • 原文地址:https://blog.csdn.net/qq_44810930/article/details/134033048