• HIVE SQL regexp_extract和regexp_replace配合使用正则提取多个符合条件的值


    《平凡的世界》评分不错,《巴黎圣母院》改变成的电影不错,还有<<1984>>也蛮好看。

    如何使用regexp_extract&regexp_replace函数将以上文本中所有书籍名称都提取出来?

    select 	substr(
    				regexp_replace(
    				regexp_extract(
    				regexp_replace(regexp_replace('《平凡的世界》评分不错,《巴黎圣母院》改变成的电影不错,还有<<1984>>也蛮好看。','<<','《'),'>>','》')
    				,'(.*》)',1)
    				,'.*?(《[^》|^《]+》)',',$1')
    			,2) as books
    ;
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8

    代码解析:
    step1:两个regexp_replace()依次将<<规整为,将>>规整为
    step2:regexp_extract正则提取满足pattern='.*》'时的值,此操作的主要目的为剔除最后一个书名号后的文本内容

    select 	
    				regexp_extract(
    				regexp_replace(regexp_replace('《平凡的世界》评分不错,《巴黎圣母院》改变成的电影不错,还有<<1984>>也蛮好看。','<<','《'),'>>','》')
    				,'(.*》)',1)
    		
    ;
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6

    此时提取出来的结果为:

    《平凡的世界》评分不错,《巴黎圣母院》改变成的电影不错,还有《1984》

    step3:regexp_replace将书名号前边的内容替换成

    #此处的$1是指第一个小括号中的匹配结果
    select 	
    				regexp_replace(
    				'《平凡的世界》评分不错,《巴黎圣母院》改变成的电影不错,还有《1984》'
    				,'.*?(《[^》|^《]+》)',',$1')
    ;
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6

    此时提取出来的结果为:

    ,《平凡的世界》,《巴黎圣母院》,《1984》

    此处需要注意的是:
    *1).正则表达式中用了非贪婪匹配.*?,如果使用贪婪匹配.*,最终返回的结果将会是

    ,《1984》

    *2)若省去step2的操作,提取出来的结果不满足条件

    select 	
    				regexp_replace(
    				regexp_replace(regexp_replace('《平凡的世界》评分不错,《巴黎圣母院》改变成的电影不错,还有<<1984>>也蛮好看。','<<','《'),'>>','》')
    				,'.*?(《[^》|^《]+》)',',$1')
    ;
    
    • 1
    • 2
    • 3
    • 4
    • 5

    此时提取出来的结果为:

    ,《平凡的世界》,《巴黎圣母院》,《1984》也蛮好看。

    step4:substr截取除第一个逗号之外的其余内容

    select substr(',《平凡的世界》,《巴黎圣母院》,《1984》',2)
    ;
    
    • 1
    • 2

    最终提取出来的结果为:

    《平凡的世界》,《巴黎圣母院》,《1984》

  • 相关阅读:
    理解字符串常量池(JVM)
    Prometheus监控(三)架构
    一文讲透CabloyJS全栈框架的来龙去脉
    设计模式 | 工厂模式
    C/C++数据结构——列出连通集(深搜和广搜)
    python趣味编程-5分钟实现一个俄罗斯方块游戏(含源码、步骤讲解)
    muduo库的高性能日志库(二)——LogStream文件
    docker 实战系列
    【Docker项目实战】使用Docker安装Blossom 笔记应用
    安装typescript环境并开启VSCode自动监视编译ts文件为js文件
  • 原文地址:https://blog.csdn.net/p1306252/article/details/133384270