• Java 遍历字符串 和 截取码点


    Java 遍历字符串 和 截取码点

    String 类官方说明介绍

    The class String includes methods for examining individual characters of the sequence,
     for comparing strings, for searching strings, for extracting substrings, 
     and for creating a copy of a string with all characters translated to uppercase or to lowercase. 
     Case mapping is based on the Unicode Standard version specified by the Character class.
    
    A String represents a string in the UTF-16 format in which supplementary characters 
    are represented by surrogate pairs(see the section Unicode Character Representations in the Character class for more information).
     Index values refer to char code units, so a supplementary character uses two positions in a String.
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8

    Java String 是使用 “UTF-16”编码的字符串,每个字符(char)为16位,占据2个字节,

    UTF-16

    Unicode的编码空间从U+0000到U+10FFFF,共有1,112,064个码位(code point)可用来映射字符。Unicode的编码空间可以划分为17个平面(plane),每个平面包含216(65,536)个码位。17个平面的码位可表示为从U+xx0000到U+xxFFFF,其中xx表示十六进制值从0016到1016,共计17个平面。第一个平面称为基本多语言平面(Basic Multilingual Plane, BMP),或称第零平面(Plane 0),其他平面称为辅助平面(Supplementary Planes)。基本多语言平面内,从U+D800到U+DFFF之间的码位区段是永久保留不映射到Unicode字符。UTF-16就利用保留下来的0xD800-0xDFFF区段的码位来对辅助平面的字符的码位进行编码。

    从U+0000至U+D7FF以及从U+E000至U+FFFF的码位

    第一个Unicode平面(码位从U+0000至U+FFFF)包含了最常用的字符。该平面被称为基本多语言平面,缩写为BMP(Basic Multilingual Plane,BMP)。UTF-16与UCS-2编码这个范围内的码位为16比特长的单个码元,数值等价于对应的码位。BMP中的这些码位是仅有的可以在UCS-2中表示的码位。

    从U+10000到U+10FFFF的码位

    辅助平面(Supplementary Planes)中的码位,在UTF-16中被编码为一对16比特长的码元(即32位元,4字节),称作代理对(Surrogate Pair)

    java实现

    1. 基本多语言平面(BMP)(U+0000- U+FFFF) java 使用一个字符 char 来表示,
    2. 辅助平面(Supplementary Planes) (U+10000-U+10FFFF),java称之为 supplementary characters(增补字符),其用一对字符(2个字符)来表示,第一个字符表示高位,第二个字符表示低位

    总结

    所以在java中 每个字符 char 可能代表一个 码位 ,也可能代表增补字符中一个 编码单元 其单独拿出来是毫无意义的,

    由此在java中遍历字符串的正确做法是根据 码位 遍历,而不是根据字符遍历

    方式一
        val str = "你好上海市😄😭😭🐮122"
        val toArray = str.codePoints().toArray()
        toArray.forEach {
            print("${String(Character.toChars(it))},")
            //do something...
        }
        
        
    方式二
    
        val str = "你好上海市😄😭😭🐮122"
        var offset = 0
        while (offset < str.length) {
            val codePointAt = str.codePointAt(offset)
            offset += Character.charCount(codePointAt)
            print("${String(Character.toChars(codePointAt))},")
            //do something...
        }
        
    方式三
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21

    截取字符串时也应该是根据码位截取,而非根据字符截取

    
    /**
     * @param str 要截取的字符串
     * @param count 要截取的码点
     */
    fun codePointSubstr(str:String,count:Int):String{
        val codePointsCount =str.codePointCount(0,str.length)
        if (codePointsCount<=count) return str
        return str.substring(0,str.offsetByCodePoints(0,count))
    }
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10

    参考链接:
    UTF-8 维基百科

  • 相关阅读:
    用Go实现yaml文件节点动态解析
    土巴兔上市再折戟,互联网家装没故事
    Go语言相比较于Python的优势
    24.98万起,新一代AITO问界M7值得买吗?
    React-3 组件知识
    Navigation 组件(二) Fragment 跳转带参数,动画
    Rust结构体和枚举
    Python类的编程题入门题目
    java 环境的搭建原来如此简单,建议收藏【带附件】
    通过 SingleFlight 模式学习 Go 并发编程
  • 原文地址:https://blog.csdn.net/wkk_ly/article/details/133888974