• 编码,解码


    一.标准ASCll字符集

    标准ASCll 字符集使用一个字节存储一个字符,首尾是0

    二.GBK字符集

    GBK中一个中文字符编码成两个字节的形式存储,一个英文字母编码成一个字节的形式存储

    对于 汉字中夹英文的,GBK规定:汉字的第一个字节的第一位必须是1

    三.Unicode字符集

    UTF-32 :4个字节表示一个字符,有点奢侈

    UTF-8:采取可变长编码方案,共分为四个长度区,1个字节,2个字节,3个字节,4个字节

            英文字符,数字等只占1个字节,汉字字符占3个字节

     

    汉字在UTF-8编码中占3个字节,第一个字节必须以1110开头,第二,第三个字节必须以10开头

    这样就可以区分哪个是汉字了。 

    UTF-8编码相对于GBK编码的优势主要包括以下几点:

    1. 全球通用:UTF-8是一种可变长度的编码方式,可以用来表示世界上几乎所有的书写语言。这使得UTF-8成为了一种通用的编码标准,无论在哪个地区或国家使用,都可以保证正确的字符编码。相比之下,GBK编码主要用于简体中文的编码,其适用范围相对较小。
    2. 兼容性好:UTF-8编码兼容ASCII编码,即所有ASCII编码的字符在UTF-8编码中与原样保持一致。这使得在处理英文和已经使用UTF-8编码的文本时,不需要进行额外的编码转换。而GBK编码则不具备这样的兼容性。
    3. 易于维护:UTF-8编码的字符在文本编辑器中可以正常显示,无需进行额外的转码操作。这使得在处理多语言文本时,UTF-8编码更加易于维护和编辑。而GBK编码则需要经常进行编码转换,增加了维护的难度。
    4. 支持多语言:UTF-8编码可以表示多种语言字符,包括中文、英文、日文、韩文等等。这使得UTF-8成为了一种广泛使用的国际编码标准。而GBK编码主要用于简体中文的编码,对于其他语言的支持则较为有限。

    总之,UTF-8编码相对于GBK编码具有更好的全球通用性、兼容性、易维护性和对多语言字符的支持能力,因此在大多数情况下,推荐使用UTF-8编码来处理文本数据。

    字符编码时使用的字符集,和解码时使用的字符集必须一致,否则会出现乱码 

    四.编码,解码

    1. package org.example;
    2. import java.io.UnsupportedEncodingException;
    3. import java.util.Arrays;
    4. public class day04 {
    5. public static void main(String[] args) throws UnsupportedEncodingException {
    6. //编码
    7. String s = "wm在一起";
    8. final byte[] bytes = s.getBytes(); //默认按照平台字符集(UTF-8)编码
    9. System.out.println(Arrays.toString(bytes));
    10. //按照指定字符集编码
    11. final byte[] bytes1 = s.getBytes("GBK");
    12. System.out.println(Arrays.toString(bytes1));
    13. //解码
    14. final String s1 = new String(bytes);//默认按照平台字符集(UTF-8)解码
    15. System.out.println(s1);
    16. final String s2 = new String(bytes1,"GBK");
    17. System.out.println(s2);
    18. }
    19. }

    第一行中使用UTF-8编码,所以汉字占3个字节并且每个字节以1开头,所以是负数

    第二行中使用GBK编码,汉字占2个字节并且每个字节以1开头,所以是负数

  • 相关阅读:
    CentOS 7.6环境下Nginx1.23.3下载安装配置使用教程
    基于PHP+MYSQL宠物领养系统的开发与设计
    微信小程序保存照片到本地
    Android之webView打开http链接页面无法加载显示net:ERR_CLEARTEXT_NOT_PERMITTED
    PHP:类的基本概念
    【Azure Developer】使用 Microsoft Authentication Libraries (MSAL) 如何来获取Token呢 (通过用户名和密码方式获取Access Token)
    计算机网络学习笔记(Ⅲ):数据链路层
    自然语言处理 - 字词嵌入
    net转java学习笔记-sqlserver的问题记录
    Jetson Orin NX 开发指南(6): VINS-Fusion-gpu 的编译和运行
  • 原文地址:https://blog.csdn.net/qq_45663499/article/details/134092999