一. 字节 & 字符
字节(Byte)是计量单位,表示数据量多少,是计算机信息技术用于计量存储容量的一种计量单位,通常情况下一字节等于八位。
字符(Character)计算机中使用的字母、数字、字和符号,比如'A'、'B'、'$'、'&'等。
一般在英文状态下一个字母或字符占用一个字节,一个汉字用两个字节表示。

二 . 常见编码方式
编码的意义:计算机中存储的最小单元是一个字节即
8bit
,所能表示的字符范围是
255
个,
而人类要表示的符号太多,无法用一个字节来完全表示,固需要将符号编码,将各种语言翻
译成计算机能懂的语言。
1
)
ASCII
码:总共
128
个,用一个字节的低
7
位表示,0〜
31
控制字符如换回车删除等;32~126
是打印字符,可通过键盘输入并显示出来;
2
)
ISO-8859-1,
用来扩展
ASCII
编码,
256
个字符,涵盖了大多数西欧语言字符。
3
)
GB2312:
双字节编码,总编码范围是
A1-A7,A1-A9
是符号区,包含
682
个字符,
B0-B7
是
汉字区,包含
6763
个汉字;
4
)
GBK
为了扩展
GB2312,
加入了更多的汉字,编码范围是
8140~FEFE
,有
23940
个码位,能
表示
21003
个汉字。
5
)
UTF-16: ISO
试图想创建一个全新的超语言字典,世界上所有语言都可通过这本字典
Unicode
来相互翻译,而
UTF-16
定义了
Unicode
字符在计算机中存取方法,用两个字节来表
示
Unicode
转化格式。不论什么字符都可用两字节表示,即
16bit
,固叫
UTF-16
。
6
)
UTF-8
:
UTF-16
统一采用两字节表示一个字符,但有些字符只用一个字节就可表示,浪
费存储空间,而
UTF-8
采用一种变长技术,每个编码区域有不同的字码长度。 不同类型的 字 符 可 以 由 1~6 个 字 节 组 成。
三、
utf-8
编码中的中文占几个字节;
int
型几个字节?
utf-8
是一种变长编码技术,
utf-8
编码中的中文占用的字节不确定,可能
2
个、
3
个、
4
个,
int
型占
4
个字节