字节与字符与常见编码方式

一. 字节 & 字符

字节(Byte)是计量单位，表示数据量多少，是计算机信息技术用于计量存储容量的一种计量单位，通常情况下一字节等于八位。

字符(Character)计算机中使用的字母、数字、字和符号，比如'A'、'B'、'$'、'&'等。

一般在英文状态下一个字母或字符占用一个字节，一个汉字用两个字节表示。

二 . 常见编码方式

编码的意义：计算机中存储的最小单元是一个字节即 8bit ，所能表示的字符范围是 255 个，

而人类要表示的符号太多，无法用一个字节来完全表示，固需要将符号编码，将各种语言翻

译成计算机能懂的语言。

1 ）

ASCII 码：总共 128 个，用一个字节的低 7 位表示，0〜 31 控制字符如换回车删除等；32~126

是打印字符，可通过键盘输入并显示出来；

2 ） ISO-8859-1, 用来扩展 ASCII 编码， 256 个字符，涵盖了大多数西欧语言字符。

3 ） GB2312: 双字节编码，总编码范围是 A1-A7,A1-A9 是符号区，包含 682 个字符， B0-B7 是

汉字区，包含 6763 个汉字；

4 ） GBK 为了扩展 GB2312, 加入了更多的汉字，编码范围是 8140~FEFE ，有 23940 个码位，能

表示 21003 个汉字。

5 ） UTF-16: ISO 试图想创建一个全新的超语言字典，世界上所有语言都可通过这本字典

Unicode 来相互翻译，而 UTF-16 定义了 Unicode 字符在计算机中存取方法，用两个字节来表

示 Unicode 转化格式。不论什么字符都可用两字节表示，即 16bit ，固叫 UTF-16 。

6 ） UTF-8 ： UTF-16 统一采用两字节表示一个字符，但有些字符只用一个字节就可表示，浪

费存储空间，而 UTF-8 采用一种变长技术，每个编码区域有不同的字码长度。不同类型的字符可以由 1~6 个字节组成。

三、 utf-8 编码中的中文占几个字节； int 型几个字节？

utf-8 是一种变长编码技术， utf-8 编码中的中文占用的字节不确定，可能 2 个、 3 个、 4 个，

int 型占 4 个字节

相关阅读:
vue3 PC端项目构建TS，vue3+ant+vite+axios+pinia+sass+typescript
【Linux】进程地址空间
【Kotlin】by lazy关键字的实现原理
深入理解分布式一致算法：原理、应用与挑战
大数据挖掘企业服务平台-基于大数据的工业废水处理解决方案
ndk 编译报错 find_library called with incorrect number of arguments
计算机毕业设计springboot+vue基本微信小程序的外卖点餐平台
Autosar深入-MPU
Vue 在同一个页面里在不同的router-view里展示页面信息
TStor CSP文件存储在大模型训练中的实践

原文地址：https://blog.csdn.net/s_sos0/article/details/126204286