• utf8&ascii


    ASCII编码

    1. 将0000 0000 ~ 0111 1111编码成英文与一些控制字符,
    2. ASCII 码使用指定的 7 位或 8 位二进制数组合来表示 128 或 256 种可能的字符。标准 ASCII 码也叫基础ASCII码,使用 7 位二进制数来表示所有的大写和小写字母,数字 0 到 9、标点符号, 以及在美式英语中使用的特殊控制字符。
    3. 在标准ASCII中,其最高位用作奇偶校验位。
    4. 所谓奇偶校验,是指在代码传送过程中用来检验是否出现错误的一种方法,一般分奇校验和偶校验两种。奇校验规定:正确的代码一个字节中 1 的个数必须是奇数,若非奇数,则在最高位 添1;偶校验规定:正确的代码一个字节中1的个数必须是偶数,若非偶数,则在最高位添1。
    5. 后128个称为扩展ASCII码,目前许多基于x86的系统都支持使用扩展(或“高”)ASCII。扩展 ASCII 码允许将每个字符的第 8 位用于确定附加的 128 个特殊符号字符、外来语字母和图形符号。

    ASCII码表

    ASCII值控制字符ASCII值控制字符ASCII值控制字符ASCII值控制字符
    0NUT32(space)64@96
    1SOH3365A97a
    2STX3466B98b
    3ETX35#67C99c
    4EOT36$68D100d
    5ENQ37%69E101e
    6ACK38&70F102f
    7BEL39,71G103g
    8BS40(72H104h
    9HT41)73I105i
    10LF42*74J106j
    11VT43+75K107k
    12FF44,76L108l
    13CR45-77M109m
    14SO46.78N110n
    15SI47/79O111o
    16DLE48080P112p
    17DCI49181Q113q
    18DC250282R114r
    19DC351383S115s
    20DC452484T116t
    21NAK53585U117u
    22SYN54686V118v
    23TB55787W119w
    24CAN56888X120x
    25EM57989Y121y
    26SUB58:90Z122z
    27ESC59;91[123{
    28FS60<92/124|
    29GS61=93]125}
    30RS62>94^126~
    31US63?95127DEL

    扩展

    十进制

    十六进制

    字符

    十进制

    十六进制

    字符

    128

    80

    Ç

    192

    C0

    129

    81

    ü

    193

    C1

    130

    82

    é

    194

    C2

    131

    83

    â

    195

    C3

    132

    84

    ä

    196

    C4

    133

    85

    à

    197

    C5

    134

    86

    å

    198

    C6

    135

    87

    ç

    199

    C7

    136

    88

    ê

    200

    C8

    137

    89

    ë

    201

    C9

    138

    8A

    è

    202

    CA

    139

    8B

    ï

    203

    CB

    140

    8C

    î

    204

    CC

    141

    8D

    ì

    205

    CD

    142

    8E

    Ä

    206

    CE

    143

    8F

    Å

    207

    CF

    144

    90

    É

    208

    D0

    145

    91

    æ

    209

    D1

    146

    92

    Æ

    210

    D2

    147

    93

    ô

    211

    D3

    148

    94

    ö

    212

    D4

    Ô

    149

    95

    ò

    213

    D5

    150

    96

    û

    214

    D6

    151

    97

    ù

    215

    D7

    152

    98

    ÿ

    216

    D8

    153

    99

    Ö

    217

    D9

    154

    9A

    Ü

    218

    DA

    155

    9B

    ¢

    219

    DB

    156

    9C

    £

    220

    DC

    157

    9D

    ¥

    221

    DD

    158

    9E

    ?

    222

    DE

    ?

    159

    9F

    ƒ

    223

    DF

    ?

    160

    A0

    á

    224

    E0

    α

    161

    A1

    í

    225

    E1

    ß

    162

    A2

    ó

    226

    E2

    Γ

    163

    A3

    ú

    227

    E3

    π

    164

    A4

    ñ

    228

    E4

    Σ

    165

    A5

    Ñ

    229

    E5

    σ

    166

    A6

    ª

    230

    E6

    µ

    167

    A7

    º

    231

    E7

    τ

    168

    A8

    ¿

    232

    E8

    Φ

    169

    A9

    ?

    233

    E9

    Θ

    170

    AA

    ¬

    234

    EA

    Ω

    171

    AB

    ½

    235

    EB

    δ

    172

    AC

    ¼

    236

    EC

    173

    AD

    ¡

    237

    ED

    φ

    174

    AE

    «

    238

    EE

    ε

    175

    AF

    »

    239

    EF

    176

    B0

    ?

    240

    F0

    177

    B1

    ?

    241

    F1

    ±

    178

    B2

    242

    F2

    179

    B3

    243

    F3

    180

    B4

    244

    F4

    ?

    181

    B5

    245

    F5

    ?

    182

    B6

    246

    F6

    ÷

    183

    B7

    247

    F7

    184

    B8

    248

    F8

    185

    B9

    249

    F9

    ?

    186

    BA

    250

    FA

    ·

    187

    BB

    251

    FB

    188

    BC

    252

    FC

    ?

    189

    BD

    253

    FD

    ²

    190

    BE

    254

    FE

    191

    BF

    255

    FF

    ÿ

    unicode

    1. Unicode 只是一个符号集,它只规定了符号的二进制代码,却没有规定这个二进制代码应该如何存储。

    2. UTF-8 就是在互联网上使用最广的一种 Unicode 的实现方式。

    3. 其他实现方式还包括 UTF-16(字符用两个字节或四个字节表示)和 UTF-32(字符用四个字节表示),不过在互联网上基本不用。

    4. UTF-8 最大的一个特点,就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号,根据不同的符号而变化字节长度。

    UTF-8编码

    由于ASCII编码表示的字符太少了,所以各个国家都有一套自己的编码标准,比如中国的GB2312、GBK编码等。但是如果每个国家都用自己的标准,那么交流起来就很复杂,所以ISO组织就发明了UNICODE编码,UTF-8(每次传输8位)是UNICODE的一种,向下可兼容ASCII编码。

    # 序列0开头表示兼容ASCII编码
    00 - 7F:0xxxxxxx
    
    # 序列110开头表示是两个字节编码的
    80 - 7FF:110xxxxx 10xxxxx
    
    # 序列1110开头表示是三个字节编码的
    800 - FFFF:1110xxxx 10xxxxxx 10xxxxxx
    
    # 序列11110开头表示是四个字节编码的
    10000 - 10FFFF:11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
    
    序列10开头表示是编码字节的组成部分
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13

    实例:utf8转中文

    # 给出字节序列如下
    11100101 10010000 10001000 11101000 10000010
    10100101 11100101 10110111 10100101 11100100
    10111000 10011010 11100101 10100100 10100111
    11100101 10101101 10100110
    
    # 由于开头都是1110组成,所以都是由三个字节编码的
    0101 010000 001000
    1000 000010 100101
    0101 110111 100101
    0100 111000 011010
    0101 100100 100111
    0101 101101 100110
    
    # 16进制
    0101 0100 0000 1000 -> 0x5408 
    1000 0000 1010 0101 -> 0x80a5
    0101 1101 1110 0101 -> 0x5de5
    0100 1110 0001 1010 -> 0x4e1a
    0101 1001 0010 0111 -> 0x5927
    0101 1011 0110 0110 -> 0x5b66
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21

    对应utf8表即可(utf8表过长,不再展示)
    在这里插入图片描述

  • 相关阅读:
    HBase安装,配置,启动,检查
    Go包介绍与初始化:搞清Go程序的执行次序
    无锅一身轻,IT资产账号密码就该这么管理
    第三套卷子
    Vue + element-ui 【前端项目一】Table 表格并实现分页+搜索 3
    Mybatis学习笔记2 增删改查及核心配置文件详解
    大规模语言模型--中文 LLaMA和Alpaca
    Arduino程序设计(十一)8×8 共阳极LED点阵显示(74HC595)
    《认知觉醒》读后感
    Java将Word转换成PDF-aspose
  • 原文地址:https://blog.csdn.net/General_zy/article/details/126753884