程序本质
回忆上次内容
- 词法分析 得到 词流(token stream)
- 语法分析 得到 抽象语法树(Abstract Syntax Tree)
- 编译 得到 字节码 (bytecode)
- 字节码我们看不懂
- 所以反编译 得到 指令文件(opcode)
- 指令文件是基于python虚拟机的虚拟cpu的指令集
- 什么是python虚拟机呢?🤔
- 在了解虚拟cpu之前
- 我们先看看真实的cpu
真实的cpu
- 这个东西是个实实在在存在的实体
- 我们所说的python虚拟机能看到么?
- 就是用来运行py文件的
python3
到底是个啥?
which python3
ll /usr/bin/python3
- 是一个符号链接文件
- 只有9字节
- 他指向 python3.8
- python3.8是一个5.3M的文件
- 可以看得见
- 可以直接运行这个phthon3.8吗?
直接运行
/usr/bin/python3.8
- usr 是 unix software resource
- bin 是二进制 binary
- python3.8 是这个文件的名称
- 把这个文件从硬盘装载到内存
- 然后用 cpu 开始逐行执行文件中的0101指令
- 可以把他复制到shiyanlou用户的宿主文件夹下吗?
复制
#把/usr/bin/python3这个py文件的解释器拷贝到~(当前用户文件夹)
#cp的意思是copy
cp /usr/bin/python3 ~
#确认python3已经拷到~(当前用户文件夹)
#ls的意思是list
ls ~/python3.8
#查看python3文件细节
ls -lah ~/python3.8
- python3 指向的 python3.8 只有 5.3M
- 这个可执行文件怎么这么小?
- 5.3M 这也就是一张照片的大小
- 目前这 5.3M 的 Python3 里面到底有什么呢?🤔
研究 python3
#用vi打开这个刚拷贝过来的python3
vi ~/python3.8
cpu
- cpu能看懂
- 这是属于cpu的机器语言
- 这就是cpu的一条条的机器指令(instruction)
- 机器指令码都是二进制形式的
- 我们尝试把python3.8转化为字节表现形式
以字节形式观察python3.8
vi ~/python3.8
:%!xxd
我们可以看到这个文件的二进制形态
-
%
是指的对于所有行的范围 -
!是执行外部命令
-
xxd
指的是转化为 16 进制形式
xxd
- dump的本意是(倾倒垃圾)
- 这里指的是转储
- 把文件转储为16进制形式汇编代码形式
-
:%!xxd
转成字节形态 -
:%!xxd –r
转回文本形态
另存为python3.8hex
- 一行是(16)10 进制 个字节
- G
- 总共有 343148 行
- cpu能执行的东西
- 真真切切看到了的
- 真的存在硬盘上 01010 的二进制可执行指令!!
- 这些指令执行出来就是我们的游乐场!!!
- 或者说是我们的python虚拟机
- :w python3.8hex
- 把当前缓存(buffer)另存(write)为
- python3.8hex
- python3.8hex就是我们要的机器语言的字节形态
- 可是这字节形态我们看不懂啊
汇编语言助记符
#先把~/python3对应的机器语言输出为汇编指令形式(反汇编)
objdump -d python3.8 > python3.8.asm
vi python3.8.asm
- 可以发现当前系统的架构(指令集)是x86-64
- 这些和我们刚才的字节形态有关系吗?
对比
- 用vi分窗口分别打开打开python3 和 python3.asm
vi -o python3.8hex python3.8.asm
- 上图下半部分是机器语言对应的汇编指令助记符
- ctrl+j、ctrl+k可以上下切换
- 我们来试着找找
- python3文件中
- 机器语言的0101和cpu的汇编指令的对应关系🧐
找到了
- endbr64 意味着 64位结束分支
- 下面的sub执行的是减法
-
/48 83
找到上下的对应关系 - 也就是第一条执行的汇编指令减法(sub)
- 汇编指令是计算机 cpu 机器指令的助记符
查找对应关系
-
423000
就是初始化(init)的 cpu 开始执行指令的地址 - 我们在上面查找48 83 有没有对应的字节
- /4883 ec08 488b...
- 在上面的窗格中
- 搜索这些字节形态
- 好像找到了对应关系
- 具体怎么对应的呢?
- 这台计算机用的是什么指令集呢?
- 什么是指令集来着?
指令集
- 指令集也叫计算机的架构
- 不同架构的 cpu 有不同的指令集
- 我们目前的这个浏览器里面的系统用的是
x86-64
- 除此之外
arm
、MIPS
、RISC-V
也是常用的指令集
回到代码
- 入口是
init
- 作用是初始化
initialization
查看指令集
- 首先要明确到当前机器cpu的架构
- 反汇编里面说是x86-64
- 当前机器所用的架构指令集确实是x86_64
- 这是谁的架构呢?
搜索
查询x86_64指令集
- 先要找到x86-64指令集中 48 83 这条指令
- 100B中的B是0或1
- 100B可以是1000
- 也可以是1001
逐步搜索
-
48 83 ec 08
对应sub $0x8,%rsp
- 确实是一条减法指令
- 确实是8位立即数和寄存器的减法运算
各种cpu指令
移植 port
- 就需要移植(port)
- 移植(port)指的是从一种指令集移植到另一种指令集
不移植
- 就是让x86架构的pc
- 去直接执行这些基于mips架构的的0101...
- 就像让一个意大利泥瓦匠看一份中文写成的烹饪书来砌墙
- 鸡同鸭讲
- 驴唇不对马嘴
- 0101的文件执行出来全是乱的
- 完全不能用
- 也涉及到硬件等方面
- 可能某个寄存器在新架构中根本就不存在
架构师
- 我们的python3.8就是这样的一系列的cpu指令
- 可以解释py文件的
python3 执行过程
- 不管是python3这个游乐场
- 还是hello.py这个python程序
- 都在我们的硬盘上
python3 执行的过程大致是这样
- 然后在x86-64的cpu上执行
- 模拟出一台python虚拟机
先编译
- 然后把参数
hello.py
这个需要执行的程序加载到内存
- 词法分析 得到 词流(token stream)
- 语法分析 得到 抽象语法树(Abstract Syntax Tree)
- 编译 得到 字节码 (bytecode)
解释执行
- 需要放到模拟好的python虚拟机中
- 一条条指令进行执行
换句话说
- 给了
python3
一个参数hello.py
- 使用
python3
这个解释器来解释执行hello.py
-
hello.py
中的语句一句句地依次解释执行
- 先编译成python虚拟机的字节码
- 然后用python虚拟机解释直接执行
- 而解释器(python3)是在不同系统不同架构的cpu语言上运行的
- 那不同的系统、cpu架构
- python都能正确地解释么?
架构的层次
跨架构跨平台原理
- 由于python3可以运行在不同的cpu架构和系统上
- 所以同样的py文件被加载之后
- python程序可以对py文件跨架构、跨系统进行解释执行
- 一次编写到处运行
- 二进制对应的汇编指令都不一样
- 怎么能正确解释执行同样的python程序呢?
跨架构跨平台原理
/usr/bin/python3.8
本身是二进制文件
- 是基于当前操作系统当前架构编译出来的可执行二进制文件
- 不同的架构有不同的编译器
- 不同的编译器编译出来的python3.8
- 是不同的二进制指令序列
- 这个环境可以解释读到的
python语句
- 把
python语句
翻译成系统能读懂输入输出 - 翻译成当前架构能够执行的代码
- 然后边解释边执行
- 恭喜您完成了非常烧脑一个实验!
- 我们去总结吧!!!
总结
python3
的程序是一个 5.3M 的可执行文件
-
python3
里面全都是 cpu 指令 - 可以执行的那种
- 我们可以把指令对应的汇编找到
-
objdump -d ~/python3 > python3.asm
- 系统执行
python3
这个可执行文件 - 给了
python3
一个参数hello.py
-
python3
对于hello.py
一句句的解释执行 - 在显示器输出了
hello world
-
python3
执行完毕 - 把控制权交回给 shell