【Linux】进程虚拟地址空间

【Linux】进程虚拟地址空间
🌈欢迎来到Linux专栏~~进程虚拟地址空间
- (꒪ꇴ꒪(꒪ꇴ꒪ )🐣,我是Scort🎓
- 🌍博客主页：张小姐的猫~江湖背景
- 快上车🚘，握好方向盘跟我有一起打天下嘞！
- 送给自己的一句鸡汤🤔：
- 🔥集中起来的意志可以击穿顽石
- 作者水平很有限，如果发现错误，可在评论区指正，感谢🙏
- 🎉🎉欢迎持续关注！
Linux 进程虚拟地址空间（Linux大山）
一. 回顾

我们在学C/C++的时候，老师给大家画过这样的空间布局图

那么这是内存吗？事实上它压根不是内存，我知道你很急，但你先别急🤞

🔥小实验

我们先来看一段代码 ——

惊奇的发现：同一个地址，居然打出了不同的变量

怎么可能同一个地址，同时读取的时候，出现了不同的值？
这里的地址，绝对不是物理地址❗❗ 而是虚拟地址

注：
- 几乎所以的语言，如果他有“地址”的概念，这个地址一定不是物理地址，而是虚拟地址
🔥验证地址空间排布

上代码——
```
#include
#include // malloc

int g_unval;    // 未初始化数据区
int g_val = 10; // 已初始化数据区

int main(int argc, char* argv[], char* env[])
{
    printf("code addr        : %p\n", main); // 代码区

    printf("\n");
    const char *p = "hello";
    printf("read only        : %p\n", p);    // 字符常量区（只读）

    printf("\n");
    printf("global val       : %p\n", &g_val);   // 已初始化数据区
    printf("global uninit val: %p\n", &g_unval); // 未初始化数据区

    printf("\n");
    char *heap_men = (char*)malloc(10);
    char *heap_men2 = (char*)malloc(10);
    char *heap_men3 = (char*)malloc(10);
    printf("head addr        : %p\n", heap_men);  // 堆区（向上增长）
    printf("head addr        : %p\n", heap_men2);
    printf("head addr        : %p\n", heap_men3);
    
    printf("stack addr       : %p\n", &heap_men);     // 栈区（向下增长）
    printf("stack addr       : %p\n", &heap_men2);   //heap_men本质就是main函数里的指针变量，开辟了空间，所以直接&
    printf("stack addr       : %p\n", &heap_men3);
    int i=0;
    for(i=0 ; i < argc; i++)
    {
       printf("argv[%d]: %p\n", i, argv[i]);
    }
    for(i=0;env[i]; i++)
    {
       printf("env[%d]: %p\n ", i, env[i]);
    } 
    return 0;
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
```
运行结果：

口诀：堆，栈相对而生

🔥语法小问题

1️⃣ 上面的代码，我们malloc了10个字节，可是打印出来的时候

却相隔了20个字节，其实是操作系统多申请了字节，其中多申请的字节放的是堆的属性信息（cookie数据）：申请的时间，堆的大小等等

2️⃣ static修饰变量呢？
```
static int test = 10;
printf("test stack addr: %p\n", &test);
1
2
```
🌈static修饰局部变量，本质是把static变量开辟在了全局区域

3️⃣在32位下，一个进程的地址空间，取值范围是：0x00000000 ~ 0xFFFFFFFF
- 【0，3G】：用户空间
- 【3G,4G】：内核空间
上面的验证代码，在windows下会跑出不一样的结果❗

上面的结论，默认只在Linux下有效！

二. 进程地址空间

 🌈 地址空间是什么（what？）

所以之前所说的“程序地址空间”是不准确的，准确的说是“进程地址空间”，那么什么是进程地址空间呢？
假设有一个富豪，他有 10 亿美元的家产，而这个富豪他有 3 个私生子，但这 3个私生子此之间并不知道对方的存在，这个富豪对他的每个私生子都说过同一句话：儿子，这10亿的家产未来都是你的。
站在每个私生子的视角中，每个私生子都认为自己拥有 10 亿美元。
如果每个私生子都找父亲一次性要 10 个亿，这个富豪是拿不出来的，但实际上这是不可能的，每个私生子找父亲要钱，一般只会几千几万这样一点点去要，这个富豪只要有，就一定会给。如果私生子要的钱太多，富豪不给，私生子也只会认为是父亲不想给我。
换言之，这个富豪给每个私生子在大脑中建立一个「虚拟」的概念：都认为自己拥有 10 亿美元。类比到计算机中：
- 富豪，称之为操作系统
- 私生子，称之为一个个独立的进程
- 富豪给私生子画的 10 亿家产（大饼），称之为进程的地址空间
1️⃣ 我们直接访问物理内存，特别不安全（野指针等）

💦所以让用户不能直接用物理地址

每个进程都要有一个地址空间，操作系统为每一个进程画了一个大饼，它们都认为自己在独占物理内存
系统中存在大量进程，需要管理地址空间，那么就需要先描述，~~再组织~~（今天不考虑）

📌内核中的地址空间，本质也一定是一种数据结构，将来一定要和特定的进程关联起来
```
struct mm_struct
{
    //进程地址空间
}
1
2
3
4
```
那么我们是如何用struct结构体进行划分区域？各个区域又是如何与物理内存建立关联的？

🌈 地址空间是如何设计（how？）

🌊区域划分 & 页表映射

💦地址空间是一种内核数据结构，它里面至少要有：各个区域的划分

其中堆栈增长会有范围的变化：本质其实就是对start 或者end标记值 ±特定的范围即可！！

地址空间和页表（用户级）是每个进程都私有一份

💦那么如何将虚拟地址和物理地址建立映射关系呢？通过页表

只要保证，每一个进程的页表，映射的是物理内存的不同区域，就能做到，进程之间不会互相干扰，保证了进程的独立性！！

页表+MMU进行映射
- MMU是Memory Manage Unit的缩写，即存储管理单元，是中央处理器用来管理虚拟内存和物理内存寄存器的控制线路，也负责虚拟内存映射为物理内存。
🌈 为什么要有地址空间（why？）

1️⃣保护物理内存

添加一层软件层，完成有效的对进程操作内存的风险管理(权限管理)，有效的保护了物理内存，本质是为了保护物理内存各个进程的数据安全
凡是非法的访问或者映射，OS都会识别到，并且终止你这个进程！！

OS是怎么样识别到？（后面多线程讲）、OS是怎么样终止的呢？（后面信号讲）卖个关子

类似于过年的压岁钱妈妈帮你收着，等你要用的时候，再来问我要，防止你乱花钱。对应到这里，意味着凡是想使用地址空间和页表进行映射，一定要在OS的监管之下访问呢，如果没有中间层(OS)，能直接访问物理地址，可能发生非法越界访问。

在语言层面上，我们知道，字符串存在字符常量区不能修改 ——
```
char* str = "hero never die;
*str = 'b'; //不能修改
1
2
```
📌本质上是因为，这里str指针就是虚拟地址，*解引用进行写入时，访问虚拟地址，要进行虚拟地址和物理地址的转化，然而OS只给你读r权限，就访问不了物理内存了，也就修改不了

2️⃣解耦合与延迟分配

🔥内存管理模块 vs 进程管理模块之间关联性减少
通过虚拟地址空间，来屏蔽底层申请内存的过程，达到进程读写内存操作和OS进行内存管理进行软件层面上的分离。

如果我们申请了物理空间，但是如果我不立马使用，是不是空间的浪费呢？
答：是的 ❗ 本质上，（因为有地址空间的存在，所以上层申请空间，其实是在地址空间上申请的，物理内存可以甚至一个字节都不给你，而当你真正进行对物理地址空间访问的时候，才执行内存的相关管理算法，帮你申请内存，构建页表映射关系），然后才让你进行内存访问的
- 以上延迟分配，可以提高整机的效率，几乎内存的有效使用率是100%
上面括号部分是由OS自动完成，用户包括进程都是完全0感知！！
这叫做基于缺页中断进行物理内存申请。

ps：好比你妈妈说明天要给你买玩具，但是今晚却把钱借给了二舅，二舅还的上还好，一旦还不上，也就不够钱了对应内存不足的情况

3️⃣进程独立性

➰由于页表的存在，它可以将地址空间上的虚拟地址和物理地址进行映射，那么是不是在进程视角所以的内存分布都可以是有序的！
- 所以地址空间➕页表的存在，可以将内存分布有序化！
➰进程要访问的物理内存中的数据和代码，可能目前并没有在物理内存中，同样的，也可以让不同的进程映射到不同的物理内存，也就实现了进程独立性的实现！！
- 进程的独立性，可以通过地址空间➕页表的方式实现！
总结：因为有地址空间的存在，每一个进程都认为自己拥有4GB空间（32），并且各个区域是有序的，进而可以通过页表映射到不同的区域，来实现进程的独立性
ps：每个进程不知道且不需要知道其他进程的存在（好比大富翁的每个私生子）

操作系统（大富翁👨）给每个进程（私生子👶）都给的是全部的地址空间（10G），也就是私生子认为自己是独占的，体现出了独立性

三. 再次理解

 ✨写时拷贝

1️⃣ 我们回顾开头的小实验，为什么相同的地址会打印出不同的值？

我们知道子进程是以父进程为模板创建出来的

以至于父子进程的g_val虚拟地址和物理地址都一样

为了维护进程的独立性，子进程在更改时发生写时拷贝，即为子进程重新开辟一段物理空间，把有必要的值拷贝过来，再重新建立虚拟地址到物理地址的映射关系 ✅

这时我们的虚拟地址是不变的，物理内容通过映射被映射到物理内存不同的区域，所以我们看见的值是不一样的
🌌根本原因：
- 虚拟地址一样，所以地址一样；物理地址不一样，所以内容不一样
之前说的，父子进程的代码一般是共享的，也就是通过映射到同一段物理空间实现的。

✨重新理解什么是挂起？

经过上面的学习我们知道进程：是内核数据结构➕代码和数据

加载本质就是创建进程，那么是不是必须非得立马把所有的程序的代码和数据加载到内存中，并且创建内核数据结构建立映射关系？
- NO，在最极端的情况下，甚至只有内核结构被创建出来了————新建状态
🌍理论上，可以实现对程序的分批加载（不然就是前面一行行的加载，后面的休闲瞧着二郎腿❌），既然可以分批加载，也可以分批换出
- 甚至这个进程短时间不会再被执行了（阻塞中）也就占用了物理内存，OS可以把它还出，一旦进程的数据和代码被换出此时这个进程就叫做被挂起
页表映射的时候，可不仅仅映射的是内存，磁盘中的位置也可以映射哦，所以站在页表的角度：数据可能在内存里也可能在磁盘中

所以遇到挂起时候：我们直接把内存空间释放掉，页表直接映射到磁盘，不用内存和磁盘直接数据互换。

阻塞：PCB放在某个队列中等待

 四 . 深入探究（难难难）

🎉零碎知识点

1️⃣当我们的程序，在编译的时候，形成可执行程序的时候，没有被加载到内存中的时候，请问：我们程序的内部，有地址吗？
- 可执行程序编译的时候，内部已经有地址了！
地址空间不仅仅要理解成为是OS内部要遵守的，其实编译器也要遵守！！即编译器编译代码的时候，就已经给我们形成了各个区域（代码区、数据区…）并且采用和Linux内核中一样的编址方式，给每一个变量，每一行代码都进行了编址。所以程序在编译的时候，每一个字段早已经具有了一个虚拟地址！！

上强度——（这个图估计只有我能看懂了）

2️⃣理顺过程：（实现函数跳转）
- 在磁盘中，test.c被编译成mytest，mytest程序内部有地址来标定代码逻辑关系、函数入口等。（其中①号函数调用②号，②号函数调用③号，所以①中是②的虚拟地址）
- 当可执行程序加载到物理内存的时候，变成了进程（加载时把函数以及其虚拟地址一同放入），同时占据了物理空间，因此有对应的物理地址（0xA…
- 既然形成了进程，就有对应的进程控制块task_struct及地址空间
  🚩地址空间和页表，最开始时的数据是哪来的？
1. 每一个变量哥每一个函数，都有地址！！（编译器给的），一同被加载进物理地址
2. 在程序编译好的时候，因为代码有起始区和结束区，将其填充进虚拟地址的代码区，堆区、栈区等也一样，没有数据就设置成初始值，所以将mn_struct填充好
3. 记载时候，无非就是把程序的虚拟地址填充到页表的左侧，加载后的物理内存地址加载到右侧
4. 小知识：此虚拟地址只要本身有内存空间就存在，好比你有房子就会有对应的编号和地址
- 用户可以通过变量名的方式访问，因为变量名的本质也是地址。
  假如CPU通过fun函数找到了代码区的0x1的地址，通过页表，找到了其位置，并将其数据返回到CPU，所以此时CPU读到的指令的地址：虚拟地址！，发现是函数跳转，又继续跳转到0x10，从而又通过0x10继续通过页表继续寻找
理解了上面的流程，算是翻过这座大山了

 📢写在最后
- 能看到这里的都是棒棒哒🙌！
- 想必权限也算是Linux中重要🔥的部分了，如果认真看完以上部分，肯定有所收获。
- 接下来我还会继续写关于📚《进程控制》等…
- 💯如有错误可以尽管指出💯
- 🥇想学吗？我教你啊🥇
- 🎉🎉觉得博主写的还不错的可以`一键三连撒🎉🎉
相关阅读:
Layui + Flask | 表单元素（组件篇）（06）
linux下CentOS安装mysql-5.7
【C语言】——通讯录（静态-动态增长-文件储存）
复习 --- 消息队列
 类和对象（上）
【C++11】shared_ptr智能指针使用详解
 【ACM学习】【STL】多重集合multiset和多重映射multimap
阿里发布AI编码助手：通义灵码，兼容 VS Code、IDEA等主流编程工具
 【API 管理】什么是 API 管理，为什么它很重要？
好用的编辑器Typora分享
原文地址：https://blog.csdn.net/qq_42996461/article/details/126746073

🌈欢迎来到Linux专栏~~进程虚拟地址空间

Linux 进程虚拟地址空间（Linux大山）

一. 回顾

🔥小实验

🔥验证地址空间排布

🔥语法小问题

二. 进程地址空间

🌈 地址空间是什么 （what？）

🌈 地址空间是如何设计（how？）

🌊区域划分 & 页表映射

🌈 为什么要有地址空间（why？）

1️⃣保护物理内存

2️⃣解耦合 与 延迟分配

3️⃣进程独立性

三. 再次理解

✨写时拷贝

✨重新理解什么是挂起？

四 . 深入探究（难难难）

🎉零碎知识点

📢写在最后

🌈 地址空间是什么（what？）

2️⃣解耦合与延迟分配