本节主要是讲解进程地址空间,区分和物理内存地址空间的差别,并且向读者解释四个疑问:
怎样验证地址空间的排布; 进程地址空间是什么; 进程地址空间和物理内存之间的关系; 为什么要存在地址空间;
而本篇讲解时候,是以32位计算机为例.
我们在学习C/C++时候,应该学习过内存布局,以及了解各种变量的存储位置,例如局部变量存储在栈区,动态申请的内容在堆区,全局变量,常量等在数据常量区,如果用一张图来表示,如下:
(已初始化和未初始化区指全局变量) (图1)
上图是否正确呢?我们可以用以下程序进行验证数据分布:
#include
#include
int g_unval;
int g_val = 100;
int main(int argc,char* argv[],char* env[])
{
printf("代码区地址 : %p\n",main);
const char* p = "hello world!";
printf("字符常量区地址 : %p\n",p);
printf("已初始化全局区地址 : %p\n",&g_val);
printf("未初始化全局区地址 : %p\n",&g_unval);
char* q0 = (char*)malloc(10);
char* q1 = (char*)malloc(10);
char* q2 = (char*)malloc(10);
char* q3 = (char*)malloc(10);
char* q4 = (char*)malloc(10);
printf("堆区地址 : %p\n",q0);
printf("堆区地址 : %p\n",q1);
printf("堆区地址 : %p\n",q2);
printf("堆区地址 : %p\n",q3);
printf("堆区地址 : %p\n",q4);
printf("栈区地址 : %p\n",&q0);
printf("栈区地址 : %p\n",&q1);
printf("栈区地址 : %p\n",&q2);
printf("栈区地址 : %p\n",&q3);
printf("栈区地址 : %p\n",&q4);
printf("第一个命令行地址 : %p\n",argv[0]);
printf("最后一个命令行地址 : %p\n",argv[argc-1]);
printf("环境变量地址 : %p\n",env[0]);
return 0;
}
根据运行结果,能够看出从代码区地址开始,一直到环境变量地址区域,按照地址类型都是逐渐增大的, 并且能发现堆区地址向上生长,栈区地址向下生长,堆区地址向上生长,所以上图是正确的
既然我们知道图1是正确的,那么请问,图一这个空间是我们的所说的物理内存空间吗?
答案是否定的,它只是一个虚拟空间,是由人为逻辑而想象出来的,可以通过下面程序进行验证.
#include
#include
#include
#include
int g_val = 0;
int main()
{
printf("begin <--------> g_val = %d\n",g_val);
pid_t id = fork();
if(id == 0)
{
g_val = 10;
for(int i = 0;i<5;i++)
{
printf("child --->pid:%d--->ppid:%d--->[g_val:%d]-->[&g_val:%p]\n",getpid(),getppid(),g_val,&g_val);
sleep(1);
}
}
else if(id > 0)
{
g_val = 100;
for(int i = 0;i<5;i++)
{
printf("parent--->pid:%d--->ppid: %d--->[g_val:%d]-->[&g_val:%p]\n",getpid(),getppid(),g_val,&g_val);
sleep(1);
}
}
return 0;
}
在前面进程章节我们提过,fork以后父子进程共享代码,数据各自一份,而下面的运行结果显示,数据确实私有,但是g_val的地址父子进程竟然一样,也就是说同一块内存空间,竟然存了两份数据,这明显是不可能的.
所以图一根本不是我们所说的物理内存空间,那它是什么呢? — 进程地址空间,所以这也同时解释了,为何全局变量的生命周期会跟着程序一起结束. 因此这里再澄清一个概念,在我们以前学习的任何语言中,所提到的内存概念其实指的是进程地址空间,说内存是为了让我们进行程序.
内存被人为的划分了很多区域进行编号,称为地址,为了方便进行查找,就像我们的门牌号一样.
CPU是通过什么将地址、数据和控制信息传到内存中的呢?电子计算机能处理、传输的信息都是电信号,电信号当然要用导线传送。在计算机中专门有连接CPU和其他芯片的导线,通常称为总线。总线从物理上来讲,就是一根根导线的集合,根据传送信息的不同,总线从逻辑上又分为3类,地址总线、控制总线和数据总线。
比如CPU想要获取地址编号为3的内存的数据,他们的过程如下:
(1)CPU 通过地址线将地址信息3发出。
(2)CPU 通过控制线发出内存读命令,选中存储器芯片,并通知它,将要从中读取数据。
(3) 存储器将3号单元中的数据8通过数据线送入CPU。
然而一根线只能发送一个高低信号(表示0或1),因此地址线是有很多根的,我们典型的说计算机是多少位系统,就是说的地址线有多少根.
假设地址线有32根,那么就是说CPU可以访问2^32
个空间单位(一单位是1字节),即可以访问2^32个字节 = 4GB.
现在我们再回头过来看一下图一,最上面博主所空出来的那1G,这里面主要是用来驻OS的.
我们知道进程是由PCB控制的,而进程地址空间其实是PCB中的一个结构体(mm_struct
),这个结构体内部定义了存储区地址的起始区域.
例如栈区
unsigned int stack_start;
unsigned int stack_end;
当进程被创建以后,stack_start等就会被存储起始地址值,用于表示栈区地址的起始范围,以及表示在该区域只能存储局部变量等,其他区域同理.由于是32位计算机,这个结构体所记录的总的起始区域大小就是end-start=2^32
.而这个mm_struct
就是进程地址空间,也就是图一,但是图一并不存在现实中,是我们所抽象出来的一个概念,而该结构体所记录的地址还需要一个被称为页表的结构通过某种转换映射到真实的物理内存地址中.他们之间的关系如图
做个类比可能更好理解这个虚拟的进程地址空间,一位资产只有10亿的富翁分别对10个互不相识的人说,我这里有100亿,你们帮我做事情,这钱就是你的了,如果在做事情的过程中,你需要一部分钱就给我说,我给你,等事后完成,需要扣除这一部分. 这时候是不是每个人都认为自己有了100亿美金,即使并没有真的得到?
而这个富翁就是物理内存,10亿就是内存的真实大小,这多个人就是计算机中的进程.而这个100亿就是存在于想象中,是一种抽象,就像进程地址空间,因为进程地址空间本质上只是一个记录区域的结构体.然后其中一个人说,我需要买工具,你给我点钱,于是富翁就给他一点钱,这个过程就像代码中的部分变量,需要存储数据,然后便在这个虚拟的想象内存中要一部分空间,然后页表把这个空间映射到真实的内存中进行存储.
因此,进程地址空间和物理内存之间的联系便是这个页表.
区域划分本质是将线性地址空间划分成一个一个的[start,end]区域
虚拟地址本质便是[start,end]之间的各个地址
可能读者会好奇,为什么要多一个进程空间地址呢?直接存放数据不香吗?
通过前面我们可以知道内存是被划分为很多个小单元(字节)的,如果我们的进程在内存里面,然后各种数据也在内存里面,在进程空间地址中,能看到其地址是非常有序的,而通过页表映射到内存中的实际位置时,是乱序的,也就是说物理内存的存储原则是哪里有空我就存哪里.
如果我们直接存在内存里面,这就会导致一个非常糟糕的问题,寻址麻烦,其次对于指针访问越界应该怎样处理?
因此存在地址空间的第一个原因是
保护物理内存不受到任何进程内的地址的直接访问,出现越界访问,即保护系统进行合法性检测
观察上图,可能会发现页表有两部分,其左边存放的是虚拟地址,右边则是标明其所指向内存空间是否具有读写权限
而操作系统的任务之一是进行内存管理,如果没有进程空间地址,我们想创建一个进程,第一步是获取数据,第二步是获取内存空闲的位置,第三部是给这些数据进行存储,并且还要想办法记住这些地址; 也就是说进程的内存管理将和进程密不可分(强耦合).如果有进程空间地址的话,操作系统只需要给进程一个空间地址和页表,进程就可以通过页表自动向内存申请空间,而这些数据存储的地址用户角度看来还是顺序存储的.当进程结束时,也只需要通过页表进行高速内存自行释放.
因此存在地址空的第二个原因是
将操作系统的内存管理和进程管理进行解耦,管理比较轻松
在计算机中,还有一个外存磁盘,而磁盘中的数据存储形式就是按照代码区,数据区,栈区,堆区等有序的形式存着数据,进程空间地址的区域划分本质和磁盘一样.也就是说
让每个进程都可以和磁盘一样,以同样的方式看待代码和数据,方便查找代码和数据