谈谈物理内存与虚拟内存之间的映射(超详细~)

专注于C/C++领域技术、职业发展，公众号/深度Linux

1、用户编制程序时使用的地址称为虚地址或逻辑地址，其对应的存储空间称为虚存空间或逻辑地址空间；而计算机物理内存的访问地址则称为实地址或物理地址，其对应的存储空间称为物理存储空间或主存空间。

2、虚拟存储器的容量限制：主存容量+辅存（硬盘）容量。

3、物理内存：在应用中，真实存在的，插在主板内存槽上的内存条的容量的大小。从本质上来说，物理内存是代码和数据在其中运行的窗口。

4、虚拟内存：使程序认为它拥有连续的可用的内存（一个连续完整的地址空间），而实际上，它通常是被分隔成多个物理内存碎片，还有部分暂时存储在外部磁盘存储器上，在需要时进行数据交换。

若计算机运行程序或操作所需的随机存储器(RAM)不足时，则 Windows 会用虚拟存储器进行补偿，即拿出一部分硬盘空间来充当内存使用，这部分空间即称为虚拟内存，虚拟内存在硬盘上的存在形式就是 PAGEFILE.SYS这个页面文件。它将计算机的RAM和硬盘上的临时空间组合。将数据移入分页文件可释放RAM，以便完成工作。

若计算机的速率由于RAM可用空间匮乏而减缓，则可尝试通过增加虚拟内存来进行补偿。但是，计算机从RAM读取数据的速率要比从硬盘读取数据的速率快，因而扩增RAM容量（可加内存条）是最佳选择。

分页文件：硬盘上一个或者多个隐藏文件pagefile.sys，Windows用于存储未存入内存的部分程序和数据文件。页面文件和物理内存或随机存取内存（RAM）构成了虚拟内存。Windows会根据需要将数据从页面文件移至内存，或将数据从内存移至页面文件以便为新数据释放内存。也叫“交换文件”。

5、虚存的访问过程：

虚存空间的用户程序按照虚地址编程并存放在辅存（硬盘）中。程序运行时，由地址变换机构依据当时分配给该程序的实地址空间把程序的一部分调入实存。每次访存时，首先判断该虚地址所对应的部分是否在实存中。如果是，则进行地址转换并用实地址访问主存；否则，按照某种算法将辅存中的部分程序调度进内存，再按同样的方法访问主存。由此可见，每个程序的虚地址空间可以远大于实地址空间，也可以远小于实地址空间。前一种情况以提高存储容量为目的，后一种情况则以地址变换为目的。后者通常出现在多用户或多任务系统中：实存空间较大，而单个任务并不需要很大的地址空间，较小的虚存空间则可以缩短指令中地址字段的长度。

6、引入虚拟存储技术的好处：

可在较小的可用内存中执行较大的用户程序；

可在内存中容纳更多程序并发执行；

不必影响编程时的程序结构（与覆盖技术比较）；

提供给用户可用的虚拟内存空间通常大于物理内存。

7、虚拟地址：

如果CPU寄存器中的分页标志位被设置，那么执行内存操作的机器指令时，CPU会自动根据页目录和页表中的信息，把虚拟地址转换成物理地址，完成该指令。比如 mov eax,004227b8h ，这是把地址004227b8h处的值赋给寄存器的汇编代码，004227b8这个地址就是虚拟址。CPU在执行这行代码时，发现寄存器中的分页标志位已经被设定，就自动完成虚拟地址到物理地址的转换，使用物理地址取出值，完成指令。对于Intel CPU 来说，分页标志位是寄存器CR0的第31位，为1表示使用分页，为0表示不使用分页。对于初始化之后的 Win2k 我们观察 CR0 ，发现第31位为1。表明Win2k是使用分页的。

使用了分页机制之后，4G的地址空间被分成了固定大小的页，每一页或者被映射到物理内存，或者被映射到硬盘上的交换文件中，或者没有映射任何东西。对于一般程序来说，4G的地址空间，只有一小部分映射了物理内存，大片大片的部分是没有映射任何东西。物理内存也被分页，来映射地址空间。对于32bit的Win2k，页的大小是4K字节。CPU用来把虚拟地址转换成物理地址的信息存放在叫做页目录和页表的结构里。

【文章福利】小编推荐自己的Linux内核技术交流群:【865977150】整理了一些个人觉得比较好的学习书籍、视频资料共享在群文件里面，有需要的可以自行添加哦！！！前100名进群领取，额外赠送一份价值699的内核资料包（含视频教程、电子书、实战项目及代码)

学习直通车：

内核资料直通车：

8、物理内存分页：

一个物理页的大小为4K字节，第0个物理页从物理地址 0x00000000 处开始。由于页的大小为4KB，就是0x1000字节，所以第1页从物理地址0x00001000 处开始。第2页从物理地址 0x00002000 处开始。可以看到由于页的大小是4KB，所以只需要32bit的地址中高20bit来寻址物理页。

页表：一个页表的大小为4K字节(32bit)，放在一个物理页中。由1024个4字节的页表项组成。页表中的每一项的内容（每项4个字节,32bit）高20bit用来放一个物理页的物理地址，低12bit放着一些标志。

页目录：一个页目录大小为4K字节(32bit)，放在一个物理页中。由1024个4字节的页目录项组成。页目录中的每一项的内容（每项4个字节）高20bit用来放一个页表的物理地址，低12bit放着一些标志。

9、对于x86系统（32bit），页目录的物理地址放在CPU的CR3寄存器中。

一个虚拟地址转换成物理地址的计算过程就是：处理器通过CR3找到当前页目录所在物理页，取虚拟地址的高10bit,然后把这10bit左移2bit（因为每个页目录项4个字节长，左移2bit相当于乘4）得到在该页中的地址，取出该地址处PDE（4个字节），就找到了该虚拟地址对应页表所在物理页，取虚拟地址第12位到第21位这10位，然后把这10bit左移2bit（因为每个页表项4个字节长，左移2bit相当于乘4）得到在该页中的地址，取出该地址处的PTE（4个字节），就找到了该虚拟地址对应物理页的地址，最后加上12bit的页内偏移得到了物理地址。

10、32bit的一个指针，可以寻址范围0x00000000-0xFFFFFFFF,4GB大小。也就是说一个32bit的指针可以寻址整个4GB地址空间的每一个字节。一个页表项负责4K的地址空间和物理内存的映射，一个页表1024项，也就是负责1024*4k=4M的地址空间的映射。一个页目录项，对应一个页表。一个页目录有1024项，也就对应着1024个页表，每个页表负责4M地址空间的映射。1024个页表负责1024*4M=4G的地址空间映射。一个进程有一个页目录，所以以页为单位。页目录和页表可以保证4G的地址空间中的每页和物理内存的映射。

11、每个进程都有自己的4G地址空间，从 0x00000000-0xFFFFFFFF 。通过每个进程自己的一套页目录和页表来实现。由于每个进程有自己的页目录和页表，所以每个进程的地址空间映射的物理内存是不一样的。两个进程的同一个虚拟地址处（如果都有物理内存映射）的值一般是不同的，因为他们往往对应不同的物理页。

虚拟内存:

1.每个进程都有各自独立的4G 字节的虚拟地址空间。4G的进程空间分为两部分，0~3G-1 为用户空间，3G~ 4G-1 为内核空间。
2.用户程序中使用的都是虚拟地址空间中的地址，永远无法直接访问实际物理地址。
3.虚拟内存到物理内存的映射由操作系统动态维护。
4.虚拟内存一方面保护了操作系统的安全，另一方面允许应用程序使用比实际物理内存更大的地址空间。
5.用户空间中的代码不能直接访问内核空间中的代码和数据，但是可以通过系统调用进入内核态，间接地与内核交互。
6.对内存的越权访问，或访问未建立映射的虚拟内存（野指针、不在映射表中），将会导致段错误。

7. 用户空间对应进程，进程一切换，用户空间随即变换。
内核空间由操作系统内核使用，不会随进程切换而变化。
内核空间由内核根据独立且唯一的页表init_mm.pgd 进行映射，而用户空间的页表则每个进程一份。
8. 每个进程的内存空间完全独立，因此在不同进程之间交换虚拟地址毫无意义。
9.虚拟内存到物理内存的映射，以页（4096字节）为单位

第一层理解

1.每个进程都有自己独立的4G(32位系统下)内存空间，各个进程的内存空间具有类似的结构

2.一个新进程建立的时候，将会建立起自己的内存空间，此进程的数据，代码等从磁盘拷贝到自己的进程空间，哪些数据在哪里，都由进程控制表中的task_struct记录，task_struct中记录中一条链表，记录中内存空间的分配情况，哪些地址有数据，哪些地址无数据，哪些可读，哪些可写，都可以通过这个链表记录

3.每个进程已经分配的内存空间，都与对应的磁盘空间映射

问题：

计算机明明没有那么多内存（n个进程的话就需要n*4G）内存

建立一个进程，就要把磁盘上的程序文件拷贝到进程对应的内存中去，对于一个程序对应的多个进程这种情况，浪费内存！

第二层理解

1.每个进程的4G内存空间只是虚拟内存空间，每次访问内存空间的某个地址，都需要把地址翻译为实际物理内存地址

2.所有进程共享同一物理内存，每个进程只把自己目前需要的虚拟内存空间映射并存储到物理内存上。

3.进程要知道哪些内存地址上的数据在物理内存上，哪些不在，还有在物理内存上的哪里，需要用页表来记录

4.页表的每一个表项分两部分，第一部分记录此页是否在物理内存上，第二部分记录物理内存页的地址（如果在的话）

5.当进程访问某个虚拟地址，去看页表，如果发现对应的数据不在物理内存中，则缺页异常

6.缺页异常的处理过程，就是把进程需要的数据从磁盘上拷贝到物理内存中，如果内存已经满了，没有空地方了，那就找一个页覆盖，当然如果被覆盖的页曾经被修改过，需要将此页写回磁盘

总结：

优点：

1.既然每个进程的内存空间都是一致而且固定的，所以链接器在链接可执行文件时，可以设定内存地址，而不用去管这些数据最终实际的内存地址，这是有独立内存空间的好处

2.当不同的进程使用同样的代码时，比如库文件中的代码，物理内存中可以只存储一份这样的代码，不同的进程只需要把自己的虚拟内存映射过去就可以了，节省内存

3.在程序需要分配连续的内存空间的时候，只需要在虚拟内存空间分配连续空间，而不需要实际物理内存的连续空间，可以利用碎片。

另外，事实上，在每个进程创建加载时，内核只是为进程“创建”了虚拟内存的布局，具体就是初始化进程控制表中内存相关的链表，实际上并不立即就把虚拟内存对应位置的程序数据和代码（比如.text .data段）拷贝到物理内存中，只是建立好虚拟内存和磁盘文件之间的映射就好（叫做存储器映射），等到运行到对应的程序时，才会通过缺页异常，来拷贝数据。还有进程运行过程中，要动态分配内存，比如malloc时，也只是分配了虚拟内存，即为这块虚拟内存对应的页表项做相应设置，当进程真正访问到此数据时，才引发缺页异常。

补充理解：

虚拟存储器涉及三个概念：虚拟存储空间，磁盘空间，内存空间

以认为虚拟空间都被映射到了磁盘空间中，（事实上也是按需要映射到磁盘空间上，通过mmap），并且由页表记录映射位置，当访问到某个地址的时候，通过页表中的有效位，可以得知此数据是否在内存中，如果不是，则通过缺页异常，将磁盘对应的数据拷贝到内存中，如果没有空闲内存，则选择牺牲页面，替换其他页面。

mmap是用来建立从虚拟空间到磁盘空间的映射的，可以将一个虚拟空间地址映射到一个磁盘文件上，当不设置这个地址时，则由系统自动设置，函数返回对应的内存地址（虚拟地址），当访问这个地址的时候，就需要把磁盘上的内容拷贝到内存了，然后就可以读或者写，最后通过manmap可以将内存上的数据换回到磁盘，也就是解除虚拟空间和内存空间的映射，这也是一种读写磁盘文件的方法，也是一种进程共享数据的方法共享内存

内存：

如果每个程序运行都直接占用内存，那你开一个冰封王座岂不是要占1G的内存？还能不能干别的了。虚拟地址空间的设计简直是神来之笔。

给每个进程分配一个4G(对32位系统来说)的虚拟地址空间。进程直接操作虚拟地址空间，读写数据时，才给它调拨物理存储器。