深入理解计算机系统
第一部分
第1章:计算机系统漫游
hello.c
1 |
|
本书的目的就是要帮助你了解当你在系统上执行 hello 程序时,系统发生了什么以及为什么会这样。
1.1信息就是位+上下文
生命周期是从源文件开始的。
源文件:由0和1组成的位(又称为比特)序列,8位被组成位一组,称为字节。
大部分计算机系统用ASCII标准来表示文本字符:使用唯一的单字节大小的“整数值”来表示每个字符。
整数值:有其他编码方式用于表示非英语类语言文本。
图 1-1-1 hello.c 的 ASCII 文本表示
hello.c程序是以字节的方式存储在文件中的。每个字节都有一个整数值,对应某些字符。想hello.c这样只有ASCII字符构成的文件称为文本文件,其他所有文件内都称为二进制文件。
hello.c 的表示方法说明了一个基本思想:系统中所有的数据信息都是由一串比特表示的。区别对象的唯一方法是“联系上下文”。比如,在不同上下文中,一个字节序列可能表示不同的含义,我们要了解数字的机器表示方法,因为它们于实际的整数和实数是不同的。它们是对真值的有限近似值。
旁注 编程语言的起源
C 语言是贝尔实验室的 Dennis Ritchie 于 1969 年 ~ 1973 年间创建的。美国国家标准学会(American National Standards Institute,ANSI)在 1989 年颁布了 ANSI C 的标准,C 语言是“古怪的、有缺陷的,但同时也是一个巨大的成功”。
-
C 语言与 Unix 操作系统关系密切。C 从一开始就是作为一种用于 Unix 系统的程序语言开发出来的。大部分 Unix 内核(操作系统的核心部分),以及所有支撑工具和函数库都是用 C 语言编写的。20 世纪 70 年代后期到 80 年代初期,Unix 风行于高等院校,许多人开始接触 C 语言并喜欢上它。因为 Unix 几乎全部是用 C 编写的,它可以很方便地移植到新的机器上,这种特点为 C 和 Unix 赢得了更为广泛的支持。
-
C 语言小而简单。C语言的设计是由一个人而非一个协会掌控的,因此这是一个简洁明了、没有什么冗赘的设计。K&R 这本书用大量的例子和练习描述了完整的 C 语言及其标准库,而全书不过 261 页。C 语言的简单使它相对而言易于学习,也易于移植到不同的计算机上。
-
C语言是为实践目的设计的。C 语言是设计用来实现 Unix 操作系统的。后来,其他人发现能够用这门语言无障碍地编写他们想要的程序。
C 语言是系统级编程的首选,同时它也非常适用于应用级程序的编写。然而,它也并非适用于所有的程序员和所有的情况。C 语言的指针是造成程序员困惑和程序错误的一个常见原因。同时,C 语言还缺乏对非常有用的抽象的显式支持,例如类、对象和异常。像 C++ 和 Java 这样针对应用级程序的新程序语言解决了这些问题。
1.2 程序被其他程序翻译成不同的格式
hello程序的生命周期是由一个高级的C语言程序开始的,其简单易被人读懂。但在系统上运行hello.c程序时,先要把每条C语句被其它程序转化为一系列机器语言指令。并将指令按照可执行目标程序的格式打包好,以二进制磁盘文件的形式存放起来。所以目标程序也称为可执行目标文件
在Unix上通过编译器驱动程序实现源文件->目标文件:
linux> gcc -o hello hello.c
在此处GCC编译驱动程序读取源程序文件hello.c,并把它翻译成一个可执行文件hello的过程可分为四个阶段,如图1-1-2
图 1-1-2 编译系统
执行这四个阶段的程序(预处理器、编译器、汇编器和链接器)一起构成了编译系统(compilation system)
预处理阶段:预处理器(cpp),根据
#
开头的预处理指令来修改原始C程序,例如hello.c 中第 1 行的#include <stdio.h>
命令告诉预处理器读取系统头文件 stdio.h 的内容,并把它直接插入程序文本中。结果就得到了另一个C程序,通常以.i作为文件扩展名。编译阶段:编译器(cll)将文本文件hello.i翻译成文本文件hello.s,它包含一个汇编语言程序。该程序包含函数main的定义,如下:
1
2
3
4
5
6
7main:
subq $8, %rsp
movl $.LC0, %edi
call puts
movl $0, %eax
addq $8, %rsp
ret其中2~7行的每条语句都以文本格式描述了一条低级极其语言指令。汇编语言为不同的高级语言的不同编译器提供了通用的输出语言。如C编译器和Fortran编译器产生的输出文件用的时一样的汇编语言。
汇编阶段:汇编器(as)将hello.s翻译成机器语言指令,把这些指令打包成可重定位目标程序(relocatable object program)的格式,并将结果保存在目标文件hello.o中。hello.o是一个二进制文件,它包含的17个字节是函数main的指令编码。如果我们在文本编译器中打开hello.o文件,将会开到一堆乱码。
链接阶段:hello程序调用了printf函数,它是每个C编译器都提供的标准C库中的一个函数。printf函数存在于一个名为printf.o的单独的编译好了的目标文件中,而这个文件必须以某种方式合并到我们的hello.o程序中。链接器(ld)就负责处理这种合并。结果得到hello文件,他是一个可执行目标文件(或者简称为可执行文件),可以被加载到内存中,由系统执行。
旁注 - GNU项目
GCC 是 GNU(GNU 是GNU’s Not Unix 的缩写)项目开发出来的众多有用工具之一。GNU 项目是 1984 年由 Richard Stallman 发起的一个免税的慈善项目。该项目的目标非常宏大,就是开发出一个完整的类 Unix 的系统,其源代码能够不受限制地被修改和传播。GNU 项目已经开发出了一个包含 Unix 操作系统的所有主要部件的环境,但内核除外,内核是由 Linux 项目独立发展而来的。GNU 环境包括 EMACS 编辑器、GCC 编译器、GDB 调试器、汇编器、链接器、处理二进制文件的工具以及其他一些部件。GCC 编译器已经发展到支持许多不同的语言,能够为许多不同的机器生成代码。支持的语言包括 C、C++、Fortran、Java、Pascal、面向对象 C 语言(Objective-C)和 Ada。
GNU 项目取得了非凡的成绩,但是却常常被忽略。现代开放源码运动(通常和 Linux 联系在一起)的思想起源是 GNU 项目中自由软件(free software)的概念。(此处的free 为自由言论(free speech)中的“自由”之意,而非免费啤酒(free beer)中的“免费”之意。)而且,Linux 如此受欢迎在很大程度上还要归功于 GNU 工具,它们给 Linux 内核提供了环境。
1.3了解编译系统如何工作是大有益处的
- 优化程序性能:为了在C程序中做出更好的编码选择,我们确实需要了解一些机器代码以及编译器将不同的C语句转化为机器代码的方式。比如:一个switch语句是否总是比一系列的if-else语句高效得多?一个函数的开销有多大?while循环比for循环更有效吗?指针引用比数组索引更有效吗?为什么将循环求和的结果放到一个本地变量中,会比将其放到一个通过引用传递过来的参数中,运行起来快很多呢?为什么我们只是间的地重新排列一下算术表达式中的括号就能让函数运行得更快?
- 理解链接时出现的错误:一些最令人困扰的程序错误往往都与链接器操作有关,尤其是当你试图构建大型的软件系统时。比如链接器报告说它无法解析一个引用,这是什么意思?静态变量和全局变量的区别时什么?静态库和动态库的区别是什么?我们在命令行上排列库的顺序有什么影响?最严重的是,为什么有些链接错误指代运行时才会出现?在第7章会得到答案。
- 避免安全漏洞:多年来,缓冲区溢出错误是造成大多数网络和Internet服务器上安全漏洞的主要原因。存在这些错误是因为很少有程序员能够理解需要限制从不受信任的源接收数据的数量和格式。学习安全编程的第一步就是理解数据和控制信息存储在程序栈上的方式会引起的后果。作为学习汇编语言的一部分,我们将在第3章中描述堆栈原理和缓冲区溢出错误。
1.4处理器读并解释存储在内存中的指令
hello.c源文件被编译系统翻译成翻译成可执行目标文件hello,并存放在磁盘上。在Unix系统上运行该可执行文件,我们将它的文件名输入到Shell中:
1 | ./hello |
shell:命令行解释器,通过第一个单词判断是否是内置shell命令,若不是则假设此为一个可执行文件的名字,它将加载并运行这个文件。
1.4.1系统的硬件组成
Intel系统产品族模型
1.总线
贯穿整个系统的是一组电子管道,称作总线:携带信息字节,在各部件中传递。通常总线会被设计成传送定长的字节块,也就是字(word)。字中的字节数(字长)是一个基本的系统参数,各个系统不尽相同。以4字节(32位)和8字节(64位)为主。
2.I/O设备
I/O(输入/输出)设备是系统与外部世界的联系通道。
下图为(输入:键盘和鼠标;输出:显示器;存储:磁盘)四个I/O设备的简单案例。最开始可执行文件hello就存放在磁盘上。
每个I/O设备都通过一个控制器或适配器与主板相连。两者的区别主要在于它们的封装方式。控制器:本身是I/O设备挥着是系统主板上的芯片组。适配器:一块插在主板槽上的卡。它们的功能都是在I/O设备和总线之间传递信息。
图 1-4-1 一个典型系统的硬件组成
CPU:中央处理单元;
ALU:算术/逻辑单元;
PC:程序计数器;
USB:通用串行总线
3.主存
主存:临时存储设备,在处理器执行程序时,用来存放程序和程序处理的数据。
物理上来讲,主存是由一组动态随机存取存储器(DRAM)芯片组成的。逻辑上来讲,存储器是一个线性的字节数组,每个字节都有其唯一的地址(数组索引),这些地址是从零开始的。一般来说,组成程序的每条机器指令都由不同数量的字节构成。与 C 程序变量相对应的数据项的大小是根据类型变化的。比如,在运行 Linux 的 x86-64 机器上,short 类型的数据需要 2 个字节,int 和 float 类型需要 4 个字节,而 long 和 double 类型需要 8 个字节。 第 6 章将具体介绍存储器技术,比如 DRAM 芯片是如何工作的,它们又是如何组合起来构成主存的。
4.处理器
中央处理单元(CPU),简称处理器,是解释(或执行)存储在主存中指令的引擎。处理器的核心是一个大小为一个字的存储设备(或寄存器),称为程序计数器(PC)。在任何时刻,PC 都指向主存中的某条机器语言指令(即含有该条指令的地址)。
PC 也普遍地被用来作为“个人计算机”的缩写。然面,两者之间的区别应该可以很清楚地从上下文中看出来。
从系统通电开始,直到系统断电,处理器一直在不断地执行程序计数器指向的指令,再更新程序计数器,使其指向下一条指令。处理器可以看成一个指令执行模型,这个模型是由指令集架构决定的。
指令执行模型:处理器读取PC指向内存处的指令->解释指令中的位->执行指令的操作->更新寄存器(指向下一条指令,与上一条指令的地址不一定相邻)
这样的简单操作并不多,它们围绕着主存、寄存器文件(register file)和算术/逻辑单元(ALU)进行。寄存器文件是一个小的存储设备,由一些单个字长的寄存器组成,每个寄存器都有唯一的名字。ALU 计算新的数据和地址值。下面是一些简单操作的例子,CPU 在指令的要求下可能会执行这些操作。
-
加载:从主存复制一个字节或者一个字到寄存器,以覆盖寄存器原来的内容。
-
存储:从寄存器复制一个字节或者一个字到主存的某个位置,以覆盖这个位置上原来的内容。
-
操作:把两个寄存器的内容复制到 ALU,ALU 对这两个字做算术运算,并将结果存放到一个寄存器中,以覆盖该寄存器中原来的内容。
-
跳转:从指令本身中抽取一个字,并将这个字复制到程序计数器(PC)中,以覆盖 PC 中原来的值。
处理器看上去是它的指令集架构的简单实现,但是实际上现代处理器使用了非常复杂的机制来加速程序的执行。因此,我们将处理器的指令集架构和处理器的微体系结构区分开来:
指令集架构:每条机器代码指令的效果
微体系结构:处理器实际上是如何实现的
在第 3 章研究机器代码时,我们考虑的是机器的指令集架构所提供的抽象性。第 4 章将更详细地介绍处理器实际上是如何实现的。第 5 章用一个模型说明现代处理器是如何工作的,从而能预测和优化机器语言程序的性能。
1.4.2 运行 hello 程序
初始时刻,shell程序执行它的指令,等待我们输入一个命令。当我们在键盘上输入字符串./hello
后,shell程序将字符逐一读入寄存器,寄存器再将其存放到主存中的某个位置。
图 1-4-2 从键盘上读取 hello 命令
当我们在键盘上敲下回车键。shell程序就知道我们已经结束了命令的输入。然后shell执行一系列的指令来加载可执行的hello文件,这些指令将hello目标文件中的代码和数据从磁盘复制到主存。数据包括最终会被输出的字符串hello,world\n
。
利用直接存储器存储(DMA)技术,数据可以不通过处理器而直接从磁盘达到主存。这个步骤如图1-4-3所示。
图 1-4-3 从磁盘加载可执行文件到主存
一旦目标文件hello中的代码和数据被加载到主存,处理器就开始执行hello程序的main程序中的机器语言指令。这些指令将字符串hello,world\n
中的字节从主存复制到寄存器文件,再从寄存器文件中复制到显示设备,最终显示在屏幕上。
图 1-4-4将输出字符串从存储器写到显示器
1.5高速缓存至关重要
这个简单的示例揭示了一个重要的问题,即系统花费了大量的时间把信息从一个地方挪到另一个地方。这些复制就是开销,它减慢了程序“真正”的工作。
根据机械原理,较大的存储设备要比较小的存储设备运行得慢。例如:一个典型系统上的磁盘驱动器可能比主存大 1000 倍,但是对处理器而言,从磁盘驱动器上读取一个字的时间开销要比从主存中读取的开销大 1000 万倍。
类似地,一个典型的寄存器文件只存储几百字节的信息,而主存里可存放几十亿字节。然而,处理器从寄存器文件中读数据比从主存中读取几乎要快 100 倍。并且随着半导体技术的进步,加快处理器的运行速度比加快主存的运行速度要容易和便宜得多。针对此种处理器和主存的差异,系统设计者采用了更小更快的存储设备,称为高速缓存存储器(cache memory,简称为 cache 或高速缓存),作为暂时的集结区域,存放处理器近期可能会需要的信息。
图 1-5-1 高速缓存存储器
程序员能够利用高速缓存将程序的性能提高一个数量级。
1.6存储设备形成层次结构
在处理器和一个较大较慢的设备(如:主存)之间插入一个更小更快的存储设备(例如:高速缓存)的想法以及称为一个普遍的观念。实际上计算机中的存储设备都被组织成了一个存储器层次结构。如图1-6-1所示。此层次结构中,从上至下,设备访问的速度越来越慢、容量越来越大,每字节的造价也越来越便宜。寄存器文件在层次结构中位于最顶部,为L0。我在此处展示三层告诉缓存L1~L3,占据存储器层次结构的第1层到第3层。主存在第4层,以此类推。
图 1-6-1 一个存储器层次结构的示例
存储器层次结构的主要思想是上一层的存储器作为低一层存储器的高速缓存。因此,寄存器文件就是L1的高速缓存,L1为L2的高速缓存,以此类推。在某些分布式网络系统(或是网络文件系统(英语:Network File System),一种允许文件透过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间。)中,本地磁盘就是存储在其它系统中磁盘上的高速缓存。利用不同的高速缓存可以用来提高程序性能,程序员可以提高对存储器层次结构的理解来提高程序性能。
1.7操作系统管理硬件
回到hello程序。当shell加在和运行hello程序时,以及hello程序输出自己的消息时,shell和hello程序是依靠操作系统的服务间接访问键盘、显示器、磁盘或者主存的。我们可以把操作系统看出应用程序和硬件之间插入到一层软件。如图1-7-1所示:所有应用程序对硬件的操作尝试都需要通过操作系统。
图 1-7-1 计算机系统的分层视图
操作系统的基本功能:
- 防止硬件被失控的应用程序滥用
- 向程序提供简单一致的机制来控制复杂而又大不相同的低级硬件设备。
操作系统通过几个基本的抽象概念(进程、虚拟内存和文件)来实现这两个功能。如图1-7-2所示:
文件:对I/O设备的抽象表示。
虚拟内存:对主存和I/O设备的抽象表示。
进程:对处理器、主存和I/O设备的抽象表示。
图 1-7-2 操作系统提供的抽象表示
旁注 - Unix、Posix 和标准 Unix 规范
20 世纪 60 年代是大型、复杂操作系统盛行的年代,比如 IBM 的 OS/360 和 Honey-well 的 Multics 系统。OS/360 是历史上最成功的软件项目之一,而 Multics 虽然持续存在了多年,却从来没有被广泛应用过。贝尔实验室曾经是 Multics 项目的最初参与者,但是因为考虑到该项目的复杂性和缺乏进展而于 1969 年退出。鉴于 Multics 项目不愉快的经历,一群贝尔实验室的研究人员——Ken Thompson、Dennis Ritchie、Doug Mcllroy 和 Joe Ossanna,从 1969 年开始在 DEC PDP-7 计算机上完全用机器语言编写了一个简单得多的操作系统。这个新系统中的很多思想,比如层次文件系统、作为用户级进程的 shell 概念,都是来自于 Multics,只不过在一个更小、更简单的程序包里实现。1970 年,Brian Kernighan 给新系统命名为 “Unix”,这也是一个双关语,暗指 “Multics” 的复杂性。1973 年用 C 重新编写其内核,1974 年,Unix 开始正式对外发布【93】。
贝尔实验室以慷慨的条件向学校提供源代码,所以 Unix 在大专院校里获得了很多支持并得以持续发展。最有影响的工作发生在 20 世纪 70 年代晚期到 80 年代早期,在美国加州大学伯克利分校,研究人员在一系列发布版本中增加了虚拟内存和 Internet 协议,称为 Unix 4.xBSD(Berkeley Software Distribution)。与此同时,贝尔实验室也在发布自己的版本,称为 System V Unix。其他厂商的版本,比如 Sun Microsystems 的 Solaris 系统,则是从这些原始的 BSD 和 System V 版本中衍生而来。
20 世纪 80 年代中期,Unix 厂商试图通过加入新的、往往不兼容的特性来使它们的程序与众不同,麻烦也就随之而来了。为了阻止这种趋势,IEEE(电气和电子工程师协会)开始努力标准化 Unix 的开发,后来由 Richard Stallman 命名为 “Posix”。结果就得到了一系列的标准,称作 Posix 标准。这套标准涵盖了很多方面,比如 Unix 系统调用的 C 语言接口、shell 程序和工具、线程及网络编程。最近,一个被称为“标准 Unix 规范”的独立标准化工作已经与 Posix 一起创建了统一的 Unix 系统标准。这些标准化工作的结果是 Unix 版本之间的差异已经基本消失。
1.7.1进程
hello程序在现代系统上运行时,操作系统会提供一种假象,好像只有这个程序在运行。程序看上去是独占了处理器、主存和I/O设备。处理器看上去在不间断的一条接一条地执行程序中的指令,即该程序和数据是系统中的唯一对象。这些假象是通过进程的概念来实现的。
进程:操作系统对一个正在运行的程序的一种抽象。在一个系统上可以运行多个进程,而每个进程都好像在独占使用硬件。
并发运行:一个进程的指令和另一个进程的指令是交错执行的。在大多数系统中,需要运行的进程数是多于可以运行它们的CPU个数的。
上下文切换:传统系统在一个时刻只能执行一个程序,而多核处理器能够同时执行多个程序,无论是在单核还是多核系统中,一个CPU看上去都是在并发地执行多个进程,这是通过处理器在进程间切换来实现的。操作系统实现这种交错执行的机制成为上下文切换。
下面以只包含一个CPU的单处理器系统为简化案例:
上下文:操作系统保持跟踪进程运行所需的所有状态信息。这种状态,也就是上下文,其内包括了很多信息(如:PC、寄存器文件的当前值、主存内容)。
在任何一个时刻单处理器系统都只能执行一个进程的代码。操作系统决定要把控制权从当前进程转移到某个新进程时,就会进行上下文切换,即保存当前进程的上下文、恢复新进程的上下文,然后将控制权传递到新进程。新进程就会从它上次停止的地方开始。图1-7-3展示了hello程序运行场景的基本理念。
如图 1-7-3所示,从一个进程到另一个进程的转换是由操作系统内核(kernel)管理的。内核是操作系统代码常驻主存的部分。当应用程序需要操作系统的某些操作时,比如读写文件,它就执行一条特殊的系统调用(system call)指令,将控制权传递给内核。然后内核执行被请求的操作并返回应用程序。注意,内核不是一个独立的进程。相反,它是系统管理全部进程所用代码和数据结构的集合。
图 1-7-3 进程的上下文切换
示例场景中有两个并发的进程∶shell 进程和 hello 进程。最开始,只有 shell 进程在运行,即等待命令行上的输入。当我们让它运行 hello 程序时,shell 通过调用一个专门的函数,即系统调用,来执行我们的请求,系统调用会将控制权传递给操作系统。操作系统保存 shell 进程的上下文,创建一个新的 hello 进程及其上下文,然后将控制权传给新的 hello 进程。hello 进程终止后,操作系统恢复 shell 进程的上下文,并将控制权传回给它,shell 进程会继续等待下一个命令行输入。
实现进程这个抽象概念需要低级硬件和操作系统软件之间的紧密合作。我们将在第 8 章中揭示这项工作的原理,以及应用程序是如何创建和控制它们的进程的。
1.7.2线程
尽管我们认为一个进程只有的那一段控制流,但是在现代系统中,一个进程实际上可以有多个称为线程的执行单元组成,每个线程都运行在进程的上下文中,并共享同样的代码和全局数据。
由于网络服务器中对并行处理的需求,线程成为越来越重要的编程模型,因为多线程之间比多进程之间更容易共享数据,也因为线程一般来说都比进程更加高效。当有多处理器可用的时间,多线程也是一种使程序可以运行的更快的方法。
1.7.3虚拟内存
虚拟内存是是一个抽象的概念,它为每个进程提供了一个假象,即每个进程都在独占的使用主存。每个进程看到的内存都是一致的,称为虚拟内存空间。图1-7-4所示的就是Linux进程的虚拟内存空间(其它Unix系统的设计也与此类似)。
在Linux中,地址空间最上面的区域是保留给操作系统中的代码和数据的,这对所有进程来说都是一样的。地址空间的底部区域存放用户定义的代码和数据。
图中的地址是从下往上增大的。
图 1-7-5 进程的虚拟地址空间
每个进程看到的虚拟地址空间由大量准确定义的区构成,每个区都有专门的功能。我们从最低的地址开始,逐步向上介绍。
程序代码和数据。对所有的进程来说,代码是从同一固定地址开始,紧接着的是和 C 全局变量相对应的数据位置。代码和数据区是直接按照可执行目标文件的内容初始化的,在示例中就是可执行文件 hello。在第 7 章我们研究链接和加载时,你会学习更多有关地址空间的内容。
堆。代码和数据区后紧随着的是运行时堆。代码和数据区在进程一开始运行时就被指定了大小,与此不同,当调用像 malloc 和 free 这样的 C 标准库函数时,堆可以在运行时动态地扩展和收缩。在第 9 章学习管理虚拟内存时,我们将更详细地研究堆。
共享库。大约在地址空间的中间部分是一块用来存放像 C 标准库和数学库这样的共享库的代码和数据的区域。共享库的概念非常强大,也相当难懂。在第 7 章介绍动态链接时,将学习共享库是如何工作的。
栈。位于用户虚拟地址空间顶部的是用户栈,编译器用它来实现函数调用。和堆一样,用户栈在程序执行期间可以动态地扩展和收缩。特别地,每次我们调用一个函数时,栈就会增长;从一个函数返回时,栈就会收缩。在第 3 章中将学习编译器是如何使用栈的。
内核虚拟内存。地址空间顶部的区域是为内核保留的。不允许应用程序读写这个区域的内容或者直接调用内核代码定义的函数。相反,它们必须调用内核来执行这些操作。
虚拟内存的运作需要硬件和操作系统软件之间精密复杂的交互,包括对处理器生成的每个地址的硬件翻译。基本思想是把一个进程虚拟内存的内容存储在磁盘上,然后用主存作为磁盘的高速缓存。
1.7.4文件
文件就是字节序列,仅此而已。
每个I/O设备,包括磁盘、键盘、鼠标,甚至网络,都可以看成是文件。系统中的所有输入输出都使用过使用一小组称为Unix I/O的系统函数调用读写文件来实现的。
文件这个简单而精致的概念是非常强大的,因为他向应用程序提供了一个统一的视图,来看待系统中可能含有的所有各式各样的I/O设备。同一个程序可以在使用不同磁盘技术的不同系统上运行。
旁注 - Linux项目
1991年8月,芬兰研究生 Linus Torvalds 谨慎地发布了一个新的类 Unix 的操作系统内核,内容如下。
来自∶ torvalds@klaava.Helsinki.FI(Linus Benedict Torvalds)
新闻组∶comp.os.minix
主题∶在 minix中你最想看到什么?
摘要∶关于我的新操作系统的小调查
时间∶1991 年 8 月 25 日 20:57:08 GMT
每个使用 minix 的朋友,你们好。
我正在做一个(免费的)用在 386(486)AT 上的操作系统(只是业余爱好,它不会像 GNU 那样庞大和专业)。这个想法自 4 月份就开始酝酿,现在快要完成了。我希望得到各位对 minix 的任何反馈意见,因为我的操作系统在某些方面与它相类似(其中包括相同的文件系统的物理设计(因为某些实际的原 因))。
我现在已经移植了 bash(1.08)和 gc(1.40),并且看上去能运行。这意味着我需要几个月的时间来让它变得更实用一些,并且,我想要知道大多数人想要什么特性。欢迎任何建议,但是我无法保证我能实现它们。:-)
Linus (torvalds@kruna.helsinki.fi)
就像 Torvalds 所说的,他创建 Linux 的起点是 Minix,由 Andrew S. Tanenbaum 出于教育目的开发的一个操作系统【113】。 接下来,如他们所说,这就成了历史。Linux 逐渐发展成为一个技术和文化现象。通过和 GNU 项目的力量结合,Linux 项目发展成了一个完整的、符合 Posix 标准的 Unix 操作系统的版本,包括内核和所有支撑的基础设施。从手持设备到大型计算机,Linux 在范围如此广泛的计算机上得到了应用。IBM 的一个工作组甚至把 Linux 移植到了一块腕表中!
1.8系统之间利用网络通信
前文我们一直把系统视为一个孤立的硬件和软件的集合体。实际上,现代系统经常通过网络和其他系统连接到一起。网络可以被视为一个I/O设备,如图1-8-1所示。当系统从主存复制一串字节到网络配置器时,数据流经过网络到达另一台机器,而不是到达本地。类似的,系统可以读取其它极其发送过来的数据,并把数据复制到自己的主存。
图 1-8-1 网络也是一种 I/O 设备
随着Internet这样全球网络的出现,从各一台主机复制信息带另外一台主机以及成为计算机最重要的用途之一。比如:电子邮件、即时通信、万维网、FTP和telnet。
回到hello示例,我们可以使用熟悉的talnet应用在原创主机上运行hello程序。假设用本地主机上的telnet客户端连接远程主机上的talnet服务器。在我们登录到远程主机并运行shell后,远端的shell就在等待接收输入的命令。此后在远端运行的hello程序包括如图1-8-2所示的五个步骤。
图 1-8-2 利用 telnet 通过网络远程运行 hello
这种客户端和服务器之间交互的类型在所有的网络应用中是非常典型的。在第 11 章中,我们回讲如何构造网络应用程序,并利用这些知识创建一个简单的 Web 服务器。
1.9重要主题
小结:系统是硬件和系统软件互相交织的集合体,它们必须共同协作才可以道道运行应用程序的最终目的。
1.9.1Amdahl定律
Gene Amdahl,计算领域的早期先锋之一,对提升系统某一部分的性能做出了简单却有见地的观察—-Amdahl定律(Amdahl’s law)。该定律的主要思想是:当我们对系统的某个部分加速时,对其系统整体性能的影响取决于该部分的重要性和加速程度。若系统执行某应用程序需要时间为T_old
。假设系统某部分所需执行时间与该时间的比例为 α
,而该部分性能提升比例为k
。即该部分初始所需时间为αT_old
,现在所需时间为(αT_old)/k
。因此,总的执行时间应为:
由此,可以计算加速比S = T_old / T_new
为
举个例子,考虑这样一种情况,系统某个部分初始耗时比例为60%(α=0.6),其加速比例因子为3(k=3)。则我们可以获得的加速比为1/[0.4 + 0.6/3]=1.67
倍。虽然我们对系统的一个主要部分做出了重大改进,但是获得的系统加速比却明显小于这部分的加速比。虽然我们对系统的一个主要部分做出了重大改进,但是获得的系统加速比却明显小于这部分的加速比。这就是Amdahl定律的主要观点—-想要显著加速整个系统,必须提升全系统中相当大的部分速度。
旁注 - 表示相对性能
性能提升最好的表示方法就是用比例的形式
T_old/T_new
,其中,T_old
为原始系统所需时间,T_new
为修改后的系统所需时间。如果有所改进,则比值应大于 1。我们用后缀 “×” 来表示比例,因此,“2.2×” 读作 “2.2 倍”。表示相对变化更传统的方法是用百分比,这种方法适用于变化小的情况,但其定义是模糊的。应该等于
100⋅(T_old-T_new)/T_new
,还是100⋅(T_old-T_new)/T_old
,还是其他的值?此外,它对较大的变化也没有太大意义。与简单地说性能提升 2.2× 相比,“性能提升了 120%” 更难理解。
练习题
练习题1.1
假设你是个卡车司机,要将土豆从爱达荷州的 Boise 运送到明尼苏达州的 Minneapolis,全程 2500 公里。在限速范围内,你估计平均速度为 100 公里/小时,整个行程需要 25 个小时。
A. 你听到新闻说蒙大拿州刚刚取消了限速,这使得行程中有 1500 公里卡车的速度可以为 150 公里/小时。那么这对整个行程的加速比是多少?
B. 你可以在 www.fasttrucks.com 网站上为自已的卡车买个新的涡轮增压器。网站现货供应各种型号,不过速度越快,价格越高。如果想要让整个行程的加速比为 1.67×,那么你必须以多快的速度通过蒙大拿州?
答案
该问题说明Amdahl不仅仅适用于计算机系统。
A. 根据公式 1.1,有 α=0.6,k=1.5。更直接地说,在蒙大拿行驶的 1500 公里需要10个小时,而其他行程也需要 10 个小时。则加速比为 25/(10+10)=1.25×
。
B. 根据公式 1.1,有 α=0.6,要求 S=1.67,则可算出 k。更直接地说,要使行程加速度达到 1.67×,我们必须把全程时间减少到 15 个小时。蒙大拿以外仍要求为 10 小时,因此,通过蒙大拿的时间就为 5 个小时。这就要求行驶速度为 300 公里/小时,对卡车来说这个速度太快了!
练习题1.2
公司的市场部向你的客户承诺,下一个版本的软件性能将改进 2×。这项任务被分配给你。你已经确认只有 80% 的系统能够被改进,那么,这部分需要被改进多少(即 k 取何值)才能达到整体性能目标?
答案
理解 Amdahl 定律最好的方法就是解决一些实例。本题要求你从特殊的角度来看公式 1.1。
本题是公式的简单应用。已知 S=2,α=0.8,则计算 k:
Amdahl 定律一个有趣的特殊情况是考虑 k 趋向于 ∞ 时的效果。这就意味着,我们可以取系统的某一部分将其加速到一个点,在这个点上,这部分花费的时间可以忽略不计。于是我们得到
举个例子,如果 60% 的系统能够加速到不花时间的程度,我们获得的净加速比将仍只有 1/0.4=2.5×。
Amdahl 定律描述了改善任何过程的一般原则。除了可以用在加速计算机系统方面之外,它还可以用在公司试图降低刀片制造成本,或学生想要提高自己的绩点平均值等方面。也许它在计算机世界里是最有意义的,在这里我们常常把性能提升 2 倍或更高的比例因子。这么高的比例因子只有通过优化系统的大部分组件才能获得。
1.9.2并发和并行
让计算机做的更多,让计算机运行得更快是驱动计算机进步的两个持续动力。让计算机能够同时做更多的事情时,这两个因素都会改进。
并发(concurrency):指一个同时具有多个活动的系统。
并行(parallelism):指利用并发来是一个系统运行得更快。
并行可以在计算机系统的多个抽象层次上运用。因此,我们按照系统参差结构中由高到低的顺序重点强调三个层次。
1.线程级并发
构建在进程这个抽象之上,我们能够设计出同时有多个程序执行的系统,这就导致了并发。使用线程,我们甚至能够在一个进程中执行多个控制流。自 20 世纪 60 年代初期出现时间共享以来,计算机系统中就开始有了对并发执行的支持。传统意义上,这种并发执行只是模拟出来的,是通过使一台计算机在它正在执行的进程间快速切换来实现的。这种并发形式允许多个用户同时与系统交互,例如,当许多人想要从一个 Web 服务器获取页面时。它还允许一个用户同时从事多个任务,例如,在一个窗口中开启 Web 浏览器,在另一窗口中运行字处理器,同时又播放音乐。在以前,即使处理器必须在多个任务间切换,大多数实际的计算也都是由一个处理器来完成的。这种配置称为单处理器系统
当构建一个由单操作系统内核控制的多处理器组成的系统时,我们就得到了一个多处理器系统。其实从 20 世纪 80 年代开始,在大规模的计算中就有了这种系统,但是直到最近,随着多核处理器和超线程(hyperthreading)的出现,这种系统才变得常见。图 1-9-1给出了这些不同处理器类型的分类。
图 1-9-1 不同的处理器配置分类。随着多核处理器和超线程的出现,多处理器变得普遍了
**多核处理器:**将多个 CPU(称为“核”)集成到一个集成电路芯片上。
图 1-9-2 描述的是一个典型多核处理器的组织结构,其中微处理器芯片有 4 个 CPU 核,每个核都有自己的 L1 和 L2 高速缓存,其中的 L1 高速缓存分为两个部分—-一个保存最近取到的指令,另一个存放数据。这些核共享更高层次的高速缓存,以及到主存的接口。工业界的专家预言他们能够将几十个、最终会是上百个核做到一个芯片上。
图 1-9-2 多核处理器的组织结构。4 个处理器核集成在一个芯片上
超线程:有时称为同时多线程(simultaneous multi-threading),是一项允许一个 CPU 执行多个控制流的技术。
超线程涉及 CPU 某些硬件有多个备份,比如程序计数器和寄存器文件,而其他的硬件部分只有一份,比如执行浮点算术运算的单元。常规的处理器需要大约 20000 个时钟周期做不同线程间的转换,而超线程的处理器可以在单个周期的基础上决定要执行哪一个线程。这使得 CPU 能够更好地利用它的处理资源。比如,假设一个线程x必须等到某些数据被装载到高速缓存中,那 CPU 就可以继续去执行另一个线程。举例来说,Intel Core i7 处理器可以让每个核执行两个线程,所以一个 4 核的系统实际上可以并行地执行 8 个线程。
多处理器的使用可以从两方面提高系统性能。首先,它减少了在执行多个任务时模拟并发的需要。正如前面提到的,即使是只有一个用户使用的个人计算机也需要并发地执行多个活动。其次,它可以使应用程序运行得更快,当然,这必须要求程序是以多线程方式来书写的,这些线程可以并行地高效执行。因此,虽然并发原理的形成和研究已经超过 50 年的时间了,但是多核和超线程系统的出现才极大地激发了一种愿望,即找到书写应用程序的方法利用硬件开发线程级并行性。第 12 章会更深入地探讨并发,以及使用并发来提供处理器资源的共享,使程序的执行允许有更多的并行。
2.指令级并行
指令级并行:通过流水线等技术实现多条指令同时并行执行的并行技术。
在较低的抽象层次上,现代处理器可以同时执行多条指令的属性称为指令级并行。早期的微处理器,如 1978 年的 Intel 8086,需要多个(通常是 3~10 个)时钟周期来执行一条指令。最近的处理器可以保持每个时钟周期 2~4 条指令的执行速率。其实每条指令从开始到结束需要长得多的时间,大约 20 个或者更多周期,但是处理器使用了非常多的聪明技巧来同时处理多达 100 条指令。在第 4 章中,我们会研究流水线(pipelining)的使用。在流水线中,将执行一条指令所需要的活动划分成不同的步骤,将处理器的硬件组织成一系列的阶段,每个阶段执行一个步骤。这些阶段可以并行地操作,用来处理不同指令的不同部分。我们会看到一个相当简单的硬件设计,它能够达到接近于一个时钟周期一条指令的执行速率。
如果处理器可以达到比一个周期一条指令更快的执行速率,就称之为超标量(super-scalar)处理器。大多数现代处理器都支持超标量操作。第 5 章中,我们将描述超标量处理器的高级模型。应用程序员可以用这个模型来理解程序的性能。然后,他们就能写出拥有更高程度的指令级并行性的程序代码,因而也运行得更快。
3. 单指令、多数据并行
单指令、多数据并行:采用一个控制器来控制多个处理器,同时对一组数据(又称“数据向量”)中的每一个分别执行相同的操作从而实现空间上的并行性的技术。
在最低层次上,许多现单指令、多数据并行代处理器拥有特殊的硬件,允许一条指令产生多个可以并行执行的操作,这种方式称为单指令、多数据,即 SIMD 并行。例如,较新几代的 Intel 和 AMD 处理器都具有并行地对 8 对单精度浮点数(C 数据类型 float)做加法的指令。
提供这些 SIMD 指令多是为了提高处理影像、声音和视频数据应用的执行速度。虽然有些编译器会试图从 C 程序中自动抽取 SIMD 并行性,但是更可靠的方法是用编译器支持的特殊的向量数据类型来写程序,比如 GCC 就支持向量数据类型。作为对第 5 章中比较通用的程序优化描述的补充,我们在网络旁注 OPT:SIMD 中描述了这种编程方式。
1.9.3 计算机系统中抽象的重要性
抽象的概念在计算机中尤为重要。如:为一组函数规定一个简单的应用程序接口(API)就是一个很好的编程习惯,程序员无需了解它内部的工作便可以使用这些代码。不同的编程语言提供不同形式和等级的抽象支持,例如Java类的申明和C语言的函数原型。
我们已经介绍过计算机系统中的几个抽象,如1-9-3所示。在处理器中,指令集架构对实际处理器硬件的抽象:机器代码程序表现得好像运行在一个一次只执行一条指令的处理器上。底层的硬件远比抽象描述的要复杂精细,它并行地执行多条指令,但又总是与那个简单有序的模型保持一致。只要执行模型一样,不同的处理器也能执行同样的机器代码,而又提供不同的开销和性能。(如同在铸器中使用同一个模具,但使用不同材料一样,执行的结果是一样的,但需要的时间,和成本是不一样的)
图 1-9-3计算机系统提供的一些抽象。计算机系统中的一个重大主题就是提供不同层次的抽象表示,来隐藏实际实现的复杂性
在学习操作系统时,我们介绍了三个抽象:文件是对I/O设备的抽象,虚拟内存是对程序存储器的抽象,而进程是对一个正在运行的程序的抽象。我们再增加一个新的抽象:虚拟机,它提供对整个计算机的抽象,包括操作系统、处理器和程序。虚拟机的思路是IBM在20世纪60年代提出来的,但是最近才显示出其管理计算机方式上的优势,因为一些计算机必须能够运行为不同的操作系统(例如,Microsoft Windows、MacOS和Linux)或同一操作系统的不同版本设计的程序。
1.10小结
计算机系统是由硬件和系统软件组成的,它们共同协作得以运行应用程序。计算机内部的信息被表示为一组组的位,它们依据上下文有不同的解释方式。程序被其它程序翻译成不同的形式,开始时是ASCII文本,然后被编译器和链接器翻译成二进制可执行文件。
处理器读取并解释存放在主存里的二进制指令。因为计算机花费了大量的时间在内存、I/O设备设和CPU寄存器之间复制数据,所以将系统中存储设备划分成层次结构—-CPU寄存器在顶部,接着是多层的硬件高速缓存存储器、DRAM主存和磁盘存储器。在层次结构中,位于更高层的存储设备比底层的存储设备要更快,单位比特造假也更高。层次结构中较高层次的存储设备可以作为较低层次设备的高速缓存。提供理解和运用这种存储结构的只是,程序员可以优化C程序的性能。
操作系统内核是应用程序和硬件之间的媒介。它提供了三个基本抽象:1.文件是对I/O设备的抽象;2.虚拟内存是对主存和磁盘的抽象;3.进程是对处理器、主存和I/O设备的抽象。
最后,网络提供了计算机系统之间通信的手段。从特殊角度来看,网络就是一种I/O设备。