C语言进阶(十五) - 预处理与程序编译初步解析

前言

本节主要介绍程序运行前的预处理（预编译）阶段的相关知识。同时简单介绍一个程序是如何从一行行代码到开始运行并得到结果的。

1. 预处理

1.1 预定义符号

首先是C语言内置的预定义符号。

`__FILE__`	进行编译的源文件，可以记录程序所在的文件路径，是一个字符串
`__LINE__`	文件当前的行号，记录__LINE__所在的行号，是一个整数
`__DATE__`	文件被编译的日期，是一个字符串
`__TIME__`	文件被编译的时间，是一个字符串
`__STDC__`	如果编译器遵循ANSIC,_STDC__的值是1，否则未定义。

例子：输出整数时，借助预定义符号打印更多信息。

#include 

int main() {

	int i = 0;
	for (i = 0; i < 10; i++) {
		printf("file: %s line: %d date: %s time: %s i = %d\n",
			__FILE__,__LINE__,__DATE__,__TIME__,i);
	}

	return 0;
}
1
2
3
4
5
6
7
8
9
10
11
12

运行结果：

例子：判断一个编译器是否遵循了ANSIC标准：

#include 

int main() {
	if (__STDC__ == 1) {
		printf("YES!\n");
	}
	else {
		printf("NO!\n");
	}
	return 0;
}
1
2
3
4
5
6
7
8
9
10
11

gcc编译器严格遵循ANSIC标准。

1.2 #define

1.2.1 #define定义标识符

语法:
#define name stuff

举例：

#define M 100
#define reg register//为关键字register创建一个简短的名字
#define do_forever for(;;)//用更形象的符号来替换一种实现
//当定义的stuff过长时，可以分成几行来写，除了最后一行，每一行后面都要加上一个续航符号（反斜杠）
//转义字符，只不过转义的是空格
#define DEBUG_PRINT printf("file:%s\tline:%d\t\
                            date:%s\ttime:%s\n", \
                            __FILE__,__LINE__, \
                            __DATE__,__TIME__)
1
2
3
4
5
6
7
8
9

#define定义标识符时，最后一般都不加分号;，否则可能会出现一些错误。

例如错误的例子：

#define M 100;
int a = M//没问题
printf("%d", M);//这里M被替换后有一个分号，导致语法错误。
1
2
3

1.2.2 #define定义宏

#define机制包括了一个规定，即允许把参数替换到文本中，这种实现通常称为宏macro或宏定义define macro.

语法：
#define name(parament_list) stuff
parament_list是一个由逗号隔开的符号表，它们可能出现在stuff中。

注意：
参数列表的左括号必须与name**紧邻。**如果二者之间有任何空白存在，参数列表就会被解释为stuff的一部分。
例子：一个有问题的宏

#include 
#define SQUARE(x) x * x

int main(){
    printf("%d\n", SQUARE(5));//此时没有问题
    printf("%d\n", SQUARE(2+3));//当参数替换之后出现了问题:2+3 * 2+3 --> 11
    
    return 0;
}
1
2
3
4
5
6
7
8
9

运行结果：

这个例子定义的宏中的参数没有加上括号，受到了运算符优先级的影响。
为了避免我们的宏参数受到类似的影响，我们应该为每个参数都加上括号。
就像这样#define SQUARE(x) (x) * (x)
例子：有问题的宏

#include 
#define DOUBLE(x) (x) + (x)

int main(){
    printf("%d\n", 2 * DOUBLE(5) );//参数替换之后出现问题：2 * (5) * (5)-->15
    printf("%d\n", 2 * ( DOUBLE(5) ) );//没有问题
    return 0;
}
1
2
3
4
5
6
7
8

运行结果：

这个例子中的宏DOUBLE参数虽然都加上了括号，但宏本身没有加上括号，替换之后收到了运算符优先级的影响，导致结果出错。
为了避免类似的错误，定义宏时，参数应该加上括号，宏本身也应该加上括号。
就像这样#define DOUBLE(x) ((x) * (x))

1.2.3 #define替换规则

在程序中扩展#define定义符号和宏时，需要涉及几个步骤。

在调用宏时，首先对参数进行检查，看看是否包含任何由#define定义的符号。如果是，它们首先被替换。
替换文本随后被插入到程序中原来文本的位置。对于宏，参数名被他们的值所替换。
最后，再次对结果文件进行扫描，看看它们是否包含任何由#define定义的符号。如果是，重复上述处理过程。

注意：

宏参数和#define定义中可以出现其它#define定义的符号。但是宏不能出现递归。
当预处理搜索#define定义的符号时，字符串常量的内容并不被搜索。

1.2.4 #和##

#：把宏的参数转换为一个字符串。

printf("hello world!\n");
printf("hello" " world!\n");
这两句代码打印的内容相同，都是hello world!

利用的是两个相邻的字符串可以合并为一个字符串。
例子：

#include 

#define PRINT(x, FORMAT) printf("The num of "#x " is " FORMAT"\n", x)
int main() {
	int a = 10;
	PRINT(a, "%d");
	double b = 10;
	PRINT(b, "%lf");

	return 0;
}
1
2
3
4
5
6
7
8
9
10
11

运行结果：

##：把位于其两边的符号连接成一个符号。它允许宏定义从分离的文本片段创建标识符。
注意：这样的连接产生的结果必须是合法的，否则结果是未定义的。
例子:

#include 
#define LINK(member_1, member_2) member_1##member_2

int main() {
	int helloworld = 10;
	printf("%d\n", LINK(hello, world));
	return 0;
}
1
2
3
4
5
6
7
8

运行结果：

1.2.5 带副作用的宏参数

当宏参数在宏的定义中出现超过一次的时候，如果参数带有副作用，那么在使用这个宏的时候就可能出现危险，导致不可预测的后果。
副作用指的是表达式求值时出现的永久性效果。例如自增自减运算符++、--。
在使用宏时，传参尽量不要穿有副作用的参数。
例子：

#include 
#define MAX(a,b) ( (a) > (b) ? (a) : (b) )

int main() {
	int x = 5;
	int y = 4;
	int max = MAX(x++, y++);
	printf("a:%d \nb:%d \nmax:%d\n", a, b, max);

	return 0;
}
1
2
3
4
5
6
7
8
9
10
11

运行结果：

1.2.6 宏和函数的比较

宏通常被应用于执行简单的计算。
此时与函数相比的优点：

用于调用函数和从函数返回所花费的时间可能比实际执行这个小型计算工作所需要的时间更多。宏比函数在程序的规模和速度方面更胜一筹。
函数的参数必须声明为特定的类型。所以函数只能在类型合适的表达式上使用，而宏参数没有类型限制，适用于任何可以比较计算的类型。宏的参数可以是类型，而函数则不行。

例子：宏参数是类型

#include 
#include 

#define MALLOC(num,type) (type*)malloc(num*sizeof(type))
int main(){
    int* p1 = MALLOC(10, int);
    char* p2 = MALLOC(10, char);
    free(p1);
    p1 = NULL;
    free(p2);
    p2 = NULL;
    return 0;
}
1
2
3
4
5
6
7
8
9
10
11
12
13

与函数相比的缺点：

每次使用宏，一份宏定义的代码将插入到程序中。除非宏比较短，否则可能大幅度增加程序的长度。
宏的替换在预处理阶段完成，无法进行调试（程序运行时）。
宏是类型无关的，这意味着宏不够严谨。（双刃剑）。
宏可能会带来运算符优先级的问题，导致程序出现错误。

属性	#define定义宏	函数
代码长度	每次使用宏时，宏代码都会插入程序中。除了非常小的宏外，程序的长度会大幅增长	函数代码只出现在一个地方，每次使用这个函数时，都调用那个地方的同一份代码
执行速度	更快	存在函数的调用和返回的额外开销，相对慢一些
操作符优先级	宏参数的求值是在所有周围的上下文环境中，除非加上括号，否则邻近操作符的优先级可能会产生不可预料的后果，所以在宏的书写时尽量多加些括号	函数参数只在函数调用的时候求值一次，他的结果值传递给函数。表达式的求值结果更容易预测
带有副作用的参数	参数可能被替换到宏体中的多个位置，所以带有副作用的参数求值可能会产生不可预测的结果	函数参数只在传参的时候求值一次，结果更容易控制
参数类型	宏的参数与类型无关，只要对参数的操作是合法的，它就可以使用于任何参数类型	函数的参数是与类型有关的，如果参数的类型不同，就需要不同的函数，即使它们执行的任务是不同的
调试	宏不方便调试	函数可以逐语句调试
递归	宏不能递归	函数可以递归

1.2.7 命名约定

函数和宏的使用语法相似，语言本身没有办法帮助我们进行区分。
于是有了函数与宏的命名约定(习惯)：

宏名全部大写
函数名不要全部大写

1.3 #undef

用于移除一个宏定义

语法:
#undef name

例子：

#include 
#define M 100//宏定义M

int main() {
	printf("%d\n", M);
    
#undef M//移除宏定义的M
    
#define M 200//重新对M进行宏定义
	printf("%d\n", M);
	return 0;
}
1
2
3
4
5
6
7
8
9
10
11
12

运行结果：

1.4 命令行定义

许多C编译器提供了一种能力，允许在命令行中定义符号，用于启动编译过程。
例如：当我们根据同一个源文件要编译出不同的一个程序的不同版本的时候，这个特性有点用处。（假
定某个程序中声明了一个某个长度的数组，如果机器内存有限，我们需要一个很小的数组，但是另外一
个机器内存大写，我们需要一个数组能够大写。）

例子：

#include 
int main()
{
int array [SZ];
int i = 0;
for(i = 0; i< SZ; i ++)
{
array[i] = i;
}
for(i = 0; i< SZ; i ++)
{
printf("%d " ,array[i]);
}
printf("\n" );
return 0;
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

linux环境下的编译指令：
gcc -D SZ=10 programe.c

1.5 条件编译

可以方便的在编译一个程序时将一条或一组语句进行编译或者放弃编译。
常见的条件编译指令

#if 常量表达式
//代码
#endif

常量表达式为真（非0）就编译
例子：

#include 
#define M 100

int main(){
#if M
    printf("%d\n", M);
#endif
#if 0
    printf("%d\n", M);
#endif
    return 0;
}
1
2
3
4
5
6
7
8
9
10
11
12

运行结果：

多分支条件编译

#if 常量表达式
//代码
#elif 常量表达式
//代码
#else
**//代码 **
#endif

例子：

#include 
#define M 5

int main() {

#if M > 5
	printf(">\n");
#elif M == 5
	printf("==\n");
#else
	printf("<\n");
#endif

	return 0;
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

运行结果：

判断是否被定义

#if defined(symbol)
//代码
#endif
#if !defined(symbol)
//代码
#endif
#ifdef symbol
//代码
#endif
#ifndef symbol
//代码
#endif

例子：

#include 
#define M 10

int main() {
#if defined M
	printf("%d\n", M);
#endif

#if !defined M
	printf("%d\n", 5);
#endif

#ifdef M
	printf("%d\n", M);
#endif

#ifndef M
	printf("%d\n", 15);
#endif
	return 0;
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

运行结果：

嵌套的条件编译指令

#if defined(OS_UNIX)
#ifdef OPTION1
unix_version_option1();
#endif
#ifdef OPTION2
unix_version_option2();
#endif
#elif defined(OS_MSDOS)
#ifdef OPTION2
msdos_version_option2();
#endif
#endif

1.6 文件包含

预处理指令#include可以使另外一个文件被编译。就像这个文件实际出现于#include指令的地方一样。
替换方式：预处理器先删除这条指令，并用包含文件的内容替换。
那么如果一个源文件被包含多次，那么实际就被编译多次。

1.6.1 头文件被包含的方式

库文件包含#include

查找策略：直接去**标准路径（库目录）**下去查找，如果找不到就提示编译错误。

本地文件包含#include "filename.h"

查找策略：先在源文件所在目录下查找，如果该头文件未找到，编译器就像查找库函数头文件一样在**标准位置（库目录）**查找头文件。如果找不到就提示编译错误。

可以知道即使是库函数头文件也可以使用""形式，只是查找的效率较低，同时也不容易区分查找的是库文件还是本地文件了。

一般建议：库文件用< >，本地文件用" "。

1.6.2 嵌套文件包含

一般我们写代码时不会故意多次包含一个头文件，但同一个头文件被多次包含的情况也不是一定不会出现。
我们可以预防这样的意外情况的出现，即防止头文件被重复包含。
方法一：条件编译
在头文件内部加上条件编译的三行代码即可

#ifndef __TIST_H__
#define __TIST_H__
//头文件的内容
#endif
1
2
3
4

方法二：
在头文件开始处加上一句代码#pragma once即可。

2. 程序的翻译环境和执行环境

在ANSI C的任何一种实现中，存在两个不同的环境

1：翻译环境，在翻译环境中源代码被转换为可执行的机器指令。
2：执行环境，用于实际执行代码。

3. 编译与链接初探

3.1 翻译环境

组成一个程序的每个源文件通过编译过程分别转换成目标代码，分别生成目标文件。后缀为.obj或.o。
每个目标文件由链接器linker捆绑在一起，形成一个单一而完整的可执行程序。
链接器同时也会要引入标准C函数库中任何被该程序所用到的函数，而且他可以搜索程序员个人的程序库，将其需要的函数也链接到程序中。

3.2 再探编译链接

test.c

#include 

extern Add(int x, int y);

int main() {
	int a = 10;
	int b = 5;
	int sum = Add(a, b);
	printf("%d\n", sum);

	return 0;
}
1
2
3
4
5
6
7
8
9
10
11
12

add.c

int Add(int	x, int y) {
	return x + y;
}
1
2
3

如图解析：

3.3 运行环境

程序执行的过程中：

程序必须载入内存中。在有操作系统的环境中，一般由操作系统完成。在独立的环境中，程序的载入必须由手工安排，也可能是通过可执行代码置入只读内存来完成。
程序的执行便开始，接着调用main函数。
开始执行程序代码。这个时候程序将使用一个运行时堆栈stack（函数栈帧），储存函数的局部变量和返回地址。程序同时也可以使用静态static内存，存储于静态内存中的变量在整个执行过程一直保留它们的值。
终止程序。正常终止main函数；也有可能是意外终止。

结语

本节主要介绍了预处理阶段涉及的概念，了解更深层次的程序的编译与链接知识可以说是在修炼我们的内功，仅有本文还远远不够。

END

相关阅读:
phpstrom 快速注释：
torch-geometric(PYG) 环境配置
 图神经网络论文笔记（一）——北邮：基于学习解纠缠因果子结构的图神经网络去偏
 Git的精简使用
 腾讯美团“分道扬镳”，腾讯欲出售243亿美元股份，你会接盘吗？
分布式文件存储系统FastDFS[1]-介绍以及安装
 大咖说*计算讲谈社｜商用车智能驾驶商业化实践
 【网络编程】套接字编程——UDP通信
 面试说：聊聊JavaScript中的数据类型
 JVM阶段（6）-方法区回收
原文地址：https://blog.csdn.net/weixin_64904163/article/details/126263618