具体代码已放至Github(仅供参考):
qxpBlog/Compiler_UESTC: 电子科技大学编译原理实验 (github.com)
具体实验过程如下:
一、实验内容及步骤:
1. 实验内容:
用flex生成一个词法分析器,用以识别SysY语法,具体的以test_cases中的文件作为输入,输出token二元组,识别程序中所有的常数、运算符、界符、标识符及关键字。
2.实验步骤:
(1)编写一个auto_lex.l文件,在文件中把要识别的单词用正则表达式写好。
(2)在声明部分,定义一个枚举类型,用以表示单词的类型。定义一个联合_YYLVAL用以记录单词的属性值。如下图1-1(a),1-1(b)所示。
图 1-1(a) 枚举类型的声明
图1-1(b) 储存属性的联合的定义
(3)在定义部分,给正则表达式命名,以提高规则部分可读性。如图1-2所示。
图1-2 正则定义部分
(4)在规则部分,编写词法分析器要识别符号的正则表达式及其对应的相关的动作。如图 1-3所示。
图1-3 正则表达式及相应动作
(5)在辅助函数部分,编写主函数,以及词法分析过程需要使用到的yywrap函数。如图1-4所示。
图1-4 辅助函数部分
(6)在Windows 10系统的DOS命令台上输入flex auto_lex.l,经过flex编译后生成lex.yy.c文件。如图1-5所示。
图1-5 编译auto_lex.l文件
(7)之后,在DOS命令台上输入命令gcc -o scan lex.yy.c经过gcc编译后,生成我们所需要的词法分析器的可执行文件scan.exe。如图1-6所示。
图1-6 生成可执行文件scan.exe
(8)输入命令scan,执行scan.exe文件,并在命令行上输入要识别的字符序列,例如输入int a = 10;按回车键后,会自动输出所识别的单词序列,每个单词都是一个二元组,包含该单词的类别和属性。对于SysY语言,我们识别时对关键词、界符、运算符采用一字一码的形式,对标识符、常数采用一类一码的形式。如图1-7所示。
图1-7 测试用例
二、实验运行结果及测试:
1.首先先对SysY语言所涉及到的常数以及各个关键词、标识符、界符、运算符进行测试。
(1) 分别输入整数123,-123以及浮点数12.5,-12.5,测试该词法分析器对整数与浮点数的分析效果,结果如图2-1所示。
图2-1 整数及浮点数测试
(2)输入一个变量符号identifier_case,测试该词法分析器对标识符的分析效果,结果如图2-2所示。
图2-2 标识符测试
(3)输入三个数据类型int,float,void,测试该词法分析器对数据类型的分析效果,结果如图2-3所示。
图2-3 数据类型测试
(4)输入SysY文法的各个关键词,测试该词法分析器对关键词的分析效果,结果如图2-4所示。
图2-4 关键词测试
(5)输入SysY文法的各个算术运算符以及逻辑运算符,测试该词法分析器对算术运算符以及逻辑运算符的分析效果,结果如图2-5所示。
图2-5 运算符测试
(6)输入SysY文法的各个界符,测试该词法分析器对界符的分析效果,结果如图2-6所示。
图2-6 界符测试
2.选取test_cases文件中的两个文件对该此法分析器进行测试:
(1)输入03_arr_defn2.sy文件,文件内容见图2-7(a)测试结果见图2-7(b).
图2-7(a) 文件内容
图2-7(b) 测试结果
(2)输入36_op_priority2.sy文件,文件内容见图2-8(a),测试结果见图2-8(b)、图2-8(c)。
图2-8(a) 文件内容
图2-8(b) 测试结果1
图2-8(c) 测试结果2
从上述两个方面的测试输出结果来看,该词法分析器较好的完成了对SysY文法的词法分析功能。
六、实验结论与总结:
本试验中所生成的词法分析器能够识别SysY文法中所有的常数、运算符、界符、标识符及关键字,并能够正确输出所识别的单词序列。比较好的完成了实验要求,满足基本的功能要求,代码简洁。但同时该词法分析器也只局限于识别SysY文法,对于一些在SysY文法中未定义的单词是无法识别的。
总的来说,通过本次词法分析器实现的实验,对Flex这一词法分析器生成工具的功能有了一个整体的认识,同时也对编译过程中的词法分析过程有了一个更加全面的认知。