以下是我对编译原理的理解,和课本上的不同。如果你要考试,请不要阅读本文。如果你想开发一个编译器,请一定阅读本文。
词法分析的任务,是识别字符串、转义符、换行符、缩进。
采用Python风格的缩进。引入扩展的转义符。
for a, b in x
print a
print b
\n
\(new line)
在词法分析阶段就使用树状结构。如果分析出100个词法符号,就创建一棵1个根节点、100个子节点的扁平的树。这么设计是为了与后边的语法分析接轨。通过对词法分析树的剪切、拼接,构建语法分析树。
在语法分析阶段,抛弃“先乘除后加减”,而是先处理优先级低的符号。例如,1+2*3
,先处理成1
和2*3
,并构建一个语法树,再在语法树上处理2*3
。直到语法树上的所有节点都不可处理,就结束语法分析。
不再使用有限状态机,而是使用函数族,也就是一系列函数。对语法树上的每一个节点,运行每一个函数。如果给定节点是给定函数能处理的,就修改语法树,否则跳过,什么也不做。节点的内容类似于:{“一行代码”,“分配[30]个[学生类]至[班]”}。
语法树上的节点可以有多重值。用C++的vector表示多重值。例如某节点的值是:{“字符串”, “hello world”},{“缩进”, " "}。而其他的节点可以只有一个值:{“代码块”}。
求[A]和[B]的最小公倍数至[C]
分析的结果,是{“一行代码”,“求[A]和[B]的最小公倍数至[C]”}。进一步分析,得到{“一行代码”,“求[A]和[B]的最小公倍数至[C]”,“求A和B的最小公倍数至C”}。并且,在该节点下面创建表示A、B、C的三个节点。至此,一棵小型的语法树就产生了。
语言中的每个句子(句型)对应一个处理函数,对每个节点应用每个函数。所以,可以针对某个句型编写专门的处理函数,实现特定的功能。
有可能一个句子可以同时被多个函数匹配,这时发生冲突。如何处理冲突?需要将整棵语法树复制,看一看它们各自能发展成什么样子,有点像平行宇宙。
处理函数的原型:int 句型625(Node n);
匹配返回1,无法处理返回0。无法处理说明该句型看不懂该句子,但期待其他句型能看懂。
625只是个编号,也许实际使用的是"求A和B的最小公倍数至C"这样的,语意明确的函数名。
还需要一个调度程序,以后再说吧。
处理函数不仅可以读取自己所在的节点,还能读取旁边的节点,期待能产生上下文有关文法的效果。它也会修改节点的内容和语法树的结构。
如果一个句型对应两个函数,一个判断,一个处理?先判断一遍,结果是只有一个句型匹配,就使用这个句型的处理函数;结果是有多个句型匹配,需要告知程序员;结果是没有匹配,也要告知。
当出现二义性的句子时,可以考虑修改源代码,类似于四则运算忘了加小括号的问题。也可以考虑修改「公共命名空间」,避免类似的情况再次发生。当然,修改之后也要重新制作语言。