当前位置: 开发笔记 > 编程语言 > 正文

手把手教你完成一个简朴的编译器

作者：再见要死不活的_454 | 来源：互联网 | 2023-10-12 18:05

手把手教你完成一个简朴的编译器1、概述本日我们将进修开辟一个编译器，然则呢，这个编译器并非说什么都能都编译，它只是一个超等小的编译器，重要用于申明编译器的一些基本的道理。我们这个编

手把手教你完成一个简朴的编译器

1、概述

本日我们将进修开辟一个编译器，然则呢，这个编译器并非说什么都能都编译，它只是一个超等小的编译器，重要用于申明编译器的一些基本的道理。

《手把手教你完成一个简朴的编译器》

我们这个编译器可以将相似于lisp言语的函数挪用编译成相似于C言语的函数挪用。假如你对lisp言语和C言语这两者都不熟习，没紧要，什么言语实在无所谓，但接下来照样会给你一个疾速的引见。

假如我们有两个函数离别是add和subtract,假如用它们来盘算下面的表达式：

2 + 2 4 - 2 2 + （4 - 2）

那末在lisp言语中它可以长这模样：

(add 2 2) // 2 + 2 (subtract 4 2) // 4 - 2 (add 2 (subtract 4 2)) // 2 + （4 - 2）

而在C言语中它长这个模样：

add(2, 2) subtract(4, 2) add(2, subtract(4, 2))

相称简朴吧？

好吧，这是因为这仅仅只是我们这个编译器所须要处置惩罚的情况。这既不是list言语的完整语法，也不是C言语的完整语法。但这点语法已足以用来演示当代编译器所做的大部份事变。

大部份编译器所做的事变都可以剖析为三个重要的步鄹：剖析、转换和代码天生。

剖析。剖析就是将原始代码转换成代码的笼统示意。
转换。转换就是以这个笼统示意为基本，做编译器想做的任何事变。
代码天生。代码天生就是将转换后的笼统示意变成新的代码。

2、剖析

剖析一般分为两个阶段：词法剖析和句法剖析。

词法剖析。词法剖析一般是运用一个标记器(或词法剖析器)将原始代码拆分红叫做标记的东西。而标记是一些细小的对象构成的数组，它们一般用来形貌一些伶仃的语法片断，它们可以是数字、标签、标点符号、操纵符等等。
语法剖析。语法剖析将词法剖析获得的标记从新花样化为用于形貌语法的每一个部份及其相互关联的示意。这被称为中心示意或笼统语法树(AST)。笼统语法树(简称AST)是一个深度嵌套的对象，用于以一种既好用又能供应很多信息的情势表式代码。

关于下面的语法：

(add 2 (subtract 4 2))

标记可以长下面这个模样：

[ { type: 'paren', value: '(' }, { type: 'name', value: 'add' }, { type: 'number', value: '2' }, { type: 'paren', value: '(' }, { type: 'name', value: 'subtract' }, { type: 'number', value: '4' }, { type: 'number', value: '2' }, { type: 'paren', value: ')' }, { type: 'paren', value: ')' }, ]

然后它对应的笼统语法树(AST)可以长下面这个模样：

{ type: 'Program', body: [{ type: 'CallExpression', name: 'add', params: [{ type: 'NumberLiteral', value: '2', }, { type: 'CallExpression', name: 'subtract', params: [{ type: 'NumberLiteral', value: '4', }, { type: 'NumberLiteral', value: '2', }] }] }] }

3、转换

在剖析以后，编译器的下一步鄹是转换。一样，这不过就是将末了一步的笼统语法树(AST)拿过来对它做肯定的转变。这类转变多种多样，可以是在同一种言语中举行转变，也可以直接将笼统语法树转换成别的一种完整差别的新言语。

让我们来看看我们将怎样转换一个笼统语法树(AST)。

你可以已注意到，我们的笼统语法树内里有一些异常相似的元素。这些元素对象有一个type属性。这每一个对象元素都被称为一个AST节点。这些节点上定义的属性用于形貌AST树上的一个自力部份。

我们可以为数字字面量(NumberLiteral)竖立一个节点:

{ type: 'NumberLiteral', value: '2', }

或许是为挪用表达式(CallExpression)建立一个节点：

{ type: 'CallExpression', name: 'subtract', params: [...nested nodes go here...], }

当转换AST树的时刻，我们可以须要对它举行add、remove、replace等操纵。我们可以增添新节点，删除节点或许我们完整可以将AST树搁一边不睬，然后基于它建立一个全新的AST。

因为我们这个编译器的目的是将lisp言语转换成C言语，所以我们会聚焦建立一个特地用于目的言语(在这里是C言语)的全新AST。

3.1 遍历

为了阅读一切这些节点，我们须要可以遍历它们。这个遍历历程是对AST的每一个节点举行深度优先接见。

{ type: 'Program', body: [{ type: 'CallExpression', name: 'add', params: [{ type: 'NumberLiteral', value: '2' }, { type: 'CallExpression', name: 'subtract', params: [{ type: 'NumberLiteral', value: '4' }, { type: 'NumberLiteral', value: '2' }] }] }] }

所以关于上面的AST，我们须要像如许走：

Program &＃8211; 从AST树的顶层最先。
CallExpression (add) &＃8211; 挪动到Program的body属性的第一个元素。
NumberLiteral (2) &＃8211; 挪动到CallExpression(add)的第一个参数。
CallExpression (subtract) &＃8211; 挪动到CallExpression(add)的第二个参数。
NumberLiteral (4) &＃8211; 挪动到CallExpression(subtract)的第一个参数。
NumberLiteral (2) &＃8211; 挪动到CallExpression(subtract)的第二个参数。

假如我们直接操纵这个AST而不是建立一个零丁的AST，我们可以须要在这里引入种种笼统观点。然则我们正在尝试做的事变，只须要接见树中的每一个节点就足够了。

运用“接见”这个词的缘由是因为这个词可以很好的表达怎样在对象构造上操纵元素。

3.2 接见者

这里最基本的思绪就是我们建立一个接见者对象，这个对象具有一些要领，这些要领可以吸收差别的节点范例。

比方下面如许：

var visitor = { NumberLiteral() {}, CallExpression() {}, };

当我们遍历AST的时刻，一旦我们碰到一个与指定范例相婚配的节点，我们就会挪用接见者对象上的要领。

为了让这个函数比较好用，我们给它通报了该节点以及它的父节点：

var visitor = { NumberLiteral(node, parent) {}, CallExpression(node, parent) {}, };

但是，这里也会有可以出如今退出时挪用东西。设想一下我们前面提到的树构造：

- Program - CallExpression - NumberLiteral - CallExpression - NumberLiteral - NumberLiteral

当我们往下遍历的时刻，我们会碰到终究的分支。当我们接见完一切的分支后我们退出。所以向下遍历树，我们进入节点，然后向上回溯的时刻我们退出节点。

-> Program (enter) -> CallExpression (enter) -> Number Literal (enter) <- Number Literal (exit) -> Call Expression (enter) -> Number Literal (enter) <- Number Literal (exit) -> Number Literal (enter) <- Number Literal (exit) <- CallExpression (exit) <- CallExpression (exit) <- Program (exit)

为了支撑这类体式格局，我们的接见者对象须要改成下面这个模样：

var visitor = { NumberLiteral: { enter(node, parent) {}, exit(node, parent) {}, } };

4、代码天生

编译器的末了一步是代码天生。有时刻编译器在这一步会反复做一些转换步鄹做过的事变。然则对代码天生而言，它所做的大部份事变就是将我们的AST树stringify一下输出，也就是转换成字符串输出。

代码天生有多种事变体式格局，有一些编译器会反复应用前面天生的标记，另一些编译器会建立代码的零丁示意，以便线性地打印节点，然则据我说知，大多数编译器的战略是运用我们方才建立的谁人AST，这是我们将要关注的。

实际上，我们的代码天生器将晓得怎样打印AST的一切差别节点范例，而且它将递归地挪用自身来打印嵌套节点，直到将一切内容打印成一长串代码。

而就是如许！这就是编译器的一切差别部份。

如今不是说每一个编译器看起来都和我在这里形貌的完整一样。编译器有很多差别的用处，他们可以须要比我细致的更多的步骤。

然则如今您应当对大多数编译器的表面有一个整体的高层次的观点。

如今我已诠释了一切这些，你应当可以写好自身的编译器了是吧？

只是在开顽笑的啦，我会在这里继承供应协助，所以我们最先吧！

5、编译器的代码完成

前面说了，全部编译器或许可以分为三步：剖析、转换、代码天生。而剖析又可以分红两步：词法剖析和句法剖析。所以一共须要四个函数就可以完成了。我们来离别看一下:

5.1、剖析的完成

5.1.1、词法剖析之tokenizer完成

我们将从编译器的第一步——剖析——最先，应用tokenizer函数举行词法剖析。

我们将把字符串代码拆分红由标记构成的数组：

(add 2 (subtract 4 2)) => [{ type: 'paren', value: '(' }, ...]

我们的tokenizer吸收一个代码字符串，然后接下来做两个事变：

举个例子，关于(add 123 456)这段lisp言语代码，tokenizer化以后获得的效果以下：

《手把手教你完成一个简朴的编译器》

5.1.2、句法剖析之parser完成

句法剖析的目的就是将tokens数组转换成AST。也就是下面的历程：

[{ type: 'paren', value: '(' }, ...] => { type: 'Program', body: [...] }

所以，我们定义一个parse函数，吸收我们的tokens数组作为参数：

任然之前面的例子举例，我们剖析后获得的AST以下：

《手把手教你完成一个简朴的编译器》

5.2、转换的完成

如今我们已有了我们的AST，我们想要一个接见者可以接见差别的节点，不管什么时候婚配到对应的节点范例的时刻，我们都可以挪用接见者上的要领。
所以我们定义一个旅行者函数，这个函数吸收两个参数，第一个参数为AST树，第二个参数是一个接见者。这个接见者须要完成差别范例的AST节点须要挪用的一些要领：

traverse(ast, { Program: { enter(node, parent) { // ... }, exit(node, parent) { // ... }, }, CallExpression: { enter(node, parent) { // ... }, exit(node, parent) { // ... }, }, NumberLiteral: { enter(node, parent) { // ... }, exit(node, parent) { // ... }, }, });

5.2.1 、traverser函数完成

因而，我们的旅行者函数的完成以下，它吸收AST和一个接见者作为参数，而且在内里还定义了两个要领：

5.2.2 、transformer函数完成

前面我们已写好了traverser函数，而traverser函数对节点的重要操纵都是经由过程它的第二个参数，也就是接见者来完成的，在上面，我们并没有定义接见者的详细完成，只是定义了enter和exit两个接口，实际上这两个接口所做的事变就是转换步鄹真正干的事变。为此我们定义transformer函数。

transformer函数吸收AST，将它通报给traverser函数，而且transformer函数内部还为traverser函数供应接见者。终究transformer函数返回一个新建的AST。

比方之前面谁人例子为例，获得的AST和转换后的AST以下：

---------------------------------------------------------------------------- Original AST | Transformed AST ---------------------------------------------------------------------------- { | { type: 'Program', | type: 'Program', body: [{ | body: [{ type: 'CallExpression', | type: 'ExpressionStatement', name: 'add', | expression: { params: [{ | type: 'CallExpression', type: 'NumberLiteral', | callee: { value: '2' | type: 'Identifier', }, { | name: 'add' type: 'CallExpression', | }, name: 'subtract', | arguments: [{ params: [{ | type: 'NumberLiteral', type: 'NumberLiteral', | value: '2' value: '4' | }, { }, { | type: 'CallExpression', type: 'NumberLiteral', | callee: { value: '2' | type: 'Identifier', }] | name: 'subtract' }] | }, }] | arguments: [{ } | type: 'NumberLiteral', | value: '4' -------------------------------- | }, { | type: 'NumberLiteral', | value: '2' | }] | } | } | }] | } ----------------------------------------------------------------------------

所以我们的transformer函数的详细完成以下：

我们一样之前面的例子来看一下新建立AST长什么模样：

《手把手教你完成一个简朴的编译器》

5.3、代码天生的完成

如今让我们进入我们的末了一个步鄹：代码天生。我们的代码天生函数会递归的挪用自身用来打印它的节点到一个很大的字符串。也就是完成由newAST到代码的历程：

newAst => generator => output

5.3.1 codeGenerator的完成

function codeGenerator(node) { // 我们会依据节点的type范例来将事变离别处置惩罚 switch (node.type) { // 假如我们有一个Program节点，我们将遍历body中的每一个节点而且对每一个节点递挪用codeGenerator // 函数，而且将它们的效果用一个换行符连接起来 case 'Program': return node.body.map(codeGenerator) .join('\n'); // 关于ExpressionStatement节点，我们将在节点的expression节点上挪用 // codeGenerator函数，然后我们会加上一个分号(即；) case 'ExpressionStatement': return ( codeGenerator(node.expression) + ';' // <<(...because we like to code the *correct* way) ); // 关于CallExpression节点，我们会打印callee并最先一个做括弧 // 我们会遍历该节点的arguments属性，然后对每一个属性挪用codeGenerator要领, // 将他们的效果用逗号分开，末了在背面加一个右括弧 case 'CallExpression': return ( codeGenerator(node.callee) + '(' + node.arguments.map(codeGenerator) .join(', ') + ')' ); // 关于标识符，我们将返回节点的名字 case 'Identifier': return node.name; // 关于NumberLiteral节点，我们返回它的value属性 case 'NumberLiteral': return node.value; // 关于StringLiteral节点，我们用引号将它的value属性值包裹起来 case 'StringLiteral': return '"' + node.value + '"'; // 假如没有辨认节点，我们将抛出毛病 default: throw new TypeError(node.type); } }

一样以上面例子举例，它的输出效果如图：

《手把手教你完成一个简朴的编译器》

6、编译器（compiler）的完成

如今，编译器的三大步鄹的代码都已完成了，我们如今最先完成编译器，它的体式格局就是将三个步鄹链接起来，可以将这几个步鄹形貌以下：

1. input => tokenizer => tokens 2. tokens => parser => ast 3. ast => transformer => newAst 4. newAst => generator => output

我们的编译器代码以下：

function compiler(input) { let tokens = tokenizer(input); let ast = parser(tokens); let newAst = transformer(ast); let output = codeGenerator(newAst); // and simply return the output! return output; }

末了作为一个模块，我们愿望别人去运用它，因为我们的每一个函数都是相对自力的一个功能模块，所以我们将这内里的每一个函数都导出：

module.exports = { tokenizer, parser, traverser, transformer, codeGenerator, compiler, };

更多相干和无关内容迎接阅读Github和个人博客

书把手系列还包含：手把手教你完成一个简朴的Promise，手把手教你完成一个简朴的MVC形式，手把手教你完成一个简朴的MVP形式，手把手教你完成一个简朴的MVVM形式。

手把手教你完成一个简朴的编译器

1、概述

2、剖析