如何构建一个JavaScript的AST解析器

答案:构建JavaScript AST解析器需将源码转为树形结构,可借助Acorn等工具生成AST,并用estraverse遍历操作节点,或通过分词、解析实现简易解析器用于学习。

构建一个 JavaScript 的 AST(抽象语法树)解析器,核心是将源代码转换成结构化的树形对象,便于分析、转换或验证。虽然从零实现完整的解析器非常复杂,但理解其原理并借助工具可以快速上手。

理解AST的基本结构

JavaScript 源码是一串文本,而 AST 是这段代码的树状表示形式。每个节点代表一个语法结构,比如变量声明、函数调用、二元运算等。

例如,代码 let x = 1 + 2; 可能被解析为:

{
  type: "Program",
  body: [
    {
      type: "VariableDeclaration",
      kind: "let",
      declarations: [
        {
          type: "VariableDeclarator",
          id: { type: "Identifier", name: "x" },
          init: {
            type: "BinaryExpression",
            operator: "+",
            left: { type: "Literal", value: 1 },
            right: { type: "Literal", value: 2 }
          }
        }
      ]
    }
  ]
}

这种结构让程序可以遍历和操作代码逻辑。

使用现有工具生成AST

自己写词法分析(lexer)和语法分析(parser)耗时且容易出错。推荐使用成熟的库来生成 AST。

  • Esprima:纯 JavaScript 编写的高性能 ECMAScript 解析器,输出标准 ESTree 格式。
  • Acorn:轻量、快速,被 Babel、ESLint 等广泛使用。
  • Babel Parser(@babel/parser):支持最新语法和插件扩展,适合现代项目。

以 Acorn 为例:

const acorn = require('acorn');
const code = 'let x = 1 + 2;';
const ast = acorn.parse(code, { ecmaVersion: 2025 });
console.log(ast);

遍历和操作AST节点

生成 AST 后,通常需要遍历它进行检查或修改。可以手动递归遍历,也可以使用辅助工具。

  • estraverse:专为 ESTree 设计的遍历和修改工具。

示例:打印所有函数名

const estraverse = require('estraverse');
estraverse.traverse(ast, {
  enter: function(node) {
    if (node.type === 'FunctionDeclaration') {
      console.log('Found function:', node.id.name);
    }
  }
});

自定义简单解析器(学习用途)

如果你想了解底层机制,可以从最简单的表达式开始,比如解析 1 + 2

基本步骤:

  • 分词(Tokenize):把源码拆成有意义的单元(如数字、运算符)。
  • 解析(Parse):根据语法规则组合 token 成树结构。

简化示例:

function tokenize(input) {
  const tokens = [];
  let i = 0;
  while (i < input.length) {
    const char = input[i];
    if (char === '+') {
      tokens.push({ type: 'operator', value: '+' });
      i++;
      continue;
    }
    if (/\d/.test(char)) {
      let num = '';
      while (i < input.length && /\d/.test(input[i])) {
        num += input[i++];
      }
      tokens.push({ type: 'number', value: Number(num) });
      continue;
    }
    if (char === ' ') { i++; continue; }
    throw new Error(`Unknown char: ${char}`);
  }
  return tokens;
}

function parse(tokens) {
  let current = 0;
  const walk = () => {
    let token = tokens[current];
    if (token.type === 'number') {
      current++;
      return {
        type: 'NumberLiteral',
        value: token.value
      };
    }
    token = tokens[current];
    if (token.type === 'operator' && token.value === '+') {
      current++;
      return {
        type: 'BinaryExpression',
        operator: '+',
        left: walk(),
        right: walk()
      };
    }
    throw new Error('Invalid syntax');
  };
  const ast = {
    type: 'Program',
    body: []
  };
  while (current < tokens.length) {
    ast.body.push(walk());
  }
  return ast;
}

这只是最基础的模型,真实 JS 语法要复杂得多。

基本上就这些。生产环境建议用 Acorn 或 Babel Parser,学习原理可以尝试手写简单解析器。掌握 AST 是编写代码转换、lint 工具的关键一步。不复杂但容易忽略细节。