如何使用LLVM的libTooling为c++编写自定义静态分析工具? (AST操作)

用hasArgument(0, expr(hasType(qualType(hasCanonicalType(pointerType())))).bind("arg"))捕获裸指针实参,并排除智能指针;需为每个matcher指定唯一bind名,否则回调被覆盖。

怎么用 clang::ast_matchers 捕获带裸指针参数的函数调用?

直接写 callExpr() 会匹配所有调用,但你要的是“传了裸指针进去”的那一类。关键不是看函数声明,而是看实参类型——得在 argumentCountIs()hasArgument() 里嵌套类型检查。

常见错误是用 hasType(pointerType()),它只认顶层是指针的类型;而像 int**const char* 会被漏掉。正确做法是用 hasType(qualType(hasCanonicalType(pointerType()))),强制走 canonical 类型归一化。

  • 匹配 foo(ptr) 中的 ptr 是裸指针(不含 std::unique_ptr 等智能指针):用 hasArgument(0, expr(hasType(qualType(hasCanonicalType(pointerType())))).bind("arg"))
  • 排除智能指针:加 unless(hasType(qualType(matchesName("std::.*")))) 不可靠,应改用 unless(hasType(recordType(hasDeclaration(cxxRecordDecl(hasName("unique_ptr"), isTemplateInstantiation())))))
  • 注意:AST 中 int*const int*canonicalType 不同,但都满足 pointerType(),所以归一化是必要的

为什么 MatchFinder::addMatcher() 多次调用后只触发最后一次的回调?

不是 bug,是默认行为:MatchFinder 内部把所有 matcher 合并成一个逻辑“或”关系,但回调绑定靠 .bind("id") 字符串标识。如果你两次 addMatcher(... .bind("x")),第二次会覆盖第一次的回调注册。

真实场景中,你往往需要对不同节点类型(比如 varDeclcallExpr)做不同处理,必须用不同 binding 名字,再在 run() 里用 Results.Nodes.getNodeAs("var") 分别取。

  • 每个 matcher 必须用唯一 .bind("xxx"),例如 varDecl().bind("raw_ptr_var")callExpr().bind("unsafe_call")
  • MatchFinder::matchAST() 执行时,所有匹配结果会按 binding 名分组塞进 MatchResult,不会混在一起
  • 如果忘了 bind,getNodeAs() 返回空指针,且无编译/运行时提示——这是最常踩的坑

如何从 clang::QualType 安全提取基础类型名(比如 “int” 而不是 “int*”)?

QualType::getAsString() 返回的是带修饰的完整字符串,对 const int* 返回 "const int *",没法直接判断是否为原始类型。得先剥掉指针、引用、const/volatile 限定,拿到 underlying type。

正确路径是:先 getTypePtr() → 走 getUnqualifiedDesugaredType() → 再用 getAs()getAs() 判断类别。别用 getBaseType(),它只对数组/指针有效,对 typedef 无效。

  • 获取裸基础类型名:
    std::string getBareTypeName(clang::QualType QT) {
      auto *TP = QT.getTypePtr();
      auto Unq = TP->getUnqualifiedDesugaredType();
      if (auto *BT = Unq->getAs())
        return BT->getNameAsCString(TP->getASTContext().getLangOpts());
      if (auto *RT = Unq->getAs())
        return RT->getDecl()->getNameAsString();
      return "unknown";
    }
  • typedef int my_int;getUnqualifiedDesugaredType() 会展开为 int;而 getCanonicalType() 可能仍保留 my_int
  • 不要在 AST matcher 回调里直接调 getAsString() 做字符串比较,类型拼写受编译选项影响(如 -fms-extensions),不可靠

libTooling 工具跑起来报错 “no registered pass for ‘-ast-dump’” 怎么办?

这不是你的代码问题,是 clang 驱动层没加载 AST 相关插件。当你用 clang++ -Xclang -ast-dump 能看到树,但 libTooling 程序却卡在 createInvocationFromCommandLine() 后找不到 ASTConsumer,大概率是 CommonOptionsParser 构造时没传对参数,或链接了错误的 clang 库版本。

核心检查点只有两个:一是确保 ClangTool 初始化时传入的 Compilat

ionDatabase 路径下有 compile_commands.json,且其中命令含 -x c++;二是确认你链接的是 libclangTooling.a 而非 libclangFrontend.a —— 后者不带 AST 匹配器注册逻辑。

  • 验证链接库:ldd your_tool | grep clangTooling,必须出现 libclangTooling.so 或对应静态库
  • 调试技巧:在 run() 回调开头加 llvm::errs() ,如果这行都不输出,说明 matcher 根本没注册成功,回头查 MatchFinder::addMatcher() 是否被跳过
  • Mac 上常见问题是 Xcode 自带 clang 与 LLVM 官方包冲突,clang++ --version 和你链接的 libclangTooling 版本必须一致,差一个小版本都可能失败