如何使用正则表达式正确捕获花括号内含特殊字符(如 # 和 _)的完整占位符内容

本文详解如何通过优化 `preg_match` 的正则模式,精准捕获 `{{...}}` 内部包含字母、数字、下划线和井号的完整字符串(如 `label1#label2_label3`),避免因重复捕获组导致的截断问题,并提供高性能、可维护的解决方案。

在 PHP 中处理模板占位符(如 {{label1#label2_label3}})时,若正则表达式设计不当,$matches[1] 往往无法返回预期的完整内部字符串,而是只保留最后一次迭代匹配的内容——这正是原始问题中 label1# 消失的根本原因。

根本症结在于原正则 /\\{\\{(\w+|\d+|_+|#+)*\\}\\}/i 存在两个关键缺陷:

  1. \w 已隐含匹配字母、数字和下划线(即等价于 [a-zA-Z0-9_]),因此显式写出 |\d+|_+|#+ 不仅冗余,还因 * 修饰捕获组导致重复捕获组覆盖行为(PHP 只保留最后一次成功匹配的子组值);
  2. # 未被包含在 \w 中,而原模式试图用独立分支 #+ 匹配,却因分组结构失效而被忽略。

✅ 正确解法是:用单一字符类明确涵盖所有合法字符,并确保整个内部内容由一个非重复捕获组捕获

✅ 推荐正则模式(简洁通用版)

$content = "{{label1#label2_label3}}";
preg_match('/{{([\w#]+)}}/i', $content, $matches);
print_r($matches);

输出:

Array
(
    [0] => {{label1#label2_label3}}
    [1] => label1#label2_label3
)
  • [\w#] 明确允许字母、数字、下划线及井号;
  • + 确保匹配一个或多个连续合法字符,避免空匹配;
  • 单对圆括号 (...) 构成唯一捕获组,彻底规避重复组覆盖问题;
  • 末尾 /i 使模式不区分大小写(按需可移除)。

⚠️ 进阶约束(禁止 # 或 _ 出现在首尾)

若业务要求占位符不能以 # 或 _ 开头/结尾(例如 {{#invalid}} 或 {{valid_}} 应被拒绝),可升级为更严谨的模式:

/{{([^\W_]+(?:[_#][^\W_]+)*)}}/

模式解析:

  • [^\W_]+:匹配至少一个“非非单词字符”且非下划线的字符(即纯 \w 但排除 _),确保开头为字母或数字;
  • (?:[_#][^\W_]+)*:非捕获组,零次或多次匹配 # 或 _ 后紧跟至少一个合法单词字符,保证 #/_ 后必有内容;
  • 整体确保 # 和 _ 仅作为分隔符出现在中间,提升数据合法性。

? 关键注意事项

  • 性能对比:相比字符串 str_replace 二次处理(如 str_replace("{", "", ...)),纯正则一次匹配效率更高,尤其在大量占位符场景下优势显著;
  • 转义安全:{ 和 } 在正则中无特殊含义(除非在字符类中),但为可读性仍建议字面量书写 {{ 和 }};
  • 边界校验:若需严格匹配独立占位符(避免 {{{abc}} 被误捕),可在前后添加单词边界 \b 或锚点 ^/$,但模板解析中通常配合 preg_match_all 全局扫描更实用;
  • Unicode 支持:若需支持中文等 Unicode 字符,将 [\w#] 替换为 [\p{L}\p{N}#_] 并添加 u 修饰符(如 /{{([\p{L}\p{N}#_]+)}}/iu)。

掌握这一模式,即可优雅、高效地提取任意含 #/_ 的占位符内容,告别字符串裁剪的 hack 式方案。