如何使用正则表达式正确捕获花括号内含特殊字符（如 # 和 _）的完整占位符内容_技术教程

本文详解如何通过优化 `preg_match` 的正则模式，精准捕获 `{{...}}` 内部包含字母、数字、下划线和井号的完整字符串（如 `label1#label2_label3`），避免因重复捕获组导致的截断问题，并提供高性能、可维护的解决方案。

在 PHP 中处理模板占位符（如 {{label1#label2_label3}}）时，若正则表达式设计不当，$matches[1] 往往无法返回预期的完整内部字符串，而是只保留最后一次迭代匹配的内容——这正是原始问题中 label1# 消失的根本原因。

根本症结在于原正则 /\\{\\{(\w+|\d+|_+|#+)*\\}\\}/i 存在两个关键缺陷：

\w 已隐含匹配字母、数字和下划线（即等价于 [a-zA-Z0-9_]），因此显式写出 |\d+|_+|#+ 不仅冗余，还因 * 修饰捕获组导致重复捕获组覆盖行为（PHP 只保留最后一次成功匹配的子组值）；
# 未被包含在 \w 中，而原模式试图用独立分支 #+ 匹配，却因分组结构失效而被忽略。

✅ 正确解法是：用单一字符类明确涵盖所有合法字符，并确保整个内部内容由一个非重复捕获组捕获。

$content = "{{label1#label2_label3}}";
preg_match('/{{([\w#]+)}}/i', $content, $matches);
print_r($matches);

输出：

Array
(
    [0] => {{label1#label2_label3}}
    [1] => label1#label2_label3
)

若业务要求占位符不能以 # 或 _ 开头/结尾（例如 {{#invalid}} 或 {{valid_}} 应被拒绝），可升级为更严谨的模式：

/{{([^\W_]+(?:[_#][^\W_]+)*)}}/

模式解析：

性能对比：相比字符串 str_replace 二次处理（如 str_replace("{", "", ...)），纯正则一次匹配效率更高，尤其在大量占位符场景下优势显著；
转义安全：{ 和 } 在正则中无特殊含义（除非在字符类中），但为可读性仍建议字面量书写 {{ 和 }}；
边界校验：若需严格匹配独立占位符（避免 {{{abc}} 被误捕），可在前后添加单词边界 \b 或锚点 ^/$，但模板解析中通常配合 preg_match_all 全局扫描更实用；
Unicode 支持：若需支持中文等 Unicode 字符，将 [\w#] 替换为 [\p{L}\p{N}#_] 并添加 u 修饰符（如 /{{([\p{L}\p{N}#_]+)}}/iu）。

掌握这一模式，即可优雅、高效地提取任意含 #/_ 的占位符内容，告别字符串裁剪的 hack 式方案。