c++如何实现一个JSON解析器 c++手写Parser入门【实践】

用C++手写轻量JSON解析器需分Tokenizer和Parser两步:先实现词法分析切出Token,再用递归下降法解析为std::variant结构;支持对象、数组、字符串(含\t\n\\\"转义)、数字(含科学计数)、布尔和null,不支持注释与尾随逗号。

用C++手写一个轻量JSON解析器,核心在于理解JSON语法结构、设计清晰的Token流和递归下降解析逻辑。不需要依赖第三方库,从零开始能帮你深入掌握词法分析与语法分析的本质。

一、明确JSON支持的基本结构

标准JSON包含:对象({})数组([])字符串("")数字(整数/浮点)布尔(true/false)null。不需支持注释或尾随逗号,先做最小可行版本。

  • 字符串需处理转义:\t \n \\ \" 等(至少实现这4种)
  • 数字支持带符号整数、小数、科学计数法(如 -123、3.14、1e-5)
  • 布尔字面量必须全小写,大小写敏感

二、分两步:Tokenizer + Parser

不要试图一步解析。先切出Token(词法分析),再按语法规则组装成树(语法分析)——这是最易调试、最符合直觉的路径。

  • Tokenizer:遍历输入字符串,跳过空白,识别双引号字符串、大括号、方括号、冒号、逗号、true/false/null、数字。每个Token带类型(STRING、NUMBER、LBRACE等)和原始值(string_view或std::string)
  • Parser:用递归下降法。例如 parse_value() 根据当前Token类型分发:遇到 { 调用 parse_object(),[ 调用 parse_array()," 调用 parse_string(),等等
  • 维护一个 Token 迭代器(如 vector::const_iterator& it),每次 consume() 后 it++,错误时抛 std::runtime_error 并附带位置信息(行/列)

三、数据结构设计:用variant+vector+map足够

避免过度设计。C++17起用 std::variant 最简洁:

(示例)

using JsonValue = std::variant<:nullptr_t bool double std::string std::vector>, std::map<:string jsonvalue>>;

  • null → nullptr_t
  • true/false → bool
  • 数字统一存 double(int可隐式转,精度够日常用)
  • 对象用 std::map(保持插入顺序可用 std::unordered_map,但标准JSON对象无序,map更稳妥)
  • 数组用 std::vector

四、关键细节:字符串转义与数字解析

这两处最容易出bug,建议单独封装函数:

  • parse_string():遇到 " 后,逐字符读取直到下一个 ";遇 \ 后查表转换:'\\'→'\\','"'→'"','n'→'\n','t'→'\t';其他 \x 形式可暂报错
  • parse_number():用 std::from_chars(C++17)最可靠,比 stringstream 快且不抛异常;若环境不支持,可用 strtod + errno 检查,注意处理前导空格和结尾非法字符
  • 所有解析函数应在消费Token后立即校验 next token 是否合法(如对象后应为 } 或 ,),提前失败比深层嵌套后报错更友好

不复杂但容易忽略。写完后用 RFC 8259 的典型样例(如空对象、嵌套数组、带转义的中文字符串)验证,再逐步加边界测试——比如超长数字、缺失引号、不闭合括号。稳住结构,小步迭代,你就已经走在真正理解解析器的路上了。