c++中如何解析xml文件_c++读取与处理xml数据方法

推荐tinyxml2:轻量、头文件即用、无依赖、全平台支持;需检查LoadFile()返回值,用FirstChildElement()替代RootElement(),GetText()前判空并手动trim,遍历用for循环,SaveFile()需SetIndent()格式化。

用 tinyxml2 读取 XML 文件最省事

直接上手推荐 tinyxml2,轻量、头文件即用、无依赖,比 libxml2 简单太多,也比 pugixml 更少隐式行为。Windows/Linux/macOS 全平台支持,C++11 起就能用。

常见错误:忘记检查 LoadFile() 返回值,导致后续调用 FirstChildElement() 崩溃;或误把 XMLDocument::RootElement() 返回的 nullptr 当有效节点用。

  • 下载 tinyxml2.htinyxml2.cpp,加到工程里(或用 vcpkg:vcpkg install tinyxml2
  • 确保 XML 文件编码是 UTF-8(含 BOM 会报错 XML_ERROR_PARSING_TEXT
  • 始终检查 doc.LoadFile("config.xml") == tinyxml2::XML_SUCCESS
  • doc.FirstChildElement("root") 替代 doc.RootElement(),避免空文档时返回空指针再解引用

提取元素文本内容要防空指针和空白符

XMLElement::GetText() 返回的是裸指针,可能为 nullptr;且默认不 trim 空格换行——XML 中换行缩进会被当作文本节点的一部分。

典型场景:读取 Alice ,直接用 elem->GetText() 会得到 " Alice ",甚至更糟:如果中间有换行,实际拿到的是 "\n Alice\n"

  • 先判空:if (auto text = elem->GetText()) { /* 处理 */ }
  • 手动 trim:用 std::string_view + find_first_not_of() / find_last_not_of(),别依赖 std::string::erase() 原地改
  • 若需递归合并所有子文本(如含 CDATA 或混合节点),改用 elem->FirstChild()->Value() 并遍历 NextSibling(),但多数配置类 XML 不需要这么复杂

遍历同名子元素别用 while(true) + NextSiblingElement()

写成 while (child = parent->FirstChildElement("item")) { ... child = child->NextSiblingElement("item"); } 是错的——第一次就卡死在第一个节点,永远循环。

正确模式是“先取首节点,再在循环体内跳转”,否则逻辑错位,调试时容易漏掉最后一个元素或无限循环。

for (auto* item = root->FirstChildElement("item"); 
     item != nullptr; 
     item = item->NextSiblingElement("item")) {
    const char* id = item->Attribute("id");
    const char* value = item->GetText();
    // 处理每个 item
}
  • for 循环比 while 更清晰,初始化、条件、迭代三部分一目了然
  • 传入 NextSiblingElement("item") 参数可跳过非目标标签,比如中间夹着 也不影响
  • 若 XML 结构不确定(可能无 item),FirstChildElement() 返回 nullptr 时循环直接不执行,安全

修改 XML 后保存要注意编码和格式化

XMLDocument::SaveFile() 默认输出无缩进、无换行的紧凑格式,且强制 UTF-8 编码——Windows 记事本打不开(显示乱码),部分旧系统工具也不认。

更麻烦的是:如果原始 XML 有注释或 CDATA,tinyxml2 解析后保存会丢失它们(它不保留非结构信息)。

  • 启用格式化:调用 doc.SetIndent(" ") 再保存,缩进才好看
  • UTF-8 with BOM?tinyxml2 不支持写 BOM,得自己用二进制方式在文件头插入 0xEF 0xBB 0xBF
  • 要保留注释?换 pugixml,它提供 preserve_comments 选项;但代价是 API 更冗长、内存占用略高
  • 生产环境写 XML 配置,建议只读不写;真要生成,优先考虑 JSON/YAML,XML 的写入生态太弱

真正难的不是解析语法,而是处理现实 XML:命名空间、实体引用、DTD 声明、混合内容——这些 tinyxml2 全都不支持。一旦遇到,要么预处理清洗,要么换重型库。别在项目中期才发现 XML 里藏着