Go语言的xml.Unmarshal怎么处理XML属性和内部文本

Go 的 xml.Unmarshal 通过结构体字段标签区分属性与文本:用 xml:"name,attr" 解析 XML 属性,用 xml:",chardata" 捕获元素内部文本;属性不加 ,attr 则被忽略,文本字段需为 string 或 []byte,混用时注意空白符和命名冲突。

Go 的 xml.Unmarshal 通过结构体字段标签(xml:)区分属性(attr)和内部文本(chardata),关键在于正确标注字段,否则默认只解析子元素。

xml:"name,attr" 解析 XML 属性

XML 属性(如 中的 idlang)必须显式声明为 attr,否则会被忽略。

示例:

type Book struct {
    ID   string `xml:"id,attr"`
    Lang string `xml:"lang,attr"`
    Name string `xml:"name"` // 子元素,不是属性
}

对应 XML:Go编程IDLang 才能被正确赋值。

xml:",chardata" 捕获元素内部文本

如果元素只有文本内容、没有子元素(如 Go语言入门),需用 ,chardata 标签,且该字段类型应为 string[]byte

示例:

type Title struct {
    Text string `xml:",chardata"`
}

若结构体中同时存在子元素和文本内容(混合内容),chardata 字段会捕获所有纯文本节点(包括换行和空格),顺序与 XML 中一致。

常见陷阱与建议

  • 属性字段不加 ,attr → 值始终为空,不会报错也不会警告
  • 多个同名属性(如重复 class)无法直接映射,Go 的 xml 包不支持;需手动解析或改用其他库
  • 内部文本字段不要与其他子元素字段同名,否则解析行为未定义
  • 嵌套元素中混有文本时,优先用 xml:",chardata" + 其他字段组合,避免遗漏空白符
  • 不确定结构时,先用 xml.Namexml.CharData 手动解析,再转结构体

完整小例子:带属性和文本的 book 元素

type Book struct {
    ID     string `xml:"id,attr"`
    Author string `xml:"author,attr"`
    Title  string `xml:",chardata"`
}

// XML: 并发编程实践
var b Book
xml.Unmarshal([]byte(`并发编程实践`), &b)
// b.ID == "456", b.Author == "张三", b.Title == "并发编程实践"

不复杂但容易忽略细节,关键是按需选对标签后缀。