XML文档对象模型(DOM)是什么 DOM树结构详解

DOM是浏览器将XML/HTML解析为内存中树状对象结构的标准方式,以节点形式表示元素、属性、文本等,通过Document根节点组织父子兄弟关系,支持编程访问与修改。

DOM(Document Object Model)是浏览器将XML(或HTML)文档解析成内存中树状对象结构的标准方式,它让程序能以编程方式访问、修改文档内容和结构。 对XML而言,DOM把整个文档看作由节点构成的树,每个元素、属性、文本甚至注释都对应一个节点,彼此通过父子、兄弟等关系连接。

DOM的核心节点类型

XML DOM定义了多种节点,最常用的是:

  • Element节点:对应XML中的标签,如,可包含子节点,也可拥有属性
  • Text节点:代表标签之间的纯文本内容,如Java编程中的“Java编程”就是一个Text节点
  • Attribute节点:表示元素的属性,如中的id="b001";注意:在标准DOM中,Attribute节点不作为Element的子节点存在,而是通过getAttribute()attributes集合访问
  • Document节点:整棵树的根节点,是所有其他节点的顶层父节点,通过document.documentElement可获取根元素

DOM树结构是怎么组织的

以如下XML为例:


  
    XML入门
    张三
  

它对应的DOM树结构为:

  • Document节点(根)
  •  └─ Element节点:
  •    └─ Element节点:(含属性id)
  •      ├─ Element节点:
  •      │  └─ Text节点:"XML入门"
  •      └─ Element节点:
  •         └─ Text节点:"张三"

关键点:空白换行和缩进在XML中默认视为Text节点(除非解析器设置了ignoreWhitespace),所以实际DOM树中可能比预期多出多个空Text节点。

DOM操作XML的典型步骤

使用DOM解析和处理XML通常包括:

  • 用解析器(如Java的DocumentBuilder、JavaScript的DOMParser)加载XML源,生成Document对象
  • 调用getDocumentElement()获取根元素,再用getElementsByTagName()getChildNodes()getAttribute()等方法遍历或定位节点
  • 通过createElement()createTextNode()appendChild()等方法动态添加内容
  • 修改节点内容可用setTextContent()或直接改Text节点的nodeValue
  • 保存变更需借助Transformer(Java)或序列化API(如XMLSerializer)写回字符串或文件

DOM的优缺点与适用场景

DOM适合需要随机访问、频繁修改、或对文档结构有复杂操作的场景,比如配置文件编辑、XML模板填充。但它会把整个文档载入内存,对大文件(几十MB以上)容易造成内存压力。此时应考虑SAX或StAX等流式解析方式。

不复杂但容易忽略:节点名区分大小写,getElementsByTagName("Book")getElementsByTagName("book")结果不同;遍历childNodes时务必检查nodeType,避免把换行Text节点误当作Element处理。