HTML5空格在XML里有效吗_XML文档中空格的使用规则【介绍】

XML解析器不识别HTML5特有的命名字符实体如 ,仅预定义5个实体;XML中空格可用普通空格、不间断空格( 或 )等数值引用;xml:space="preserve"可保留空白,但无法使 有效;HTML5与XML混用时应统一用 替代 。

XML解析器如何看待HTML5中的 实体

  是 HTML 特有的命名字符实体,XML 解析器默认不识别它。直接在 XML 文档里写   会导致解析失败,报错类似:

Entity 'nbsp' not defined
。XML 只预定义了 5 个实体:&>"',其余如  © 等都需显式声明 DTD 或改用 Unicode 字符/数值字符引用。

XML中表示空格的合法方式有哪些

XML 本身对空白字符(空格、制表、换行)是“照单全收”的,但处理逻辑取决于上下文和解析器设置。常见做法包括:

  • 普通空格字符(U+0020):直接输入,最安全
  • 不间断空格(U+00A0):用   ,无需 DTD,所有 XML 解析器都支持
  • 其他 Unicode 空格字符(如 U+2000–U+200F):同样用数值字符引用,例如 (en 空格)
  • 避免使用  ,除非你控制整个 XML 处理链并主动声明了它的 DTD 实体

XML文档中xml:space属性的作用

xml:space 是一个标准属性,用于告诉解析器是否保留元素内的空白。它只影响“元素内容中的空白”,不影响属性值或标签结构:

  • xml:space="default"(默认):解析器可自由合并/裁剪空白(如把多个空格压成一个,或忽略换行)
  • xml:space="preserve":原样保留所有空白字符(空格、制表、换行),类似 HTML 的
  • 该属性不改变空格的“语义”,只是控制是否被解析器丢弃;它不能让 变得有效

Hello world

上面的

内部的多个空格和缩进会被保留;而没加该属性时,多数解析器会归一化为单个空格。

HTML5与XML混用时的典型陷阱

当把 HTML5 片段当作 XML 解析(比如用 DOMParser 解析 XHTML 字符串,或在 SVG 中嵌入 HTML 标签),空格处理容易出错:

  • 浏览器的 DOMParser"text/xml" 模式下拒绝  ,但在 "application/xhtml+xml" 模式下可能接受——前提是文档声明了 XHTML DTD
  • SVG 内联 HTML 需用 ,其中的   仍无效,必须换  
  • 服务端生成 XML 时若从 HTML 模板复制内容,容易漏掉   替换步骤,导致下游解析崩溃

最稳妥的做法:只要目标是 XML(含 XHTML、SVG、RSS、配置文件等),一律用   代替  ,别依赖 DTD 声明。