什么是XML的验证过程,它能保证哪些数据的正确性?

XML验证是用DTD或XSD等规则检查文档结构合规性,确保语法正确、元素顺序/数量/嵌套、属性类型及内容约束满足要求,但不保证业务逻辑、数据真实性和语义一致性。

XML的验证过程是指用预定义的规则(如DTD或XML Schema)检查XML文档是否符合结构和内容约束。它不保证数据在现实世界中的真假,但能确保文档“写得对”。

验证的核心是结构合规性

验证主要确认XML文档是否满足语法和模式要求:

  • 元素是否按声明的顺序、数量和嵌套关系出现(比如address必须包含cityzip,且不能颠倒)
  • 属性是否存在、类型是否匹配(例如id属性是否为ID类型,是否唯一)
  • 元素内容是否符合规定(如price是否只允许数字,是否在指定范围内)
  • 文档是否良构(well-formed)——这是验证的前提,比如标签闭合、命名合法、根元素唯一等

验证不能保证的几类“正确性”

这些常见问题不在验证职责范围内:

  • 业务逻辑正确性:比如150可能通过Schema验证(如果只限定为整数),但现实中不合理
  • 数据真实性:验证无法判断ail>test@example.com是否真实存在或可送达
  • 语义一致性:两个不同元素值本应相等(如orderIDinvoiceRef),验证器不会自动比对
  • 外部引用有效性:xsi:schemaLocation指向的XSD文件若不可达,验证可能失败,但验证本身不负责下载或缓存校验

常用验证方式与实际效果

不同机制覆盖范围略有差异:

  • DTD验证:支持元素结构、属性类型(CDATA/ID/IDREF等)、实体声明,但不支持数据类型(如日期、小数)或命名空间
  • XML Schema(XSD):支持强类型(string、integer、date、pattern正则)、命名空间、默认值、元素复用等,是目前主流选择
  • Relax NG 或 Schematron:前者更简洁灵活,后者专注基于XPath的业务规则断言(如“status为‘shipped’时,trackingNo不能为空”)

基本上就这些。验证是XML可靠交换的基础门槛,它管的是“格式有没有写错”,不是“内容有没有说错”。想覆盖更深层的业务规则,通常要配合应用层校验或Schematron等补充手段。