如何在Java中使用StAX流式解析XML_Java使用StAX流式解析XML教程

StAX通过拉模型解析XML,使用XMLInputFactory创建XMLEventReader逐个读取事件,结合isStartElement、isCharacters和isEndElement方法提取内容并输出书名与作者信息。

StAX(Streaming API for XML)是Java中一种高效的XML解析方式,适合处理大文件且内存占用低。它采用“拉模型”(pull-parsing),由程序主动读取XML内容,而不是像SAX那样通过事件驱动。下面介绍如何在Java中使用StAX解析XML。

1. StAX核心接口:XMLInputFactory、XMLEventReader和XMLEvent

StAX主要通过以下三个类/接口完成解析:

  • XMLInputFactory:创建解析器的工厂类。
  • XMLEventReader:用于逐个读取XML事件(如开始标签、文本、结束标签等)。
  • XMLEvent:表示一个XML事件,可通过类型判断当前节点内容。

2. 准备XML文件

假设有一个名为books.xml的文件:



  
    Java编程思想
    Bruce Eckel
  
  
    Effective Java
    Joshua Bloch
  

3. 使用XMLEventReader解析XML

下面代码演示如何使用StAX读取该文件并提取书名和作者:

import javax.xml.stream.*;
import java.io.FileInputStream;

public class StAXParserExample {
    public static void main(String[] args) throws Exception {
        XMLInputFactory factory = XMLInputFactory.newInstance();
        XMLEventReader reader = factory.createXMLEventReader(new FileInputStream("books.xml"));

        String title = "";
        String author = "";
        boolean inTitle = false;
        boolean inAuthor = false;

        while (reader.hasNext()) {
            XMLEvent event = reader.nextEvent();

            if (event.isStartElement()) {
                StartElement startElement = event.asStartElement();
                String localName = startElement.getName().getLocalPart();

                if ("title".equals(localName)) {
                    inTitle = true;
                } else if ("author".equals(localName)) {
                    inAuthor = true;
                }
            }

            if (event.isCharacters()) {
                Characters characters = event.asCharacters();
                if (inTitle) {
                    title = characters.getData();
                    inTitle = false;
                }
                if (inAuthor) {
                    author = characters.getData();
                    inAuthor = false;
                }
            }

            if (event.isEndElement()) {
                EndElement endElement = event.asEndElement();
                if ("book".equals(endElement.getName().getLocalPart())) {
                    System.out.println("书名: " + title + ", 作者: " + author);
                }
            }
        }

        reader.close();
    }
}

4. 关键点说明

  • 使用isStartElement()判断是否为开始标签,进而获取元素名。
  • 使用isCharacters()获取标签间的文本内容。
  • 使用isEndElement()判断结构结束,可用于触发数据输出。
  • 注意及时关闭XMLEventReader释放资源。

基本上就这些。StAX在处理大型XML文件时比DOM更省内存,又比SAX更容易控制流程,是一种很实用的选择。