怎么用Python的BeautifulSoup库解析XML

煙雲 2025-12-25 00:00:00 次阅读

用BeautifulSoup解析XML需指定lxml-xml或xml解析器，不可用html.parser；推荐lxml因容错好，内置xml无需安装但易报错；注意编码匹配与命名空间限制。

用 BeautifulSoup 解析 XML 和解析 HTML 类似，但关键在于指定正确的解析器——必须用支持 XML 的解析器，比如 lxml 或 xml（Python 内置的 xml.etree.ElementTree 封装），不能用默认的 html.parser（它只处理 HTML）。

安装依赖并选择合适的解析器

BeautifulSoup 本身不自带 XML 解析能力，需配合外部解析器：

推荐 lxml：功能强、速度快、对不规范 XML 容错好，需额外安装：pip install lxml
可用内置 xml：无需安装，但容错差，遇到声明缺失或编码问题容易报错，使用时传 "xml" 作为解析器名

基础解析示例（以 lxml 为例）

假设有如下 XML 字符串：

苹果5.2
香蕉3.8

代码解析方式：

from bs4 import BeautifulSoup
xml_str = '''

苹果5.2
香蕉3.8
'''
soup = BeautifulSoup(xml_str, "lxml-xml")  # 注意：用 "lxml-xml" 而非 "lxml"
或者用内置解析器：soup = BeautifulSoup(xml_str, "xml")
for item in soup.find_all("item"):
name = item.find("name").text
price = float(item.find("price").text)
item_id = item.get("id")
print(f"ID: {item_id}, 名称: {name}, 价格: {price}")

注意几个常见坑

解析器名称要写对：用 lxml 时写 "lxml-xml"，不是 "lxml"（后者按 HTML 模式解析，会忽略 XML 声明和命名空间）
中文编码别出错：如果 XML 有，读文件时需用对应编码打开，再传给 BeautifulSoup；直接传字符串则确保是 Unicode（如 Python3 中的 str）
命名空间支持有限：BeautifulSoup 对带 namespace 的 XML 支持较弱，复杂场景建议改用 lxml.etree 原生接口

从文件读取 XML 并解析

推荐做法：

with open("data.xml", "r", encoding="utf-8") as f:
    soup = BeautifulSoup(f, "lxml-xml")
或者更稳妥地先读内容再解析（尤其编码不确定时）
with open("data.xml", "rb") as f:  # 二进制模式读
soup = BeautifulSoup(f, "lxml-xml")  # lxml-xml 可自动探测编码

基本上就这些。只要选对解析器、注意编码和命名空间限制，用 BeautifulSoup 解析常规 XML 很顺手。