Ruby怎么解析XML Ruby Nokogiri库使用方法

最常用、最推荐的方式是用 Nokogiri 库,它功能强大、语法简洁、支持 XPath 和 CSS 选择器,并能自动处理编码和 malformed XML。

Ruby 解析 XML 最常用、最推荐的方式是用 Nokogiri 库,它功能强大、语法简洁、支持 XPath 和 CSS 选择器,还能自动处理编码和 malformed XML(带容错)。

安装和引入 Nokogiri

终端运行安装命令:

gem install nokogiri

在 Ruby 脚本中引入:

require 'nokogiri'

从字符串解析 XML

适合处理 API 返回的 XML 响应、配置片段等小段内容:

  • Nokogiri::XML(string) 创建文档对象
  • 注意:默认严格校验,若 XML 不规范会报错;加 :strict => false 可跳过部分错误

示例:

xml =   
    Apple
    Banana
  

XML
doc = Nokogiri::XML(xml)

用 XPath 或 CSS 选择器提取数据

Nokogiri 支持两种主流查询方式,选你习惯的即可:

  • doc.xpath('//item') → 返回所有 元素节点数组
  • doc.css('item') → 等效的 CSS 写法(更接近前端习惯)
  • 获取属性:node['id']node.attr('id')
  • 获取文本内容:node.text.strip(.strip 防空格干扰)

完整提取示例:

doc.xpath('//item').each do |item|
  puts "#{item['id']}: #{item.text.strip}"
end
# 输出:
# 1: Apple
# 2: Banana

从文件或 URL 加载 XML

读本地文件:

doc = Nokogiri::XML(File.read('data.xml'))

直接加载远程 URL(需网络):

doc = Nokogiri::XML(URI.open('https://example.com/api.xml'))

⚠️ 注意:生产环境建议加超时和异常处理,比如用 Net::HTTP 手动请求再传给 Nokogiri,更可控。

基本上就这些。Nokogiri 解析 XML 不复杂但容易忽略容错和编码问题,加上 :encoding => 'UTF-8' 或用 Nokogiri::XML.parse(..., &:noblanks) 清理空白节点,能省不少调试时间。