RSS的时间戳格式是什么? 如何正确设置和解析pubDate标签?

pubDate必须遵循RFC 822扩展格式:星期, 日 月 年 时:分:秒 +0000,如Wed, 06 Mar 2025 15:30:45 +0800,使用标准库函数生成和解析可避免错误。

RSS 的 pubDate 标签用于表示文章的发布时间,它必须遵循特定的时间戳格式,否则可能导致解析失败或显示错误时间。正确设置和解析 pubDate 对于确保内容在聚合器中正常显示非常重要。

pubDate 使用的格式:RFC 822 扩展格式

RSS 2.0 规范要求 pubDate 遵循 RFC 822 标准的一个扩展版本,通常也与 RSS 1.0 和 Atom 的常见实践兼容。具体格式如下:

星期, 日 月 年 时:分:秒 +0000

示例:

Wed, 06 Mar 2025 15:30:45 +0800

注意以下几点:

  • 星期是英文缩写(Mon, Tue, Wed 等),可由程序自动生成,不是必填但建议保留。
  • 日、月、年之间用空格分隔,月份是英文缩写(Jan, Feb, ..., Dec)。
  • 时间部分使用 24 小时制。
  • 时区偏移必须以 +HHMM-HHMM 形式表示(如 +0800 表示东八区)。

如何正确设置 pubDate

在生成 RSS feed 时,应确保时间字段按规范格式化。以下是不同语言中的处理建议:

  • Python: 使用 email.utils.formatdate() 函数,它可以自动将时间戳转换为符合 RFC 822 的字符串。
  • PHP: 使用 date('r'),它输出的就是 RFC 2822 格式(与 RSS 兼容)。
  • Node.js: 可使用 toUTCString() 后手动调整时区信息,或借助 moment-timezone 等库格式化。

关键是要确保时间包含正确的时区偏移,避免仅输出 UTC 时间却不标明时区。

如何正确解析 pubDate

在读取 RSS 的 pubDate 时,解析器需要能识别上述格式。推荐做法:

  • 使用成熟的 RSS 解析库(如 Python 的 feedparser、JavaScript 的 rss-parser),它们已内置对 pubDate 的解析逻辑。
  • 若手动解析,可用正则匹配日期结构,并使用语言内置的时间解析函数处理(如 Python 的 email.utils.parsedate_to_datetime())。
  • 注意处理缺失星期名或大小写不一致的情况(例如 "wed, 06 mar 2025..."),多数解析器对此有容错机制。

常见错误与建议

  • 使用 ISO 8601 格式(如 2025-03-06T15:30:45+08:00)—— 虽然更现代,但不符合 RSS 2.0 规范,某些旧聚合器可能无法识别。
  • 忽略时区信息(如只写 GMT 或 UTC 字符串)—— 应统一使用 +0000 类似偏移格式。
  • 手工拼接时间字符串导致格式错误(如少空格、拼错月份)—— 建议使用标准库函数生成。

基本上就这些。只要生成和解析时都遵循 RFC 822 扩展格式,pubDate 就不会出问题。