如何使用Golang regexp进行正则匹配_正则表达式基础用法_技术教程

regexp.MatchString 轻量但需注意 Unicode 行为（如 \d 匹配所有数字，\w 包含汉字）；应优先用 MustCompile 预编译正则；用户输入需 QuoteMeta 转义；FindStringSubmatch 返回子串内容，FindAllStringIndex 返回位置索引；替换时用双引号写 $1，避免多余转义。

regexp.MatchString 适合简单判断，但要注意转义和 Unicode

直接用 regexp.MatchString 判断字符串是否匹配某个模式最轻量，比如验证邮箱格式或提取数字。但 Go 的正则引擎默认启用 Unicode 模式，\d 会匹配所有 Unicode 数字（如阿拉伯数字、汉字数字），不是仅 ASCII 的 0-9。若只要 ASCII 数字，得写成 [0-9] 或启用 (?-U) 关

闭 Unicode：(?-U)\d。

常见错误是写 \w+ 想匹配“单词”，结果在中文环境里匹配到汉字、平假名等——因为 \w 在 Go 中等价于 [\pL\pN_]。真要只匹配 ASCII 字母数字下划线，得用 [a-zA-Z0-9_]+。

matched, _ := regexp.MatchString(`^\d{3}-\d{2}-\d{4}$`, "123-45-6789")
// true —— 匹配美国社保号格式
matched, _ = regexp.MatchString(`\w+`, "你好world") 
// true —— \w 匹配了“你好”两个汉字

用 regexp.MustCompile 提前编译，避免运行时 panic 和重复开销

regexp.Compile 返回 (*Regexp, error)，需要手动检查错误；而 regexp.MustCompile 在编译失败时直接 panic。绝大多数情况下，正则表达式是硬编码的常量，应无条件使用 MustCompile，既省去错误处理，又让非法正则在启动时暴露（而不是运行中随机失败）。

重复调用 Compile（比如在循环里）会导致明显性能下降，因为每次都要解析、编译、生成状态机。提前编译并复用是必须的。

把正则定义为包级变量，用 var reZipCode = regexp.MustCompile(`^\d{5}(-\d{4})?$`)
别在 HTTP handler 里写 regexp.Compile(r)，除非 r 来自可信配置且极少变动
如果正则含用户输入（如搜索关键词），必须用 regexp.QuoteMeta 转义后再拼接，否则可能注入恶意模式

FindStringSubmatch 和 FindAllStringIndex 的返回值容易混淆

FindStringSubmatch 返回匹配的**子串内容**（[]string），而 FindAllStringIndex 返回每个匹配的**起始和结束位置**（[][]int）。新手常误以为后者也返回字符串，结果取错索引导致 panic。

更隐蔽的问题是：当正则有多个捕获组时，FindStringSubmatch 只返回整个匹配 + 各组子匹配（按顺序扁平化），不带组名；若需命名组，必须用 FindStringSubmatchIndex 配合 SubexpNames() 手动映射。

re := regexp.MustCompile(`(\d{4})-(\d{2})-(\d{2})`)
text := "2025-12-25"
matches := re.FindStringSubmatch([]byte(text))
// matches 是 []byte{"2025-12-25", "2025", "12", "25"}

indices := re.FindAllStringIndex(text, -1)
// [[0 10]] —— 注意：只返回最外层匹配范围，不含子组

ReplaceAllString 处理替换时，$1 $2 不生效？检查是否用了双引号

Go 中字符串字面量用双引号，反斜杠会被 Go 解析器先处理一次。写 "$1-$2" 实际传给正则引擎的是 "$1-$2"（没问题），但写 "\$1-\$2" 就变成字面量 $1-$2，失去引用功能。真正容易出错的是混用转义：比如想插入字面量 \n 再加 $1，写成 "\\n$1" 是对的，但写成 "\n$1" 会让 Go 把 \n 当换行符，破坏结构。

另一个坑是 ReplaceAllString 不支持函数式替换（比如动态计算新值），必须用 ReplaceAllStringFunc 或 ReplaceAllFunc（Go 1.20+）。

re := regexp.MustCompile(`(\w+):(\d+)`)
result := re.ReplaceAllString("port:8080 timeout:30", "$1=$2")
// "port=8080 timeout=30"

// 错误写法（多了一层转义，$ 不再被识别）：
// re.ReplaceAllString("port:8080", "\$1") → 字面量 "$1"