javascript正则表达式是什么_怎样进行模式匹配和文本处理

JavaScript正则表达式是RegExp对象,用于字符串模式匹配;创建方式有字面量(/pattern/flags)和构造函数(new RegExp(pattern, flags));常用方法包括test()(返回布尔值)、exec()(返回匹配详情)、match()(返回匹配数组);需注意贪婪匹配、大小写标志i对Unicode无效、中文匹配用[\u4e00-\u9fff]或\p{Script=Han}、换行符需s标志等陷阱。

JavaScript 正则表达式是内置的文本匹配与处理工具,本质是一个 RegExp 对象,用于描述字符串的模式规则。它不是“高级技巧”,而是日常字符串操作(如表单校验、URL 解析、日志清洗)中绕不开的基础能力。

正则表达式怎么写:字面量 vs 构造函数

两种创建方式,行为一致但适用场景不同:

  • 字面量写法:/pattern/flags,适合静态、固定规则,如 /^\d{3}-\d{2}-\d{4}$/ 校验社保号
  • 构造函数写法:new RegExp(pattern, flags),适合 pattern 来自变量或拼接,比如动态生成邮箱域名白名单:new RegExp(`@(${domains.join('|')})$`, 'i')
  • 注意:用构造函数时,反斜杠需双写 —— \\d 而非 \d,否则会被 JS 字符串提前转义

test()exec()match() 的区别和选法

这三个是最常用的方法,但返回值和用途完全不同:

  • test():只返回 true / false,适合条件判断,性能最好。例如:/[a-z]+/.test('Hello123')true
  • exec():返回第一个匹配结果的详细对象(含 indexgroups),全局模式下可循环调用获取全部匹配。必须手动重置 lastIndex 或避免复用同一正则实例
  • match():字符串方法,返回匹配数组或 null;加 g 标志才返回全部匹配项;不加则只返回第一个(含捕获组)。注意:'a1b2'.match(/\d/) 返回 ['1'],而 'a1b2'.match(/\d/g) 返回 ['1', '2']

常见陷阱:贪婪匹配、忽

略大小写、中文字符处理

实际写正则时,这些点最容易导致结果不符合预期:

  • 默认贪婪匹配:.* 会吃掉尽可能多内容。想匹配到第一个 ]?别用 /\[.*\]/,改用 /\[.*?\]/(加 ? 变惰性)
  • i 标志确实忽略大小写,但对 Unicode 字符(如中文、emoji)无效 —— 中文本身无大小写概念,所以 /你好/i.test('你好') 没问题,但 /HELLO/i.test('hello') 才是它的本意
  • 匹配中文请用 [\u4e00-\u9fa5] 或更全的 [\u4e00-\u9fff];ES2018+ 支持 u 标志 + \p{Script=Han},但兼容性需查目标环境
  • 换行符默认不被 . 匹配,要加 s 标志(“dotAll”):/a.b/s.test('a\nb')true
const text = '订单号:ORD-2025-001,金额:¥199.99';
const regex = /ORD-(\d{4})-(\d{3})/;
const match = regex.exec(text);
if (match) {
  console.log('年份:', match[1]); // '2025'
  console.log('序号:', match[2]); // '001'
}

真正难的不是写出一个能跑的正则,而是写出在边界输入(空字符串、特殊符号、超长文本、Unicode 组合字符)下依然稳定的行为。每次写完,务必用真实数据样本多试几轮,尤其关注 null 返回和空数组情况。