javascript正则表达式是什么_怎样进行模式匹配和文本处理_技术教程

JavaScript正则表达式是RegExp对象，用于字符串模式匹配；创建方式有字面量（/pattern/flags）和构造函数（new RegExp(pattern, flags)）；常用方法包括test()（返回布尔值）、exec()（返回匹配详情）、match()（返回匹配数组）；需注意贪婪匹配、大小写标志i对Unicode无效、中文匹配用[\u4e00-\u9fff]或\p{Script=Han}、换行符需s标志等陷阱。

JavaScript 正则表达式是内置的文本匹配与处理工具，本质是一个 RegExp 对象，用于描述字符串的模式规则。它不是“高级技巧”，而是日常字符串操作（如表单校验、URL 解析、日志清洗）中绕不开的基础能力。

正则表达式怎么写：字面量 vs 构造函数

两种创建方式，行为一致但适用场景不同：

字面量写法：/pattern/flags，适合静态、固定规则，如 /^\d{3}-\d{2}-\d{4}$/ 校验社保号
构造函数写法：new RegExp(pattern, flags)，适合 pattern 来自变量或拼接，比如动态生成邮箱域名白名单：new RegExp(`@(${domains.join('|')})$`, 'i')
注意：用构造函数时，反斜杠需双写 —— \\d 而非 \d，否则会被 JS 字符串提前转义

`test()`、`exec()`、`match()` 的区别和选法

这三个是最常用的方法，但返回值和用途完全不同：

test()：只返回 true / false，适合条件判断，性能最好。例如：/[a-z]+/.test('Hello123') → true
exec()：返回第一个匹配结果的详细对象（含 index、groups），全局模式下可循环调用获取全部匹配。必须手动重置 lastIndex 或避免复用同一正则实例
match()：字符串方法，返回匹配数组或 null；加 g 标志才返回全部匹配项；不加则只返回第一个（含捕获组）。注意：'a1b2'.match(/\d/) 返回 ['1']，而 'a1b2'.match(/\d/g) 返回 ['1', '2']

常见陷阱：贪婪匹配、忽
略大小写、中文字符处理

实际写正则时，这些点最容易导致结果不符合预期：

默认贪婪匹配：.* 会吃掉尽可能多内容。想匹配到第一个 ]？别用 /\[.*\]/，改用 /\[.*?\]/（加 ? 变惰性）
i 标志确实忽略大小写，但对 Unicode 字符（如中文、emoji）无效 —— 中文本身无大小写概念，所以 /你好/i.test('你好') 没问题，但 /HELLO/i.test('hello') 才是它的本意
匹配中文请用 [\u4e00-\u9fa5] 或更全的 [\u4e00-\u9fff]；ES2018+ 支持 u 标志 + \p{Script=Han}，但兼容性需查目标环境
换行符默认不被 . 匹配，要加 s 标志（“dotAll”）：/a.b/s.test('a\nb') → true

const text = '订单号：ORD-2025-001，金额：¥199.99';
const regex = /ORD-(\d{4})-(\d{3})/;
const match = regex.exec(text);
if (match) {
  console.log('年份:', match[1]); // '2025'
  console.log('序号:', match[2]); // '001'
}

真正难的不是写出一个能跑的正则，而是写出在边界输入（空字符串、特殊符号、超长文本、Unicode 组合字符）下依然稳定的行为。每次写完，务必用真实数据样本多试几轮，尤其关注 null 返回和空数组情况。