Perl - 正则表达式

正则表达式是定义您正在查看的一个或多个模式的字符串。 Perl 中正则表达式的语法与其他正则表达式中的语法非常相似。支持程序,例如 sedgrepawk

应用正则表达式的基本方法是使用模式绑定运算符 =~ 和 !~。 第一个运算符是测试和赋值运算符。

Perl 中有三个正则表达式运算符。

  • 匹配正则表达式 - m//
  • 替换正则表达式 - s///
  • 音译正则表达式 - tr///

每种情况下的正斜杠都充当您指定的正则表达式 (regex) 的分隔符。 如果您对任何其他分隔符感到满意,那么您可以使用正斜杠代替。


匹配运算符

匹配运算符 m// 用于将字符串或语句与正则表达式匹配。 例如,要将字符序列"foo"与标量 $bar 匹配,您可以使用如下语句 −

#!/usr/bin/perl

$bar = "This is foo and again foo";
if ($bar =~ /foo/) {
   print "First time is matching\n";
} else {
   print "First time is not matching\n";
}

$bar = "foo";
if ($bar =~ /foo/) {
   print "Second time is matching\n";
} else {
   print "Second time is not matching\n";
}

执行上述程序时,会产生以下结果 −

First time is matching
Second time is matching

m// 实际上与 q// 运算符系列的工作方式相同。您可以使用自然匹配字符的任意组合作为表达式的分隔符。 例如,m{}、m() 和 m>< 都是有效的。 所以上面的例子可以重写如下 −

#!/usr/bin/perl

$bar = "This is foo and again foo";
if ($bar =~ m[foo]) {
   print "First time is matching\n";
} else {
   print "First time is not matching\n";
}

$bar = "foo";
if ($bar =~ m{foo}) {
   print "Second time is matching\n";
} else {
   print "Second time is not matching\n";
}

如果分隔符是正斜杠,您可以从 m// 中省略 m,但对于所有其他分隔符,您必须使用 m 前缀。

请注意,如果表达式匹配,则整个匹配表达式(即 =~ 或 !~ 左侧的表达式和匹配运算符)返回 true(在标量上下文中)。 因此声明 −

$true = ($foo =~ m/foo/);

如果 $foo 匹配正则表达式,则将 $true 设置为 1,如果匹配失败,则设置为 0。 在列表上下文中,匹配返回任何分组表达式的内容。 例如,当从时间字符串中提取小时、分钟和秒时,我们可以使用 −

my ($hours, $minutes, $seconds) = ($time =~ m/(\d+):(\d+):(\d+)/);

匹配运算符修饰符

匹配运算符支持自己的一组修饰符。 /g 修饰符允许全局匹配。 /i 修饰符将使匹配不区分大小写。 这是修饰符的完整列表

序号 修饰符 & 说明
1

i

使匹配不区分大小写。

2

m

指定如果字符串具有换行符或回车符,则 ^ 和 $ 运算符现在将匹配换行符边界,而不是字符串边界。

3

o

仅对表达式求值一次。

4

s

A允许使用 . 匹配换行符。

5

x

为了清晰起见,允许您在表达式中使用空格。

6

g

全局查找所有匹配项。

7

cg

即使全局匹配失败,也允许搜索继续。


只匹配一次

还有一个更简单的匹配运算符 - ?PATTERN? 操作员。 这与 m// 运算符基本相同,只是它在每次重置调用之间仅在您正在搜索的字符串中匹配一次。

例如,您可以使用它来获取列表中的第一个和最后一个元素 −

#!/usr/bin/perl

@list = qw/food foosball subeo footnote terfoot canic footbrdige/;

foreach (@list) {
   $first = $1 if /(foo.*?)/;
   $last = $1 if /(foo.*)/;
}
print "First: $first, Last: $last\n";

执行上述程序时,会产生以下结果 −

First: foo, Last: footbrdige

正则表达式变量

正则表达式变量包括$,它包含最后匹配的分组匹配; $&,包含整个匹配的字符串; $`,包含匹配字符串之前的所有内容; 和 $',它包含匹配字符串之后的所有内容。 以下代码演示了结果 −

#!/usr/bin/perl

$string = "The food is in the salad bar";
$string =~ m/foo/;
print "Before: $`\n";
print "Matched: $&\n";
print "After: $'\n";

执行上述程序时,会产生以下结果 −

Before: The
Matched: foo
After: d is in the salad bar

替换运算符

替换运算符s///实际上只是匹配运算符的扩展,它允许您将匹配的文本替换为一些新文本。 算子的基本形式是 −

s/PATTERN/REPLACEMENT/;

PATTERN 是我们正在寻找的文本的正则表达式。 REPLACEMENT 是我们想要用来替换找到的文本的文本或正则表达式的规范。 例如,我们可以使用以下正则表达式将所有出现的 dog 替换为 cat

#/user/bin/perl

$string = "The cat sat on the mat";
$string =~ s/cat/dog/;

print "$string\n";

执行上述程序时,会产生以下结果 −

The dog sat on the mat

替换运算符修饰符

这里是替换运算符使用的所有修饰符的列表。

序号 修饰符 & 说明
1

i

使匹配不区分大小写。

2

m

指定如果字符串具有换行符或回车符,则 ^ 和 $ 运算符现在将匹配换行符边界,而不是字符串边界。

3

o

仅对表达式求值一次。

4

s

允许使用 . 匹配换行符。

5

x

为了清晰起见,允许您在表达式中使用空格。

6

g

用替换文本替换所有出现的找到的表达式。

7

e

像 Perl 语句一样评估替换,并将其返回值用作替换文本。


Translation 运算符

Translation 与替换原则相似但不相同,但与替换不同,Translation(或音译)不使用正则表达式来搜索替换值。 Translation 运算符是 −

tr/SEARCHLIST/REPLACEMENTLIST/cds
y/SEARCHLIST/REPLACEMENTLIST/cds

翻译将 SEARCHLIST 中所有出现的字符替换为 REPLACEMENTLIST 中的相应字符。 例如,使用"The cat sat on the mat."。 我们在本章中使用的字符串 −

#/user/bin/perl

$string = 'The cat sat on the mat';
$string =~ tr/a/o/;

print "$string\n";

执行上述程序时,会产生以下结果 −

The cot sot on the mot.

也可以使用标准 Perl 范围,允许您通过字母或数值指定字符范围。 要更改字符串的大小写,您可以使用以下语法代替 uc 函数。

$string =~ tr/a-z/A-Z/;

Translation 运算符修饰符

以下是与 Translation 相关的运算符列表。

序号 修饰符 & 说明
1

c

补充搜索列表。

2

d

删除找到但未替换的字符。

3

s

压缩重复的替换字符。

/d 修饰符删除与 SEARCHLIST 匹配但在 REPLACEMENTLIST 中没有相应条目的字符。 例如 −

#!/usr/bin/perl 

$string = 'the cat sat on the mat.';
$string =~ tr/a-z/b/d;

print "$string\n";

执行上述程序时,会产生以下结果 −

b b   b.

最后一个修饰符 /s 删除被替换的重复字符序列,因此 −

#!/usr/bin/perl

$string = 'food';
$string = 'food';
$string =~ tr/a-z/a-z/s;

print "$string\n";

执行上述程序时,会产生以下结果 −

fod

更复杂的正则表达式

您不必只匹配固定字符串。 事实上,通过使用更复杂的正则表达式,您几乎可以匹配任何您梦寐以求的东西。 这是一个清单 −

下表列出了 Python 中可用的正则表达式语法。

序号 匹配 & 说明
1

^

匹配行首。

2

$

匹配行尾。

3

.

匹配除换行符以外的任何单个字符。 使用 m 选项也可以匹配换行符。

4

[...]

匹配括号中的任何单个字符。

5

[^...]

匹配任何不在括号中的单个字符。

6

*

匹配 0 次或多次出现的前面表达式。

7

+

匹配 1 次或多次出现的前面表达式。

8

?

匹配 0 或 1 次出现的前面表达式。

9

{ n}

精确匹配前面表达式的 n 次出现。

10

{ n,}

匹配 n 次或多次出现的前面表达式。

11

{ n, m}

匹配至少 n 次和最多 m 次出现的前面表达式。

12

a| b

匹配 a 或 b。

13

\w

匹配单词字符。

14

\W

匹配非单词字符。

15

\s

匹配空格。 等价于 [\t\n\r\f]。

16

\S

匹配非空白。

17

\d

匹配数字。 相当于 [0-9]。

18

\D

匹配非数字。

19

\A

匹配字符串的开头。

20

\Z

匹配字符串的结尾。 如果存在换行符,它将在换行符之前匹配。

21

\z

匹配字符串的结尾。

22

\G

匹配最后一次匹配结束的点。

23

\b

在括号外匹配单词边界。 在括号内时匹配退格 (0x08)。

24

\B

匹配非单词边界。

25

\n, \t, etc.

匹配换行符、回车符、制表符等。

26

\1...\9

匹配第 n 个分组的子表达式。

27

\10

如果已经匹配,则匹配第 n 个分组子表达式。 否则指字符代码的八进制表示。

28

[aeiou]

匹配给定集中的单个字符

29

[^aeiou]

匹配给定集合之外的单个字符

^ 元字符匹配字符串的开头,$ 元符号匹配字符串的结尾。 这里有一些简短的例子。

# nothing in the string (start and end are adjacent)
/^$/   

# a three digits, each followed by a whitespace
# character (eg "3 4 5 ")
/(\d\s) {3}/  

# matches a string in which every
# odd-numbered letter is a (eg "abacadaf")
/(a.)+/  

# string starts with one or more digits
/^\d+/

# string that ends with one or more digits
/\d+$/

让我们看另一个例子。

#!/usr/bin/perl

$string = "Cats go Catatonic\nWhen given Catnip";
($start) = ($string =~ /\A(.*?) /);
@lines = $string =~ /^(.*?) /gm;
print "First word: $start\n","Line starts: @lines\n";

执行上述程序时,会产生以下结果 −

First word: Cats
Line starts: Cats When

匹配边界

\b 匹配任何单词边界,由 \w 类和 \W 类之间的差异定义。 因为 \w 包含一个单词的字符,而 \W 相反,这通常意味着一个单词的终止。 \B 断言匹配任何不是单词边界的位置。 例如 −

/\bcat\b/ # Matches 'the cat sat' but not 'cat on the mat'
/\Bcat\B/ # Matches 'verification' but not 'the cat on the mat'
/\bcat\B/ # Matches 'catatonic' but not 'polecat'
/\Bcat\b/ # Matches 'polecat' but not 'catatonic'

选择备选方案

该 | 字符就像 Perl 中的标准或按位或。 它指定正则表达式或组中的备用匹配项。 例如,要匹配表达式中的"cat"或"dog",您可以使用 −

if ($string =~ /cat|dog/)

您可以将表达式的各个元素组合在一起以支持复杂的匹配。 搜索两个人的名字可以通过两个单独的测试来实现,像这样 −

if (($string =~ /Martin Brown/) ||  ($string =~ /Sharon Brown/))

This could be written as follows

if ($string =~ /(Martin|Sharon) Brown/)

分组匹配

从正则表达式的角度来看,两者之间没有区别,也许前者更清晰一些。

$string =~ /(\S+)\s+(\S+)/;

and 

$string =~ /\S+\s+\S+/;

但是,分组的好处是它允许我们从正则表达式中提取序列。 分组按照它们在原始中出现的顺序作为列表返回。 例如,在下面的片段中,我们从字符串中提取了小时、分钟和秒。

my ($hours, $minutes, $seconds) = ($time =~ m/(\d+):(\d+):(\d+)/);

除了这种直接方法,匹配的组也可以在特殊的 $x 变量中使用,其中 x 是正则表达式中组的编号。 因此,我们可以将前面的示例改写如下 −

#!/usr/bin/perl

$time = "12:05:30";

$time =~ m/(\d+):(\d+):(\d+)/;
my ($hours, $minutes, $seconds) = ($1, $2, $3);

print "Hours : $hours, Minutes: $minutes, Second: $seconds\n";

执行上述程序时,会产生以下结果 −

Hours : 12, Minutes: 05, Second: 30

在替换表达式中使用组时,可以在替换文本中使用 $x 语法。 因此,我们可以使用这个重新格式化日期字符串 −

#!/usr/bin/perl

$date = '03/26/1999';
$date =~ s#(\d+)/(\d+)/(\d+)#$3/$1/$2#;

print "$date\n";

执行上述程序时,会产生以下结果 −

1999/03/26

\G 断言

\G 断言允许您从最后一次匹配发生的点继续搜索。 例如,在下面的代码中,我们使用了 \G 以便我们可以搜索到正确的位置然后提取一些信息,而无需创建更复杂的单个正则表达式 −

#!/usr/bin/perl

$string = "The time is: 12:31:02 on 4/12/00";

$string =~ /:\s+/g;
($time) = ($string =~ /\G(\d+:\d+:\d+)/);
$string =~ /.+\s+/g;
($date) = ($string =~ m{\G(\d+/\d+/\d+)});

print "Time: $time, Date: $date\n";

执行上述程序时,会产生以下结果 −

Time: 12:31:02, Date: 4/12/00

\G 断言实际上只是 pos 函数的元符号等价物,因此在正则表达式调用之间您可以继续使用 pos,甚至可以通过使用 pos 作为左值子例程来修改 pos 的值(以及因此 \G)。


正则表达式示例

文字字符

序号 示例与说明
1

Perl

匹配"Perl"。

字符类

序号 示例与说明
1

[Pp]ython

匹配"Python"或"python"

2

rub[ye]

匹配"ruby"或"rube"

3

[aeiou]

匹配任何一个小写元音

4

[0-9]

匹配任何数字; 与 [0123456789] 相同

5

[a-z]

匹配任何小写 ASCII 字母

6

[A-Z]

匹配任何大写的 ASCII 字母

7

[a-zA-Z0-9]

匹配以上任何一项

8

[^aeiou]

匹配除小写元音以外的任何内容

9

[^0-9]

匹配除数字以外的任何内容

特殊字符类

序号 示例与说明
1

.

匹配除换行符以外的任何字符

2

\d

匹配一个数字:[0-9]

3

\D

匹配非数字: [^0-9]

4

\s

匹配一个空白字符: [ \t\r\n\f]

5

\S

匹配非空白字符: [^ \t\r\n\f]

6

\w

匹配单个单词字符: [A-Za-z0-9_]

7

\W

匹配非单词字符: [^A-Za-z0-9_]

重复案例

序号 示例与说明
1

ruby?

匹配"rub"或"ruby":y 是可选的

2

ruby*

匹配 "rub" 加上 0 个或多个 ys

3

ruby+

匹配 "rub" 加上 1 个或多个 ys

4

\d{3}

精确匹配 3 位数字

5

\d{3,}

匹配 3 个或更多数字

6.

\d{3,5}

匹配 3、4 或 5 位数字

非贪婪重复

这匹配最少的重复次数 −

序号 示例与说明
1

<.*>

贪婪重复:匹配 "<python>perl>"

2

<.*?>

非贪婪重复:匹配 "<python>" in "<python>perl>"

用括号分组

序号 示例与说明
1

\D\d+

无分组:+ 重复 \d

2

(\D\d)+

分组:+ 重复 \D\d 对

3

([Pp]ython(, )?)+

匹配"Python"、"Python、python、python"等。

反向引用

这将再次匹配之前匹配的组 −

序号 示例与说明
1

([Pp])ython&\1ails

与 python&pails 或 Python&Pails 匹配

2

(['"])[^\1]*\1

单引号或双引号字符串。 \1 匹配第一组匹配的任何内容。 \2 匹配第二组匹配的任何内容,等等。

替代

序号 示例与说明
1

python|perl

匹配"python"或"perl"

2

rub(y|le))

匹配 "ruby" 或 "ruble"

3

Python(!+|\?)

"Python"后跟一个或多个! 还是一个?

锚点

这需要指定匹配位置。

序号 示例与说明
1

^Python

匹配字符串或内部行开头的"Python"

2

Python$

匹配字符串或行末尾的"Python"

3

\APython

匹配字符串开头的"Python"

4

Python\Z

匹配字符串末尾的"Python"

5

\bPython\b

在单词边界匹配"Python"

6

\brub\B

\B 是非单词边界:匹配"rube"和"ruby"中的"rub",但不是单独匹配

7

Python(?=!)

匹配"Python",如果后跟一个感叹号

8

Python(?!!)

匹配"Python",如果后面没有感叹号

带括号的特殊语法

序号 示例与说明
1

R(?#comment)

匹配"R"。 其余的都是注释

2

R(?i)uby

匹配"uby"时不区分大小写

3

R(?i:uby)

和上面一样

4

rub(?:y|le))

仅分组而不创建 \1 反向引用