请问这个「 (?<=<(\w+)>).*(?=<\/\1>) 」正则表达式是什么意思呢?

https://www.cnblogs.com/oxspirt/p/8041717.html

 

(?<=<(\w+)>).*(?=<\/\1>)
—————————————————-

正则表达式看懂的最好方法就是一步步分开解析:

1)以 ‘.*’ 为分界,前面括号中的内容可以划分为 ‘?<=’ 和 ‘<(\w+)>’,其中‘<(\w+)>’表示匹配尖括号里面是字母、数字或下划线的内容,类似<span>,外面还要加个括号是要实现分组;而‘?<=’用到的是零宽断言语法,表示的是断定‘<(\w+)>’后面有或没有内容,而且与内容的间隔宽度为零。

2)再看’ .* ‘后面的部分,括号里面的内容可以分为 ‘?=’ 和 ‘<(\/\1>’,其中‘?=’用零宽断言表示匹配‘<(\/\1>’前面的部分,而对于‘<(\/\1>’,‘\/’匹配‘/’符号,类似</span>,这里可能有些同学不太明白‘\1’是什么意思?这里用到的是捕获分组的思想,上述提到的‘<(\w+)>’外面加个小括号就表示一个分组,对于正则表达式的分组结果,索引 0表示匹配的整个内容,而1表示的是第1个子分组,所以这里的’\1’指向的就是前面的第一个分组‘<(\w+)>’,\2表示重复第2个子项,\n表示重复第n个子项;

3).* 就比较简单了,表示的是匹配 除了换行符意外的任意字符0次或多次。

综上,改表达式匹配的是类似html标签这种内容的,如<body>你好,正则!</body>

Your email address will not be published. Required fields are marked *