谈谈C# replace在正则表达式中的意义
多少年来,许多的编程语言和工具都包含对正则表达式的支持,.NET基础类库中包含有一个名字空间和一系列可以充分发挥规则表达式威力的类,而且它们也都与未来的Perl 5中的规则表达式兼容。
此外,regexp类还能够完成一些其他的功能,例如从右至左的结合模式和表达式的编辑等。
在这篇文章中,我将简要地介绍System.Text.RegularExPRession中的类和方法、一些字符串匹配和替换的例子以及组结构的详细情况,最后,还会介绍一些你可能会用到的常见的表达式。
应该掌握的基础知识
规则表达式的知识可能是不少编程人员“常学常忘”的知识之一。在这篇文章中,我们将假定你已经掌握了规则表达式的用法,尤其是Perl 5中表达式的用法。.NET的regexp类是Perl 5中表达式的一个超集,因此,从理论上说它将作为一个很好的起点。我们还假设你具有了C#的语法和.NET架构的基本知识。
如果你没有规则表达式方面的知识,我建议你从Perl 5的语法着手开始学习。在规则表达式方面的权威书籍是由杰弗里·弗雷德尔编写的《掌握表达式》一书,对于希望深刻理解表达式的读者,我们强烈建议阅读这本书。
RegularExpression组合体
regexp规则类包含在System.Text.RegularExpressions.dll文件中,在对应用软件进行编译时你必须引用这个文件,例如:
csc r:System.Text.RegularExpressions.dll foo.cs
命令将创建foo.exe文件,它就引用了System.Text.RegularExpressions文件。
名字空间简介
在名字空间中仅仅包含着6个类和一个定义,它们是:
Capture: 包含一次匹配的结果;
CaptureCollection: Capture的序列;
Group: 一次组记录的结果,由Capture继承而来;
Match: 一次表达式的匹配结果,由Group继承而来;
MatchCollection: Match的一个序列;
MatchEvaluator: 执行替换操作时使用的代理;
Regex: 编译后的表达式的实例。
Regex类中还包含一些静态的方法:
Escape: 对字符串中的regex中的转义符进行转义;
IsMatch: 如果表达式在字符串中匹配,该方法返回一个布尔值;
Match: 返回Match的实例;
Matches: 返回一系列的Match的方法;
Replace: 用替换字符串替换匹配的表达式;
Split: 返回一系列由表达式决定的字符串;
Unescape:不对字符串中的转义字符转义。
简单匹配
我们首先从使用Regex、Match类的简单表达式开始学习。
扩展16位转义符
string t7 = "%41"; // capital A string p7 = "%([0-9A-Fa-f][0-9A-Fa-f])"; string r7 = Regex.Replace(t7, p7, HexConvert);
删除C语言中的注释(有待完善)
string t8 = @" /* * 传统风格的注释 */ "; string p8 = @" /\* # 匹配注释开始的定界符 .*? # 匹配注释 \*/ # 匹配注释结束定界符 "; string r8 = Regex.Replace(t8, p8, "", "xs");
删除字符串中开始和结束处的空格
string t9a = " leading"; string p9a = @"^\s+"; string r9a = Regex.Replace(t9a, p9a, ""); string t9b = "trailing "; string p9b = @"\s+$"; string r9b = Regex.Replace(t9b, p9b, "");
在字符\后添加字符n,使之成为真正的新行
string t10 = @"\ntest\n"; string r10 = Regex.Replace(t10, @"\\n", "\n");
转换ip地址
string t11 = "55.54.53.52"; string p11 = "^" + @"([01]?\d\d|2[0-4]\d|25[0-5])\." + @"([01]?\d\d|2[0-4]\d|25[0-5])\." + @"([01]?\d\d|2[0-4]\d|25[0-5])\." + @"([01]?\d\d|2[0-4]\d|25[0-5])" + "$"; Match m11 = Regex.Match(t11, p11);
删除文件名包含的路径
string t12 = @"c:\file.txt"; string p12 = @"^.*\\"; string r12 = Regex.Replace(t12, p12, "");
联接多行字符串中的行
string t13 = @"this is a split line"; string p13 = @"\s*\r?\n\s*"; string r13 = Regex.Replace(t13, p13, " ");
提取字符串中的所有数字
string t14 = @" test 1 test 2.3 test 47 "; string p14 = @"(\d+\.?\d*|\.\d+)"; MatchCollection mc14 = Regex.Matches(t14, p14);
找出所有的大写字母
string t15 = "This IS a Test OF ALL Caps"; string p15 = @"(\b[^\Wa-z0-9_]+\b)"; MatchCollection mc15 = Regex.Matches(t15, p15);
找出小写的单词
string t16 = "This is A Test of lowercase"; string p16 = @"(\b[^\WA-Z0-9_]+\b)"; MatchCollection mc16 = Regex.Matches(t16, p16);
找出第一个字母为大写的单词
string t17 = "This is A Test of Initial Caps"; string p17 = @"(\b[^\Wa-z0-9_][^\WA-Z0-9_]*\b)"; MatchCollection mc17 = Regex.Matches(t17, p17);
找出简单的HTML语言中的链接
string t18 = @" <html> <a href=""first.htm"">first tag text</a> <a href=""next.htm"">next tag text</a> </html> "; string p18 = @"<A[^>]*?HREF\s*=\s*[""']?" + @"([^'"" >]+?)[ '""]?>"; MatchCollection mc18 = Regex.Matches(t18, p18, "si");
以上所述是小编给大家分享的C# replace在正则表达式中的意义,希望对大家有所帮助!