Tcl正则表达式详解_第1页
Tcl正则表达式详解_第2页
Tcl正则表达式详解_第3页
Tcl正则表达式详解_第4页
Tcl正则表达式详解_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、今天想用正那么表达式来获取收到的报文中的content-length字段的值的时 候,无意中发现一篇用tcl语言写的文章,觉得很不错。所以转载。一、介绍追根溯源,正那么表达式是在1956年的时候,人类最早研究神经网络的产物, 但随着时间的流逝,几乎所有编程语言都参加了对它的支持,hoho其实这个东西也是程序员开发中比拟有名的一个难点。 但是不要以为它只能用丁程序开发,在Unix/Linux系统管理中它也有极为广泛的应用。不要认为正那么表达式很可怕,用直白的话来说,正那么表达式就是利用26个英文字符与一些特殊符号的配合来进行文字内容比对的方法,绝大局部情况下,26个英文字符都代表它们本身,但在特

2、殊符号的辅助下,这些英文字符也会有 其他的含义,正那么表达式比拟困难的地方,也就在这种字符的2义性上面,这篇 文档中对丁这种具有字符2义性的地方,都会有专门的标注和说明。如果用过Dos/Windows/Linux中的通配符,就可以理解正那么表达式的作用 了,通配符用*号匹配任意多的任意字符,用?号匹配任意的一个字符,正那么表达 式有更加复杂的一套匹配系统,可以用来匹配几乎所有希望匹配的文字内容。二、文档约定本文档中的所有实例,都是在以下环境中调试和运行的:操作系统:CentOS4.1(Linux 2.6.9-11)编程语言:TCL8.4文本编辑器:VIM6.3.46文档格式约定:实例的解释性文

3、字,使用华文梏体小四号蓝色字体显示实例的解释性文字系统或程序输出,使用浅蓝色底纹表示系统或者程序输出特别需要注意和标注的地方,将以笑脸符号专门表示?看我可爱吗?二、根本正那么表达式正那么表达式中,26个英文字符代表它们本身,但是下面表格中的特殊字符 那么赋予了更多不同的含义,一定要记住它们,因为它们是一切正那么表达式的根底特殊字符简要说明.一个点,匹配任意一个字符*星号,匹配前面模式中的零个或者任意个+加号,匹配前面模式中的一个或者任意个?问号,匹配前面模式中的零个或者一个()括号,创立一个子模式|竖号,交替匹配中括号,用来表示一个区间A尖号,将一个模式挂靠在要匹配的字符申的最前面$美元号,将

4、一个模式挂靠在要匹配的字符申的最后面别看根本正那么表达式就是这么9个符号,但是想完全理解和用好它们,还是 很困难的,为了加深理解,我来详细的说明一下,这也是我自己学习时的理解和 心得,请仔细的阅读。这些符号的作用需要多方位理解,我大概是根据符号所届的类型以及它们所 起的作用这2个方向来理解它们的。按照类型划分,上面表格中的特殊字符分为几个类型:字符关键字:这局部关键字包括26个英文字符上面的表格没有列出来。这些关键字 的特点就是它们匹配自身。数量关键字:这局部关键字包括.点*星号+加号?问号这4个 关键字,这中间.点这个关键字稍微特殊一点,因为它有2个作用:既可 以作为字符关键字表示任何字符,

5、乂可以作为数量关键字代表1个字符。【任何字符】这个含义很深,因为一一空字符也算任何字符,也就是说一个点可 以表示有一个字符,也可以表示没有字符,这个概念是新手很容易犯错的地方。数量关键字本身没有任何用处,它必须和【模式】这个概念一起共同作用, 在正那么表达式中,【模式】可以说是最为核心也最为广泛的内容。总体来说,模 式就是用来表示自己想匹配字符的方法,但实际上模式的概念要更为复杂和广泛,这局部内容我会在后面有更详细的描述, 就现在来说,你只要理解,数量关键字 必须与模式一起共用就可以了。模式关键字:括号|竖号中括号A尖号$美元号这5个符号都届丁模式关键字,它们要么代表模式本身括号、竖号、中括号

6、,要 么作用丁模式为模式提供其他更高级的功能尖号、美元号。现在,我们从另一个角度来看这些关键字,下面的内容,详细说明这9个关 键字所起的作用以及实际表达方法, 这局部会有一些比拟详细的说明和实例, 但 是在此之前,我们必须了解一下什么是模式:什么是模式?模式就是一组用来匹配字符的关键字集合,一个最小的模式只有一个关键字, 而大的模式那么可以有无数个关键字:A这是一个模式,代表A这个字符本身A+这也是一个模式,代表一个或者任意多个A字符正那么表达式中,数量关键字都是作用丁左边模式的,上面的例子中,A是一个没有数量关键字的模式,而A+中的+号就向左作用丁前面这个A模式,如果没 有A这个模式,+号本

7、身是没有任何意义的,这里A虽然是一个字符,但是我觉 得把A称为模式能更活楚的理解模式的含义。正那么表达式的核心就是对模式的掌握和操作,理解了模式就等丁拿到了开启 大门的钥匙。这里我介绍一个TCL语言中的命令:regsub ,这个命令的作用就是利用正 那么表达式来获取想要的字符,它的使用方法如下:regexp选项正那么表达式匹配的原始字符申保存匹配后字符申的变量其他保存子模式匹配字符申的变量上面regexp中用口括起来的局部是可选的,其他括起来的局部是必须的, 如果正那么表达式匹配从原始字符申中匹配到了内容, 那么命令返回1并且将匹配到 的内容保存匹配后字符申的变量 中。下面我们来看1个简单的例

8、子:regexp A+ AABBCC matchputs $matchAA上面的puts命令用来打印match变量中的内容,A+这个模式从AABBCC个原始字符申中匹配到了AA这2个字符,并将它置丁match这个变量中,这就 是一个最根本的正那么表达式使用过程。正因为模式如此重要,下面的内容就要详细说明几个模式关键字的作用了:()子模式匹配关键字小括号用来将一个大模式分为几段更小的模式,这样就可以更加精细的控制匹配方式了,我们来看一个例子:regexp - (AA)(BB)(CC) AABBCC match sub1 sub2 sub3puts The match is:$matchputs

9、The sub1 is:$sub1puts The sub2 is:$sub2puts The sub3 is:$sub3The match is:AABBCCThe subl is:AAThe sub2 is:BBThe sub3 is:CC上面的例子中,处丁之间的内容是一个完整的正那么表达式, 在正那么表达式 里面我们用将表达式分为3个子模式,后面的match变量中保存所有已经匹 配到的字符,而几个sub?变量那么保存相应子模式中匹配到的字符。|交替匹配关键字交替匹配用来匹配|符号二边的一个模式,比方下面的例子:TOPSEC|topsec上面的表达式表示匹配要么是全部大写的TOPSEC要么

10、是全部小写的topsec,不能2个都同时匹配。区间匹配区间匹配用来表示匹配一系列字符申中间的一个,比方下面的例子:regexp ADEFG AAABBBCCC matchputs $matchA上面的表达式表示匹配ABCD眨5个字符中的一个,注意:只是一个如果想匹配多个呢?可以使用数量关键字辅助:regexp ADEFG+ AAABBBCCC matchputs $matchAAA区间匹配还可以使用a-z这样的语法来表示匹配从小写a到小写z这26个小 写字母中的一个这个关键字使用必须非常小心,因为在TCL语言中还有另外一个含义:所有处丁中的内容是一条TCL命令,因此在regexp中使用的时候,

11、必须用将的其他含义取消掉,如果将换成,那么上面的命令会报错。A挂靠匹配,将模式挂靠在字符申的开头这是一个很特殊的关键字,它不像其他关键字是作用丁左边的模式上,而是作用丁右边的模式上,千万注意这一点!它表示从要匹配的字符申的最前面开始 匹配,我们来看一个比拟的例子:regexp (AAA) BBBAAACCC match可以匹配到,match中的值是AAA,但是我们加上挂靠匹配字符之后呢:regexp A(AAA) BBBAAACCC match无法匹配,match中的值为空,因为A符号要求必须从要匹配的字符最前面开始 匹配,可惜要匹配的字符最前面是BBB,所以无法匹配到。A这个字符也有2义性,

12、 如果把它放在中括号里面的话, 它表示 【非】 的意 思, 比方Aa-z表示匹配不是a-z字母的其他字符,但是不在中括号里面,比方Aab表示必须最前面是ab这2个字符,这是很容易搞混的地方,一定要注意了。挂靠匹配,将模式挂靠在字符申的结尾这个关键字与八关键字作用相反,但是它和其他关键字一样,是作用丁左边 的模式上,还是看看例子:regexp AAA$ BBBCCCAAA match可以匹配到,因为要匹配的字符最后面是AAA,如果要匹配的字符是BBBAAACC遂样的,就无法匹配到了。数量关键字:.点* 星号 + 加号?问号用来表示数量。.匹配任意一个字符.点是一个比拟特殊的字符,它虽然表示匹配任

13、意一个字符,但实际上 任意字符也包括空字符。*匹配前面模式中的零个或任意多个零个这个概念很重要,也就是说不管有没有都会匹配,所以一般我们都会 用.*这样的方式来表示任意多个任意字符,不管有没有都可以。+匹配前面模式中的1个或任意多个?匹配前面模式中的0个或1个?号还有一个术语一一非贪婪模式,这也是正那么表达式中非常重要的内容, 所谓非贪婪模式,就是表示只要匹配到第一个就会停下来,而贪婪模式正好相反, 它会尽可能多的匹配,这2种模式的最终结果就是:非贪婪模式总是获得第一个 匹配,贪婪模式总是获得最后一个匹配。 默认情况下,正那么表达式总是处丁贪婪 模式下的。根本正那么表达式中还有一个很重要的符号

14、:(反斜杠),它用来关闭上面这些特殊字符的特殊含义,比方:*表小一个星号本身+表小一个加号本身表示一个反斜杠(o( n_n )0.哈哈,自己关闭了自己)在高级正那么表达式中,反斜杠还有更多的用途。四、高级正那么表达式高级正那么表达式是根本正那么表达式的扩展,总体来说,高级表达式扩展了以下3个方面的功能:1.反斜杠字符序列个人认为反斜杠字符序列应该是高级正那么表达式最为实用的扩展了,利用反斜杠加上特定字符,可以表示复杂的含义,下面的表格就是根据我的经验使用最 多的反斜杠序列,我会根据使用频率从上到下的安排顺序。反斜杠序列简要说明d表示0-9之间的数字D除了0-9之间数字的其他字符,与d作用相反s

15、空白符,包括空格、换行、回车、制表、垂直制表、换贞符等S非空白符,与s作用相反w数子、子母和下划线W非数子、子母和下划线的其他子符uXXXX16位Unicode字符编码n换行符,Unicode码是u000Ar换贞符,Unicode码是u000Dt制表符,Unicode码是u00092.字符类除了反斜杠字符序歹0,高级正那么表达式还支持字符类匹配,字符类就是利用 一个单词代表复杂意思,大局部的字符类与反斜杠序歹0含义相同,但也有一些字符类是特有的,比方匹配16进制字符的xdigit,几乎所有情况下只要使用字 符类就必须将它们放在:符号中,下面的表格列出了所有字符类:字符类简要说明:alnum:大

16、小与子母和数子,不包括下划线:alpha:大小写字母:blank:空格和制表符:cntrl:控制字符,也就是ASCII码表中1-31号的字符:digit:0-9之间的数字,与d的含义相同:graph:所有可以显小的字符:lower:小写字母:print:alnum的另外一种表小方法:punct:所有标点字符:space:空白字符,与s的含义相同:upper:所有大写字母:xdigit:所有16进制数字,包括0-9 a-f A-F3.扩展的正那么表达式语法扩展语法中,我认为最为重要和方便的就是语法,它可以精确指定前面模 式匹配的次数,语法有3种根本使用方法:m匹配前面模式的m次m,匹配前面模式最

17、少m次,最多无限次m,n匹配前面模式最少m次,最多n次在实际使用时还可以在语法后面加上?号表示非贪婪匹配。五、实例详细说明下面的实例都是可以单独运行的代码段, 有兴趣的话可以自己将它们复制到 文件中运行,观察一下它们的结果,然后修改表达式中的字段观察它们的不同表 现,这是学习正那么表达式的捷径。1.从tcpdump中,提取IP和端口号。set dumpoutput (16:49:52.278091 IP 10.11.105.15.2093 10.11.105.102.ssh: . ack 167128 win 1494416:49:52.292780 IP 10.11.105.15.2093

18、10.11.105.102.ssh: . ack 167332 win 16232set pattern .*(10.11.105.15).+?(d+)s+?+?set status regexp $pattern $dumpoutput tp iptp portputs ip is:$iptpputs port is: $portip is:10.11.105.15port is: 2093上面的代码中,dumpoutput变量是从tcpdump程序中截获的报文,最重要 的正那么表达式是pattern变量中的内容,观察一个正那么表达式,应该首先观察它的子模式,从子模式中一般我们可以看到正那么

19、表达式中最重要最核心的局部,然后再观察外围的其他字符。上面的代码中有2个子模式,第一个子模式用来匹配IP地址,第二个子模 式那么使用高级正那么表达式中的反斜杠字符序歹0,d表示任意数值,后面的+?那么用来匹配任意多个数值。外围的代码中,大量使用了 ?的非贪婪特性,其中s这个反斜杠序列表示任 意空白符号。2.从tcpdump中,提取arp应答信息set dumpout (17:14:24.927839 arp who-has 10.11.105.254 tell 10.11.105.10217:14:24.927936 arp reply 10.11.105.254 is-at 00:13:72

20、:35:a6:fd)set pattern (arp reply 10.11.105.254)set st regexp - $pattern $dumpout matchputs $match这个正那么表达式很简单,就是让关键字一个一个的对应匹配,其实刚刚开始写正那么表达式有一个小技巧一一首先将关键字全部复制出来,然后一点一点的替换,比方将空格替换成s+,数值替换成d+等等。3.检查arp表中是否活空了指定IP的arp记录set pcarp (AddressHWtype HWaddress Flags Mask Iface10.11.105.29(incomplete)eth010.11.1

21、05.19 ether 00:11:D8:35:13:84 Ceth0)set pattern (10.11.105.29)+?.*?incomplete+?)set patt u000A*u000D*regsub -all - $patt $pcarp () pcarpset st regexp - $pattern $pcarp matchputs $match10.11.105.29(incomplete上面的表达式使用了 ?这个非贪婪匹配关键字4.从FWh获取系统当前时间set fwout (+00 2007-07-24 08:25:38)set pat(.*(+0-92)s+(0-94-0-92-0-92)s+(0-92:0-92:0-92).*)set st regexp $pat $fwout - t1 t2 t3puts time area:$t1ndate:$t2ntime:$

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论