（计算机应用技术专业论文）基于倾向性文本过滤的im监控系统的研究与实现.pdf

上传人：伐*** IP属地：宁夏上传时间：2019-12-13 格式：PDF 页数：74 大小：2.07MB 积分：0 举报 版权申诉

（计算机应用技术专业论文）基于倾向性文本过滤的im监控系统的研究与实现.pdf_第2页

（计算机应用技术专业论文）基于倾向性文本过滤的im监控系统的研究与实现.pdf_第3页

（计算机应用技术专业论文）基于倾向性文本过滤的im监控系统的研究与实现.pdf_第4页

（计算机应用技术专业论文）基于倾向性文本过滤的im监控系统的研究与实现.pdf_第5页

已阅读5页，还剩69页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

西北大学硕士学位论文摘要即时通信( i n s t a n tm e s s a g i n g ，简称i m ) 是一种实时的互联网交流形式，伴随着网络的开放性和日益增长的规模，它已经成为人们自由交流信息的便捷手段，极大地改变了人们的联系方式。然而在i m 得到广泛应用的同时，却存在着很大的负面效应，如不良信息的广泛传播，机密信息泄露，影响正常工作效率等。这时，一个能对i m 软件进行有效监控的系统有了很大的市场需求，但目前国内i m 过滤软件多采用基于主题的过滤，使得在过滤精度上有所欠缺。本文针对现有i m 监控软件的缺陷，以建立一个高效、准确的监控系统为目标，实现了一个原型系统。本文的研究工作主要包括以下几个方面： 1 、研究了i m 监控系统实现平台n c m l t c r 框架的设计思想和工作原理，着重分析了其扩展机制及应用；然后针对i m 监控系统的过滤需求，选择合适的 n e t f i i t e r 框架钩入点，扩展了框架对应用层i m 协议的支持。 2 、提出了i m 监控系统的实现方案，深入分析并讨论了系统实现中的一系列关键技术，包括i m 软件协议解析方案、中文分词技术、倾向性文本过滤技术、 t c p 连接阻断技术以及可加载内核模块( l g m ) 技术和内核空问与用户空间的通信技术。本文针对系统过滤准确性和实时性的需求，在分析i m 文本消息特点和实际应用特点的基础上，对基于语义分析的倾向性文档过滤技术进行了重点研究，给出了一个适用于实时过滤i m 消息的倾向性文本过滤方法。 3 、设计并实现了一个基于倾向性文本过滤的i m 监控系统原型t h m m ( i n s t a n tm e s s a g i n gm o n i t o r i n gs y s t e mb a s e do nt e n d e n c yt e x tf i l t e r i n g ) 。该系统应用了本文所给出的倾向性文本过滤方法和旁路监控技术，不仅有效提高了i m 文本信息过滤的准确性，而且避免了对网络速度的负面影响。 4 、搭建了系统的实验环境，通过召回率、正确率等指标对本文给出的倾向性文本过滤方法进行了测评，并从吞吐率、延迟率两方面对系统性能进行了分析和评价。实验结果表明，该原型系统达到了预期的效果。关键词：n e t f i l t e r 框架倾向性过滤模板旁路监控西北大学硕士学位论文 a b s t r a c t i n s t a n tm e s s a g i n g ( 呐i sak i n do fr e a l t i m e e x c h a n g ew a yf o rm i l l i o n so f i n t e r a c tu s e r s a l o n gw i t ht h eo p e n i n ga n dt h es c a l et h a ti n c r e a s e dd a y - b y d a yo ft h e n e t w o r k , i th a sc o m et ob e i n gac o n v e n i e n tm e a n sb yw h i c hp e o p l ec a ne x c h a n g e i n f o r m a t i o nf r e e l y a tt h es a m et i m e ，t h e r ea r es o m en e g a t i v ee f f e c t sa l s o , s u c ha st h e s p r e a do fv a r i o u sk i n d so fm e g a n f o r m a t i o n , l e a k i n go fs e c r e ti n f o r m a t i o n , l o w e f f i c i e n c ya n dh i g hc o s to fn e t w o r k t h e r e f o r e ，as y s t e mw h i c hc a nm o n i t o rt h eu s eo f i mh a sav e r yb i gm a r k e td e m a n d h o w e v e r m o s ti mf i l t e rs o f t w a r ep r o d u c t si n c h i n aa r eb a s e do ns u b j e c tf i l t e r i n ga tp r e s e n t ，w h i c ha r es h o r to f f i l t e r i n gp r e c i s i o n b ya n a l y z i n gt h es h o r t a g e so fc u r r e n ti mf a l t e rs o f t w a r e ，ap r o t o t y p es y s t e mi s d e s i g n e da n di m p l e m e n t e di no r d e rt of i l t e rt h ei n f o r m a t i o np r e c i s e l ya n de f f e c t i v e l y i nt h i sp a p e r , t h er e s e a r c hw o r kc a nb es u m m a r i z e di nt h ef o l l o w i n ga s p e c t s ： f i r s t l y , t h ei m p l e m e n t a t i o np l a t f o r mo fi mm o n i t o r i n gs y s t e m ，n e t f i l t e rs e c u r i t y f r a m e w o r k _ ，i ss t u d i e d i t sd e s i g np h i l o s o p h ya n de x t e n d e dm e c h a n i s ma r em a i n l y a n a l y z e d t h e na i m i n ga tt h ef i l t e r i n gr e q u e s to fi mm o n i t o r i n gs y s t e m ，a n a p p r o p r i a t eh o o kp o i n ti sc h o s e na n dt h en e t f i l t e rf r a m e w o r ki se x t e n d e d t h u st h e i mc o m m u n i c a t i o np r o t o c o l s 啪b es u p p o r t e da tt h ea p p l i c a t i o nl a y e r s e c o n d l y , t h ei m p l e m e n t a r ys c h e m eo fi mm o n i t o r i n gs y s t e mi sp r o p o s e d t h e k e yt e c h n i q u e so ft h ei m p l e m e n t a t i o no fi mm o n i t o r i n gs y s t e ma r ea n a l y z e da n d s t u d i e di nd e t a i l ，i n c l u d i n gt h ea n a l y t i cs c h e m eo ft h ei mp r o t o c o l , c h i n e s ew o r d s e g m e n t a t i o nt e c h n i q u e ，t e n d e n c yt e x ta n a l y s i st e c h n i q u e , t c pc o n n e c tb l o c k s t e c h n i q u e ，l o a d a b l ek e r n e lm o d u l e s ( l 哪t e c h n i q u ea n dt h ec o m m u n i c a t i o n s b e t w e e nk e r n e ls p a c ea n dn s e rs p a c e b ya n a l y z i n gt h ec h a r a c t e r i s t i co fi mt e x t i n f o r m a t i o na n d u s e r s f i l t e r i n gd e m a n d , t h et e n d e n c yt e x tf i l t e r i n gt e c h n i q u eb a s e do n s e m a n t i ca n a l y s i si ss t u d i e d ，a n dat e n d e n c yt e x tf i l t e r i n gm e t h o d ( i m 哪w h i c hi s f i cf o ri mm o n i t o r r i gi sg i v e n t h em e t h o dc a nf i l t e rt h ei n f o r m a t i o np r e c i s e l ya n d e f f e c t i v e l y t h i r d l y , t h ep r o t o t y p eo fi n s t a n tm e s s a g i n gm o n i t o r i n gs y s t e mb a s e do nt e n d e n c y n 西北大学硬士学位论文 t e x tf i l t e r i n gf n a m 旧i sd e s i g n e da n di m p l e m e n t e d t h ei m t r fm e t h o da n dt h e b y p a s sm o n i t o r i n gt e c h n i q u e a r ea p p l i e dt ot h i ss y s t e m ，w h i c hn o to n l yi m p r o v et h e f i l t e r i n gp r e c i s i o ne f f e c t i v e l y , b u ta l s oa v o i dt h en e g a t i v ei n f l u e n c eo ni n t e r n e ts p e e d f i n a l l y , t h es y s t e me x p e r i m e n t a le n v i r o n m e n ti ss e tu p t h ei m t r fm e t h o di s e v a l u a t e do nr e c a l la n dp r e c i s i o n , a n dt h es y s t e mp e r f o r m a n c ei se v a l u a t e do n r e s p o n s ep e rs e c o n da n dr e s p o n s ed e l a y t h er e s u l t si n d i c a t et h a tt h ep r o t o t y p e s y s t e mr e a c h e st h ea n t i c i p a t e de f f e c t k e y w o r d s ：n e t f i l t e rf l a l l l e w o r k , t e n d e n c y , f i l t e r i n gp r o f i l e ，b y p a s sm o n i t o r i n g 西北大学学位论文知识产权声明书本人完全了解学校有关保护知识产权的规定，即：研究生在校攻读学位期问论文工作的知识产权单位属于西北大学。学校有权保留并向国家有关部门或机构送交论文钓复印侔和电子版。本入允许论文被查阕和借阅。学校可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同时本人保证，毕业后结合学位论文研究课题再撰写的文章一律注明作者单位为西北大学。保密论文待解密后适用本声明。学位论文作者签名：覃差礁_ 二指导教师签山7 年厂月耳日日西北大学学位论文独创性声明本人声明：所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知，除了文中特别加以标注和致谢的地方外，本论文不包含其他人已经发表或撰写过的研究成果。也不包含为获摄西北大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名：刁褴如7 年，月呼e t 西北大学硕士学位论文第一章绪论本章首先分析了即时通信软件的特点及其存在的安全隐患，从而提出了对即时通信进行监控的必要性。然后根据国内外对i m 监控系统的研究现状，阐明了本文要研究的主要内容，最后给出了论文的章节安排。 1 1 研究的背景与意义即时通信( i n s t a n tm e s s a g i n g ，以下简称i m ) ，是指一种能使人们在网上识别在线用户并与他们实时交换信息的技术。随着i m 软件的迅速发展，它已经成为人与人之问交流的一种主要方式，极大地方便了人们的工作和生活。i m t 具是继电话和电子邮件之后在全球迅速普及的新一代通信工具，它继承了电话的“即时性”和电子邮件的“并发性”两大优点，以其便捷性、低成本等优势，在一定程度上取代了传统的通信方式。据中国互联网信息中心和艾瑞咨询、计世资讯等国内调研机构针对国内i m 市场最新调研结果显示【1 1 ，我国i m 用户数目已接近1 亿，在用户总人数、总注册帐户数、活跃帐户数等方面都创下世界之最。艾瑞研究认为 2 1 ，未来几年中国蹦市场将朝着综合化、专业化，安全化和互通化这四个方向发展。然而，在i m 软件带给人们极大方便的同时，却也存在着一些安全问题。就目前而言，皿旺软件存在的安全威胁主要突出表现在以下几方面网： ( 1 ) i m 内容的不安全性通过使用i m 软件中的文字聊天、语音聊天等方式传播反动、色情、暴力、恐吓等不良内容，这些有害信息给网络秩序和社会安定带来了严重的负面影响。中国互联网络信息中心( c n n i c ) 正式发布的( 2 0 0 6 年中国即时通信市场调查报告数据显示 4 1 ，i m 用户中，超过8 成用户曾经通过i m 工具收到过陌生人发送的反动和骚扰信息。o i c q 、m s n 等主流i m 软件被用于反动言论及色情在网络上传播已经呈泛滥趋势，大量的“垃圾信息”和“有害信息”尤其给占i m 用户一半以上的广大青少年的身心健康带来了严重的威胁。西北大学硕士学位论文 ( 2 ) 易受病毒、木马等恶意代码攻击目前许多大众普遍使用的i m 软件有很多已知的漏洞，为黑客攻击和病毒入侵提供了方便。黑客可以用缓冲区溢出、拒绝服务等攻击方式，通过i m 软件对整个网络系统进行攻击或病毒传播；带有病毒的文件传输也成为i m 病毒传播的一条主要途径；另外，还有脚本缺陷及身份窃取等问题，都没有安全的保障。 ( 3 ) 机密信息泄露、工作效率降低 i m 软件在企业内部、政府部门的广泛应用也产生了诸如机密信息泄露、工作效率降低及网络使用成本增加等一系列问题。继电子邮件之后，i m 沟通的实时性成为泄露公司、部门内部机密信息的第二大管道，这种行为危害极大，许多企业、部门为了管理方便，甚至禁止员工使用i m 软件；此外，企业、部门员工经常在工作时间利用i m 软件处理与工作无关的个人事务，严重影响工作效率，占用大量网络带宽，增加企业的网络使用成本。综上所述，人们在体会到i m 工具方便的同时，也受到了一些安全的威胁。为了使公众能够安全、健康的使用公共i m 服务，政府部门和企业内部能够规避机密信息泄露的风险，需要提供更好的管理性和更高的安全性能，这就提出了对 i m 软件进行监控的需求。鉴于信息网络安全对于国家的特殊地位，不便引进国外产品，而且由于中西方文化信仰差异，以及国外产品目前无法对国内流行的 o i c q 等中文i m 软件实施有效地监控，所以深入分析i m 软件的通讯架构与协议格式，研究具有自主知识产权的、适用于我国计算机网络和信息安全所需要的1 m 监控技术具有极为重要的意义，这已经成为信息安全学科的重要研究课题。本文的研究工作正是基于这样的背景提出的，针对n 讧软件传输文本内容的不安全性，对文本内容的过滤技术进行了系统的研究，力求通过对i m 文本内容的控制来规避法律风险、安全风险，以保障i m 信息世界的安全与纯净。 1 2 国内外研究现状目前国外各大i m 软件公司，如a o l 、m i c r o s o f t 和y a h o o 等互联网巨头，已经意识到公共即时消息服务的安全性对用户的重要意义【5 l ，早已着眼于i m 软件监控技术的研究，公司都在积极推出满足用户需要的即时消息安全管理产品， 2 西北大学硕士学位论文 a o l 提供了a i me n t e r p r i s eg a t e w a y ，这是一款利用实时通信管理提供商 f a c e t i m ec o m m u n i c a t i o n s 技术的软件；m i c r o s o f tm s n 提供了企业网关产品m s n c o n n e c tf o re n t e r p r i s e 。此外，即时通信安全服务提供商a k o n i x 、w i r e d r e d 以及 i m - a g e 等一些新秀也纷纷推出自己的产品，大多数产品都提供了相似的功能 6 1 ：危险和安全管理工具，其中包括可供搜索的存储、使用情况监测、稽核进出的 i m 通信内容以及对员工使用的控制等。 n 订软件监控技术的研究在国际上已经受到广泛的重视，并取得了一定的研究成果，在商业化、产品化方面也都走在了前列，已经能够提供较为完整的网络内容解决方案。而网络内容安全方面的研究国内是近几年才刚刚起步，国内对i m 软件安全服务的研究开发尚处于技术跟进阶段，产品良莠不齐。目前国内网络安全监控产品有网路岗、网上特工、网度e m c x u r 等，它们的主要功能往往是监控用户的网络活动，对i m 软件的监控不全面，多是支持对用户分组的应用控制，分时间段的应用控制，对应用的流量控制等，有些提供对i m 通信内容的监控，但多是基于主题的过滤，在过滤精度上有所欠缺；它们的运行模式多采用基于网关或基于代理，这种串连网络结构的缺点是不能解决对网络速度的负面影响，而且对监控系统的性能要求非常高，如果系统出现故障会影响正常的工作，甚至会导致网络不通，这是网络监控软件在实际使用中很关键的要素。根据以上对国内外已有i m 监控产品的分析，针对过滤精度不高、对网络产生负面影响等问题，结合各类用户对蹦软件的监控需求，本文分析了当今主流i m 产品协议的格式、特征，研究了中文分词、文本内容过滤、t c p 连接阻断等关键技术的，借鉴语义学文本分析的思想，最终找到了行之有效的i m 软件内容监测及控制手段，搭建出安全、过滤准确、易于使用的基于倾向性文本过滤技术的订监控系统框架。本系统将致力于满足以下一些用户的需求：政府部门或企业内部。在政府部门或企业内部使用i m 监控系统，不仅可以有效阻止员工利用i m 软件向外泄露机密信息，还可以即时发现并阻止某些对部门政策、企业制度持反对意见并试图通过i m 手段影响其它员工工作积极性的人员。同时，一个i m 监控系统的运行，从实际和心里上都会对员工的行为起到约束和规范的作用。网吧或学校公共机房。在网吧或学校公共机房使用i m 监控系统，既可 3 西北大学硕士学位论文以有效防止未成年人在通过i m 软件上网交友、聊天时受到别有企图的人的诱骗，对其身心产生不良影响，又能避免有人利用网吧、公用机房这种公共难于追查的地方进行对社会有害的不良言论的传播。构建绿色网吧环境，保障校园网络文明、安全是全社会的迫切需求。 1 3 研究的主要内容综上所述，i m 软件已经深入人们的生活，但同时也带来了一些亟待解决的安全问题。本文主要研究如何实现一个高效、实用的玎“监控系统，以使得大家既能享受i m 带来的方便，又能剔除其负面影响。研究内容主要包括以下四个方面：首先，研究了i m 监控系统的实现平台：l i n u x 下的n e t f i l t e r 安全框架。在研究n e t f i l t e r 框架设计思想及工作原理的基础上，着重分析了其扩展机制以及应用。然后针对i m 监控系统的过滤需求，选择合适的n e t f i l t e r 框架钩入点，扩展了框架对应用层i m 协议的支持。其次，提出了i m 监控系统的实现方案，深入分析并讨论了系统实现过程中的一系列关键技术，包括i m 软件协议解析方案、中文分词技术、倾向性文本过滤技术、t c p 连接阻断技术以及可加载内核模块( u 技术和内核空间与用户空间的通信技术。本文针对系统过滤准确性和实时性的需求，通过对当今几种文本内容过滤技术的比较，将倾向性文本过滤技术作为能有效提高过滤效率和精度的手段进行了深入的探讨，给出了一个适用于i m 消息过滤的倾向性文本过滤方法。然后，详细阐述了设计并实现了一个基于倾向性文本过滤的i m 监控系统原型1 1 盯m m ( i n s t a n tm e s s a g i n gm o n i t o r i n gs y s t e mb a s e do nt e n d e n c yt e x t f i l t e r i n g ) 的具体过程。该系统应用了本文所给出的倾向性文本过滤方法和旁路监听技术，不仅有效提高了i m 文本信息过滤的准确性，而且避免了对网络速度的负面影响。为了获得较好的性能，整个i m 过滤模块都在内核空问实现。最后，搭建了系统的实验环境，分别对本文给出的倾向性文本过滤方法和系统性能进行了分析和测评。实验结果表明，该原型系统达到了预期的效果。 4 西北大学硕士学位论文 1 4 本论文的组织结构本文共分为七章，具体内容安排如下：第一章绪论。介绍了课题的研究背景及国内外i m 监控系统的研究现状，最后给出本文研究的主要内容与组织结构。第二章i m 监控系统删m m 的实现平台。研究了n e t f i l t e r 安全框架的基本原理和扩展机制，根据i m 监控系统的过滤需求，选择合适的钩入点，实现了t f i m m 系统对n e t f i l t e r 框架的扩展。第三章针对i m 监控系统的实现方案，深入分析并讨论了实现i m 监控系统 1 h m m 系统的一系列关键技术，包括i m 软件协议解析方案、中文分词技术、倾向性文本过滤技术、t c p 连接阻断技术以及可加载内核模块( u 【m ) 技术和内核空间与用户空间的通信技术。本文在分析i m 文本消息特点和实际应用特点的基础上，对基于语义分析的倾向性文档过滤技术进行了研究，给出了一个适用于i m 消息过滤的倾向性文本过滤方法。第四章i m 监控系统佣m m 原型系统的设计与实现。在对以上问题研究的基础上，设计并实现了一个基于倾向性文本过滤的i m 监控系统原型 t f i m m ，详细介绍了系统的框架，功能特点以及设计实现的方法和具体过程。第五章系统测试与结果分析。建了系统的实验环境，分别对本文给出的倾向性文本过滤方法和系统性能进行了分析和测评。实验结果表明，该原型系统达到了预期的效果。第六章总结与展望。总结了论文的研究工作，并对后续的工作做出规划。 5 西北大学硕士学位论文第二章i m 监控系统( t f i m m ) 的实现平台研究本文采用l i n u x 下的n e t f i l t e r 可扩展框架作为t f i m m 系统实现的平台。本章在研究n e f f i l t e r 框架设计思想及工作原理的基础上，着重分析了其扩展机制及应用，最后针对t f i m m 系统的过滤需求，选择了合适的n e t f i l t e r 框架钩入点，扩展了对应用层i m 协议的支持。 2 1n e t f f l t e r 框架概述 l i n u x 操作系统以其开放源码、高性能、高可靠性和安全性等诸多优势在商业服务器和个人桌面系统中得到日益广泛的应用。随着l i n u x 核版本升级，不断推陈出新，其可扩展性和可维护性也得到了较好的解决。n e t f i l t e r 是l i n u x 2 4 x 和2 6 x 内核提供的实现数据包过滤、数据包处理、n a t 等功能的框架。它相对于l i n u x 2 2 x 的i p c h a i n s 和l i n u x 2 0 x 的i p f w a d m 来说是一个重新设计有很大提高的系统。它采用了全新的机制，良好的框架结构，提供许多新功能，主要有以下几点【7 l ：为i p v 4 和i p v 6 提供无状态包过滤；为口、，馄供状态包过滤；各种类型的网络地址和端口的转换，也就是n a t n a p t ；提供一个柔性的、可扩展的框架；为第三方提供多层的a p i ，以供扩展； n e t f f l t e r 是一个抽象、通用化的可扩展框架结构，它的目的是为用户提供一个专门用于包过滤的底层结构，用户和开发人员可以将其内建在l i n u x 内核中，从而提供更好的灵活性和扩展性，各种包过滤、n a t 王j j 能模块都可以建立在这个框架结构之上。除此之外，n e t f i l t e r 框架也获得了系统内核的直接支持，不需要像i p c h a i n s 那样需要自行重新编译内核。本系统正是基于以上这些特点，构造了基于n e t f i l t e r 框架的t f i m m 系统。 n e t f i l t r 框架包含以下三个部分： 6 西北大学硕士学位论文 ( 1 ) n e t f i l t e r 框架为每种网络协议( i p v 4 、i p v 6 等) 定义一套钩子函数，在数据包流过协议栈的几个关键点时调用这些钩子函数。在这几个点中，协议栈将把数据包及钩子函数标号作为参数来调用n e t f i i t e r 框架。 ( 2 ) 每种协议的一个或多个钩子可以通过内核中的任何模块进行注册，实现挂接。这样当某个数据包被传递给n e t f i l t e r 框架时，内核能检测到是否有任何模块对该协议和钩子函数进行注册。若注册了，则调用该模块注册时使用的回调函数，这样模块就可以检查( 或修改) 数据包、丢弃数据包或者指示n e t f i l t e r 把数据包传入用户空间的队列。 ( 3 ) 那些排队的数据包是被传递给用户空间异步进行处理的。一个用户进程能检查数据包、修改数据包、甚至可以重新将该数据包通过离开内核的一个钩子函数注入到内核中。本文根据n e t f d t e r 框架的柔性和可扩展性，在第四章设计并实现了以n e t f i l t e r 框架为实现基础的t f i m m 系统，从而在n e t f i l t e r 框架上扩展了对应用层i m 协议的支持。 2 2n e t f f l t e r 框架工作原理 n e t f i l t e r 在l i n u x 2 4 内核的i p v 4 、i p v 6 网络协议栈中都有相应的实现。图 2 1 所示是p 数据包在经过协议栈的路线中，f i v 4 协议栈定义的五个处理点：图2 - 1n e t # a l t e r 在i p v 4 协议栈的处理点在图2 - 1 中，箭头标明了m 包在n e t f i l t e r 框架的l p 层中的流向。i p 包从最左端进入系统，首先进行口校验和版本检查，经过第一个挂接点 7 西北大学硕士学位论文 n fi pp r e _ r o u t i n g 注册的钩子函数的处理后，然后进入路由选择，决定该口包是要发给本机还是转发，若该口包是发给本机的，则经过n fi pl o c a li n 注册的钩子函数处理以后传递给上层协议；若需要转发，则转至 n f 一1 p f o r w a r d 注册的钩子函数进行处理；所有需要发送到网络上的数据包，无论是本机发送的还是转发的，都需要经过最后一个钩子函数 n f 口p o s t _ r o u t i n g 处理后才能发送到网络上。本地网络层以上产生的数据包在通过n fn , l o c a lo u t 注册的钩子函数处理后，才可以进行路由选择，然后由n fi pp o s tr o u t i n g 处的钩子函数处理后发送到网络上。这五个钩子点它们的具体含义如表2 1 ：表2 - 1 钩子函数挂接表标号钩子函数挂接点通过时机实现功能源地址转换 1 n f i p p r e r o u t i n g 刚进入网络层的m 数据包 ( s n 盯) 2 n f1 pl o c a li n 经过路由查找，发往本机的i p 数据包输入包过滤 3 n f i p f o r w a r d经过路由查找，需要转发的i p 数据包转发包过滤 4n fi pl o c a l o u t 本机进程发出的口数据包输出包过滤目的地址转 5n fi p _ p o s t _ r o u t i n g 所有需要从网络设备发出的i p 数据包换( d n a t ) 这五个钩子点在函数中的位置，以及这些函数所在的文件名称如下【川： ( 1 ) n fi pp r er o u t i n g ：在i p _ i n p u t c 文件中的i p r c v 函数中调用，i p _ r c v 函数主要用来检查s k b ，i p 头的正确性和i p 校验和。 ( 2 ) n fi pl o c a l _ i n ：在i p _ i n p u t c 文件中的i p _ l o c a l _ d e l i v e r 函数中调用， i p _ l o c a l _ d e l i v e 函数把分片的包合成一个报文，然后调用钩子函数来处理该报文。 ( 3 ) n f i p f o r w a r d ：在i p _ f o r w a r d c 文件中的i p _ f o r w a r d 函数中调用，经过路由策略之后，要转发的分组经过此钩子函数。 ( 4 ) n fi pp o s t _ r o u t i n g ：在i p _ o u t p u t c 文件中的i p _ f i n i s h _ o u t p u t 函数中调用。 ( 5 ) n f i p l o c a lo u t ：i p _ b u i l dx m i l i pb u i l dx m i ts l o w , i p _ b u i l da n d 一 8 西北大学硕士学位论文 s e n d _ p k t ，i p _ q u e u e _ x m i t 函数在i p _ o u t p u t c 文件中调用，在这些函数中还实现了对于输出包路由的功能，本地进程发出的包都经过该钩子函数。在l i n u x 内核注册了内核模块之后，可以在n e t f i l t e r 的一个或多个钩子处监听。程序开发者在每个钩子点可以挂接一个或者多个钩子函数。当有数据包进入钩子处理时，先查找被挂接的函数，然后调用这些函数对数据包进行处理( 也就是所谓的钩子被激活) 。这些函数返回值如表2 2 所示：表2 - 2 函数返回值的说明返回值说明 n fa c c e p t 继续正常传递数据包 n f d r o p 丢弃该数据包 n fs t o l e n 模块接管该数据包，不再继续传递该数据包 n f0 u e u e 排队该数据包 n fr e p e t 再次调用该处理函数 n f _ a c c e p t 的含义是【9 l ：通知n e t f i l t e r ，到目前为止该数据包仍是被接受的，并且该数据包需要被传递到网络堆栈的下一个阶段；n fd r o p 的含义是：该数据包将被完全丢弃，释放所有为它分配的资源；n f - s 矾) u n 的含义是：通知 n e t f i l t e r ，该h o o k 函数将从此开始对数据包进行处理，n e t f i l t e r 应当放弃对该数据包做任何处理，但是该数据包的资源并不被释放，这个数据包以及它独自的 s k _ b u f f 数据结构仍然有效，只是n c t f i l t e r 将该数据包的所有权转交给h o o k 函数； h f _ q u e u e 的含义是：将数据包发送到用户空间，等待用户空间的处理程序进行处理；n fr e p e 盯的含义是：请求n e t f i l t e r 再次调用这个h o o k 函数。值得注意的是，应当谨慎使用n fr e p b 蟠这个返回值，避免造成死循环。本文根据n c t f f l t e r 的工作原理，在其体系结构上添加了i m 监控功能模块，对网络中的即时通信数据包进行过滤，从而有效监控通过1 m 软件传输的文本消息，使得i m 软件的使用获得更安全的保护。 2 31 m 监控系统( t f i m m ) 对n e t f i l t e r 框架的扩展从以上对n e t f i l t e r 框架基本原理和扩展机制的分析可以看出，通过将t f i m m 9 西北大学硕士学位论文系统中的i m 监控模块钩入到n e t f i l t e r 框架合适的钩入点上，可以实现对n e t f i l t e r 框架的扩展。由于本系统采用的是基于旁路的监控方式( 具体见5 1 节) ，处于旁路的监控机的主要目的是监控受保护网络中通过的i m 软件传输的文本消息，即过滤i m 数据包，而不负责转发数据包，其发出的数据包也都是可信的，因此，选择 2 n fn , l o c a li n 钩入点钩入i m 监控模块，这样的处理基于以下两点考虑： ( 1 ) 效率。先进行包过滤，如果数据包不能通过包过滤则不必进行内容过滤，提高了过滤的效率；而且从m 包流经n e t f i l t e r 框架的路线可以看出，一个数据包只能而且是必须经过这三个过滤点中的一个，所有的数据包仅会被过滤一次，避免了重复，提高了过滤的效率。 ( 2 ) 自身的安全。数据包通过包过滤后才会进行内容过滤，包过滤起到了保护作用。 2 4 本章小结 l i n u x 操作系统以其开放源码、高性能、安全性等诸多优势得到了日益广泛的应用。n e t f i l t e r 是l i n u x 2 4 x 和2 6 x 内核提供的实现数据包过滤、数据包处理、 n a t 等功能的一个柔性的、可扩展的抽象框架，它采用了全新的机制，良好的框架结构，提供许多新功能。在n e t f i l t e r 框架的基础上，通过对内核模块扩展可以实现很多高级的功能。 n e t f i l t e r 将框架与用户可定制的功能分离开，提高了系统的可扩展性和可维护性，也为开发内核程序提供了可以借鉴的思路和快速开发的底层支持。本章扩展了框架对应用层i m 协议的支持。 l o 西北大学硕士学位论文第三章i m 监控系统( t f i m m ) 中的关键技术本章主要研究了t f i m m 系统实现中的一些关键技术，它们都是系统实现必不可少的一部分。其中，i m 协议格式分析与解析是准确获取i m 文本信息源的依据，将信息源通过中文分词技术处理后，利用i m 倾向性文本过滤方法进行过滤，最后将过滤出的文本采用t c p 连接阻断技术进行控制，阻断其在网络中的传播；可加载内核模块技术和内核空间与用户空间的通信技术是系统能够运行的基础。本章为第四章t f i m m 系统的设计与实现做了理论上的准备。 3 1i m 软件架构及协议分析目前，存在很多i m 软件，最常用的是m i c r o s o f t 公司推出的m s nm e s s e n g e r ( 简称m s n ) 和腾讯公司推出的o p e n l c q ( 简称o i c o ) 。但是由于各厂家版权和利益关系，并没有实现i m 软件的互联互通，这些的产品的通信协议格式各不相同，因此，监控系统只有先解决各i m 软件通信协议格式识别的问题，才能进一步准确提取传输消息的内容，为监控提供信息源。由于国内腾讯的o i c q 的通信协议是一套自己开发的基于二进制数据的应用层网络协议，其中使用了腾讯公司自己制定的加密算法，对应用层数据在网络传输时进行了加密，若要对它的协议进行分析，首先需要知道其加密解密的算法，这超出了协议分析的范畴。所以本文主要以m s n 为例来分析i m 软件消息服务数据包的格式，讨论即时消息的监控方法。利用抓包工具可以很容易抓取到局域网内部客户端与外网客户端的通信数据包以及局域网内部客户端之间的通信数据包，从而提取获得应用层的数据。目前多数主流i m 软件的应用层数据在网络上是明文传输的，通过客户端之间有目的的发送聊天信息，比较应用层数据中固定字节或者规律性字节的出现，可以总结出字节的含义，从而得到协议的格式。本文仅对m s n 协议作较详细的分析， a i m 、雅虎通等都可以通过类似的方法进行分析。 1 1 西北大学硕士学位论文 3 1 1i m 软件的通讯架构当前i m 系统一般有两种模式i 埘，一种是用户月艮务器模式，即消息的发送和消息的接收必须通过服务器来中转。另一种是用户，用户模式，也就是直接的点对点的模式，服务器为每对用户建立一个t c p 通道，他们的交流在这个t c p 通道上进行而无需通过服务器。m s n 、i c o 、a i m 、y a h o om e s s e n g e r 等主流i m 软件的文本消息绝大部分使用的是用户，服务器的模式，是通过服务器中转发送的；而文件的传送使用的是用户用户模式。一般的i m 软件用户服务器模式通讯架构如图3 - i 所示。一台注册域名的服务器为总调度台，每个n 妊软件的客户端都通过查询d n s 服务器，找到i m 服务器并与之建立t c p 连接，客户端通过自己注册的用户i d 和密码登陆服务器，密码信息一般都通过加密后传送。服务器验证通过后，给客户端返回通过验证的信息，同时附加一些信息，这些信息包括负责中转连接的服务器口、端口号、客户端的好友信息等。客户端利用服务器返回的验证信息和获得的毋地址及端口号与中转服务器建立连接。这时，就可以通过中转服务器与上线的好友互发消息了。一一脯利用从服登录消息与目的客 ( 中转) 服务端a 进行通信消息仲转) 服务器圈3 i 用户，服务器模式通信架构 1 2 同游l寥舢同举罗西北大学硕士学位论文对于文本消息的传送，除了通讯架构是基于客户端服务器模式之外，消息传输一般是建立在t c p 协议基础之上的，而且服务器端端口一般也是固定的，服务器通过提供固定的服务端口被动地与客户端进行通讯，起到消息中转的作用。 3 1 2m s n 协议格式分析 3 1 2 1m s n 工作机制在m s n 工作中，客户端与三种服务器进行通信和数据交换，每种服务器负责处理客户端的不同请求，相互协作完成用户登录身份验证、用户在线状态记录以及文本、音频、视频传输等其它服务。m s n 工作机制分为两个阶段：a 认证阶段：包括登录到m s n 得服务器并且取得好友列表；b 即时通信阶段：包括发送接收进入即时通信阶段的请求和发送的消息求。下面对各服务器功能和工作机制做简要说明【1 1 j ： ( 1 ) 分派服务器d i s p a t c hs e r v e r ( d s l ： d s 是客户端最初连接的服务器。它的域名为m e s s e n g e r h o t m a i l t o m ( 如果是通过h 兀p 方式连接，它的名字就是g a t e w a y m e s s e n g e r h o t m a i l c o m ) 。它是一个负责“调度”任务的服务器，主要功能是协议版本约定，通过服务器选择算法，从而决定客户端与哪一个通知服务器产生关联，并提供一些推荐信息给客户端，用于连接到合适的通知服务器。 ( 2 ) 通知服务器n o t i f i c a t i o ns e r v e r o q s ) ： n s 是客户端需要一直保持连接的服务器，它是主要的服务器组件它的名通常为m s g r h o t m a i l t o m 的格式。在d s 推荐n s 完成之后，客户端向n s 进行身份认证。n s 更新客户端属性和交换异步事件通知。它的主要任务包括登陆、改变状态、获取用户列表、修改用户信息、发起聊天、接收呼叫、邮件通知等。 ( 3 ) 交换台服务器s w i t c h

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）基于倾向性文本过滤的im监控系统的研究与实现.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）基于倾向性文本过滤的im监控系统的研究与实现.pdf

文档简介

温馨提示

最新文档

评论

相关文档