(通信与信息系统专业论文)文本分类技术在短信过滤中的应用.pdf_第1页
(通信与信息系统专业论文)文本分类技术在短信过滤中的应用.pdf_第2页
(通信与信息系统专业论文)文本分类技术在短信过滤中的应用.pdf_第3页
(通信与信息系统专业论文)文本分类技术在短信过滤中的应用.pdf_第4页
(通信与信息系统专业论文)文本分类技术在短信过滤中的应用.pdf_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

文本分类技术在短信过滤中的应用 内容摘要 手机短信因具有移动性好、收发便捷、价格低廉和娱乐性强等特点而成为人 们所喜爱的一种通信方式。但垃圾短信问题也日益严峻,受到社会的广泛关注。 将文本分类技术应用于短信过滤是解决垃圾短信问题的主要技术之一。 首先,对垃圾短信过滤问题的研究现状,包括垃圾短信的定义、产生机理、 危害以及常用的垃圾短信过滤方法作了简单介绍。 其次,对文本分类中涉及到的关键技术,包括文本预处理、文本表示模型、 特征权重计算方法、特征降维方式、分类算法和分类结果评估方法等,分别进行 了研究、探讨和必要的实验。 再次,重点介绍了贝叶斯分类算法,包括贝叶斯算法的两种模型以及基于最 小风险的贝叶斯算法,分析了传统贝叶斯算法在短信过滤中存在的局限性,并在 此基础上,采用了基于最小风险的贝叶斯短信过滤算法。 最后,在目前尚无一个公开规范的短信语料库的条件下,建立了一个真实的、 能够适应实验要求的中文短信语料库;在比较分析分类算法、权重计算方法、特 征选择算法的实验结果的基础上,实现了基于最小风险的贝叶斯短信过滤系统, 结果表明,该系统具有较好的性能,不仅能正确对短信进行分类,还能减少对合 法短信的误判率;另外,还对短信过滤系统的反馈学习作了简单的分析和探讨。 关键词:短信过滤;文本分类;贝叶斯 a b s t r a c t s h o r tm e s s a g eh 嬲b e e i laf 打o r i t ew a y o fc o 舢m m i c a t i o n 垂0 ri t s9 0 0 dm o b i l i 坝 l o wp r i c e ,c o n v e i l i 饥c e 觚de n t 鳅a i m e n t b u tt h ep r o b l 锄o f t l l e t 船s h ys h o r t m e s s a g eh a sb e c o m e m o r e 觚dm o r es e r i o u sa n d 撒c t e dc x t e n s i v ea t t 饥t l o n 打o mm e p u b l i c t h es h o r tm e s s a g ef i l t e r i n gb a s e dt e x tc a t e g o r i z a t i o n i so n eo tm em a l n 枷q u e s u s e ds o l v i n gt h ep r o b l e m f i r s n v w ei n t r o d u c et h ed e v e l o p m e n t s t a t u sm 1 0 ,i n c l u d i n gt h ed e f i n i t i o n , 伽) d u c t i o nm e c h a n i s m ,h a 肌a n da f e wf i l t e r i n gm e t h o d sa tp r e s e n t s e c o n d l y w ed i s c u s st t 蟛k e yt e c l u l i q u e so ft e x tc a t e g o r i z a t i o n s u c h 嬲t e x t p r d 瞻a t 】 1 l e n t i n f o 咖a t i o nr e t r i e v a lm o d e l ,f e a :h l r ew e i 咖,f c a h j r e ;s e l e c t l o n ,c l a s s l t y a l g o r i t h ma 1 1 dr e s u l te v a l u a t i o n t h i r d l y ,w e 咖d y 证d e t a i ln ba l g o r i t h ma l r l di t s 锕om o d e l s ,鹪w e l l a sn b b a s c dm i n i m 啪r i s k i i la d d i t i o n ,w ea n a l y z em el i m i t a t i o n o ft h et r a d i t i o n a ln b a l g o r i m mu s e di ns h o nm e s s a g ef i l t e r i n g c o n s e q u e i l t l y ,w ea d o p tn ba l g o d n u n b a s o dm i n i r i s k f i n a l l y w eb u i l dac h i n e s em e s s a g ec o 印u st h a tc a i la c c o r dw i t ht h ee x p e n m e n t d e m 锄【dw i t h o u tao p e n 锄dn o n i l “v es h o r tm e s s a g ec o r p u s 。1 1 1 e s h o r tm e s s a g e f i l t 甜n gs y s t e mo fn bb a s e dm i n i :订s k c a nb er e a l i z e dm e rw ec o m p a r et h e e x p e m e n tr e s u l t so fc l a s s i 匆a l g o r i t h m ,f e a t u r es e l e c ta n df e a t u r ew e i 曲t t h e r e s u l t s h o w st h a tt h es y s t 锄h a ss a t i s 研n gp e 墒m 雒c e i tc a nn o to n l y c l a s s l t ys h o r t m e s s a g ec o 盯e c t l yb u ta l s or e d u c ef a l s ep r o b a b i l i t y o ft h el e 西t i m a t em e s s a g e k e yw o r d s :s h o nm e s s a g ef i l t 甜n g ;t e x tm e s s a g e ;n b 海南大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取 得的成果。除文中已经注明引用的内容外,本论文不含任何其他个人或集体已经发表或撰写 过的作品或成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。 本声明的法律结果由本人承担。 论文作者签名: 翌耗黔 日期:溯年6 月稍 学位论文版权使用授权说明 本人完全了解海南大学关于收集、保存、使用学位论文的规定,即:学校有权保留并向 国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权海南大 学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存和汇编本学位论文。本人在导师指导下完成的论文成果,知识产权归属海 南大学。 保密论文在解密后遵守此规定。 论文作者签名: 里耗努 日期:硼年f ) 月加日 导师签名: 日期: 本人已经认真阅读“c a l i s 高校学位论文全文数据库发布章程”,同 文提交“c a l i s 高校学位论文全文数据库”中全文发布,并可按“章程 权益。回童诠塞握銮丘澄丘:旦士生i 旦= 生i 旦三生苤盔。 论文作者签名: 盈耗羚 日期:1 印年1 月p 日 导师签名: 日期:蹯= 澄 文本分类技术在短信过滤中的应用 1 绪论 1 1 研究背景和意义 近几年来,我国移动电话用户的数量呈现出持续快速的增长趋势。手机短信 因具有移动性好、价格低廉、收发便捷和娱乐性强等特点而使人们逐渐习惯于用 短信的方式来传送信息和进行沟通交流。据统计,自短信业务在中国正式开通以 来,从2 0 0 1 年到2 0 0 6 年,国内短信发送量分别为1 8 9 亿条、9 0 0 亿条、1 3 7 l 亿条、2 1 7 7 亿条、3 0 4 6 亿条和4 3 0 0 亿条,其中有不少是垃圾短信。这些垃圾短 信不仅占用了有限的网络资源,造成网络拥塞,而且还使电信运营商耗费更多的 资源对其进行处理过滤。如果再算上手机用户为处理这些短信所花费的时间,那 它的经济成本无疑是个惊人的数字。垃圾短信不仅让人感到厌恶,而且越来越成 为一种社会公害:一些不法分子利用短信骚扰他人、干扰他人的正常生活;利用 短信发布虚假信息进行诈骗;利用短信煽动闹事、散布谣言、攻击政府,影响社 会稳定;利用短信传播色情和发动消息,危害公共安全;通过短信大量发布广告, 影响人们的正常生活。为了不再受垃圾短信的侵害,我们应该使用法律和行业协 会规范的双重手段来对付它,同时,也应该从技术上探索行之有效的手段来反击 它。因此,如何在保持短信业务活力的同时限制垃圾短信的传播、净化短信内容 成为我国通信部门值得研究的一个课题。 1 2 研究现状 1 2 1 国外垃圾短信的整治状况 ( 1 ) 立法惩治垃圾短信 美国联邦电信委员会曾制定法规,要求短信发送人必须提前取得收信人的同 意,才能发出商业或其他宣传的短信;如果违反,将被告上法庭,面临处罚。美 国采取的是手机用户实名制,跟电信公司签合同并要求填上社会安全号,执法部 门只要把这个号码输入计算机,就能看见号码主人的详细资料。这样一来,执法 部门就很容易追查到垃圾短信的源头。 英国政府在2 0 0 3 年专门立法,将兜售产品的垃圾短信视为一种犯罪行为。 按照这些法规,商业公司在使用个人信息,如电子邮件和手机号码前,必须得到 用户的允许,一旦违规,散播者在地方法庭最高可能被罚款5 0 0 0 英镑。 德国国会在2 0 0 3 年通过了“联邦法垃圾信息法案( 包括短信) 。它规定, 向用户推销商品和服务的手机短信均要征得用户的书面同意,从2 l 时至次日8 时发送的广告需要再次征得用户同意。如果发送色情等非j 下常信息,均被视为违 法行为,将追究刑事责任。获得用户同意的广告商在发布手机短信广告时,必须 注明“广告 字样和发送者的单位及电话等。一些短信下载等必须明码标价。滥 文本分类技术在短信过滤中的应用 发垃圾短信者,可处以最高5 万欧元的罚款。 印度最高法院向政府发出一封法律建议信,要求议会和政府尽快就阻止垃圾 短信制订相关的法律条文和政策规章,以便使法院在处理此案件时有法可依。该 信建议,对于那些肆意侵犯他人隐私的行为,罚款的最高数额可达1 0 万卢比; 而如果涉嫌利用短信平台进行经济诈骗,则要接受长达数年的监禁。 ( 2 ) 设立监控,投放相关机构 除立法惩治垃圾短信之外,英国还设立了一些机构,如电话信息服务标准监 查委员会、最高通话费管委会等,专门对利用手机短信进行非法活动的公司和个 人进行监控。人们还可以对散播垃圾短信的公司和个人进行举报,投诉网站定期 对垃圾短信按照危害程度进行列表,警告人们不要上当受骗。德国政府和监查部 门还成立了一个“联邦手机短信处理中心”,用来处理有关违规者及解答普通用 户的问题,同时向用户宣传怎样杜绝垃圾短信。 ( 3 ) 制订有关制度 在美国,座机和手机都可以在联邦贸易委员会的“拒听推销电话登记处 注 册。如果你的名字列在n o nc a l ll i s t 上,还有人打你的电话进行推销活动, 联邦委员会将会视其为违法行为,处以几百至l 万美元的罚款。德国手机号码实 行入网登记实名制。买手机时,用户必须出示身份证,其身份证号码、住址等信 息将被输入电信运营商的数据库,同时,新用户将签订一份合同,合同中明令禁 止发送垃圾短信。 ( 4 ) 运营商创新短信管理技术 印度目前有数十个电信运营商,他们均被政府要求每年提交关于阻止垃圾短 信传播的正式书面报告。目前被广泛应用的是来源追踪手段,查找每一条垃圾短 信的初始来源,如果发现某一用户成为大量垃圾短信的集中地,便会将其列为“黑 名单,取消手机入网的资格。除此以外,部分运营商还利用一些如关键词屏蔽 过滤、禁止大规模群发服务等手段,通过各种方法堵塞垃圾短信的传播渠道。英 国的电信运营商沃达丰公司在2 0 0 3 年时发明了自动报告的方法,即系统一旦检 测出垃圾短信,手机会自动向电信运营商和监查部门发送免费的报告。德国有一 家公司推出的移动短信平台,用户可以自动屏蔽那些一天内发送量超过上百次的 短信。 1 2 2 国内垃圾短信的整治状况 垃圾短信是近几年出现的新问题,目前包括电信管理条例在内的现行的 有关法律法规,尚没有明确的有关垃圾短信管理方面的具体条款,因此对垃圾短 信的整治还存在一些政策软肋。针对垃圾短信的管理难题,一些专家提出要加快 对短信管理的立法进程,有关职能部门应该制订相关条例,从法律、法规上进一 文本分类技术在短信过滤中的应用 步明确制造“垃圾短信一是违法行为;要区分违法犯罪短信、广告短信、骚扰短 信、黄色短信等垃圾短信的不同性质,分类根治,分类管理;明确通信行政管理 部门、电信运营企业以及工商、公安部门在手机短信管理方面的职责、责任和权 限;要加强和控制群发器的销售和使用,建立手机短信群发器的销售、使用管理 制度;对于商家群发的具有广告性质的短信,可以考虑建立实现审批制度,由广 告管理部门等进行审批。还有专家认为,时下在相关法律法规尚不健全的情况下, 要充分利用刑法、民事诉讼法等现有的法律武器,对不法分子通过发送垃 圾短信的行为依法给与打击,确实构成犯罪的,要进行立案查处。值得期待的是, 目前已经正式进入立法程序的中国首部治安管理处罚法草案已经有涉及“垃 圾短信”的内容;而将来电信法的出台,也将为治理垃圾短信提供更有力的 武器。目前,国内对垃圾短信的治理主要从制度和技术上着手。 ( 1 ) 用制度来规范短信的发送 为了整治短信欺诈等行为、保障短信业务健康有序的发展,政府监管部门积 极采取措施,加大了对短信业务的监管力度。2 0 0 4 年4 月,信息产业部发布了 关于规范短信息服务有关问题的通知,该通知有效规范了短信业务发展。舭 后,配合全国开展的打击淫秽色情网站的专项活动,信息产业部责令移动运营企 业加强对手机短信服务的管理,对通过手机短信传播淫秽色情信息的行为进行大 力整治。另外,针对一些电信信息服务业务经营者通过电视、报纸等媒体大量发 布含有淫秽色情、封建迷信等不良内容的声讯或短信等电信信息服务广告的行 为,国家工商行政管理总局会同信息产业部发布了关于禁止发布含有不良内容 声讯或短信灯电信信息服务广告的通知,使得发布不良短信广告的行为得到了 有效遏制。 短信要发送到个人用户手机上,必须通过运营商的平台。运营商对垃圾短信 的防治起着至关重要的作用。个人短信群发平台和运营商签订协议,运营商为其 提供优惠的短信价格和端口,所以对个人短信平台进行规范管理尤为重要。中国 移动在全国范围内大力整治手机垃圾短信,严厉禁止合作伙伴私自进行点对点的 短信群发。不允许s p 私自群发短信,必须交给移动来发送。对于仍私自群发短 信的s p ,追究违约责任,采取暂停结算、暂停业务直至中止合作等措施。中国 联通每三个月为一周期,实行末位淘汰制度,对发展不好的s p 实行下线淘汰。 对于s p 恶意收费现象,运营商已经建立并运行了m i s c 平台,用于完成数据业 务的管理和控制功能,实现用户管理、业务管理和s p 管理,并可以为各个业务 网关、s p 提供代计费。 ( 2 ) 用监控机制来过滤和拦截垃圾短信 在现阶段中,应用较多、技术相对成熟的垃圾短信监控机制主要有三种:实 文本分类技术在短信过滤中的应用 时过滤机制、话单分析机制和协议监测机制。这三种监控机制均在各移动通信运 营商的现网中被采用。无论采用什么样的监控机制,它们实现的目的都是相同的: 那就是对采集到的信息进行后续的分析和处理,确定采集到的信息的合法性,进 而达到清除垃圾短信的目的。实时过滤机制:短信中心接收到普通用户发送或实 体提交的短信后,发送一个鉴权请求消息到监控系统,监控系统对短信内容进行 判断,返回给短信中心鉴权响应消息。如果短信内容合法,则返回鉴权成功的消 息,短信中心将该短信下发给短信接收方;如果内容不合法,则返回鉴权失败的 消息,短信中心将该短信直接丢弃,不下发给接收方。中国信息产业部颁发了短 信息业务中心与短信息监控中心接口规范,采用的就是这种实现方式。目前已 经有部分通信设备厂商根据该规范开发出了短信实时过滤系统。该机制的优点 是:能够实现真正的实时过滤。为了最大限度减少信息过滤对正常业务造成的不 利影响,短信中心设置了超时处理机制。如果短信中心到监控系统的接口或者监 控系统本身发生了故障导致短信中心在短时间内( 一般为几秒) 收不到鉴权响应 消息,则短信中心将该短信直接下发。话单分析机制:将计费服务器上的原始话 单文件作为统计数据源,垃圾短信监控服务器从统计信息源获取数据。垃圾短信 监控服务器定时连接计费服务器,下载最新的原始话单记录到本地,由统计模块 定时扫描工作记录,根据原始话单文件的先后顺序依次处理。主要有以下三种统 计分析方式:监控起呼信息条数,当某用户发送短信条数达到或超过设定的阈值 尉,即认为该用户是可疑用户;消息内容监控,将短信内容和监控系统中事先设 定的关键字进行比较,如“免费”、“热卖”、“特惠”、“赠送”、“保证有你想要的 等,当在短信正文中匹配到若干条关键词或者短语时,就判定为垃圾短信;发送 成功率监控,当监控系统检测到某用户发送短信的成功率达到或者超过设定的阈 值时,即认为该用户是可疑用户。黑白名单管理模块自动接收统计监控模块检测 到的可疑用户,或者通过操作维护台人工判断是否生成黑名单。对于特权用户可 以生成白名单,不受流量和内容的限制。黑名单的取消可以采用系统操作员手动 取消和系统自动定时取消两种方式。接口模块提供与短信中心业务处理模块之间 的接口。黑名单号码将及时传送给短信中心,由短信中心进行拦截。优点是:实 现简单,对原有系统的影响很小。协议监测机制:通过监听现有系统的方式进行 监测。发往短信中心的短信被旁路到短信监测系统,监测系统对监听到的短信进 行实时分析,一旦判断短信发起方发送的是垃圾短信,则通过反馈机制拦截这些 短信。优点:该方案对现有系统不产生任何影响,仅仅通过旁听的方式实现,不 需要现有系统作任何配合和改变,易于实施。 另外,朗讯科技有限公司同前隆重推出基于贝尔实验室创新技术的垃圾短信 过滤和拦截( a s a ) 解决方案,旨在帮助国内电信运营商有效面对同益泛滥的垃 4 文本分类技术在短信过滤中的应用 圾短信带来的困扰,充分保护移动用户权益。朗讯科技提供的垃圾短信过滤和拦 截产品作为一套基于运营商网络的解决方案,能够将各种来源的垃圾短信屏蔽在 短信中心之外,同时为多个短信中心提供服务,从而在大幅降低运营商短信中心 投资的同时,保护短信中心免受恶意攻击,并有效防止垃圾短信导致的网络堵塞。 特别值得一提的是,朗讯a s a 解决方案具有强大的自学能力和动态调整规则功 能,可以在不中断服务的情况下,实时对垃圾短信过滤规则进行修改,因而能有 效应对随时出现的新型垃圾短信,及时保护运营商和用户利益不受侵犯。 1 3 垃圾短信简介 1 3 1 垃圾短信的定义、分类 目前为止,对垃圾短信还没有一个明确而严格的定义。参照垃圾邮件的定义, 垃圾短信,就是那些并非用户所需要的且对用户造成骚扰的只会浪费接收者时 间、侵占接收者手机存储空间的短信。 垃圾短信从内容上可以分为以下几类: 广告陷阱型:通过各种充满诱惑性和欺骗性的语言来吸引手机用户回复短信 进行收费。这类短信一般都含有“回复幸奉到幸料,拨打宰奉宰 的字眼,短信所显 示的发送方号码一般是4 到8 位,短信内容多是交友、夜生活、声讯台、娱乐体 育新闻、铃声和图片下载之类。正规的服务提供商会在短信里注明资费情况,但 有些黑心的服务提供商不论你回复的内容是不是开通服务的指令,只要用户有回 复短信,都会默认用户开通该项服务,立即收取包月费用,更有甚者,用户收到 短信时,服务提供商方面已经开始收费。 促销广告型:一般是简单列出服务内容和公司电话号码或者地址,这些短信 的发送方号码是普通的手机号码,不同的是这些手机号码永远打不通,这些短信 的内容一般是小公司宣传“三无 产品销售、贩卖枪支、提供色情服务、办假证、 赌博等内容。用户直接回复这些短信,除了正常短信发送费,一般并不造成金钱 损失。 短信诈骗型:指的是那些犯罪分子抓住被诈骗对象的心理,广发诱惑性短信, 骗取其信任,套取钱款。一旦得逞后,即迅速异地提款,并立即注销所用卡号或 直接更换新的通讯工具。 诅咒骚扰型:短信内容必有“请将这条短信转发给2 0 个人,假如你不这样 做,全家遭殃”的类似字句,最终得益者无疑是网络运营商。 1 - 3 2 垃圾短信的产生机理 短信以其价格低廉和百分之百的高到达率,使短信群发这种广告显得“物超 所值”。根据短信所显示的发送方号码,短信群发有三种途径:个人短信平台、 企业短信平台和短信卡群发。 5 文本分类技术在短信过滤中的应用 个人短信平台群发,首先是通过电脑和网络中心相连,将要群发的信息发到 h i t 锄e t 上,然后传送到服务器上面,再由服务器传送到运营商的网关,最后发 送到用户的手机上。因为是直接接入运营商的网关,发送速度非常快,是s p 群 发短信的重要途径。企业短信平台群发,原理上与个人短信平台一样,所不同的 是这种群发平台不能进行类似个人短信平台的手机收费业务,也不会有收到信息 费的功能,用户可以放心接收和发送短信。短信卡群发,相比上述两种群发方式, 短信卡群发才是制造垃圾短信的罪魁祸首。短信卡群发又分为不接计算机和接计 算机两种。不接计算机的短信卡群发方式是通过短信群发器套装来实现的,目前 已经发展到第四代,发送短信的速度达到3 0 0 0 到5 0 0 0 条每小时。接计算机的群 发,则需要硬件设备和相关软件。常用的硬件设备有单口g s mm o d e m ( 短信 猫) 、多口g s mm o d e m ( 短信猫池) 、c d m a m o d e m 和小灵通群发短信器。 相关的软件功能非常强大,并且在网上很容易就能购买到,整套设备不到l o o o 元,并且还提供最新的手机号码段、教学光盘、操作资料和短信卡。短信卡群发 离不开它的主角:短信卡。短信卡其实是一种特殊的s i m 卡,有着固定的手机 号码,但只能用来收发短信,所以用户永远也无法打通。短信卡首先费用便宜, 发送短信每条只需1 到3 分钱,包月卡更无费用可言,并且充值方便;其次短信 卡只要不发送违法信息,无论群发多少条也不会被封。除了包月卡外,一般短信 卡的使用寿命只有几天,所以垃圾短信通常是夜以继日的发送,经常制造“午夜 凶铃”。除了购买这种短信卡外,还可以利用运营商异地结算的时间差,通过购 买异地普通手机的s i m 卡进行疯狂群发。值得一提的是,现在群发垃圾短信已 经不再是漫无目的的连号发送,而是有特定用户目标。 综上所述,垃圾短信泛滥的关键,是运营商和监管部门对垃圾短信采取的措 施不够过硬,国家关于手机短信的法律法规和规章制度不够完善,从而让垃圾短 信的制造者钻了空子。 1 3 3 垃圾短信的危害 垃圾短信的危害很多,主要表现在以下几个方面: ( 1 ) 侵犯手机用户的个人利益。垃圾短信不顾手机用户的反对,强制性的把 短信发送到手机用户上,侵犯手机用户的隐私权。垃圾短信不仅浪费手机电量, 占用手机内存,而且还能更改手机上的内部数据。收信用户除了为处理这些垃圾 短信而耗费一定的时间和精力外,还要提防掉进黑心s p 设计的短信乱收费陷阱 中去。 ( 2 ) 浪费网络资源。垃圾短信的存在会占用大量的网络资源,不仅造成网络 拥塞,而且还使电信运营商耗费更多的资源对其进行处理过滤,从而降低了整个 网络的运行效率。 6 文本分类技术在短信过滤中的应用 ( 3 ) 影响s p 行业的发展。用户面对纷繁的垃圾短信,早就对s p 这一行业 不抱好感,这势必将造成s p 行业的市场不断缩窄。据有关人事透漏,对于s p 服务的投诉一度占到电信投诉总量的六成以上,成为投诉的重灾区。在行业收益 不断恶化的情况下,s p 将会铤而走险。因此,网络运营商对s p 会加强监管,国 家政府部门对s p 的治理也将进一步加大,s p 行业的发展将会受到一定的影响。 ( 4 ) 扰乱社会秩序。垃圾短信为“三无 产品销售、贩卖枪支、卖黑车、办 假证、色情服务、赌博等非法行为提供了最安全、最廉价的业务推广方式,严重 扰乱社会秩序。有些垃圾短信的内容低级下流,不堪入目,污染社会风气,影响 青少年的健康成长。更有甚者,某些垃圾短信则通过散布歪理邪说来造谣惑众。 ( 5 ) 犯罪分子利用垃圾短信进行诈骗。 1 4 本文的组织结构 第一章:绪论。介绍短信过滤课题的研究背景和意义,分析了国内外短信处 理的研究现状,阐述了有关短信过滤的一些基础知识,最后给出了本文的组织结 构。 第二章:文本分类。详细介绍了文本预处理、文本表示模型、特征权重的计 算方法、特征选择、分类算法和分类结果评估方法等文本分类的一些技术,并辅 助于必要的实验。 第三章:贝叶斯短信过滤算法。重点介绍了贝叶斯、朴素贝叶斯、基于最小 风险的贝叶斯的分类算法。 第四章:短信过滤系统的实现。通过实验的手段分析比较并选择出理想的用 于该系统的权重计算方法、特征选择方法和分类算法,在此基础上,实现了本系 统的分类性能。 第五章:总结与展望。对本文的研究工作进行了总结,并对下一步的研究作 了简单概括。 7 文本分类技术在短信过滤中的应用 2 文本分类 人类社会已经步入了一个信息化的时代,尤其是随着i l l t 锄e t 技术的迅猛发 展,人们的日常生活无时无刻不在获取信息,而这些信息大部分是非结构化或半 结构化的文本信息,因此,要想高效准确地获取自己感兴趣的信息,对文本信息 进行分类是必不可少的一步。通过文本分类,人们可以按类别对文本进行存贮、 检索和进一步处理;而且,许多文本处理问题都可以归结为文本分类问题,比如, 垃圾邮件的判定,新闻出版栏目的分类,文本检索,文本过滤以及本文所要讨论 的短信过滤等。 所谓的文本分类,就是指在给定的分类体系下,根据文本的内容自动地确定 待分类文本的类别。文本分类是一个有监督、有指导的学习任务,即在一定数量 的已分好类的训练文本的基础上,分类系统通过获取其中的必要信息,构造分类 器,因此文本分类一般都由训练过程和分类过程构成。文本分类简单概括为文本 预处理、特征选取、特征权重计算、生成文本向量、训练分类模型和分类六个步 骤。在文本表示阶段,首先需要对作为训练和分类对象的文本进行预处理;然后 对类别、文本和词条进行统计,采用特征选择算法计算词条的信息量,进行特征 降维;随后采用文本表示技术将文本表示为机器学习算法易于处理的向量形式; 进入训练学习阶段,主要是训练样本通过学习得到用于分类的决策函数;在分类 阶段,分类器对待分类样本应用训练学习阶段得到的分类函数,判断待分类样本 的类别。 下面就文本分类中涉及到的一些关键技术作详细介绍。 2 1 文本预处理 文本预处理【l 】是进行文本分类的第一步。一般情况下,需要分类系统处理的 文档是不能直接由分类器进行分类的。各种类型文档的存储格式差别很大,必须 经过一定的处理,变成符合分类器所需格式的文档。文本预处理一般包括过滤非 法字符和单字词、去除停用词和中文分词等。 ( 1 ) 过滤非法字符和单字 这里所说的“非法字符”,指的是在文本分类系统中不需要使用的字符,例 如数字、标点等。一般认为这些字符不带有任何对文本分类有用的信息,应当过 滤掉。同时单字词携带的文本信息量比较少,而且还对其它实词起到一定的抑制 作用,降低了分类精度,因此有必要将所有的单字词滤掉。 ( 2 ) 去除停用词 停用词是指那些在文档集中出现频率很高且在每篇文档中出现频率大致相 文本分类技术在短信过滤中的应用 等,明显对分类没有任何贡献或贡献很小的词条,一般情况下,这些词携带的信 息量很少,去除后可以在不影响分类精度的情况下达到特征降维的目的。文档集 中出现的介词、副词、感叹词等不表示实际语义的虚词都属于停用词的范畴,如 英文中的“a 、“t l l e 等单词和中文中的“啊”、“的等词。 ( 3 ) 中文分词 中文分词是中文信息处理中所特有的操作。与英文文本不同,英文文本以空 格操作为单词的分隔符,而中文文本一般是无分隔符的字符串,词与词之间是没 有分隔标记的。为了提取文本中的词条作为特征项,就必须对文档进行分词处理。 分词就是将连续的字序列按照一定的算法划分成词序列的过程。目前中文分词方 法主要有两类:一是基于机器匹配的分词方法,通过对已有词典的机械匹配来得 到分词结果;二是基于概率统计的分词方法,该方法不需要任何词典就可以得到 分词结果。 中文分词技术面临的两大问题是切分歧义和未登录词的识别。前者属于自然 语言理解的问题,根据上下文环境,在不同切分结果中选择最优解;后者要解决 词典中未收录词( 如人名、地名、机构名等) 的识别。虽然可以在机械匹配的基 础上通过规则的方法来解决上述两个问题,然而规则方法很难穷尽真实文本的各 种现象。目前比较流行的方法是通过对文本的概率统计来求解切分歧义和未登录 词的识别问题。 2 2 向量空间模型 人在阅读文章后,可以根据自身的理解对文章的内容产生一个模糊认识,而 计算机只认识数字o 和l ,无法“读懂”文章。为此,有必要将文章表示为计算 机能识别的“模式”,建立相应的数学模型。目前具有代表性的文本表示模型有 布尔模型、概率模型、向量空间模型等,应用较多的是s a l t o n 等人在1 9 7 0 年提 出的向量空间模型。 向量空间模型【2 1 ( 、惋t o rs p a c em o d e l ,v s m ) ,是由一组规范化正交词条矢量所 组成的向量空间,每篇文档映射到向量空间中的一个点,向量之间的距离表示文 档之间的相似度。通过这种模型可以将给定文档以向量的形式表示在v s m 中, 从而将文档之间的相似性这一抽象的问题转化为具体的空间中点与点之间的距 离问题,通过计算任何两个向量之间的相似度,来反映所对应的文档之间的相似 性。 在向量空间模型中,主要涉及到以下几个概念: ( 1 ) 文档( d o c u m e n t ) :具体的可以指一篇文章; ( 2 ) 特征项( t e :咖) :一般指文档中的词或者短语; ( 3 ) 特征权重( t e mw d 曲t ) :代表特征项对文档的重要程度。如有m 篇文 9 文本分类技术在短信过滤中的应用 档,n 个不同的特征项,则仇= ( f 1 ,f 2 ,f 刀) ( 1 i n ) 表示一篇文档;给其中的 f f 项赋值,记为叫,称为f f 的权重。 ( 4 ) 向量空间模型( v s m ) :由( 3 ) 可以得到一个向量,记为 ( f l w l ,f 2 w 2 ,f ,l 坳) 由于f 1 ,f 2 ,f 刀互不相同,可以把它们看作是n 维欧式空间 的n 个坐标,把( w l ,w 2 ,坳) 看作是n 维欧式空间的向量,这样 研= ( f 1 川,f 2 w 2 ,f 玎坳) 就是文档研的向量表示。 ( 5 ) 相似度( s i m 儿a r i t y ) :两个文档d 1 和d 2 之间的相关度的度量称为文 档的相似度,记为s 砌( d 1 ,d 2 ) 。对于文档d l ( l ,w 1 2 ,川刀) 和文档 d 2 ( w 2 l ,w 2 2 ,w 2 以) ,我们可以借助于向量之间的某种距离来表示文档之间的 相似度,通常用向量之间的内积进行计算: 刀 跏( d l ,d 2 ) = w l f w 2 f i = l 或者用向量之间的夹角的余弦来计算: j 砌( “d 2 ) = 坦 乞w 矗w 乏f z = l 向量空间模型的最大优点在于它简明地实现了对文本特性的抽象描述。在该 模型中,文本内容被形式化为多维空间中的一个点,通过向量的形式给出,把对 文本内容的处理简化为向量空间中的向量运算,使得问题的复杂度大为降低。但 向量空间模型是一种不考虑特征项出现顺序的文本表示模型,从而损失了大量的 文本结构信息,而这些信息在自然语言中又是至关重要的。另外,向量空间模型 是建立在所有特征项两两正交的假设基础之上的,并没有考虑到特征项之间的相 关性,对于有着丰富语言现象的自然语言来说,这种假设显然有点过于严格,不 能很好的反映自然语言的特征。 2 3 特征项的权重计算 2 3 1 特征项权重的计算方法 在向量空间模型中,对于特征项的选择,可以选用字、词或者短语等作为特 征项。词语是文本中最基本的表示项,搭配比较固定,在文本中出现的频率较高, 呈现一定的统计规律,因此一般都选择词语作为特征项。但并不是所有的词语都 l o 文本分类技术在短信过滤中的应用 适合作特征项,因为不同的词语对文本的重要程度和区分程度是不同的。而特征 项的权重计算能综合反映该特征项对文本内容的贡献度和文本内容之间的区分 能力,所以在进行文本的形式化处理时,需要对特征项进行权重计算。 权重计算函数很多,本文主要介绍布尔权重,词频权重,t f i d f 权重。 ( 1 ) 布尔权重( b o o l e 龇w e i g h t i n 曲 布尔权重又称二值权重或二元权重( b i 彻d ,w e i g l l t i n 曲,是最简单的一种权重 计算方法,公式如下: 当矿耖l 时,w 2 1 ;当矿 j f 。o 时,w 2 0 如果特征词i 在文档j 中出现,则赋予该特征词的权重为l ,否则为o 。 该方法的最大优点就是简单,但如果有两个词条同时出现在某文本中,根据 公式应同时赋予它们的权重为l ,这样就无法比较这两个词条对该文本的重要程 度,这也正是布尔权重的缺点,即无法反映特征词对文档的重要性。 ( 2 ) 词频权重( f r c q u e l l c yw e i 曲t i n 曲 词频权重是将特征词在文档中出现的频率作为该特征词的权重。这种方法的 思想是:特征在文本中出现的次数越多,它就越重型3 1 1 。公式为:w = 矿盯, 其中w 表示特征词i 在文档j 中的权重,矿玎表示特征词i 在文档j 中出现的频 率。 该方法是最直观的一种权重计算方法,实现简单,计算复杂度较低,适用于 任何语料库,因此是权重计算常用的一种方法。 ( 3 ) t f i d f 权重: 以上两种方法都只是利用了特征词在单个文档中的信息,并没有考虑到特征 词在整个语料库中的分布情况。而t f i d f 方法从以下三个角度考虑来计算特征 词的权重: ( a ) 特征词频率t f ( t e 册f r e q u e n c y ) :表示特征词在某文档中出现的频率, t f 可以度量一个特征词在一篇文档中的重要性; ( b ) 特征词的反文档频率i d f ( i n v e r s ed o c u m e n tf r c q u c l l c y ) :是对特征词在 文档集中分布情况的量化。d f 常用的计算方法为:渺( f 七) :l 。g f 坐+ 三l 其中, 刀j | l 的取值通过实验来确定,n 为文档集中的总文档数,以后表示包含特征词f 七的 文档数。i d f 越大,表示该特征词在文档中的分布越集中,说明它在区分该文档 内容方面的能力越强。 i d f 算法的核心思想是:在大多数文档中出现的特征项不如只在小部分文档 文本分类技术在短信过滤中的应用 中出现的特征项重要【3 2 】。d f 算法能够弱化一些在大多数文档中都出现的高频特 征项的重要度,同时增强一些在小部分文档中出现的低频特征项的重要度; ( c ) 归一化处理:为了消除文档长度对权重的影响,需要对权重向量进行 规格化,以便将各项权重定义在 o ,1 】,使相同特征在不同向量中的权重具有可 比性。 综合以上三方面因素,得到t f i d f 权重的计算公式如下: w f 妒( f 七) = 矿( f 后) 缈( f 尼)删o g 睁刁 可以看出,对区别文档最有意义的词语应该是那些在少数文档中出现频率足 够高,而在整个语料库的其它文档中出现频率足够低的词语。 多年的实验表明,t f i d f 公式是文本处理中的一个有效工具,但它只是一 个经验公式,并没有坚实的理论基础。 2 3 2 关于权重函数的讨论 截至目前,国内外许多学者对权重函数进行了研究和测试。例如,意大利科 学家f a b r i z i os e b a s t i a n i 【3 】的实验环境为:分类方法采用支持向量机,特征项为英 文词,测试数据为r c u t e r s 2 1 5 7 8 数据集,权重函数采用t f i d f 等七种权重函数, 结果发现t f i d f 整体效果比较好。国内更多的研究倾向于对t f i d f 的改进, 如鲁松【4 】为了解决t f i d f 文档表示方法无法涉及词语在不同文档中分布比例的 问题,引入了信息增益的概念,提出了改进的t f i d f i g 的方法来弥补t f i d f 的缺陷,实验表明,t f i d f i g 的性能好于t f i d f ;景丽萍【5 】等也提出了用互信 息算法对t f i d f 进行调整,采用朴素贝叶斯分类算法对1 3 5 类进行测试,分类 正确率由t f i d f 的7 6 上升到8 8 ;陆玉昌1 6 j 等提出了利用特征降维中的评估 函数代替i d f 函数进行权值调整的方法,通过实验比较得出结论:互信息进行 权值调整时分类精度最高,在对五类测试中达到8 0 。 从以上分析可以看出,权重函数对分类有一定的影响。各位学者的研究结果 不同,说明文本分类问题涉及到文本表示、特征选择和算法决策等多种技术的综 合应用,也许不同的权重函数适合不同的分类算法,所以选择权重函数时,需要 考虑多种因素,可以从实验中得到最优方法。 2 4 特征降维 特征降维是文本分类中的一个重要环节。在向量空间模型中,原始特征空间 由文档中的所有词语构成,而一个中等规模的语料库可能包含十万条不同的词 1 2 文本分类技术在短信过滤中的应用 语,如此高维的特征空间对文本分类运算时间复杂度和空间复杂度是很不利的, 因此在进行文本分类之前需要对文本进行特征降维,以最大程度的提高文本分类 的精度,同时高效的特征降维还能节省更多的存储空间,提高分类速度。 特征选择和特征抽取是特征降维的两种主要方法。下面分别对特征选择和特 征抽取中涉及的不同方法进行介绍。 2 4 1 特征选择 特征选择【7 】【2 3 】的目的是去除原始特征集中不能较好表示有效信息的特征,以 提高分类精度和减少计算复杂度。其主要思想是:构造一个评价函数,利用评价 函数对特征集中的每个特征独立计算评价值,然后对所有特征根据评价值大小进 行排序,选取预定数目的最佳特征作为特征子集。特征选择没有改变原始特征空 间的性质,而只是从原始特征空间中选择了一部分重要的特征,组成一个新的低 维空间。 目前,国内外学者已经研究出了多种特征选择方法,本文主要介绍文档频率 ( d f ) 、互信息( m i ) 、信息增益( i g ) 、z z 统计量( c h i ) 、几率比( o r ) 等。 ( 1 ) 文档频率( d o c u m e n tf r e q u e i l c y ,d f ) 特征词的文档频率是指在训练样本集中出现该特征词的文本数。在进行特征 选择时,计算每个特征词在样本集中出现的频率,根据预先设定的阈值去除那些 文档频率特别低和特别高的特征词。 文档频率基于如下基本假设:d f 值低于某个阈值的特征词是低频词,它们 不含或者含有较少的类别信息,将这样的特征从原始特征空间中移除,不但可以 降低特征空间的维数,还能够提高分类的精度。 文档频率算法简单,计算量小,而且由于其具有相对训练语料规模的线性计 算复杂度,而能够很容易的被应用于大规模语料统计。但这种假设与一般的信息 抽取观念有点冲突,信息抽取研究中通常认为d f 值低的词条相对于d f 值高的 词条具有较多的信息量,不应该将它们完全移除。y i m i n g g 的实验证明:在 英文环境中,当i g 和c h i 等统计方法的计算“费用”太高而变得不可用时,d f 可以安全的代替它们。 ( 2 ) 互信息( m u t u a li n f o 肌a t i o n ,m i ) 互信息是信息论中的一个重要概念,将其引入到文本分类中表示的是词条与 类别之间的相关程度。其基本过程是这样的:先计算任一词条和每一类别的互信 息量;然后通过这些互信息值得到该词条的总互信息量;最后将低于某特定阈值 的词条从原始特征空间中移除,保留高于阈值的词条。 类别c ,与词条t 的互信息计算公式如下: 文本分类技术在短信过滤中的应用 叱沪地揣扎g 掣 其中p ( f i c ) 表示词条t 在类别c ,中出现的频率,p ( t ) 表示词条t 在整个训 练文本中出现的频率,m i ( c ,t ) 表示词条t 和类别c ,的互信息。当特征词的出 现只依赖于某一类别时,特征词与该类别的互信息很大;当特征词与类别相互独 立时,互信息为0 ;当特征词很少出现在该类别文本中时,互信息为负数,即负 相关。 如果有m 个类别,则每个词条t 就对应有m 个互信息量,取其中的最大值 作为每个词条的全局互信息量,将这些全局互信息量进行排序,设定一个恰当的 阈值,将高于该阈值的词条作为文本的特征。 互信息的优点在于考虑了低频词带有信息量的情况,低频词的互信息比常用 词的互信息高;但从公式也可以看出,对于频率小的特征词,l o gp ( f ) 变化的比 1 0 9 p c ,) 快,使得低频词具有较大的互信息,从而过于倾向低频词。 ( 3 ) 信息增益( i n f o 肌a t i o ng a i n ,i g ) 信息增益也是信息论中一个较为重要的概念,是机器学习领域罩常用的一种 特征选择方法,它表示某一特征项的存在与否对类别预测的影响。特征词t 的信 息增益i g ( t ) 的计算公式如下: 晰砷吵) l o g 矧叫掣刊) l 。g 哿 其中,p ( t ) 表示语料库中包含特征词t 的文档频率,p (

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论