




已阅读5页,还剩50页未读, 继续免费阅读
(通信与信息系统专业论文)一种舆情信息预处理平台的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 摘要:随着网络信息化的不断发展,舆论的传播方式和传播速度都发生了巨大的 变化,互联网已成为我国的主要舆论聚集地,并且无时不刻的影响着人们的生活。 因此通过网络分析研究舆情信息可以了解大众心态和民意,对经济、社会、政治 的发展都具有重要的意义。但是网络传播的信息具有数据量大、半结构化、异构 性等特点,使得人们在获取相关信息和进行研究工作都面临很大的困难,因此需 要建立一种舆情信息预处理平台来完成互联网信息的分析预处理。 本论文首先对国内外舆情信息预处理的相关技术进行了研究及分析,总结了 它们的优缺点,深入分析了舆情信息预处理平台的设计和技术实现等方面的问题, 然后在现有技术的基础之上提出了用于舆情信息预处理的技术方案,实现了将海 量网页信息进行处理分析以及重复利用的功能。 本文的研究内容和主要成果有:深入分析了u r l 结构的特点,采用了u r l 比较分析的方法对海量网页进行处理,完成了对用户指定网站的筛选过滤;提出 了对文档对象建模的网页信息抽取算法,并且设计了基于抽取规则的文档对象匹 配模板库,对网页中的无关信息进行滤除,并且将提取到的关键信息录入关系型 数据库,以备日后的分析和使用;提出了基于四字索引分词词典的实现方案,采 用最大正向匹配算法对中文内容进行扫描切分,较准确地完成了对中文信息的分 词处理和词频统计等功能;在对多线程机制深入研究的基础上,提出了利用线程 池来管理多线程的技术方案,使系统效率得到了较好的改善。通过实验验证了本 文所提出的信息处理方案,实验结果表明,本文设计的方案高效可行,有很高的 准确率和使用价值。 本文基于以上的工作,根据平台的总体设计原则,规划了舆情信息预处理平 台的总体框架结构,完成了平台的模块划分,设计了各模块的功能以及数据库结 构,最终开发出了一种运行稳定,效率良好的舆情信息预处理平台,希望通过本 论文的研究能够对舆论分析的理论研究做出微薄的贡献。 关键词:舆情;网页信息抽取;中文分词;文档对象 分类号:t p 3 1 9 j 匕塞交通叁堂亟堂僮i 佥室垦墨! 垦g ! a b s t r a c t a b s t r a c t :a l o n gw i mt h ec o n t i i m o u sd e v e i o p m e n to ft h e 乜e i l do fn e t w o r k i n 如m a t i o n , t l l e w a ya n ds p e e do fp u b l i co p i n i o ns m i s s i o nh a su n d e r g o n e t r 锄e n d o u sc h 粕g e s ,m ei n t e n l e th a sb e c o m eam 勾o rp u b l i co p i n i o ng a f h 秭n gp l a c e ,i n r e c 耐y e a r s ,a n dk 印ta 舵c t i n gt h ep e o p l e sl i v e s n c r e f o r e ,i t ,sh e l p f h l t ou 1 1 d e r s t 锄d t 1 1 e p u b l i c 撒i t u d e a i l d o p i i l i o nt l l r o u g l lm en e t w o r ka 1 1 d i t s i m p o r t 锄tt 0 t l l e d e v e l o p m e l l to fe c o n o m y s o c i e t ya j l dp o l i t i c s h o w e v e r ,w i t h 也ec h a r a c t 嘶s t i c so f l a 唱e 锄o u n t ,s 锄i s t n l c t u r e da l l dc o n l p l e x i t y ,t l l ed a t ao ft h en e t w o r kp u b l i co p i n i o n m a k e sp e o p l ee 芏l c o u n t e r e dg r e a td i 伍c u l t i e si nr e l e v a i l ti n f 0 m a t i o nc 0 1 1 e c t i o na n d r e s e a r c h i n g t h e r e f o r e ,i ti si m p e r a t i v et 0b u i l dan e 似o r ki n f o m l a t i o np r e - p r o c e s s i n g p l a t f o mt 0a r r a n g et h ew e b d a t a f i r s t l y ,m i sp a p e ra n a l y z e d 锄dr e s e a r c h e dt h er e l e v a n tt e c l l n 0 1 0 9 yo fd o m e s l i ca l l d i n t e n l a t i o n a l ,s u 舢【n 撕z e dt h ea d v a n t a g e sa n dd i s a d v a n t a g e s ,a 1 1 di n d e p ma n a l y s i so f t h ep r o b l e n l si nd e s i 朗锄di m p l e m e n t a t i o no ft e c l l i l o l o g ) ,a i l do t h e rp r o b l e m so f n e 呐o r kp u b l i co p i n i o ni n f o m a t i o np r e - p r o c e s s i n gp l a t f o m ,a i l d1 f i n a l l yp r o p o s e das e t o fs c h 锄ef o rt l l ei n f o n i l a t i o np r e p r o c e s so fp u b l i co p i i l i o i l sf o r t h i ss c h e m ec 锄 a c h i e v em eg o a lt op r o c e s s 也em a s s i v ew e bi n f b n n a t i o n ,a i l a l y s i sa n dr e u s ef e 抓l r e s t i l em a i nc o n 胁u t i o n 狮da 幽e v 锄e n to f 衄sp 印e ra r ea s 向l l o w s :a n a i y z e dt h e s t n j 弧i r co fu r li i l d e p 啦u s c du r lc o m p a r i s o nt op r o c e s sm 舔s i v ew e bp a g e s , c o m p l e t e df i l t e r i n gt h e w e b s i t ew h i c hb y 也eu s e r s ;p r o p o s e dw 曲i n f o r m a t i o n e x t m c t i o na l g o r i b a s e dd o c u m e l l to b j e c tm o d e la n dd e s i 舶e d a n a l y s i sp a g e t e m p l a t el i b r a r yw h i c hb a s e do ne x t r a c t i o nr u l e s ,f i l t e r e dt h ei n e l c v a i l ti n f b 肌a t i o n 锄d p u tt 1 1 ek e yi n f 0 n n a t i o ni n t om e d a t a b a s ef o rm t l l r eu s e p r o p o s e das c h e m eo fs e g m e i l t d i c t i o n a 巧b a s c do nf o * c h 蹦l c t e rm e c h a i l i s mc o m p l e t e ds e g m t a t i o no fc k n e s e w o r d sa n dw o r d 舭q u e i l c ya c c u r a t d y ;p r o p o s e das c h 锄et 0m a k eu s eo ft h r e a dp o o lt 0 m 孤a g em u l t i 一陆e a dt e c h n o l o g ys o l u t i o n s , a n dt l l e s y s t 锄e 街c i e n c yh a db e 锄 i m p r 0 v e da1 0 t ;t h ei n f l o n l l a t i o np r o c e s ss c h e n l eh a db e e l lv 嘶6 e db ye x p 嘶m t ,t h e r e s u l t ss h o w e dt h a tt h ed e s i 盟o ft h i ss c h 锄ee 硒c i 锄ta 1 1 d 觚i b l e ,i th a dah j 曲 a c c u r a c ya n dv a l u ei nu s e b a s e do nt h ea b o v ew o r k ,a n da c c o r d i n gt om eg e l l e r a l p r i n c i p l e so fp l a t f o 咖 d e s i 伊,t h i sp a p e rp l a n e do v e r a l l 丘锄e w o r ko ft h ep u b l i co p i n i o i l sp r c - p r o c e s s p l a t f o m ,c o m p l e t e dm o d u l ed i v i s i o no ft h ep l a t f o 珊锄dd e v i s c dt h ed a t a b a s es t r u c t u r e a 1 1 dm n c t i o n so fe a c hm o d u l e f i n a l l y ,as t a b l e 柚dh i 曲一e 伍c i e n c yp r e - p r o c e s sp l a t f o 蛐 j 壁衷交适盘堂亟堂僮i 金塞 一 旦墨! 基1 w a se s t a b l i s h e d ih o p ei tc a i lm a k eam o d e s tc o n t 曲u t i o nt h r o u 曲t h i st h e s i sr e s e a r c ht o t h ea i l a l y s i so ft h e o r e t i c a ls m d i e so fp u b l i co p i i l i o np r o c e s s i n g k e y w o r d s :p u b l i co p i i l i o n s ;w r e bd a t ae x 仃a c t i o n ;c l l i n e s ew o r d ss e 肿e n t a t i o n ; d o c u m e n to b j e c tm o d e l c l a s s n o :t p 31 9 v 致谢 本论文的工作是在我的导师孟嗣仪副教授的亲切关怀和悉心指导下完成的, 孟老师严谨的治学态度、渊博的学术知识、诲人不倦的敬业精神以及独到的学术 眼光使我获益颇多。从课题的选择到论文的最终完成,孟老师都倾注了大量的心 血,给予了我细心的指导和不懈的支持。两年多来,孟老师不仅在学业上,同时 还在思想和生活上她给我以无微不至的关怀,使我明白了许多待人接物与为人处 世的道理。在此谨向孟老师致以诚挚的谢意和崇高的敬意。 刘云教授虽然不是我的直接导师,但是依然对我的科研工作和论文都提出了 许多宝贵的意见,其严谨的治学态度和科学的工作方法给了我极大的帮助和影响, 在此谨向刘云教授致以最衷心的谢意。 还要感谢张振江老师,两年多来,张老师无论在科研上还是学习上都给了我 很大的帮助,使我在这两年来受益匪浅。在论文完成阶段,张老师还提出了许多 宝贵的意见,在此向张振江老师表示诚挚的感谢。 在两年多的科研期间,得到了程辉、熊菲、张彦超等师兄的关心和帮助,在 此向他们表示衷心的感谢。还要感谢朱广彬、韩瑞凯和胡聚宁等同学,他们在生 活上和学习上都给了我无私的帮助,使我愉快的度过了这两年,在此祝愿他们都 能在未来的生活和工作中一切顺利。 另外也感谢家人,他们的理解和支持使我能够在学校专心完成我的学业。 最后,感谢在百忙之中为我评阅论文的专家、学者、老师,感谢所有菜心、 支持和帮助过我的人! l 引言 1 1 研究背景及意义 2 0 1 0 年7 月1 5 日,中国互联网络信息中心( c n n i c ) 发布了第2 6 次中国 互联网络发展状况统计报告【1 1 ,报告显示,截至2 0 1 0 年6 月底,我国互联网普 及率持续上升至3 1 8 ,与2 0 0 9 年底相比增加了2 9 个百分点。人们在工作、学 习和生活中越来越多的使用互联网,互联网已经从单一的行业发展成为深入我国 各行各业的社会大众的互联网。中国网民规模逐年增长,如图1 1 所示: 图1 1 我国网民数 f i g u r el - 1t h en u m b e ro fc h i n e s e1 1 1 “锄e tu s e f s 上述数据表明,随着我国网络的普及和网民数的急剧增长,网络对社会及大 众生活的影响力也同渐明显。与此同时,越来越多的人愿意通过互联网来表达自 己真实的想法,从而形成网络舆论事件,其中热点舆论事件对现实社会的影响受 到了普遍关注,因此不论是政府还是企业都有必要及时掌握当前的热点舆情事件, 加强网络管理和监控,正确引导公众舆论导向,进而分析热点舆论的趋势以减少 舆情带来的负面影响。近年来,政府和企业在舆情事件应对中,有很多经验教训 值得总结和反思。 舆情是指在一定的社会空间内,围绕中介性社会事项的发生、发展和变化, 作为主体的民众对作为客体的国家管理者产生和持有的社会态度,舆情主要指民 众对社会各种具体事物的情绪、意见、价值判断和愿望等【2 】。互联网舆情具有直接 性、突发性及偏差性的特点,一旦形成,在很短的时间内就可以迅速传播,进而 产生巨大的舆论压力,对社会和人们的生活影响显著,一方面它给人们带来信息 共享和提供情绪态度表达的渠道,使网民可以畅所欲言;另一方面也给政府和企 业带来了不小的挑战,网络深入各家各户、传播信息迅速、不受时问空问限制、 影响面广,尤其是一些焦点话题、热点问题,立刻就能成为各阶层民众关注话题。 不仅需要政府各级部分密切关注,也需要社会各界高度重视。 在现代社会,网络信息的分析处理的作用越来越重要,切实做好舆情分析的 研究工作是一个极为重要的工作,而任何网络信息的分析研究都必须以全面、准 确、有效的舆情信息预处理为基础,为后续的舆情分析做好必要的准备。由此可 见互联网舆情信息预处理平台的重要性。 由于互联网信息具有半结构化、海量性、复杂性等特点,使得在进行舆情信 息预处理时障碍重重。因此互联网舆情信息预处理平台应能屏蔽这些复杂细节, 从而实现将复杂网页信息的关键部分提取出来并进行二次处理,最后以结构化的 数据格式存入数据库,为舆情信息分析及趋势预测提供可靠数据。 1 2 国内外研究现状 互联网舆情信息的传播速度呈几何级数增长,互联网上的舆论信息也备受关 注,因此如何及时、有效的对舆情信息进行处理、监控、预警,达到防患于未然 对于社会的安定和经济的发展是至关重要的,而对海量信息的预处理是舆情分析 的基础也是最关键的一部分,没有信息预处理也就谈不上舆情监控和预警。因此, 舆情信息的预处理技术也成为了国内外的研究重点和难点之一,其中网页信息抽 取技术和中文分词技术是舆情信息预处理的重点研究对象。 从2 0 世纪8 0 年代末开始,信息抽取技术的研究蓬勃发展起来。近年来国内 外已经涌现出了多种方法。流行的网页信息抽取研究成果有:基于o n t o l o 3 】【4 】 方式的信息抽取技术,中国科学技术大学提出的基于多层模式的多记录网页信息 抽取方法【5 】,基于特定主题的关键词组合节点距离来抽取信息f 6 】f 刀,通过h t m l 标 记的起止锚点来提取有效信息的方法1 8 】,还有基于隐马尔科夫链理论的h m m ( h i d d 髓m a r k o vm o d e ) 模型9 】【l o 】,以上方法虽然取得了一定的成功,但是大多基 于复杂的数学模型,不适合一般用户操作。在工程应用方面,陆续出现了一些信 息抽取系统,如a u t ow r a p p e r 、r o a di 沁i m 眠m e a l y 系统。 中文分词方面,该算法从2 0 实际8 0 年代以来就是一个研究热点,许多著名 专家提出了自动分词的概念,并为之付出了不懈的努力,实现了许多中文自动分 词系统,典型的有【:北京航空航天大学计算机系于1 9 8 3 年设计的c d w s 分词 系统,此系统具有较高的切分精度、由于这是中文自动分词的首次尝试,具有启 发和理论的实际意义,相关学者在此基础上作了深入细致的探对,初步建立了一 个描述书面汉语的计算模型,对以后的分词系统进一步的研究奠定了基础,之后, 山西大学计算机系研制的a b w s 自动分词系统、清华大学研究出的s e g t a g 系统、 复旦大学开发的复旦分词系统、哈工大开发的哈工大统计分词系统、杭州大学改 进的m m 分词系统以及微软的通用型多国语言处理平台n l pw i n 中的汉语句法分 析器,虽然这些汉语自动分词系统都取得了一定的成果并都具有一定的实用价值, 但是还没有满足现实的需求,对于中文分词中的一些主要问题,没有能够得到很 好的解决,比如在分词的切分精度和效率难以达到理想的结果,歧义的处理也不 尽如人意,更为重要的是至今未能对分词的标准达成一致的协定。因此有待进一 步的开发研究。 通过对上述国内外舆情信息预处理平台的综述可以看出,互联网舆情信息预 处理领域仍处于发展阶段,尤其是网页信息抽取技术和中文自动分词技术的研究 和应用还未成熟,仍具有较高的研究空间和发展机会。 1 3 论文主要工作及结构 1 3 1 研究工作和目标 本文在以上讨论的研究背景下,对舆情信息抽取和中文分词相关理论与技术 进行了深入的研究,完成的主要工作内容和研究成果有以下几个方面: ( 1 ) 深入分析了u r l 的结构特点,采用了u r l 比较分析的方法完成对网页的 筛选以及网页分类,设计了基于正则表达式的u r l 特征比较库; ( 2 ) 针对互联网舆情重点研究的领域如论坛、新闻、博客等网页进行文档对象 建模,完成了文档对象匹配模板的设计,定义了抽取规则完成对关键信息的提取, 并且利用哈希值作为数据库索引来加快数据库存取速度; ( 3 ) 采用了基于四字索引的分词词典机制,并结合正向最大匹配算法进行分 词,在切分结果的基础上完成了词频统计的功能; ( 4 ) 使用线程池技术完成对舆情信息预处理平台中多线程的优化设计,提升了 系统的运行效率。 ( 5 ) 在以上提出的信息预处理方案基础之上,搭建了一种舆情信息预处理平 台,通过相关实验验证了论文所提出的方案的正确性及可用性。 1 3 2 内容安排和结构 本文分为五章来对舆情信息预处理平台的开发和实现技术进行了研究,论文 的组织结构及主要工作如下: 第一章引言。本章阐述了互联网舆情信息预处理平台的研究背景与意义,以 及国内外研究现状,概括其优势与不足,给出了论文的研究内容和组织结构。 第二章相关技术的研究。本章综述了舆情信息预处理平台开发所涉及到的相 关基础知识,包括了基于x m l 的异构数据源访问中间件技术、中文分词技术以及 数据库优化技术。为后续的平台的设计和实现提供了必要的知识准备。 第三章舆情信息预处理平台总体设计。本章介绍了平台的总体设计所遵循的 原则和平台的主要信息来源,并且对平台进行了模块划分和相关的功能设计。 第四章关键技术实现。首先阐述了网页信息抽取算法的实现过程和结果,然 后研究了中分分词技术,实现了对信息抽取得到的数据进行分词及词频统计的过 程,最后介绍了利用线程池的优化技术和实现来对程序进行优化设计和实现来提 高系统的运行效率。 第五章结论与展望。对论文的研究工作和取得的成果进行了总结,对舆情信 息预处理平台的发展前景进行了展望,提出了进一步的研究重点。 4 2 相关技术的研究 2 1 基于x m l 的异构数据源访问中间件技术 数据存储在其发展过程中,通常具有分布性和阶段性的特点,由于运行在不 同平台下或者不同的后台数据库环境下,使得在系统内部,不仅数据的表现方式 和存储格式大不一致,数据的共享和交换也大不相同,于是就形成了异构数据源, 尽管异构数据源并不影响单个系统在内部的运行,但随着规模的不断增大和技术 的不断进步,新的舆情平台的搭建和实施往往需要访问各种不同的数据源,传统 的数据库系统耦合性太强,不利于松散系统的集成,也很难实现各个部门间的数 据交流和访问【l2 1 。因此为了保证舆情分析结果的准确性,这就需要一种独立于平 台且屏蔽掉了系统数据异构复杂性的技术。而以x m l 为基础的异构数据源访问中 间件,为解决这个问题提供了有效和可行的技术支持。 2 1 1 中间件简介 中间件( m i d d l e w a r e ) 是一种独立的系统软件或服务程序,位于应用与操作系统 之间,屏蔽底层操作系统、网络以及数据库的异构性和复杂性,简化网络分布应 用的开发、管理和维护,实现了应用逻辑与系统服务关注点的分离,从2 0 世纪8 0 年代末到现在,中间件取得了长足的发展,已成为分布式系统的主流技术之一, 方面中间件要应对底层不同的环境进行不同的调用;另一方面,中间件要对上 层提供统一的接口,为上层提供相同行为的服务【1 3 】。 中间件保证了平台的透明性,屏蔽了底层操作系统的复杂性,实现了资源共享、 更重要的是实现应用程序之间的互操作,以降低应用开发的复杂程度,中间件对 各种操作系统、数据库系统以及客户端实现了兼容和开放,帮助用户灵活、高效 地开发和集成复杂的应用软件【l 钔。 在本平台下,采用的中间件位于数据库系统与应用程序之间,通过中间件, 将处于不同平台或者不同数据库系统的数据源集成起来,为用户开发应用提供一 个对上层访问透明的统一接口,使程序开发人员面对一个简单而统一的开发环境, 将注意力集中在自己的业务上,不必再为程序在不同系统软件上的移植而重复工 作,大大减少了技术上的负担【l5 1 。中间件示意图如图2 1 所示: 书毒 l 陌蔟五南嘲陌颐目击孬丽 l _ 二_ 二二二=中间件二二二一二:二 捉供底层鬏务程序fl 提供上层服务程序 l 支王一 :帆 图2 1 中间件示意图 f i g u r e2 一im i d d l e w a r ed i a g r a m 2 1 2 可扩展标记语言x m l 简介 数据f 车系统 x m l ( e x t e n s i b l em a r k u pl 肋g u a g e ) 即可扩展标记语言,它与h t m l 一样, 都是s g m l ( s t a n d a r dg e n e r a l i z e dm a r k u pl a n g u a g e ,标准通用标记语言) 。但与 h t m l 的设计区别是:x m l 是用来存储数据的,重在数据本身,而l i t m l 是用来 定义数据的,重在数据的显示模式,无论在扩展性和语法上都优于h t m l 。 x m l 是i n t e m e t 环境中跨平台的,依赖于内容的技术,是当前处理结构化文 档信息的有力工具,它是一种简单的数据存储语言,使用一系列简单的标记描述 数据,而这些标记可以用方便的方式建立,易于掌握和使用。x m l 作为一种元标 记语言,具有如下几个突出的优削1 6 】: ( 1 ) 它为结构和内容提供描述结构化数据的格式,不仅可以用元素属性表达对 象的内部结构和对象间的连接,从而体现出数据之间的关系,还可以表达数据的 内容: ( 2 ) 能针对特定的应用定义自己的应用语言,开发人员可创建特定的数据类 型: ( 3 ) x m l 有着良好的数据存储格式,其元素可以嵌套,能方便地表示层次结 构,可以描述面向对象的数据模型和扩展的关系模型。 x m l 具有高度结构化、可扩展性、便于网络传输、语义性强等优势,不仅能 保证在网络进行交互时,具有良好的可靠性与互操作性,还能满足同益增长的网 络应用需求,币是由于x m l 语言具有的这些优点,使得它本质上十分适合作为各 异构数据库进行数据交换的格式【1 7 】。 2 1 3 异构数据源访问的解决方案 鉴于x m l 语言的上述优点,本文采用了以) ( m l 作为数据交换的中介访问机 制,使用中间件技术来实现异构数据源访问的模型,如图2 2 所示: 应用程序 预处理甲 厶 口 舆情信息预处理平台由网页信息抽取、中文分词处理和平台管理三个功能模 块构成,其组成图如图3 2 所示: 1 6 图3 2 平台功能模块图 f i g l l r e3 - 2p l a t f o mf u n c t i o n a lm o d u l e 1 网页信息抽取模块 本模块的主要任务是处理采集到的信息资源,包括u r l 分析、编码识别、挖 掘相似网页之间的联系,构建文档对象模型、关键信息提取及存储等。该功能模 块又分为了五个子模块,功能流程设计图如图3 3 所示: :信息采集文件卜|文件读取模块l吲ji三二模模块 , 土 i 文档对象模型 构建模块 , 抽取规则库 , 文档对象模型l 匹配模块 f 二厂1 r i i 抽取到的、 图3 3 网页信息抽取流程设计图 f j g u r e3 - 3w r e bi n f o 珊a t i o ne x 仃a c l i o nf l o wd 骼i g n 日志读取模块 本模块完成对日志文件参数的读取,之后将这些参数传入页面过滤模块。 采集到的信息以文本形式存储到硬盘空间中,并且生成一个l o g t x t 日志文件 来记录同一文件夹目录下所有采集到的网址信息。如图3 - 4 所示为日志文件中记录 的一条网页信息: 9 a c c f c f 7 e 4 b 4 ;m p :厂b b s n e w s 1 6 3 c o m 怖s s o c i e t ) ,1 7 5 6 8 9 3 7 5 h t m l ;c h a r s e t _ g b 2 3 1 2 图3 - 4 日志文件信息 f i g i l r e3 - 41 1 1 ei l l f o 册a t i o no fl o gf i l e 该信息主要有三个参数:其中9 a c c f c f 7 e 4 b 4 是所采集到文件名,可以根据它找 到采集到的网页存放的地址;第二个参数是u r l 信息;第三个参数是网页所用的 编码方式。 u r l 比较分析模块 该模块主要完成对于页面的比较分析,根据u r l 特征库中用户定制的网站信 息对传入的u r l 进行比较分析,滤除不满足匹配条件的网页,判断页面是否可以 被匹配并确定其文档对象模板,如果属于论坛或博客页面,则根据其u r l 挖掘出 同帖子的主贴和回帖网址之间的联系,若为新闻,则只需判断该新闻页面是否 满足比较条件。 文档对象模型构建模块 本模块接收来自经页面过滤模块处理后的网页,以文档对象的形式将其源代 码整理成一个有层次、便于分析且包含了原网页中的各种属性的文档对象。如图 3 5 所示为文档对象构建过程: h t m l 文档 由节点组成的文档对象树 图3 - 5 文档对象构建模块图 f i g u r e3 5d o c u m 即to 巧e c tm o d e lc o n s 咖c t i 伽m o d u l 嚣 文档对象模型匹配模块 这部分主要完成文档对象的匹配和对特定信息的抽取,具体来讲对于新闻, 需要滤除无关信息,提取出新闻的标题、出处、发布时间、内容、所属板块等。 对于论坛和博客,需要提取帖子的标题、作者、发布时间、主贴内容、回帖数量、 回帖内容、回帖时间、回帖作者等功能。该模块主要在构建成功后的结构化文档 对象模型的基础上,根据抽取规则将关键信息精确地提取出来。 数据库存取模块 该模块主要完成将文档对象匹配模块所抽取出来的信息存入m y s q l 数据库。 由于在舆情分析中需要处理的数据达到数亿级,因此对数据存储及数据库的优化 设计就显得极为重要。在信息采集过程中,可能会对相同的网页进行了重复抓取, 因此在面对海量数据存储时,最主要的是针对重复网页抽取到的信息不再进行保 存,这样可大大简化了数据存储时的负担,并且为之后分析数据提供了方便。本 方案在解决避免重复数据的存入时,采用h a s h c a o d e ( 哈希值) 作为表的索引,使用 索引可快速访问数据库表中的特定信息。以论坛为例,通过对作者、时间、标题 这三个字段组成的字符串进行哈希运算,由于不同的对象有不同的哈希值,若在 存储数据时遇到了相同的哈希值,则可判定数据库中已有该条数据,不必再存。 建立索引使得在数据存储时能使信息数据的重复率大大降低,并且可以提高数据 库查询的效率,达到了数据库优化的目的。 1 9 2 中文分词模块 中文分词模块主要针对网页信息抽取模块处理得到的数据进行再处理分析, 将文本内容进行分词处理,并且在词语切分的基础之上进行词频统计,为后续的 舆情信息分析过程做好准备工作,这也是舆情信息预处理平台中关键的一个模块。 在该模块中,采用了在四字索引分词词典基础上,利用最大正向匹配来完成对中 文内容的切分。 3 平台管理模块 平台管理模块包括了用户管理和权限管理。其中,用户管理模块包括了用户 的信息,如用户名和密码,用来登录系统。 用户权限管理模块为工作人员提供灵活的管理用户权限接口,可以根据实际 工作需要来调整不同级别权限用户的角色授权组合。 3 3 3 平台架构设计 根据平台总体设计原则并结合平台的业务流程,本平台采用了b s 架构模式, 分为了典型的三层架构:表示层、业务逻辑层、数据访问层。用户利用平台管理 接口实现与业务逻辑层的通信,业务逻辑层包括了平台管理模块、信息抽取模块、 中文分词模块,同时利用接口实现访问数据库。这样设计利于系统的维护,同时 增强了系统的灵活性和可扩展性。舆情信息预处理平台架构设计如图3 6 所示: 数据访问层 厂、 仁一 业务逻辑层 一一、j 平台管理模块 数据库| | 信息抽取模块 i几 中文分词模块 表示层 ,_ 一。 一。 日; 一,7 图3 6 平台架构设计图 f i g u r e3 _ 6p l a t f o n l la r c h i t e c t i l r ed c s i g nc h a r t 用户日 日 3 3 4 数据库设计 在数据库设计方面遵循了结构化、清晰化和命名规范化的原则,从而能保证 了数据的正确性和一致性,避免了数据冗余和操作异常;另外,由于本平台处理 的数据很大,考虑到查询操作频繁,为提高数据的存取速率,使用了索引来提高 查询性能。如表3 一l 和表3 2 中字段h a s h c a o d e 就是引入的唯一索引。由于博客表 和论坛的表设计类似,因此这里主要介绍下用户管理的三张表、论坛主贴存储表 的设计。 1 权限设置及用户管理表的设计 平台管理部分有三张表:用户信息表、权限管理表和二者的关系表。用户信 息表用于对用户的唯一标示,权限管理表是用于定义每一个用户的权限。三张表 的关系如图3 7 所示: u s 图3 - 7 平台管理表关系图 f i g i l r c3 7p l a t f o mm a n a g 锄e i l tt a b l er e l a t i o n s h i p 2 论坛主贴及回帖存储表的设计 与新闻表类似,论坛主贴表主要用于存储从论坛主贴中抽取到的信息,其中 i d k e y 是主贴标记值,用于和其回帖相对应的一个字段。论坛回帖表主要用于存 储与主贴相对应的回帖信息,其中i d k e y 即为主贴的i d k e y ,用于和主贴相联系。 论坛主贴和回帖信息的详细设计如表3 1 和3 2 所示: 表3 1 论坛主贴表 1 l b l e3 一lb b sm a i np o s t1 、a b l e 3 4 本章小结 本章对舆情信息预处理平台系统的功能模块进行了分模块介绍,并对平台的 整体架构、模块划分以及模块直接的联系进行了设计。对于系统中网页信息抽取 和中文分词两个主要独立的模块进行了设计,同时对网页信息存储后的数据库表 进行了设计及优化。 j 匕塞交道太堂亟堂僮诠塞苤壁技苤塞现 4 关键技术实现 4 1 网页信息抽取算法与实现 随着i i l t e m e t 的普及推广,人们可以简单、快捷的从网上获得大量信息与知识, 如何从网页中抽取出用户所需信息,已成为互联网信息处理和研究领域中一个重 要的研究课题。但是w e b 作为一个巨大的信息源,数据量与日俱增使得信息过量 难以消化,使用户在快速、精确查找信息时面临新的问题: ( 1 ) 网络上的多数信息是用h t m l 语言来表示,其数据的异构性和半结构化使 网络上的很多需求难以实现。用户通过信息采集平台可以获取到网页信息,但并 不等于得到信息资源。只有看过网页的内容才能够知道自己所需要的信息的位置, 再把得到的信息集成,这需要大量的人工操作,而且正确率难以保证。因此网页 信息抽取首先需要对网页进行网址分析,过滤掉不需要的网页,从而将范围缩小 到要处理的网页之中。 ( 2 ) 各个网站的网页结构并不统一,信息极其复杂,没有固定的模板和页面布 局。因此需要定义一套抽取规则来智能的提取用户所需信息。 ( 3 ) 用户查到的信息只能独享,没有对这些信息二次利用,对网上信息的利用 效率低,这不仅浪费了很多的时间和精力,而且还牺牲了大量宝贵的网络信息资 源。所以,需要将抽取得到的信息结构化,最后存入本地数据库,这样可以免除 人工繁琐的操作,提高平台的信息存储效率和信息录入的准确性,并且方便日后 分析和利用这些信息。 4 1 1 算法综述 舆情信息处理平台中的网页信息抽取技术通过对网页进行处理,用一组信息 描述所需要提取的信息,将其结构化后保存到数据库中,方便用户获取和利用这 些信息。网页信息抽取的关键是保证信息抽取算法的准确性和健壮性。本文所提 出的信息抽取算法总体来说可以分为以下几个关键步骤: ( 1 ) 读取日志文件,利用包含了u r l 特征信息正则表达式的u r l 特征库进行 网址过滤: ( 2 ) 判断读取到的u r l 是否与u r l 特征库相匹配,匹配则进入步骤( 3 ) ,否 则返回步骤( 1 ) ,继续读取下一条记录; ( 3 ) 对经过步骤( 2 ) 筛选出的网页进行文档对象模型转换,使其易于分析处 理,并在此基础上生成抽取规则; ( 4 ) 对网页内容进行匹配,关键是利用包含了抽取规则的文档树匹配模板对网 页进行关键信息点的提取; ( 5 ) 建立数据表索引优化查询效率,完成数据存储,算法结束。 本平台中信息抽取的算法思想如图4 1 所示: 图4 ,l 信息抽取算法流程图 f i g i l r e4 - li n f o r m a t i o ne x 讹c t i o na l g o 枷姗f l o wc h a n 4 1 2 基于u r l 结构的特征比较法 由于在信息抽取中,文档对象匹配模板包含了大量的文档对象节点路径信息, 2 4 在进行匹配时,会消耗大量的时间。如果能在信息抽取前对无关网页( 如广告网 页、用户没有定制的网页) 进行一定的预处理的话,势必会对系统的运行效率有 很可观的改善。 另外,在u r l 过滤阶段需要对网页进行定性分析,具体来讲就是将网页分为 论坛、新闻、博客等三类,也是至关重要的。因为各类网站之间网页结构差异很 大,比如新闻类和论坛提取的关键信息数目相差很大,因此很难用同样的一套模 板来分析。通过u r l 特征比较后,可以准确的定性出网页类型,对信息抽取的效 率有很大的提升。 本平台中,利用了网页u r l 特征库来进行u r l 结构的比较分析,该库中主 要包含了匹配u r l 的正则表达式和文档对象匹配模板的选择参数。该方法的实现 流程如图4 2 所示, 图4 2u r l 过滤分析过程 f i g i l r e4 2u r lf i l t e ra n a l y s i sp r o c e s s 1 正则表达式概述 正则表达式( r e g t l l a rc x p r e s s i o n ) 就是用某种模式去匹配一类字符串的一个公 式。正则表达式由一些普通字符和元字符组成,它被转换成特定的算法,根据这 个算法来进行文本匹配。在许多程序设计语言中,正则表达式通常被用来作为检 索或替换字符串数据的一种强大的工具。 正则表达式的功能强大不只是表现在特定的字符串匹配,而是字符类型的模 式匹配,正则表达式中由很多特殊字符,它们分别用来匹配不同的字符类、制定 匹配位置和制定重复字符【3 1 1 。因此可以利用它来对需要处理的网址进行处理。本 平台在信息抽取开发中正是利用了正则表达式的优点来对网页的网址进行u r l 比 较分析,将无关的网页滤除。 2 u r l 比较分析库的设计 同一网站的u r l 是相似的,可以利用这一特点进行u r l 模板匹配具有极高 的运行效率,可以大大提高网页分析的速度。 如图4 3 表示的是用来比较网易论坛的u r l 特征参数: 图4 - 3u r l 厍 f i g u r e4 3u r ll i b r a 叮 其中 是模板的主要组成部分,它表示的是网易论坛u r l 正则表达式的 匹配形式, 之间的数据b b s1 6 3t o p i c 表示的是该页面是网易论坛的主题 页面。经过u r l 模板库的过滤,可以过滤出网易论坛主题页面及确定其文档对象 匹配模板。否则,页面则被滤除。 一 4 1 3 基于文档对象模型匹配的网页信息抽取方法 1 网页信息抽取流程 通过将h t m l 页面转换为结构清晰的文档对象模型,对其分析并定义出信息 抽取规则,以x i l 配置文件作为文档对象匹配模板来存放这些规则。最后通过文 档对象匹配模块完成对网页信息的抽取过程。基于文档对象树匹配的网页信息抽 取流程如图4 4 所示: 2 6 根据u r l 比较分析获 得w e b 页面 厂二一7 1r 足义拙 对h t m l 进行处理生 取规则 成文档对象 丫 构造文档对象匹 r 配模板 文档对象解析模块 一,一 、 1 r 提取到的关键信息 图4 _ 4 基于文档对象的网页信息抽取流程图 f i g u r e4 _ 4w 曲i n 触m a t i o ne x t r a c t i o nb a s e do nd o c u m e n to b j e c tm o d e lf l o wc h a n 2 文档对象模型的构造 文档对象模型,是访问和维护h t m l 和x m l 的应用程序接口。它定义了文 档的逻辑结构以及存取和维护文档的方法,它反映了l 文档的树形结构,是以 层次结构组织的节点或信息片断的集合,这个层次结构允许开发人员在树中寻找 特定信息。由于它是基于信息层次的,因而文档对象被认为是基于对象的,通过 操纵这些对象,就可以方便快捷地操纵h t m l 数据【3 2 j 。 文档对象模型将整个h t m l 页面文档构建成由多个相互连接的节点组成的对 象模型,文档中的各个部分都可以看作是一个节点的衍生物。这样一个节点的集 合看作是一个节点树,通过这个节点树,可以对文档的内容和结构拥有强大的控 制力,可以很方便地遍历、添加、删除、修改和替换节点,由此生成丰富的应用 形式1 3 3 】。 一个文档对象是由两种类型节点构成的有序树,一种是文本节点,用来表示 页面中的文本内容。另一种是元素节点,用来表示网页的标签信息,如“ 、 、 t p 等”。树中所有的内容都是用节点来表示的,文档对象利用对象来把文 档模型化,这些模型不仅描述了文档的结构,还定义了模型中对象的行为。给出 如图4 5 所示的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 班级工作管理经验介绍
- 油墨基础知识
- 无锡学院《企业内部控制》2023-2024学年第二学期期末试卷
- 郑州汽车工程职业学院《数据分析与应用》2023-2024学年第一学期期末试卷
- 重庆旅游职业学院《情绪行为异常儿童教育》2023-2024学年第二学期期末试卷
- 武汉音乐学院《舞蹈创编(一)》2023-2024学年第二学期期末试卷
- 中央民族大学《高级德语II》2023-2024学年第一学期期末试卷
- 南京工业职业技术大学《刑法与刑事诉讼理论与实务》2023-2024学年第二学期期末试卷
- 中国美术学院《基础笔译》2023-2024学年第二学期期末试卷
- 《交通工具图标识别》课件
- 塔吊防碰撞建筑物专项施工方案
- 仓库每日检查记录表
- 会计师事务所内部控制制度
- DB61-T 5066-2023 农村居住建筑设计技术标准
- 背负式风力灭火机的操作与使用
- S7-1500 PLC应用技术 PPT课件 第4章 S7-1500 PLC的常用指令
- 婚礼中主婚人证婚的主持稿
- 腰大池置管引流术的护理
- 定弘法师占察忏仪轨
- 人教版地理七年级下册期中考试试卷及答案
- 基于单片机的车牌识别设计
评论
0/150
提交评论