1006大设计翻译版_第1页
1006大设计翻译版_第2页
1006大设计翻译版_第3页
1006大设计翻译版_第4页
1006大设计翻译版_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算机学院计算机科学与技术专业类100615 毕业设计()时间 2014年3月3日至2014年6月1 年6 月10 指导教师:教师或答疑教师(并所负责部分系(教研室)(签字注:任务书应该附在已完成的毕业设计 )的首页强震应急领域互 情信息处理引擎的设计与实当有强发生时,互联网上都会有大量的相关信息发布以及,各网络也互联网量的关于强震信息,具有很高的研究价值。绪 课题背景及目 国内外研究现 组织结 相关概念与技 互联网概念和定 互联网信息搜索策 分词技 信息过 强震应急领域互联情信息处理引擎需 国际强震救援应用处置系统的设计原 互联网信息智能处理系统任务要 强震应急领域互联情信息处理引擎原则及分 系统组成结 上层系统组成结 系统组成结 功能需求说 系统用例 外部接口需 操作系统接 通 性能需 强震应急领域互联情信息处理引擎设 4.1.1IP的获 URL地址html解 强震应急领域互联情信息处理引擎实 信息搜索模块的实 信息处理模块的实 信息显示模块的实 系统测试与分 系统测试环 系统运 6.2.1IP的获 进行搜 搜索结果分 结 致 参考文 绪联网量的关于强震信息,具有很高的研究价值。供信息发布、现场收集等多种服务;在强震发生时,系统通过轮询专业数据库获取情监测和热点事件专题追踪等,形成信息库、决策库、简报等分析结果, 但是,目前通用的搜索技术,包括国外的谷歌、国内的,由于它们搜索技术以早在上世纪80年代就出现针对Web页面的信息抽取技术的研究[10近些年随着微考传统网页爬虫的相关技术,尤其是在全网爬虫和爬虫方面。[9]为了弥补这一,当前的减灾应急处置活动需要从互联网、社会服务信息系统等多个TDT语料的话题研究仍在继续,另一方面新应用背景下的话题研究也得到了积极的开展,探讨了在普通网页、网络搜索结果中的话题组织和发现问题。随着TDT研究的发展和深入,一些新的研究也为TDT带来了新的问题和研究思路,例如:数据流挖掘、热点话题发现、基于话题的多文档等。数据流挖掘,主要指对实时、动态、按时间排序的信息流进行的一系列相关研究。TDT的研究对象也是一种动态数据流,两个领域的发展是相互促进的。热点话题发现、基于话题的多文档稍有不同,TDT相关技术处理后所得结果的进一步整理,以更方便人们对信息的使用热点话题发现题的受关注度进一步分析,进而过滤出热点话题。国内TDT研问量较大为对象,通过IP的方法来爬取信息和内容,将获取到的html文件通过jsoup包解析出特定信息,并把解析的结果写成txt文件盒xml文件。课题的研究内容和设计方案以及本篇的结构。 相关概念与技Web的基础平台,Web是互联网平台上的一种应用层服务,它使用超文获取研究的主要目的。本节主要介绍主流Web信息的相关概念及相关技术。要介绍一下Web的基本组成及其。Web主要包括两部分:WebWeb客户端。在物理设备上,Web服务器是指存放供用户的信息资源和计算机,Web客户端是指客户所使用的本地计算机;在软件上,Web服务器是指能够按照客户的请求将信息资源传送给客户的应用程序,Web客户端是指能够接收服务器上的信息资源并展现给客户的应用程序,而上网时使用的PC机就是一个客户Web页面的软件通常称为网页浏Web中常用的基础服务和协议有统一资源标识符URI或者统一资源定位符URL、超文本传输协议HTTP、超文本标记语言HTML。80)HTTP请求;同时应答的服务器上保存有大量可供利用的资源,比如文件和图像,将其返回给客户端。HTMLWeb信息资源的具体内容,它可将信息结构化,例如标题、段落和列表等;同时在HTML文档中包括超,通过这种超可以在不同的HTML文档之间建立其关联,最终这种关系在逻辑上可以形成一个Web并且随着不断向整个Web扩展。网页抓取:抓取一个URL,通过系统从解析出IP地址,通过IP地对原始网页进行。URL提取和过滤:成功抓取一个页面后,需要提取出其中的URL,并对URL进行正规化在进行URL提取先判别页面类过分析HTTP响应头得到,但有些WWW站点返回的响应信息格式并不完URL中的文件扩展名来判别页面类型;然后,顺序解析HTML文件,遇到带URL的如<a>、<img>等,就从该的属性(href/src)中找出URL,并在对之间抽取出正文作为该URL的说明,这两个数据就代表一个完整的;最后判断该URL是否已处理过,避免重复,将所有未处理的URL在一个URL队列中。但网页内容几乎完全相同,比如的网页。HTML标识所代表的不通信息来发现网页中隐含的各种信息,从而为量化表示做好充足的准备。常见的抽象表示方法如根据网页的HTML互联网信息搜索策略主要是指在信息过程中指定URL的顺序的规则。一广度优先的工作方式是指在过程中先从起始的URL集合开始,将所有网页回来后提取这些网页中包含的所有URL,然后将这些新URL对应的网页全部断L基于网页分析的最佳优先搜索策略大体可分为基于文本内容分析的搜索和基于结构分析的搜索,但是各种策略在具体技术上的不同导致了最终查准率和查全率的差异。DeBraPfish-search算法[1]M.Hersovicishark-search算法[2]。后者者基础上进行了改进,不仅计算查询词与文档之基于结构分析的早期搜索方法有LawrencePage和SergeyBrin论述的PageRank算法[3],KleinbergHITS算法[4]。遗憾的是以上两种算法仅仅考虑网[5]所以,XiaoyunChen等人提出了一种HAWK算法[6],将相关度与网页重要度进搜索引擎之中,如国内的等人增量习方法、国外的Miladshokouhid等人基于遗传算法的搜索都是搜索引擎趋向智能化的实例还有HiepPhucLuong基于本体的搜索方法以及MukeshKumar等人一种基于本体的相关度计算和预测方法-CORE,都是关于语义学在搜索引擎中的的半结构化和大量的、导航等噪声影响会使得分类效率很差。ChakrabartiS等人通过实验论证了利用网页结构中的信息可以带来更好的分类效果。文本信息和结构信息,成功地实现了网页分类。SunA等人建议充分利用网页中的信息和HTML,结合支持向量机算法进行有效地分类。由于网页中存在噪声,ShenD等人提出应首先形成网页,间接去除网页噪声,并配合经典文本分类器,了分类算法研究的进步。IndraDevi通过实验证明仅仅考虑URL的机器学习技术可以达到很好的自动化分类效果。ChenGY等人提出了一种基于体裁的网页自动化分类方YinSQ等人为了在中文文本实现更好地分类,试着将语义学引入其中,给定一个有N个元组或者的数据集,法将构造K个分组,每一个分组一个数据;(2)每一个数据属于且仅属于一个分组。代表算法:到理想的簇集为止。AlsabtiK等人K-Means聚类方法、BradleyPS等人需要提炼初始点的方法以及HammerlyG等人针对K-Means提K-Means的改进。但是,K-Means算法总是找到局部K-HarmonicMeans算法。K-调和均值是将所有点到所有中心的均方距离的调和平均值的总和作为该算法的评价函数。ZhangB等人K-调和均值聚类算法,又进一步基于无监督学习的动态权重分配方法,后者成为了KHM算法中非常重要的准则。随后,ZulalGungor等人引入了人工智能的知模糊C-均值聚类算法。传统的聚类分析是一种硬划分,它把每个待辨识的对广泛应用的模糊C-均值聚类算法以及改进方法,都可以优化聚类分析的目标函数。虽然FCM算法的聚类效果要优于KM和KHM,但是需要付出时间代价,尤其当面对大规模数据时,FCM算法没有明显的优越。层次聚类方法可以分为凝聚的(agglomerative)和的(divisive)。有两种有效的层次聚Chameleon是一个采用动态模型的层次聚类算法。它考虑了簇间的近似度,特除上述五大类以外,还存在大量的聚类方法,如处理数据的聚类方法,处理动态数据的聚类方法,以及将基本聚类方法与各种新技术相结合的聚类方法等。LuoNa等人OAC算法、等人基于WordNet中的概念节点及概念间的语义关系的聚信息模型研信息的工作过程大致如下:1.从一个初始的URL集合出发,将这些URL全送入待队列,并把网页到数据库;然后重复这一过程,直到URL库为空或信成任务了,但有些互联网信息需要将到的页面数据和相关处理结果、索文件格式像HTML文档、图像、WORD文档、PDF文档、以及页技术产生html内容(如:文字如何处理,画面如何安排,如何显示等。浏览器按顺序阅读网页jsoupJavaHTMLURL地址、HTML在互联网信息与处理过程中,信息的最终结果是以原始HTML格式保存强震应急领域互联情信息处理引擎需强震应急领域互联情信息处理引擎特7*24小时稳定运行,所有系统在遇到运行错误和运行故障时,都应该消灭死机、宕机互联网信息智能处理系统是以现代信息技术为,包括、、贴吧等强震应急领域互联情信息处理引擎原则及分由于强震应急领域互联情信息处理引擎是CSCI-1国际强震互联网信息智能处如图3.1所示,互联网信息智能处理子系统主要是以现代信息技术为,通过对网页、BBC、专业、、RSS进行信息并以词典管理技术为基础理、信息、信息处理、信息服务和基础数据服务5个部分,其中词典管理和其他子系统相嵌合并实现各种通口并为本系统提供信息、信息处理、信息服务的这5个部分中,词典管理向项目中的其他子系统提供服务接口,信息部分要图 互联网信息智能处理子系统系统架构3.2信息处理中的国际强震信息过滤:通过文件分析器和模式匹配器对txt和html文件信息服务的其他信息服务:在主动式灾情获取中,以用户量较大、信信信息处信息显信息解信息获图3.3强震应急领域互联情信息处理引擎框txt文件和xml文件以便后续使用。这样信息信息显信息处信3.4处理模块通过解析HTML文件,得到需要的信息,包括内容、作者名、作者ID、ID、评论数、转发数和发送时间。信息显示则是将到信息保存成txt和xml文件,以便以后使用。1、系统管理:负责互联网事件任务的管理和信息分析事件任务的灾情警报发布灾情警报发布管国际强震事件搜国际强震事件分普通用国际强震信息自定义查国际强震信息话题追灾 任务管国际强震信息警评估 (3)灾情任务管理细分后得到图3.6。正如图3.5所看到的用例图与图3.4系统功能图并不能完全对应而是一个行为上相分析结果txt分析结果XML信图3.6强震应急领域互联情信息处理引擎用例联机命令接口:在分时系统和个人计算机中,OS向用户提供了一组联机命令,用户可以通过终端键入命令,获取OS服务,并控制系统的运行。2OSOS服务的唯一3.7下部件构成:窗口、菜单、列表框、框、按钮、滚动杆等。分析,选择B/S架构作为本系统的主体架构。WebHTMLJPEG、PNGGIF图像格式。在此选择InternetExploreWeb浏览器。InternetExplore主要通HTTP协议连接网页伺服器而取得网页,HTTP容许网页网页的位置URL指示,主要出现两http开首的便HTTP协议登陆和https开首的便是以SSL加密的HTTP。=请求行(通用信息|请求头|实体头CRLF[实体内容=URIHTTP方法=GET|HEAD|POST|扩展方法URL=协议名称+宿主名+ GET、HEADPOSTGETHEADPOSTCGI做进一步处理时会用POST方法。POSTHTMLFORMCGI程序处理。PUT响应消息=状态行(通用信息头|响应头|实体头CRLF〔实体内容〕状态行=HTTP版本号状态码原因叙述12××3××为完成请求客户需进一步细化请求,表示必须采取进一步的行动才能完成请求。例如,请求消息中的URI对应多个资源,或请求消息要的资源的URI已改变,或必须通过服务器才能等。4××5××响应消息头:Server、www- 实体消息头:Allow、Content-Encoding、Content-Length、Content-Type、ExpiresLast-2、网络通IPIP网络相关联,是应3.8TCPTCP的建立(三次握手TCPTCPTCP数据段,即SYN数据段。该数据段不包括应用层数据,并将头部中的SYN为设为1.客户选择一个初试序列号SEQ,并将这个放到初试的SYN数据段的序列号字段中。该数据段被封装在一个IP数据段中,并发送给服务器。SYNTCPTCP发送一TCP连接的释放(三次握手在国际强震互联网信息智能处理子系统中,统计各的震情信息,其主要统计各中的震情信息可以在一定程度上了解当前的焦点,生成分析图表,制定合理的、科学的指标,保证分析的精度可靠性。事件触发,通过专业计算模型对专业、以及普通进行灾情获取,能够在0-2小时内实现基于互联网的灾情信息汇总,将获取的信息于用户时系统的易用性和易强震应急领域互联情信息处理引擎设程序功能的实现方式为爬取搜索页面()中的关于相请求20次就需要输入一次新浪识别用户的IP在短时间内连续请求了20次,所的方法,从网上爬取一系列的IP,当某一IP在爬取时遇到要求输入后切换另一个可用的IP,这样就可以不需要输入而获取的搜索信息了。因此,本文采用的设计的方案是使用正则匹配先从IP(本文中用的是 /”)获得大量IP后,用HTTPclient的方法,使用这些IP来请求查看IP的,比如这个“http: 地址,如果能够正常响应,说明这个IP是可用的,则将这些IP保存起来。否 是将IP保存到图4.1IP获取流程利用上节获得的validIP,请求搜索界面 搜索界面的URL里头还有页码的参数,比如: /weibo/&nodup=1&page=1。URL里的参数有两个,nodup和page,在不登陆的情况下,通过改变page的值就可以得到不同页数的结果。htmljsouphtml。jsoupJavaHTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。Fileinput=newdoc=Jsoup.parse(input,"UTF-8","Elementslinksdoc.select("a[href]");//href属性的Elementspngs=doc.select("img[src$=.png]");//所有png的元Elementmasthead//class=mastheaddivElementsresultLinks=doc.select("h3.r>a");//在h3元后的a元要的相关信息,比如内容,用户ID,用户,ID,评论数,转发数和发送时间。作者文4.2信息处理模块主要是对到的HTML文件提取特定的信息通过分析HTML文件中的,提取出以下信息包括文本,名字,ID,作者ID信信息显生成XML文生成txt文4.3利用文件的读写保存成txt文件,另式则是利用dom4j来写xml文件。这样就可强震应急领域互联情信息处理引擎实首先http: IP,然后用getAllProxyIPs方法通过用正则表达式匹配找出所有未验证的IP,将这些未验证的IP爬取下来,再接着用getValidProxyIPs方法验证该IP是否是有效地,验证的方法是通过http: /ic.asp,如果可以响应则该IP是可用的,保存为validIP。HTML类主要负责获取html文件,其中第一个用于getHTMLHTTP的状态码,用于在获取IP时验证该是否可用的,而getHTMLbyProxy则用于使用的情况获取HTML,而getHTML则是在非的情况下获取HTML。类Crawler主要用于实施抓取,方法excute主要负责进行抓取,首先/weibo/"+searchword+"&nodup=1&page="+String.valueOf(i),其中searchword为搜索的,在本文中主要为,强震等领域词语,page是取得。考虑IP可能不成功的问题,如果一个IP5次还是不成功,则换一个IP继续。到任何你想要的节点,通过观察html源代码文件,一共截取到以下信息:id:信息显示的实现主要是将信息处理得到信息通过txt和xml格式保存信息处理得到信息保存成xml文件。图5.1信息txt文图5.2信息xml文括内容,作者名,作者ID,ID,评论数,转发数,发送时间等。从中可以发现的信息,为综合研判提供信息服务。系统测试与分 (R)Core(TM)i3CPUM380@操作系统:Windows启动系统,进入初始界面。初始界面上,左上角的浏览可以用于保存IP的路径,用户可以点击浏览来设置保存IP的路径,左边的空白部分用于显示获取IP时的状态,点击“获取IP”按钮,则可以开始从网上爬取IP。图6.1IP获取过进行搜输入搜索的,例如“”,“强震”,“earthquake”,多个词的时候用空格或图6.2设置搜设置保存搜索结果的路径和设置第一部爬取到的可用IP的路径plainIPs.txt6.3图6.4爬取状图6.5爬取结图5.6信息xml显文本,名字,ID,作者ID发送时间,转发数,评论数等等结1、从课题的研究背景出发,对强震应急领域互联情信息处理发展现状及其发应急领域互联情信息处理引擎的设计制定了以信息为来源的信息搜索3、基于系统的需求设计,讨论了面强震应急领域互联情信息处理引擎的具体技术细节并最终实现了IP的方式来获取的html文件,用jsoup包来解析html文件,并把解析的结果写成txt文件和xml文件。信息,发现热门话题。2、将收集到信息用良好的界面显示出来致感想这四年所有教过我知识的北航的老师,我能有基础和资格来做学士毕感谢指导老师老师以及毕设评审的所有老师,在百忙之中辅导我们进行毕业参考文DHoubena1InformationhypertxtsIn:Proceedingsofth

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论