版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
我,本及其研究工作是由本人在导师指导下独立完成的,在完成时所利用的一切资料均已在参考文献中列出。作者:时间:20146NetworkautomatichottopicAuthor:LIShuihuaTutor:Sincethiscentury,duetotherapiddevelopmentofthemassivestoragetechnologyandInternettechnology,theInternethas eavastdatasourcesofinformation,fromwhichpeoplecanobtaindataquicklybyvariousways.Butwiththerapidgrowthofdata,peopleareconfusedinavarietyofdata,itisdifficulttofindtheinformationandknowledgetheyareinterestedin,itappearsthescenethat"themoredata,thelessknowledge".Ifthenetworkdataisorganizedbyitstopic,thenpeoplecanbeeasytovisittheinformationtheyareinterestedin.Therefore,howtoeffectivelydetectnetworkhottopichas eahotresearchtopicinthefieldofcurrentWebmining.Inviewofthisproblem,thispaper’smainresearchworkisasInthispaper,wedesignascript-drivenwebcrawler,forfastacquisitionofInternetdatasuchasnews,blogs,andBBSposts.Theintroductionofthescriptmakesthemaintainabilityofwebcrawlerhasgreatlyimproved,andmakeitbetterabletocopewithanddealwithchangesinthestructureofwebpagesoftheexistingwebsitesaswellasthenewwebsite.Inthedrivingofthescript,thewebcrawlercanalsostructurethedataonthewebpages,andstorethecorrespondingdatainthedatabase.Wedesignandimplementatopicdetectionandtrackingalgorithmwhichbasedonthevectormodel.Thealgorithmintroducesatopiccombinedmechanismtoimprovetheefficiencyoftopicdetection,itcangeneratehottopicsaccordingtothenumberofreportsintopic,generatesensitivetopicsaccordingtothenumberofsensitivewordsintopic.Wealsodividetopicintoseveralsubtopicsbythereleaseddateofrepotsintopic.Finally,wedomanyexperimentstodeterminethevalueofsomeparametersinthealgorithm,andvalidatetheeffectivenessofthe:Webcrawler,topicdetectionandtracking,topicmergence,绪 课题背景及意 国内外研究状 网络爬虫的研究状 话题检测与的研究状 课题研究内 驱动的网络爬 话题检测与构 相关工 开发平 3驱动的网络爬 概 爬虫任务模 模块描 爬虫任务语 解析与执行模 模块描 模块功 模块流 数据结构化模 模块描 模块功 模块流 辅助模 模块描 模块功 模块流 话题检测与概 话题检测模 模块描 模块功 模块流 批量转储数据库模 模块描 模块功 模块流 子话题检测模 模块描 模块功 模块流 重要话题检测模 模块描 模块功 模块流 热词统计模 模块描 模块功 模块流 效果展示与实验分 驱动的网络爬虫的效果展 话题检测与算法的效果展 话题检测与算法中阈值的确 概 阈值α和阈值β的确 测试数据 结 工作总 下一步工 致 参考文 本世纪以来,由于大规模技术和因特网技术的飞速发展,整个因特网已经成为剧增长,人们淹没在各种杂乱的数据中,难以找到自己真正感的信息与知识,从而着“数据泛滥,知识贫乏”的。如果把网络数据按照其描述的话题进行组织,则可方便用户游览其感的信息。因此,如何有效地检测网络热点话题已成为当前Web挖掘领域的一个热点研究课题。目前,国内外存在大量的各种、博客、贴吧和。用户如何从这些海量的数据资源中找到和阅读自己感的数据和信息是一件很的事情。他们必须每天很多的,浏览海量的页面以保证自己对某个方向的动态了然于胸。本课题网络话题的检测与两个部分。本课题的研究成果具有广泛的应用前景,比如,在网络时可以将网络爬虫锁定到相关的(可以是一些著名的,也可以是一些热门的贴吧和,然后就能观测到以话题为单位展现的网络,这有助于有关机构和部门对网络的分析和掌控及时进行决策和引导此外企业也可以利用网络热点话题自动检测技术来归类和分析用户或者潜在用户对某些产品和。课“网络热点话题自动检测来源于的项目需求在监测全情的时候,虫和话题检测与技术也可以分别应用到其他不同的领域当中。1.2.1网络爬虫的研究状网络爬虫是一个自动搜寻网页并提取其页面内容的程序[1]。网络爬虫是以获取量的判断一般是从结构出发,而不是从页面内容出发来进行的。指向高相关页面的,过滤掉指向无关页面的。网络爬虫需要解决的主要问题是对爬取目标()的描述或定义对网页内容的相关度分析对的搜索策略集来描述一个,引入集可以将对用户需求的描述从单一上升到的对的定义工作是网络爬虫的基础,它直接决定了网络爬虫的爬行效果。常用的[2,4]搜索策略的基本思想是与初始在一定距离内的网页具有相关性的概率很低。最佳优先搜索策略则是一个优先队列,将与相关度最高的放在优先队话题检测与的研究状话题检测与评测会议把话题检测与分成五个子任务表格 话题检测与的技术任务任 定切(Story话(Story(StoryDetection)(NewEvent关联检(Link
找出所有的边界把输入的源数据流分割成各个独立。给出某话题的一则或多则把后输入进来的相关和该话题联系起来它实际上包括两步首先出一组样本,训练得到话题模型然后在后续中找出所有讨论目标话题的。判断两则PLSA[7]和L[8]准LAT[9]TM模型中使用逻辑正态分布代替了雷分布。TM中举的一个例子是在科学杂联规则的分类等。其中K-近邻[10]的基本思想是把新的与所有旧比较,选择其中最相似的K则,然后选择包含这K则中数量最多的话题作为这则K-MEANS算法、K-MEDS算法、GAC算法等。但是如果话题检测与面对的数比如增量K-MEANS根据时间窗口的大小从所有中抽出下一批未处理的判断每一则新的是否属于已生成的聚类还是该用作新的聚类重复步骤(2)-(3)转(1)1.3.1驱动的网络爬计不同的,明确描述网络爬虫的任务。在网络爬虫运行时,它只需要用专门设计的语言描写的任务文件就可以逐条完成用户布置的任务。这种将网络爬虫与其具体任务分开的架构对网络爬虫的和更新非常有利,特别例如,用户需要添加一个新出现的热门作为数据来源,或者原本的数据来源的1.3.2话题检测与客或者贴吧之类。所以,其数据量会非常的大,这时候常规的话题检测与题的热度和敏感度等属性,还需要题进行阶段性的划分。本课题中的话题检测与算法应该满足以下要求能有效的将划分到其所属的话题对于新的,能正确判断出其所属的旧话题,或者据此创建新话题第三章驱动的网络爬虫,从原理、架构到设计过程详细介绍了本课题中所使用的驱动的网络爬虫并介绍了话题热度、敏感度的计算方法话题的划分方法。本课题在实践过程中使用Java作为编程语言,但是爬虫任务采用XML语言编写。所有代码用集成开发环境Eclipse中的Java工程进行组织。所有数据于MysqlJava是由SunMicrosystems19955月推出的Java面向对象程序设计语言和Java平台的总称。由JamesGosling和同事们共同研发,并在1995年正式推出。Java最初被称为Oak,是1991年为消费类电子产品的嵌入式而设计的。1995年更名为JavaInternet应用程序。Java是一种计算机编程语言。由于具有戏控制台科学超级计算机移动和互联网同时拥有全球最大的开发者专业社区。特性。Java由四方面组成:JavaJavaJava虚拟机Java应用程序接口(JavaAPI)XML记语言,比如HTML,也可以使用像XML这样由相关自由决定的标记语言,这就(XSL来传送及携带数据信息,不用来表现或展示数据,HTML语言则用来表现数据,所以XML用途的焦点是它说明数据是什么,以及携带数据信息。比如丰富文件,自定文件XML技术应用,标记是用来定义一份资料应该(MetadataXML技术应用,标记是用来说明一份资料的意义。或者配置文档FilesEclipseJava语言。但由于C++、Python、PHPEclipse当Java集成开发环境(IDE)Eclipse的目标却不仅限于此。Eclipse还包括插件开发环境(Plug-inDevelopmentEnvironment,PDE,这个组件主要针对希望扩展Eclipse的软件开发人员,因为它允许他们构建与Eclipse环境无缝集成的工具。由于EclipseEclipse提供插件,以及给用户提供一致和统一JavaEclipseJava语言开发的,但它的用途并不限于内容管理系统。基于Eclipse的应用程序的一个突出例子是IBMRationalSoftwareArchitectIBMJava开发工具系列的基础。、MySQL是一个开放源码的小型关联式数据库管理系统。与其他的大型数据库例如Oracle、DB2、SQLServer等相比,MySQL自有它的不足之处,但是这丝毫也没有减少它受欢迎的程度。对于一般的个人使用者和中小型企业来说,MySQL提供的功能已经MySQL是开放源码软件,因此可以大大降低总体拥有成本。Linux用这种方式不用花一分钱(除开人工成本)就可以建立起一个稳定、免费的系统,中小型。不过,随着MySQL的不断成熟,它也逐渐用于大规模和应用,比如百科和等。MySQL使用C和C++编写,并使用了多种编译器进试,保证源代码的可移植性。支持AIX、FreeBSD、HP-UX、Linux、MacOS、NovellNetware、OpenBSD、OS/2Wrap、Solaris、Windows等多种操作系统。为多Ruby和Tcl等。支持多线程,充分利用CPU资源。优化的SQL查询算法,有效地提高、GB2312BIG5,Shift_JISTCP/IP、ODBCJDBC等数据库。可以处理拥有上千万条记录的大型数据库。支持多种引擎。HtmlUnitJunit的扩展测试框架之一,该框架模拟浏览器的行为,开发者可以使器HtmlUnit支持HTTPHTTPS表单的POST和GET方法能够对HTMLRhinojs引擎,能够模拟JavaScript的运行。JavaScript代码。但是在小型爬虫项目中,这种框架也十分有用,可以有效HtmlUnitJavaScriptJavaScript代码HtmlUnit在本课题的实践中被用作驱动的网络爬虫的一个组件网络爬虫用它JDOMXMLJavaJava开发人员兼作者BrettMclaughlin和JasonHunter创作。这是一个完整的基于Java平台的解决方案,Java开发人员只需要通过JDOM提供的程序接口就可以快速的方便的、操作并输出XML的数据。快速并分析使用XML语言编写的爬虫任务。3驱动的网络爬种网络爬虫。它和网络爬虫的区别在于,网络爬虫是以网页为单位爬调爬网网网文图3.1驱动的网络爬虫的功能框驱动的网络爬虫分为4个模块:爬虫任务模块、解析与执行模块、数据结构化模块和辅助模块。辅助模块又分为3个子模块:文件子模块、处理除了爬虫任务是由XML语言写成的外,其他三个模块都是由Java语言写成。驱动的网络爬虫可以同时解析执行多个爬虫任务(XML文件)并执行。当一 定一个睡眠时长使线程在睡眠结束后可以再一次解析执行改爬虫任务爬虫任务模爬虫任务模块是驱动的网络爬虫里一个非常独特的模块。这个模块是由XML语言写成的文件组成。在驱动的网络爬虫中,爬虫任务是可以修改驱动的网络爬虫的,它定义了网络爬虫的所有操作,它指导了网络爬虫页爬虫任务语语言规范是建立在XML语言上的,这个创意来源于作者开发安卓应用和Windows8应用时的经验。虽然在安卓应用和Windows8应用中,它们只是用XML来定制构性的标记语言也的确非常适合被用作语言,因为计算机可以非常方便的XML语言写成的文件中的信息。爬虫任务语言用XML语言的元素来划分的结构其主体结构如下图所示…<database……图 爬虫任务语言的总体结构爬虫任务的根元素是<crawler>,表示整个爬虫任务是对网络爬虫的描述,当然也可以把爬虫任务本身看成是一个网络爬虫。根元素<crawler>有三个子元素,<database>元素拥有多个属性,将用于描述数据库的位置、名字等一些基础信息,图 30秒,网络爬虫需要把它缓存在内存中的数据结构化并统一转储到数据库。<close_unuseful_windows_time>据时,把网络爬虫的JavaScript支持功能关闭能显著提高网络的爬虫的运行效率。<databaseserver='mysql'host=''port='3306'name='public_opinion_data'username='nmb_g930'password='nmb_g930'><tablename='posts'<columnname='website'<columnname='url'<columnname='update_date_time'<columnname='release_date_time'<columnname='title'<columnname='author'<columnname='content'<columnname='hits'<columnname='replies'<tablename='replies'<columnname='id'<columnname='posts_url'<columnname='update_date_time'<columnname='release_date_time'<columnname='author'<columnname='content'图 <database>元素有六个属性来描述数据库的连接配置,它们是server、host、port、nameusernamepasswordIP、数据库对应的端、数据库的名字、连接数据库所需要的用户名和连接数据库所需要的。这个实例中表示的连接配置就是:使用的是MySQL数据库,数据库应用位于3306public_opinion_datanmb_g930作为用户名和连接这个数据库。有了这些信息,网络爬虫就能连接到它所需要的数据库,并且可以对这个数据库进行任何它所需要的操作了。而且由于这些信息是在里描述的,所以这也为更换、迁移数据库带来了便利,也使网络爬虫在同时运行多个爬虫任务<table>元素表示一网络爬虫运行时所需要的表网络爬虫在载入爬虫任务的时候元素的overwrite属性,如果overwrite属性的值是true就清空表中的数据,否则保留它开这些列名即可。<column>name和type分别表示<call_taskname=''<taskname='<part图 <tasks>元素的子元素只能是<main_task>元素和<task>元素,而且<main_task>元素C语言中的mainJava中的main<task>需要一个name属性来标识它。表 爬虫任务的指令元素及其用途的说明指令元 用 HTMLHTMLNULL。 HTML元素的数据,需要指定对应的数据库表的名字和列的名字。取默认HTML元素的哪部分数据由 修改默认HTML<set_attribute>元素的子元素<part>将决定那个需要被修改 用于文件文件名由其子元素<name>决定文件地址由 表示需要文件的文件名,值由其子元素<part>决定 表示需要文件的文件地址,值由其子元素<part>决定 直接执行SQL语句,SQL语句由其子元素<part> HTML元素的各种属根据这些指令元素的用途说明不难理解图35中所实现的测试功能图3.5中main_tak元素中只有一个指令元素ll_tk>,于是网络爬虫会根据cll_tak元素中所给出的url属性加载网页,并调用“测试”任务。测试任务第一层只有一个指令元素find_elmentfind_elmentxpth属性查找TL中的元素,而find_elmnt元素的子元素v_dta负责保存数据。prt>元素表示数据来自,这会调用处理模块来获取用户输入的数据。如网络爬虫在执行find_elmentrmedy_tk_nme中给出的名为“fild[pictur_tet.ontent]是为数据库pictur_tet表中的ontentLL的数据。表 属 说 HTML元素的xpath。如果缺失该属性,则由<find_element>元素的子元素<part>生成xpath。 HTML元素失败时需要执行的补救任务。可以表 属 说 urlclick表示在调用任务的时候加载新的或者点击默认 的新的如果缺失由<call_task>元素的子元素<part>生remedy_task_name表 属 说 表示数据的来源,不可缺失。其取值可以是“textattributeargxpathurldate_as_longpicturesqlcmdHTMLHTML元素的属性、参数表、默认HTML元素的xpath、当前网页的、以长整形表示的日期以字符串表示的日期SQL语句、命令行返回值。与from属性相关的属性有attribute_name、arg_key、sql_arg_key等用于辅助确认数据来源,以下不赘、need_preprocess表示数据是否需要预处理。可以进行截取字符串、删减字符、]需要向某一列插入NULL时可直接调用该任务而不需要做其他的另外还有一个自 解析与执行模解析与执行模块需要用XML语言写成的爬虫任务,按所定义的数据库格式初始化数据库,然后解析出里所含的指令,通过面可编程浏览器集完成在内存中的数据。定义的操作,并在其他模块的协助下完成用户定义在爬虫任务里的目的。解析爬虫任务根据爬虫任务初始化数据库根据爬虫任务数据解析与执行模块运行的第一步是读入爬虫任务(如果所指定的文件路径有错或者爬虫任务的格式有错,将会报错,然后根据爬虫任务对数据库格式的定义为每次删除并重建。接下来则是载入爬虫任务中定义的所有任务并从务,在执行爬虫任务中所定义的任务时解析与执行模块会判断是否已经执行,开读入开读入爬虫任加载所有任务并务开始执是否已执行所有指否是否为调用任务指否执行指下一条指结根根 初始化数据是调是调用新的任图 解析与执行模块流程 解析与执行SQL语句。否否图 数据结构化模块流程(1)文件(2)处理,文件子模块是在单独的线程能实现的。当解析与执行模块遇到文件指令时解析与执行模块会把文件的源地址和目标地址作为两个参数发送给文件新的线程去文件。当文件完成时,文件子模块会调用反馈方法去通知,,码指令时解析与执行模块会把的地址作为参数发送给处理子模块,并等待处理子模块返回内容。处理子模块在接收到,中间信息输出控制子模块用于控制驱动的网络爬虫在运行时输出的各种中间信息,比如:打开了某个网页;关闭了某个网页;了什么数据;保存了多少数据;SL用的样式进行显示中间信息输出控制子模块的作用就是根据配置把信息导向不同的输出端。话题检测与概话题检测与算法的功能框图如下操操操图4.1话题检测与算法的功能框话题检测与算法分为5个模块话题检测模块批量转储数据库模块子话检测模块重要话题检测模块热词统计模其中话题检测模块是话题检测与法的模块,它完成了话题的检测和功能。量转储数据库模块是为话题检测模块服务的所以话题检测与算法最终由4个进程实现。话题检测模块作为还踢检测与算法的模块,它的功能是完成到话解决相似度这一问题。以用所含的词作为的特征,然后用词的TF-IDF作为这个特征的权重。D的向𝐷(𝑡1,𝑤1;𝑡2,𝑤2;…𝑡𝑛, 其中𝑡𝑖表示D的某个词,而它的权重𝑤𝑖是它的TF-IDF值。如果某个词或短语
=∑𝑘=
其中𝑛𝑖,𝑗表示词𝑡𝑖在𝐷𝑗中出现的次数,𝑡𝑓𝑖,𝑗表示词𝑡𝑖在𝐷𝑗中出现的频率,S表示所有的集合,𝑖𝑑𝑓𝑖表示词𝑡𝑖的逆向文件频率。践中,采用的是余弦公式作为相似度函数。例如对于如下两则𝐷1(𝑡11,𝑤11;𝑡12,𝑤12;…𝑡1𝑛,𝑤1𝑛),𝐷2(𝑡21,𝑤21;𝑡22,𝑤22;…𝑡2𝑛, 𝑆𝑖𝑚(𝐷,𝐷)=∑𝑡1𝑖∈𝐷1&𝑡2𝑗∈𝐷2&𝑡1𝑖=𝑡2𝑗
𝑤2
旧话题以确认它的归属的计算采用的是余弦公式,所以这里不需要题向量的权重取均值。话题采用与相同的量化方显著提高话题检测模块的运行效率,因为旧话题的数量要比旧的数量少很多。可是,当话题数量为n时,添加一则道的时间复杂度为O(n)。显然,随着不停的添加,话题的数量会增多。虽然n增长的速的增多,其对应的向量会发生变化,会有多个话题互相“”,这也会导致话题用了一种话题合并策略,其思想是把互相“”的话题合并为一个话题。但是由话题的阈值(阈值的确认过程将在下一章讲述,则把道加入到这个相似度对应的旧话否否开开从批量转储数据库模块获取话题道系统是否被系统是否被关否存在一个相似度大于阈否是是是否需要执行话题合并算向批量转储数据库模块发送任加入话创建新话执行话题合并算与每个旧话题计算相似结生 道向图 话题检测模块流程从数据库话题库同一个话题进行多次修改,前几次修改会失效SQL语批量转储数据库模块采用这样的工作流程可以显著减少话题检测与算法和数开开否系统否系统是否被关清空任务队执行SQL语根据任务队列生成SQL语从数据库读入旧话题去掉任务队列中失效的任结图 批量转储数据库模块流程随着话题所含 阶段性可以很好的了解人们到底题中的什么组成部分感。𝑅=∑𝐷1∈𝑆&𝐷2∈𝑆
(2其中S为集合,𝑆𝑖𝑚(𝐷1,𝐷2)见公式(4.6)当集合的平均相似度小于设定的阈值(阈值的确认过程将在下一章讲述)时,划分,判断其所属的阶段子话题检测模块在启动后先是读入所有话题的ID,然后按照话题的ID为话题划分子话题。为话题划分子话题时,首先需要根据话题的ID读入该话题包含的所有,然后根据的时间对所有进行排序。接下来申请一个临道集合,并把按时间排序的逐个加入临道集合。在向临道集合加入的过程中,需要不断计算临道集合的平均相似度,如果其平均相似度小于设定的阈值,则根据这个临但此时仍需要根据这个临道集合生成一个子话题。属性表示所属于的话题的阶段,即子话题。开开选择一个话题,并从数库读入该话题的所是是否是是否还没有确定阶 道集合是否可以成为子话否是生成子话否临道集合是否为否道集合清临道集合添向图 子话题检测模块流程,当话题检测模块把以话题的形式进行组织时题的各种分析就变得格外重,移除过移除过期的话题大小信计算话题敏感计算话题敏感热词统计模块在运行时,只需要定时执行编写好的SQL语句即可。MySQL数据库 图 驱动的网络爬虫的控制中隔时间来添加新的爬虫任务。或者通过右键已存在爬虫任务来删除它们。图 爬虫任务的详细运行状况、、示了任务数窗口数等待数超时数打开与关闭情况超时情况、、、话题检测与算法的效果展据库中的格式:图 在数据库中的格式在上图中,由于大小的限制没有显示出的id和url属性。在已经显示的几个属性中,type、title、date_time是的固有属性,表示的类型、标题和发布时间。其类型可以是、博客、帖子和回复。而topic_id和stage属性则是在话题检测与算法运行之后才生成的,它们分别表示所属话题的id和它在该话题中的阶段。其中阶段是以非负整数表示的如果其值为-1则表示这则还未被判断出其所属的阶段(子话题。当子话题检测模块下一次启动时,会把所有阶段为-1的修正过来。 图 话题在数据库中的格式在上图中,由于大小的限制没有显示出hot_value和sensitive_value属性,这两的标题取自于话题中最早那篇的标题earliest_dt和latest_dt属性分别表示该话题中最早的的和最迟的的,即话题的生存时间。图 话题大小临时信息在数据库中的格式在上图中,分别显示了话题ID话题检测与算法中阈值的确在话题检测与算法的实践中涉及到一个阈值α的的确定阈值α决定了一个话题所涵盖的空间的大小,下图为阈值α作用的示意图:图 阈值α作用的示意上图表示,假定存在一个含有三个(左上方三个,也可以)的话题,如果阈值α取值较小,则当道(右下角的)来到时,它将不属于这个话题。而当阈值α取值较大时,它将属于这个话题。在话题检测与算法的实践中还涉及到另一个阈值β的确定阈值β决定了两图 阈值β作用的示意ββ取值较大时,γ阈值αβ本课题在测试中采用的测试数据集是话题检测及评价数据集(SogouTDTE)[16]。这个数据集由搜狗提供,其地址为http: 数据 所属话题两部分构成,其格式如下图所示图 话题检测及评价数据集数据格式的标题、正文、等信息由驱动的网络爬虫获取α和阈值β的值,然后开启话题检测与跟话题检测与算法的有效性。接下来,让测试程序不停地用不同的阈值α和阈值β来对于集合𝑆={𝐷1,𝐷2,…,𝐷𝑛},可以把测试数据集和看做是集合S的划分,分别记为𝐿𝑅=𝜋𝐿𝑅{𝐷1𝐷2𝐷𝑛}和𝑇𝑅=𝜋𝑇𝑅{𝐷1𝐷2𝐷𝑛}。LRTR作为报道集合S的划分还可以看作是关(两个被划分到同一个部分就认为它们有关𝑅(𝐿𝑅)={{𝐷𝑖,𝐷𝑗}|ョ𝑃∈𝐿𝑅&𝐷𝑖,𝐷𝑗∈𝑃&𝐷𝑖≠ 𝑅(𝑇𝑅)={{𝐷𝑖,𝐷𝑗}|ョ𝑃∈𝑇𝑅&𝐷𝑖,𝐷𝑗∈𝑃&𝐷𝑖≠ 于是,可以用R(LR)和R(TR)计算准确率、率、F值来作为话题检测与算𝑃𝑟=𝑅𝑒=
𝐹=
在多次实验后,将实验结果集中在表内观察,下表为F10表 F值最高的10组实验结果阈值阈值F0.17将阈值αβ和FX轴、Y轴、Z图 实验结果三维α0.2β0.4左右时可以使结果最好。为了防止过拟合,话题检测与算法最终设定阈值α为0.2,阈值β为0.4。本课题“网络热点话题自动检测”的目标就是主动去互联网上的、博客、驱动的网络爬虫以及话题检测与算法驱动的网络爬虫负责爬取博客、驱动的网络爬虫的在于爬虫任务的设计以及配套的解析执行器设计。在本课题的实现过程中,我们采用了XML语言作为爬虫任务的基础,用特殊的元素来设计爬虫任务中的各项配置、指令等。爬虫任务的设计参照当行的编程语言,使其具有很好的可读性并且也易于计算机的和处理。在驱动的网少数据库的次数,但是内存的消耗却增加了。所以,在撰写爬虫任务时,需要能在以后的阶段加以改进。HtmlUnitJavaScript代码有点力不从,在毕业设计即将结束的时候向在我完成毕业设计和的过程中给予我无私帮助的老师和表达谢意。,首先,我必须感谢我毕业设计的指导教师教授。知识渊博、治学严谨但是又能和学生们打成一片。在课堂上,喜欢用与学生的方式来完成他的教学任务,他常说,他上课就是给讲故事。能用最通俗易懂的语言来讲述高深晦涩的理论知识。上课让我感受颇深,这比自己看书要理解的快的多。他给我2的课为来的学习和工作打下了非常坚实的基础。在的,除了科研氛围外我还感受到了很浓厚的人文,老师、师兄、师姐都很热情、友善,他们PPT来说明自己做了什么、没做什么、下一周做什么。在小组讨论会上,他让我们提出问题,然后他给出一些参考的解决方案或者直接和弯路。我能顺利完成了毕业设计,绝对是第一助力,在此再次感谢。同样我也要感谢师兄、师兄和老师。师兄和师兄之前都在做过与爬虫有关的工作,我选择设计并实现驱动的网络爬虫主要是受到了他们的启发。他们在我完成驱动的网络爬虫的过程中也向我提出了很多宝贵的建议和技术。老师题检测与有很深入的研究,他还发过这方面的。所以,每当我在话题检测与算法上遇到问题时,我就去请教老师,他总是耐心的给我讲解其中的知识和相关技术。两位师兄和老师在我毕业设计的选题、设计、实现、然后,是我们宿舍的,在完成毕业设计的过程中,有时候会在寝室调试代码到深夜。这时候,宿舍的都已经睡了。如果我继续调试,电脑屏幕的光和我敲键盘都会影响他们休息。可是不把问题解决,不把代码调通我又睡不着觉。对此,宿舍的同学都很能理解我,他们还劝我打开台灯以免眼睛影响视力。宿舍的我还要感谢我的父母。我们家离很远,但是父母仍然支持鼓励我来求学,他们希望我能在北航这所优秀的大学里学到的知识,让自己变得像北航一样优秀。他们虽然不能常来看望我,但是他们常常打关心我的学习和生活,并且给我足最后,衷心感谢为评阅这篇毕业设 而付出辛勤劳动的各位老师和评委[1],.网络爬虫研究综述[J].计算机应用研究,2007,24(10):26-[2]周立柱,.聚焦爬虫技术研究综述
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《光缆识别》课件2
- 4S店售后夏季活动方案
- 前端年终总结工作完成情况
- 智慧养老平台系统智慧养老有我更专业
- 《LED培训资料》课件
- 妇幼保健院归档病历质量评分表
- 主动脉成形手术指南
- 2024年我国职业病现状
- 儿童手术体位
- 《级技能历年考题》课件
- 高中英语必背3500单词表(完整版)
- 2024至2030年中国领先型机组式凹版印刷机数据监测研究报告
- 2024年公安智能外呼项目合同
- 铸造机械市场分析及投资价值研究报告
- 内蒙古自治区锡林郭勒盟2024-2025学年高一上学期11月期中 生物试题(含答案)
- LOGO著作权转让协议书
- 2024年教师资格考试高级中学面试语文试题及解答参考
- 译林新版(2024)七年级英语上册Unit 5 Grammar 课件
- 关于健康的课件图片
- 2024年度上海市高校教师资格证之高等教育心理学题库与答案
- 第三章+相互作用-力+大单元教学设计 高一上学期物理人教版(2019)必修第一册
评论
0/150
提交评论