




已阅读5页,还剩28页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2013届毕业论文-智能文本篇章分析题目:基于领域知识库的文本信息推荐系统 姓 名: 谷 林 学 号: 0921121010 学 院: 数学科学学院 专 业:信息与计算科学 级 别: 2009 级本科 指导老师: 林 荣 德 时 间: 2013 年5月 摘要推荐系统是为解决internet上成千上万的信息过载而设计的一种智能的代理系统,它能从internet上大量的信息中向特定用户自动推荐符合其个人兴趣偏好或需求的信息,从而实现个性化的推荐服务。基于领域知识库的信息推荐即是根据知识点之间的相关性和用户的兴趣来向其推荐用户感兴趣的信息,推荐信息包括个人热点推荐和公共热点推荐。本项目需要解决的主要问题有如下三个方面:第一、建立用户兴趣模型并进行动态更新。建立用户兴趣模型,首先,要收集用户的行为数据,其方式主要有显式和隐式两种;其次,用基于向量空间模型(vsm)来表示用户的个人兴趣;最后,处理用户浏览记录挖掘用户感兴趣的知识点的关键词,通过回溯用户所有关键词的生成算法动态建立用户兴趣知识库。第二、对文本篇章进行智能分析。首先,需要建立领域的知识库,并且人为设定每两个个知识点之间的相似包含关系;其次,从网页html源文件中提取文章的标题和正文,用正则表达式匹配的方法获取标题,用分块提取汉字的思路分析提取出文章正文,剔除图片、贴吧、广告等;最后,将提取出的文章进行分词和评分。第三、依据用户个人的兴趣知识库产生推荐信息。产生推荐信息,首先,系统通过搜索引擎自动搜索用户关键词,从搜索结果中提取有效的网页地址;其次,二次访问获得的有效网页,进行文本篇章智能分析,通过评分情况判断是否推荐。测试结果表明,本项目已经能够很好地依据用户的个人兴趣实现个性化的文章信息的推荐,并且通过处理用户浏览过推荐网页来挖掘用户潜在的兴趣,从而实现用户兴趣知识库的动态更新。至此,推荐系统核心功能的框架已经基本搭建完成,为以后扩展至更多的领域的研究打下了坚实的基础。关键词:推荐系统 用户兴趣模型 智能文本篇章分析 推荐信息abstractrecommendation system is an intelligent agent system solving thousands of overloading information from the internet. it can offer plenty of special information automatically to individuals with different demands and interests, and thus making the personalized recommendation service accomplished. based on domain knowledge, the information recommendation could offer users interested messages according to the connection of knowledge points and personal appetites. recommendation system has two aspects, including the recommendation of personal hotspot and common hotspot. this project will solved three primary problems.q.1 users interests model and dynamic renovation. to build users interests model, firstly data of users behaviors including explicit aspects and implicit aspects should be collected. and secondly, use vector space model to express the users personal interests. finally, by exploring the browsing history and searching keywords of users interests and backtracking all the keywords of user by generating algorithm knowledge-base of users interests are dynamically setup.q.2 text intelligent analysis. firstly, building domain knowledge base, and setting up the relationship between two points artificially. secondly, the title and text should be extracted from html code by using regular expressions, and removing pictures, post bar and advertisements. lastly, segmenting and scoring the text. q.3 providing recommendation information according to knowledge-base of users interests. first of all, depending on searching engines, the system could search users keywords automatically and extract valid web address from the searching results. additionally, visiting the effective webpages continually and analyze the text intelligently. finally, it should determine whether the article is worth to recommend to the users by the marking condition.the test results show that the project has been able to make characteristic information recommendation accomplished which depends on individuals interests, and furthermore, users potential interests through the records of browsing history can be found. therefore, it can realize dynamically update of users interest knowledge-base. hereto, the main functions framework of recommendation system has been basically accomplished. it lays a solid foundation for more expansive research fields. keywords: recommendation system, user interest model , intelligent analysis of text, recommendation information33目录摘要2abstract3目录5第一章 概述6第二章 系统框架72.1 基于领域知识库的信息推荐系统的框架72.2 后台分析程序数据处理流程7第三章 用户兴趣模型93.1 用户行为的数据收集93.2 基于向量空间用户兴趣模型的表示93.3 用户兴趣知识库的建立及算法实现10第四章 智能文本篇章分析和信息推荐124.1 领域知识库124.1.1 公共知识库实例124.1.2 个人知识库实例134.2 自动搜索关键词提取有效网页地址算法134.2.1 正则表达式的概念144.2.2 提取有效网页地址算法144.3 网页文本提取思路及算法154.4 文章自动分词技术174.5 计算子概念对某关键词贡献度算法174.6 文章评分和信息推荐184.7 推荐信息的动态更新194.8 用户个人知识点兴趣度变化的勒夏特列原理19第五章 系统测试结果215.1 自动搜索关键词提取有效网页地址及文章评分的结果测试215.1.1 百度搜索“体育”的结果215.1.2 搜索结果的网页源代码225.1.3 分析提取有意义网页地址的结果225.1.4 网页文本提取结果235.1.5 文章分词结果235.1.6 文章最终评分结果以及产生的推荐信息245.2 用户兴趣的挖掘和个人知识库的动态生成245.2.1 读取用户浏览信息245.2.2 挖掘用户兴趣255.2.3 动态生成用户个人关键词之间的包含关系27第六章 总结与展望30致谢32参考文献33第一章 概述网络信息高度发达的今天,推荐系统在网络购物、电影、音乐和新闻等方面得到越来越广泛的研究与应用。推荐系统是为解决internet上成千上万的信息过载而设计的一种智能的代理系统,它能从internet上大量的信息中向特定用户自动推荐符合其个人兴趣偏好或需求的信息。推荐系统有非个性化系统和个性化系统之分。由于个性化推荐系统的信息过滤效果及推荐被用户接受的程度远胜于非个性化推荐系统,故本文研究的重点是基于特定知识领域的个性化推荐系统。本文将以目前最受欢迎的体育、读书、游戏、娱乐和汽车五个基本领域为研究对象,设计基于上述五个领域知识库的文章推荐系统,以此为注册用户提供个性化的信息推荐服务。为叙述的方便,以下将基于领域知识库的信息推荐系统简称为推荐系统。主流推荐系统1一般需要经过收集用户行为、建立用户兴趣模型、产生推荐信息三个阶段来实现个性化推荐。其中关键是用户兴趣模型的建立,用户兴趣模型建立的过程是获取和维护与用户兴趣、需求或习惯相关知识的过程,其结果将产生一个表示用户特有背景知识和需求的用户模型。本项目采用人工智能常用的专家系统的思维方式来分析、识别和建立用户兴趣模型。用户兴趣模型是推荐系统产生个性化推荐的主要知识源,由于用户的兴趣是时刻刻变化的,其捕捉用户真实偏好的能力在很大程度上决定了推荐的成功与否。由此可见,动态更新重组用户的兴趣模型是推荐系统一项非常重要的功能模块。此外,为用户推荐的信息是包括个性化信息和公共热点信息。个性化信息是基于已建立的用户兴趣库由系统自动搜索互联网,通过一系列处理评分产生的。公共热点信息是将所用用户的推荐信息汇总筛选出评分靠前的文章进行推荐。本文主要包括三个部分的内容。第一,通过处理用户的点击信息,分析文章,挖掘出用户感兴趣的知识点,然后重新构建用户的兴趣,丰富用户的兴趣以便系统能够更好地提供个性化服务。第二,通过搜索引擎搜索用户个人兴趣所有的关键词,并对搜索结果进行合理的评分,然后存储起来。第三,通过对测试结果分析与比较,对系统不合理和不完善的地方进行改进。第二章 系统框架2.1 基于领域知识库的信息推荐系统的框架如图2-1所示,本系统的框架包括web推荐系统、数据库和后台分析程序三个部分。web推荐系统与数据库之间的关系在吕泽水同学的毕业论文中有详细论述,此处不再赘述。本系统的数据库、数据表的设计本以及表之间的逻辑关系在江伟华同学的毕业论文中已有详细说明,此处不再赘述。本文研究的重点在后台分析程序和数据库之间的数据处理流程:首先,后台分析程序读取所有用户的浏览记录,分析后反馈给数据库动态更新每个用户的兴趣。然后,后台分析程序开始读取每个用户的所有关键词进行遍历搜索,分析后将产生的推荐信息存入数据库。数据库后台分析程序web 推荐系统读取用户个人信息以及推荐信息反馈用户的浏览记录读取所有用户的浏览记录和每个用户的所有关键词存储推荐信息以及动态更新的用户兴趣返回搜索结果搜索用户关键词访问推荐的网页internet图2-1 基于领域知识库的信息推荐系统的框架图2.2 后台分析程序数据处理流程后台分析程序处理过程分为两个功能模块:从用户浏览记录中挖掘用户兴趣(如图2-2所示)和搜索用户关键词产生推荐信息(如图2-3所示)ny开始读取所有用户信息结束搜索每个用户知识库的关键词提取搜索结果的有效网页地址二次访问网页,提取网页文本文章分词加载个人被关键词下所有的子概念集对整篇文章进行评分计算,并存储统计该子概念在文章中出现的次数,并寻找出该子概念与搜索关键字的路径,计算它的贡献度子概念集中的关键词是否在文章中出现开始读取用户浏览记录结束访问用户浏览过的网页提取网页文本内容文章分词加载公共知识库比对找出文章中出现的公共知识点重新构建个人知识库关键词之间的关系值并存储删除个人知识库关键词原有关键词之间的关系ny个人知识库中是否存在图2-2 从用户浏览记录中挖掘用户兴趣图2-3 搜索用户关键词产生推荐信息第三章 用户兴趣模型3.1 用户行为的数据收集用户行为的数据收集是一个获取与用户特征、偏好或活动相关的信息的过程。这一过程为用户模型的建立提供了必要的数据源,可采用显性和隐性两种方式实现。显性的收集方式要求用户人工提供表示其兴趣偏好的各种数据,这种收集的方式简单、直接,有助于系统准确构建用户的兴趣,但它要求用户确切地知道其个人兴趣并花费相应的时间和精力积极参与,对用户的个人文化水平有较高的要求,不适合低端普通用户,因而不具有广泛性。而且,由于个人隐私原因,这种方式收集到的数据不一定真实和完整。相对于显性的收集方式,隐性的收集方式不需要用户的人工参与,而是由系统在不打扰用户正常活动的情况下自动完成的,如本系统建立用户兴趣模型的数据就源于系统记录了用户浏览web网页的记录就是有系统隐性获取的,通过对这些信息的挖掘来发现用户可能的兴趣知识。但是由于隐性的收集方式涉及到用户的个人隐私,用户在使用时会有所顾虑,系统的推广使用也不是很全面。因此,为避免上述两种数据收集方式各自的缺点,吸收两种方式的有点,本系统所使用的数据收集方式是显性和隐性两种方式的混合方式。一方面,初次注册的用户可以通过系统提供的定制功能实现初步兴趣树的建立,此处系统的功能介绍在吕泽水同学的毕业论文中有详细论述,此处不再赘述。另一方面,正常使用的用户,系统在充分保障用户隐私的基础通过记录用户的浏览记录来收集用户的行为数据。3.2 基于向量空间用户兴趣模型的表示向量空间模型2是将用户兴趣模型表示成一个n维特征向量(t1,w1),(t2,w2)(tn,wn)。向量的每一维由一组关键词及他们之间的关系值组成,两个关键词之间的关系值是人为设定的相似或包含的程度。在本系统中,数据库对上述模型的表示方式如图3-1所示:fatherchildp图3-1 数据库中用户兴趣模型的表示方式3.3 用户兴趣知识库的建立及算法实现本系统建立用户兴趣知识库的方法有两种。第一种是针对初次注册的用户,当此类用户第一次登陆系统时,系统还未有其兴趣的任何信息,系统给他们推荐的只有公共热点,为实现个性化推荐,用户可以根据系统提供的定制功能来初始化自己的兴趣,也就是上文所说的显性方式。第二种是通过对用户浏览记录的分析,对用户感兴趣的文章进行分词分析,提取该文章中出现在相关领域知识库的敏感词,反馈到用户个人的兴趣知识库,如果用户提取到某些关键词还未出现在个人兴趣知识库中,即认为该关键词也是用户隐性的兴趣,就把该关键词增加到用户的知识库中,并动态更新用户个人知识点之间的包含关系。具体的算法实现将如下伪代码算法3-1:算法3-1 用户所有关键词包含关系的回溯生成算法string uid;/存放用户编号arraylist newpersonalwords;/该动态数组用于存放用户个人所有的关键词编号string father;/父节点关键词编号string child;/子节点关键词编号float p;/存放词之间的包含关系if (newpersonalwords.counts1)/只有当关键词条数大于1时才能建立词与词之间的包含关系 foreach (string a1 in class)/遍历所有关键词 p = 1; if (a1 != 顶层关键词编号) child = a1; temp_child =a1; do 以temp_child为孩子节点查找公共知识库中它的父节点; p = p * 上条关键词之间的p值 temp_child = temp_father;while(father!=顶层关键词编号 & father不包含在个人关键词中); insertpersonalword_relation(father,child,p);/插入新的词条之间的关系 此算法能够很好地建立用户个人每个词之间的包含关系,用户个人知识点之间的包含关系虽然是动态生成的,但其依然是基于静态的公共知识库知识点之间的关系生成的。在此,我们默认公共知识库是具有专家级别的涉及所有知识点的根本来源,它收集包含了目前所有词能产生的包含相似关系。第四章 智能文本篇章分析和信息推荐4.1 领域知识库本系统所涉及体育、读书、游戏、娱乐和汽车五个基本领域。领域知识库的建立是一项非常重要而艰巨的任务,我们需要把所有现实世界中隶属于上述领域的事物具体化为一个词条,由于每个领域包罗万象,因此工作量相当大,对建立者的知识面也有非常高的要求,而且建立的结果难免有些疏漏,需要长时间地更新维护,最终走向全面化。系统领域知识库的建立方案在江伟华同学的毕业论文中有详细的介绍,此处只作简要公共知识库和个人知识库的一些实例,方便本文论述的需要。4.1.1 公共知识库实例本文简单地以体育领域作为研究对象,并列举出如图4-1所示的树形结构层次关系,其中箭头的方向表示主概念包含子概念,箭头上的数值表示人为设定的词条之间具体的包含度,椭圆框图表示该词没有子概念。体育篮球网球nba专题中国足球德甲足球cba专题国际足球法甲西甲意甲英超巴塞罗那梅西0.50.6图4-1 公共知识库实例4.1.2 个人知识库实例体育nba专题网球足球国际足球英超梅西5正如第三章中讲,公共知识库是静态的,个人知识库是动态的,个人知识库是建立在公共知识库之上的。形象地说,个人知识库可以看成公共知识库树形结构中抽取出来的一棵子树。在此,如图4-2所示,列举一个简单地用户知识库实例。图4-2 个人知识库实例将图4-2与图4-1作比较,我们可以看出用户知识库是公共知识库的一棵子树。而且个人知识库中体育和nba专题产生了直接的联系,其关系值的计算方法为:0.8*0.5=0.4。同理,国际足球和梅西产生直接关系值得计算方法为:0.5*0.5*0.6=0.15。这就是第三章3.1节用户兴趣知识库的建立及算法实现的核心思路。4.2 自动搜索关键词提取有效网页地址算法自动搜索关键词产生推荐信息要解决的首要问题就是如何从搜索引擎提供的搜索结果中提取有效的网页链接。常规的思路是首先获取搜索结果页面的网页源文件即html代码,然后对一些无效的网页标签,如、等,最后提取出herf=”*”格式的网页地址。该方法虽然简单易行,但是提取出来的效果很不好,得到的网页地址比较粗糙,无法识别那些图片、论坛、视频等网页的地址特征。在此,本系统的后台分析程序采用的方法是正则表达式匹配算法。4.2.1 正则表达式的概念正则表达式3是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。给定一个正则表达式和另一个字符串,我们可以达到如下的目的:1)给定的字符串是否符合正则表达式的过滤逻辑(称作“匹配”);2) 可以通过正则表达式,从字符串中获取我们想要的特定部分。正则表达式的特点是:1) 灵活性、逻辑性和功能性非常的强;2) 可以迅速地用极简单的方式达到字符串的复杂控制;3) 对于刚接触的人来说,比较晦涩难懂。 4.2.2 提取有效网页地址算法后台分析程序获取网页html源文件后,通过给定的正则表达式来匹配获取有效网页地址的算法7如算法4-1所示:算法4-1 提取有效网页地址算法 string htmlcode;/搜索结果的网页html代码 arraylist arraylist;/存放有效的网页地址的动态数组 string strregex = http:/(w-+.)+w-+(/w- ./?%&=*)?; /匹配有效网页地址特征的正则表达式 regex regex = new regex(strregex, regexoptions.ignorecase); matchcollection matchcollection = regex.matches(htmlcode); for (int i = 0; i = matchcollection.count - 1; i+) bool rep = false; string strnew = matchcollectioni.tostring(); foreach (string str in arraylist) if (strnew = str) rep = true; break; if (!rep & strnew != /search/news_help.html & strnew != /cache/sethelp/index.html) if (strnew.contains(.htm) | strnew.contains(.html) | strnew.contains(.shtml) arraylist.add(strnew); return arraylist;4.3 网页文本提取思路及算法网页文本提取的主要思路:后台分析程序自动访问上一节中提取出来的有效的网页地址,抓取网页html源码,这里要实现自动判断网页编码的问题,否则有可能发生乱码现象。一般应答的 http头的charset都有声明网页的编码,常见的编码有“gb2312”、“gbk”、“utf-8”和“iso-8859-1”,为方便处理和存储,本系统将编码统一转为“gb2312”。但由于internet上的网页数以亿记,网页的格式未严格达到统一的标准,比如有些http应答的头里的charset和网页的meta里声明的 charset就不一致,这就导致程序无法识别而产生乱码现象。由于此类不符合标准的网也只占少数,故处理过程中会当作无意义的网页而剔除掉。编码问题解决后,首先,从html文件中提取文章的标题,此处利用正则表达式4-18实现精确匹配。strreg = (?*) (式4-1)文章标题提取完后,把网页分割成几大块,取出网页里的div块,td块文字块儿,对取出的文字块排序之前把超链接文字数量和汉字数量比例超过百分之50的div去掉,因为这些都是相关链接或者文字广告,再把汉字少于200的文本块去除,因为一般少于200字的文本块不会是正文,而且即便是正文,一般来说也不会有太多的价值。由于div支持嵌套,所以剩下的文本块,有可能是重复的,一个是另一个的父节点,所以要把最里层的文本块找出来,最里层的文本块是汉字最多的,而其它文本较少的,所以要计算出剩余文本块中汉字占所有字符比例最高的文本块,基本上它就是正文的文本块。当然有的网页正文里也可能还有div的文本块,这时候可能会判断错误,但只要正文嵌套的div文本块的汉字少于200字,本系统的算法还是能准确提取正文文本块的。紧接着是细节问题的处理,把等标签替换成特殊占位符pbr等,因为最终的正文需要保留段落和回车换行等格式,这一步用正则表达式实现。把最后剩下的文本块的html标签去掉,用正则表达式过滤9。至此,正文提取完毕。具体的实现算法见算法4-2:算法4-2 网页文本提取string input;/网页html源文件string reg1 = (p|br);string reg2 = (=*)(=*)?ss*?/1)|(?(?=u4e00-u9fa5ufe30-uffa0,.);)*2,(?=u4e00-u9fa5ufe30-uffa0,.);)|(?)|(?)|(?)|(?)|(?+)?ss*?/li)|(? +(s*=+?=?+?)*?)|(?&a-za-z+;)|(?#a-z0-96)|(?s+)|(d+;);/1、获取网页的所有div标签list list = gettags(input, div);/2、去除汉字少于200字的divlist needtoremove = new list();foreach (string s in list) regex r = new regex(u4e00-u9fa5); if (r.matches(s).count 200) needtoremove.add(s); foreach (string s in needtoremove) list.remove(s); /3、把剩下的div按汉字比例多少倒序排列,list.sort(comparedinosbychineselength);if (list.count 1) return ;input = listlist.count - 1;/4、把p和br替换成特殊的占位符pbrinput = new regex(reg1, regexoptions.multiline | regexoptions.ignorecase).replace(input, $1);/5、去掉html标签,保留汉字input = new regex(reg2, regexoptions.multiline | regexoptions.ignorecase).replace(input, );/6、把特殊占维护替换成回车和换行input = new regex(p, regexoptions.multiline | regexoptions.ignorecase).replace(input, rn );input = new regex(br, regexoptions.multiline | regexoptions.ignorecase).replace(input, rn);return input;4.4 文章自动分词技术对提取出来的文章进行高效地分词是文本篇章分析很重要的一块功能,它的基本思想是采最大匹配分词4,也称作贪心算法。分词过程需要去掉无意词和噪声词。鉴于汉字分词技术已经相当完善,本系统直接调用了一个shootseg的c#分词组件5,本系统对该组件的改进之处就在于更新了其基本的分词词典,比原来的分词词典增加了几万条新的网络词汇,以便于更好的对现代文章进行分词。4.5 计算子概念对某关键词贡献度算法如4.1节所讲,知识库中的某关键词下包含了许许多多的子概念10,文章分词完毕后,后台分析程序自动遍历某关键词下所有的子概念,此处称被搜索的关键词为主概念,寻找子概念和主概念之间的一条路径,计算每个子概念对主概念的贡献度,也可形象地理解为通过某一算法计算出子概念和主概念之间直接的包含关系值。数据库词条包含关系存储形式(如表4-1所示)在一定程度上实现了4.1.1节公共知识的树形结构的表达。表4-1 数据库中概念间的存储形式wid2wid1puid主概念子概念关联值用户编号由于知识库不是简单的二叉树,而是n叉树,所以没有现成的算法来实现知识树节点的遍历。但是,受到数据结构中二叉树遍历算法6的启发,本系统设计了一个类似于二叉树前序遍历的算法,见算法4-3:算法4-3 主概念下所有子概念的遍历arraylist wid;/wid是一个动态数组,并且支持索引,可以随时添加、修改和删除数组元素for (int i = 0; i wid.count; i+) sqlconn(widi.tostring();/查找相邻一层的所有子概念wid.add( 查询到的所有子概念); 上述算法的遍历过程可用以下例子来形象说明,假设图4-3是某用户的一个兴趣树的一部分,1表示主概念,那么遍历算法依次访问的顺序为:123456798101112131415图4-3 假想兴趣树子概念查找的过程也是路径的选择过程,每当查找到最底层的子概念后即可依据4.1.2中个人知识库实例的原理一样计算该子概念与主概念的关系值,这里我们称之为子概念对主概念的贡献度。4.6 文章评分和信息推荐至此,给文章评分前的准备工作还缺少的环节就是统计每个子概念是否出现在文章中,如果出则统计该子概念出现的次数,最后在结合子概念对主概念的贡献度11按照式4-2进行计算,从而的出文章的最终评分。当文章评分大于零时,则该文章对用户来说是有意义的,应该向用户进行推荐。文章最终得分=子概念的贡献度*子概念出现的次数 (式 4-2)后台分析程序中具体算法设计如算法4-4所示:算法4-4 文章评分算法arraylist tlist;/存放每个子概念出现的次数的动态数组arraylist plist;/存放每个子概念的贡献度的动态数组for (int i = 0; i tlist.count; i+)convert.toint32(tlisti);score += convert.toint32(tlisti) * convert.tosingle(plisti);4.7 推荐信息的动态更新推荐信息产生后,系统将记录下推荐信息产生的时间,当该信息超过3天后,默认为此文章已经失去时效性,故予以删除,从而达到减少冗余数据的效果。后台分析程序实现推荐信息的动态更新的算法见算法4-5所示:算法4-5 推荐信息的动态更新arraylist introdidlist;/存放所有推荐信息的编号arraylist timelist;/存放所有推荐信息的产生时间foreach (string xx in introdidlist)deleteoldtexts(xx);/删除记录4.8 用户个人知识点兴趣度变化的勒夏特列原理勒夏特列原理是法国化学家勒夏特列提出的一个关于化学反应平衡移动问题的原理。主要内容为:如果改变影响平衡的一个条件(如浓度、压强或温度等),平衡就向能够减弱这种改变的方向移动。引述到这里是为了表述随着用户使用本系统时间的变化,用户个人的知识点兴趣度是变化的。例如,用户a从某天开始对“梅西”和“nba”开始产生兴趣,一段时间后,该用户突然对“梅西”不怎么感兴趣了,而对“nba”依然有很浓的兴趣。该用户对“梅西”几乎没有关注,故“梅西”的兴趣度是下降的;而对“nba”几乎每天都关注,故“nba”的兴趣度是上升的。下面我将引入“知识点兴趣度的时间修正:快开始,慢减少”的思想,效果如图4-4。图4-4 “快开始,慢减少”示例图观察数据的时间为一个月,默认知识点的兴趣度范围为0-1,数值越大表明兴趣度越高。图4-4很好地说明了“快开始,慢减少”的思想,刚开始时,该用户对“梅西”和“nba”的兴趣度上升比较快,后期“梅西”的兴趣度开始缓慢减少,直至下降接近0,即几乎没有兴趣,但数据库中不删除该知识点;而“nba”的兴趣度逐渐上升接近1,即兴趣度非常高。第五章 系统测试结果5.1 自动搜索关键词提取有效网页地址及文章评分的结果测试本章以搜索关键词“体育”为例,来测试后台分析程序运行的结果。5.1.1 百度搜索“体育”的结果百度搜索关键词“体育”的搜索结果如图5-1所示:图5-1 百度搜索“体育”的结果5.1.2 搜索结果的网页源代码本节仅列举百度搜索结果的第一条信息的网页源代码,如图5-2所示图5-2 搜索结果的网页源代码5.1.3 分析提取有意义网页地址的结果后台分析程序经过正则匹配得到的结果如图5-3所示:共20个提取结果:/13/0523/08/8vi1fm0k00051c8v.html/n/2013/0523/c143318-21581486.html /gundong/detail_2013_05/23/25617338_0.shtml /html/2013-05/23/nw.d110000zgqnb_20130523_1-07.htm /system/2013/05/23/013203194.shtml /ty/2013/05-23/4847551.shtml /rdjj/201305/t20130523_8482919.htm /sports/2013-05/23/c_4751280.htm /mass/all/hd/2013-05-23/2239911.html /2013-05-23/154414852.html /n/2013/0523/c104510-21579706.html /newscenter/2013-05/23/c_115871529.htm /biz/sytj/201305/t20130523_512651881.shtml /j/2013-05-23/08576583560.shtml /pub/international/2013/0523/293811.htm /a/20130523/004628.htm /a/20130523/002481.htm /c/2013-05-23/07176583365.shtml /a/20130523/002302.htm /system/2013/05/23/010986857.shtml图5-3 网页地址提取结果5.1.4 网页文本提取结果有意义的网页地址提取后,后台分析程序依次访问上述搜索结果处理后的第一个网页地址为:/13/0523/08/8vi1fm0k00051c8v.html,经过分析提取网页文本结果如图5-4:目标网址: /13/0523/08/8vi1fm0k00051c8v.html文章标题: 马拉加下次欧战仍遭禁赛 状告欧足联至体育法庭_网易体育文章长度: 520 网易体育5月23日报道: 欧足联的一纸通告,让马拉加球迷尝到了坐过山车般的心情。欧足联的官方通告中用词并不明确,马拉加俱乐部一度以为两年禁赛都被取消。但据马卡报透露,马拉加只是第二年的欧战禁赛被取消,欧足联仍维持取消其下次欧战资格的处罚。马卡报:马拉加下次欧战仍将被禁赛 去年12月21日,欧足联宣布处罚9家违反了财政公平原则的俱乐部,其中就包括马拉加。欧足联处罚马拉加将无缘下次欧战,如果马拉加在3月31日之前不能证明他们达到了财政公平政策要求的话,那么还会再被禁赛一个赛季。马拉加认为遭到了欧足联的迫害,在欧冠争议出局之后,马拉加甚至抱怨欧足联有意要打压他们。 昨天欧足联在官方网站上宣布,取消了这几家俱乐部的欧战禁赛令,当时西班牙媒体一片欢腾。但很快马拉加就被兜头泼下一盆冷水,欧足联更改了通告,并确认只是取消了对马拉加的第二个赛季的追加处罚。在马拉加下次获得欧战资格时,该队仍然会被禁止参赛。 对于欧足联的决定,马拉加非常不满。据马卡报透露,马拉加已经把欧足联告上了体育仲裁法庭,体育仲裁法庭将在6月4日公开审理此案,以便确定马拉加下次是否有资格踢欧战。本文来源:网易体育作者:张琳图5-4 网页文本提取结果5.1.5 文章分词结果上节提取出来的文章经分词处理,剔除一些噪声词后的效果如图5-5所示:网易/体育/5月/23日/报道/欧/足联/一纸/通告/马拉加/球迷/尝到了/过山车/般的/心情/足联/官方/通告
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年平顶山职业技术学院高职单招语文2019-2024历年真题考点试卷含答案解析
- 细胞抗衰课程介绍
- 2025年宁波卫生职业技术学院高职单招职业技能测试近5年常考版参考题库含答案解析
- 2025年天津滨海职业学院高职单招(数学)历年真题考点含答案解析
- 2025年天津工程职业技术学院高职单招语文2019-2024历年真题考点试卷含答案解析
- 27341培训课件教学课件
- 创意福字课程介绍
- 人教版数学六年级下册第4、5单元比例广角-鸽巢问题测试题含答案
- 华东交通大学《钢琴伴奏实验》2023-2024学年第二学期期末试卷
- 5G知识课件教学课件
- 护理实习生岗前培训课件
- 患者发生呛咳应急预案
- 早期大肠癌的诊断与内镜下治疗课件
- 艾宾浩斯记忆表格遗忘曲线
- 第6章-非线性有限元法(几何非线性)课件
- 初中物理-流体压强与流速的关系教学设计学情分析教材分析课后反思
- 电力设备预防性试验规程
- 差额定率分档累进法计算
- 第5章全程导游服务程序与服务质量(课件)《导游业务》(第五版)
- 专项资金支出明细表参考模板范本
- 《陈情表》《项脊轩志》默写练习-统编版高中语文选择性必修下册
评论
0/150
提交评论