网页文本中的标题分析_第1页
网页文本中的标题分析_第2页
网页文本中的标题分析_第3页
网页文本中的标题分析_第4页
网页文本中的标题分析_第5页
免费预览已结束,剩余9页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、网页文本中的标题分析摘要 :随着互联网的普及,互联网信息呈现爆炸性增长的趋势,每天都有数以万计新闻从各大新闻站点发布,如此海量的互联网信息为人们提供丰富的信息资源的同时,如何从杂乱无章的网络资源中快捷有效的把握新闻热点成为人们关注的焦点,现有的搜索工具已经不能满足人们对于需求,为搜索引擎引入搜索内容更为精确的主题爬虫显得十分迫切。现有的新闻热点的研究更多的是从新闻内容这一宏观的角度来分析的,新闻文本内容的分析受自然语言处理技术上的瓶颈问题有一定的局限性。本设计旨在从新闻标题这一微观角度入手分析和探讨社会热点,即通过爬虫抓取一段时间内门户网站网页文本中的标题,并对其进行分析和研究,以发现一定时期

2、内的社会热点,从而为人们阅读网络新闻提供参考。关键词:网页文本;标题;主题爬虫ABSTRACT: With the spread of the Internet, the Internet information being presented the explosive growth of trend, every day tens news from the major news sites post, so vast amount of Internet information to provide abundant information at the same time, how t

3、o unscramble the network resources from the grasp of the quick and effective news become the focus of attention, existing search tools cannot have satisfied people for requirements for search engines introduced more precise search content of the topic crawler is very urgent.The news of the existing

4、research more news content from the macroscopic Angle to analyze, the news of the text content analysis by natural language processing technical bottleneck problems have some limitations. This design from the news headlines to microcosmic perspective analysis and research of social hot, that is, thr

5、ough the crawler grab a period of time within a web portal page title in the text, and carries on the analysis and research to find a certain period hot social, thus for people to read news network to provide the reference.Keywords: web page text; Title; Topic crawler目 录1、绪言11.1、研究的背景11.2、研究的目的和意义11

6、.3、相关的研究现状22、良好的网页文本标题必须具备的条件32.1、标题的功能32.1.1、对新闻的内容进行提示32.1.2、对新闻内容进行评价42.1.3、吸引读者的阅读42.2、良好的网页标题具备的条件42.2.1、标题中避免“含而不露,点到为止”42.2.2、选取形象、轻松、诙谐+冲击力的观点53 当前新闻标题中存在的问题63.1 网络新闻标题低俗化,格调不高63.2 网络新闻标题陌生化73.3 网络新闻标题虚假现象严重74 解决网页标题存在问题的措施74.1 国家规范网络编辑人员的制度84.2 建立严格的审稿制度84.3提升从事网络新闻人员的素质94.4、运用爬虫技术对网页文本标题进行

7、优化9结论9参考文献10111、绪言1.1、研究的背景 新闻舆论,从广义上来说是指“通过或经由媒体表达的社会意见”,但是我们也要看到新闻舆论并不是对社会意见的简单复制,是新闻媒体进行选择、加工、处理之后进行报道,避免产生不良的社会影响,传统的新闻舆论的方式主要有报纸和广播,现在随着网络的发展,网络成为普通人获取新闻资讯的主要的途径,人们每天面临着海量的信息,其中还有很多的垃圾信息,还有目前新闻的宣传与以往相比也有大大的增强,人们的时间和精力有限,如何在较短的时间内获取对自己有用的信息非常重要。在这种情况下,网页文本的标题就显得非常的重要,如果标题让人眼前一亮,就会使人们又兴趣打开网页继续阅读,

8、如果标题没有吸引力,就会使自己的文本被淹没在繁多的信息中。俗话说:看书看皮,看报看题。当我们闲来翻阅报刊、搜索网页时,闯入我们视野的首先是那些文章的标题。今年来随着网络技术的发展与普及,各种各样的信息充斥于网络,各种电子文本在数量和类别上不断的积累,导致信息不能进行有效的管理与利用,这样就基础标题选择的爬虫的搜索引擎(即第四代搜索引擎)已经成为当自主搜索引擎和信息挖掘中晌一个研究热点和难点,引起众多的学者争相研究。1.2、研究的目的和意义当前的网络信息量大而且还有很多无用的信息,能够在海量的信息中迅速得到对自己有用的信息。现代社会人们的压力增大,生活节奏比较大,没有时间和精力将新闻报道中所有的

9、信息阅读,在新闻报道中能够根据文本的标题判断信息是否有用,从而提高效率。随着信息社会的到来,信息与媒体的“富余化"导致了“信息超载"的现象周娟.基于标题分析的报纸与网络两大媒体的舆论偏向研究D.中南大学,2011.,网页文本中标题逐渐成为了读者读者选择与处理信息的依据,甚至是获取信息的主要来源,这也就是说明了文本中标题的重要性。新闻是网页文本中的重要的组成部分,随着信息的增多,新闻标题在实现新闻信息和社会价值方面发挥了重要的作用,甚至新闻标题成为了人们获取信息的重要来源。新闻标题成为了影响社会舆论的一支重要力量。新闻标题具有简洁、明朗、含有新闻重要信息的原因,似的人们不再向

10、原来逐篇阅读新闻,只是通过阅读标题来获取重要的信息,遇到感兴趣的标题才会选择阅读新闻具体的内容。研究网页文本中的标题,将其规范和完善,能够使人们通过标题获取重要的信息,这样可以节约大量的时间和精力。对于新闻中的标题来说,研究新闻标题,能够使得新闻能够起到为人们提供大量信息的同时,又不偏离原来的舆论导向。本文运用主题爬虫的理论研究一段时间内的报纸和网站网页文本中的标题,发现一定时期内的社会热点,从而为人们阅读网络新闻提供参考。这样的研究对于读者和信息的提供者都具有非常重要的意义,读者可以在较短的时间内获取较多的热点信息,能过快速有效的获取自己需要的信息,对于信息的提供者来说,可以使更多的读者得到

11、更多的信息,不至于淹没在众多的无用信息中。1.3、相关的研究现状 关于在海量的信息内部利用标题快速、方便的获取信息的主要内容,从而比较迅捷的得到获取信息,达到自己获取信息的目的。国外的研究从互联网开始普及,信息量开始增多时就开始研究了,已经开始形成了应主题爬虫搜索引擎等工具对信息依据标题进行分类。国内的研究开始的比较晚,我国的计算机发展比较晚,相关的研究也起步比较晚,但是目前也有了很大的进步,目前爬虫主题搜索等主要的以标题为主的研究方式已经全面掌握,在国际上也处于比较先进的水平。从查阅的众多的文献资料和相关的研究成果来看,经过多年的发展,新闻标题的研究已经取得了一定的成果并且扩展到了传播学、社

12、会心理学、语言学等多种学科李国华,昝红英.基于相似度的网页标题抽取方法J.中文信息学报,2011,25(2):32-37.,但有关新闻标题的研究仍旧停留在语言技巧的层面上,局限在探讨标题的制作、修辞艺术、语言特色等问题上。例如, 讨论新闻标题制作方法和技巧的著作主要有:浅谈新闻标题写作的艺术手法(卢小春、陈静)、IPTV新闻标题的制作技巧(陈歆耕)、做好新闻标题有学问(甘社会)等。网络新闻的标题研究随着互联网的兴起也成为了研究的热点,网络新闻标题的语言特点研究(张荣)、网络新闻标题制作及创新初探(廉秀芳)等著作开始从网络新闻的标题方面来进行分析,虽然取得了一定的成就,但是主要的局限同报纸新闻标

13、题一样重点放在了标题的语言特征及写作的特点上。语言是思想的表达方式之一,新闻语言更是这样更多的时候是向公众表达舆论导向,新闻标题是具有公众影响力的语言,它所代表的传播者与读者之间进行交流与对话的途径,所以,对新闻标题的研究不能仅仅在于美化新闻语言,而要深入到新闻标题所传播的内容以及体现的传播者的意图上,从而帮助新闻标题能够更好地实现各种功能。因此对新闻标题的研究,主要研究的是它所传播的内容以及它所代表的舆论导向,研究的重点放在新闻标题评价新闻意义与体现媒体价值取向的作用与功能上。主要的参考文献有:网页抓取策略研究(翁岩青)、垂直搜索中网页抓取技术的研究(陈哲)、网页超链抓取及自动分类技术实现(

14、顾潇华,郭军城)、基于标题分析的报纸与网络两大媒体的舆论偏向研究(周娟)、主题网络爬虫研究综述(刘金红,陆余良)等,这些研究成果阐述了现在网络文章标题的重要性和良好的标题需要具备的条件,并且从理论和程序上对标题的搜索和提炼、链接做出了研究,取得了丰硕的成果。笔者能力和精力有限,在很多地方借鉴了一些专家学者的研究成果,不足之处在与没有进行实际的考察研究,较多的是进行理论方面的研究,还存在很多的不足,希望能为新闻在内的网页文本的标题的研究提供一定的参考价值,在繁多的信息中快速准确的得到自己想要的信息。2、良好的网页文本标题必须具备的条件2.1、标题的功能2.1.1、对新闻的内容进行提示新闻标题就是

15、用最精炼的文字将新闻中最重要、最具特点的内容展示给读者,有时作者就是把自己的观点在标题中表达出来,例如:变“储粮于仓”为“储粮于地”(水利天地2004年第8期)是一篇言论性文章钱爱兵,江岚.基于标题的中文新闻网页自动分类J.现代图书情报技术,2008,(10):59-68.,作者直接用自己的观点做标题,使读者看到标题就能直接明白作者的观点,同时将文章主要讨论的问题阐明,这样就能吸引那些不同意见的人去关注、阅读。在文章内容的表达上,这篇文章一期鲜明的观点,有力的论证,加之其内容与东北粮食主产区建设紧密相连而倍受关注,受到极大的关注,很多报刊进行了转载,作者本人也因为这篇文章的编辑获得黑龙江省第八

16、届期刊优秀文章编辑一等奖。2.1.2、对新闻内容进行评价标题有时候并不单单是简要的介绍新闻的内容,有时候也代表着作者及编辑们对新闻内容的评价。优秀的新闻标题都具有鲜明的思想性,不仅能把新闻的内容展示给读者,还能帮助读者理解新闻内容的性质和意义。如通讯“协会”唤醒“小农水”刘金红,陆余良.主题网络爬虫研究综述J.计算机应用研究,2007,24(10):26-29,47.(人民网2005年10月17日)在这篇文章标题中,“唤醒”二字,是作者对小型农田水利工程发展的良好前景做出的评价,是“小农水”改革的新政策,是农村用水户协会这一新政策使然。2.1.3、吸引读者的阅读作者在拟定标题时往往为会下一番功

17、夫,比较出彩的标题能够吸引读者的注意,在众多的网页文本中鲜亮出彩,这样能够引起读者的注意,有了继续阅读的想法。新闻标题的这种“吸引力”是不言自明的。这样的标题往往能把网民最关注的信息提炼到标题中,在标题中晒出自己的观点或者将文章的主要观点在标题中表现出来,要晒醇酒般让人回味、思考的观点,而不是白开水般无味的观点,更不能晒引导网民产生歧义的观点。这样读者就会细细品味,从而引起读者的共鸣,进一步的来阅读文章的本身。2.2、良好的网页标题具备的条件2.2.1、标题中避免“含而不露,点到为止”在网页文本中的标题中一定要亮出来网络文章中网民需要的信息、观点,绝对不能想中国人传统的含蓄靠拢,一定要旗帜鲜明

18、的两处这些观点。例如有的稿件的原标题是“3G即将正式商用GPS增值业务大战率先打晌”,文章的正文部分有3G和GPS融合后具备“家人追踪(Familyfinder)”的功能时,如果把标题改为 “3G+GPS:每个好友的位置都可显示在手机上”。经过这样的修改。3G的概念不再向原来那样的抽象和冷冰冰的,表现出来的概念就是使生活更加的便利,这样就会吸引很多的网民在浏览网页时打开链接进行阅读。在标题中尽量多的把文章中的信息、观点呈现出来,这样标题就不仅仅是依靠新奇的部分来吸引网民的点击,也不仅仅是依靠有用、相关、有趣、有情来长期黏住网民了。这样的标题是主动释放更多的信息来让网民了解全面的信息和多方的观点

19、,让他们自己明白自己支持什么、反对什么,使自己对某件事情有个清晰的判断,这样的标题就达到了标题的最高境界,这样的网页也就能够长期的吸引网民,而且它的主要的观众都是那些有思想的、善于思考的能够表达自己内心想法的深层系的网民。另外,如果一个网页中很多的标题都是 “含而不露”、“点到为止”型刘君,王蒙.网络标题,如何把观点晒出来J.新闻与写作,2009,(9):86-88.,网民在进行网页的浏览时,只是阅读标题并不能得到更多明确的信息、清晰的理念和作者的观点,如果一个版面的半数标题都是“点到为止”,网民在浏览中会断定这样的页面没有阅读的价值,所含有的信息都是可有可无的甚至是垃圾信息,这样的会很开将页

20、面关闭,这一点很多经常上网的人们共有的习惯。如果这样的版面包含的关键词也会比较少,搜索引擎在进行网页抓取时就不会过多的抓取这样的页面顾潇华,郭军城.网页超链抓取及自动分类技术实现J.河北大学学报(自然科学版),2007,27(1):99-102.,即使现在比较先进的网络爬虫抓取网页的程序也会忽略这样的页面,这样在链接的时候也不会出现在读者的面前。2.2.2、选取形象、轻松、诙谐+冲击力的观点上面提到的标题“3G+GPS:每个好友的位置都可显示在手机上”,就是在新闻标题中提炼了稿件中的重要的信息和网民最关心的话题的信息。因为标题隐含了观点,使抽象的、松散的信息具体化、有序化,这样能够引起读者的共

21、鸣从而对读者产生影响。这样的内容还能挑战读者的道德底线和传统伦理,新技术到来了,但是我们还没有做好准备甚至是对新技术一无所知,他给我们的生活带来了变化,使我们的生活变得更加的方便和快捷,但是也在一定程度上挑战着我们的底线,促使我们迅速的做出选择。这样的结果往往是我们对新技术产生了浓厚的兴趣,我们好奇、被动的接受这种新技术,向它为我们带来的便利让步,这样现象是应该引起我们的警觉的,标题的一个重要的作用就是引起这中警觉,对我们的内心形成冲击力。例如有的标题“王蒙:我在揉碎了磨成粉榨成汁重造一个新产品”。这个标题比较的晦涩,对王蒙不熟悉的读者还可能认为王蒙是个企业家,如果将标题改为“王蒙电视讲老子的

22、帮助:老妖精的智慧”。即使是从来没有了解多王蒙的读者,看了这样的标题,眼前也会因为这样形象的标题浮现出一个学者的影子,还会产生一个疑问:为何叫他“老妖精”翁勍力,施水才,赵捧未等.基于网页摘要分析的元搜索引擎研究J.现代图书情报技术,2006,(12):40-43.?他愿意接受这样的称呼吗?把“电视讲老子的帮助”写在标题里,传递了这个稿件的关键词,从而引起读者的注意,得到预期的目的。这些都是良好的新闻标题中具备的条件,有的标题在网页文本中也是比较优秀的标题,但是在网络中很多的标题远远没有达到这样的水平,读者一眼看过去,压根没有感觉,不知道在数什么,甚至没有印象,这些都是现在网页文本标题中存在的

23、问题。3 、利用网络主题爬虫对网页进行抓取3.1、主题网络爬虫的相关介绍在进行实际的考察后,本文决定运用网页抓取工具对新闻进行抓取,本文运用的网页抓取工具是网页抓取工具WebClawer 0.6,这种网页是根据具体的主题的网络爬虫的原来来实现对网页的抓取。网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。根据设计的部分,一个完整的网络爬虫主要包括网页内容读取模块和网页内容分析模块。网络主题读取模块主要功能

24、是读取远程服务器上的Web网页内容,并分析网页URL,读取网页内所有的超链接,按照相关程度排序准备下次读取。网页分析模块主要是进行去掉抓取网页内所有HTML文本,只留下文字图片等有用内容。随着信息量的增加,原有的网络爬虫主要虽然能利用搜索引擎对网页进行抓取,但是通常会包括大量的无用的信息,效率不是很高。我们主张采用比较先进的主题爬虫工具来进行网页的抓取,同普通爬虫的的设计思路相比,主题爬虫主要的特点是在页面分析上,它首先会对页面的主要内容进行分析过滤,只有页面的内容满足了搜索需要的关键字时才对URL进行处理 袁浩,黄烟波.网页标题分析对主题爬虫的改进J.计算机技术与发展,2009,19(6):

25、22-24,28.,这一点与普通的爬虫对所有的网页进行URL处理这一特点对比进行很大的改进。这样就可以减少对不相干网页的分析处理,获取的页面与普通爬虫相比减少了很多,但是但是所含URL和专业主题相关更高,结果更加准确,从而使得用户从大量登入无关web页面的困扰中摆脱出来。3.2、主题相关度的计算 主题爬虫的核心问题是得到准确的网页主题的相关度,如何准确得到网页的主题相关度是主题爬虫的核心问题。目前的目前比较的计算主题相关度的方法有两种,一种是通过对主题关键词的数量进行分析得到,另一种是先对关键词进行词义的分析,根据语义进行扩展,这样就可以讲关键词范围扩大,然后在进行数量的分析。这两种分析方法在

26、获取结果上是不同的,但是分析思路上是基本一致的,都是针对网页内容分析模块进行强化,同时都可以直接独立出来作为网页爬虫的第三个功能模块,也就是对网页主题相关度分析模块。主题爬虫的主要的工作流程是这样的:第一步利用网页内容读取模块读取网页内容,分析URL抓回所有有关链接。第二步通过网页主题相关度分析模块分析网页内容后丢弃无关网页,将相关网页按照相关度存人数据库。第三步用网页内容分析模块去掉网页内HTML文本,留下有用的内容。3.3、主题相关度的计算3.3.1、基于关键词的主题相关度分析 目前通用的是运用向量模型来进行网页相关度的计算,首先确定要搜索的句子的关键字,通过TFIDF(文本频率逆文本频率

27、)概念去掉无关词汇,举个当前大家比较关心的房地产方面的例子,建立一个以房地产的主题引擎,搜索的内容就确定为“当前房地产业面临的风险”,那么关键词为“当前”,“房地产”,“面临”,“的”,“风险”。显然“当前”,“的”、“面临”之类的关键词在同一个网页中出现的频率是非常高的,根据TF/IDF概念这类关键词在主题相关度计算中其权重为零,一般可以删去。剩下“房地产”“风险”这来两个关键词,这样就可以通过余弦向量来确定关键词与网页内容的相关度。由余弦向量公式可以得到:我们将确认的有效关键词在网页中出现的频率看成向量集合a:即得到, 我们用i来表示关键词的个数,表示第n个关键词的权重,这是一个在计算的过

28、程中已经给定的数值,它的规律是主题能力越强的关键词,它的权重越大,反之越小;并且可以删去的关键词的权重值是零。结合之间的距离,可以确定“房地产”的权重高于“风险”,“的”“面临”权重为0。根据前面的分析,我们可以讲整个网页内容看成另外一个集合,首先要统计网页中所有的关键词在文章中出现的次数,然后运用公式分别求出这些关键词在文中出现的频率,通过比较得到频率比:,i=1,2,.n,出现的最高频率为1 刘金红,陆余良.主题网络爬虫研究综述J.计算机应用研究,2007,24(10):26-29,47.。然后我们可以运用公式得到页面主题的向量。这样就可以运用余弦公式来计算关键词语网页的主题相关度:= 根

29、据经验确定一个临界值即,0时则可确定所查找的网页与主题相关,加入数据库保存,反之就可以确定无关。这种计算的方法是通过权值大的关键词出现的次数来决定网页内容与主题相关性的,但是它的确定在于应用时如果同一个意思用多个关键词来表达,只分析一个关键词的出现的次数,有可能会丢失重要的信息,这样我们就需要采用分析内容的方法来进行主题相关度的计算3.3.2、基于语义概念的主题相关度分析用语义来进行主题相关度的计算时,首先要建立一个语义扩展系统,为权重高的关键词扩展语义系统,用前面的例子来做一个房地产相关的主题搜索引擎,必须先把“房地产”,“风险”相关的语义扩展,再加上房地产其他的相关信息,用来表示相关关键词

30、的集合。;此时对关键词进行扩展,则设有个含义(),得到,),再将关键词集合转换层关键词语义集合得到=()。给每一个语义赋权重作为向量。咋语义扩展的基础上得到页面的主题向量再通过余弦夹角公式求得页面主题相关度。这样得到的主题相关页面相对比价准确,但是也存在很多问题,基于语义的主题爬虫在爬取网页后由于算法需要,需要对抓取网页内容对比大量数据,造成了主题搜索引擎效率低下,这都需要不断的改进发展来实现搜索引擎的不断优化。4、基于网页标题的分析4.1、根据标题进行网页的抓取 网页的很多关键字或者词义衍生词汇都是主题的重要的依据,往往标题中会蕴含着这些关键字,网页标题在这些网页源代码中都存在于<ti

31、tle>和<tide>的HTML代码之间,进行比较也是非常方便的,因此可以考虑在爬虫将相关网页抓取到数据库以后,在进行主题相关度分析之后,这样根据论文的标题进行搜索,能够简化分析的过程,避免大量的无效的对比,而且也不会因为对相关链接的相关分析而丢失一些相关度比较高的数据。运用前面的基于语义分析的方法进行对比,一旦主题相关度大于0,就可以讲网页纳入相关的数据库进行进一步的对比。如果想要加快检索的速度,网页标题一般比较短,可以可以仅仅依靠记录用户搜索关键词及其语义衍生词汇中权重最大的词汇出现的次数,将关键词出现的次数进行统计,出现一次的进入数据库进行分析,出现三次以上就直接认为相

32、关不用分析,直接直接置于数据库序列前段。如果想要得到更加准确的主题分析,可以采用网页标题进行奇异值分解的方法,对标题进行分类,根据标题对网页内容进行分析研究,这样做能够大大的简化分析过程,大大提高分析的效率。通过对词语分类的实践,可知奇异值分解算法对词汇表中字词分类和文章主题分类有非常好的效果,与上文中提到的用余弦向量对主题相关对比度分析的速度快的多,如果对全文的内容进行分类,运算量比较大,只有少数高级计算机能够实现,一般情况下,直接对网页内容进行分类很难实现,对网页的标题进行抓取相对比较容易实现,只要通过抓取到的网页标题进行奇异值运算分类后,留下与检索主题相关的分类,然后再进行内容具体分析,

33、即可以实现,这样大大减少无关网页的分析过程。4.2、对网页的标题进行抓取的实现 根据上文提到的抓取方法,用关键词“房地产”“风险”进行网页抓取,得到的部分网页标题为:1.京楼市近期成交复苏 不足以说明回暖 2.万科第五份复检报告:沪宁项目均合格 3.旭辉集团楼盘频现质量问题 4.地方楼市微调难逾政策红线 楼市调控不容变相松动 5.京保障房资格审核联网 6.公租房租金补贴细则将征民意 7.京二手房成交现小幅反弹 8.2月新房成交回暖有内情 9.合景泰富今年维持120亿保守目标 10.旭辉集团楼盘频现质量问题 11.开发商变相囤地9年升值30倍 12.郑家纯接位新世界掌门 13.北京东二环推出罕见

34、住宅地块 起价1.8万元每平米 14.中国调控楼市决心未变 部分城市成交量回升难言回暖 15.安信承诺一个月内无理由退货 欲重塑品牌“挽回人心” 16.北京市住房建设情况发布会:今年预计注资510亿 17.成交上扬难言“回暖” 调控从紧政策基调未变 18.武汉:高楼“拔高”动议出自何处企业不便透露 19.北京斥巨资重建6处京城标志性历史建筑调查 20.40亿借贷将到期 沿海绿色家园被评最差房企 21.开发商变相囤地9年升值30倍 22.义乌御景园卖房3年未开工 "卖图纸"风险谁担 23.旭辉楼盘频现质量问题 消防通道疑不合格假设抓取到的m个网页标题,标题内容内有个与主题相关联的词建立一个矩阵A,每一行对应一篇文章,每一列代表一个关键词在文档中出现的频率。 其中表示第j个词在第i篇网页标题中的的频率,由于n在标题中出现次数不是很多,一般情况不会超过10,所以计算起来比较方便。解得过程中得到:A=XBY,构造关于K的相似矩阵,其中第一个矩阵X中的每一行表示意思相关的一类词,每个非零元素表示这类词中每个词的相关性,数值越大越相关。其中最后一个矩阵Y中的每一列表示同一主题一类文章,每个元素表示这类文章中每篇文章的相关性。中间的矩阵是一个对角矩阵,非零对角元素是矩阵A的奇

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论