版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
面向网络舆情的关联度分析1.挖掘目标随着互联网的快速发展,网络舆情对政治秩序和社会稳定有着非常重要的影响。因此,挖掘网络用户信息和网络舆情信息之间的关联度是非常重要的。2.分析方法与过程2.1总体流程我们使用Java语言编写程序,在关键词词频统计的基础上,为用户信息中的关键词赋予不同的权重。然后,将用户信息中的关键词转换为向量A,向量的分量为对应的关键词的权重。同时,使用二值法将网络舆情信息库中的网页转换为向量B,向量的分量为对应关键词的出现与否。接下来,将向量B中的各分量分别乘以相应的权重值,得到向量C。最后,求向量A与向量C的余弦值,并构建关键词加权评分系统,完成对相关网页的评分高低排序并归档。2.2具体步骤具体步骤包括:关键词提取,关键词赋权,向量转换,余弦值计算等。在关键词提取阶段,我们使用词频统计的方法来提取关键词。在关键词赋权阶段,我们为每个关键词赋予一个权重,以反映其在网络舆情中的重要性。在向量转换阶段,我们将用户信息中的关键词转换为向量A,将网络舆情信息库中的网页转换为向量B。在余弦值计算阶段,我们计算向量A和向量C的余弦值,并将其作为关键词加权评分系统的依据,对相关网页进行评分高低排序并归档。关键词:Java,关键词赋权,余弦值1.挖掘目标本次建模的目标是利用网络爬虫工具采集的大量网络舆情信息,采用数据挖掘技术,给予用户信息中的关键词赋权,分析用户信息中不同权重大小的关键词与网络舆情信息间的关系,挖掘用户与网络舆情信息的关联规则,并使用关键词加权评分系统构建反映与用户最相关的网络舆情信息。这有助于发挥网络对社会监督的巨大作用,以及及时有效地处理网络舆情突发事件。2.分析方法与过程2.1.总体流程本用例的主要步骤包括:-步骤一:编写Java程序,在网络舆情信息资料库中进行Web信息提取与关键词提取,对十项关键词(去除两个样本无差别变量:国别和照片),进行“or”逻辑规则搜索,得到相应关键词的网页地址。-步骤二:在关键词词频统计的基础上,设置用户信息中十项关键词的权重。-步骤三:基于二值法优化构建关键词加权评分系统(详细流程见图2),将净化出关键词的网页进行评分。-步骤四:对网页的评分高低排序并归档,完成关联度分析。2.2.具体步骤步骤一:Web信息提取与关键词提取。在用户信息的十二项关键词中,“国别”关键词在样本中均为“中国”,无法区别不同样本之间的差别,因此予以剔除。“照片”关键词只在三个样本中出现,相对全部样本而言样缺失值过多,因此予以剔除。编写Java程序,使其可以输入关键词并遍历“网络舆情信息”文件夹。对关键词使用“or”逻辑规则完成对“网络舆情信息”的搜索。“or”逻辑规则即搜索时只要含有任意一个关键词即符合搜索条件,可输出。搜索结果如下:2.3.结果分析在本次数据挖掘的过程中,我们通过对用户信息中的关键词进行加权,挖掘出了与用户最相关的网络舆情信息。在关键词加权评分系统的构建中,我们采用了二值法优化,得出了每个网页的评分,并对评分高低进行排序和归档,完成了关联度分析。通过分析结果,我们可以发现用户信息中的关键词与网络舆情信息之间确实存在一定的关联性,这有助于我们更好地理解网络舆情信息的形成和传播,以及及时有效地处理网络舆情突发事件。3.结论通过本次数据挖掘的实践,我们得出了以下结论:-通过对用户信息中的关键词进行加权,可以挖掘出与用户最相关的网络舆情信息。-采用二值法优化构建关键词加权评分系统,可以有效地对网页进行评分和排序。-用户信息中的关键词与网络舆情信息之间确实存在一定的关联性,这有助于我们更好地理解网络舆情信息的形成和传播,以及及时有效地处理网络舆情突发事件。4.参考文献[1]Han,J.,Kamber,M.,&Pei,J.(2011).Datamining:conceptsandtechniques.Elsevier.[2]Wu,X.,Zhu,X.,Wu,G.Q.,&Ding,W.(2014).Dataminingwithbigdata.IEEEtransactionsonknowledgeanddataengineering,26(1),97-107.[3]Zhang,X.,Zhang,Y.,&Liu,Y.(2010).Asurveyofopinionminingandsentimentanalysis.Miningtextdata,1(10),415-463.键词匹配度高,评分结果为“良”等,与之匹配的网页多为新闻型网页,发布的信息多为与政治相关的消息,因此推论此人为政治人物或是政治工作者。根据以上分析结果,可以看出在本次搜索中,关键词的权重设置和搜索规则的修正对结果的影响较大。同时,用户信息中的关键词数量和匹配度也是影响结果的重要因素。因此,在进行网络舆情分析时,需要对关键词的权重进行合理设置,并根据实际情况修正搜索规则,同时要尽可能提供更多、更准确的用户信息,以提高分析结果的精确度。本研究使用关键词匹配的方法对网页进行评分,只有当网页中的关键词完全匹配用户信息的关键词时,评分结果才为“优”。通过对匹配的网页内容进行分析,我们发现该网页是关于离婚协议的,因此可以推断该用户是一名律师。在分析过程中,我们还发现用户信息中的“胡万林”这个人的信息出现了两次,除了出生日期不同外,其余关键词均相同。我们推测这是因为用户在注册账号时为了避免个人信息泄露过多,或者是填写出生日期时选择错误所致。本研究使用Java程序快速完成对关键词在“网络舆情信息”网页的搜索,相比人工搜索,省时省力,精准度大幅提高。同时,我们实现了关键词加权评分系统的一体化,可以一步输出评分结果,使用户可以更简单方便地取得评分结果,并在此基础上推导结论。然而,在关键词词频统计时,由于性别和住址出现频数过多,导致其他关键词的权重区别不大,为了区分关键词权重的不同,我们将性别和住址单独出现的网址剔除。这样做使得不同关键词的权重差异明显,但是这种方法可能会影响关键词加权评分系统的正常评分结果。因此,我们建议重新计算评分排名情况,并删除只出现性别和地址的网页,使得用户信息的评分系统更能真实反映用户与网页的关联度。参考文献:[1]张义忠.基于内容的网页特征提取[J].计算机工程与应用,2001
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论