网络舆情信息的挖掘技术_第1页
网络舆情信息的挖掘技术_第2页
网络舆情信息的挖掘技术_第3页
网络舆情信息的挖掘技术_第4页
网络舆情信息的挖掘技术_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

网络舆情信息的挖掘技术

0产品评论挖掘在竞争情报分析中的应用网络改变了消费者表达自己意见的方式。例如,您可以在网站、论坛、讨论组、自媒体和微博上表达自己对产品的看法。通过这种方式,我们可以在短时间内获得更多有意义的、可测量的信息情报资源。本文内容即是采用产品评论挖掘技术,利用网络资源来帮助我们有效地获得用户使用产品后的反馈信息,以便企业或更多的用户了解竞争产品优势,企业可对用户的需求和产品的改进方向做出有效反应,用户可针对自身需求寻找到适合自己的产品。在竞争对手或竞争企业的评论挖掘中,有如下研究。黄晓斌、周珍妮分析了观点挖掘在竞争对手分析中的作用,并构建了一个基于观点挖掘的竞争对手分析模型,利用这个模型可以挖掘出哪些产品互为竞争对手。施国良、程楠楠将产品评论挖掘应用于企业竞争中,并从行业监测、用户研究、企业自身、竞争对手四个方面探讨了产品评论挖掘在企业竞争情报中的具体应用。张玉峰、何超将网络评论挖掘融入企业竞争情报分析中,构建了基于网络评论挖掘的动态竞争情报分析模型,并阐述了模型中各个模块的主要功能及其实现策略。本文利用前人的研究成果,将产品评论挖掘技术应用于手机竞争产品领域。本文以苹果、诺基亚公司的两个竞争产品,即苹果iPhone4手机与诺基亚N8手机作为研究对象。主要工作有三个:一是构建了常用于手机评价的网络用语词典,二是构建了用于手机用户评论挖掘结果分类的正则表达式,三是根据挖掘结果量化的图表,分析了iPhone4和N8的各项产品特征的优势以及需要改进的方向。1数据整理、挖掘本文研究过程大致可分为四大部分,网络评论信息采集、数据预处理(包含四部分,即数据清理、分词、词性标注、删除停用词)、评论挖掘(包含四部分,即产品特征提取、评论观点抽取、评论观点的极性判断、极性强度判断)、挖掘结果汇总。研究路线如图1所示。2挖掘过程和关键分析2.1数据预处理数据预处理包含四个部分,即数据清理、分词、词性标注、删除停用词等。2.1.1清理网络产品评论信息网络评论存在许多问题,比如网络语言形式接近于口语,不断出现的网络新鲜词汇等等,所以网络产品评论信息的数据清理尤为重要。数据预处理需要删除大量的无用信息、重复信息和非评论信息等,提取出用户对产品特征有意义的观点。2.1.2区分词词语是最小的能够独立使用的有意义的语言成分,分词的好坏直接决定了计算机对文本语义分析的准确性。2.1.3评论语料的特征判断词性标注是产品评论挖掘的基础,通过词性标注,可以判断评论语料是属于特征词、观点词,还是程度词,从而帮助我们提取出产品特征和用户评论观点,并对用户观点的极性进行判断。2.1.4删除停用语评论语料中经常存在很多出现频率高,但是实际意义并不大的词汇,如“的”、“在”、“了”、“呢”等等,称之为停用词。删除停用词会提高评论预料的分析效率和效果。对于中文的数据预处理过程,可以使用武汉大学ROST虚拟学习团队发布的ROSTContentMining内容挖掘系统和中国科学院计算机所研发的ICTCLAS中文分词工具对评论进行初步的预处理。2.2评论总结过程评论挖掘部分共分为四个阶段,即产品特征提取、评论观点抽取、评论观点的极性判断、极性强度的确定。2.2.1件、部件属性产品特征抽取的目的是,将用户评价的产品特征提取出来,其产品特征包括产品的部件、部件的属性或功能等。产品特征可分为显式特征和隐式特征,对隐式特征的提取技术尚不成熟,故目前大部分产品特征提取都只考虑显式特征。对竞争产品的特征抽取,需要考虑特征覆盖了所有竞争产品,这样,最后的分析才能从一点出发,有所比较。2.2.2主观词汇的选取评论观点抽取的目的是,将能够反映用户观点的词汇抽取出来,这些词汇是对产品特征的观点表达,经常是带有情感色彩的主观词汇,如“外观有一定创新”,“创新”即是用户对“外观”的评论观点。2.2.3测度的见表2:《参数》的极性强度评论观点极性及强度判断是指,确定用户观点的极性,如褒义、贬义或中性,以及用户表达的情感程度的强弱。判断评论观点的极性,有两种方法,即基于词典的方法和基于语料的方法。基于词典的方法需要建立一个情感极性词典,以获得一个词的极性。基于语料的方法是在大量语料基础上,分析词之间的语法形式或共现形式来判断词的极性。用户在评价产品时,不但表达的情感倾向性不同,而且表达的情感强度也是不同的。例如“电池不耐用”和“电池真的很不经用啊,玩的狠点一天都坚持不到!”,这两句评论同样评价的是手机的电池问题,但是第二句评论明显比第一句表达的情感重。为了说明产品之间、功能之间的差异性,通过量化用户评论极性程度就可以很好的展现它们的差异性。极性强度的程度我们可以从两种词性进行讨论。首先,形容词本身具有极性程度。形容词是产品评价中必定出现的词性,其极性程度是有差别的。例如“完美的系统优化和操作体验”和“系统操作流畅”,这两句评论评价的都是系统操作体验问题,“完美”的情感强度明显比“流畅”的情感强度强,“完美”不仅包括“流畅”这一种体验,还包括“稳定”、“开放”等。其次是程度副词。程度副词是指修饰形容词的词汇,例如“稍微”、“十分”、“极其”等,这些都是程度副词,都表示了其修饰的形容词的程度。蔺璜和郭姝慧总结了程度副词的特点及分类,如表1所示。极性强度的确定,可以使用词频逆向文档频率(termfrequency-inversedocumentfrequency,TF-IDF)进行计算。词频逆向文档频率是一种用于资讯检索和文本挖掘的常用加权技术。其主要思想是,如果某一词汇在一篇评论中出现的频率很多,而在所有语料中出现的次数很少,则认为这一词汇具有很好的类别区分能力,具有较大的重要性。词频逆向文档频率(TF-IDF)实际上是由词频(TermFrequency,TF)和反文档频率(InverseDocumentFrequency,IDF)组成的。词频(TF)是指,某一个已知词汇在该评论中出现的频率。对于在某一特定评论中的词汇ti来说,它的重要性可表示为:tfij=nij∑knkjtfij=nij∑knkj以上式子中分子nij是词汇ti在评论dj中的出现次数,而分母则是在评论dj中所有词汇出现次数之和。逆向文档频率(IDF)是指,一个词汇的普遍重要性度量。某一特定词汇ti的逆向文档频率idfi,可以由总文档数目N除以包含该词汇的文档数目{j:ti∈dj},再将得到的商取对数,得到:idfi=logN{j:ti∈dj}idfi=logΝ{j:ti∈dj}其中,{j:ti∈dj}为包含词汇ti的文档数目(即nij≠0的文档数目),如果该词汇不在语料库中,就会导致被除数为零,因此一般情况下使用1+{j:ti∈dj}。最后,词频逆向文档频率的权值为:tf-idfij=tfij×idfi2.3综合总结评论挖掘结果汇总是指,利用统计数学、图表等形式对挖掘结果进行直观地显示。2.3.1生成文本文件利用RegexBuddy软件,按照正则表达式规则,可以将语料按照产品特征及其褒贬倾向性进行分类,并自动生成文本文件。正则表达式是指,在编写处理字符程序或网页时,用来描述符合某些较为复杂规则的字符串的工具,即记录文本规则的代码。正则表达式常用的字符如表2所示。量化用户观点极性原理是,按照词频逆向文档频率的方法确定词的极性强度,再将同一产品特征的句子的得分相加,最后得出平均值,将此结果利用图表形式显示。2.3.2否定比较词t利用正则表达式对标注好的评论语料进行匹配,就要了解评论语料的句子形式。通常,中文句式按照结构划分可分为简单句和复杂句。简单句一般是由“主语+谓语”为基本形式,宾语、表语、定语、状语及补语作为补充。复杂句是由两个或两个以上的简单句组成,因而可以直接分析简单句。网络用户评价中,肯定句、否定句和比较句是比较常用的句式。肯定句是对事物做出肯定判断的句子。肯定句式比较简单,通常是以“主语+谓语”或“主语+系动词+表语”形式出现,而网络中经常出现缺省情况,如“给力的屏幕,丰富的软件……”,这种情况下就要按照“褒义词+产品特征”处理。通常,否定句的表现形式为带否定词的句子。否定词在句中是非常重要的,它的运用使句子的语义呈现相反的意思。否定词在句子中有两种表现形式,第一种是修饰形容词的,如“好-不好”、“强大-不强大”,其等同于带有“不”的极性词;另一种是在句中修饰动词的,如“软件不是很人性化”,其否定的对象是谓语“人性化”。否定词表如表3所示。一般情况下,带否定词的句子观点极性,可以总结为:“否定词+褒义观点词=贬义态度”、“否定词+贬义观点词=褒义态度”。对于比较句,在产品评论中,尤其是对竞争产品进行评价时,比较句是经常出现的句式。其根据句式结构的不同,会出现不同的观点极性。比如下面一条关于苹果iPhone4的手机评论:“电池虽然容量不高,但是比安卓的电池耐用很多。”这条评论对iPhone4手机和安卓手机的电池进行了比较,如果根据“否定词+褒义观点词=贬义态度”这样的规则进行判断,那么就会对用户的态度进行误判。黄鑫根据刘颖和车竞的研究,总结了句子的比较类型,将比较词分成了肯定比较词和否定比较词,当使用肯定比较词时表示对“比较主体+观点词”成肯定关系,否定比较词则表示对“比较主体+观点词”成否定关系。比较词分类如表4所示。而对于比较主客体和比较词、观点词极性的关系,对结果的影响可以从表5得出:3实验与结果分析3.1苹果android4信息的采集两种手机的产品评论信息全部来自中关村在线网站,采集时间截止到2012年7月22日19点18分,共采集到253条关于苹果iPhone4的信息,388条关于诺基亚N8的信息,数据包括发布时间及评论内容等。据此得到的信息,分别构建了产品评论语料库,即iPhone4评论语料库及N8评论语料库。3.2对于基准n8经过数据清理后,共计有228条关于苹果iPhone4的信息,362条关于诺基亚N8的信息。利用ICTCLAS中文分词工具和ROSTContentMining内容挖掘系统进行分词、词性标注、删除停用词之后,可进入挖掘关键步骤。3.3发表评论并加以挖掘3.3.1产品特征集合本文将从两方面提取产品特征。首先,提取产品固有属性,这部分特征由产品规格说明书中提取。手机产品特征词汇集合为F1={报价,外观,屏幕,操作系统,CPU,内存,电池,输入,拍照,视频,音频,应用程序,网络,数据接口,附件}其次,挖掘用户网络评论特征,这部分由网络用户评论中提取。对苹果iPhone4及诺基亚N8手机评论进行词频统计,根据词频出现频率,我们可以得到词频大于10的且能够反映出产品特征词汇的名词集合F2iPhone4={屏幕,软件,游戏,电池,价格,信号,外观,系统,应用,程序,上网,分辨率,做工,手感,设计,拍照,视频,处理器,摄像头,内存,音乐,音质,摄像,外形,铃声,色彩,输入,界面,画面,输入法,电影,价钱,相机,闪光灯,耳机,服务,价位},F2N8={电池,系统,软件,屏幕,游戏,价格,拍照,外观,照相,分辨率,摄像头,视频,相机,上网,内存,音乐,手感,闪关灯,镜头,输出,信号,设计,音质,外形,耳机,摄像,应用,程序,做工,处理器,价位,界面,音效,拍摄,外壳,操作系统,电影,容量,导航,声音,接口,键盘,颜色,照相机,材质,网页,桌面,触摸屏,色彩,价钱,网络,浏览器,造型,画面,地图}最终的产品特征集合为F=F1∪F2iPhone4∪F2N8,合并和扩展同义特征词,如价格={报价、价钱、价位、价格}等,如表6所示。最后得到产品特征集合为F={价格,外观,屏幕,操作系统,处理器,内存,电池,输入,拍照,视频,音频,应用程序,网络,数据接口,附件,服务}3.3.2用户评论观点集合构建与产品特征抽取相似,根据“苹果iPhone4及诺基亚N8手机评论”词频统计文档词频出现的频率,我们可以得到能够反映出用户观点的词汇,构成评论观点集合。3.3.3评论语料库的构建本文采用基于词典的方法对评论观点进行极性判断。根据本文所涉领域和网络用语语言形式的特殊化,本文构建了常用于手机评价的网络用语词典。首先,从中关村在线网站上抽取关于手机的2836条评论(不包含iPhone4及N8的评论),构成评论语料库,根据词频总结了214个常用于手机评价的网络词汇,其中褒义词131个,贬义词83个。其次,使用2007年发布的《知网》情感分析用词语集(beta版),将214个常用词汇根据词汇语义相似度计算拓展为包含2846个词汇的词典,其中褒义词1921个,贬义词925个。将极性词典中的褒义词用“/PRO”标注,贬义词以“/CON”标注。评论语料中评论观点词汇褒贬极性的词性标注可以利用中国科学院计算机所研发的ICTCLAS中文分词工具进行标注,这样,评论语料中的观点词将按照词典中的形式进行标注。本文使用词频逆向文档频率对评论观点的极性强度进行计算。3.4两种手机的特性对比分析本文根据上文的句式分析内容,以“屏幕”为例,定义的几种正则表达式如表7所示:可将“屏幕”等产品特征词语进行替换,这样就可以得到尽量多且准确的句式。按照“产品特征+褒义/贬义”的方法,以iPhone4的“屏幕”这一产品特征为例,显示如表8所示:量化用户观点极性强度后,iPhone4和N8的产品特征及其指数如图2、图3、图4所示。从图2~图4中,我们可以得到iPhone4和N8各产品特征的褒贬义倾向,和它们共同的褒贬义倾向特性。iPhone4褒义:外观、屏幕、操作系统、处理器、拍照、视频、应用程序;iPhone4贬义:价格、内存、电池、输入、音频、网络、数据接口、附件、服务;N8褒义:外观、屏幕、操作系统、输入、拍照、视频、音频、数据接口、附件;N8贬义:价格、处理器、内存、电池、应用程序、网络、服务。在外观、屏幕、操作系统、拍照、视频上,两种手机都得到更多的褒义评价;在价格、内存、电池、网络、服务上,它们都得到更多的贬义评价。因两种手机用户观点数量不同,所以将用户发表的两种手机各特征的观点极性强度取均值,作对比分析,得到的图表如图5示。从以上对比图中,我们可以得到两产品的评价两极性,两极性差别大,即某产品在某个特征上的褒义得分大,但贬义得分小,那么该产品的该特征具有非常大的评价差异性,这就需要针对这一产品特征,进一步的分析予以确定。例如进行用户年龄、性别、文化程度、月收入等方面的调研,予以确定不同的人群对该产品特征的不同需求。在屏幕、内存、电池、拍照、音频、应用程序六个方面,对iPhone4的评价两极性相比N8更大;在附件和服务上,N8的两极性差别更大。将两种手机的各特征的观点极性强度均值进行褒贬义得分互抵,得到的得分如图6示。由图中我们可以得到,两产品相比之下,某产品的优势在哪些方面,即得分高的为产品特征优势。也可以结合图4利用以下公式,得出该产品的最大亮点,及急需改善的特征:最大亮点产品X=褒义特征产品X∩优势特征产品X急需改

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论