大数据在电子商务中的应用_第1页
大数据在电子商务中的应用_第2页
大数据在电子商务中的应用_第3页
大数据在电子商务中的应用_第4页
大数据在电子商务中的应用_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据在电子商务中的应用——在线评论信息挖掘1.引言

随着互联网的发展和普及,Web已经成为用户在线反馈观点的主要途径。 网络购物、论坛发表意见无形中已经成为了大多数网友上网的乐趣,而网络机构也开始意识到通过提供在线评论能够增加与用户的互动,获得自身的改进。 然而面对网上海量的良莠不齐的信息和数据,企业、政府和用户要想从在线评论中获得有用的信息,只有通过人工阅读的方式来获取,这不仅需要耗费大量的时间,而且极易产生错误。

网民焦点话题

消费经验经济发展趋势

在线评论用户体验评论对像特征在线评论社会舆论导向

在线评论的挖掘研究在线评论的挖掘研究自然语言处理

数据挖掘

机器学习信息抽取2.现状ISIWebofScience相关文献33733篇JournalofInteractiveMarketing、DecisionSupportSystems热点问题情感分析

评论中产品特征挖掘

评论中产品特征挖掘情感分析评论中主观内容识别等评论挖掘作为非结构化信息挖掘的一个信息领域

英文评论领域,研究者已经初步取得一些成果,而针对中文网络评论的研究仍然处于起步阶段。目前,关于此问题的研究,国外研究者主要是从对网络评论信息特征的主观观点、评论的情感性分析及评论信息的可信度方面研究。

在中国知网(CNKI)上检索(主题=中英文扩展(网络评论)或主题=中英文扩展(在线评论)),检索结果为934条。Hu等利用从亚马逊及Barnes&Noble(全球第二大网上书店,仅次于第一名亚马逊)得来的图书评论信息来证明目前存在部分出版商、作者及卖家有意操纵评论信息的情况,其研究结果表明大多消费者会根据商品价格来判断商品质量,商家在不进行有意的评论操纵或者销售质量较高的产品更容易改变消费中的购买倾向性,由此建议可以通过增加操纵成本来缓和消费者被操纵产生的不良后果。Wang等选择采用半监督-交叉训练方法,以迭代的方式挖掘评论对象和评价词,通过朴素贝叶斯分类器在只有很少标注的语料的前提下取得结果。郭国庆等引入了霍夫兰德在耶鲁大学提出的基于信息传播过程的说服或态度改变模型,在模型本身提出的信息源、信息内容、接收者三个方面的基础上,加入社会因素,提出了在线评论可信度影响因素模型,并以第三方评论网站为例,进行了实证研究。3.在线评论信息挖掘方法观点句识别在线评论要素抽取情感倾向性分析垃圾评论识别评论信息可信度分析在线评论信息挖掘技术方法

基于知识规则方法基于机器学习的方法当前具有代表性的研究方法

3.1基于知识规则方法该方法用于在线评论情感倾向性分析是,通常基于一个预先定义的情感词典,如WordNet、HowNet等词表,统计整个句子中的情感词的倾向性,进而得到句子的情感倾向。上海交通大学的娄德成等通过手工对HowNet包含的所有词条进行倾向性标注,并从网络上选取一定量的极性次于作为种子集合,得到了数量可观的褒贬次于字典,字典中不包含的新词,通过计算新词与种子集合中次于的互信息而得到新词的语义倾向。对于意见持有者的识别,Stoyanov采用命名实体识别的方法,将意见持有者看作一个实体,通过选择相同实体的意见持有者以解决互指问题;Kim等首先通过分析句子的句法结构识别动词或形容词等带有情感倾向的词语,在借助FrameNet标注其情感角色以识别出主题、意见持有者等信息。3.1基于知识规则方法基于知识的规则方法中通常还基于自然语言语义理解,使用句法分析方法从评论的文本结构分析定义一系列规则或模板,对文本的情感倾向性进行分析。例如,Nasukawa等借助一个句法剖析其进行语义分析并且取得了较高的准确率。Wilson开创了在短语层面进行主观性分析的研究工作,在他们将文档按特征分为词汇特征、修饰特征、句子特征、结构特征和文档特征五个类别,基于这五个特征集合构造了一个分类器,在细粒度主观性分析任务中完成得很好。刘鸿宇等通过分析情感剧举行,归纳相应的规则进行倾向性的判断。基于语义理解和句法分析方法的准确率和召回率较高,但定义推理规则需要花费成本较高。3.1基于知识规则方法基于知识的规则方法在小规模测试时效果较好,速度快。但是,人为编写规则需要语言专家对语言规则进行升入的理解,在此基础上编写规则,构造规则对语言知识要求较高,需要很大的人力、财力。另外,规则较多时还会引起规则之间的冲突,各语言间移植困难、通用性不强。3.2基于机器学习的方法双击添加标题文字主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题今年来模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法对减少标注代价,提高机器学习性能具有非常重大的实际意义机器学习领域

半监督学习semi-supervisedlearning

监督学习

无监督学习

3.2基于机器学习的方法通常使用支持向量机(supportvectormachines,SVM)、隐马尔可夫模型(hiddenmarkovmodel,HMM)最大熵(ME)等回归方法、序列标注方法进行在线评论信息挖掘。Akshay和Durant使用SVM进行情感分类。Pang等在2002年使用包括朴素贝叶斯、最大熵和SVM等多种机器学习方法,使用文本分类中常用的unigram(单个word)、bigram(双word)和词性等作为基本特征对电影评论进行了分类。Sakvetti等采用隐马尔可夫模型结合词性特征,对电影评论和产品评论进行分类。McDonald等把句子的褒贬标记看作一个情感刘问题,并利用条件随机场(conditionalrandomfields,CRFs)模型来给篇章中的每个句子打分,把句子级的褒贬标记和章篇级的褒贬标记放到一个图模型下求全局最优,该方法不仅考虑了句子的上下文关系,并且考虑了篇章的整体情感倾向性。3.2基于机器学习的方法线性CRFs模型用于倾向性分析没有考虑褒贬标记间的层级关系以及所包含的冗余信息,例如,强烈褒义和一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论