互联网用户的情绪表达方法研究4_第1页
互联网用户的情绪表达方法研究4_第2页
互联网用户的情绪表达方法研究4_第3页
互联网用户的情绪表达方法研究4_第4页
互联网用户的情绪表达方法研究4_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

互联网用户的情绪表达方法研究

摘要:网络信息技术的飞跃发展正在全方位、深层次地改变着我们的生产与生活方式。信息发布均传输的方式正经历着巨大变革。互联网等新兴信息载体的出现一方而为社会大众提供了的所未有的海量信息资源;另一方面也为民众提供了便捷地表达各自观点的平台。互联网逐步成为网络信息时代主流传输载体,不仅改变人们对于大众媒体的传统认识,而且也极大地改变了传统的信息传播程式。与此同时,网络舆论以交互的自由性和方式的多样性,已经成为关乎社会稳定的一股不可忽视的力量。如何做到在庞大的互联网网络中对互联网用户表达信息的甄别以及大部分网民对某些事件的情绪的大致轮廓的了解,利用计算机等技术进行包括互联网用户情绪表达分析在内的舆情监督是近几年计算机人工智能研究的热点。本文征对信息传播动力学、舆论演化模型提出了一种互联网用户的情绪表达方法。

关键词:情绪表达;舆情分析;互联网用户;互联网

Abstract

Therapiddevelopmentofinformationtechnologynetworksarecomprehensive,in-depthchangingourproductionandlifestyle.Informationdisseminationbothtransmissionmodeisundergoingtremendouschange.Internetandothernewinformationappearsonecarrierwhichprovidesforunprecedentedmassivepublicinformationresources;italsoprovidesaplatformforpeopletoexpresstheirideaseasily.InternetNetworkInformationAgehasgraduallybecomethemainstreamtransportcarrier,hasnotonlychangedpeopleforthetraditionalunderstandingofthemassmedia,butalsogreatlychangedthetraditionalinformationdisseminationprogram.Atthesametime,thenetworkofpublicopinionthewaytofreedomanddiversityofinteractionhasbecomeaforcetobereckonedwithinrelationtosocialstability.HowdothevastInternetnetworkforInternetuserstoexpressandunderstandscreeninginformationformostusersmoodofthebroadcontoursofcertainevents,theuseofcomputersandothertechnology,includingpublicopinionsupervisionofInternetusers,includingemotionalexpressionanalysisisnearlyyearsofcomputerartificialintelligenceresearchhotspot.Thisarticlelevydynamicsofinformationdissemination,publicemotionalexpressionevolutionmodelproposedmethodforInternetusers.

Keywords:emotionalexpression;publicopinionanalysis;Internetusers;Internet

目录

第一章绪论

第一章绪论

1.1研究背景

随着网络技术的飞速发展,互联网已经成为报纸等传统大众媒介之外的第四舆论传播新势力,网络用户量和信息量已经超过了传统媒介。互联网的发展不仅革新了信息传播技术,也改变了人们的生活方式及人际交往方式,极大影响着人们社会生活的多个领域。网络已经成为人们每天获取信息、相互交流必不可少的方式。特别是进入到Web2.0时代之后,网络用户既是网络信息的消费者,也是网络内容的缔造者。网络是现实社会的镜像,现实生活中局部的问题,在网络中可能被放大而引发大量的讨论,直接反作用于真实社会,影响着人们的生活。而一些负面和极端的言论,可能危害网络内容安全及社会的稳定。

2012年7月19日,中国互联网络信息中心(CNNIC)在京发布的《第30次中国互联网络发展状况统计报告》中指出,截至2012年6月底,中国网民数量达到5.38亿。报告中显示,用户数量增长达到一个稳定的水平,互联网的普及率大大地提高。更加引人注目的是,手机用户急速增加,手机上网用户数超过台式机接入网络用户数0.08亿,这是由于移动终端上网方便快捷,成本较低,且能够随时随地。同时,我国的网络技术也日新月异,网络国际出口带宽到达1,548,811Mbps,IPv6地址数爆发增长,已经跃居全球前三位。各种网络应用的增幅明显,即时通信增长提速,微博和博客的数量较2011年底增长了近10%,信息传播方式更加多元化。网络舆论以交互的自由性和方式的多样性,已经成为关乎社会稳定的一股不可忽视的力量。如何做到在庞大的互联网网络中对互联网用户表达信息的甄别以及大部分网民对某些事件的情绪的大致轮廓的了解,利用计算机等技术进行包括互联网用户情绪表达分析在内的舆情监督是近几年计算机人工智能研究的热点。

1.2国内外研究现状

互联网和通信技术的发展使得网络成为人们获取信息分享信息的主要渠道,越来越多的用户参与到网络活动中。用户创造了海量的网络信息,且互联网是一个开放的平台,通过网络信息采集工具可以获取大量的网络数据,从而为互联网的实证分析提供了丰富可靠的数据来源。高性能处理器的出现及并行计算能力的提高,使得对大数据的处理有了可能,因此对互联网海量数据的分析逐渐被提上日程。目前实证分析的研究不断涌现,挖掘用户情绪表达特点,分析网络人际关系,发现潜在的客观规律,有助于互联网理论模型的有效性验证及参数调整。

文献[1]对博客及社交网络服务等Web2.0网络的用户拓扑关系进行了分析。作者分别抓取了人人网及新浪博客数据,新浪博客是单向网络,而人人网是无向网络。研究发现,新浪博客的入度及出度均服从幕律分布,但出度分布的具有更大的幂指数,这表示博客用户并未添加很多好友,甚至有32.6%的人未添加任何好友。活跃用户喜欢连接名人或其他活跃用户,因此网络的入链--出链及出链--出链的度相关系数为正。而新浪博客的出链--入链及入链--入链的度相关系数为负。人人网的度服从双尺度的幂律分布,平均最短路径长度更短,节点簇系数按节点度呈幂律减小,且节点度正相关。

文献[2]分析了Twitter用户的地域分布、用户的好友粉丝数及用户的度相关系数,并将Twitter的用户进行了分类。文献[3]计算了Twitter微博的平均最短距离长度、最大转帖深度、帖子生存时间、用户排序等特征。作者将Twitter中的用户按粉丝数及PageRank值排序,发现两种方法的排序结果近似一致,而将用户按转发数排序则得到的结果有明显区别,这表示用户的转发数与粉丝数之间并非呈严格的依赖关系。97.6%的转帖深度在6跳之内,而转帖深度不会超过11跳。文献[4]比较了Twitter用户的帖子转发数、回复数与好友数的相关性,分析了信息传播过程中用户的影响力特征。文献[5]进一步分析了Twitter中与帖子获得转发相关的因素。根据帖子作者的好友数、账号创建时间等9个因素对Twitter数据进行主分量分析,发现帖子的内容特征及作者特征都具有较强的区分度,是影响帖子转发的重要因素。通过对大量实际数据的验证,描绘出了帖子被转发的概率近似随着帖子作者的好友数、粉丝数、用户创建时间呈上升趋势。

文献[6]对某经济物理学网站的文章下载量进行了统计分析,发现论文的下载次数以Zipf律递减,且幂指数随着时间的推移而降低,这意味着用户并不总是下载排名靠前的文章,而会翻页去查看其它非推荐的文章。不同文章的单位时间下载率按指数衰减,且文章的平均下载率及方差近似满足指数分布,其中a位于0.6到0.9之间,不同于之前的研究,早先的研究认为序参数的方差与平均值的分布指数a为0.5或1。

目前的研究主要针对用户关系的宏观结构或用户个体的微观交互单独建模,未能分析驱动网络用户情绪表达的本质因素,也未能解释参与人群情绪表达偏好及用户性格习惯的异质性对群体结构演化的作用,对网络宏观结构的产生原因未达成共识,因此,这些研究在理解网络用户客观规律上面临着诸多的挑战。

1.3研究意义

互联网用户情绪表达分析及信息演化机制研究,借助社会物理学、计算机科学、信息科学、系统科学及复杂网络等理论,通过计算机建模和数据挖掘的方法,分析用户情绪表达的内在动机,建立用户参与情绪表达模型,建模网络个体观点交互过程,揭示宏观舆论与微观个体情绪表达的联系,探索群体性意见的出现条件,预测信息传播趋势及用户的传播行动,这些研究具有重要的理论意义和应用价值。互联网用户情绪表达分析及信息演化机制研究,有助于生物群体情绪表达及群落结构演化的研究,为社会学等学科的研究提供数据获取和处理方法。网络用户的发帖、转帖、回帖及用户之间的交流等情绪表达,反映了用户的生活习惯和个体特性,通过对用户情绪表达的分析能够掌握大众的情绪表达特性分布,从而有助于网络异常情绪表达检测,防患于未然。分析网络用户情绪表达与群体结构的关系,理解个体的内在动机,掌握群体结构演化规律,对研究其他复杂群体情绪表达具有借鉴意义。

互联网用户情绪表达分析及信息演化机制研究,有助于把握舆论动态,发现潜在的热点话题,是实现舆情监测的重要手段。对网络用户关系的研究能够帮助人们理解互联网特殊的拓扑对信息传播的加速和催化作用,提高对信息传播机制的认识,进一步研究如何促进或阻碍信息的流动。对用户传播情绪表达及话题增长趋势的预测,有助于尽可能早地发现潜在的引发大量关注的话题,从而为舆论监测和突发事件预警提供了依据和参考。

互联网用户情绪表达分析及信息演化机制研究,是认识网络舆论本质演化规律的必要条件,也是研究网络舆论引导策略的前提和基础,对构建健康良好的网络环境、维护社会和谐具有积极的意义。互联网的动态性、内容开放性、匿名性造成了舆论形成的突发性及演变环境的复杂性,而一些负面的情绪能够在短时间内产生较大的影响。对互联网信息演化机制的研究,有利于理解宏观舆论的形成及相变条件,分析互联网的多种特异性对舆论演化方向的影响,掌握微观特性的作用机制,有助于针对性地研究引导舆情发展趋势的方法和手段,恰当构建和谐的网络环境。

第二章主要理论

2.1社会物理学及三大理论

2.1.1社会物理学研究概述

社会物理学的发展历程稍加追溯就会发现,这是一门渊源久远、根基深厚、内容广泛、实用价值很高的交叉学科。自17世纪威廉·配第对“政治算术”的呼吁和其后拉普拉斯的人口性别“误差曲线”的提出,开启了人们寻求用像物理学的定律一样去研究社会问题。其后,法国政治哲学家奥古斯特·孔德认为“社会秩序”是“自然秩序”的简单延伸,首次在1830年左右使用“社会物理学”名称,并将其划分为“社会静力学”和“社会动力学”,从而成为古典社会物理学的奠基者。

近200多年来,社会物理学相继经历了以孔德为代表的古典社会物理学以及其后的近代社会物理学和现代社会物理学三个发展阶段。社会物理学研究者正在尝试对“为什么人类行为如同粒子运动那样”进行正确诠释,企图从社会微观行为的随机与无序中揭示出社会宏观行为的识别特征,从而对于网络传播、舆论形成、经济运行和社会安全所遵循的普适性规律,进行深入的挖掘并最终实现对于社会行为规律的认知、模拟和调控。

中国现代社会物理学派代表人物牛文元教授逐步构建了“社会燃烧理论”、“社会激波理论”和“社会行为熵理论”三大理论体系,并对社会物理学研究的本质进行了理论论述。现代社会物理学的实质总是建立在:统一承认物理世界和人文世界随处呈现出的广义“差异”;统一承认广义的“差异”和“非均衡”必然导致的广义的“梯度”;统一承认广义的“梯度”必然要产生广义的“力”;统一承认广义的“力”的作用下所必然产生的广义“运动”和广义“流”。而探索广义的“运动”和广义的“流”,是自然科学和社会科学共同面对的一致要求,现代社会物理学就是为适应这种统一要求而存在的。并对于现代社会物理学的一般定义作如下的表述:“在网络世界的虚拟情景中,应用自然科学的思路和原理,经过有效的融合和理性的修正,用来识别、模拟、解析和寻求在现实世界中社会行为规律和社会结构分布的充分交叉性学科。”

2.1.2社会燃烧理论

“社会燃烧理论”于2001年提出,是将社会的无序、失稳及动乱与自然界的燃烧现象进行合理类比的理论。自然界中的燃烧现象,既有物理过程,也有化学过程。物理过程中主要指物质的平衡和能量的守衡,化学过程中主要指物质的变化以及变化所依赖的基本条件。加以总结,燃烧发生必须具备三个基本条件,即“燃烧物质”、“助燃剂”和“点火温度”,三者缺一不可。其中,“燃烧物质”是燃烧发生的前提性基本条件;“助燃剂”对燃烧过程进行加速,因此在燃烧过程中起催化作用;“点火温度”除了直接使燃烧物质发生燃烧外,不仅激活助燃剂的助燃功能,而起加速了着火温度阈值突破过程。

把自然界燃烧过程的这一原理引入社会稳定领域,则可将引起社会无序的基本动因,即随时随地发生的“人与自然”关系不协调和“人与人”关系不和谐视为社会不稳定的“燃烧物质”;将非理性的判断、敌对势力的恶意攻击和片面利益的刻意追逐等看做燃烧的“助燃剂”;当上述二者都具备的时候,一个小的突发事件的发生作为动乱的导火线或“点火温度”必将引发具有一定规模和影响的群体性突发事件,最终导致社会的不稳定与不和谐。

“社会燃烧理论”的机理认为:当“人与自然”之间的关系达到充分平衡、“人与人”之间的关系达到完全和谐时,整个社会处于“理论意义”上绝对稳定的极限状态,只要发生任何背离上述两大关系的平衡与和谐,都会给社会稳定状态以不同程度的“负贡献”(即形成社会动乱的“燃烧物质”),当此类“负贡献的量与质”积累到一定程度,并在错误的舆论导向煽动下(即相当于增加社会动乱的“助燃剂”),将会形成一定的人口数量密度和地理空间规模,使社会稳定程度逐渐降低并逼近于发生动乱的I临界阈值。此时,只要在某一“突发导火线”(即出现了社会动乱的“点火温度”)的刺激下,即可发生“社会失衡(不稳)、社会失序(动乱)或社会失控(暴乱)”直至“社会崩溃”。

2.1.3社会激波理论

激波是气体高速运动过程中最重要的现象之一。它是气体受到强烈压缩后产生的强压缩波,也叫强间断面,这种很薄的间断称之为激波(支启军,2003)。在这一薄层中,速度、温度和压强等物理量迅速地从波前值变化到波后值,速度梯度、压强梯度和温度梯度都很大。因此,激波理论中并不十分关注于波内流动情况,而只需知道物理量通过激波后的变化即可。

目前,多有借用激波理论的思想以解决社会问题,特别是具有波动现象的复杂问题,如在车流、人群流动等方面的应用。在人群拥挤时,可将其视为一连续介质,人群中产生的任何扰动(直接表现为密度的变化)都将以波的形式在人群中传播,同时由于人群中个体间的差异,导致波发生非线性畸变,最后可能导致激波的产生,即拥挤事故。

“社会激波理论”作为社会物理学中三大理论之一,用以描述社会动乱的时空形式,常用的仿真建模的方法和技术有Ising(铁磁)模型、Sznajd(传教士、Deffuant(谈判者)和Krarise&Hegselmann(机会主义者)模型,以及谣言扩散模型、银行破产模型和蒙特卡洛模型等。

本文则基于“社会激波理论”来说明舆论的演化模型,即在时空耦合系统中探寻舆论演化机理,包括时间上的传播演化态势以及空间上的扩散和分布规律,寻求多变动态的舆论趋势和波幅扩散的内在规律。

2.1.4社会行为熵理论

社会行为熵是社会动乱的本源。借用物理上学的“熵”的理论来解释人组成群体的行为。这一理论有如下六大规则:

人类普适的“最小努力”原则

每个人都想出很小的力气换取最大的效益,个人行为如此,国家的经济发展也是如此,都是想花最少的钱来换取最大的收益,天性自发,无法违背。

自发追寻“熵最小”原则

每个人一直处于平静状态是办不到的,如同好地方住久了也不感觉好。今天,社会主义改革开放带来这么大的成果,有的人却不满意,得到的时候偏不说好,得不到时就一味地叫嚣谩骂,实际上就是不满足于现状。这是因为人有些时候不愿意理性、平静地思考,而总是感到不满足。这也是自然人的一个天性。

自觉维系“心理平衡”原则

假如个人遭受了打击,经过别人的劝说,经过自我的反思,慢慢平静了,这将对构建和谐社会有很大的帮助。也就是说,通过说服工作能使对象自我接受、自我认知、自我体验、自我控制。

持续激发“情商共鸣”原则

“情商共鸣”是一个人只愿意接受他最为尊敬、最为崇拜或最为认可的人开导自己的某种不如意。小到社会公众、大到政府领袖,树立起榜样,其力量和作用就是无穷的。

⑸社会取向“倒u型走势”原则

多数人总是认为过去好,一直推到三皇五帝,那个时候的人好像是最好的;再者就是未来好,像共产主义、大同世界这个大家也都认同,于是乎,就是觉得现在所处的社会有点不大对头,且觉得别人都好而自己不好。这是社会整体走势,这种现象就是“倒U型走势”。

⑹都希望有让别人遵守而自己可以例外的社会公约

每个人的行为,包括群体的行为都有着自己的规则。这些不同规则的共同组合,造成了希望有让别人遵守而自己可以例外的社会公约。

2.2信息传播动力学

信息传播是真实世界的普遍现象,对信息传播过程的研究,有助于分析信息流动的内在机制,预测信息的扩散范围,并进一步找到促进或抑制信息传播的措施。信息传播模型能使用平均场进行分析,从而得到解析的表达式。信息传播的研究方法和手段同样也能应用到互联网的舆论传播研究工作中。

社会物理学包含了社会科学的多个内容,阐述了社会网络、语言进化、人口动力学、疾病传播、恐怖主义、票选和联盟形成等许多不同问题。而信息传播动力学在所有研究主题中渐渐成为主流。此外,舆论如今成为现代社会的一个重要焦点,了解它的内在机制是我们面对的重大挑战。关于该领域的任何进展都可以对全球面临的敏感问题的处理方法产生巨大影响。征对信息传播动力学模型举出下面的一个例子。

研究舆论现象的方法依赖于一些简单假设,并发现了一系列令人震惊和强有力的结论。特别地,我们发现信息传播形成的动力学机制遵循一些流,这些流的方向由相互对立观点的初始支持和阈值所决定。大多数模型都会服从这样的阈值动力学。事实上,这些都属于单一概率序列机制的范畴。

值得一提的是,在2005年,使用社会物理学模型首次预测了一个令人难以置信的政治票选结果。不同于其他民意调查的分析预测,得出的结论比实际的票选结果公布13期提前了好几个月。该模型处理少数人观点在公众讨论中传播的动力学机制时使用了两状态变量系统。它可以应用于许多大范围的议题,这其中包括如法国票选的全民投票、吸烟与禁烟的行为改变、伊拉克战争这种对军事行动的支持或反对、法国关于“9·11”事件的谣言,以及改革建议等。

两状态变量模型研究公众观点如何从公众讨论中形成。agents是活动的,根据每个agents都只持一个观点的原则在小组中进行讨论,每次讨论结束后根据局部多数规则来改变自己的观点。相关的动力学机制就是由这些局部观点的反复更新而驱动。小组人数为偶数时可能会出现平局,即持相对观点的人数各占50%。根据agents的共同信念来选择要支持的观点可以解决该问题。最终舆论形成是带有分隔值口。ac,r的阈值动力学过程,ac,r决定了朝吸引子aA或者aB的流动方向,并能够保证观点A或观点B分别取得可以获胜的多数优势。当所有的agents都是流动的,两个吸引子都只持一个观点且aA=1,aB=0,通过公众讨论后在所有人中只会产生一种观点。

如果对观点A的初始支持at>ac,r,那么存在朝向观点A的n次连续更新,使得at+1<at+2<⋯<at+n≈aA。相反地,如果at<ac,r,那么就会产生一个递减序列,使得at+1>at+2>⋯>at+n≈aB,并且m≠n。m,n都是可以通过计算求得的整数。取任意小的值,将在阈值ac,r处分叉。

对于奇数大小的讨论组,ac,r=1/2,偶数大小的讨论组允许在疑问中达成平局。针对疑问,集体信念被激发,从而产生支持其中某个观点的局部偏见。这个偏见使得ac,r的取值介于0和1之间,它依赖于持两类观点人群的群体信念分布和局部更新组的大小。当ac,r<1/2时,相关动力学机制使得少数人意见得到传播。

在ac,r=1/2,不存在平局的情况下,我们研究异构agents,如持相反意见的agents和信念的坚定agents,而不是意见流动agents所产生的效果。研究发现,它们都对舆论动力学理论有重要影响。

持相反意见者指改变自己的立场故意反对局部多数人的意见,而从不考虑多数人的意见的agents。他们使得多数人意见和少数人意见在很低密度下能够稳定共存,即aA≠1,aB≠0,ac,r保持1/2不变。然而,除了一些关键值外,这将会减小动力学阈值。一种唯一的情况是血aA=aB=ac,r=12会驱动动力学机制。无论初始条件是什么,通过公众讨论都会使群体意见稳定在50%支持观点A和50%支持观点B上。阈值消除这种出人意料的机制被用于解释著名的2000年布什—戈尔的美国总统大选。随后,它又预测各自拥有50%选民的情况会再次发生,而且经常发生在民主制国家选举中,比如德国、意大利、墨西哥。民意调查的结果显示,大多数层次上,持相反意见者能控制全局而非局部。在50%附近,这就引起了混乱行为。

信念坚定的agents在小组讨论中是绝不改变立场的,他们产生的效果和持相反意见的agents产生的效果相似,但是由于坚持观点A和观点B意见者的密度不同,于是产生的效果也是不对称的。特别地,当坚持己见者持有一种观点时,他们让其观点变得确信无疑,从而赢得全部人的支持。相对于拥有绝大多数支持者的另一种观点,即使只有密度很低的坚持己见者支持这种观点,通过讨论将会扭转该比例,最终使得所有人都接受只有少部分坚持己见者所持有的观点。

因此,自由公开讨论所期待的民主特色也许会成为一台“独裁”机器,用于传播少部分人的观点而不是传播初始时绝大多数人所持有的观点。它也许能够为全球变暖现象的一些社会观点带来全新的和反直觉的想法。

2.3舆论演化模型

舆论演进模型是社会物理学家在社会学研究成果的基础上,使用统计物理的方法对观点交互过程的建模。舆论演进过程的研究致力于回答两个主要问题:观点交互过程将最终导致怎样的系统状态;群体中的观点将在何时出现重大相变或转折,何种条件将导致这些突变的出现。第一个问题试图描述舆论演化过程中的宏观状态,是研究舆论演进趋势预测的基础。第二个问题挖掘观点演化过程中的关键因素,找到这些因素对舆论演化过程及演进速度的影响,研究结果有助于舆论引导策略的分析。舆论演进模型假定在有限尺度的群体中,个体持有对某一社会、经济事件等话题的观点。个体就该话题与邻居进行交互,努力劝说对方采纳自己的意见。个体的观点在初始时混合均匀,在更新进程中个体依据预先定义的规则交换意见。动力学模型使用统计物理方法来建立微观个体交互情绪表达与系统宏观状态之间的桥梁。最终,群体观点可能演化到一致意见、极化或者破碎状态。

2.3.1舆论波及其波动律

舆论是一种表层意识的传播,呈现上下起伏状态,由于人们接受意见的快慢和能力等区别,出现了不同的反应强度,这种因传播强弱造成的落差,可以感受到如同一种波状的起伏,这种动势就被称为“舆论波”。

舆论波以非线性形式向四周扩展,使一定范围的公众卷入舆论。舆论传播的强弱落差可以被感知和测度,反应强烈的地区处于舆论的波峰,反应微弱的地区则处于舆论的波谷。舆论波是民心波动的再现,由舆论中心向外震荡起伏地扩展。舆论波通常以连续的冲击方式蔓延,在一定社会环境中回旋、共振,不同的舆论波之间相互抵消或叠加,最终形成一种合力。舆论波表现为社会的冲击力,在时空中时急时缓、忽高忽低地波动,使舆论定势更曲折、更复杂(刘建明等,2009)。j

舆论波包括意见波和行为波两种,表现为集合意识高涨的不同程度和不同方式。在通常情况下,人们运用语言,通过议论、讲演、游说、新闻报道等表达意见。当人们由于强烈的愤恨或过度不满时,便采取各种行动来表达意向,构成行为舆论波。本文的第四节,在阐述舆论形成的过程中,亦表达了在舆论形成的临界阈值点,行为舆论波的形成,即群体性突发事件的发生,是舆论演化的更高级形式。

我国多位学者对舆论波有着或多或少的研究,.认为这为追寻舆论流动源头与流向提供了思路。其中,清华大学刘建明教授根据舆论产生后的波动方向提出了舆论波动律,包括“中心辐射律”、“遍地涌动律”、“两点呼应律”和“多波振荡律”四种,具体论述如下:

(1)“中心辐射律”:舆论的传播以舆论中心为轴,向四面八方传递,围绕舆论中心形成由近及远的波涛气势,称为舆论中心辐射律。辐射律打破了信息传递的线性模式,是舆论传播的普遍规律。

(2)“遍地涌动律”:舆论不是受中心地带的意见刺激,而是各地公众由于同一种舆论客体(某一社会现象或问题)形成的,构成了舆论的遍地涌动律。社会问题一般具有普遍性,所以由这一现象或问题所引发的舆论波往往遵循着遍地涌动律。

(3)“两点呼应律”:一些舆论的客体仅涉及两个(或限于几个)舆论主体的关系或利益,更在这两点或几点范围内产生呼应性的舆论,他们之间进行着舆论的立动。

(4)“多波振荡律”:舆论传播的多渠道互补性和其性质的不断改变构成了多波振荡律。当人们的利益、兴趣和志向等相近时,在各种舆论传播渠道的相互借助下产生明显、快速的激荡效果,以致引起舆论激化的态势。

2.3.2舆论演化过程中的“三从”行为

从舆论形成及其演化过程中梳理和剖析社会公众的行为特点,可归纳为“从众”、“从上”和“从利”。“从众”行为多取决于人的心理层面,即惧怕孤独、愿意“少数服从多数”;“从上”行为涉及人的道德观,无论是从权(权力)还是从望(威望),人们,特别是中国人,受到几千年文化遗留下来的思想,不愿意冲破道德的束缚且“官本位”思想严重,容易“从上”;“从利”行为则受人的价值观驱动,在利益面前,人们的言行往往会朝着自己受益的方向摆动。因此,“三从”行为是建立舆论形成及其演化仿真规则的重要依据。

(1)“从众”行为

从众,是指他人从事某一活动时自己也去从事这一活动,按群体中多数人的意见行事,自己不另搞一套。社会心理学指出,个体在群体中常常会不知不觉地受到群体的压力,从而在知觉、判断、信仰以及行为方面,表现出与群体中多数人一致的行为倾向,这就是从众现象,或称为从众行为。

舆论在形成和演化过程中具有整合功能,暗示了“共识”和“一致”的意义。基于此,德国社会学家诺尔纽曼提出了“沉默的螺旋”(thespiralofsilence)理论,认为人具有社会天性,为防止交往中的孤立,总是寻求与周围关系的和谐。这样就形成一种“沉默的螺旋”现象:当人们感觉到自己的意见属于“多数”或“优势”时,便倾向于积极发表言论;反之,则会因防止自己被孤立而保持“沉默”。这种过程会激发出人的从众行为,结果则是原有优势的一方越来越强大,而沉默方会越来越无生气。

(2)“从上”行为

从上,又叫遵从,是指在他人的要求或权威影响下的服从行为。从上行为包括“从权”和“从望”两种类型。从权多指分布着等级性的“舆论场”中,舆论的主体,即社会公众受到的权力制约。它不以被控者的接受为前提,不论被控者情愿与否(当然思想上自愿接受更好),都必须接受这种制约,遵从这种约束,并在其约束下行使自己的权力。这种接受和遵从一般是无条件的,即使被控者有所不愿,甚至持相反的意见,也只能依从其制约,否则就会受到权力的制裁。从望行为与从权行为的不同之处在于,社会民众不具有强制的服从性。从望多指那些有威望的人自觉地吸引着社会大众的行为选择,在舆论演化过程中,这些人被称为“舆论领袖”,具有榜样的力量。

(3)“从利”行为

从利,是指人们外在的利益驱动及偏好选择和内在的价值取向与认知情感。由于舆论客体的多样性,涉及社会舆论主体的层次广泛,其主动性,即趋利倾向往往在舆论演化过程中扮演着主导作用。

“从利”行为之所以重要,是因为针对同一个舆论客体(社会现象或问题),其舆论主体(社会公众)由国家管理者的冲突所决定的。所谓和谐,是指各种力量在交互作用的运动中,形成的一种相互制约、相互促进、相互牵制的平衡状态。针对于舆论主体和国家管理者之间,基于“从利”行为的舆论就是一把双刃剑。从国家管理者角度,舆论的监督和调控可多从社会公众的利益导向人手;而新闻媒体作为国家管理者的舆论宣传工具,若谋取或包庇当权者的非正当利益,或触及和不顾社会民众的正常利益必将引起民众的舆论或过激行为。

2.3.4舆论演化的概念建模

假设:有N个舆论主体,个体i的意见表达为σi,其中i=1,2,⋯,N。

定义1:舆论演化的三要素涉及{σi:社会公众的行为选择;E:舆论的环境;t:舆论演化的时间},表达如下:

Y=Fσ,E;t

其中,Y是围绕着发生的社会现象或事件的舆论演化度。

定义2:社会公众的行为选择包括{S:个体偏好选择;S‘:个体间的相互影响},表达如下:

σ=f(S,S‘)

定义3:社会个体行为偏好选择基于{c:“从众”行为;p:“从上”行为;r:“从理”行为;l:“从利”行为},表达如下:

S=ψc,p,r,l

其中,个体i在上述几种行为的影响下,t时刻和t+1时刻之问会形成自己在舆论演化过程中坚持原有意见的能力。

舆论演化或传播是每个个体的不断选择或(被)说服的过程,最终表现形式是群体(或部分群体)行为的一致性。因此,可借用万有引力定律的思想,以体现个体间在t时刻和t+l时刻的交互影响下的行为变化。具体表达如下:

S'=j=1Nkσi∙σjdijα

其中,k是常系数;dijα表示个体i和个体j的距离;σi∙σj描述个体i和个体j之间的一致性。,

若σi∙σj>0则个体i和个体j意见一致,个体i持有原有意见;

若σi∙σj<0则个体i和个体j意见相左,则:

当S+S'>0时,个体i仍能持有原有意见;

当S+S'<0时,个体i改变原有意见。

定义4:舆论的环境有{E。:外部环境;E,:内部环境},表达如下:

E=φEE,EI

其中,外部环境包括相关的法律法规、媒体导向等;内部环境涉及已有的约定俗成或宗教信仰等。

舆论的内外在环境在舆论的形成及其演化过程中起着至关重要的作用。2003年的SARS事件,初期由于信息渠道的不统一、不畅通、不确定,致使社会公众对自己的生存环境表示担忧、焦虑,甚至恐慌。据严三九、徐晖明等的调查结果显示:SARS初期,广州市民对该疾病的传言,有56.1%的人半信半疑,有20.3%的人确信不疑,基本不信和毫不相信的人分别占10%和7.9%,两者之和低于确信不疑的人。人们基本盲目地“从众”跟风,发布谣言,被谣言所迷惑,在此期间的人际互动过程中,谣言压倒性地占据了多数意见,人们更加坚信谣言。之后经有关部门的多方努力和主流媒体的多次辟谣的报道,逐步树立了良好的舆论环境,纠正了舆论的导向,社会公众渐渐趋于理性,可以“从理”、“从上”的看待问题,使谣言最终破灭。

2.3.5舆论演化的建模仿真

舆论的演化过程是基于个体在意见“场”中的不断选择,最终表征为群体行为的涌现。研究这类复杂问题或者非结构问题,建模是一种基本的手段。综合集成方法强调复杂问题求解或者复杂系统建模需要有多种视角,力求形成对问题的较为完整的想定。根据R.L.Aekoff等(1968)所提出的建模基本原则,以及近年来复杂系统研究所采用的各种方法,顾基发等(2007)总结了以下6种建模策略和方法:

(1)基于机理的建模,如计量经济模型和投入产出模型。

(2)基于类比的建模,如基于案例的推理分析等。

(3)基于规则的建模,典型的如复杂适应系统理论中的基于主体的建模。

(4)基于数据的建模,如各种统计模型、系统重构模型等。

(5)基于演化的建模,如系统演化模型等。

(6)基于学习的建模(modelingbylearning),如基于数据挖掘和知识发现的各种模型、人工神经网络模型等。

第三章关键技术

互联网用户情绪表达研究的主要目标是在主题发现和追踪技术的基础上,通过自动发现和深入分析的方式综合展现当前的互联网用户的情绪倾向,其主要研究内容包括:特点舆情热点的自动发现、关键词和摘要提取、互联网用户对特定舆情情绪的倾向性分析、传播分析、互联网用户情绪趋势分析和关联分析等。

3.1舆情热点的自动发现

舆情热点自动发现是基于主题检测技术帮助人们应对信息过载问题的研究,以新闻、论坛、博客等媒体网页作为处理对象,自动发现新出现的舆情热点,并将涉及某个热点的报道组织起来以某种方式呈现给用户。其目标是要实现按热点查找、组织和利用来自多种信息源的多语言信息。本技术可以提高舆情监测的综合性,实现对多种来源、多种形式舆情的综合性分析和监测能力,为全面掌握新闻、论坛、博客等各种网络传播媒介的舆情热点、传播动向、趋势分析等提供基础,从而提高舆情监测的全面性和精确性。

世界各国普遍重视网络热点信息发现、网络信息形成传播机制等方面研究的关键技术。目前关于网络舆情热点的研究主要如下两个方向:

一是基于自然语言处理技术——词频统计方式的研究,涉及的技术有未登录词的识别、中英文分词。针对快速发现热点话题的问题,参考文献[8]对日本最大的BBS系统进行了分类研究,基于BBS的共享目标(SharedGoals)、信息互惠(Reciprocity)、共享环境(SharedContext)等多种度量指标,提出了使用多维向量来度量话题活性的话题活性测量方法。这种研究方法无法对大量的话题在不基于历史信息的情况下,快速发现讨论热点,均具有较长的时间滞后性或较高的计算复杂度。

二是从数据挖掘的角度考虑热点信息的发现,利用复杂网络的特性对信息进行分类和聚类。热点发现算法本质上来说是属于数据挖掘中的文本聚类算法,发现热点的质量与文本聚类算法本身的特性以及算法应用中的各种阈值的设置是密切相关的。因为传统的文档聚类需要很多的参数,而没有有效的方法调整这些参数,并且在热点话题的识别中没有先验知识来构造一个好的排序函数来对话题排序,且还很难决定话题热的阶段,中国香港中文大学的GabrielPui和CheongFung提出了参数自由的热点话题识别方法。这种方法通过特征分布确定某一个时间单元热的特征单元,然后把这些特征分组成热的话题,并根据特征的时间窗口确定话题热的阶段。北京邮电大学的罗亚平、王枞等认为传统的网络热点话题发现方法仅仅考虑了媒体关注度对形成热点话题的影响,忽视了热点话题的产生与社会大众的关注有密切关系,进而提出基于话题关注度和用户浏览行为的热点话题发现模型,但这种模型中的相关参数很难获取。

另外,识别出热点话题后,如何对它们进行描述也是热点话题发现的一个研究重点。在话题的显示方面,国内外没有相关的研究,但是可以改进TDT和信息提取中的相关研究方法。

3.2舆情热点的关键词和摘要提取

舆情热点的关键词和摘要提取就是自动对舆情热点的文档集合摘取精要或要点,其目的是通过对原文本进行压缩、提炼,为用户提供简明扼要的内容描述。而关键词和摘要都是描述一篇文章或一个文章集主要内容的重要部分,不同之处在于摘要中提供的是语义连贯的句子,而关键词抽取的是彼此独立的词汇。本技术可以为文档或文档集生成高质量的关键词或摘要,方便用户浏览检索结果或文档集合,了解文档或文档集内容。人们希望从海量文本中快速准确地获得自己感兴趣的内容,这是信息检索领域目前迫切需要解决的问题。然而现在的信息检索系统只能提供给用户检索到的文档全文,因此,人们提出了通过关键词和摘要为用户提供简明扼要的内容描述。关键词是简要描述一篇文档内容的重要元数据,用户可以通过关键词迅速了解文档的内容,从而判断文档是否是自己感兴趣的话题。自动关键词技术不但可以满足应用需求,而且是其他方向研究的基础,为改进其他工作的质量起到了很大的作用。例如关键词提取是文本信息检索技术的基础,文本信息检索技术利用每篇文档中的关键词形成对文档的索引,然后根据这些索引检索出满足条件的文档。因此,形成一个有效、正确描述文档的索引是文本信息检索的关键,而这些索引的来源正是从文档中提取出来的关键词。

同关键词一样,摘要也是描述一篇文档主要内容的重要部分,不同的是摘要中提供的是语义连贯的句子,而不是彼此独立的词汇。根据处理的文档的维度(Dimension),摘要可以分为单文档摘要和多文档摘要:单文档摘要只对单篇文档生成摘要,而多文档摘要则对一个文档集生成摘要。根据摘要所采用的方法,一般情况下,自动摘要技术大致可分为基于统计的摘录式摘要和基于意义的理解式摘要两类方法。其中这两类方法的处理对象都可以是单文档或是多文档,实现技术也可以是有指导的或是无指导的。基于统计的摘录式摘要,也称机械摘要,最终摘要的内容完全是原文档内容的部分拷贝。基于统计的机械文摘是将文本看作句子的线性序列而将句子视为词的线性序列,通过利用一些统计学方法和语言学特征进行文摘的生成,主要是根据线索词词典、词频、词和句子的启发函数进行模式匹配提取摘要。目前,摘录式摘要基本上是以句子为提取单元的,因为基于句子的提取方法尽管可能会使句间存在不连贯,但句子本身是保持一致性和连贯性的;基于段落的提取会造成提取出的摘要冗余度较大,并且摘要的长度难以控制。基于意义的理解式摘要,主要是利用自然语言处理技术对文档进行浅层或深层的理解,用句法和语义知识、一阶谓词逻辑等理论对文章的内容在理解的基础上,对其中的词项、句子进行重组或替代来形成摘要。基于意义的理解文摘在过程中模仿了人工摘要的过程,应用了词、句、段及篇章的知识,因而使生成的文摘具有一定的连贯性和语句完整性,可读性高。但它需要较成熟的人工智能技术和大型的专家知识库,对文章进行深层的句法和语义分析,因而只能应用到某些特定题材的、文体和内容具有相当可预见性的文章中,文摘质量并不十分令人满意。

3.3互联网用户情绪的倾向性分析

由于网络的虚拟性和匿名性,使得网络文本内容在大多数情况下真实地表达出了民众的态度或情绪,通过倾向性分析可以明确网络传播者的意图和倾向。通俗地说,文本舆情描述的是文本所传递的情感。对文本舆情进行分析,实际上就是试图根据文本的内容提炼出作者的情感方向。舆情热点的倾向性分析是指对热点内的文档或回复信息进行倾向性分析,通过分析文本内的褒义词和贬义词并结合上下文进行语境分析,或者通过基于机器学习的倾向性分析算法,从而计算出文档或回复的倾向性因素。在得到倾向性因素的同时,可以加权给出每篇文档的倾向性因素度量值,再按时间统计出该热点的倾向性指标的总体变化以及某一段时间范围内的倾向性指标增量。当倾向性指标超出某一安全范围时可以给出提示信息,用于舆情信息的提前预警。

近几年,基于文本的互联网用户情绪倾向性分析的研究逐渐成为国内外研究者的一个热点。互联网用户情绪倾向性分析指通过计算机技术自动分析文本信息所包含的情感因素,倾向性分析是一门交叉学科,涉及自然语言处理、机器学习、文本挖掘、人工智能、语言学等诸多领域。与以前传统的人工处理方式相比,通过计算机自动提取大众对某一问题的看法或舆论倾向是一个新的实时收集和分析信息的方法。它的优势如下:可以高效的处理信息,从而能够应对互联网上日益泛滥的海量数据;可以处理非结构化的文本数据,拓展了数据挖掘的处理对象。正是由于情感自动分析的这些优势,它有着众多的潜在应用领域。

至今为止,国内外所从事的网络文本倾向性分析研究工作可归纳为以下几个方面:

(1)客观性分类:从Web上获取的评论文档按照类型和风格的不同区分为主观和客观两类,这类工作以Finn等人为代表,其结论是基于词性标注的特征选择方法比词袋方法效果好。Wiebe等人对人工标注的语料从短语、句子和篇章层次进行研究,发现对于不同的标注者,其主观性的判别有较大差异。

(2)词的极性判别:即通过分析带有语气渊的特征来判断词的极性。Hatzivassiloglou和McKeown使用关联词(如公平并合法,简单却受欢迎)来区分含义相近或相反的词。Turney和Littman提出了一种方法,他们使用AltaVista中的NEAR运算从Web上搜索得到两个词同时出现的次数,以此来决定两个词的相似程度,一个新词归属于正面语气还是负面语气,取决于它和手工选择的正面(或负面)种子词集合中所有词的关系,这类工作和常规的词聚类问题有一定的关联。Lin和Pereira等人使用语言学同位关系把用法和意义相似的词进行了归类。

(3)语气分类:

①基于语气标注的方法:加拿大渥太华大学的Kennedy、加拿大国家研究委员会的Turney等提出语气词标注方法,对常用词汇进行语气标注,如(“好”标为正面,“坏”标为负面)。分类时直接统计一篇评论中的正面与负面语气词的个数,正面语气词多则判为正面,负面语气词多则判为负面,相等则判为客观。

②基于语义模式分析的方法:TetsuyaNasukawa和JeongheeYi等通过识别特定主题词和语气表达式之间的语义关系进行倾向性分析。JeongheeYi等人采用自然语言处理技术分析特定主题和语气词之间的语义关联。

③基于机器学习的方法:其思想是直接利用传统的机器学习方法来训练语气分类器。康奈尔大学的LillianLee和PangBo等人以Usenet上的电影评论作为语料进行了研究,采用了不同的特征选择方法和机器学习方法。其实验结果显示,基于presence--basedfrequency模型选择UniGrams的方法,并采用SupportVectorMachine(SVM)进行分类,能取得最好的分类结果,其准确率为82.9%。

倾向性分析面临的主要问题是目前的大部分方法和技术都和领域或话题相关,局限在某个特定领域或者关联于某个话题下进行倾向性的分析,缺乏一般性的通用技术。基于语气词标注的方法严重依赖于标注专家且不利用训练样本,其分类精度往往不如基于机器学习的方法。而基于机器学习的倾向性分析方法又取决于训练集的大小与质量,同时具有很强的领域或主题依赖性,由于已有的标注语料库的规模都很小,因而这类有监督的语气分析方法的效果仍然难以保证。基于语义模式分析的方法则受限于自然语言处理技术的不够成熟而很难实用。中文倾向性分析方面的情况则更加突出,一些基本问题尚未得到圆满的解决:

(1)各种有监督的机器学习方法在中文数据集上的语气分类效果孰优孰劣;

(2)文本特征表示方法和特征选择机制等因素对中文语气分类的性能将产生什么影响;

(3)文档集的哪些语气特征对语气分类的精度具有决定性影响等。

因此,为解决上述问题,应着重研究倾向性主客观过滤技术和观点极性、强度、情感分析判别技术:研究网络环境下倾向性特征词的特点和类型,并进行语气极性判别和标注,从而构建一个面向互联网的倾向性语气词典,建没一定规模的标准数据集,为中文倾向性分析的深入研究和公开评测提供支持。

3.4舆情热点传播动态分析

舆情热点传播动态分析的目标是利用新闻、论坛、博客等关联分析技术,实现对某个热点的传播趋势进行分析,用动态传播图的形式展现舆情传播的线索。舆情传播动态模块对同一热点的论坛帖文、博客文章、网站新闻进行基于时间的罚分策略计算关联程度分析,以传播网的形式给出同一主题在不同媒介之间的传播关系,结合关注程度分析得出热点的转移趋势,并以平面图、传播动画示意图展现给用户。

3.5舆情热点的趋势分析和关联分析

舆情热点的趋势分析和关联分析是通过三维图形下的信息挖掘模型,以波谱图的方式展现一定时间周期内的舆情变化以及舆情重点和相关关系等信息。该模块通过粗细、亮暗、分叉的方式来表达同一时期的报道信息数量、关注度、趋势等,为舆情变化判断提供一定的参考。

第四章互联网用户情绪表达设计

在网络时代,互联网不仅成为人们发布信息的重要媒介,而且也是人们表达观点、情绪情感的重要工具。对于相同的事物或事件,不同的人从不同视角出发,往往对其持有不同的观点和态度。例如,对于某件产品,一些用户可能因喜欢其某方面的功能或特点而对之做正面(即褒义)评价;与此同时,另一些用户也可能因为不喜欢其某方面的功能或特点而对之做负面(即贬义)评价。这些网上产品评价信息对于产品的潜在用户和商家来说,有着巨大的实用价值。一方面,用户可以通过阅读这些产品评价信息来指导自己的购物行为;另一方面,产品的商家也可以通过了解这些用户评价来改进自己的产品和服务。

然而,用户想要全面了解互联网上对于某种事物或事件的评价无疑是一项艰难的任务。这些海量评价信息不仅在数量上难以逐一浏览,而且这些信息由于受到用户主观认识的影响,往往表现出复杂多样的特点。互联网用户情绪表达中的情感倾向分析技术正是通过让计算机自动识别海量文档集合中的主观褒贬态度,以使用户从繁重的网页浏览和信息融合工作中解脱出来。

情感倾向分析技术使计算机通过对文本内容的处理,帮助区分文本内容是否为主观评价性内容,进而识别这种主观评价是褒义还是贬义。在近年来的情感倾向分析研究中,也开始关注如何识别情感评价的主体及评价对象。基于机器学习的文本分类、聚类等技术在情感倾向分析研究中得到了广泛的运用。

4.1中文信息的特征抽取

4.1.1文本信息的特征抽取和选择

文本的表示及其特征项的选取是互联网用户情绪倾向分析的一个基本问题,它把从文本中抽取山的特征词进打造化来表示文本信息。将它们从—个无结构的原始文本转化为结构化的计算机可识别处理的信息,即对文本进行科学的抽象,建立它的数学模型,用来描述和替代文木,使计算机能够通过对这种模型的计算和操作来实现对文本的识别。由于文本是非结构化的数据,要想从大量的文本中挖掘有用的信息,就必须首先将文木转化为可处理的结构化形式。

目前,人们通常采用向量空间模型来描述文本向量,但是如果直接用由分词算法和词频统计方法得到的特征项来表示文本向量中的各个维,那么这个向量的维度将是非常的大。这种未经处理的文本向量不仅给后续工作带来了巨大的计算开销,使整个处理过程的效率非常低下,而且会损害分类、聚类算法的精确性,从而使所得到的结果难以令人满意。因此,必须对文本向量做进一步净化处理,在保证原文含义的基础广,找出对文本特征类别最且代表性的文本特征。为了解决这个问题,最有效的办法就是通过特征选择来降维。

有关文本表示的研究主要集中丁文本表不模型的选掸和特征词算法的选取上。用于表示文本的基本单位通常成为文本的特征或特征项。特征项必须具备以下几种一定的特征:

①特征项要能够准确标识文本内容;

②特征项具行将目标文本与其他文本相区分的能力

③特征项的个数不能太多。

④持征项分离要比较容易实现。

在中文文本中可以采用宇、词或短语作为表示文本的特征项。相对而言,词比字具有更强的表达能力:而词和短语相比,词的区分难度比短语的区分难度小得多。因此,日前大多数中文文本分类系统都采用词作为特征项,称为特征词。

特征词作为文档的中间表示形式,用来实现文档与文档、文档与用户目标之间的相似度计算。如果把所有的词都作为特征项,那么特征向量的维数将过于巨大,从而导致计算量太大,在这样的情况下,要完成文本分类几乎是不可能的。特征抽取的主要功能是在不损伤文本核心信息的情况下尽量减少要处理的单词数,以此来降低向量空间维数,人们简化计算,提高文本处理的速度和效率。

文本特征选择对文本内容的过滤和分类、聚类处理、自动摘要,以及用户兴趣模式发现、知识发现等相关方而的研究有着非常重要的影响。通常根据某个特征评估函数计算各个特征的评分值,然后按评分值对这些特征进行排序,选取教干个评分值最高的作为特征词,这就是特征抽取。

特征选取的方式有以下4种:

①映射或变换的方法把原始特征变换为较少的新特征。

②从原始特征中挑选出一些最具代表性的特征。

③根据专家的知识挑选最有影响的特征。

④用数学的方法进行选取,找出最具分类信息的特征,这种方法是一种比较精确的方法,其受人为因素的干扰较少,尤其适合于文本自动分类挖掘系统。

4.1.2中文的语义特征抽取

(1)汉语分词

汉语是一种孤立语,不同于印欧语系的很多具有曲折变化的语言,汉语的词汇只有一种形式而没有诸如复数等变化。另一方面,汉语不存在显式(类似空格)的词边界标志,因此需要研究中文(汉语和中文对应的概念不完全一致,在不引起混淆的情况下,文本未进行明确区分而依照常用习惯选择使用)文本自动切分为词序列的中文分词技术。中文分词方法最早采用了最大匹配法,即与词表中最长的词优先匹配的方法。根据扫描语句的方向,可以分为正向最大匹配以及双向最大匹配等多种形式。

梁南元的研究结果表明,在词典完备、不借助其他知识的条件下,最大匹配法的错误切分率为169字/次~245字/次。该研究实现于1987年,以现在的条件来看当时的实验规模可能偏小,另外如何判定分词结果是否正确,也有较大的主观性。最大匹配法由于思路直观、实现简单、切分速度快等优点,所以应用较为广泛。采用最大匹配法进行分词遇到的基本问题是切分歧义的消除问题和未登录词(新词)的识别问题。

为了消除歧义,研究人员尝试了多种人工智能领域的方法:如松弛法、扩充转移网络法、短语结构文法、专家系统法、神经网络法、有限状态机方法、隐马尔科夫模型、Brill式转换法。这些分词方法从不同角度总结歧义产生的可能原因,并尝试建立歧义消除模型,也达到了一定的准确程度。然而由于这些方法未能实现对中文词的真正理解,也没有找到一个可以妥善处理各种分词相关语言现象的机制,因此目前尚没有广泛认可的完善歧义消除方法。

未登录词识别是中文分词时遇到的另一个难题,未登录词也称为新词,是指分词时所用词典中未包含的词,常见有人名、地名、机构名称等专有名词,以及相关领域的专业术语。这些词不包含在分词词典中又对分类有贡献,就需要考虑如何进行有效识别。

未登录词识别可以从统计和专家系统两个角度进行:统计方法从大规模语料中获取高频连续汉字串,作为可能的新词;专家系统方法则是从各类专有名词库中总结相关类别新词的构建特征、上下文特点等规则。当前对未登录词的识别研究,相对于歧义消除来说更不成熟。

(2)汉语亚词

在亚词级别,汉语处理也与英语存在一些不同之处,一方面,汉语中比词级别更低的文字组成部分是字,与英文中单词含有的字母数量相比偏少,词长度以2~4个字为主。对搜狗输入法中34万条词表进行统计,不同长度词所占词表比例分别为两字词35.57%,三字词33.98%,四字词27.37%,其余长度共3.08%。

另一方面,汉语包含的汉字数量远远多于英文字母数量,GB2312一1980标准共收录6763个常用汉字(GB2312—1980另有682个其他符号,GB18030—2005标准收录了27484个汉字,同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字),该标准还是属于收录汉字较少的编码标准。在实际计算中,汉语的二元模型已超过了英文中5元模型的组合数量,即67632(45738169)>265(11881376)。

因此,汉语采用n元模型就陷入了一个两难境地:n较小时(n=1),缺乏足够的语义表达能力;n较大时(n=2或3),则不仅计算困难,而且n的取值已经使得n元模型的长度达到甚至超过词的长度,又失去了英语中用于弥补错误拼写的功能。因此汉语的n元模型往往用于其他用途,在中文信息处理中,可以利用二元或三元汉字模型来进行词的统计识别,这种做法基于一个假使,即词内字串高频同现,但并不组止词的字串低频出现。

在网络内容安全中,n元模型也有重要的应用,对于不可信来源的文本可以采用二元分词方法(即二元汉字模型),例如“一二三四”的二:元分词结果为“一二”、“二三”和“三四”。这种表示方法,可以在一定程度上消除信息发布者故意利用常用分词的切分结果来躲避过滤的情况。

4.1.3特征子集选择

特征子集选择从原有输入空间,即抽取出的所有特征项的集合,选择一个子集合组成新的输入空间。输入空间也称为特征集合。选择的标准是要求这个子集尽可能完整的保留文本类别区分能力,而舍弃那些对文本分类无贡献的特征项。

机器学习领域存在多种特征选择方法,Guyon等人对特征子集选择进行了详尽讨论,分析比较了目前常用的3种特征选择方式:过滤(filter)、组合(wrappers)与嵌入(embedded)。文本分类问题由于训练样本多、特征维数高等特点,决定了在实际应用中以过滤方式为主,并且采用评级方式(SingleFeatureRanking),即对每个特征项进行单独的判断,以决定该特征项是否会保留下来,而没有考虑其他更全面的搜索方式,以降低运算量。在对所有特征项进行单独评价后,可以选择给定评价函数大于某个阈值的子集组成新的特征集合,也可以评价函数值最大的特定数量特征项来组成特征集。

特征子集选择涉及文本中的定量信息,一些相关参数定义如表4-1所示。

表4-1文档及特征项各参数含义

N

训练样本数

nci

ci类别包含的训练样本数

n(t)

包含特征项t至少一次的训练样本数

n(t)

不包含特征项t的训练样本数

nci(t)

ci类别包含特征项t至少一次的训练样本数

nci(t)

ci类别不包含特征项t的训练样本数

tf

所有训练样本中所有特征项出现的总次数

tf(t)

特征项t在所有训练样本中出现的次数

tfdj(t)

特征项t在文档dj中出现的次数

很容易可知,参数间满足如下关系:

n=i=1knci

表示样本总数等于各类别样本数之和。

nt=i=1knci(t)

表示只包含任一特征项t的样本集合,也满足类似关系。

n=nt+n(t)

表示nt和nt互补。

nci=ncit+nci(t)

表示这种关系也适用于任意给定文本类别。

tf=i=1mtfti

tft=j=1ntfdjt

分别表示tf和tf(t)的计算方法。

利用这些参数,结合统计、信息论等学科,即可进行特征子集选择。

4.1.4特征重构

特征重构以特征项集合为输入,利用对特征项的组合或转换生成新的特征集合作为输出。一方面,特征重构要求输出的特/征数量要远远少于输入的数量,以达到降维目的;另一方面,转换后的特征集合应当尽可能的保留原有类别区分能力,以实现有效分类。与特征子集选择相比较,特征重构生成的新特征项不要求对应原有的特征项,新特征顶可以是内原米单个或多个特征项经某种映射关系转换而成的。这种转换规则需要保存下来,以便于对新的样本也进行同样的转换,以得到这样本所对应特征重构情况的表木形式。

特征重构有基于语义的方法,如词干与知识库方法:也有基于统计等数学方法,如潜在语义索引。

4.1.5向量生成

向量生成将给文字特征项赋予合适的权重,与向量生成相关的一些参数定义:设共有m项t1,⋯tm特征,对给定样本d,有每一个特征出现的频率次数组成特征频率向量DTF=TFDt1,⋯,TFDtmT,其中TFDti表示ti在样本d中出现的次数,向量生成环节在此基础上的权重向量d=wd,t1,⋯,wd,tmT

一个样本中某些特征项的权重由局部系数、全局系数和正规化系数3部分组成。

wd,t=w1(d,t)wgtwnd

4.2基于粒网络生成规则的文本情感识别

基于粒计算的文本情感识别模型分为以下两个模块:

4.2.1文本预处理模块

用于对情感文本训练集进行预处理,包括提取情感候选词、特征词提取、文本向量表示。首先将260篇训练文本用中科院中文分词系统ICT—CLAS分词。

(1)提取情感候选词。传统的基于主题的文本分类是以文本训练集作为输入,由于在文本情感分类中具有情感倾向的词具有主导作用,所以GRCSC模型加入了知网的HowNet正面情感词库、负面情感词库、正面评价词库、负面评价词库作为输入,提取情感文本训练集中的情感词和评价词作为特征选择的候选特征词。

本文用谭松波公开的文本情感分类的语料中随机选取了260篇作为训练集。首先提取候选特征词211个。

表4-2和表4-3是部分候选词。

表4-2部分正面候选词

候选词

条件阈值

候选词

条件阈值

候选词

条件阈值

便利

0

0.9575

星级

1

喜欢

0

优雅

0

便宜

0.9183

0.8708

需要

0.9709

热情

0.6500

满意

0.7982

周到

0

快捷

0

0.7982

实惠

0

一流

0

免费

0.9457

1

惊喜

0

礼貌

0

0.994

整洁

0

舒适

0

0.9886

简单

0.7219

高级

0

豪华

1

齐全

0.8112

1

清洁

0

合适

0

表4-3部分负面候选词

候选词

条件阈值

候选词

条件阈值

候选词

条件阈值

冷冰冰

0

0.5983

小气

0

虚假

0

0.8116

破旧

0

陈旧

0.4537

失望

0.8812

简陋

0

肮脏

0

0

0.9877

0.8823

后悔

0

0.6500

惨痛

0

后怕

0

气愤

0

投诉

0

不行

0.9183

1

0.9984

勉强

1

冷淡

0

糟糕

0

蛮横

0

0.997

岂有此理

0

简单

0.7219

脏兮兮

0

一塌糊涂

0

惨不忍睹

0

担心

1

(2)在候选词中提取特征词。相对目前的文本情感分类在训练集中进中提取到候选特征词后,会有一些对文本分类不重要的特征词被提取出来。如“便宜”这个词,如两个评论文本:

句1:这个酒店环境差、位置偏、设备陈旧,所以价格便宜。

句2:这个酒店的服务态度好,而且价格便宜。

在句1中有特征词“便宜”,文本的极性是“neg”;句2中特征词也有“便宜”,而文本的极性是“pos”。

HowNet是一个情感词倾向性标注的标准,具有分布面广、收录全的优点,不过根据它提取的特征词并一定适用专业领域的评价文本,如“便宜”、“要”,“想”,“老”,“闹”,“免费”等这些词,这些提取出来的特征词对分类的影响不大。所以要对这些候选特征词做二次提取。

《基于多重标记CRF的句子情感分析研究》中指出,总体上,对于文本情感倾向分类,信息增益优于其他特征选择方法。所以本书用信息增益的方法对候选特征进行二次提取,得到最终的分类特征集。

信息增益(InformationGain)是其包含信息量的度量,是一种比较好的特征项抽取方法,一般用熵来表示。对没有先验知识的待聚类文本进行特征项抽取,词条tk。对待聚类文本的信息增益为IGtk为:

IGtk=HD-HD|tk

其中文本集合D的信息熵为:

HD=-di∈DPdi×log2Pdi

词条tk的条件熵:

HD|tk=-di∈D(Pdi|tk×log2Pdi|tk)

IGtk反映了tk所包含的信息量。将IGtk由大到小排序,由排序的结果我们可以设置阈值,做截断处理,排在前面对应的上下文候选特征词最终取得列选特征的资格。Pdi|tk分布越均匀,它提供的不确定信息越大;相反,如果概率分布越集中,它提供的不确定性信息越小。对于分类或聚类来说,这种不确定性的信息还是越小越好。即IGtk的取值越大,这个词所包含的信息量也越大,对分类或聚类能够提供的信息也越多,选择这个词作为特征词,对分类或聚类的不确定性就越小。

本文中我们选择信息增益(InformationGain)的特征项抽取方法。

表4-4是按信息增益特征词排序结果,设置截断,选择85个特征词最终生成文本向量表示。

表4-4特征词信息增益排序

特征词

信息增益

特征词

信息增益

0.1057

表扬

0.0195

不错

0.0736

整洁

0.0195

周到

0.0341

投诉

0.0195

温馨

0.0235

满意

0.0195

简陋

0.0235

满意

0.1822

0.0235

实惠

0.1556

糟糕

0.0235

便利

0.1556

陈旧

0.0475

一流

0.1556

(3)文本的向量表示。B.Pang在文献指出布尔型概率估算在文本情感分类中优于词频型特征概率估算。本文用布尔型向量表示训练文本集。

Vd=ωt1,ωt2,ωt3,⋯,ωtn

Wtn=0,1

4.2.2粒网络生成规则模块

(1)粒网络建立模块。根据文本向量逐层建立粒网络,直到产生全部粒网络。

(2)根据粒网络提取规则。图4—4是粒网络生成规则的文本情感分类模型。

图4—4粒网络生成规则的文本情感分类模型

图4-5是陈旧=1的基本粒引出的粒网络的分支。因为语料都是短小的一两句话的评价,并且算法是基于覆盖的,所以产生的规则都是四个公式以内的短规则。

图4-5陈旧=1的基本粒引出的粒网络的分支

4.2.3对测试集应用规则得到分类结果并评价

正确率定义如下:

Accuracy=A+DA+D+B+C

其中,A正面文本正确分类情况;D代表了负面文本正确分类的情况;B代表正面文本错误分类情况;C则代表了负面文本错误分类的情况。

通过对78个测试集应用规则实验,分类结果如下:

A=23

D=29

第五章互联网用户情绪表达实现

互联网用户情绪的体现,最基本的要做到分析互联网文本信息,对互联网用户用文本表达情感识别又叫做文本倾向性分析,基本的目标就是实现区分出正面、负面或者中性,这叫做极性分类。可以按好恶程度分出更多的级别,例如,1~5星级,这叫做星级评分。

对互联网用户情绪的识别,例如对某个电影或酒店的评论自动分类出极性或者星级,这样区分出好评和差评。也许想进一步对好在哪里、差在何处做更细致的分析,所以出现了更细粒度的基于特征的情感识别,例如区分出对手机屏幕或者照相机画质的评价。为了准确地识别级性,可以考虑对文本的主客观语句分类,提取出n个最主观的句子来概括整个评论的褒贬倾向。从技术上来说,就是从主客观混合文本语料中抽取表示主观性的文本。

为了实现基于特征的情感识别,需要从上下文提取出评价的对象。需要提取描述对象的特征,然后判断倾向性描述在每个特征上的极性。“特征”一词在这里既表示描述对象的组成也表示属性。

特征抽取是获得关于主题某一方面的具体描述,如汽车的油耗与操控性、数码相机的电池寿命口和信息抽取相比,情感分析中的特征抽取更加自由,因为获得的结果不要求是结构化的。在某些应用中,特征抽取比情感取向判断更加重要,因为需要关注用户的具体意见。例如对某款照相机的评价统计:

照相机:

褒义:125<独立的评价句子>

贬义:7<独立的评价句子>

特征:画质

衰义:123<独立的评价句子>

贬义:6<独立的评价句子>

特征:大小

褒义:82<独立的评价句子>

贬义:10独立的评价句子>

对事物的观点有直接观点和对比观点两种。

直接观点:例如,这款相机的画质的确有点烂。

对比观点:例如,这款相机的画质比camera-x好。进行这类情感分析时,首先要确定观点的目标对象是谁。在这个例子中需要用到指代消解确定这款相机指哪款照相机。

有时候,作者将情绪和事实一起来表达,如“3寸的液晶显示屏取景非常细致清晰”。用户的所表达的情绪和具体的特征是分不开的。

除了这些经典的问题外,在针对社会媒体的情感分析中,我们面临更多的挑战。例如,并非所有的与主题相关的用户为中心的内容都是重要的,只有其中少部分引起关注和讨论,甚至进而影响其他用户的观念和行为。因此,评估它们的影响力和预测它们是否

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论