基于Multi-Agent的社会网络文体分类方法_第1页
基于Multi-Agent的社会网络文体分类方法_第2页
基于Multi-Agent的社会网络文体分类方法_第3页
基于Multi-Agent的社会网络文体分类方法_第4页
基于Multi-Agent的社会网络文体分类方法_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PAGEPAGE6基于Multi-Agent理论的社会网络文体分类方法基金项目:国家自然科学基金(61003112);安徽省高校省级自然科学研究重点项目(KJ2011A048).作者简介:王杨(1971-),男,博士,教授,研究方向:社会网络、智能Agent、数据挖掘、机器学习文菡1,王杨1,2(1.安徽师范大学数学计算机学院安徽芜湖241000)(2.中国科学技术大学计算机学院安徽合肥237002)关键词:社会网络,文体识别、Multi-Agent,文体分类摘要:由于当前社会网络中的文体分类存在提取困难、缺乏分类方法等问题,很多传统的分类方法在对于社会网络文体的分类上并没有很好的效果。根据中文网络文体的特点,以一种新的概念来代替传统的分类做法,与传统的方法不同,论文从特征提取的角度提出了一种基于Multi-agent的属性融合和词库关联的网络文体分类方法。首先利用中国科学院计算技术研究所的ICTCLAS系统平台所提供的句法语义处理模块及语料资源,直接提取网络文体的特征关键词和词义等基本属性;然后利用智能Agent理论中的语义特征描述方法,建立基于支持向量机的网络文体识别方法。通过与传统方法的比较实验,证明本文提出的(基于Multi-agent的)网络文体识别方法能有效地提高文本分类正确率,同时方法简便,效果良好。中图分类号:TP391文献标识码:A文章编号:SocialnetworkstyleclassificationmethodBasedonMulti-AgentWenHan2,WangYang1,2(1.SchoolofMathematicsComputerScience,AnhuiNormalUniversity,Wuhu,Anhui241000,China;(2.SchoolofComputerScienceandtechnology,UniversityofscienceandtechnologyofChina,Wuhu,Anhui241000,China)E-mail:wycap@Abstract:Becausethestylisticclassificationandextractthedifficultiesinthecurrentsocialnetwork,theproblemsuchaslackofclassificationmethod,alotofthetraditionalclassificationmethodonthestylisticclassificationforthesocialnetworkisnotverygoodeffect.AccordingtothecharacteristicsofthenetworkinChinesestyle,withanewconceptinsteadofthetraditionalclassificationmethod,differentfromthetraditionalmethods,thepaperputforwardfromtheAngleoffeatureextractionbasedonMulti-agentofstylisticclassificationandthesaurusassociatednetworkattributefusionmethod.Firstuseofcomputingtechnology,ChineseacademyofsciencesinstituteofICTCLASsystemplatformprovidedbythesyntacticandsemanticprocessingmoduleandthecorpusresources,directextractionofnetworkbasicpropertiessuchasstylisticmeaningandcharacteristicsofkeywords;ThenusedescriptionmethodofsemanticfeaturesinthetheoryofintelligentAgentbasednetworkstylerecognitionmethodbasedonsupportvectormachine(SVM).Bycomparativeexperimentswithtraditionalmethods,provethattheproposednetworkstyle(basedontheMulti-agent)identificationmethodcaneffectivelyimprovetheaccuracyoftextcategorizationmethodissimpleatthesametime,theeffectisgood.Keywords:Socialnetwork,stylerecognition,Multi-Agent,stylisticclassification1引言网络文体分类问题是数据挖掘的一项难点问题,近年来,随着Facebook、Twitter等网络应用的迅速产生和发展,社会网络业成为目前学术界与产业界共同关注的热点之一[1]。社会网络文化引发了信息产生方式和传播模式的改变,一方面社会网络中呈现出了动态变化、形式多样化的特征;另一方面,社会网络的新型语言更衍生出不同的网络文体,如淘宝体、甄嬛体、陈欧体等[2]。而网络文体是指起源或流行于网络的新文体,通常是由于一个突发奇想的帖子、一次集体恶搞或者是一个热点事件而产生,网络文体一般形式自由,特点鲜明,在一段时间内会引起较高的关注度。由于网络文体能够引导网络舆情的演化,引发网络应用出现新亮点,因此针对网络文体的相关研究具有重要的理论与商业价值[3]。目前,针对社会网络环境下的内容挖掘研究尚未展开。因此,社会网络文体的分类问题成为了数据挖掘的一个热点。多智能Agent是研究多个同类或不同类的Agent资源共享与协作求解问题,是分布式人工智能的重要分支。由于智能Agent具有自主性、智能性、推理性和移动性等优点,文献[5]的作者设计并实现了一种基于特征贡献度的特征选择方法[5];文献[6]从文本分类中特征选择方法的比较与改进进行了相关研究[6];文献[7]的作者利用MAS系统中的这种P2P计算模式可以有效地完成分布式数据挖掘任务[7],这些研究表明智能Agent与文体分类融合的可行性,在分析综合上述相关研究的基础上,结合目前对社会网络文体分类方法解决方案的不足及多智能Agent的特性,本文对社会网络环境中的网络文体自动识别问题展开研究,我们提出了一种基于Multi-Agent的社会网络文体分类方法。本文的主要贡献如下:将Multi-agent的思想应用于网络文体的分类问题,以提升分类器的性能;考虑网络文体的XX特征,设计并实现了基于Multi-agent实例的特征值提取分类算法用于网络文体分类。实验结果显示,本算法把分类的准确度平均提升了,并且在大部分数据集上,与其它算法相比,本算法表现出更大优势。文中剩余部分组织如下:第2部分介绍相关工作;第3部分介绍基于基于Multi-agent的分类方法的思想;第4部分给出参数设置;第5部分介绍实验设计和相应的实验结果;第6部分总结。2相关定义与问题描述为了更好地进行问题描述,首先给出如下相关概念:定义1.空间向量模型(VSM):空间向量模型定义为通过向量的方式来计算相似度,把网络文体文本表示成为n维的空间向量,网络文体文本中的特征关键词作为空间的一个向量来表示,该特征关键词在对应分类里的权重作为每一个向量的坐标分量。给出公式:(1);(2);其中表示一个文体出现的频率;N为文体总数,是文体在所有文体集合中出现的次数。Weight作为权重[8],在同样的空间中,如果两个向量的夹角越小,说明两个向量越相似,反之两个向量越无关。因此使用cosine定理,得到向量之间的相似度,如图1所示。图1.基本向量模型示意图(3)定义2特征文体关键词定义为按照特征词的权重[9]确定能够反映文本的主题内容。每个文本表示为特征向量,di为文本,则:(4);其中表示词语,表示词语在文本di中的权值。权重Weight公式为:(5);(6);定义3语义网络定义为一个五元组(No.,D,N,L,S),由带有特征标记的结点和带有特征标记的链所组成的相互关联的复杂网络。结点表示语义,链表示相互之间的语义关系。其中,No.(Number)为待分类的网络文体的编号,D(Designation)称为分类文体的名称,N(Nodes)称为结点,L(Lines)称为结点之间的链,I(CorrelationFunction)称为语义关联函数,I将L中的每一个元素映射到S(Similarity)称为语义文本的相似度。定义4文体的定义为独立成篇的文本体栽(或样式、体制),是文本构成的规格和模式。是一种反映了文本从内容到形式的整体特点,包括表层的文本因素,以及深层的社会因素的独特的文化现象。文体的特征及其划分,往往取决于其层面结构中某些因素的强化、突出或变异。根据Multi-agent的自主性与智能性对语义网络进行划分与分类,本文提出一种融合基本Multi-agent理论和绑定特征提取的模型。在基本特征提取方面,充分利用中国科学院计算技术研究所的ICTCLAS系统所提供的相关句法语义处理模块及语料资源,直接提取基本特征。同时立足于这些基本特征之间的语义联系,通过引入一种新的特征操作,在此基础上,采用启发式方法对基本特征进行优化组合,以获取更加高效的特征集合。3Agent与语义特征值提取规则Agent是具有学习功能的智能体,Agent能够在一定程度上对其他Agent和外部环境作出响应、更高级形式的Agent的适应性使其能根据以往的经验修改自身的行为,能够使得一些人工干预的工作可以由Agent来代替。Agent和语义特征提取的共同目标都是利用特征词能够对语义网络中的网络文体进行分类,因此考虑以上两者的结合,实现互补是一种新的选择。基于Multi-Agent的语义特征值提取社会网络文体分类方法可以做到:明确各类网络文体之间的联系和规则,明确描述分类的任务,实现社会网络文体分类的自动化。定义5语义网络系统空间定义为由多个个体Agent够成,个体Agent即为系统空间中的结点,结构可用集合表示<I,E>,如图2所示。语义网络系统空间包括中心个体Agent、交互Agent、控制Agent和分析Agent等,它们通过各自不同的功能与特点,相互合作共同完成对语义网络的划分和分类任务。图2.语义网络系统空间1、I为Agentinternal集合(即内部集合),包括中心个体Agent;,Goal表示任务集,Type表示分类。中心个体Agent中心个体Agent是语义网络的整个系统空间中最核心的部分,把握整个系统空间的资源和信息,其他Agent在进入系统模型和划分分类完成后退出系统模型都需要由它进行管理,其他Agent向它发出请求后,中心个体Agent协调各个模块Agent。E为Agentexternal集合(即外部集合),包括交互Agent、控制Agent和分析Agent等;,Goal表示任务集,Action表示个体Agent的动作和行为。1)交互Agent交互Agent是人和计算机组成的一个整体,交互Agent建立后,通过对人与计算机进行交互设计,让人与计算机之间建立一种有机关系,从而可以有效达到人(即使用者)的目标。2)控制Agent控制Agent能够自行的控制其状态和行为,多个控制Agent共同完成对语义网络的整个系统空间的划分和分类任务。3)分析Agent当对语义网络的整个系统空间的划分和分类需要作出结果分析的时候,就由分析Agent对系统工作做出相关分析。语义网络系统空间通过把需要分类的网络文体送入Multi-Agent智能系统空间,各项个体Agent按照一定的方法自主学习,自主调整和划分,并在人机交互的共同作用下不断共同决策与获得学习。对于自然语言,词语与词语之间存在着如同义、近义、反义等大量的语义关系,词语本身也存在着一词多义的现象;另外,词语出现在文中的不同位置也有不同的语义特点。语义特征提取就是从文本的语义角度出发,希望能用对相应权值的改变来反映文本的语义特征。4基于智能Agent理论的特征值提取算法本文基于智能Agent理论的特征值提取算法对所获取的基本特征进行遍历、分类和组合,首先以特征作为计算第i层向量之间的相似并与阈值T(Threshold)相比较,若,则停止分类,若,则继续进一步分类,如此反复,之后的每一层出现分类精度超过前面最好的分类精度。图3描绘了具体的过程,算法1描述了具体的特征值提取。在以下实验中,我们将充分验证这一特征值提取算法的有效性。算法描述:Step1对语义网络系统空间进行总分类,即粗分为第一层;Step2计算第i层向量之间的相似度并与该层的阈值T(Threshold)相比较,若,则停止分类,转向Step5,若,则继续进一步分类,转向Step3;Step3将所给文本对所有库进行查询,应用算法激活该库对应的Agent,细分为第i+1层;Step4重复上述过程直至无限趋近于T;Step5根据得到的相似度值做排序(从大到小),其最中的n个,即为社会网络衍生出的不同的网络文体,即文本属性;Step6输出结果反馈。图3基于智能Agent理论的特征值提取过程训练阶段输入:D—训练数据集基于Multi-Agent的社会网络文体分类方法基于特征贡献度的特征选择方法在文本分类方法Classificationalgorithms—分类器库学习算法M—相似度集合输出:提取的特征值E方法:1.E=Classificationalgorithms(D,C);2.returnE;预测阶段:输入:E—提取的特征值D—有序训练样本集x—待分类样本T—待分类样本x的阈值cosine定理—向量间相似度定理difference—向量相似度和原始阈值T的差值输出:样本x的提取的特征值E方法:1、粗分为第一层2、x=Ф3、whiledo4、对所给文本对所有库E进行查询,应用算法激活E对应的Agent,细分为第i+1层;5、endwhile6、y=M(x)7、returny算法15特征值提取测试实验结果和分析5.1实验平台及实验数据我们在中国知网(/)上下载了一些期刊文献分别作为分类样本进行实验,分为工程科技、农业科技、医药卫生科技、哲学与人文科学、信息科技和社会科学六个大类,以适应特定领域分类的应用要求,进行的是开放性测试。我们这里用的分词方法是中国科学院计算技术研究所的ICTCLAS系统,该系统中对于分好的词进行了词性的标注。我们在实验中为了便于比较,测试了集中方法:一是本文介绍的基于Multi-Agent的社会网络文体分类方法,二是基于特征贡献度的特征选择方法在文本分类方法。在实验的过程中,我们通过特征文体关键词的权重计算、将本算法和其他算法的时间复杂度的对比以及相似度的计算来测试。通过采用cosine定理来计算相似度的,具体公式如下:;通过采用Weight公式(即公式5)计算权重,具体公式如下:。并且,我们在实验中使用了以下指标来测试提取效果:(7)(8)5.2实验设置为了更准确的评估算法的性能,我们了解到目前对于分类的研究大多数是倾向与选择支持向量机(SVM)并认为其分类性能是最好的,故我们在实验过程中,实验分类器采用的是选择支持向量机(SVM)。算法1中采用的是本文介绍的基于Multi-Agent的社会网络文体分类方法,算法2采用的是基于特征贡献度的特征选择方法在文本分类方法。实验分析并验证了两种分类选择算法的性能。对于每次测试,也从影响文体分类问题方法的主要因素进行考虑,包括问题规模、实验样本数量、分类算法等,如图4所示。此外,人为的误差也会影响分类实验的结果。图4实验影响因素5.3实验结果及分析表1特征文体关键词的权重结果比较表表2算法性能比较图5.整体查询率比较示意图图6.准确率比较示意图本文的实验是在Windows7环境下进行,我们从表1的结果展示了特征文体关键词的权重结果比较,表2中的展示了两种算法在所有数据上的平均用时和平均准确率,其中,基于特征贡献度的特征选择算法的用时略短,基于Multi-Agent的社会网络文体分类算法的平均准确度略高于基于特征贡献度的特征选择算法,综合两个方面的考虑,可以得出结论,基于Multi-Agent的社会网络文体分类算法运行的效率较高。在图5、图6中可以看出,我们所提出的方法准确率要比其他方法的准确率略高,不过,我们采取的也只是近似的计算来分类,而且实验的文本数量并不是足够的多,由此,我们的分类正确率并不是非常好,今后的工作中我们将在这方面加以不断的改进。6总结论文将基于Multi-Agent的特征值提取方法应用到网络文体分类问题中,并通过实验表明这种利用Multi-agent的自主性和智能性去进行自主划分的新模型不仅具有实现简单、处理开销小等优点,而且取得了较好的网络文体分类效果,有效缓解当前网络文体分类所面临的复杂特征工程问题。事实上,论文提出的方法还存在很大可提升空间。因此,下一步我们将准备尝试将多个基本特征同时实现上,以形成多重Agent绑定特征。参考文献[1]崔斌,“社会网络”综述-CCFYOCSEF学术报告会[J].中国计算机学会通讯,2011,7(10):74-75.[2]曾丹,吉晖,网络语言研究现状与展望[J],大连海事大学学报(社会科学版),2009,8(5):103-106.[3]NewmanMEJ.ScientificCollaborationNetworksI:NetworkCon-structionandFundamentalRe

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论