版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于人工神经网络的文本分类的研究与实现摘要:本文研究实现了文本分类过程中的主要技术:中文分词、特征选择、文本向量化和分类器构造,并在广泛研究现有的文本自动分类的基础上,利用BP神经网络的联想记忆和预测能力,构建了基于BP神经网络的分类器。主要设计思路如下:首先对所有文本进行分词、词频统计,并生成各文本的特征向量,然后利用TFIDF算法优化特征向量,对特征空间做降维处理;最后建立BP神经网络文本分类器并初始化网络,用训练语料库训练BP文本分类器,直到算法迭代结束,网络的训练满足一定的收敛条件。关键词文本分类;特征选择;BP神经网络Basedonartificialneuralnetworkintheresearchand
implementationoftextcategorizationLiFei,JIAOYue(SchoolofInformationTechnologyandCommunication,QufuNormalUniversity,Rizhao276826,China)AbstractThisresearchachievesthemaintechnologyamongtheprocessoftextclassification,whichincludeChineseWordSegmentation,FeatureSelection,thetexttoquantitativeandClassSelection.AndtakingadvantageoftheassociativememoryandpredictionabilityofBPneuralnetwork.WestructuretheclassifierbasedonBPneuralnetworkonaccountoftheextensiveresearchofexistingautomatictextclassification.Maindesignideaisasfollows:Firstly,wecarryonthestatisticsofwordsegmentationandwordfrequencyforalltext,whichgeneratesafeaturevectorofeachtext.ThenreducethedimensionoffeaturespacebytheimprovementoffeaturevectormakinguseofTFIDFarithmetic.Finally,establishtextclassificationofBPneuralnetwork,initializethenetwork,trainBPtextclassificationapplyingthetrainingcorpusuntiltheendoftheiterativealgorithm.Thenetworktrainingmeetscertainconvergenceconditions.Keyword:Textclassification;Featureselection;BPneuralnetwork1引言在过去的几十年中,随着互联网的飞速发展,各种电子文档的急剧增加,如何有效地检索和访问这些庞大的文档资源,已经成为信息系统学科急需解决的重要问题。文本分类就是解决这个问题的工具之一,它是指在给定分类体系下,根据文本内容自动确定文本类别的过程。从数学的角度看,文本分类是一个映射的过程,它将未标明类别的文本映射到已有的类别中。这样,用户不但能方便的浏览文档,而且能够通过限制搜索范围提高搜索效率。目前,文本分类已经被应用在众多领域,包括Internet上的应用、电子邮件分拣中的应用、电子出版社的应用、网络安全中的应用、电话会议中的应用等等[1]。许多网站如Yahoo仍然是通过人工对Web文档进行分类,这大大限制了其索引页面的数目和覆盖范围。可以说研究文本分类有着广泛的应用前景[2]。总之,文本自动分类可节约大量人力和财力,避免人工分类带来的周期长、费用高、效率低等诸多缺陷。人工神经网络人工神经网络(AneuralNeuralNetwork,ANN)是由大量简单的基本元件神经元相互连接,通过模拟人的大脑神经处理信息的方式,进行信息并行处理和非线性转换的复杂网络系统。神经网络由于具有多输入多输出的优点,所以实现了数据的并行处理以及自学习能力。前向反馈(BackPropagation,BP)网络和径向基(RadialBasisFunction,RBF)网络是目前技术最成熟,应用最广泛的两种网络[3]。文本分类器的设计与实现BP神经网络是数据挖掘中的一种常用的技术方法,作者充分发挥BP网络的优势,并针对他的缺点运用新技术进行弥补,构造出一个基于BP神经网络的文本分类器。分类器分为训练和分类两个部分。首先根据自己的需求范围建立专用的分词词典;然后对经过人工分类的文本进行整理,形成训练语料库;利用分词词典对训练语料库和训练样本进行词条切分、词频统计、文本特征提取、词频统计、文本向量化;使用训练样本得出的矩阵作为输入,利用BP网络进行训练,达到满意效果后,得到固定的权值,作为分类知识存储在网络中。分类器训练完毕后,就可以对测试样本进行分类了,分类过程和训练过程大体相似,首先利用分词词典对样本进行词条切分、词频统计、文本特征提取、文本向量化,生成待分类
文档的特征向量,由于训练过的网络权值已经固定,可以直接运用它得出分类结果。3.1词条切分文本分词是预处理过程中必不可少的一个操作,因为后续的分类操作需要使用文本中的单词来表征文本。文本分词包括两个主要步骤:第一个是词典的构造,第二个是分词算法的操作。一般选用的汉语词典有十几万词条,如果每次匹配都检索词典内全部词条,效率将会大大降低。为了提高词典的查询速度,文献[4]提出了一种支持首字Hash和标准二分查找的词典数据结构,明显提高了分词效率,优于目前所见的同类算法。因此,本文使用类似于文献[4]中提出的首字Hash思路的二级索引词典结构。将首字的区位码作为标识的数组索引,指向以此字为首的所有词组成的HashMap。汉字的区位码就是GB2312码中的汉字部分。包括单字词在内,词典中的首字有6763个,声明一个大小6763的数组就足够了。分词算法有简单的有复杂的,常见的主要有正向最大匹配、反向最大匹配、双向最大匹配、语言模型方法、最短路径算法等等,本文使用的是正向最大匹配算法。3・2词频统计大多数研究将词频统计放到特征提取后面来做,而本文将词条切分和词频统计整合到一起,这样可以方便实现而且又可以将词频统计的结果应用于下一步的特征值提取,等到特征值提取完毕后,再利用同样的算法进行一次新的词频统计,来作为文本特征向量的依据。实验结果如图1。卑®1阻泗换疏计曲阜!帀范女耗燔于1g5琳,是1加1年就罰連占土半•'谓梧计划"犬宇'巒版性11工理丸孚“、“山东待包老京JT程“重亞谧设的二举。学龊国躺解险妥员艺戒准^具稠馬士I陵士、学7t授网单位、巳闵硕勺碗切试惟存权,是全国爸推.豆却幄爼医克辿驾学生::黑熔緒楼去一,全国莒览硕士手吊磴T根禹址、晦华茁.〔再呈迪、卸報企皀‘鞍。磐于中閣古齿席丈B瘵癖■•藝月显•.匹咆冢"耀丈北槌帕人孔子氏肉里一一回耳在美甬的筲淇煽市日零沖藕栈呂杏运向揣頸果,学榜昂廉"学而下决,诲人不ST齢训,琲切•“劲茅朴实「躺,世尽”的优自按臥破址会密對■曲帀犬出咅长”h电MimtnsKsr",_KuJb主占的迖大多数研究将词频统计放到特征提取后面来做,而本文将词条切分和词频统计整合到一起,这样可以方便实现而且又可以将词频统计的结果应用于下一步的特征值提取,等到特征值提取完毕后,再利用同样的算法进行一次新的词频统计,来作为文本特征向量的依据。实验结果如图1。卑®1阻泗换疏计曲室師范托字直瀋于19氐年足1EJ朗年迩芳布的曲室師范托字直瀋于19氐年足1EJ朗年迩芳布的卓亡妊计划”九字、昔扳“冇1工雄丈字”、”山东馮色宕抚一理^重自述设初大手是国务祷宇位委辰合批進的耳芭信士、硕士、孚±按予权具直獗士冰丸生免试楼禄祝杲全国苗牝曲挨曼处護集窣辭生贸格的高桂之一,遼莹批碩士亨垃按予权菖按、宙赢华艾数頼些纯•时做续日甫扳宇于中田古代忌的艮豁-锁苜據,啦P潺克乜的番拍人乱子世故里一一曲耳在共函的务屏堀市日闊设有新找区序业菇汞率“学而不平粧”的了''罪返更“的优喪校凤械牡兰蜒"曲邯丈出省怅”“山东刼艺的为山求省的经.1:7S岛EIt+厶;11斗,射虫T世塁A共1胡令竝i丰以下为谊g出趣的追苗忑兵出壬巧麴「单词以埶的12•tB4具有3_口.胡V词频竦计3.3特征提取文本分类问题的最大特点和困难是特征空间的高维性和文本向量的稀疏性。最基本的特征选择方法是将一篇文档中出现的全部词集作为这篇文档的特征,但是随着特征空间维数的增大而导致的复杂性使得这种做法几乎是不可取的[5]。所以选择一种有效的特征选择方法对文本实现特征提取是非常有必要的。目前广泛应用的特征选择方法有:文档频率(DF)⑹、互信息(MI)[7]、期望交叉熵[8]等。本文首先利用词频统计得出的结果,结合DF算法,预先设定一个阈值,把度量值小于阈值的那些特征过滤掉,剩下的候选特征作为结果的特征子集。3.4改进的文本向量化大多数分类算法都只适用于离散的数值类型,所以在运用分类算法前,文本向量化是一个非常重要的步骤。本文选用TFIDF算法的一部分思想,将文本中每个单词被看成一个特征项j每篇文档被看成由单词组成的向量d=(d,d,…,d),在每篇具体文档d.中,jii1i2ini单词t.(1<j<n)被赋予一个数值d..,表示t在该文档中的重要程度,称为t的权值,即有:TOC\o"1-5"\h\zj.jjjd=tf*idf(3.1).j.jjIDI1、id=log(+1)(3.2)jdfj公式(3.1)和(3.2)中,词频(TermFrequency,简称TF)f表示特征项t.在文档d.中出现的.jj.次数,文档频率(DocumentFrequency,简称DF)df指整个训练文档集合中包含特征项t.的j.文档个数,idf是特征项t.的反文档频率(InverseDocumentFrequency,简称IDF)[9]。jJ然后利用文档频率和反文档频率得到特征向量。具体步骤如下:表3.1特征词在文档中出现的次数特征词集合/文档dld2单词出现总数A213B224C213D101
E437F213G224文档单词总数151025如表3.1所示,表格中的数字表示特征单词在对应文档中出现的次数,下一步计算p并标准化(将数值映射到-1到1之间,以防止大值特征词对文本特征的控制,当然也可以便于后续的计算)。p的值是特征词在文档中出现次数和文档中总词数的比值,计算结果如表3.2所示。q值得计算利用公式(3.3)。log((1|D|)/|Dt|)(3.3)表3.3q的值其中其中IDI表示文档总数,IDtl表示包含特征词t的文档数量,计算结果如表3.3所示。最后将p表3.3q的值表3.2p的值p值d1d2A0.08(2/25)0.04B0.080.08C0.080.04D0.040.00E0.160.12F0.080.04G0.080.08BP网络是一种具有三层或者三层以上神经元的神经网络,包括输入层、中间层(隐含层)和输出层。上下层之间实现全连接,而同一层的神经元之间无连接。当一对学习样本提供给输入神经元之后,神经元的激活值(该层神经元的输出值)从输入层经过各隐含层向输出层传播,在输出层的各神经元获得网络的输入响应,然后按照减少网络输出与实际输出之间误差的方向,从输出层反向经过各隐含层回到输入层,从而逐步修正各连接权值,这种算法称为误差反向算法,即BP算法[9]。3・5・1BP网络文本分类步骤经过上面几步的预处理得出文本的特征向量以后,便可应用BP网络对其进行分类了。本文BP网络的拓扑结构如图1所示。输入层隐含层输出层图3.2BP神经网络拓扑结构图图3.2中,X],X2,…,Xn是BP神经网络的输入值,对应于输入文本的特征权值;Y],丫2,…,Ym是BP神经网络的预测值,对应于文本类型;Wjj和缕飞为为BP神经网络的权值。在进行文本分类预测前,需要通过训练网络使网络具有联想和预测能力。训练过程包括以下几个步骤[10]。
步骤1:网络初始化。根据系统输入输出序列(X,Y)确定网络输入层结点数n、隐含层节点数1,输出层节点数m,初始化输入层、隐含层和输出层神经元之间的连接权值wij,ijwjk,初始化隐含层阙值a,输出层阙值b给定学习速率和神经元激励函数。步骤2:隐含层输出计算。根据输入向量X,输出层和隐含层间连接权值W|j以及隐含层阙值a,计算隐含层输出H。(3.8)j=1,2,…,1(3.8)式中,1为隐含层节点数;f为隐含层激励函数,该函数有多种表达式,本章所选函数为:/(x)=1(3.9)1+e-x步骤3:输出层输出计算。根据隐含层输出H,连接权值wjk和阙值b,计算BP神经网络预测输出O。O=乙Hw—bk=1,2,…,m(3.11)kJjkkj=1步骤4:误差计算。根据网络预测出O和期望输出Y,计算网络预测误差e。e=Y—Ok=1,2,…,m(3.12)kkk步骤5:权值更新。根据网络预测误差e更新网络连接权值w..,w.koijjkw=w+nH(1—H)x(i)£wej=1,2,…,n;j=1,2,・:1(3.13).jijJjjkkk=1w=w+耳Hej=1,2,…,l;k=1,2,…,m(3.14)jkjkjk式中,耳为学习效率。步骤6:阙值更新。根据网络预测误差e更新网络节点阙值a,bo=a+=a+nH(1—H)Ewjijjkk=1j=1,2,…,l(3.15)b=b+ek=1,2,…,m(3.16)kkk步骤7:判断算法迭代是否结束,若没有结束,返回步骤2o3.5.2模型建立基于BP神经网络的文本分类算法建模包括BP神经网络的构建、BP神经网络的训练和
BP神经网络分类三步,算法流程如图3.3所示。图3.3算法流程3.5.3实验及评估BP神经网络分类三步,算法流程如图3.3所示。图3.3算法流程本文选取搜狗官方提供的语料库作为测试样本,语料库分为10大类,分别是环境、计算机、交通、教育、经济、军事、体育、医药、艺术、政治。每一类中随机选取200个样本,总共2000个样本,不同的文本类别分别用1,2,•••,9,10标识。由于不同的文本单词数目不同而导致特征项不同,为了保持输入向量的维数相同,对于每个文本特征向量随机抽取24维再加上类别标识的第一维作为文本最终的特征向量,所以BP神经网络的结构为24—25—10,即输入层有24个结点,隐含层有25个结点,输出层有10个结点。把10类文本特征向量合为一组,从中随机选取1500组数据作为训练数据,500组数据作为测试数据,并对训练数据进行归一化处理。根据类别标识设定每组文本信号的期望输出值,如标识类为1时,期望输出向量为[1000000000]。对于文本分类系统的性能评估测试,国际上通用的评估指标,包括查全率(Recall)、查准率(Precision)和F1评估值三项主要的指标。公式如下:NN2RPTOC\o"1-5"\h\z查全率:R=一严,查准率:P,F.评估率:F=—。iNiN1iR+Pcpiiii其中,N是实际属于C类的测试文档数;N是分类器预测为C类的文档数;N是cipicpiii正确分类的文档数。人工分类自动分类正确分类查全率(%)查准率(%)F1值(%)环境50504175.2382.2576.51计算机50503877.4687.3082.06交通50504488.2492.3190.23教育50503876.1685.8280.70经济50504183.9191.2587.43军事50502857.1491.4370.33体育50504081.8293.1087.10医药50504182.8690.2386.57艺术50504386.4992.7589.51政治50503265.8584.3873.975结论文本分类作为信息检索和信息过滤技术重要的基础,有着重要的地位,它对于进一步地提高搜索的准确率和垃圾信息的过滤有着不可低估的作用。随着信息处理技术和计算机网络的普及,任何处理的文本信息特别是中文文本信息的数据量正在以指数的速度增长。为了快速、方便地处理这些信息,文本自动分类技术应运而生,并且成为现在文本数据挖掘领域的一个研究热点。本文对现有的BP神经网络文本分类方法进行改进,并在此过程中详细介绍了文本分类过程中所涉及的技术:中文分词、特征选择、文本向量化及分类器的构
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 企业建筑施工安全培训考核试卷
- 学前教育的家长职业规划考核试卷
- 合成材料制造的材料选择与设计考核试卷
- 企业环保与自然灾害防治考核试卷
- 新材料的应用与商业机会考核试卷
- DB11T 744-2010“一日游”服务质量要求
- 翻译英语课件教学课件
- 气质性格课件教学课件
- 材料解析题-“变化”类设问(原卷版)-2025年高考历史答题技巧与模板构建
- 系统内员工培训 营业项
- 项目一 任务二 锂的冶炼 3、金属锂的制取
- 中考数学一轮复习课件全等三角形
- 国测省测四年级劳动质量检测试卷
- 2024-2029年安徽省家具行业分析及发展前景预测报告预测
- 露营基地合同协议书
- 中建测评2024二测题库
- 生产前的准备工作
- 六年级上册数学心得体会
- 机械制图教案(完整版)
- 公平竞争审查制度实施细则
- 卫生巾推广方案
评论
0/150
提交评论