领域术语自动抽取方法研究_第1页
领域术语自动抽取方法研究_第2页
领域术语自动抽取方法研究_第3页
领域术语自动抽取方法研究_第4页
领域术语自动抽取方法研究_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

刘桃报告内容报告内容绪论绪论:领域文本自动判别研究现状领域文本自动判别有监督文本分类方法文本表示:概率模型、向量空间模型特征选择:TF-IDF、互信息、期望交叉熵、信息增益等分类算法:Rocchio法、贝页斯分类法、K最近邻分类法、支持向量机、决策树、神经网络半监督文本分类方法产生式模型和期望最大化、直推式支持向量机、自助学习法、协同训练法、主动学习法基于正例的文本分类方法PEBL、Spy_EM、Roc_SVM、类别约束SVM〔Biased_SVM〕、PNLH方法中文词语的领域类别判定之前要进行中文新词发现中文新词发现启发式特征:构词力、构词模式、互信息、上下文依赖机器学习模型:隐马尔科夫模型、最大熵、最大熵马尔科夫模型、支持向量机、条件随机域绪论:研究现状报告内容研究框架领域文本自动判别有监督文本分类基于正例的文本分类领域术语自动抽取中文新词发现应用研究在文本分类中的应用在问答式信息检索中的应用词语的领域类别判定概念语义网络专业信息采集特征集扩展特征选择①领域文本自动判别方法完整分类体系下的领域文本判别有监督文本分类方法需要为每个类别提供一定规模的训练语料实现了一个文本分类评测平台包括10种可定制的特征选择算法和4种可定制的分类算法特征选择算法:词频与倒文档频度〔TFIDF〕、期望交叉熵〔ECE〕、统计、互信息〔MI〕、文本证据权〔WE〕、信息增益〔IG〕、文档频度〔DF〕、KFIDF、DR+DC、NCD+NDD方法分类算法:简单贝叶斯〔NB〕、Rocchio、K最近邻〔KNN〕和支持向量机〔SVM〕领域文本自动判别方法非完整分类体系下反例集获取困难完整分类体系下训练某个类别的分类器时,其他类别训练语料的合集作为反例集非完整分类体系下获取某个类别的平衡反例集比较困难基于正例的文本分类方法不需要提供已标注的反例集需要使用大规模未标注样本基于正例的文本分类问题的传统方案步骤一:启发式样本标注1-DNF,PNLH,spy,rocchio…

步骤二:建立分类器通过迭代建立一系列分类器只建立一个分类器传统方法存在的问题启发式样本标注中,高准确率和高召回率不可兼得1_DNF:将U中不含全部正例特征的文档看作反例高准确率,低召回率PNLH:定义正例参考值(PRP),将PRP值小于U集全部文档PRP平均值的文档当作反例低准确率,高召回率不同途径得到的标注样本的置信度不一致,传统方法不加区别的使用所有样本势必导致分类准确率下降基于置信度加权的领域文本判别法多策略样本标注算法自动标注尽可能多的样本,即在保证样本标注召回率的前提下,按照标注样本的置信度对样本集进行划分加权支持向量机算法为不同置信度的样本赋予不同的权重不同标注策略的样本置信度实验Retuers语料上的标注样本置信度一级正例二级正例一级反例二级反例三级反例acq1.00000.67390.99400.95420.3528corn1.00000.46431.00001.00000.8558crude1.00000.83710.99990.99960.7407earn1.00000.68840.99930.84990.6822grain1.00000.90710.99990.99880.6486interest1.00000.45310.99990.99920.8303money-fx1.00000.53160.99990.99920.7472ship1.00000.83090.99920.77720.7888trade1.00000.67331.00000.99880.7058wheat1.00000.67331.00001.00000.7058avg1.00000.67330.99920.95770.7058三级反例及基于置信度加权对分类性能的影响实验noN3noWeiuseN3noWeinoN3useWeiuseN3useWeiacq0.94150.95180.94810.9599corn0.53150.55520.53990.6274crude0.84650.81750.85820.8281earn0.91780.93120.94730.9707grain0.86040.81230.86210.8643interest0.69180.70220.72220.7314money-fx0.74810.77840.76040.7789ship0.72970.65150.71580.6496trade0.6860.79280.70720.8092wheat0.67930.71990.68740.7055avg0.76330.77130.77490.7925是否使用三级反例及基于置信度加权对Retuers数据集的分类性能影响比照实验S_EMWLBiasedSVM1BiasedSVM2WeiSVMacq0.95680.92020.95040.95790.9599corn0.50270.58930.59870.5930.6274crude0.85690.86380.7970.80460.8281earn0.96770.94030.97720.97660.9707grain0.87060.8640.83450.83740.8643interest0.67930.76730.6660.65150.7314money-fx0.75940.77410.70310.75580.7789ship0.72810.69590.57240.59650.6496trade0.58880.80260.72760.75860.8092wheat0.63630.64180.69890.71120.7055avg0.75470.78590.75260.76430.7925Retuers数据集上不同方法的分类性能比照报告内容传统中文新词发现方法的缺点启发式特征+经验阈值难以筛选适宜的全局阈值统一抽取新词机器学习方法训练时间较长基于局部最大算法的中文新词发现中文词语是关联强度较大、结合较为紧密的字序列高内聚性可独立运用性利用平摊对称条件概率(SCP_F)衡量字序列的结合力局部最大算法思想:如果ngramW的关联强度大于所有包含它的(n+1)gram的关联强度,并且ngramW的关联强度不小于所有W包含的(n-1)gram的关联强度,那么W被看作候选新词。能够很好地刻画词语的高内聚性和可独立运用性基于局部最大算法的中文新词发现基于后缀数组的实现方案传统方法在计算n>3的ngram时,速度非常慢,不能满足互联网环境下大规模网络文本的实时新词发现需求采用基于后缀数组的数据结构采用基于等价类划分的思想降低存储空间只需要存储每个等价类中的一个最长序列基于局部最大算法的中文新词发现过程实验结果在MSR语料上的新词发现前后比照实验结果在PKU语料上的新词发现前后比照实验结果MSROOV召回率精确率召回率IV召回率F1量度Baseline0.3610.9360.9710.9880.953Baseline+NE0.4970.9430.9680.9810.955Baseline+NWI0.5810.9510.9670.9770.959Baseline+NWI+NE0.6290.9570.970.980.963PKUOOV召回率精确率召回率IV召回率F1量度Baseline0.2340.8910.9370.980.913Baseline+NE0.420.9140.9430.9750.928Baseline+NWI0.5340.9310.9490.9750.94Baseline+NWI+NE0.630.9440.9580.9780.951比照实验系统编号OOV召回率精确率召回率IV召回率F1量度140.7170.9660.9620.9680.96470.5920.9620.9620.9720.96227(a)0.3790.9520.9690.9850.9627(b)0.3810.9530.9680.9840.9640.3230.9450.9730.9910.95915(b)0.7180.9640.9520.9580.95850.210.940.9740.9950.957130.4960.9560.9590.9720.957120.6730.960.9520.960.956240.5030.9520.9580.970.955Baseline+NWI+NE0.6290.9570.970.980.963在MSR语料上和中文分词评测中其他系统的比照实验结果实验结果词典编号新词比率总词数10.224462220.269337430.300275740.334213150.426118960.494750小规模词典统计信息不同新词比率下的新词识别性能在不同新词比率下测试新词发现的性能在缺乏词表或者为了扩展已有的小词表的情况下,局部最大算法可以用来抽取词语。报告内容符号定义:Di(1≤i≤m):第i个领域类别dij(1≤j≤ni):类别Di中的第j个文档lij:文档dij的长度,即在该文档中出现的所有词语的词频之和Li:类别Di包含的所有文档长度之和数学描述:词语W的正规化的类间分布熵NCD词语W的类间分布熵:词语W在领域Di的正规化的类内分布熵NDDC2法律司法人民法院最高人民法院案件审理诉讼法院司法机关当事人职权国家机关审判被告人民事行使民事诉讼C4体育比赛首场球员球队英格兰队队友世界杯夺冠冠军决赛足协后卫主帅瑞典队任意球小组赛C6轻工业包装食品调味保质期肉制品玻璃瓶品牌肉食品方便化果汁腥味肉类专卖店草莓货架糖度中图分类体系下抽取结果例如实验结果类别编号词语总数抽取词语个数DR+DCNCD+NDDB哲学、宗教888301776881E军事41030621677H语言、文字38666638741R医药、卫D矿业工程27925318162TS轻工业、手工业21792257358DR+DC方法抽取词语个数会随着语料规模的变化产生较大变化NCD+NDD方法抽取词语数目不完全依赖于语料规模

实验结果图1前200个词语的正确率图2其余词语的正确率未标注文本词语的领域类别判定领域比照语料简单、快速实验D1D2D3D4D5财经娱乐技术体育军事领域类别信息领域上下文空间表示法文档空间表示法PrecisionPseudo-recallPrecisionPseudo-recallD182.67%95.22%83.28%87.92%D288.77%89.47%86.00%80.30%D390.00%89.87%83.67%86.37%D487.05%91.03%85.68%84.13%D581.33%93.22%82.58%87.06%Avg85.96%91.76%84.24%85.16%领域上下文空间表示法文档空间表示法PrecisionPseudo-recallPrecisionPseudo-recallD182.41%92.41%79.39%70.66%D279.62%85.38%77.78%53.85%D386.78%81.76%87.86%38.24%D482.61%75.52%83.00%65.52%D575.14%80.00%73.00%56.00%Avg81.31%83.01%80.21%56.85%两种方法在抽取频率为1的低频词上的性能比较报告内容文本自动分类过程在文本自动分类中的应用应用一:特征集扩展将基于局部最大算法的中文新词发现方法应用于文本分类语料的分词处理,从而扩大文本表示的特征集方法准确率召回率F值特征集扩展前0.8660.8180.841特征集扩展后0.8740.8280.850特征集扩展前后文本分类性能比照小规模原始词典下文本分类性能比照在文本自动分类中的应用传统特征选择代替应用二:特征选择方法准确率召回率F值MI0.4190.4090.414DF0.5560.5290.542WE0.5640.5410.552IG0.5590.5460.552TFIDF0.5960.5720.584ECE0.6170.5970.607KFIDF0.6160.6010.608CHI0.6330.6020.617DR+DC0.6310.6260.628NCD+NDD0.6630.6690.666在中图分类数据集上的比照实验方法准确率召回率F值MI0.6600.6260.643WE0.7190.6720.695DF0.7300.6940.712I

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论