版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
专利文献关键词提取方法研究
0专利文献关键词抽取研究现状知识产权关键词对于知识产权文献非常重要,是所有知识产权文件的高度概括。通过阅读专利文献的关键词,可以快速地了解一篇专利文献要表达的主旨。关键词比摘要更简练,它是专利文献分类、聚类、索引和自动文摘的基础。随着社会的发展,人工选择关键词已经暴露出它的不足:首先,由于标引人员自身的知识和经验不同,对同一篇专利文献不同标引人员所标识的关键词存在不一致性;其次,随着科技的进步和人类知识的不断丰富,专利文献数量急剧增长,采用人工标引方式在速度上无法满足标引的需要。采用自动的方式进行关键词抽取不仅提取的标准统一,而且标引速度快,能够让人们从繁锁的工作中得到解放。因此,研究专利文献关键词提取具有重要的应用价值。关键词抽取研究在国外起步比较早,Turney利用遗传算法和C4.5决策树机器学习算法设计的GenEx算法进行了关键短语抽取,表明GenExt算法比单纯的C4.5决策树学习算法效果要好。Written利用词典的方法获取候选关键词,然后利用贝叶斯方法对关键词进行选择,构建的KEA系统简单、鲁棒性强,具有很好的应用性。Hulth选取语言学规则应用到机器学习方法中,提取学术论文摘要中的关键词,关键词的召回率达到了66%,取得了很大进步。国内也有大批学者聚焦于关键词抽取研究。主要方法包括:基于PATTree结构获取新词的方法、基于机器学习的方法、基于已标引语料方法、基于知识库的方法和基于统计的方法。其中代表性的工作有:YangWen-Feng基于PATTree结构获取新词,并采用互信息等统计方法对文献的关键词进行标引;李素建等设计采用最大熵模型自动抽取关键词,但由于特征选择及特征参数估计不易选定,造成关键词自动抽取应用不够理想;王军从已标引的结构化语料库中元数据的标题内抽取关键词,正确率较高;索红光等提出用《知网》知识库构建词汇链的方法抽取关键词,但由于《知网》词数的局限性,只能对《知网》中存在的词条进行抽取;谢晋采用基于词跨度的方法提取关键词,但是对于部分关键词出现比较集中的情况不太适用;李静月等采用改进TF-IDF算法提取网页关键词,由于需要通过在线输入相关文献关键词获取与文本相关的内容,所以提取效率相对较差;马力等提出基于小世界模型的方法提取关键词的方法,对文档语义的理解达到了更好的层面。现有的方法很少专门针对专利文献进行关键词抽取,本文从专利文献特点出发,在现有方法的基础上,在去除公共词后,提出综合运用词频、区域特征、词素加权和并列惩罚函数计算词语对主题的影响度,根据影响度大小最终确定专利文献的关键词,提高了关键词抽取的准确率。1同构建并列结构的词对不同种类的关键词抽取专利文献虽然数量众多,但它们存在一些共同的特征:文献中出现频次较高的词成为关键词的可能性较大;出现在专利文献中的“标题”部分和“技术领域(摘要)”部分中的词语,成为关键词的可能性较大。专利文献属于科技文献,它除了具有一般文献的特征外,还具有其固有的特征,经过对专利文献的分析,其特点如下:a.专利文献中存在着大量的并列结构,并列结构中的词一般是对文献主题的侧面描述,不能直接作为关键词,而这类词语出现的频次较高,这会对准确抽取关键词产生较大影响。如:一种汽车防光耀眼屏,其特征在于包括分别连接在遮阳板上的表面设置遮光块的LCD光阀阵列、LCD驱动器……所述光电传感器、聚焦光学镜头和LCD光阀阵列同一朝向布置……操作键盘与综合处理CPU的矩阵IN端电连接,综合处理器CPU与LCD驱动器电连接,LCD驱动器与LCD光阀阵列电连接,电源电路包括电源插座和一个分别为感光阵列、综合处理器CPU、LCD光阀驱动、光电传感器和操作键盘供电的供电电路。在上例中,显然“汽车”、“防光耀眼屏”是本专利的关键词,而在后文的并列结构中“LCD光阀阵列”、“LCD驱动器”等词语出现的频次远高于关键词“汽车”、“防光耀眼屏”出现的频次。本文通过对617篇汽车相关专利进行统计发现,其中有616篇含有并列结构;在这617篇专利文献中的总词数是437184个,出现在“、”、“和”、“与”并列结构中的总词数为167597个,占文献总词数的38.33%。因此,在关键词抽取的过程中,需要对并列结构中的词进行特殊处理,以降低出现在并列结构中词语的权值,减少并列结构对关键词抽取的影响。b.专利文献通常会出现大量的自组词,这些自组词之间往往具有相同的词素(意思或语法功能的最小单位。/view/377642.htm),而具有相同词素的词或词组之间,绝大多数在意义上存在某种联系。同时,自组词都是经过精心挑选组合的,它们成为关键词的可能性相对较大。如:“外转子直流电动机”“内转子直流电动机”具有相同词素“转子”“直流”“电动机”。在上述例子中,在同一篇文章中,如果只考虑词本身,上述两个词被识别为关键词的可能性将偏低。因此,在提取关键词的过程中不能忽略相同词素对不同词之间的影响,需要在进行加权计算过程中对具有相同词素的词进行特殊的处理,以提高两个词的权值。2tf-idf相关领域公共词的领域区分在专利文献中,有一类词,它在多个领域中都出现,对领域的主题区分性不高,本文将这类词称为公共词。虽然公共词在单一领域内出现的频次较高,但不具有主题区分性,所以如果单纯按照出现频次来确定是否为关键词,那么公共词的存在会给关键词抽取准确性带来影响。提取关键词之前,为了减少公共词对提取专利关键词的影响,本文基于TF-IDF提出了公共词抽取算法,并提出在去除公共词基础之上的关键词提取方法。TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文档中很少出现,则认为该词或该短语是关键词的概率比较大,其计算方法公式为:其中,tfik为特征词频率;idfk称为逆文档频率;nij是该特征词在文档dj中的出现次数;|D|:语料库中的所有文档的总条数;{j:termi∈dj}:包含特征词termi的文档数目(即nij≠0的文档数目),weight(Tij)为特征Tij在文档dj中的TF-IDF值。对TF-IDF算法的定义进行分析可知,对于计算某一领域内TF-IDF值较低的词语一般可划分为两类:一类在某一领域分布比较广,但在其它领域内出现较少或不出现,这类词语可以作为该领域的特征词,具有一定的领域区分能力;另一类是各个文档中出现次数均较多的词,并且在各个领域里均具有较高的出现频次,也即公共词,它们的领域区分能力较弱。因此,去除公共词对识别领域的关键词具有非常重要的作用。根据以上分析,本文提出两领域间公共词计算公式:其中,a、b表示两个领域;w表示目标词;n、k依次表示领域a和b中文献总数;δ表示公共词阈值;f(w,j)表示目标词w在j领域内TF-IDF值较低的总数;ζ表示TF-IDF低值阈值;m为j领域内文献总数;t(w,i,j)为词w的TF-IDF阈值判断函数,t(w,i,j)=1表示目标词w在领域j内第i篇文献中TF-IDF值低于ζ;cw(w,a,b)为公共词阈值判断函数,cw(w,a,b)=1表示词w为公共词;cw(w,a,b)=0表示词w不是公共词。3注释中属性加权法3.1专利文献中加权词的特征分析文献[12-13]的关键词提取加权公式中,只考虑了特殊位置的加权,如标题、副标题、摘要等,特殊位置加权方法如下公式所示:其中,w表示当前要加权的词语;t(w)为加权词在文章中出现的词频;title(w)为文章“标题”部分对词w的加权;tec(w)表示文章“技术领域(摘要)”部分对词w的加权;f(w)为词频和特殊位置加权函数。虽然公式(5)在一般文献中能够根据词出现的特殊位置关系有效抽取关键词,但对于专利文献,需要考虑专利文献的两个特点:第一,考虑当前加权词与同一篇文献中其它词之间的相关关系,在专利文献中,这种词或词组间的相关性体现得尤为明显,最直接的表现是专利文献中大量出现的具有相同词素的词或词组,当前加权词与其它词相关性越大,则当前加权词对主题的影响越大,成为关键词的概率越高;第二,专利文献中出现在并列结构中的词,虽然出现的频次较高,但这些词只是用来对主题词进行描述,一般不能成为关键词,在加权的过程中,需要对其进行适当的降权。3.2加权词的行为通过对专利文献特征进行分析,发现含有相同词素的两个不同词,其相关度比较大,并且含有的相同词素越多,相关性越大。由此,基于专利文献的词素加权计算方法如下所示:其中,wi表示当前加权词;n表示一篇文章中出现的总词数;wj表示与加权词wi在同一篇文章中出现的第j个词;f(wi,wj)表示wj与wi拥有相同词素的个数;r(wi)为词素加权函数。例如,假设一篇文献中只出现了三个词“外转子直流电动机”“内转子直流电动机”“直流电动机”,当w1=“外转子直流电动机”时,w2=“内转子直流电动机”,此时f(w1,w2)=3;w3=“直流电动机”,此时f(w1,w3)=2,则r(w1)=3+2=5。3.3降低关键词的权值专利文献中,出现在并列结构中的词一般用来描述主题,其成为关键词的可能性往往较低,然而这些词语出现的频次比较高,这类词语在关键词的提取过程中,很有可能被识别为关键词。因此,应对这类词语进行相应的惩罚,降低其权值。据此,基于专利文献的并列结构的惩罚方法如下所示:其中,wi表示当前加权词,k表示当前文献中所有并列结构中词语的总数;pc(wi)表示词wi出现在并列结构中的次数;α表示词wi在并列结构中出现的惩罚系数;β表示词wi与出现在并列结构中的第j个词wj拥有相同词素时的惩罚系数。3.4对词语主题影响度计算综合以上分析,词语的主题影响度不仅与词频相关,还与词语出现的特殊位置、含有相同词素的个数和是否是并列结构有关,结合这些影响因素综合运用词频、词出现特殊位置加权、词素相关性加权函数和并列结构惩罚函数对词语进行主题影响度计算,具体影响度计算公式如下:其中,w表示当前要加权的词语;ε为词频和特殊位置加权系数;η为词素加权系数;λ为并列结构加权系数;wei(w)表示当前词经加权后的主题影响度。基于以上方法计算词语对主题的影响度,根据词语对主题的影响度大小,确定是否为关键词。4实验与结果分析4.1tf-idf实验本文选取了617篇汽车相关专利和131篇印刷相关专利文献作为实验语料。在对文本进行预处理之后,由公式(1)分别计算汽车专利领域和印刷专利领域内相关文献中词语的TF-IDF权值,然后分别提取两个领域内TFIDF值较低的词语,采用公式(2)计算判断其是否为公共词,经实验验证,选取ζ=10,δ=0.04,再以“、”“和”“与”作为并列结构的特征标识词进行提取,去除公共词后,按照公式(10)对抽取的词语进行加权,多次实验验证,选取α实验过程中采用三种方法进行关键词抽取实验:实验1经典TF-IDF。采用经典的TF-IDF算法计算词语权重抽取关键词。实验2局部加权TF-IDF。去除公共词的基础之上,对词语采用一般文献词语加权方法,即公式(1)先对词语进行加权,再根据TF-IDF算法进行关键词抽取。实验3本文方法。采用去除公共词,通过区域加权、词素加权和并列惩罚函数相结合的方式抽取关键词。4.2加权tf-idf算法局部加权后专利的表现性比较本文采用正确率(P)、召回率(R)两个指标对上述实验的效果进行评价,具体计算公式如下:为了统计3种方法的实验结果,随机抽取了100篇汽车专利相关文献进行结果统计,对于每一种方法取10组不同的结果,并将每一种方法的每一组实验结果抽取的关键词与人工标引的结果进行对比,计算其正确率、召回率、F值。三种方法的正确率统计结果如图1所示。三种方法召回率的统计结果如图2所示。三种方法统计结果的F值如图3所示。从正确率、召回率和F值三个统计图可以明显看出,本文所采用的加权方法在抽取关键词个数大于4时,正确率和召回率都要优于局部区域位置加权后的TF-IDF算法和经典的TF-IDF算法;但是在抽取关键词2-4个时,加权TF-IDF方法要优于本文的方法,因为加权TF-IDF方法对“标题”部分和“技术领域(摘要)”部分赋以的权重较高,导致前4个关键词一般都是“标题”部分和“技术领域(摘要)”部分的,这样对整篇专利的主题表现性不够丰富。在关键词5-9个的范围内,关键词对专利文献的表现性更丰富,比局部加权TF-IDF算法要好。本文所采用的加权算法可以把部分出现频次较低的关键词的权重提高,把部分出现频次高但非关键词的权重降低,说明本文提出的相同词素加权算法和并列结构惩罚算法可以很好地抽取关键词。5算法的分类及改进针对专利文献,本文提出了公共词的概念并基于TF-IDF算法思想提出了提取领域公共词的方法,分析了公共词在专利文献主题描述上的作用,将公共词去除,使得实验结果有了较大提高;分析传统词语加权方法的特点,根据专利文献的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 黔南血液安全培训课件
- 2026年智能睡眠音频设备项目投资计划书
- 砖瓦生产中控员安全操作竞赛考核试卷含答案
- 高处作业吊篮安装拆卸工操作安全能力考核试卷含答案
- 贵金属精炼工岗前规程考核试卷含答案
- 二硫化碳生产工复测模拟考核试卷含答案
- 皇帝人物介绍
- 木地板成型工测试验证水平考核试卷含答案
- 通信终端设备制造工安全培训竞赛考核试卷含答案
- 输气工风险评估模拟考核试卷含答案
- 2026年辽宁金融职业学院单招职业技能测试题库附答案解析
- 2026北京海淀初三上学期期末语文试卷和答案
- 2026年宁夏贺兰工业园区管委会工作人员社会化公开招聘备考题库带答案详解
- NB-T32036-2017光伏发电工程达标投产验收规程
- 商业地产行业商业地产投资机会
- 两轮车控制器行业报告
- JSA临时用电作业安全分析表
- 2015-2022年北京卫生职业学院高职单招语文/数学/英语笔试参考题库含答案解析
- 赛肤润常见临床应用2010年
- 提高铝模板施工质量合格率
- 传感器与检测技术习题集
评论
0/150
提交评论