浅析CPC分类号在生物信息领域检索中的应用_第1页
浅析CPC分类号在生物信息领域检索中的应用_第2页
浅析CPC分类号在生物信息领域检索中的应用_第3页
浅析CPC分类号在生物信息领域检索中的应用_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、    浅析cpc分类号在生物信息领域检索中的应用    张诗伯摘 要: 本文结合ipc和cpc,对cpc在生物信息领域检索中的应用进行分析,通过cpc技术分支的关联性,分析了实际使用过程可能存在的漏检问题,探索了cpc分类号在生物信息领域检索的检索策略。关键词: cpc;生物信息学;检索策略;漏检一、引言cpc分类体系是欧洲专利局和美国专利与商标局联合开发的用于专利文件的全球分类系统,目前cpc包含约26万个分类号,分类的细致程度远超其他分类体系,涉及的主题更加具体,从而能够有效提高专利检索的效率1。然而在实际的检索中,往往存在符合度较高的分类号却又有

2、漏检发生的情况,主要原因还是在分类时分至了关联性较高的其他分类下。生物信息领域是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一。其研究重点主要体现在基因组学和蛋白质组学两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。随着生物信息学的不断深入,生物信息学产业进入跨越式发展,ipc和cpc分类表中根据该类专利设置了相应分类小组g06f19/00下的一点组g06f19/10。二、g06f19/10下cpc与ipc分类系统g06f19/10的ipc分类定义为生物信息学,即计算分子生物学中的遗传或蛋白质相

3、关的数据处理方法或系统,并在附注中指出:本组也包括固有或暗含,但并不明确提及的数据处理的生物信息学系统和方法。cpc中g06g19/10小组下细分条目与ipc是大体一致的,并无更细的分类。这里为分析该一点组下各二点组技术分支的关联性,首先在sipoabs数据库(2017年6月)得到各个细分标引数量,并计算得到ipc和cpc检索的重合度。藉由ipc和cpc的分类思想有明显区别,前者偏向于整体上体现发明构思,而后者则试图从多个维度来描述发明构思。该标引数量和重合度的可以很好的反映出以某项技术为发明点的发明(ipc)和包含该项技术的发明(cpc)之间的关系。通过对比表1中各二点组的ipc、cpc标引

4、量可以明显的看出,虽然cpc实施时间晚于ipc该小组的实施时间(2011.1),但其标引数量却已经远高于ipc。两者数量的巨大差异的原因可能是包含某项技术的发明本来就是要多于以该项技术为发明点的发明。此外,同一细分下的ipc和cpc所标引的文章重合度也不高,如表1所示,总体上来说在70%左右。可见,在检索过程中,直接将其ipc对应的cpc分类号进行检索,具有较高的漏检风险。进一步分析,重合度的不高可能由技术分支存在关联性导致。由于生物信息技术的分类中相应的技术分支关联性较高,导致易被分至临近的组中。本文基于ipc和其他cpc分类号之间的重合度,对g06f19/10小组的技术分支关联性进行分析。

5、如,ipc分类号为g06f19/12代表以生物学/基因模型的为发明点的发明,将其与cpc分类号为g06f19/12g06f19/28进行与计算(检索式:g06f19/12/ic and g06f19/12/cpc),再将与计算的结果数除以该ipc分类的结果数计算得到跨组重合度。如图1所示,g06f19/12以生物学/基因模型领域的发明,与g06f19/18遗传学/基因变异、g06f19/24利用学习机进行数据分析关联性较高。而g06f19/18遗传学/基因变异的发明则与g06f19/22序列比较、g06f19/24利用学习机进行数据分析关联。通过对g06f19/10分类的分析可以得到:(1)c

6、pc分类号标引量远大于ipc,在检索时可优先根据其分类号选择相应及关联性大的cpc號进行检索,反之,通过ipc分类号进行限制是不合适的;(2)分类号上的关联性体现出在cpc通过该组多个二点组分类号来作为基本检索要素是需要谨慎的,例如在一个通过神经网络进行序列分析的发明,g06f19/22和g06f19/24可以很好的表达出该构思,此时考虑g06f19/22和g06f19/24技术的关联较小,可以采用与计算以提升检索效率。三、总结生物信息学作为一项新技术,其专利分类号在具体技术分支的分类上还有很多不完善的地方。本文分析得到的分类号相应技术分支具有一定程度的关联性,该关联性易导致漏检,从而给检索过程中具体分类号的使用增加了难度。所以在该领域cpc分类号的选用应充

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论