下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、专利信息获取与分析系统关键技术探讨 从大环境来看,专利已经成为了重要的技术情报信息源,在企业竞争过程中具有重要价值。若企业可有效获取专利信息,并加以利用,将大幅度压缩产品研发时间,降低研发经费,为企业带来可观的价值。基于此,本文对专利信息获取系统与分析系统进行了综合性阐述,分析了其中的关键性技术,以供参考。 【关键词】专利信息 关键技术 检索 1 专利系统概述 伴随着计算机技术的不断发展,以计算机平台为基础的专利系统愈来愈多,特别是可视化分析软件呈现了明显的上升趋势,如ucinet、netdraw、pajek等网络分析软件的出现,极大程度上推动了分析可视化的发展,为专利系统进一步完善提供了基础
2、。可视化分析软件相对于传统检索模型而言,表达更为直观、便利性较好,可为用户提供更为优质的服务。这将是未来专利系统发展的重要方向之一。 2 专利系统架构分析 2.1 整体结构 本研究设计的专利系统主要由三个部分构成,即专利信息检索子模块、信息抽取子模块,信息分析子模块。实际应用过程中,用户先经由系统用户接口,给予某种专利检索查询表达方式。此时,系统检索模块则会对这种表达方式进行针对性处理,对其语法进行调整,转变为统一化的规范性表达方式。经过检索模块处理后,可对检索词概念扩展影响因素进行消除,并经由知识库对检索词进行概念扩张。基于deep web主题爬虫对检索表达式进行模拟,并查询url构造,可达
3、到抓取网页源文件的目的。上述网页文件会被系统下载下来,再通过抽取子模块进行预处理,其中网页中不合规格的内容将会被清除。经过xml转换,并结合相关技术(xml、xslt)对有效信息进行抽取,以获取专利数据库。 2.2 检索框架 检索子模块对表达式语法进行处理后,语法结构也就变得相对完整。但即便如此,表达式在语义层面上依然会出现偏差。在关键词检索方面,如果语义偏离程度较大,将会使检索质量有所下降。为了降低语义偏差所带来的影响,可构建专门的领域知识库,对检索词汇语义进行有效概念扩展,从而对检索表达方式进行优化。这样,信息检索将由词汇层面上升至概念层面。实际专利检索过程中,查询活动几乎都是通过专利网络
4、数据库完成的,这个过程中需要利用deep web来收集信息。因此,采取deep web主题爬虫对相关数据源进行分析、处理,可让检索活动更为高效,从而为用户提供更为可靠的信息。 2.3 抽取框架 抽取子模块主要通过以下流程进行工作,如图1所示。 抽取子模块的主要功能是对相关网页信息进行处理,通过格式整理、xml转化等,对网页中的专利信息进行有效提取,并将这些信息收集、整合起来,以获取相关专利数据库。从网络环境来看,多数网页格式为html。然而,从html网页中提取信息具有一定难度。因此,需先将html转变为xml,然后通过相关技术(xml、xslt)来提取有效内容。抽取完成后,数据库可收入相关专
5、利信息(基于数据库映射技术),并得到本地专利数据库。用户再次查询的时候,便可借助本地数据库执行。 2.4 分析框架 系统通过分析子模块可对专利信息进行预分析,并对深层次信息进行发掘。将专利数据从专利文献当中提取出来,这对于技术分析具有重要的支持作用。分析子模块可充分利用本地数据库,并从中筛选出累积的专利申请号等信息。这些信息被提取后,通过专门的软件进行统计,得到相关统计图表,这样便可清晰地了解到专利发展趋势及方向。 3 关键性技术概述 实现专利系统的过程中,通常会涉及到以下关键技术: (1)表达式语法转换。检索词中的字母会统一成小写字母;当出现连字号(-)时,会直接删除;无实际含义词汇(停用词
6、)会直接删除;对具有实际意义的词汇会进行分词处理,使关键词概念得以有效扩展。 (2)领域知识库。构建领域知识库,便于关键词实现概念扩展,从而提升检索质量。领域知识库由dbpedia数据集及wordnet语义词典构成。检索词经规范化处理后,经由领域知识库予以扩展,得到同义词集合。 (3)deep web主题爬虫。本研究中deep web主题爬虫主要面向对象为uspto,爬虫通过分析url结构及经过概念扩展的检索表达式,将url构造以表单方式提交,并与数据库进行交互,得到对应的专利信息,以可视化的方式供于用户使用。 4 结语 专利是目前技术信息的有效载体之一,其容纳了绝大部分最新技术情报。对于企业发展乃至行业发展而言,专利有着重要的价值。在这种背景下,专利信息获取与分析系统将愈来愈受到关注,未来其将获取更为广泛的应用空间。 参考文献 1翟东升,刘晨,欧阳轶慧.专利信息获取分析系统设计与实现j.现代图书情报技术,2009,05:55-60. 2陈琼娣.基于词频分析的清洁技术专利检索策略研究j.情报杂志,2013,06:47-52.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 办公楼食堂厨师招聘合同
- 矿产资源总经理招聘协议
- 住宅小区监理协议书
- 塑料厂事故死亡赔偿协议
- 江苏商业中心中心建设合同模板
- 写给顾客的感谢信
- 新生儿心脏病护理查房
- 湖南省常德市(2024年-2025年小学五年级语文)人教版摸底考试((上下)学期)试卷及答案
- 儿子婚庆父亲的讲话稿(14篇)
- 能源物联网的应用
- 2024年危险化学品经营单位安全管理人员证考试题库
- JJF(苏) 275-2024 测斜仪校验台校准规范
- 【9道期中】安徽省黄山地区2023-2024学年九年级上学期期中考试道德与法治试题(含详解)
- 2024年时事政治试题【带答案】
- 2024年医疗污水处理管理制度范本(二篇)
- 意识形态分析研判制度
- 台州市水务集团股份有限公司招聘笔试题库2024
- 2024年武汉铁路局招聘236人历年高频500题难、易错点模拟试题附带答案详解
- Unit 5 Fun Clubs Section A Pronunciation 1-2e 教学设计 2024-2025学年人教版英语七年级上册
- 教学计划(教学计划)-2024-2025学年大象版五年级科学上册
- 广东省深圳市2023-2024学年高一物理上学期1月期末考试含解析
评论
0/150
提交评论