数据管理平台项目技术解决方案_第1页
数据管理平台项目技术解决方案_第2页
数据管理平台项目技术解决方案_第3页
数据管理平台项目技术解决方案_第4页
数据管理平台项目技术解决方案_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第1.1.1项目背景 31.1.2项目概述 51.1.3建设目标 71.1.4建设必要性 81.1.5建设依据 91.1.6项目现状 101.1.7技术路线 121.1.8总体框架 141.1.9功能设计 15数据管理 15.1数据来源 15.2数据采集 15.3数据整合 17.4数据接入 17.5数据存储与计算 18知识图谱构建 23.1本体构建与管理 24.2数据抽取 25.3知识融合 27.4知识推理 28.5知识图谱存储与管理 29.6预览图谱 29.7全量&增量更新图谱数据 29.8编辑图谱数据 30.9删除图谱 30.10复制图谱 30.11导出图谱数据 30专题库管理 30.1专题知识构建与管理 30.2专题库首页管理 31.3专题库模板管理 32.4专题库目录结构 32.5专题库多文件上传 32.6专题库知识增删 33.7专题库文档排序 33.8专题库查询和搜索 33.9专题库关联文档 33.10专题库文档版本管理 33.11专题库权限管理 34.12专题库存储加密 34系统管理 34.1组织架构设置 34.2角色权限管理 34.3操作日志记录 35.4个人事务管理 36.5数据管理 36.6门户配置 37.7统一认证 38多维度导航 39.1学科分类导航 39.2文献来源导航 39.3文献作者导航 40.4出版物来源导航 40.5语种分类导航 40.6关键词导航 40.7行业导航 40.8年度导航 41.9机构导航 42科技资源统一检索 42.1检索方式 42.2检索结果 43.3智能推送 44项目背景数据科技发展水平是国家的核心竞争力,建设以知识服务为目标的科技资源已成为国家软实力的重要标志。当今世界,各国科技资源在影响区域决策、引导社会舆论、服务公共事务、体现国家软实力等方面发挥着重要作用。高端科技资源建设,不仅是国家进行宏观决策的有力支撑,也是推进国家治理体系和治理能力现代化的重要内容,加快以计算机科学与人工智能为代表的科技领域知识管理与服务能力建设,是科技强国的紧迫需求。在产业数字化发展的背景下,国家大力支持数据融合应用在产业创新发展中发挥更大作用。为深入实施创新驱动发展战略,规范管理科技资源共享服务平台,推进科技资源开放共享,依据《国家科技资源共享服务平台管理办法》(国科发基〔2018〕48号),《吉林省科技资源共享服务平台管理办法》,规范管理吉林省科技资源共享平台,推进科技资源开放共享,提高科技资源利用效率,促进创新创业,为加速吉林经济振兴提供科技支撑。科学技术数据研究所是中国科学技术工作者的群众组织,是中国共产党领导下的人民团体,是党和政府联系科学技术工作者的桥梁和纽带,是国家推动科学技术事业发展的重要力量。汇聚科学技术数据研究内外部数据,引领数据资源的有效治理和共享融合,开展以数据的深度挖掘与融合应用为特征的智能化应用,打造动态感知、互联、智能的数据管理平台,是科学技术数据研究数据化建设的重要内容。

项目概述数据管理平台是基础支撑与条件保障类科技创新基地,平台面向全省科技创新、经济社会发展和创新社会治理,加强优质科技资源有效集成,提升科技资源使用效率,为科学研究、技术进步和社会发展提供数据化、社会化的科技资源共享服务,遵循合理布局、整合共享、分级分类、动态调整的基本原则,加强能力建设,规范责任主体,促进开放共享。平台依托科学技术数据研究所学科门类齐全、领域交叉充分、智力资源密集的独特优势,聚焦科技领域,坚持问题导向,以全球视野动态汇聚、融合关联中国科协内外资源,构建面向全球科技领域的覆盖面广、权威性高、实时性强的知识数据资源池,形成“科技领域——专家人才——科研成果”的科技资源知识图谱,建成“研究兴趣/学术影响/研究方向”等立体、多维、高精度的专家画像标签体系,建成数据知识领域研究热点、趋势、人才态势感知服务,利用复杂网络关系分析、交互学习等挖掘技术为宏观数据管理与决策提供支持服务。通过平台的建设,整理省内数据拥有单位的科学研究数据、检测数据、勘查数据等,建立起若干数据中心和主体数据库,搭建吉林省科学数据平台门户网站,为吉林省各行各业,特别是政府部门开展科技管理、决策,企业、高校、研究院所开展研发及横向联合、数据沟通,为发挥吉林省科教优势,促进经济发展提供及时有效的服务和支持。它是吉林省创新体系的重要组成部分,具有投入稳定、社会共享、公益性和持续性等特点,对全省经济、社会和科技快速发展具有重要意义。

建设目标数据科技发展水平是国家的核心竞争力,建设以知识服务为目标的科技资源已成为国家软实力的重要标志。本项目以科学技术数据研究所数据中心的大数据为支撑,构建大规模实体要素之间的知识网络图谱,形成立体全景科技态势:感知服务能力,为宏观科技管理与决策提供支持服务。进一步吸收、融合多来源异构数据,通过持续的数据治理,不断提高数据质量、扩大数据范围、提升数据服务能力;强化数据处理、数据管控和数据挖掘能力,建设更为丰富、更加精准的科技管理大数据服务,为不断提升科技管理现代化创新能力的需求提供全面的技术和数据支撑。项目主要建设目的如下:1.结合国家战略和吉林省经济社会发展的需求,持续开展重要科技资源的收集、整理、保存工作;2.承接科技计划项目实施形成的科技资源汇交、整理和保存任务;3.开展科技资源的社会共享,面向各类科技创新活动提供公共服务,开展科学普及,根据创新需求整合资源开展定制服务;4.建设和维护在线服务系统,开展科技资源管理与共享服务技术研究和应用。最终,实现加强优质科技资源有效集成,提升科技资源使用效率,为科学研究、技术进步和社会发展提供数据化、社会化的科技资源共享服务平台,推进科技资源开放共享,提高科技资源利用效率,促进创新创业,为加速吉林经济振兴提供科技支撑。

建设必要性为进一步加强优质科技资源有效集成,提升科技资源使用效率,科学技术数据研究所依据“盘活数据资产、发挥数据效能,科学性、可行性、创新性、前瞻性相结合”的原则,统筹开展了数据管理平台建设工作,尝试在科技人才精准服务、科技人才成长规律以及科技人才区域流动等方面提供大数据决策支撑服务。系统以人、机构、成果为纽带和数据组织核心,对所有类型实体数据资源进行全面融合,形成融会贯通的大规模关系网络,并基于此实现了多类深层知识分析挖掘,在一定程度上,实现了科学技术数据研究现有业务数据资源与互联网数据资源的消歧与融合,在资源共享、业务协同、决策支持等方面取得一定效果。数据作为生产要素的属性表明,其未来必将走向市场。数据应用范围将从传统的组织内部应用为主,发展为支撑内部和服务外部并重,数据资产应用和服务范围的扩大,将成为组织战略发展的一部分。今后一段时期,组织能否树立数据作为生产要素的战略意识,挖掘和利用数据价值、盘活数据资源,实现数据资产保值到增值,决定了组织能否迈出生产要素到生产力转化的重要一步。

建设依据为深入实施创新驱动发展战略,规范管理科技资源共享服务平台,推进科技资源开放共享,依据《国家科技资源共享服务平台管理办法》(国科发基〔2018〕48号),本平台的建设围绕吉林省深入实施创新驱动发展战略,重点利用科研设备设施、科学数据、生物种质、实验材料等科技资源而设立的专业化、综合性公共服务平台,构建大规模实体要素之间的知识网络图谱,形成立体全景科技态势感知服务能力。

项目现状近年来,随着“科教兴省”战略的实施,尤其是党的十六届五中全会提出把增强自主创新能力作为科学技术发展的战略基点和调整产业结构、转变增长方式的中心环节以来,吉林省对科技的投入不断增加。到2021年全省科学研究与技术开发机构422个,其中政府部门所属独立研究与开发机构135个,高等院校所属科研机构170个,大中型工业企业办科研机构117个。从事科技活动人员8.2万人,其中研究与发展人员2.8万人。拥有中国科学院和中国工程院院士29人。全省己建国家及省级高技术研究重点实验室、工程技术研究中心(创新中心)等科技公共服务平台93个,经国家认定企业技术中心23个。全社会科技创新投入大幅度增长,2021年研究与发展活动经费(内部)支出50.9亿元,占全省生产总值的0.96%。如此庞大的科技数据资源在管理方面,主要存在以下现象:海量“孤岛”科技数据难以共享。科技数据的数据源载体多、存储形式多样、数据类型广泛,数据资源孤立分散,给科研人员的数据分析、共享及管理过程造成了比较大的麻烦。在数据驱动的研究背景下,海量数据通过多种途径和方式获取,并存储在硬盘、数据库或其他存储介质中,则研究者每次进行数据分析时都要采用不同的方式调取数据分别管理。与此同时,数据共享的方式也比较局限,若是使用网盘共享,数据上传、下载耗时耗力;移动硬盘共享倘若后续发生数据修改也很难再同步给相关共享人;云计算虽然可以调用公开数据,但有些无法提供本地上传数据集的接口,也并不方便。科技数据数据资源配置不平衡。吉林省科技数据资源配置集中度较高,少数的科研机构、高等院校占有大量的科技数据资源,对于多数企业,特别是中小企业而言一方面自身对于科技数据投入的认识不足,而且企业应用数据技术的水平偏低,应用范围只停留在设立企业网站上;另一方而购买大量的网络数据库资源需要雄厚的资金支持,往往大大超出企业的投资成本。科技数据存储安全性都没有保障。传统的有限防护机制不一定能保障数据权益和数据安全,数据共享者将面临风险责任与权利受益的矛盾。一方面,科学数据本身具有可复制性,在共享中易被窃取,造成数据贡献者自身产权受到侵犯;另一方面,数据的集中化共享很有可能导致数据使用边界模糊,增加了数据误用、数据滥用等多重风险。现有大部分共享平台可追溯性差,即使数据泄露,参与用户也很难追究。

技术路线系统应用软件采用基于组件的多层架构。最底层是系统平台层,主要基于标准的J2EE组件。上层是应用平台层,包括工作流引擎组织权限框架、基础数据访问组件等。这些组件分别封装了工作流、组织权限、数据访问等方面的基本功能部件,是应用系统构建业务逻辑的基础。在应用平台层之上,是由各种业务数据模型、配置数据、组织权限定义、应用系统的业务处理逻辑和界面控制逻辑等组成的软件系统。通过组件化拼装,形成了整个应用软件系统,并通过内部息互联确保整个系统稳定、有效地运行。同时这种架构已经充分考虑到未来系统的扩展性及集成性,为未来系统的扩容和与其他相关应用系统的整合提供技术保障。技术架构1)分布式缓存。分布式缓存技术四用于动态Web应用以减轻数据库负担。它是通过在内存中缓存数据对象来减少读取数据库的次数,从而提高数据库响应速度。2)网页HTML静态化。效率最高、消耗最小的就是纯静态化的HTML页面叫,因此本系统尽可能多地使网站上的页面采用静态页面来实现。由于本系统网页内容需频繁更新,采用了数据发布系统实现最简单的数据录人并自动生成静态页面,同时具备频道管理、权限管理和自动抓取等功能,避免了大量数据被前台程序调用,从而减少大量的数据库访问请求。.3)数据库集群和负载均衡。本系统采用了数据库集群技术,解决网站面对大量访问时数据库的瓶颈问题。负载均衡解决了网站高负荷访问和大量并发请求的快速响应问题。

总体框架系统采用B/S架构即浏览器和服务器模式,用户通过浏览器输入指定的IP或者网址即可访问到管理系统。与传统的C/S架构相比,大大简化了客户端,使得客户端机器只要能上网就可以实现开发、维护等几乎所有工作都集中在服务器端,当企业对系统应用进行维护与升级时,只需更新服务器端即可,这节省了大量的时间与成本。同时系统要求:企业内部所有人员均需要能够进行简单操作,同时少数的系统管理人员会进行稍微复杂的管理操作;系统能够进行简单部署,集中管理。因此采用B/S结构模式进行开发较为恰当。

功能设计数据管理平台的综合集成,是查询、统计、关联、图谱及可视化等各类功能的数据基石。数据管理平台实现了各来源科技数据资源的导入和集成管理,平台支持研究院现有业务数据资源导入并支持开放数据的获取。平台功能主要包括数据管理、知识图谱构建、专题库管理、系统管理、多维度导航、科技资源统一检索。数据管理数据管理包含数据源分析、数据接入、数据存储与计算等。数据来源本项目中所用到的数据主要是甲方合作的商业数据:包含中国知网、万方数据、维普数据、国家科技图书文献中心、中国工程院知识中心、读秀、尚唯科技报告和产品样本库、中经数据库、万方、科慧项目数据和中国科学院计算机所的科学数据等。所涉及到的数据通过数据库或者接口方式接入,类型包含但不限于:期刊论文、学位论文、会议论文、科技报告、产品样品、标准、科技成果、科技政策、人才数据等。数据采集(1)抓取Internet网络资源,可以对静态网页中的文本数据进行抓取和下载,可实现基于模板的网页数据提取和元数据抽取。(2)自动下载网络数据库中的数据,可自动下载网络数据库的元数据以及其中的数据,并可根据数据的数据自动抽取数据库的元数据。(3)对本地相关文档数据进行采集,可自动对本地数据资源属性进行抽取,并对资源进行相应标注。(4)对数据进行自动过滤、归类和整理,对所采集的数据进行重复性过滤,去除重复资源,在此基础上对获取的资源进行归类,并对归类后的资源进行索引、重排等整理。(5)根据用户需求,按照用户的个性化需求在资源中选择合适的数据提供给用户,并按照需求将相关数据加载到资源库中。(6)对Internet进行检测和监控,为用户提供任务调度预设功能,根据用户的设定定期跟踪网络资源的变化情况,对新增资源进行识别,并在本地库中进行记录,实现实时网络监测和监控。数据整合根据不同数据资源所共有的标题、作者、单位、出版刊物、关键词、中英文摘要、参考文献等数据,整合到一个检索系统中,用户通过元数据对资源进行检索,系统的搜索引擎将遍览各资源数据库,最后将检索结果整合在一起将数据资源的概要和链接提交给用户。基于数据的整合,在用户提交检索请求前就已将数据资源整合到一起,因此在用户检索时期效率较高。数据接入数据管理平台提供数据源接入的功能,通过监控数据源的数据,实现实时及离线数据的同步,如果是实时的数据,会转发到数据分发服务上,由数据分发服务对数据进行实时分析,与存储。计划支持关系型数据,或者通过监控数据库的binlog,来实现数据的同步。在数据同步方式建立好,需要通过配置的方式,将源数据的属性信息与数据平台的数据仓库的属性进行关联,这样才能完成从数据源将数据转化为数据仓库的数据结构,适应后面的数据清洗、计算、归总等处理过程,通过提供数据源,数据源的字典等信息,将数据导入到数据平台。平台支持不同种类、不同数据源、不同目标库的数据接入。支持Oracle、Sql-Server、My-Sql、H-base、Hive等主流数据库,支持常用文件类型:XML、CSV、EXCEL等。数据库接入方式:ODBC方式联接ODBC(OpenDataBaseConnectivity)翻译过来就是开放数据库互联。是由微软主导的数据库链接标准。是一种底层的访问技术,ODBCAPI可以让客户应用程序能从底层设置和控制数据库,完成一些高级数据库技术无法完成的功能;但不足之处由于ODBC是只能用于关系型数据库,使得利用ODBC很难访问对象数据库及其他非关系数据库。DAO方式联接DAO(DataAccessObject)数据访问对象型。不提供远程访问功能。只提供了一种通过程序代码创建和操纵数据库的机制。最大特点是对MICROSOFTJET数据库的操作很方便,而且是操作JET数据库时性能最好的技术接口之一。并且它并不只能用于访问这种数据库,事实上,通过DAO技术可以访问从文本文件到大型后台数据库等多种数据格式。MicrosoftJet为Access和VisualBasic这样的产品提供了数据引擎。ADO方式联接ADO(ActiveXDataObject),是ActiveX数据对象,是基于OLEDB的访问接口,它是面向对象的OLEDB技术,继承了OLEDB的优点。属于数据库访问的高层接口。是在OLEDB规程下开发的,基于OLE-DB建立连接的局部和远程数据库访问技术。同OLE-DB一样,它要“年轻”些。使用中,我们一般用OLE-DB和ADO替代DAO和RDO。数据存储与计算(1)数据存储分布式存储系统满足海量数字媒体资源的分布式存储,存储平台实现以下功能点:数据加密(不存储裸数据,按块加密存储);加密系统是由明文、密文、算法和密钥组成。发送方通过加密设备或加密算法,用加密密钥将数据加密后发送出去。接收方在收到密文后,用解密密钥将密文解密,恢复为明文。在传输过程中,即使密文被非法分子偷窃获取,得到的也只是无法识别的密文,从而起到数据保密的作用。海量的数据存储能力(亿级的存储能力);提供基于分布式文件系统和并行架构的大数据存储能力,支持PB级数据规模的高可靠和高可用存储,支持存放多种文件格式。具备持续的灵活的扩容能力;支持系统盘和本地盘扩容,弹性按需扩容。支持每天百万级文件数以上写入;利用页缓存技术+磁盘顺序写和零拷贝技术实现每天百万级文件数以上写入。支持每天千万级文件数据读取;通过采用开辟大块连续磁盘空间的方式来存储大量文件,也将逻辑上连续的数据尽可能地存储在磁盘阵列的连续空间上。通过负载均衡能够持续提高系统吞吐量;负载均衡提高系统的吞吐量,有效降低系统的单点故障率,让系统降低对外网端口的依赖,降低系统对网络带宽的要求,实现不停机升级系统。提供多种语言接口。包括java,c,.net多种语言支持的客户端接口,方便其他应用系统集成调用。数据存储方式:顺序存储方法:该方法把逻辑上相邻的结点存储在物理位置上相邻的存储单元里,结点间的逻辑关系由存储单元的邻接关系来体现。链接存储方法:该方法不要求逻辑上相邻的结点在物理位置上亦相邻,结点间的逻辑关系由附加的指针字段表示。索引存储方法:该方法通常在储存结点信息的同时,还建立附加的索引表。索引表由若干索引项组成。若每个结点在索引表中都有一个索引项,则该索引表称之为稠密索引(DenseIndex)。若一组结点在索引表中只对应一个索引项,则该索引表称为稀疏索引(SpareIndex)。散列存储方法:该方法的基本思想是:根据结点的关键字直接计算出该结点的存储地址。散列的数据访问速度要高于数组,因为可以依据存储数据的部分内容找到数据在数组中的存储位置,进而能够快速实现数据的访问,理想的散列访问速度是非常迅速的,而不像在数组中的遍历过程,采用存储数组中内容的部分元素作为映射函数的输入,映射函数的输出就是存储数据的位置,这样的访问速度就省去了遍历数组的实现,因此时间复杂度可以认为为O(1),而数组遍历的时间复杂度为O(n)。数据存储阶段需掌握的技术有:hbase、hive、sqoop等。1、HBaseHBase是一个分布式的、面向列的开源数据库,它不同于一般的关系数据库,更适合于非结构化数据存储的数据库,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,大数据开发需掌握HBase基础知识、应用、架构以及高级用法等。2、HiveHive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行,十分适合数据仓库的统计分析。对于Hive需掌握其安装、应用及高级操作等。(2)数据计算支持提供对海量数据汇总后的多种数据并行处理框架,包括离线的批处理分析、SQL分析、以及近实时的内存分析,可提供的组件能力包含但不限于:分布式批处理引擎MapReduce、分布式内存计算引擎Spark、流处理计算引擎Storm、数据仓储组件Hive等。对于采集到的不同的数据集,可能存在不同的结构和模式,如文件、XML树、关系表等,表现为数据的异构性。对多个异构的数据集,需要做进一步集成处理或整合处理,将来自不同数据集的数据收集、整理、清洗、转换后,生成到一个新的数据集,为后续查询和分析处理提供统一的数据视图。数据实时计算阶段需掌握的技术有:Mahout、Spark、storm。1、SparkSpark是专为大规模数据处理而设计的快速通用的计算引擎,其提供了一个全面、统一的框架用于管理各种不同性质的数据集和数据源的大数据处理的需求,大数据开发需掌握Spark基础、SparkJob、SparkRDD、sparkjob部署与资源分配、Sparkshuffle、Spark内存管理、Spark广播变量、SparkSQL、SparkStreaming以及SparkML等相关知识。2、stormStorm为分布式实时计算提供了一组通用原语,可被用于“流处理”之中,实时处理消息并更新数据库。这是管理队列及工作者集群的另一种方式。Storm可以方便地在一个计算机集群中编写与扩展复杂的实时计算,Storm用于实时处理,就好比Hadoop用于批处理。Storm保证每个消息都会得到处理,而且它很快——在一个小集群中,每秒可以处理数以百万计的消息。(3)数据传输支持不同类型的抽取汇聚任务配置,主要包括异构数据库之间数据传输汇聚,不同类型、跨服务器的文件型数据传输,数据库和文件类、服务接口间相互传输等。支持数据清洗和数据规范的规则自定义,主要包括NULL值替换、字符串操作、数据类型转换、函数依赖、正则处理、组合字段、数据比对、自定义SQL脚本执行、JSON输出等数据转换规则,以及对相似重复记录和属性值异常等问题数据清洗规则,以及MD5加密规则。数据传输方式:按数据传输顺序:并行传输和串行传输按数据传输的同步方式:同步传输和异步传输按数据传输的流向和时间关系:单工、半双工和全双工数据传输数据传输步骤:在发送端和接收端之间打开同步传输信道;由发送端通过同步信道派送多个传输开始指示符分组直到接收到接收端(的部件上的接受应答;在发送端接收接受应答之后,由发送端通过同步信道派送至少一个有效负荷分组;在检测到分组的不良接收之后,由接收端向发送端派送出错消息;在由接收端派送的出错消息被发送端接收的情况下从出错位置开始而后重新开始传输有效负荷数据。知识图谱构建科技资源知识图谱处理与融合以科技人才科技成果、组织机构为核心,结合基于规则的方法和人工智能方法,实现数据的高效消歧与融合,构建基于科技大数据的多维统计数据仓库,建成面向科技服务的知识图谱。知识图谱构建包含本体构建与管理、数据抽取、知识融合、知识推理、知识图谱存储与管理。本体构建与管理本体构建为知识抽取提供规范化描述的概念层次体系和业务知识库,实现实体及实体属性、实体与实体之间的关系及关系属性的定义。本体是图谱的模型,是对构成图谱的数据的一种模式约束。对于知识图谱的构建,一般是由垂直领域的行业专家和知识图谱专家合作完成。本体的构建和设计对于知识图谱的构建至关重要。可以通过梳理领域知识、术语词典、专家的人工经验等作为本体构建的基础,结合知识图谱的应用场景来完善图谱的构建,最终获得实体类别、类别之间的关系、实体包含的属性定义。本体构建是指在模式层构建知识的概念模板,规范化描述指定领域内的概念及概念之间的关系,其过程又包括概念提取和概念间关系提取两部分。根据构建过程的自动化程度不同,可分为手工构建、半自动构建以及自动构建。本体构建的目的是构建知识数据模型和层次体系,主要方法是人工编辑、实体相似度、实体关系自动抽取等。数据抽取对多源异构数据进行抽取和结构化表示,将结构化的各领域知识输出后,进行知识融合形成知识图谱。数据抽取包括以下组件:数据预处理、知识抽取管理。知识抽取的目的是根据不同的数据源、不同的数据格式,完成实体、属性、关系这种知识的抽取。这是知识图谱构建流程中非常关键的一环,知识抽取的质量决定了知识图谱的质量。实体之间的关系以及实体的属性值,都可以用三元组(主语、谓词、宾语)来表示,所以知识抽取又可以简单叫做三元组抽取。知识图谱构建支持结构化Key-Value格式和非结构化文本的三元组抽取。针对结构化数据,可以通过配置预置函数的组合,完成字段的处理。与之对应的,针对非结构化文本,云服务提供算法模型抽取能力,支持业界前沿的基于机器阅读理解(MachineReadingComprehension,MRC)的三元组抽取方法,通过使用多轮对话的思想进行三元组抽取,先抽取主语(Subject),然后根据抽取结果和候选谓词对应的模板构造问句抽取宾语(Object),最终组成(主语,谓词,宾语)三元组。知识图谱服务支持基于该算法的模型训练、预测以及管理功能,同时以插件形式完成流水线中知识抽取部分。数据预处理在配置数据源之前,需要将不同类型、不同格式的数据进行初步的预处理。比如:针对本地非电子化文档,需要先进行扫描电子化,结合OCR等技术将扫描件转换成文本文档。再比如:针对本地电子化文档,需要将本地文档按文档类型、格式进行归档解析整理成规范的格式,或者针对网络资源,需要根据网站特点,开发相应的爬虫,对数据进行爬取,并存储到本地数据库等等。还有一些第三方资源,需要获取相应的数据访问接口,并通过接口获取相应数据。整理好的数据上传到平台后,知识图就可以进行数据源的配置,包括指定格式的针对结构化数据和非结构化文本的配置等。知识抽取关系抽取关系抽取(RE)是知识抽取的核心内容,通过获取实体之间的某种语义关系或关系的类别,自动识别实体对及联系这一对实体的关系所构成的三元组。属性抽取属性抽取是知识库构建和应用的基础,通过不同信息源的原始数据中抽取实体的属性名和属性值,构建实体的属性列表,形成完整的实体概念,使实体完整化。属性抽取方法分为传统的监督、无监督和半监督属性抽取、基于神经网络的属性抽取和其他类型的属性抽取。目前大多数属性抽取是从文本数据中抽取信息。传统方法的监督学习的属性抽取使用HMM和CRF等抽取属性。基于神经网络的属性抽取一般作为序列标注任务,使用序列标注模型抽取文本的属性值。基于元模式的属性抽取将类型化的文本模式结构命名为元结构,可以在海量语料库中发现元模式,可使用该方法发现文本中高质量的属性描述语句,作为实体的属性值。多模态属性抽取方法及数据集,实现对多种类型数据的属性抽取。知识融合知识融合是融合各个层面的知识,包括融合不同知识库的同一实体、多个不同的知识图谱、多源异构的外部知识等,并确定知识图谱中的等价实例、等价类及等价属性,实现对有知识图谱的更新。平台支持多种不同来源的数据的融合,支持通过语义关系通过工具对同义、上下位、相关关系进行管理。知识融合的主要任务包含实体对齐和实体消歧。实体对齐实体对齐是知识融合阶段的主要任务,目的是发现语义相同的实体,主要方法是基于嵌入表示的实体对齐,实体对齐方法可分为传统概率模型、机器学习和神经网络等类别。传统概率模型基于属性相似关系,将实体对齐看作概率分类模型,根据相似度评分选择对齐实体。常用模型有CRF、马尔可夫逻辑网络和隐含狄利克雷分布等。基于机器学习的实体对齐将实体对齐看作二分类问题,可分为监督学习和无监督学习。在监督学习实体对齐中,使用预先人工标注部分训练模型,对未标注数据进行分类。如决策树、支持向量机等方法通过比较特征向量进行实体对齐,或考虑实体的相似度,使相似实体聚类对齐。在神经网络方法中,基于嵌入的实体对齐将不同的知识图谱表示为低维嵌入,并通过计算实体嵌入间的相似度来进行实体对齐。实体消歧实体消歧是根据给定文本,消除不同文本中实体指标的歧义,将其映射到实际的实体上。根据有无目标知识库划分,实体消歧主要有命名实体聚类消歧和命名实体链接消歧等方法。命名实体聚类消歧将所有的实体指称与实际的目标实体进行聚类。命名实体链接消歧则是根据文本中的上下文信息,将文本中的实体指称链接到候选的实际目标实体列表中。知识推理知识推理是针对知识图谱中已有事实或关系的不完备性,挖掘或推断出未知或隐含的语义关系。知识推理的对象可以为实体、关系和知识图谱的结构等。知识推理主要有逻辑规则、嵌入表示和神经网络三类方法。支持可配置可编辑的知识推理功能,基于路径查询、标签传递、图聚类算法实现基于图谱数据的关系分析挖掘。知识推理从给定的知识图谱推导出新的实体跟实体之间的关系。知识图谱推理可以分为基于符号的推理和基于统计的推理。在人工智能的研究中,基于符号的推理一般是基于经典逻辑(一阶谓词逻辑或者命题逻辑)或者经典逻辑的变异(比如说缺省逻辑)。基于符号的推理可以从一个已有的知识图谱推理出新的实体间关系,可用于建立新知识或者对知识图谱进行逻辑的冲突检测。基于统计的方法一般指关系机器学习方法,即通过统计规律从知识图谱中学习到新的实体间关系。知识推理在知识计算中具有重要作用,如知识分类、知识校验、知识链接预测与知识补全等。知识图谱存储与管理知识图谱存储知识图谱存储模式支持对大规模数据的有效管理,实现对知识图谱中知识高效查询。知识图谱可以将用户搜索输入的关键词,映射为知识图谱中客观概念和实体,搜索结果直接显示出满足用户需求的结构化信息内容,实现对知识图谱数据的有效管理和高效访问,支持知识图谱的存储建模、物理存储设计、索引和查询。知识图谱管理(1)平台支持知识图谱的实时更新,可手动更新,也可后台自动轮巡更新。(3)平台支持知识图谱可视化,更加直观的、图形化,实现以可视化的形式展示实体、关系、属性等抽取的结果。预览图谱针对已创建的知识图谱,可以以本体为单位查看,该本体下的实体关系情况,不同类型实体的数量、不同关系的数量,以不同结构形式预览指定实体的知识图谱。全量&增量更新图谱数据针对已经创建的知识图谱,可以全量更新图谱,即使用新的数据源更新知识图谱,也可以进行增量数拥更新。编辑图谱数据可以通过编辑实体属性或属性值数据,更新图谱,以适应业务变化。删除图谱针对在平台创建的图谱,可以删除实体或属性以适应业务变化。复制图谱创建与已有图谱类似的新图谱时,可复制原有知识图谱的相关配置,快速创建新的图谱。导出图谱数据针对在平台创建的图谱,在图谱管理中列表中,可以以实体为单位导出图谱数据。专题库管理专题库管理包含专题知识构建与管理、专题库首页管理、专题库模板管理。专题知识构建与管理平台支持构建科技资源数据本体模型,实现科技数据领域中论文、专利、基金等科研数据中术语表达的统一。同时,对于科研人员、科研机构、科研主题之间复杂的关系,支持经过本体的对象型属性关联之后,可以方便的进行复杂的图谱分析。根据专题知识体系建设标准,围绕吉林省六大主导产业:现代农业、新能源汽车、生物医药、新材料、人工智能、装备制造业,进行六大专题知识体系构建。以科技文献资源为基础数据库,采取机器+人工相结合的方式,构建各个专题的知识体系;支持对知识的增加、知识的删除、知识的修改。支持各个数据库之间的数据同步,保证数据的一致性。支持专题知识检索功能,主要包括科研人员的检索、科研机构的检索和科研文献的检索,支持全文搜索和具有与或非逻辑关系的搜索。支持根据关键词,通过本体进行语义扩展,将检索词和扩展词进行联合查询,实现查询相同语义知识的功能。支持添加、修改、删除专题知识分类,设置某个分类的查看和审批权限,并能无限级对知识进行分类。批量转移知识,支持对某个分类下的知识进行批量转移。知识分享,支持分享某篇知识给其他使用人,并能附加上自己的推荐语。知识收藏,支持可以收藏某些自己喜欢的知识,并能通过个人搜索小范围搜索这些知识。专题库首页管理专题库首页管理包含专题管理和专题配置两部分:专题配置管理平台支持在专题库管理页面中进行专题的添加、删除、编辑、批量删除、批量编辑以及相关属性的配置。专题管理平台支持对专题下的各类栏目进行增加、删除、编辑、排序、批量删除、批量编辑。平台支持专题库首页公告数据新建、编辑、发布、删除、批量删除、批量编辑。平台支持专题库首页新闻资讯新建、编辑、发布、删除、批量删除、批量编辑。平台支持专题库首页政策法规新建、编辑、发布、删除、批量删除、批量编辑。专题库模板管理平台支持在模板管理页面中添加、修改或删除模板文件;支持上传制作好的模板文件;支持添加、修改或删除css(层叠样式表)文件;支持创建模板库,对不同的专题、分类设置不同的模板;支持设置模板标签,方便新增专题库知识内容;支持按模板分类、名称、标签进行搜索。专题库目录结构形成专题库树形目录结构,可无限创建文件夹和子文件夹结构。可自定义目录排序,系统内部所有成员实现文件的安全共享与查看。专题库多文件上传平台支持文件的批量上传及压缩包导入,实现文档资料的快速轻松存储管理,支持Office文档、PDF、图纸等各类型文件。专题库知识增删平台支持对知识的增加、知识的删除、知识的修改。支持各个数据库之间的数据同步,保证数据的一致性。专题库文档排序平台支持根据文档的标题、大小、日期、上传人等属性进行排序专题库查询和搜索平台支持专题知识检索功能,主要包括科研人员的检索、科研机构的检索和科研文献的检索,支持全文搜索和具有与或非逻辑关系的搜索。支持根据关键词,通过本体进行语义扩展,将检索词和扩展词进行联合查询,实现查询相同语义知识的功能。从专题库中提取内容,并有效地运用知识内容求解复杂的问题。问题求解的过程本质上即为知识的匹配和搜索过程。在搜索过程中,专题库中的内容通常可看成具有层次关系的树状式、网状式结构。专题库关联文档文档数据新建或上传后,系统会自动或手动为文件生成唯一编号,平台支持文档的批量关联。支持通过文件唯一编号,实现文档与相关文档、图纸及其它格式附件进行关联,点击链接即可一键快速查看。专题库文档版本管理平台支持版本管理功能,文档关联多版本,避免错误版本的使用,同时支持历史版本的查看、回退与下载。专题库权限管理平台提供权限控制机制,可针对用户、部门及岗位进行细粒度的权限控制,控制用户的管理、浏览、阅读、编辑、下载、删除、打印、订阅等操作,实现文档安全共享。专题库存储加密平台文件采用加密存储,防止文件扩散,全面保证企业级数据的安全性和可靠性。系统管理系统管理分为组织架构、角色权限管理、部门管理、操作日志记录、数据管理、门户配置、统一认证。组织架构设置平台支持自定义多方、多级组织架构,以树状形式展示。角色权限管理角色管理支持为人员设置、分配不同的角色,比如超级管理员、部门管理员、普通管理员、普通用户等;支持设置不同人员的数据范围,不同角色的人员查看到的范围数据不一样;数据范围支持按所负责部门、成果类型、文献来源、学科分类等进行划分;支持设置角色数据查询、增加角色数据、删除角色数据、修改角色数据功能。(2)权限管理支持对每种角色设置各模块、子模块、以及各模块的操作级权限,如查看权限、修改权限、编辑权限、导入导出权限等。包含权限新增、修改、删除和角色的权限分配、回收等功能。系统权限分为普通用户、附件下载权限、管理员、超级管理员等权限,通过这些权限设置能够对系统功能进行细粒度的控制设置知识库目录权限可以设定每个员工能够访问的知识库目录权限,拥有某个分类权限的人才可以查看该分类下的知识。(3)用户管理支持对用户进行管理,具有列表检索、数据新增、修改、删除/批量删除、重置密码等功能;支持添加用户,保存用户的姓名、性别、登录信息、联系方式、职位、职务等;支持设置用户所属的组织,可进行单独授权或组织调动。操作日志记录平台提供系统的设置、管理、操作、登录、授权、操作时间、操作详细信息全面系统的日志记录功能;平台支持在系统各种日志文件的基础上实现业务操作的运行监控、统计、查询等功能,支持系统日志和用户访问操作日志的详细记录和统计分析,以及日志的导入导出等;平台支持多维度的搜索查询,从海量的日志数据中检索出所需的信息,进而产成更详细的日志分析报表;支持日志归档,通过自定义方式,提对收集的日志数据进行自动归档处理,以实现日志数据的长久保存;允许二次开发:提供丰富的开发接口,允许用户进行二次开发,(比如:自定义图表的展示、日志的截取、分析结果的导出等)。个人事务管理平台可查看个人在该平台操作的所有数据,如下载的资源、收藏的资源、发布的资源等。数据管理(1)身份管理平台支持与各类资源数据库进行统一身份认证,作者、机构管理员可进行单点登录;平台支持灵活的用户角色权限控制,多级多角色的分权管理,不同系统角色使用的页面及功能模块不同,支持按需配置不同用户的功能权限;平台支持用户身份实名认证管理,分为个人账户实名认证和组织账户实名认证,通过技术手段自动执行实名认证的审核过程,减少甚至取消人工干预;平台支持账户注销,可对不在使用的身份用户进行注销,分为个人账户的注销和组织账户的注销。(2)部门管理平台支持对组织的部门、员工的隶属关系进行管理和维护,可对单位或部门的信息进行增加、删除、修改、查询、实名审核、统计分析等;平台支持对组织结构下的用户进行模块权限授权管理,根据权限的不同,分配不同的页面及功能模块。(3)数据安全管理平台支持数据自动备份、人工备份、自动还原和人工选择性还原;定期全面检查现行系统和应用,发现漏洞后,及时进行系统修复,避免漏洞被黑客利用造成机密泄露;密切监管重点岗位的核心数据,监控核心数据的同时,需要密切关注接触这类数据的重点人员的操作行为是否符合制度规范;定期进行安全意识的宣导,强化用户对信息安全的认知,引导用户积极执行保密制度。门户配置平台支持个性化内容定制和展示,支持个性化页面和风格:平台支持自定义门户logo、首页轮播图、首页内容模块布局、平台页面风格、授权的访问栏目和信息条目等;系统提供在线文本编辑器,完成信息发布的编辑、排版、格式模板导入等功能,可以实现所见即所得编辑功能,所有的配置信息和操作页面都在门户控制台完成,不需要另存其他文件。统一认证统一身份认证的一个基本应用模式是统一认证模式,它是以统一身份认证服务为核心的服务使用模式。用户登录统一身份认证服务后,即可使用所有支持统一身份认证服务的管理应用系统。流程主要如下:(1)用户使用在统一认证服务注册的用户名和密码(也可能是其他的授权信息,比如数字签名等)登陆统一认证服务;(2)统一认证服务创建了一个会话,同时将与该会话关联的访问认证令牌返回给用户;(3)用户使用这个访问认证令牌访问某个支持统一身份认证服务的应用系统;(4)该应用系统将访问认证令牌传入统一身份认证服务,认证访问认证令牌的有效性;(5)统一身份认证服务确认认证令牌的有效性;(6)应用系统接收访问,并返回访问结果,如果需要提高访问效率的话,应用系统可选择返回其自身的认证令牌已使得用户之后可以使用这个私有令牌持续访问。统一认证子系统是在该项目的多个应用系统中,用户只需要登录一次就可以访问所有互相信任的应用系统的一种实现技术。具体包含用户登录、权限校验。(1)用户登录平台提供统一登录页面和标准接口,与科技资源数据库等实现统一登录认证。统一登录页面根据用户输入的用户名、密码和页面程序获取的用户IP进行登录;外部系统可通过接口传入用户名、密码、用户IP进行登录。(2)权限校验平台根据单位不同的要求和各个门户系统的接入深度,提供权限全方面的权限校验接口。主要是根据接口传入数据和授权管理过程的设置数据进行权限匹配校验。多维度导航根据科技资源的特点,从多个属性不同的角度对检索知识进行导航,以提高用户检索和查找标准的效率。本项目的导航建设可包括但不限于以下几个维度。学科分类导航平台支持按照教育部学科分类导航体系进行资源分类导航

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论