知识图谱在金融行业中的应用_第1页
知识图谱在金融行业中的应用_第2页
知识图谱在金融行业中的应用_第3页
知识图谱在金融行业中的应用_第4页
知识图谱在金融行业中的应用_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

知识图谱在金融行业中的应用课程主标题课程概要1知识图谱概述知识图谱在金融领域的应用知识图谱的构建流程案例分享234课程主标题01

知识图谱概述什么是知识图谱知识图谱〔KnowledgeGraph〕,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识开展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱的开展历史20世纪中叶,普莱斯等人提出使用引文网络来研究当代科学开展的脉络的方法,首次提出了知识图谱的概念。〔在此是指MappingKnowledgeDomain〕1977年,知识工程的概念在第五届国际人工智能大会上被提出,以专家系统为代表的知识库系统开始被广泛研究和应用,直到20世纪90年代,机构知识库〔KnowledgeBase〕的概念被提出,自此关于知识表示、知识组织的研究工作开始深入开展起来。机构知识库系统被广泛应用于各科研机构和单位内部的资料整合以及对外宣传工作。2012年11月Google公司率先提出知识图谱〔KnowledgeGraph,KG〕的概念,表示将在其搜索结果中参加知识图谱的功能。其初衷是为了提高搜索引擎的能力,增强用户的搜索质量以及搜索体验。据2015年1月统计的数据,Google构建的KG已经拥有5亿个实体,约35亿条实体关系信息,已经被广泛应用于提高搜索引擎的搜索质量。举个例子RonaldoLuísNazáriode

Lima罗纳尔多·路易斯·纳萨里奥·德·利马知识图谱的目标知识图谱主要目标是用来描述真实世界中存在的各种实体和概念,以及他们之间的强关系,我们用关系去描述两个实体之间的关联,例如姚明和火箭队之间的关系,他们的属性,我们就用“属性--值对“来刻画它的内在特性,比方说我们的人物,他有年龄、身高、体重属性。a)“ 姚明出生于上海〞b)“ 姚明是篮球运发动〞c)“ 姚明是现任中国篮协主席〞知识图谱的表示形式在知识图谱中,我们用RDF形式化地表示这种三元关系。RDF(ResourceDescriptionFramework),即资源描述框架,是W3C制定的,用于描述实体/资源的标准数据模型。RDF图中一共有三种类型,InternationalResourceIdentifiers(IRIs),blanknodes和literals。下面是SPO每个局部的类型约束:1.Subject可以是IRI或blanknode。2.Predicate是IRI。3.Object三种类型都可以。“姚明出生于中国上海〞可以用三元组表示为(YaoMing,PlaceOfBirth,Shanghai)知识图谱的价值知识图谱技术是人工智能技术的重要组成局部,以结构化的方式描述客观世界中的概念、实体及其键的关系。知识图谱提技术提供了一种更好的组织、管理和理解互联网海量信息的能力,将互联网的信息表达成更接近于人类认知世界的形式。因此,建立一个具有语义处理能力与开放互联能力的知识库,可以在智能搜索、智能问答、个性化推荐等智能信息效劳重产生应用价值。课程主标题02

知识图谱在金融领域的应用知识图谱的典型应用领域金融风控类应用1、反欺诈应用:最近几年,金融欺诈的形式多种多样,提供虚假资料,团伙欺诈,内外勾结等手法越来越“高明〞。在这种情况下,原来通过单点突破进行反欺诈的方法已经远远不够,需要我们建立起一个积极有效的知识图谱。内审内控应用同样,借助关系挖掘和知识图谱,我们也可以帮助金融机构提高内审、内控系统的效率和精度。在防范内外勾结等方面帮助金融机构,比方对受监管人员的邮件和账户往来进行数据挖掘并构建关联关系网,可以及时发现勾结外部人员或者账户异常往来的违规行为。反洗钱应用在反洗钱领域,我们同样可以帮助监管部门进行有效的监控,通过对关系账号进行逐级挖掘,可以找到隐藏在背后的洗钱账号。相比单独账号、关系的识别,对反洗钱团伙的挖掘难度更大,这种组织往往隐藏在在非常复杂的关系网络中,很难被发现。我们只有把其中隐含的关系网络梳理清楚,同时从时间、空间多维角度进行分析,才能识别潜在的风险,发现隐藏的反洗钱团伙。营销类应用1、挖掘潜在客户:挖掘潜在客户一直是金融行业关注的一项重要应用,通过现有数据和外部数据精准、迅速地找到相关业务的潜在客户,对于银行业务的提升会起到较大助益。我们可以基于现有银行客户建立社交网络知识图谱,根据不同的交往方式和频次定义图谱的关系模型。对客户的亲属、朋友、同事、同学、陌生人等进行相关的社交挖掘,评估关系紧密度。深挖客户潜在需求除了挖掘潜在客户外,我们也需要挖掘现有客户的需求,针对他们的特点推送相关产品。预测类应用1、潜在风险行业预测:基于多维度数据,我们可以在客户、企业、行业间建立起紧密关联的知识图谱,从行业关联的维度预测风险。通过对行业进行细分,根据贷款信息、行业信息建立关系挖掘模型,并通过机器学习进行模型的训练,可展示每个行业及与其关联度最高的几个行业,如果某一行业发生了行业风险或高风险事件,我们可以及时预测未来有潜在风险的关联行业,金融机构从而可对相关行业的风险做出预判,尽早地发现并躲避风险。潜在风险客户预测通过建立客户、企业、行业的知识图谱,也可以将行业和企业之间数据进行连接,基于对行业的潜在风险预测,及时发现行业风险、系统性风险相关联的企业客户。比方某省最近某行业的连续出现了多笔逾期贷款,通过对行业和客户的知识图谱进行分析,我们也可以及时发现可能位于关联行业,也有可能位于上下游潜在的其他存在潜在风险的客户。课程主标题03

知识图谱的构建流程知识图谱的一般构建流程知识图谱的构建技术主要有自顶向下和自底向上两种。其中自顶向下构建是指借助百科类网站等结构化数据源,从高质量数据中提取本体和模式信息,参加到知识库里。而自底向上构建,则是借助一定的技术手段,从公开采集的数据中提取出资源模式,选择其中置信度较高的信息,参加到知识库中。知识图谱由一条一条知识组成每条知识标识为一个SPO三元组(Subject-Predicate-Object)Subject

:

主语Predicate:

谓词Object

: 宾语图谱构建流程概览图谱构建流程〔一〕一、梳理业务,构建本体〔必须〕根据业务需求,我们需要答复几个问题:1、是否需要用知识图谱?本钱怎么样,能到达怎么的效果?2、是否有能力构建知识图谱?数据、团队等情况是否能支撑?3、如果有必要,如何根据业务梳理一套本体框架?图谱构建流程〔二〕二、数据模型构建知识图谱的数据整体上可以分为数据模型和具体数据,数据模型就是知识图谱的数据组织框架,不同的知识图谱,会采用不同的数据模型。对于行业知识图谱来说,行业术语、行业数据都相比照较清晰,可以采用自顶向下的方式来建设知识图谱,也就是先确定知识图谱的数据模型,然后,根据数据模型约定的框架,再补充数据,完成知识图谱的建设。数据模型的构建,一般都会找一个根底的参考模型,这个参考模型,可以参照行业的相关数据标准,整合标准中对数据的要求,慢慢形成一个根底的数据模型,再根据实际收集的数据情况,来完善数据模型。也可以从公共知识图谱数据模型中抽取,将与行业有关的数据模型从公共知识图谱数据模型中提取出来,然后结合行业知识进行完善。图谱构建流程〔三〕三、给本体补充实例数据1、结构化数据处理对于结构化数据,一般是把一个表、一个类别的去对应,一行数据相当于一个类的实例,每个字段就相当于类的属性,利用相关的转化工具可以把这个过程进行转化,比方D2RQ,可以把表数据转化成虚拟的RDF数据,使数据在RDF层面实现数据格式的统一。图谱构建流程〔三〕2、半结构化数据处理半结构化数据,主要是指那些具有一定的数据结构,但需要进一步提取整理的数据。比方百科的数据,网页中的数据等。对于这类数据,主要采用包装器的方式进行处理。3、非结构化数据〔主要是文本数据〕这里假设数据库中已经存在如下的如下的单实体以及三元组数据,目前的主要任务就是从文中抽取相关的数据,来补充现有的知识库。图谱构建流程〔四〕四、知识融合知识融合,简单理解,就是将多个知识库中的知识进行整合,形成一个知识库的过程,在这个过程中,主要需要解决的问题就是实体对齐。不同的知识库,收集知识的侧重点不同,对于同一个实体,有知识库的可能侧重于其本身某个方面的描述,有的知识库可能侧重于描述实体与其它实体的关系,知识融合的目的就是将不同知识库对实体的描述进行整合,从而获得实体的完整描述。图谱构建流程〔五〕五、知识存储知识存储分为两种存储:基于RDF的存储基于图数据库的存储A

pache

Jena图谱构建流程〔六〕六、知识推理知识推理,就是根据已有的数据模型和数据,依据推理规则,获取新的知识或者结论,新的知识或结论应该是满足语义的。知识推理,依据描述逻辑系统实现。描述逻辑(DescriptionLogic)是基于对象的知识表示的形式化,也叫概念表示语言或术语逻辑,是一阶谓词逻辑的一个可判定子集。七、质量评估质量评估,就是对最后的结果数据进行评估,将合格的数据放入知识图谱中。质量评估的方法,根据所构建的知识图谱的不同,对数据要求的差异而有所差异。总的目的是要获得符合要求的知识图谱数据,要求的标准根据具体情况确定。课程主标题04

案例分享案例1-金融企业数据模型设计通用金融行业主题域模型当事人当事人是金融企业的所有业务参与对象,是具有独立行为能力,并且对某个行为负责的任意类型的实体,如一个人、一家企业或一家企业的某个部门。当事人实体定义了当事人的本质特性,该实体与职务和角色无关,这些特性是不会随时间发生变化的。在金融企业风险领域,当事人作为金融企业,还包含了企业信息,企业信息,企业知识产权等要素。法律实体法律实体是由政治实体在法律上认可的当事人:或者经过授权,使其具有独

立的法律地位;或者通过注册程序,在政治实体的权限范围内被赋予了特定的、具有代表意义的法律地位。法律实体可分为法人实体(定义在纯粹的法律意义之 上)和代表实体(由法人实体所代表的实体衍生而来),代表实体是代表法人实 体的法律实体。它或者经由某个政治实体注册,或者经政治实体认可,作为法人 实体在当地法律上合法的的商业代表。组织机构组织机构就是用来描述当事人内部的管理结构,组织机构包含许多业务单元,每个业务单元执行指定的作业。业务单元是组织机构的组成局部,为了支持机构的业务目标,对其指定了任务或责任,并覆盖一个或多个管理维度金融企业数据主题域设计——企业风险知识图谱名称参数说明上市信息Listedinformation股票行情volatilityNum企业简介stockNum高管信息seniorPeople参股控股holdingCompany上市公告announcement十大股东topTenNum十大流通tenTradableNum发行相关issuanceRelatedNum股本结构shareStructure股本变动equityChange分红情况bonus配股情况allotment名称参数说明公司背景Companybackground工商信息baseInfo企业基础工商信息,包含统一社会信用代码/注册资本/注册日期/法定代表人/经营范围等信息。天眼风险riskInfo股权穿透图graphTreeInfo主要人员staff股东信息holder对外投资invest最终受益人humanholding实际控制权companyholding财务简析financialAnalysis*付费可见内容。企业关系graph变更记录changeinfo历史沿革graphTimeInfo公司年报report*分支机构branch名称参数说明司法风险Judicial

risk开庭公告announcementCount法律诉讼lawsuit法院公告court失信人信息dishonest被执行人zhixing司法协助名称参数说明经营风险Operationalrisks经营异常abnormal行政处罚punish,punishmentCreditchina严重违法股权出质equity动产抵押欠税公告司法拍卖judicialSale清算信息知识产权出质公示催告publicnoticeItem名称参数说明公司发展Companydevelopment融资历史rongzi核心团队teamMember企业业务firmProduct投资事件touzi竞品信息jingpin名称参数说明经营状况Operationstatus招聘信息recruit行政许可licensinglicensingXyzg税务评级taxcredit抽查检查check资质证书certificate招投标信息bid产品信息product微信公众号wechat进出口信用importAndExport债券信息bond购地信息purchaselandV2电信许可permission名称参数说明公司发展Companydevelopment商标信息tminfo专利信息patent软件著作权copyright作品著作权copyrightWorks网站备案icp名称参数说明历史信息Past工商信息pastICCount股东信息pastHolderCount对外投资pastInvestCount开庭公告pastAnnouncementCount法律诉讼passtLawsuitCount法院公告pastCourtCount失信人信息pastDishonest被执行人pastZhixing行政处罚pastPunishmentIC,pastPunishmentCreditCN股权出质pastEquitycount动产抵押案例2-基于金融知识图谱的企业风险挖掘企业风险预测背景-2017-CCF-BDCI-Enterprise传统的企业评价主要基于企业的财务信息,借贷记录信息等来判断企业经营状况,以及是否可能违约等信用信息。对于财务健全、在传统银行借贷领域留有记录的大中型企业,这种评价方式无疑较为客观合理。然而,对于更大量的中小微企业,既无法公开获得企业真实财务信息,也无这些企业的公开信用信息,在强变量缺失的情况下,如何利用弱变量客观公正评价企业经营状况,正是本课题需要解决的主要问题。该样本集是从全国2000多万企业抽取局部企业〔脱敏后〕,提供企业主体在多方面留下的行为足迹信息数据。样本数据介绍样本提供两种数据企业身份信息〔已脱敏〕及企业在一定时间范围内的行为数据。该数据对训练集和评测集都是相同的。目标数据。目标值为该企业在2017年8月时的经营状况:停业1,正常经营0该表仅训练数据有。选手从数据中自行组成特征和数据格式,自由组合训练测试数据比例。为保护数据平安,所有数据均已进行了采样和必要的脱敏处理。数据中局部列存在空值或NULL,记录可能存在重复情况,请参赛者根据数据字段描述自行处理。工程构建思路数据清洗转化或者去掉数据中存在的中文字符针对性的填充空置,根据这个工作的类别的平均值,最大值和最小值进行填充,填充的时候考虑公司的注册的时间,使用相近时间短的同类型的工司的数据进行填充,比方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论