GB/T 41462-2022 基于文本数据的金融风险防控要求(正式版)_第1页
GB/T 41462-2022 基于文本数据的金融风险防控要求(正式版)_第2页
GB/T 41462-2022 基于文本数据的金融风险防控要求(正式版)_第3页
GB/T 41462-2022 基于文本数据的金融风险防控要求(正式版)_第4页
GB/T 41462-2022 基于文本数据的金融风险防控要求(正式版)_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ICS国家市场监督管理总局国家标准化管理委员会IGB/T41462—2022 12规范性引用文件 1 1 4 46文本数据要求 4 5 5 58.2信息抽取整体框架 58.3抽取内容及特征分析 68.4抽取方法 7 89.1总体要求 89.2数据表示评估 99.3基于RDFS结构化表示 10.1数据清洗 10.2建模方法 10.3分析方法 12系统评估 12.3评估方法 12.4评估指标 13.1安全技术要求 Ⅱ附录A(规范性)基于AHP的指标权重确定方法 附录B(资料性)RDFS结构化描述 附录C(规范性)RDFS表示具体技术流程 ⅢGB/T41462—2022本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。本文件由中国人民银行提出。本文件由全国金融标准化技术委员会(SAC/TC180)归口。本文件起草单位:中国标准化研究院、中国银行业协会、北京理工大学、中国工商银行股份有限公外经贸大学、中国金融电子化公司、中国人民银行太原中心支行、北京海致星图科技有限公司、聊城大报研究所。1GB/T41462—2022基于文本数据的金融风险防控要求本文件规定了基于文本数据金融风险防控的整体框架、文本数据要求、预处理、信息抽取、数据表本文件适用于金融相关的文本数据处理及金融信息的挖掘、抽取与分析。下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于GB/T4754—2017国民经济行业分类GB/T20269—2006信息安全技术信息系统安全管理要求GB/T20271—2006信息安全技术信息系统通用安全技术要求GB/T32319—2015银行业产品说明书描述规范ISO21586:2020金融服务的参考数据银行产品服务说明描述规范[Referencedataforfinancialservices—Specificationforthedescriptionofbankingproductsorservices(BPoS)]3术语和定义下列术语和定义适用于本文件。3.1一个生物学系统或自动系统获得知识或技能的过程,使它可用于改进其性能。3.2为确定类别成员的抽象实体。3.3词或词组与它们的含义之间的关系。3.4文本数据textdata2GB/T41462—2022解释主要以读者对某种自然语言或人工语言的理解为基础。示例:打印在纸上或显示在屏幕上的业务信件。[来源:GB/T5271.1—2000,01.汉字[汉语词语]编码Chinesecharacter[Chinesewordandphrase]coding3.103.11结构化表示structuredre注:表示后的文本数据的性质和量值位置是固定的。3.12一种用于描述领域中各个概念和概念间的关系。3.13属性property个体之间的二元关系。3GB/T41462—2022注:客体既包括客观存在并可观察到的事物(具体的如树木、房屋,抽象的如物价、自由),也包括想象的事物(如神话人物)。示例:可按潜在欺骗、敏感性或信息关键度进行信息划分。风险分析riskanalysis4GB/T41462—2022HTML:超文本标记语言(HyperTextMarkupLanguage)RDF:资源描述框架(ResourceDescriptionFramework)RDFS:资源描述框架模式(ResourceDescriptionFrameworkSchema)XML:可扩展标记语言(eXtensibeMarkupLanguage)5整体框架基于文本数据的金融风险防控一般技术要求主要包括以下几个部分:对风险关键信息及相关因素进行表示,对应于本文件第9章;基于文本数据的金融风险防控一般技术要求的整体框架如图1所示。用户交互非结构化文本数据数据表示安全防护系统评估预处理用于进行信息抽取及风险分析预警的文本数据宜满足以下要求:a)文本数据的内容与其来源保持一致;b)文本数据规模宜达到一定量级;c)文本数据内容能更新。5GB/T41462—20227预处理1)基于规则的方法;2)基于统计的方法;3)基于传统机器学习的方法;4)基于深度学习的方法;5)基于理解以及混合方法。分词结果:A/ws公司/n跨界/v转型/v“/wp玩游戏/n”/wp。/wp根据/p企业/n的/u公告/n,/wp本次/r重组/v标的/n公司/n的/u一季度/nt业绩/n未达标/v,/wp未/d实现/v重组/v报告/n中/nd的/u业绩/n示例2:繁体中文转换为简体中文。星文等)还原为正确的文字。识别纠错的方法主要包括基于模式和基于统计两种方法。变种还原的方法包括基于词表和基于模型两种方法。8信息抽取信息抽取的整体框架如图2所示。6GB/T41462—2022时间时间人名上于模式的方法机构名地点数字标注特征选择基于模式和统计结合方法金额数据源图2信息抽取框架示意母串。从文本数据中抽取的内容应包括但不限于以下5种:e)事件。示例1:日期:2003年1月23日。示例3:时间介词短语:自2003年以来。示例4:特殊名词:亚洲金融危机时。中,“出口产品”是变量,“超过”是比较运算符,“324.8亿”是数值,“美元”是计量单位。7GB/T41462—2022c)人名:金融文本中的人名通常有以下3种表达形式:1)单独的姓氏;3)“姓氏/全名十称谓/头衔/职务”或“称谓/头衔/职务十姓氏/全名”。2)多含有地区词;3)名称前常有与金融动作相关的动词等。以简称形式表述的组织机构名称应与全称建立映射关系。示例:从语句“A某负责筹划了中国某某集团的IPO,因聘用中某主席的女儿而遭证券交易委员会的调查”中抽取间建立关系。与事件有直接关系的时间一般有以下表达方式:1)时间距离事件句中的事件关键词最近;2)时间在事件句所在段落的段首句;3)时间在事件所在文章的标题;4)时间在事件所在文章的首句;5)时间在事件句上文中距离事件句最近。基于模式匹配的方法应至少包括以下2个步骤:模式。模式获取包括知识工程和自动训练2种方法:1)知识工程方法以特定领域知识为基础,针对信息抽取内容,通过人工方式总结归纳与之相2)自动训练方法则利用机器学习从标注语料中自动获取模式。本方法通过对文本数据进行人工标注或统计分析,获得分类特征,再结合机器学习模型构造分类注采用人工、半自动或自动化的方式,通过使用统一的标注系统或利用现有的文本表格编辑工8GB/T41462—2022数据标注应符合以下原则:1)标注结果的正确性原则;2)标注结果的完备性原则;3)标注符号的一致性原则;4)标注符号的独立性原则;5)标注符号的确定性原则。b)特征选择:针对特定的金融风险防控问题,从特征集合中选择对于目标问题求解最有效的特2)特征具有代表性:从原始特征中挑选出一些最具代表性、最有影响力的特征;3)特征最具分类信息:用数学的方法进行选取,找出最具分类信息的特征。贝叶斯等统计和机器学习算法。通过一定的技术流程将基于规则的方法和基于机器学习的方法进行结合。9数据表示达到数据表示结果专业并相对全面的效果。9.1.2完整性金融风险相关因素。9.1.4可用性杂度。9或支持完整性技术成熟可用性n读性GB/T或支持完整性技术成熟可用性n读性进行评测或验证。数据表示应符合的主要原则包括但不限于:b)应充分考察其社会效益和经济效益;c)应考虑其发展和应用前景;据表示的要求。按照图3构建数据表示的评估指标体系。总体要求评分图3数据表示评估指标体系图同级指标权重通过专家主观分析,借助AHP方法构造对比矩阵计算权重值(具体构造方法按照附录A)。对数据表示的总体要求满足情况采用主观式专家评分方式进行打分,由专家对各个指标的满足情况赋予0~1之间的一个数,其中0表示完全不满足,1表示完全满足。GB/T41462—2022利用各层指标的权重向量的组合得到一个由底层指标构成的全局权重向量W=(W₁,W₂,…Wn)T,而各个指标值构成一个评分向量△=(δ₁,0₂,…8。)T,按公式(1)得到数据表示对要求满足的最终评分:G=W*△T (1)最终评分为0~1之间的数,1为完全满足,0为完全不满足。若最终评分小于0.6,则视为不符合金融风险防控的数据表示要求。9.3基于RDFS结构化表示融风险领域和文本数据,基于RDFS框架给出金融资源(FinanceResource)、金融风险类(Class)、金融风险属性(FinanceRiskProperty)的表示(RDFS的架构与核心概念见附录B)。金融资源是包括金融风险领域的广泛概念,包括金融、风险、情感词等。金融资源的标签和说明标签。所有与金融领域相关的其他标签都是在<rdfs:金融>根标签下面。<rdf:typerdf:resource=“/2000/01/rdf-schema#Class”/></rdf:Description>。按GB/T4754—2017中规定的J类,金融行业包括4大类,分别是货币金融服务、资本市场服务、保险业和其他金融行业。4大类金融行业基于RDFS的标签和说明如下:a)标签:<rdfs:金融行业>(<rdfs:Finance-Institutions)、<rdfs:货币金融服务>(<rdfs:Monetary-Finance-Services>)、<rdfs:资本市场服务>(<rdfs:Capital-Markets-Services>)、<rdfs:保险业>(<rdfs:Insurance>)、<rdfs:其他金融行业>(<rdfs:Other-Financial-Institutions>);b)说明:<rdfs:金融行业>是金融行业类中的根标签,嵌套在标签<rdfs:金融>(<rdfs:Finance>)。其他4类<rdfs:>标签位于<rdfs:金融行业>根标签之下,是对金融行业的分GB/T41462—2022金融风险有3大主要风险类别:信用风险、市场风险和操作风险。其中信用风险又分为公司风险、律或银行策略的行为。外部欺诈指商业银行以外的人员进行的故意骗取、盗用银行财产或逃避法律的然未来的某些时候可能有能力偿还,但目前没有充足的现金偿还其到期债务而产生的风险。流动性风在该国家或地区的商业存在遭受损失而产生的风险。声誉风险是由于商业银行经营、管理及其他行为或外部事件导致利益相关方对商业银行产生负面评价而造成的风险。法律风险是由未预期到的法律或法规的实施或者由于合同无法执行而造成损失的风险。战略风险是指由企业整体损失的不确定性而造成的风险。主要风险类别的详细分类体系见表1。一级分类二级分类信用风险公司风险;主权风险;银行风险;零售风险;股权风险市场风险利率风险;股权价格风险;汇率风险;商品价格风险操作风险内部欺诈风险;外部欺诈风险;就业政策和工作场所安全性风险;客户产品及业务操作风险;实体资产损坏风险;业务中断和业务数据错误风险;系统失败及运行操作风险;执行、交割及流程管理风险金融风险>(<rdfs:Finance-Risk>)、<rdfs:信用风险>(<rdfs:Credit-Operation-Risk>);b)说明:标签<rdfs:金融风险>是对金融风险范畴概括的类,嵌套在<rdfs:金融行业>下的子标签中。其余3类具体的金融风险标签代表不同的风险,是标签<rdfs:金融风险>的子根据需要,可以自行在本文件的基础上增加风险类别。每个行业可以选择全部或者部分具体的风示例:<rdfs:Classrdf:ID=“Finance-Risk”></rdfs:Class>。金融事件类是对与金融相关事件的结构化表示。例如:互联网上金融论坛的相关评述性文字。用a)标签:<rdfs:金融事件>(<rdfs:Finance-Eveb)说明:标签<rdfs:金融事件>金融事件类根标签,嵌套在标签<rdfs:金融风险>中。<rdfs:GB/T41462—2022时间>嵌套在根标签<rdfs:金融事件>中,表示具体示例:<rdfs:Class金融情感词类是对金融风险中出现的情感词进行表示的类。金融情感词类是对金融情感词典中的a)标签:<rdfs:金融情感词>(<rdfs:Financial-Emotion>)、<rdfs:通用情感词>(<rdfs:Negative>)、<rdfs:领域情感词>(<rdfs:FieldEmotion>)、<rdfs:网络情感词>(<rdfs:NetworkEmotion>)、<rdfs:情感词频率>(<rdfs:EmotionFrequency>);融事件类中的子类,对金融事件中部分子标签描述和表示。<rdfs:金融情感词>根标签下包领域情感词>、示例:<rdfs:Classrdf:ID=“Financial-Emotion”></rdfs:Class>。金融风险结果类是对金融风险后果的结构化表示的类。金融风险结果类主要包括5级不同的金融a)标签:<rdfs:金融风险结果>(<rdfs:FinanceRiskResult>)、<rdfs:一级金融风险>(<rdfs:FinRisk-1>)、<rdfs:二级金融风险>(<rdfs:FinRisk-2>)、<rdfs:三级金融风险>(<rdfs:FinRisk-3>)、<rdfs:四级金融风险>(<rdfs:FinRisk-4>)、<rdfs:五级金融风险>(<rdfs:FinRisk-5>);b)说明:标签<rdfs:金融风险结果>(<rdfs:FinanceRiskResult>)是金融风险结果类的根标签,嵌套在金融风险类中。4种具体金融风险结果类嵌套在根标签<rdfs:金融风险结果>(<rdfs:FinanceRiskResult>)中。5种具体的结果在使用时最多只能出现一个。基于RDFS表示的金融属性的标签和说明如下:a)标签:<rdfs:金融属性>(<rdfs:FinanceProperty>)、<rdfs:是金融行业子类>、<rdfs:是金融风险子类>、<rdfs:是金融情感词子类>、<rdfs:是金融风险结果子类>等;<rdfs:金融行业>(<rdfs:Finance-Institutions)、<rdfs:金融风险>(<rdfs:Finance-Risk>)、<rdfs:金融情感词>(<rdfs:Financial-Emotion>)、<rdfs:金融风险结果>(<rdfs:FinanceRiskResult>),表示是某一大类的子类。标签<rdfs:是XX子类>表示具体子类下GB/T41462—2022<rdf:domainrdf:ID=“Monetary-Finance-Services”></rdfs:domain></rdfs:Property>。9.3.5RDFS表示具体技术流程基于RDFS表示的具体技术流程应符合附录C。据并保证数据一致性。根据数据清洗目的,清洗的内容应至少包括以下3部分:示例1:抽取出的当事人的基本信息年龄值为200。不同的数据清理内容应采用不同的清理方法:a)错误值:采用偏差分析、识别不遵守分布或回归方程的值等统计分析的方法,识别可能的错误不一致性。建模宜满足以下要求:a)模型满足分析预警的需求;c)模型所需数据能通过文本获取;d)模型中的数据能被计算;e)输入模型的数据不可被修改;GB/T41462—2022f)模型中所用数据能被方便的调用;g)模型能优化升级。建模过程宜包括以下4个部分:a)确定建模目标;c)确定模型中数据的存储方式;d)确定所采用的分析方法。c)模型训练:在训练数据集上对选择的模型进行参数优化,从模型的假设空间中选择最优模型,险最小化和结构风险最小化等学习准则。模型求解过程可采用梯度下降、牛顿法、启发式方e)模型评估:对训练得到的风险分析预警模型进行评估,将模型预测结果与标注结果进行比对;量评分等。系统应提供友好的用户界面。界面宜具备以下功能:GB/T41462—20222)拒绝接收提示:对无效和错误的操作进行指示、告警;3)操作步骤提示:提示下一步操作;作状态。主要包括:2)有关内容的资料,如代码及其含义说明;3)对相关屏幕显示内容的解释,参数值的含义与范围,命令或功能选择描述。验证。主要原则如下:b)考察其社会效益和经济效益;c)考虑其发展和应用前景;评估的主要类别如下:分析预警技术方法进行评估。评估方法主要包括以下3种:GB/T41462—202212.4评估指标常用的评估指标主要包括:精确率(Precision)、召回率(Recall)、错报率、漏报率和综合评估指标(Fp-Measure)。其中,精确率、召回率、综合评估指标的值越高越好。错报率与漏报率的值越低越好。精确率,表示正确预测为正样本(Truepositive)的数据在预测为正(Positive)的样本数据中所占的比例。预测为正有两种情况,一种是把正类预测为正类(Truepositive),另一种是把负类预测为正类(Falsepositive)。该评价指标的计算如式(1)所示: (1)错报率,表示不应该预警的数据在所有预测数据中所占的比例,可用1-精确率计算得到。召回率,表示正确预测为正样本(Truepositive)的数据在所有正样本数据中所占的比例。所有正样本数据有两种情况,分别为正类预测为正类(Truepositive)和正类预测为负类(Falsenegative)。该评价指标的计算如式(2)所示: (2)漏报率,表示没有被检测到的数据中应预警数据在所有应预警数据中所占的比例,可用1-召回率计算得到。综合评价指标,表示综合均衡计算精确率和召回率,β表示精确率、召回率在计算综合评价指标时的权重,通常取1,表示将精确率和召回率进行同等权重计算。该评价指标的计算如式(3)所示:13安全防护13.1安全技术要求系统的安全技术要求应符合GB/T20271—2006中4.1、4.2、4.3的规定。13.2安全管理要求系统的安全管理要求应符合GB/T20269—2006中第4章的规定。14软硬件要求14.1硬件基本要求硬件宜满足如下基本要求:a)根据系统设计要求,优选适用的计算机;b)能较容易地实现软硬件之间的兼容配套;GB/T41462—2022c)有足够的数据存储空间;e)维修方便;f)具有安全性和高可靠性;g)具有联网功能;14.2软件基本要求软件宜满足如下基本要求:及其他应用软件;d)具有较好的人机交互能力;f)具有较好的安全性和保密性。GB/T41462—2022(规范性)基于AHP的指标权重确定方法A.1构建成对比较矩阵成对比较矩阵是层次分析法的数量依据。比较第i个元素与第j个元素相对上一层某个因素的重要性时,使用数量化的相对权重a;;来描述。设共有n个元素参与比较,称为成对比较矩阵。对每一层的指标两两对比,做成对比较矩阵。如式(A.1)所示:式中:常用1~9尺度评分,例如同等重要评分为1,相对重要根据程度给出3、5、7、9等评分值。A.2一致性分析因成对比较矩阵是两两对比完成,可能会存在一致性差,导致违背逻辑的情况,因此需对其一致性进行检验。其具体步骤为:式中:n——矩阵对应的指标个数。平均随机一致性指标(Y)与指标个数(n)有着很强的关联,其具体关系如表A.1所示。表A.1平均随机一致性指标参考表n23456789γ000.580.90步骤三:计算一致性值(CR),如式(A.3当CR<0.1时,可以认定该成对比较矩阵的一致性检验通过。…RDFS(ResourceDescriptionFrameworkSchema,资源描述框架模式)是对RDF进行扩展。RDF对资源进行简单声明,RDFS对资源、资源的属性以及资源之间的关系进行描述。B.2RDFS架构三元组(主语,谓语,宾语)形式描述资源(Resource)和资源之间的关系。RDFS是在RDF的基础上发展的。RDFS是一种RDF词汇集描述语言,定义了如何用RDF来描述词汇集,并提供了一个用来描述RDF的词汇集。RDF的核心概念如表B.1所示。RDFS的核心概念如表B.2所示。RDFS资源,表示RDFS属性,表示为rdfs:Property,描述主题资源和对象资源之间的关系。国际化资源标识符(InternationalizedResourceIdentifier,IRI)。标签含义节点Subject(主体)声明被描述的事物IRI节点或空白节点Predicate(谓语)事物的属性Object(宾语)属性的值IRI,文本或空白节点表B.2RDFS的核心概念类标签类含义属性标签属性含义rdfs:ClassRDF类,是rdfs:Resource的子类。服务”“保险业”“其他金融行业”“风险”rdfs:range用来声明一个属性的值,是rdfs:Property的实例。的频率”即“情感词”属性值rdfs:Literal表示所有文字值的类,是rdfs:Re-source的子类,是rdfs:Class的实例。示例:“字符串”“整数”rdfs:domain用来声明属性所属的资源,是rdfs:Property的实例。“情感词”而言的表B.2RDFS的核心概念(续)类标签类含义属性标签属性含义rdfs:Datatype对应RDF中数据类型。是rdfs:Literal和rdfs:Class的子类rdfs:subClassOf用来声明一个类是另一个类的子类。一个子类rdf:langString表示语言标记字符串值的类,是的实例rdfs:subPropertyOf用来声明一个属性是另一个属性的子属性表示HTML文字值类,是rdfs:rdf:type是一个属性,用来声明一个资源是一个类的实例。一个实例rdf:XMLLiteral表示XML文字值类,是rdfs:rdfs:label用于提供资源名称的可读版本。更便于理解的名字rdfs:Property表示RDF属性的类,是rdfs:Class的实例rdfs:comment用于提供对资源的可读的描述。可读描述RDFS的结构如图B.1所示。父类subClassOfsubClassOf类1属性1类2-domain—类2RDFS有数据层和模式,RDFS数据层描述RDF中各种资源具体值,并且RDFS利用<rdfs:class>标签将资源划分为各种资源类。RDFS模式层(Schema)描述RDF中各种资源之间的关系。21pertyRDF模式层属性1doma

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论