人行二代个人征信及变量衍生深度解读_第1页
人行二代个人征信及变量衍生深度解读_第2页
人行二代个人征信及变量衍生深度解读_第3页
人行二代个人征信及变量衍生深度解读_第4页
人行二代个人征信及变量衍生深度解读_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、人行二代个人征信及变量衍生深度解读提到人行征信,我们先来看几组数据,截至 2019年底,央行征信系统共收录10.2亿自然人,占到中国总人口的 70% ;个人征信系统接入机构3737家,基本覆盖各类正规放贷机构。2019年,个人征信系统累计查询量为24亿次,日均查询量达657万次。由此可见,人行个人征信作为个人信贷决策的第一信息来源,所发挥的作用越来越重要。经过半年多的试运行,二代征信系统于2020年5月4日开始全面替代一代系统。但如何充分挖掘和运用好二代个人征信,进一步提升个人信贷决策效率和服务质量,这不是每家金融机构都能完善和深入的。有鉴于此,在一二代个人征信转换的过渡时期,我们从个人征信衍

2、生变量出发,希望能为金融机构在应用二代个人征信数据方面提供些思路和做法。一、人行二代个人征信内容和基本结构自2018年着手启动二代个人征信以来,央行以及第三方机构对二代征信做了很多解读,二代个人征信相比一代在实质内容上并没有太大的变化,只是在数据维度上更加丰富,比如:手机号码个数由之前的1个增加至5个;未结清贷款细分为非循环贷账户信息汇总、循环额度下分账户和循环贷账户;详细还款表现从近两年延长至近五年(一代报告中两年以上五年以下只有逾期信息)。这些数据维度上的变化,在一定程度上增加了衍生变量设计的难度。因此,为了更好地说明变量衍生逻辑,我们先对二代征信数据的组织结构做个概要说明。(一)数据块与

3、信息单元二代个人征信报告本质上是一个数据集,数据集按照数据间的相关性和业务逻辑分层次组成。具体来讲分为大类信息(8个)、数据块(24个)、信息单元(24个),信息段(58个)以及(组合)数据项(参见下文)等 5个层次,如表1所示。表1人行二代个人征信组织结构序号信息分类数据块个数信息单元个数信息段1报告头1152个人基本信息4453信息概要55154信贷交易信息明细33135非信贷交易信息明细1126公共信息明细88167其他标注及声明信息1118查询记录111注:关于数据块、信息单元更详细的信息请参考人民银行征信系统产品说明_个人征信报告其中,数据块是组成个人信用报告的同一类信息单元或业务上

4、有紧密联系的 几类信息单元,是构成个人信用报告的基本组件的集合。信息单元是组成数据块 的基础元素。各数据块之间没有交集,所有数据块构成了个人信用报告的数据全 集。一般情况下一个数据块对应着一个信息单元,但是也存在着一个数据块对应 着多个信息单元。单一对应关系的信息,多为静态信息(数据),一般描述信息 主体的自然属性,这类数据一般不会随时间变化(比如自然人的出生时间、出生地等);或者可能会随时间变化,但在数据分析时一般只采用其最新取值(比如自然人的学历、婚姻状态等)。见表 2。表2个人基本信息数据块和信息单元信息分类数据块信息单元信息单元个数个人基本信息身份信息身份信息单元1个人基本信息婚姻信息

5、婚姻信息单元1个人基本信息居住信息居住信息单元0-5个人基本信息职业信息职业信息单元0-5而一对多(一个数据块对应多个信息单元)的对应关系,多为动态信息(数据),一般描述信息主体历史上相似的行为(事件)发生(变化)情况。即信息会随着时间频繁或阶段性发生变化,比如居住信息,在不同的时间点居住地址、居住状况均可能发生变化。因此,在征信报告中居住信息数据块对应最多5个居住信息单元,当然也可能没有任何居住地址信息。如表2、3所示。蜉*上寿鹏qi一5元1*J *寓江I *兜4忙配f gl|jBWTB*M射.J .匕R营缈熊曜it孱如单元电表3多个居住信息单元组成一个数据块注1 :上述数据来自二代征信展示

6、样本;注2:若信息单元只有一条记录,则信息单元与数据块在内容上是等价的。注3:按照征信报告的组织结构,信息单元下级元素为信息段,信息段的下级元素为数据项,但居 住信息单元只有一个信息段,因此居住信息单元的下级元素直接为数据项。总结来看,在征信报告中一个数据块描述一个人某一方面的信息。比如,身份信息数据块、居住信息数据块、借贷账户信息数据块。如果数据块是静态信息(数据),这时数据块和信息单元一对一;如果数据块所包含的信息是动态信息(数据),那么此数据块就可能对应多个信息单元,代表一类状况(行为、业务) 的多次发生。图 1给出了各信息单元属性图1信息单元分类明弋触胃中'J情前胃鼻信M具演方

7、.惊岷圮单牌单J小*上鼻仁之;| kc总中乙需口件里K里,尤J+AU«B W *4总直愉巳八证打破生症祀能由*无J北固入口总平中世国士酒鼻鼻串足量崎敏d由由归国*元M*«广增餐元*亚翼Mid*信三W10*必修总离d快卡TlfrWlfk*巴*一二士f , _Wfl HM4L7L JKI也吃及UTlTMllt/I?曼1g穆启二 小百 啰二求J由状虬厨忌事元/交*,楷8*元“杭生配餐到用。单£*注:动态信息单元表明此信息单元是可以多次重复出现的,比如借贷账户数据块对应多个借贷账户信息单元(二)信息单元、信息段与数据项信息单元的组成分为两种情况,一是,信息单元直接由数据项

8、/组合数据项组成,此时信息单元下无信息段;二是,根据包含数据项复杂程度不同,信息单元可由两个以上信息段组成,信息段再由数据项/组合数据项组成。24个信息单元下共计有50个信息段,268个单一数据项,33个组合数据项(包含 83个组合数据项字段),如表 4。信息段是一个已标识、命名和结构化的、在功能上相互关联的数据项的集合,由不少于一个的数据项构成。表4信息单元、信息段与数据«««11ti1Q膏Mt昌平豕4ii1i3用叫-2单元DB>a4新住”耳平耳94d。g事受罪息也同Q111G043LiT10M漳ITA1gWg113Id枭*鼠京桩十仁忠4 H9LIA0HW

9、+A.' LV'S.'L¥4kt13收唱1.Li13132IT1314Jfi忖哥勤JI阜工191)1.七共k"国睢五4I1。£¥L317也断班1,*曲则.1.2LI1牌%HUM趾就僧更卑NXT13IV仃北外,各界BIM*俏艮胡同1111惬取同他记录元11214H1%i a也A检收纪&口里日6L 4*抖曲明 tlUOJL0j1至Jn前述居住信息单元就是直接由4个单一数据项组成的信息单元,但更多的信息单元是由多个信息段组成的。以征信报告的核心信息单元一一借贷账户信息单元为例,其包含了9个信息段,61个单一数据项,6个组合数据项

10、(19个组合数据项字段)。如表5所示。表5借款账户信息单元结构«!«»«*fltt BAMIfl盟*M4M4S 必中*" ncijiM,ft* 1*卢*弧,.I1'?吴士坑中.,.23«t*11。上11疝裳虫0息修r1124餐*出4且坦甚向 EG史骤肥”3 * 日.1rmr%磨单*订耳工切已鼻上ljJ %-L QUAuMMbrb.,VRr«ann:用事常曲班ta星反I巾改咤.息争七aT注:*代表可出现任意次单一数据项是指用一组属性描述定义、标识、表示和允许值的基础数据单元, 不会重复出现;组合数据项是指信息段或信息单

11、元中可重复出现的一组数据项, 见表6 o表6最近5年内历史表现信息段所含数据项数据项名称数据项属性起始年月单一数据项截止年月单一数据项月数单一数据项历史表现信息组合数据项,可重复出现60次这里需要着重说明与变量衍生相关的三个注意点:一是,动态信息(单元)和静态信息(单元)的变量衍生方法有较大差异,请参见后文关于变量衍生的描述。二是,信息单元中的信息段可能不会同时出现,以借贷账户信息单元为例,根据不同借贷账户的类型,信息单元中9个信息段可能不会同时出现。比如,大额专项分期信息段,只会出现在信用卡业务相关的借贷账户信息单元。三是,信息段中的组合数据项会重复出现。比如,借贷账户信息单元一最近5年内历

12、史表 现信息段,有 3个单一数据项和一个组合数据数据项。其中,组合数据项即历史表现信息,记录了其对应的一笔信贷业务近5年各月表现信息,包括月份、还款 状态、逾期(透支)总额三个字段。、人行二代个人征信变量衍生框架在数据驱动的风险管理流程中,无论是策略还是模型应用,目前的处理框架 都是1个人(或1个样本,比如债项评级对应着一个借据)对应一条记录信息。如图2所示。通过借款人历史逾期违约的相关变量来预测未来逾期违约的可能性。图2策略、模型数据应用框架Em niB 皿 MIK1ilVP 14】!tS1!AXD»naw7VIDi 13 U|11鼻1Mjl4IK139IK*f2型_t4mi pM

13、IKIil!1q1”三一小品高:如前所述,在二代个人征信报告中,既有静态信息(单条记录数据),比如基本身份信息,包括性别、出生日期、学历等信息,1个信息主体只存在一条基本信息;也有动态信息(多条记录数据),比如借贷交易信息单元,包括账户类型、业务种类、借款金额等信息。1个报告主体可能存在非循环贷账户、循环贷账户、贷记卡账户等多个借贷账户,每个借贷信息单元反映一个借贷账户。这些 动态信息,由于是多条数据记录,并不能直接应用于策略或模型的开发中,而需 要将这些信息进行数据变换和聚合运算后,形成一条记录信息后,才能应用到策 略或模型中。因此,个人征信报告变量衍生将涉及两个阶段:阶段一,按照业务逻辑,

14、将 二代个人征信报告数据解析成标准表(或标准模块),按照记录条数的不同分为 静态信息标准表和动态信息标准表;阶段二,在标准表的基础上,针对标准表的 数据项进行变量衍生和加工,既考虑业务逻辑,也考虑算法逻辑,尽可能多的覆 盖各种衍生变量。(一)个人征信报告解析标准表(或标准模块)1、以信息单元为标准表在二代个人征信报告中,有8个信息单元(参见表 4)直接由数据项组成,可以直接解析为一个标准表作为后续变量衍生的基础。比如,“征信报告查询记录”信息单元,直接由查询日期、查询机构类型、查询机构、查询原因4个数据项组成,并且查询记录信息涉及多条记录,为动态信息标准表,如表7所示。表7征信查询记录示例制篇

15、事n期30LI.妊 31in i白餐恬U蒯SUA ttO住立批zoti. IL L«*国1,限行)11. 1ft LI勿苣当BL好.L* *"SS'二二r一* i* * ht注1 :上述数据来自二代征信展示样本注2:表中的查询机构是由查询机构类型和查询机构两个基础字段组2、以信息段为标准表第二类标准表是信息单元中的信息段。比如,身份信息单元包括基本概况信息段和手机号码信息段(表8)。表8身份信息单元及其信息段示例信息单元信息段单一数据项组合数据项组合数据项字段身份信息单元基本概况信息段900身份信息单元手机号码信息段112其中,基本概况信息段由9个数据项组成(表 9

16、),可解析为一个标准表。基 本信息段只涉及单条记录信息,因此为静态信息标准表3、以组合数据项为标准表第三类标准表是信息段中的组合数据项。在二代个人征信报告中,大部分数 据项为单一数据项,但是也有少部分为组合数据项,即可重复出现的一组数据项。 这里仍然以身份信息单元为例说明,在身份信息单元中,手机号码信息段(参见 表8)包含1个组合数据项,其中有手机号码和信息更新日期两个组合数据字段 这里我们可以将手机号码信息段中的组合数据项解析为一个标准表,由于涉及多 条数据,因此这是一个动态信息标准表。(参见表10)表10手机号码信息段组合数据项0号更 II 1tn?加11赫621 1匚簟占56册支口此,1

17、倒. _ _O(1L公7"画即福喀-SttULiJ(二)个人征信报告变量衍生和加工框架变量衍生是最大限度地从原始数据中提取特征,发现可能对决策目标有显著 作用的特征,以供算法和模型使用。变量衍生混合专业领域知识、客观直觉和算 法逻辑,基于原始数据衍生出更多的变量,可更精细的描述目标的特点或行为。 这里我们先解释通用的变量衍生基本逻辑,然后在此基础上说明如何对二代个人 征信报告中的静态信息标准表和动态信息标准表进行变量衍生。1、变量衍生基本逻辑变量分类变量属性分类在做变量衍生之前,我们需要对变量做出明确的分类,这样有助于后面我们 针对不同类型的变量进行不同的加工。一般的描述一个人(或更

18、一般的实体)特 征的变量,根据变量属性不同,可以抽象为“时、空、类、数、实体标识、关系” 等6个类别。具体含义请见下表。表11变量类型及其简要说明变量类型类型说明描述处于某种状态或行为特征发生的时刻,比如2019年12月1日已婚,2020年2月1时间变量日,申请一笔借款。变量类型类型说明空间变量描述处于某种状态或行为特征发生的空间,比如,在北京购买一套住房一套,社保缴纳地 在北京。类别变量描述事物或行为类别的一个名称,常见的类别变量有性别、婚姻状态、账户类型、账户状 态等等。数值(连续型)变量描述某种状态的刻度值或者行为特征发生的相关数值;比如,年龄32岁;申请借款金额5000 元。实体(标识

19、)状态或行为特征的主体标识。比如,描述自然人的身份证号码、法人的统一社会信用代码;或者某种物体的唯一标识,比如MAC地址、银行卡卡号、手机号码等。关系变量描述实体之间关系的变量。比如,借款人与担保人之间的关系;自然人与手机号码的关系。关系变量,一般在复杂网络分析的框架下进行,限于篇幅,本文的衍生变量对此类变量不 做讨论。举个例子,借款人甲(身份证号:110108*1812)于2020年2月5日,在北京,申请了一次5000元的消费贷款,担保人乙承担连带责任保证。我们可以将上述行为根据变量的属性进行拆解,见表12 o表12按照变量类型对借款人行为进行结构化变量类型变量取值时间变量申请日期2020年

20、2月5日空间变量申请地北京类别变量账户类型非循环贷款类别变量担保类型无担保/信用数值(连续型)变量借款金额5000 元实体(标识)身份证号110108*1812注:借款人甲与担保人乙之间的担保关系的分析,需要在复杂网络的框架下分析,不在本文讨 论范围内。因此,无论借款人的行为有多复杂,最终我们都能将其拆解为上述6类变量后面我们将看到,这种处理方法有助于采用标准化的方法处理变量衍生。静态数据与动态数据除讨论不同变量分类外,在进行变量衍生前,我们还要区分描述借款人行为的静态数据(与前述静态信息标准表相对应)和动态数据(与前述动态信息标准 表相对应)。前文已有静态数据和动态数据定义,此处不再赘述。变

21、量衍生按照静态数据(静态信息标准表)和动态数据(动态信息标准表)的不同,变量衍生处理会有不同的方法,而变量衍生处理更主要针对的是动态数据,通过对动态数据加工处理,将多条数据变成单条数据。静态(单条)数据衍生静态数据一般均可以直接作为策略或模型输入,但是实践中为了提升变量的区分度,也常常对静态数据做简单的加工处理,常见的衍生逻辑如表13所示。表13静态数据变量衍生变量衍生示列类别变量缩减学历:原始变量:小学、初中、高中、大学本科、研究生、博士研究生;缩减:高中及以下、大学本科、研究生以上数值变量分箱年龄:原始变量:1860的连续变量分箱:1825,2635,3645,46以上数值变量和类别变量交

22、叉衍生比如,年龄和婚姻状态的交叉1825 ,未婚;1825 ,已婚;1825 ,离异;26-35 ,未婚;2635 ,已婚;2635 ,离异;比如,性别与婚姻交叉两个类别变量交叉衍生男性,未婚;男性,已婚;男性,离婚;女性,未婚;女性,已婚;女性,离婚;注1:三个以上类别变量也可以进行交叉衍生,以此类推;注2: 一个数值变量和两个类别变量也可以进行交叉衍生,以此类推。动态(多条)数据衍生动态(多条)数据的衍生主要逻辑是统计在指定周期内各类行为或事件发生的次数或金额,其中类别变量、数值变量都可以用来对各类行为进行更细致的划分。表14贷款申请记录申请日期实体标识业务种类申请贷款 金额2019年3月

23、2日110108*1812汽车消费贷款50002019年6月2日110108*1812消费贷款20002019年8月2日110108*1812信用卡100002019年9月2日110108*1812住房商业贷款400000如表14,若以2019年9月5日为基准日(T),我们可以更进一步统计最近一个月(T-30 )消费贷款申请次数、消费贷款申请金额(关注每类贷款申请);我们还可以更进一步统计最近一个月(T-30 )贷款申请金额在5千元以下的申请次数、申请金额(关注小额贷款申请情况)等等。更一般的,我们可以对动态(多条)数据进行如下的变量衍生:针对(实体标识,时间)二元组,统计指定周期内事件发生次

24、数,比如基于(客户ID ,信用卡发卡时间),衍生指定周期内信用卡发放张数。还可以统计指定周期内事件发生的时间间隔,比如基于(手机号码,信息更新时间),可以统计近一年手机号码平均多长时间更新一次。针对(客户ID,时间,数值变量)三元组,进行指定周期内的数值统计,比如,(客户ID ,贷款发放时间,授信额度),统计指定周期内(最近1个月内),客户总授信额度,平均授信额度,最大授信额度,最小授信额度。针对(客户ID,时间,类别变量,数值变量)四元组,指定周期内按照类别变量 统计不同类别的数值变量的情况,比如,(客户 ID,发放时间,贷款种类,授信 额度),统计指定周期内各类贷款的授信总额、最大值、最小

25、值、方差、极差。2、人行二代征信变量衍生在二代个人征信报告数据中,首先我们按照业务逻辑、变量属性、动(静)态信息等将原始数据解析为不同的静态信息标准表、动态信息标准表,可以称之为标准表。在标准表的基础上,就可以按照前述变量衍生逻辑统一进行变量加工。1) 单条数据信息单元、静态信息标准表及变量衍生报告头信息单元等 8个信息单元为单条数据的信息单元,可以解析为静态信 息标准表。基于静态信息标准表,我们即可按照前述变量衍生逻辑进行变量衍生2) 多条数据信息单元、动态信息标准表及变量衍生征信报告中的大部分信息单元包括多条记录信息,均须解析为动态信息标准表,其中比较常用的包括借贷账户信息单元、授信协议信

26、息单元(二代新增)、查询记录明细信息单元以及后付费业务信息单元等(参见图1信息单元分类)这里我们以借贷交易信息单元中的授信协议信息段为例说明如何对动态信息标准表进行变量衍生。理论上授信协议信息段可以有无穷多笔授信记录,这里为了说明衍生变量的思路,我们仅以两条授信协议为例,见表15 o表15授信协议信息小例,nd*MOE J aHu为好卡巾1 111*/出,一已鼻*阚,极£i,岷*“朴岬inTH81 4 44 P I阻讣51 31耀* M/FT,"他,阜中UBK。脂举潮 武4 W首先,对授信协议中各数据项进行类别标识,可以获得3个实体标识变量,3个类别变量,2个时间变量,3个

27、数据值变量,如表16所示。表16授信协议信息数据解析数据项名称变量属性记录1记录2业务管理机构类型类别商业银行商业银行业务管理机构实体标识SSAQ授信协议标识实体标识H121TH授信额度用途类别循环贷款额度信用卡共享额度授信额度数值40,00070,000币种类别美元美元生效日期时间2014.09.012012.02.01到期日期时间2019.01.312019.01.31已用额度数值20,00040,000授信限额数值100,000100,000授信限额编号实体标识M100W541根据前述的动态数据表衍生逻辑,我们可以将表中数据项解析为标准数据元组:(实体标识,时间)、(实体标识,数值变量)

28、、(实体标识,类别变量)、(实体标识,时间,数值变量)、(实体标识,时间,类别变量)、(实体标识,类别变量,数值变量)、(实体标识,时间,类别变量,数值变量),然后基 于标准的数据元组进行变量衍生。3) 组合数据项、动态信息标准表及变量衍生征信报告中的组合数据项也需要解析为动态信息标准表,其中比较重要的组合数据项均包含在借贷账户信息单元,主要有最近5年历史表现信息、大额专项分期信息(二代新增)、特殊交易信息、特殊事件说明信息等。将组合数据项解 析为动态信息标准表后,就可以按照动态信息标准表的框架做变量衍生处理,这 里不再赘述。三、基于FeatureSmart ?勺人行征信衍生变量落地在征信衍生指标落地方面,首先需要区分线上应用场景和离线开发场景。线上场景一般基于一份征信报告,计算变量衍生;离线场景一般基于多份征信报告,计算衍生变量。两者的主要差别在于:线上场景变量衍生一般用于策略和模型部署,离线场景一般用于策略和模型的开发。因此,线上场景不适用批量衍生变量,般要对单一指标定制化开发,而离线场景则更适合批量变量衍生其次,按照变量衍生逻辑,可以拆分(查询日期),(查询日期,查询机构类型),(查询日期,查询原因),(查询日期

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论