P2P网络借贷双方的决策参考模型构建——以拍拍贷为例_第1页
P2P网络借贷双方的决策参考模型构建——以拍拍贷为例_第2页
P2P网络借贷双方的决策参考模型构建——以拍拍贷为例_第3页
P2P网络借贷双方的决策参考模型构建——以拍拍贷为例_第4页
P2P网络借贷双方的决策参考模型构建——以拍拍贷为例_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、P2P 网络借贷双方的决策参考模型构建 以拍拍贷为例北京邮电大学 张梦洋 王艺婷 许悦 摘 要:低借款成功率、高借贷成本和高信用风险是我国 P2P(Peer-to-Peer)网络借贷平台所面临 的主要问题。为了改善上述问题,本文以拍拍贷网站为研究对象,从借贷双方角度分别构建决策参 考模型。从借入者的角度,基于二元 logistic 回归方法,构建满标预测模型,帮助借入者调整借款 标的信息以便更好获得借出者响应,提高满标概率。实证结果表明,该模型训练集综合判断正确率 达到 96%,验证集的综合判断正确率达到 95.5%。从借出者角度考虑,等级并不能反映同级用户的 异质性。因此通过逐步判别分析法,

2、对借入者信用进行二次分类,帮助借出者分辨同级中的高质量 用户,降低投资风险。实例结果表明原分级制度下 26.3%的低等级用户可视为高质量的新生用户, 且判别函数显著成立。 关键词:P2P 网络借贷,二元 logistic 回归,逐步判别分析,决策参考模型 目录:1引言.22文献综述.23研究对象与样本数据.33.1拍拍贷网站介绍与运营机制 .33.2数据搜集与变量选取.33.3定性分析.4(1)描述性分析.4(2)多元对应分析.54基于二元 logistic 回归的满标预测模型借入者决策模型.74.1模型选取.74.2相关性检验.84.3模型构建.84.4结果分析.104.5对借入者的决策建议

3、.105借入者信用的判别分类模型借出者决策模型.105.1研究目的与研究方法.105.2模型构建.115.3结果分析.115.4对借出者的决策建议.146结语.146.1总结.146.2研究局限及后续改进.15 11 引言 P2P(peer to peer lending)网络借贷平台,是指借助网络技术和信用评估技术,协助借出者和 借入者实现借贷行为的中介服务活动平台。个人可以通过该平台将其闲置资金(出于投资目的)出 借给资金短缺者的新型借贷模式。P2P 贷款对象主要是短期、小额借贷者,本质上属于民间借贷, 其价值主要体现在满足个人资金需求、发展个人信用体系和提高社会闲散资金利用率等方面(钱金

4、 叶,杨飞,2012)。 传统金融体系的服务中心仍集中于大企业、大客户,未覆盖到具有巨大潜力的民间借贷市场。 而互联网的介入无限放大了可贷款人群的范围和数量,并使借贷双方匹配的过程更加有效率且透明 化,小额借贷与网络科技结合所产生的新型借款模式主张自主选择、分散投资,所以吸引了借贷双 方的关注,得以迅速发展起来(尤瑞章,张晓霞,2010)。 获得 2006 年“诺贝尔和平奖”的孟加拉国经济学家穆罕默德.尤努斯教授首创了在乡村银行 (GrameenBank)平台上进行运作的小额借贷模式,由小额借贷衍生出了 P2P 网络借贷平台。全 球首家 P2P 网络借贷平台 Zopa 于 2005 年在英国成

5、立,而美国 2006 年上线的 Prosper 则是目前全 球最大的 P2P 网络借贷平台。中国第一家 P2P 贷款网站拍拍贷于 2007 年成立(吴晓光、曹一, 2011),此后多家 P2P 网络借贷平台层出不穷,交易数额日益增长,影响范围不断扩大。形成了以 拍拍贷、宜信、红岭创投为代表的三种不同模式的 P2P 网络借贷平台。 我国 P2P 网贷公司的资质和规模参差不齐,除了人人贷、拍拍贷等一些大型网贷平台的风险 管理较正规外,其余的风险管理水平难以得到保证。由于信息不对称、个人信用体系建设不完善等 因素的限制,网贷平台存在很多问题未得到解决。从 P2P 网络借贷参与者的角度来看,需要解决

6、的问题主要有两方面,一是对借入者来说,如何提高较低的借款成功率;二是对借出者而言,如何 根据有限的可获得信息做出投资决策。 2 文献综述 我国银监会自 2011 年发布了关于人人贷有关风险提示的通知,要求银行业金融机构严防民 间借贷风险向银行体系蔓延,此后,国内对于 P2P 网络信贷风险的研究逐渐增多。 国外的 P2P 网贷平台发展较早,因此对网贷的研究比较丰富。Mingfeng Lin,Prabhala NR和 Viswanathan S(2009),Seth Freedman 和 Jin GZ(2009)研究指出借入者的基本信息是借出者对其还 款可能性进行评估的主要参照因素,影响着借出者最

7、终的投资决策。Puro et a1等(2010)研究 了借款额度会对借款成功率和借款利率产生显著影响,为了降低借款利率并提高借款成功率,借入 者必须降低借款额度。Lin 等(2013)通过样本的实证研究,认为社交网络能够增加融资成功的概 率,并使融资成本即借款利率降低,同时也能降低事后违约率。 国内方面,吴小英,鞠颖(2012)通过使用最小二乘法进行参数估计,研究 Prosper 平台中借款 用途对借贷成功率的影响。陈建中,宁欣(2013)对人人贷的借贷数据进行实证,发现借入者的基 本信息在贷款人评估借贷可行性时已成为重要的参照因素,促使借贷成功率提高。陈东宇,李伟军, 丁婕(2012)建立了

8、包含借款人个人信息和社会资本因素的决策辅助模型。宋文(2013)以拍拍贷 为例,对出借人投标意愿影响因素、出借人要求收益以及网贷中的逾期行为进行了研究。经过对国 内外文献的梳理和分析可知,贷款人对于借贷的决策与平台公布的借入者基本信息有相关关系,借 入者公布在网上的信息对借贷的成功率有一定程度的影响。 目前,国内相关研究一方面是以偏理论的描述性研究为主,对参与网贷投融资者的特点都做了 具体而细致的研究,另一方面是做实证研究筛选对交易状态的影响因素。但少有文献通过构建模型 (尤其从借贷双方两个角度)辅助参与者进行决策,并分别进行研究。因此本文以拍拍贷为研究对 象,构建对借贷双方的决策参考模型,降

9、低信息不对称导致的风险,促进 P2P 网络借贷良性发展, 具有很强的实际意义。 23 研究对象与样本数据 3.1 拍拍贷网站介绍与运营机制 拍拍贷作为我国首家 P2P 小额无担保网络借贷平台,是单纯的中介平台,主要以交易服务费 为收入来源。拍拍贷根据“线下得分”和“线上得分”借入者的信用等级核定。其中,线下得分是 根据用户提交的结婚证、工资证明等信息来确定的,包括年龄、学历、工作、收入等因素;线上得 分项目包括身份认证、手机实名认证和在平台上借还款记录等。拍拍贷的信用等级分为 6 级,由 高到低是 A、B、C、D、E、HR。信用评分的结果将直接影响借入者可借额度的大小和借款成功 率。拍拍贷的风

10、险控制手段与 Prosper 类似,主要是分散投资加强制每月还款,此外拍拍贷的借款 期限都在一年以内,也能够在一定程度上降低风险。 图 1. 拍拍贷流程图 网贷之家公布的数据显示自 2013 年 5 月 31 日到 2014 年 4 月 30 日,拍拍贷网站成交额为 1,579,770 元,纯收益 14.12%,投资人数有 13798 人,借入者数 11337 人,在中国众多网贷平台中 较为活跃。本文以拍拍贷作为实证研究对象,主要理由如下: 1.该平台起步早,网站建立成熟,交易量较大,公布的信息较多,有利于数据挖掘和模型建立。 同时为了保证样本容量,数据釆集的来源应比较丰富。 2.拍拍贷平台的

11、运营模式最初主要是效仿 Prosper,即借贷双方是完全自主交易的,有利于研 究网络借贷存在的客观规律,与国外学者的研究结论更有可比性。 3.拍拍贷的服务对象覆盖了全国大部分省市的小微企业主和普通个人,不局限于特定的地区, 这样得到的样本数据更全面更有代表性。 3.2 数据搜集与变量选取 为确保实证分析的有效性和时效性,我们用 C+编写的代码从拍拍贷平台 2014 年 4 月中随机 抓取了的 10520 笔交易的数据,在剔除有误数据和不完整数据后,共得到 10208 个研究样本。 我们将在网站上所获取的 14 个变量总结为五个维度进行研究,如表 1 所示: 表 1 变量列表自变量因变量标的特征

12、担保特征个人特征信用特征历史信息特征(Loan)(Warrant)(Person)(Credit)(History)是否满标借款原因*(L1)审错就赔标性别*(P1)借入信用(C1)成功次数(H1)(W1)金额(L2)安全标(W2)年龄*(P2)借出信用(C2)流标次数(H2)是否借款成功利率(L3)非提现标(W3)职业*(P3)期限(L4)注:1)*代表分类变量。2)部分文献研究了社区和邀请评价,但本文研究期间,该功能已停 用,同时社区得分在本文所选择数据中均为 0 分,因此不作研究。 31.标的特征 借款原因:分类变量。在许多研究中并没有研究借款原因的影响,原因在于很难对其进行统计 和处理

13、。但通过所抓取的数据分析中可以得知,绝大多数借入者会在借款原因中表明标签,本文选 取含有标签的数据并把其作为分类变量进行讨论。 金额、利率、期限:均为数值型变量。表明借款的额度、还款利率和还款期限。 2.担保特征 审错就赔标:虚拟变量。即在审核中如果出现过失或错误,由拍拍贷或第三方提供相应的赔付 服务。 安全标:虚拟变量。即借入者用自己的应收账款来给自己进行担保。 非提现标:虚拟变量。即借入者选择不提现至银行卡,在拍拍贷站内进行周转。 以上三种都不同程度的通过抵押或担保的形式降低了信用风险。 3.个人特征 性别、年龄、职业:均为分类变量。其中年龄为有序变量,其余均为无序变量。在拍拍贷网站 的用

14、户注册信息中,后两者均有其余均有固定选项,具体分类说明如表 2 所示。 表 2 各分类变量水平变量名称借款原因身份年龄分类实体经营工薪族20-25 岁网贷体验私营业主26-31 岁个人消费网店卖家32-38 岁网商经营学生大于 39 岁累积信用其他其他 4.信用特征。 借入信用:数值型变量。由认证得分以及还款历史得分构成,可以衡量用户的借款信用。 借出信用:数值型变量。由认证得分以及投资历史得分构成,可以衡量用户在拍拍贷平台上的 1投资表现。 1拍贷信用等级划分就是根据借入信用的分数而确定的,A 为最高等级,HR 为最低等级。详细 见表 3。 表 3 拍拍贷用户信用等级划分分数区间0-2526

15、-5051-75 76-100101-125126-150等级HREDCBA5.历史信息特征 成功次数、流标次数:数值型变量。分别为该用户在拍拍贷平台历史借款成功、失败次数。 6. 因变量 是否满标:二分型变量。满标意为借入者发布的借款在规定时间内额度被满足。在网页中表现 为借款进度达到 100%。 是否成功:二分型变量。该笔借款若成功会在借款 ID 的页面上表示为“借款已成功”。但由 于成功的判定条件与网站线下审核制度相关,故不作为研究重点,只进行定性分析。 3.3 定性分析 (1)描述性分析 表 4 变量列表 4变量满标未满标合计最小值最大值均值最大值最小值均值均方差金额(元)100035

16、00004910.371000143003007.047778.803标的特征利率0.080.240.160.240.080.14.03690期限(月)2128.8831210.312.686审错就赔标010.44010.00.351担保特征安全标010.09010.00.165非提现标010.09010.00.165信用特征借入信用1014228.73109515.1413.305借出信用1066310798.4810770317.842676.824历史信息成功次数05386.350220.0716.495特征流标次数015990161.621.416有效项3286(32.19%)6922

17、(67.81%)10208在我们的统计数据中,3286 笔满标借款中只有 2231 笔借款成功,只有 67.89%的满标借款成 功借款。 1.性别:在选取的 10208 个样本中,男性共 8874 名,占总借入者的 86.93。女性 1334 名, 占总借入者的 13.07。可以看出男性借入者远多与女性借入者。在建立模型时,对男性赋值为 1, 女性赋值为 0。 2.年龄段:借入者年龄段在拍拍贷上被分为 4 类:20-25 岁,26-31 岁,32-38 岁,大于 39 岁。 人数分别为 3845 人,3658 人,1868 人,837 人;分别占总人数的 37.67%,35.83%,18.30

18、%,8.20%。 样本中 70%以上的用户,年龄都在 31 岁以下,说明 P2P 借贷对象较年轻化。在金融投资理论中, 通过许多实证研究,认为个人的风险倾向以及经济状况随着年龄的变化而不同,信任度也随年龄的 增加而增加,属于常见的借出者认知。 3.职业:在选取的 10208 个样本中,工薪族 5819 人,占 57.00%;私营业主 2052 人,占 20.10%; 学生 449 人,占 4.40%;网店卖家 443 占 4.34%;其他 1445 人,占 14.16%。可以看出超过一半的 借入者身份都是工薪族,从某种程度上说明工薪族因个人原因的借款需求较大。 4.借款原因:个人消费 2981

19、 人,占 29.20%;实体经营 2064 人,占 20.22%;累积信用 1133 人, 占 11.10%;网贷体验 887 人,占 8.69%;网商经营 549 人,占 5.38%;其他 2596 人,占 25.43%。 从数据中可以看出借入者的借款主要用于个人消费,其次是用于经营。 (2)多元对应分析 对应分析(Correspondence analysis),又称关联分析或 R-Q 型因子分析,是指通过分析由定性变 量构成的交互汇总表来揭示变量间的联系的一种分析方法,用来揭示同一变量的各个类别之间的差 异,以及不同变量各个类别之间的对应关系。 对应分析法的处理过程由相关系数表格和关联图

20、两部分组成。其中,表格是一个二维的表格, 由行和列组成。行代表事物的属性,依次排开。列代表不同的事物本身,由样本集合构成,排列顺 序无特别要求。关联图中各个样本都浓缩为一个点集合,而样本的属性变量同样也是以点集合的形 式显示在图上。 5借款失败 未满标 满标 E 借款成功 图 2. 多元对应分析联合图 图 3. 主要辨别度量 多元对应分析的优势在于可以同时分析多个分类变量之间的关系,并对无序多分类变量、有序 多分类变量同时进行分析,尤其是当变量个数越多,各个变量取值越多时,对应分析的优势就越加 明显。因此为了探究分类变量与是否满标以及是否借款成功之间的影响,我们采用多元对应分析进 行。 (1)

21、总体分析: 从图可看出,“是否满标”的区分度量主要关注维度 1,而“是否成功”则主要关注维度 2。“等 级”、“年龄段”从维度 2 可初步判断存在显著性差异,“借款原因”、“身份”综合关注维度 1、2 亦存在显著性差异,而“性别”间无明显差异。 6(2)坐标轴定义和象限分析:可定义横轴为“是否满标”,关注对象越靠近正方向即认为与“已 满标”相关性更高,负方向反之;纵轴则为“是否成功”,与横轴同理。由此,落在第一象限的即 表示已满标但借款失败,而第四象限则为已满标且借款成功,第二三象限即表示未满标项。 (3)基本特征分析: 身份及借款原因:结合身份与借款原因,可看出用于个人消费、网贷体验、累积信

22、用的工薪族 较易满标,但用于实体经营、网商经营的网店卖家、私营业主则较难满标。值得注意的是,尽管工 薪族满标率高,但其借款成功率并不高;而满标率较低的私营业主却拥有很高的借款成功率等。 年龄段:20-25 岁的用户最不受借出者信任。 等级:最靠近中心的 HR 等级用户最不易识别,因此被投标、借款的成功率最低,可大体看出 等级越高越易满标、完成借款。(A、B 等级样本比重过小可忽略不计) (4)人群特征划分: 为信用累积的 E 及以上等级用户更容易通过网站核查成功借款,而为满足网贷体验、个人消 费的 20-25 岁 HR 等级用户则很难完成借款;用于个人消费、网贷体验的工薪族最受借出者信任, 达

23、到满标几率最高,然而通过网站核查成功借款的几率较低;相反的,为网店经营而借款的网店卖 主、为实体经营的私营业主虽受信任度不高,但一旦满标后成功借款的概率却较工薪族高出许多。 表 5 已转换变量的相关系数维数:1性别年龄段是否身份是否等级借款成功满标原因性别1.000.036.007.021.015.035.024年龄段.0361.000-.081.065.042-.025.080是否成功a.007-.0811.000-.011.019.441-.019身份.021.065-.0111.000.706.047.318是否满标.015.042.019.7061.000.042.189等级.035-

24、.025.441.047.0421.000.056借款原因.024.080-.019.318.189.0561.000维数1234567特征值b2.9692.3111.9991.691.976.693.360a. 使用已量化的变量模式对缺失值进行归因。 b. 使用变量权重对相关矩阵的特征值进行加权。4 基于二元 logistic 回归的满标预测模型借入者决策模型 从借入者的视角来说,如何使自己成功借款是其在网络借贷中关注的重点。而借款成功的基础 就是得到借出者的关注和响应进而达到满标。因此本文基于样本数据进行回归分析,以期找到对影 响借出者投资意愿的因素,并建立回归模型帮助借入者进行满标预测。

25、 4.1 模型选取 研究所选取的因变量为是否满标,为二分类变量。在建立回归模型时,由于目标概率的取值 在0,1之间,而因变量取值落在实数集中,而导致一般的回归方法无法接受。为了使回归能够顺利 实现,因此可以先将目标概率做 logit 变换,使其取值区间变为整个实数集,进而进行回归,即二 元 logistic 回归。其线性表示形式如下: 其中, 代表在第 个观测中事件发生的概率,为在第 个观测中不发生的概率,均为自变量 7 所构成的非线性函数,两者之比成为事件的发生比。 4.2 相关性检验 由于上文对于分类型变量已做出定性分析,所以回归模型主要针对于除去分类变量的其余变量 进行定量分析。为了筛选

26、自变量,我们需要进行自变量之间进行相关性检验。在多元回归中,若自 变量出现多重共线性,会导致增加或减少一个变量对回归系数影响很大,回归结果极不稳定。若多 重共线性现象严重,很容易导致错误的结论,因此应进行相关性检验,从有问题的变量中删除不重 要的变量。 对于数值型变量,我们采用 Pearson 系数进行检验,对于相关系数在 0.9 以上的变量应予以处 理。相关系数表如下: 表 6 相关系数表Pearson 相关金额非提安全标审错年利率期限成功数流标数借入借出性现标就赔标信用信用金额1非提现标.0541安全标.060.9371审错就赔标-.005-.056-.0701年利率-.003-.280-

27、.300-.1761期限-.095-.223-.221-.069-.0521成功数.065.520.533-.003-.152-.1141流标数-.042-.138-.146-.225.211.032-.0701借入信用.178.083.072.330.136-.244.145.2501借出信用.048.481.535-.032-.160-.082.834-.070.1191从相关系数表可以得知,非提现标与安全标的相关系数为 0.937,这可能由于拍拍贷网站 的应收款安全标和非提现标均是将资金放在在站内进行周转的,因此绝大多数状况下是同时 认证的,这也是在贷款原因中时常出现“安非标”的原因。如

28、果这两个担保变量同时进入回 归方程易出现多重共线性问题,通过对网站担保机制的分析,安全标对于标的的担保性更强, 故删除非提现标担保变量。 4.3 模型构建 由表 3 可以看出金额与借出信用的均方差非常大,为了消除回归中可能出现的异方差,故对这 两个变量做对数处理后再进入回归。另外,为了使 SPSS19.0 输出的 Exp(B)有意义,我们将利率扩 大 100 倍,也即是其变动一个单位代表增长或减少一个百分点,符合实际意义。 回归结果最终有 7 个自变量进入回归方程,Cox & Snell R 方和 Nagelkerke R 方取值分别为 0.643 和 0.902,也即是因变量是否满标

29、的 90.2%都可以由自变量解释,从这一点看回归方程的拟合 效果很好。 8表 7 R2 检验值步骤-2 对数似然值Cox & Snell R 方Nagelkerke R 方16360.061.303.42524507.579.462.64832604.013.588.82442254.217.607.85152017.129.620.86961595.889.642.90071567.751.643.902在回归过程中,建立了一个服从参数为 0.7 的伯努利分布的随机变量 validate 作为选择变量, 模型建立过程中只选用 validate=1 的变量,而其余用作预测和验证,结果显

30、示在预测分类表格中。 预测概率以 0.5 为分界,若大于 0.5 则判断为满标,若小于 0.5 则判断为不能满标。在最终模型中, 建模所用的 7164 个用户综合判断正确率达到 96%。而对验证所用的 3044 个用户的综合判断正确 率也达到 95.5%,说明模型的预测效果很好,尤其是对满标用户的预测。 表 8 预测分类结果已预测选定案例 a未选定的案例 b,c是否满标是否满标已观测百分比校正百分比校正0101是否满标 0467321995.519349695.3165 220797.14197396.0总计百分比96.095.5由系数表可以看出最终的回归预测模型为 表 9 回归系数表BS.E

31、,WalsdfSig.Exp (B)安全标9.269.740157.0151.00010608.880ln 金额1.354.24530.6701.0003.875借入信用.074.00895.5371.0001.077成功数.262.06615.6201.0001.299流标数-.817.049282.5911.000.442审错就赔标8.391.366526.4941.0004407.640年利率.730.026813.6771.0002.074常量-25.9082.120149.3211.000.000从回归结果可知,期限与借出信用与是否满标相关性不大,故没有进入最后的回归模型。其余 9变

32、量 wald 统计量伴随的 p 值均小于 0.05,表明参数的估计值显著的不为 0。Exp(B)列表明自变量 变动一个单位而引起的事件发生比的变化率,通过该列数值可以看出担保对于满标的影响程度非常 大。而在除担保外的变量中,年利率变动对满标概率的影响非常明显。金额由于做了对数处理,故 相对来说金额的小幅变动对满标概率影响不大。 4.4 结果分析 在标的变量中,金额对是否满标有正向影响,但小幅变动对其影响不大,原因在于借款金额大 说明了借入者的信用额度高,容易获得投资人的信任;而对于 P2P 网贷平台来说,为了分散风险, 通常只进行小额投资,因此金额的多少对与借出者并无太大影响。年利率影响较大,

33、投资行为最主 要的动机就是获得良好收益,因此这符合实际认知。期限对是否满标影响不大,原因可能在于拍拍 贷网站限定还款期限均不超过一年,同时期限长代表利息高,而期限短使得资金流动快,各有优势, 因此综合起来影响不大 在担保变量中,安全标与审错就赔标均对是否满标有较大影响,说明该种形式的担保可以降低 信用风险,对投资人有较大的吸引力。通过对样本的统计显示,安全标中有 98.6%、审错就赔标中 有 98.9%的借款均达到满标。 在历史变量中,成功数正向影响是否满标,而流标数对借款是否能完成的影响为负,这种现象 可以由马太效应解释,即成功次数越多的人越容易成功,反之失败次数越多则越容易失败。另外, 一

34、次成功借款的影响要大于一次流标的影响。因此,为了尽量避免流标的出现同时尽可能促成成功 借款,本文所提出的满标预测模型可以为借入者提供较为可靠的参考。 在信用变量中,借入信用对是否满标正向影响。由于借入信用是借出者对借入者的最直接的判 别依据,尤其是对没有历史信息的借款用户,因此借款者应尽量完成认证以便获得借出者信任。而 借出信用主要代表投资上的表现,因此影响不大。 4.5 对借入者的决策建议 借入者可以使用本文提出的回归模型进行满标预测,并针对自己可以变动的信息进行调整以最 小的成本达到满标的目的。举例说明,一个新注册的拍拍贷用户,没有借款历史,不能得到担保, 基础信用分是 10 分,第一次发

35、布的借款金额规定为 3000 元,利率在 13%到 22%之间。为达到满 标目标,若该用户不希望过多透露个人信息,那么最低可以将利率定为 20%;若该用户不希望承 受过大的还款压力,那么可以完成全部认证使信用分达到 38 分,从而享受 17%的利率。若没有明 显偏好也可以综合考虑。 5 借入者信用的判别分类模型借出者决策模型 5.1 研究目的与研究方法 信用等级把借入者划分成六种类型,是基于认证项目和历史记录的分类方法,但是这种划分方 式未必能动态的反应出用户的借款活动情况。通过观察平台上的借入者可以发现,有一些借入者虽 然是同样信用等级,但是活动模式却有较大差别。因为信用等级相同的人并一定是

36、同质的,比如信 用等级低的并非全是低质量的借入者,而有很大部分是“年轻”的、交易次数少导致等级低的新用 户。因此,对借入者进行判别分析的主要目的是:找出“信用等级”这一标识所不能合理归类的用 户,并对其重新归类,能帮助借出者更好地识别出同等级内的“好用户”。 考虑到拍拍贷现有用户等级划分依据较合理,因此在一定程度上遵循现有等级划分制度框架, 但对占总数 70%的高风险(High Risk,即 HR 级)用户进行重新定义,以选出 HR 级中表现活跃、 成长潜力大、信用状况较好的新用户,增大 HR 级类别内用户信用情况的差异性,使其具有更强的 识别度。 研究方法选择判别分析法,以较高等级用户及典型

37、高风险用户作为已知分类的数据集,将现有 分类规则下 HR 级用户作为未知分类数据,对高风险用户进行重新分类。 105.2 模型构建 (1)预测变量选择 为考量借入者的信用分类情况,选取与借入信用取值相关的以下变量集作为预测变量组合:总 标数、成功数、流标数、全额还清次数;身份认证、视频认证、学历认证、手机认证、网银认证、 资料得分等 10 项。因分析对象为借款需求用户,因此不予考虑其借出信用。 (2)验证样本已知分类样本集 表 10 已知样本分类集分类优质良好尚可高风险享有极高的受信任含义程度,为同标的下享有较高的受信任受信任程度一般受信任程度最低,为同标的下借出者首要考虑的程度借出者基本不予

38、考虑的对象。对象拍拍贷 HR 级用户筛选产生:拍拍贷 A/B/C 级用成功数=0样本组成拍拍贷 D 级用户拍拍贷 E 级用户全额还款次数=0户流标数3资料与认证得分总和15样本容量852512149338(3)分析样本待分类样本集 人为剔除现有分类规则下 HR 级中可识别的高风险用户(共 338 人次),其余 HR 级用户信息 作为未知分类数据,样本容量为 7385。 5.3 结果分析 (1)基本统计信息 观察组统计量数据可发现,各类别中身份认证标准差均为 0,即组内身份认证无差别;而在优 质、良好分类中网银认证标准差为 0,在尚可、高风险分类中却存在明显标准差值,即初步可判别 好用户一特征即通过了网银认证。 (2)协方差矩阵的均等性的箱式检验(Boxs M) 根据 Boxs M 检验结果,推断不能拒绝接受各类协方差矩阵相等的零假设,说明使用组内协方 差阵进行计算是合适的。 (3)变量筛选 观察输入变量的显著性水平,除“身份认证”外的其他变量的 WilksLambda 检验都很显著, 说明这些变量对正确判别分类具有显著的作用。而“身份认证”在“不在分析的变量”表中被筛选 出,考虑到现实中进行交易的用户必须完成身份认证的交易规则,该变量不具组内、组间差异性, 因此其剔除符合现实情况。 (4)判别函数检验 表 11 已知样本分类集正则相关函数特征值方差的 %累积 %性

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论