版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第20章金融行业运维项目实战第一部分:项目背景和流程PART
011Confidential秘密0102项目背景介绍项目流程Confidential秘密0102项目背景介绍项目流程Confidential秘密项目背景介绍随着小额贷款的兴起,越来越多的P2P网络借贷平台出现了。网络借贷指的是借贷过程中,资料与资金、合同、手续等全部通过网络实现,它是随着互联网的发展和民间借贷的兴起而发展起来的一种新的金融模式。由于P2P网贷很大程度上具有民间金融的属性,其借、贷行为较传统的投资理财渠道有其独到的优势。正因为此,网贷吸引了大量资金,同时其借款人主题是个人,以信用借款为主,面对社会筹集资金。相较企业借款而言,个人借款信息不易核实,还款来源不稳定,参与者的信用风险给平台良好运营带来较大的不确定性。Confidential秘密项目背景介绍Confidential秘密0102项目背景介绍项目流程Confidential秘密项目流程本章所用数据源包含字段较多,在对贷款用户进行信息、行为模式分析时,只需要关注重点字段,因此需要对这些关键字段进行提取。源数据中这些关键字段可能存在空值、字段值不合理等,我们要对这些数据进行清洗。本章中,使用Spark计算框架对清洗后的数据进行分析,分析完毕后将分析结果导入到MySql数据库中进行可视化。最后对结果进行综合分析。Confidential秘密第二部分:数据说明及导入PART
022Confidential秘密01
数据说明及导入02清洗与预处理Confidential秘密0102数据说明及导入清洗与预处理Confidential秘密数据说明Confidential秘密0102数据说明及导入清洗与预处理Confidential秘密清洗与预处理清洗流程如下Confidential秘密清洗与预处理提取关键字段。共887379行清字段缺失记录。清洗0行清洗重复数据。清洗0行清洗“贷款编号”。清洗0行清洗“贷款金额”。清洗0行检查“贷款等级”。不需清洗检查“贷款子等级”。不需清洗清洗“工作年限”。清洗60977行清洗“房屋状态”。清洗51行清洗“年收入”。清洗0行清洗“收入是否核实”。清洗256729行剩余569266行Confidential秘密第三部分:数据分析PART
033Confidential秘密0102借款金额分布借款等级分布03借款金额与借款等级关系04借款金额与工作年限、年收入关系05借款金额与房屋所有状态关系Confidential秘密借款金额分析分析借款金额的分布情况,了解主流客户需求。借款金额区间划分原则如下:010005000100002000050000更多分析结果:Confidential秘密借款等级分布Confidential秘密不同的借款等级意味着不同的借款利率,等级越高,借款利率越高。借款利率与借款金额、还款时间都有关系。本项目的源数据中借款等级位于A-G之间,每个等级又分为5个子等级,我们分析每个子等级的人数分布。部分结果如下:借款金额与借款等级关联关系客户需求与借款金额、借款等级密切相关,两者之间的相互关系成为P2P运营者关心的重点。部分结果如下:Confidential秘密借款金额与工作年限关系一般情况下,客户年收入会随着工作年限的增加而增长,相较于收入较低的客户,其借款风险会更低。部分结果如下:Confidential秘密借款金额与年收入关系年收入更直观反映客户的还款能力,需要重点关注。本项目将年收入按以下区间划分:0
1万美元部分结果如下:5万-10万美元10万-20万美元大于20万美元Confidential秘密借款金额与房屋所有状态关系房屋所有状态也是客户财务状况的直接反映。分析其房屋所有情况,可以帮助网贷平台有效规避风险。部分结果如下:MORTGAGE:按揭RENT:租住
OWN:自有住房
OTHER:其他Confidential秘密第四部分:数据可视化PART
044Confidential秘密可视化流程可视化图表能更好地揭示数据间的关系,方便我们进行分析。本项目使用Flask+Echarts技术进行数据可视化。Confidential秘密可视化结果由此图表可以看出,借款金额位于1万-2万美元之间的人数最多,其次是2万-5万区间,没有出现5万美元以上的借款;
1000美元以下的借款人数也较少。Confidential秘密可视化结果由图表可以看出,借款等级位于C级别的人数最多,并且每个级别的子等级分布较均匀。Confidential秘密可视化结果由图表可以看出,B、C
级别在各个借款区间都
占绝大多数,D级别次之;利率最高的G级别在各个
借款区间均占极少数。Confidential秘密可视化结果由图表可以看出,小于1年工作经历的人在各区间借款人数中都占绝大多数,说明该网贷平台的绝大部分客户可能为学生;同时工作时间大于10年的客户也有一定比例。Confidential秘密可视化结果由图表可以看出,该网贷平台的客户绝大多数为年收入在10000-20000美元,较高收入的客户比较少。这也反映出收入较低的人群,对于网贷的需求较多;收入较高的人群,一般很少会通过网贷满足经济需求。Confidential秘密可视化结果由此图表可以看出,
MORTGAGE(按揭)和RENT(租住)房屋的人群在此网贷平台借款较多;有用自主住房OWN状态的客户较少。Confidential秘密第五部分:综合分析PART
055Confidential秘密综合分析Confidential秘密由上述的可视化结果我们可以看到,该网贷平台面向的多为收入较低(年收入10000-20000美元)的客户,其工作年限较短,一般没有自主住房,满足这些特征的人群出现经济状况无法满足生活需求的几率较大,需求金额在10000-20000美元的人数较多,借款金额基本为一年的年收入。对于这样的客户群,可以在在借款时可以着重参考个人的信用档案,对于信用度较低的客户可以提高借款门槛,降低借款额;借款后通过多种渠道进行沟通,降低还款风险。本章小结Confidential秘密通过本章的学习,读者应该掌握:√大数据分析处理的流程√使用Spark技术进行数据分析的方法√使用Flask框架+Echarts插件进行数据可视化的方法Thanks!Confidential秘密第21章典型大数据平台监控运维实战第一部分:项目背景和流程PART
011Confidential秘密0102项目背景介绍项目流程03实验环境Confidential秘密0102项目背景介绍项目流程03实验环境Confidential秘密项目背景介绍Confidential秘密实验任务:开启Ganglia监控hadoop集群本地数据上传到分布式文件系统HDFS用数据仓库Hive查询数据两个操作中Ganglia监控到的状态0102项目背景介绍项目流程03实验环境Confidential秘密项目流程开启G
a
n
g
l
i
a上传数据记录集群状态查询数据Confidential秘密01项目背景介绍实验环境03项目流程02Confidential秘密0102集群环境安装ganglia所需依赖03监控端安装gmeta,gmondganglia-web,nginx,php04被监控端安装gmond实验环境Confidential秘密第二部分:数据说明及导入PART
022Confidential秘密0102数据说明数据导入Confidential秘密0102数据说明数据导入Confidential秘密数据说明本章实验提供一个包含30万条记录的网站用户行为数据集。数据集内容如下:Confidential秘密02数据导入01数据说明Confidential秘密数据导入开启Ganglia监控hadoop集群修改ganglia-monitor的配置文件主节点配置修改Hadoop的配置文件重启所有服务服务页面查看各机器节点信息Confidential秘密本地数据上传到分布式文件系统HDFS创建目录,将数据集放入目录数据预处理上传操作Confidential秘密第三部分:用数据仓库Hive查询数据PART
033Confidential秘密0102准备工作查询操作Confidential秘密准备工作Confidential秘密在Hive上创建数据库启动MySQL数据库[hadoop@master~]$
service
mysql
start[hadoop@master~]$
cd/usr/local/hive[hadoop@master
hive]$./bin/hive#启动Hive启动成功以后,就进入了“hive>”命令提示符状态,可以输入类似SQL语句的HiveQL语句。下面,我们要在Hive中创建一个数据库dblab,命令如下:hive>create
database
dblab;OKTime
taken:
1.471
secondshive>
use
dblab;OKTime
taken:
0.119
seconds查询操作Confidential秘密在数据库dblab中创建一个外部表bigdata_user,它包含字段(id,uid,item_id,behavior_type,item_category,date,province),在hive命令提示符下输入如下命令:hive>
CREATE
EXTERNAL
TABLE
dblab.bigdata_user(id
INT,uidSTRING,item_id
STRING,behavior_type
INT,item_categorySTRING,visit_date
DATE,province
STRING)
COMMENT
"Welcome
toxmu
dblab!"
ROW
FORMAT
DELIMITED
FIELDS
TERMINATED
BY
"\t"STORED
AS
TEXTFILE
LOCATION
"/bigdatacase/dataset";查询操作Confidential秘密上面已经成功把HDFS中的“/bigdatacase/dataset”目录下的数据加载到了数据仓库Hive中,我们现在可以使用下面命令查询:hive>
select
*
from
bigdata_user
limit
10;OK110001082285259775140762014-12-08河北2100010824368907155032014-12-12四川3100010824368907155032014-12-12新疆41000108253616768197622014-12-02山东510001082151466952152322014-12-12香港61000108253616768497622014-12-02江苏710001082290088061155032014-12-12宁夏8100010822983975241108942014-12-12重庆市91000108232104252165132014-12-12广西10100010823233397431108942014-12-12云南Time
taken:
8.347
seconds,
Fetched:
10
row(s)第三部分:上传和查询操作中Ganglia监控到的状态PART
044Confidential秘密上传数据前后集群状态变化上传操作前ganglia监控到的hadoop的整体状态上传操作后ganglia监控到的hadoop的整体状态Confidential秘密上传数据前后集群状态变化上传前ganglia监控到的hadoop中master节点的状态上传后ganglia监控到的hadoop中master节点的状态Conf
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024双人合伙商业店铺协议模板
- 2024年企业工程承包详细协议细则
- 德邦物流2024年专项快递服务协议
- 2024年度供应商保密义务协议
- 2023-2024学年浙江省嘉兴市高考数学试题考前三个月(江苏专版)
- 2024年战略采购合作协议模板
- 2024房屋权属更名补充协议
- 2024年产品委托加工协议文本
- 6.1圆周运动(含答案)-2022-2023学年高一物理同步精讲义(人教2019必修第二册 )
- 2024年制造业劳务承包基本协议格式
- 绵阳市高中2022级(2025届)高三第一次诊断性考试(一诊)语文试卷(含答案)
- 自然资源调查监测劳动和技能竞赛
- 2 0 2 4 年 7 月 国开专科《法理学》期末纸质考试 试题及答案
- 6.1 我对谁负责 谁对我负责 课件-2024-2025学年统编版道德与法治八年级上册
- 2023-2024学年天津市经开区国际学校八年级(上)期末物理试卷
- DB23T 3842-2024 一般化工企业安全生产标准化评定规范
- 期中模拟押题卷(1-3单元)(试题)-2024-2025学年苏教版数学六年级上册
- 环氧树脂项目可行性研究报告项目报告
- 公共政策分析第一章
- 2024-2025学年人教版数学三年级上册 第三单元 测量 单元测试卷(含答案)
- 2024新信息科技三年级第四单元:创作数字作品大单元整体教学设计
评论
0/150
提交评论