Chap2-基本描述方法_第1页
Chap2-基本描述方法_第2页
Chap2-基本描述方法_第3页
Chap2-基本描述方法_第4页
Chap2-基本描述方法_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

金融数据统计分析项目二由数据找关键(高职)Chap2_基本描述方法01背景:P2P网贷01知识:数据描述01实践:数据的基本描述(高职)Chap2_基本描述方法项目背景P2P网贷(高职)Chap2_基本描述方法P2P网贷是什么P2P网贷(互联网金融点对点借贷平台)是指在一个开放的网络平台上,借款人和贷款人平等参与,直接达成借款交易。P2P网贷平台通过提供信息揭示、信用审核等服务,取代了传统银行的中间人角色但P2P网贷平台不与贷款人和借款人发生直接的债权债务关系,而是提供一种纯中介性质的服务(高职)Chap2_基本描述方法P2P网贷的操作方式信息发布和交易撮合P2P平台的征信服务风险资金池第三方担保信息披露(高职)Chap2_基本描述方法P2P网贷的历史2005年:Zopa英国的RateSetter和FundingCircle、美国的Prosper、LendingClub和Kiva、德国的Smava和Auxmoney2007年:我国最早的P2P网贷平台“拍拍贷”(高职)Chap2_基本描述方法信息发布和交易撮合信息发布与交易撮合是P2P网贷最基本的功能。资金的需求方和供给方在网贷平台上注册资金需求方发布信息资金供给方选择项目网贷平台是严格中立的第三方(高职)Chap2_基本描述方法P2P平台的征信服务国外的P2P网贷平台一般不提供征信服务。国内因为征信体系不完善,所以大多数的P2P网贷平台都需要自己提供征信服务对个人资金需求者:一般有身份认证性质的手机认证、视频认证、身份证认证等,还有财务状况方面的房产证认证、车辆行驶证认证等。对公司资金需求者:包括公司文件认证、财务状况认证、经营场所认证等。目前P2P征信基本等于零,有效性存在很大问题。(高职)Chap2_基本描述方法风险资金池风险资金池:每一笔借款,都提取一定比例的资金放入风险资金池,当有坏账出现的时候,就使用风险资金池的资金先行支付风险资金池也可理解为平台所有资金提供者互保的保险机制风险资金池的提取比例理论上应该与坏账率相一致(高职)Chap2_基本描述方法第三方担保P2P网贷平台通过与第三方担保公司合作,在达成借贷交易时,按比例支付给第三方担保公司担保费用,担保公司相应承担对这一交易的担保责任,在借款人无法正常还款时,由担保方负责还款。然而,担保也衍生出一系列问题例如,P2P网贷平台和担保公司出资人为同一人或关联公司,违背第三方宗旨。一旦平台出现问题或倒闭时,担保公司根本起不了担保作用,第三方担保形同虚设(高职)Chap2_基本描述方法信息披露信息披露是构成对平台运营风险评估最重要的一个方面平台的投资者关系、经营管理团队、业务流程、交易流程、交易统计数据等能够被公众看到,才能杜绝违规操作(高职)Chap2_基本描述方法目前中国的P2P网贷存在的问题小平台鱼目混杂P2P网络贷款平台日常监管缺乏征信系统的严重缺乏信息披露和平台安全存在问题(高职)Chap2_基本描述方法知识要点数据的基本描述(高职)Chap2_基本描述方法数据分析的准备工作数据的来源数据的清洗(高职)Chap2_基本描述方法数据的来源普遍调查例:全国的人口普查典型调查是专门组织的一种非全面调查抽样调查从全体之中抽取一部分个体作为样本,借着对样本的观察,再对全体做出推论。抽样调查是数据分析过程中数据来源的典型形式。网络数据网络数据具有及时性、共享性、可靠性和客观性,而且获取便捷、成本低(高职)Chap2_基本描述方法网络爬虫网络爬虫是一个自动提取网页的程序,它为搜索引擎从互联网上下载网页,是搜索引擎的重要组成。爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。(高职)Chap2_基本描述方法数据的清洗数据清洗是指发现并纠正数据文件中可识别的错误,包括检查数据一致性,处理无效值和缺失值等。需要清洗的数据包括:残缺数据:即应该存在却缺失的信息错误数据:错误数据的种类很多,例如体重是负数,输入数据值时采用了全角的数值输入,日期越界等。重复数据:相同关键字数据重复出现多次,需要将重复的数据记录标出并进行整理。(高职)Chap2_基本描述方法数据清洗中的主要操作在数据清洗过程中,主要进行两类处理:一致性检查和无效值(缺失值)处理。一致性检查(consistencycheck)是根据每个变量的合理取值范围和相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据。发现不一致时,要列出问卷序号、记录序号、变量名称、错误类别等,便于进一步核对和纠正。(高职)Chap2_基本描述方法缺失值处理方法数据中可能存在一些无效值和缺失值。常用的处理方法有:估算,整例删除,变量删除和成对删除。估算(estimation):用某个变量的样本均值、中位数或众数代替无效值和缺失值。简单,但误差可能较大。整例删除(casewisedeletion):剔除含有缺失值的样本。可能导致有效样本量大大减少。只适合关键变量缺失,或者含有无效值或缺失值的样本比重很小的情况。变量删除(variabledeletion)如果某一变量的无效值和缺失值很多,而且该变量对于所研究的问题不是特别重要,则可以考虑将该变量删除。这种做法减少了供分析用的变量数目,但没有改变样本量。成对删除(pairwisedeletion):用一个特殊码代表无效值和缺失值,同时保留数据集中的全部变量和样本。这是一种保守的处理方法,最大限度地保留了数据集中的可用信息。(高职)Chap2_基本描述方法数据的排序和分组数据的排序是将一组数据按照大小、高低、优劣等顺序进行依次排列的过程数据经过排序,有助于了解数据大致的分布状态数据排序是数据分组前期准备数据分组是将数据按照某一特征分为不同的组别的过程数据的分组可以对非数值型数据分组,也可以对数值型数据分组(高职)Chap2_基本描述方法非数值型数据的分组非数值型数据的分组也称为分类对于非数值型数据的分组,可以用表格、图表展示(高职)Chap2_基本描述方法数值型数据的分组数值型数据可以是整数、实数等,对数值型数据的分组是把数据分配在不同取值区间的过程。组距是同一分组的上限与下限之间的绝对距离。

一般有:组距=上限–下限。等距分组是各组组距全部相等异距分组是各组组距不尽相等的分组方法相比异距分组的方法,更多采用的是等距分组法。(高职)Chap2_基本描述方法等距分组步骤计算取值范围确定组数计算组距确定组限分配数据不重不漏(高职)Chap2_基本描述方法数据的图形描述对于不同类型的数据,需要选择相匹配的图形进行展示,常用的图形有柱状图、饼图、折线图和直方图等。条形图的使用情形:数据标签较长、大量数据集柱状图的使用情形:柱形图有利于数据的比较性展示,尤其是数据集中有负值折线图是用直线段将各数据点连接起来而组成的图形,以折线方式显示数据的变化趋势。折线图常用来分析数据随时间的变化趋势直方图(Histogram)(高职)Chap2_基本描述方法直方图直方图(Histogram)是将所收集的数据值分成几个相等的区间作为横轴,将各区间内数据值所出现的次数累计作为纵坐标量的一系列连接起来的直方型矩形图。直方图与柱状图的区别在于,直方图是用面积而非高度来表示数量。柱状图是用条形的长度表示各类别频数的多少,其宽度仅表示类别。(高职)Chap2_基本描述方法各种图形示例(高职)Chap2_基本描述方法绘制直方图的步骤收集和记录数据。确定数据的最大值和最小值。决定分组的数目。设定各组的组距。计算各组的界限位。统计各组数据出现频数,作频数分布表。作直方图。以组距为底长,以频数为高,作各组的矩形图。(高职)Chap2_基本描述方法直方图的形状正常的直方图图形形状是中间高、两边低,左右近似对称,它表示数据处于基本稳定的状态异常的直方图种类较多,比较常见的有孤岛型、双峰型、折齿型、偏峰型、平顶型等。(高职)Chap2_基本描述方法数据的集中趋势和离散程度数据的分布状态有集中趋势和离散程度两个主要特征。集中趋势描述的是数据向中心值靠拢的程度离散程度描述了观测值偏离中心位置的趋势。(高职)Chap2_基本描述方法数据的集中趋势向某一中心值拢的程度,它反映了一组数据中心点的位置所在几个常用代表值有均值、中位数和众数均值:数据组中所有数值的总和除以该组数值的个数中位数:将数据按大小顺序排列起来,形成一个数列,居于数列中间位置的那个数据众数:众数是一组观测值中出现频率最高的值(高职)Chap2_基本描述方法均值、中位数和众数之间的关系数据的倾斜程度正倾斜负倾斜(高职)Chap2_基本描述方法数据的离散程度常用指标有极差、方差、标准差和离散系数等极差:样本数据中两个极端值之差方差与标准差:反映的是一组数据对其均值为代表的中心的某种偏离程度。(高职)Chap2_基本描述方法方差与标准差(高职)Chap2_基本描述方法离散系数测定总体中各单位标志值变异的相对量指标常用的离散系数主要是标准差离散系数CV

(CoefficientofVariance)(高职)Chap2_基本描述方法数据的偏态偏度:衡量数据的不对称性衡量偏度的指标称为偏态系数偏态系数的值可以为正

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论