Python数据分析与挖掘实战-数据探索_第1页
Python数据分析与挖掘实战-数据探索_第2页
Python数据分析与挖掘实战-数据探索_第3页
Python数据分析与挖掘实战-数据探索_第4页
Python数据分析与挖掘实战-数据探索_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据探索1数据特征分析目录数据校验2时间范围不一致一致性校验时间校验time_1time_22020-01-0108:35:002020-01-1710:31:002020-01-0209:16:002020-01-1811:36:002020-01-0310:33:002020-01-199:45:00…………2020-01-3015:20:002020-02-1919:27:002020-01-3121:18:002020-02-2023:55:00时间粒度不一致一致性校验unupgraded_time_1upgrade_time_22020/03/1610:35:002020/6/814:12:302020/03/1610:36:002020/6/814:13:002020/03/1610:37:002020/6/814:13:302020/03/1610:38:002020/6/814:14:002020/03/1610:39:002020/6/814:14:30时间格式不一致一致性校验order_time1end_time22020-08-1515:16:00202011051430002020-08-1515:25:00202011051435002020-08-1515:33:00202011051442002020-08-1515:40:00202011051448002020-08-1515:47:0020201105145100时区不一致一致性校验Overseas_sever_timeLocal_sever_time2020/05/1009:10:302020/05/1014:10:302020/05/1009:11:002020/05/1014:11:002020/05/1009:11:302020/05/1014:11:302020/05/1009:12:002020/05/1014:12:002020/05/1009:12:302020/05/1014:12:30同名异议一致性校验字段信息校验Number(A)Number(B)1004538109101600016210045383061016000175100453842542380003391004538333423800034810045380074238000256同名同义一致性校验Sold_dtSales_dt2020/7/012020/7/012020/7/032020/7/032020/7/102020/7/102020/7/152020/7/152020/7/242020/7/24单位不统一一致性校验Gold_coins(A)Gold_coins(B)49.56.343456.97.291743.05.510480.610.328867.28.6116信息暂时无法获取或获取信息的代价太大信息遗漏属性值不存在缺失值校验缺失值产生的原因缺失值校验缺失值产生的影响丢失大量有用信息不确定性更加显著,模型中蕴涵的规律更难把握使建模过程陷入混乱,导致不可靠的输出函数或方法名函数或方法功能使用格式isnull用于判断是否为空值pandas.DataFrame.isnull()或pandas.isnull(obj)notnull用于判断是否为非空值pandas.DataFrame.notnull()或pandas.notnull(obj)count用于计算非空元素pandas.DataFrame.count(axis=0,level=None,numeric_only=False)缺失值校验缺失值产生的校验简单统计质量分析

可以先对变量做一个描述性统计分析,进而查看哪些数据是不合理的。Python异常值检测函数或方法:异常值校验函数或方法名函数或方法功能使用格式percentile用于计算百分位数numpy.percentile(a,q,axis=None,out=None,overwrite_input=False,interpolation='linear',keepdims=False)mean用于计算平均值pandas.DataFrame.mean(axis=None,skipna=None,level=None,numeric_only=None,**kwargs)std用于计算标准差pandas.DataFrame.std(axis=None,skipna=None,level=None,ddof=1,numeric_only=None,**kwargs)函数或方法名参数名参数说明percentilea接收array_like。表示输入数组或可以转换为数组的对象。无默认值q接收浮点数的array_like。表示要计算的百分位数或百分位数的序列,必须在0到100之间(含0和100)。无默认值axis接收int、int元组、None。表示计算百分位数的一个或多个的轴。默认为Nonemeanaxis接收int。表示所要应用的功能的轴,可选0和1。默认为Noneskipna接收bool。表示排除空值。默认为Nonelevel接收int或级别名称。表示标签所在级别。默认为Nonestdaxis接收int。表示所要应用的功能的轴,可选0和1。默认为Noneskipna接收bool。表示排除NA或空值。默认为Nonelevel接收int或级别名称。表示标签所在级别。默认为Noneddof接收int。表示Delta的自由度。默认为1异常值校验

Python异常值检测函数或方法的常用参数及其说明:如果数据服从正态分布,异常值被定义为一组测定值中与平均值的偏差超过三倍标准差的值。如果数据不服从正态分布,则与平均值的偏差超过两倍标准差的数据为异常值,称为四分位距准则(IQR)。使用IQR准则和3σ原则可以检测ary=(19,57,68,52,79,43,55,94,376,4581,3648,70,51,38)中的异常值,返回为异常值的元素,并计算元组ary异常值所占的比例:异常值校验3σ原则检测方法检测的异常值异常值比例IQR准则[376,4581,3648]0.21428571428571427原则[4581,3648]0.14285714285714285

异常值校验箱型图分析1数据特征分析目录数据校验2集中趋势是指总体中各单位的次数分布从两边向中间集中的趋势,用于对比同类现象在不同的时间、地点和条件下的一般水平,反映同一总体某类现象在不同时间上变化的规律性、分析现象之间的依存关系。描述性统计分析集中趋势度量指在一组数据中所有数据之和再除以这组数据的个数均值指将一组观察值从小到大进行排列,位于中间的数据中位数指数据集中出现最频繁的值中位数离中趋势是指总体中各单位标志值背离分布中心的规模或程度,用于衡量和比较平均数代表性的大小、反映社会经济活动过程的均衡性和节奏性、衡量风险程度。描述性统计分析离中趋势度量极差数据的离散程度标准差数据偏离均值的程度变异系数标准差相对于均值的离中趋势四分位数间距标间距准差相对于均值的离中趋势pandas库的describe()方法可以给出一些基本的统计量,包括均值、标准差、最大值、最小值、分位数等。describe()方法的基本使用格式及参数说明如下:pandas.DataFrame.describe(percentiles=None,include=None,exclude=None,datetime_is_numeric=False)描述性统计分析参数名称参数说明percentiles接收int。表示要包含在输出中的百分比,须介于0~1。默认为Noneinclude接收类似dtype的列表。表示包括在结果中的数据类型的白名单。默认为Noneexclude接收类似dtype的列表型。表示从结果中忽略的数据类型黑名单。默认为Nonedatetime_is_numeric接收bool。表示是否将datetimedtypes视为数字。默认为False频率分布分析主要步骤:定量数据分组遵循的主要原则如下:各组之间必须是相互排斥的。各组必须将所有的数据包含在内。各组的组宽最好相等。分布分析定量数据的分布分析求极差决定组距与组数决定分点列出频率分布表绘制频率分布直方图对于定性数据,常根据数据的分类类型进行分组,可以采用饼图和柱形图对定性变量进行分布分析。以某餐馆的各菜系在某段时间内的销售额为例,采用定性数据的分布分析方法进行分析:分布分析定性数据的分布分析对比分析是指将两个相互联系的指标进行比较,从数量上展示和说明研究对象规模的大小、水平的高低、速度的快慢,以及各种关系是否协调,适用于指标间的横纵向比较、时间序列的比较分析。对比分析主要有以下两种形式:对比分析绝对数比较是利用绝对数进行对比,从而寻找差异的一种方法绝对数比较用于反映客观现象之间数量联系程度的综合指标相对数比较由于研究目的和对比基础不同,相对数可以分为以下几种:对比分析结构相对数将同一总体内的部分数值与全部数值对比求得比重比例相对数将同一总体内不同部分的数值对比比较相对数将同一时期两个性质相同的指标数值对比强度相对数将两个性质不同但有一定联系的总量指标对比计划完成程度相对数将某一时期实际完成数与计划数对比动态相对数将同一现象在不同时期的指标数值对比周期性分析是探索某个变量是否随着时间变化而呈现出某种周期变化趋势。以某景区2019年3月份人流量为例,根据人流量数据,制时序图,并分析景区人流量的变化趋势:周期分析贡献度分析又称帕累托分析,贡献度分析的原理是帕累托法则,又称20/80定律。以服装企业为例,根据企业对应的秋装盈利数据,绘制服装盈利帕累托图:贡献度分析判断两个变量是否具有线性相关关系的最直观的方法是直接绘制散点图。相关性分析直接绘制散点图利用散点图矩阵同时绘制各变量间的散点图,从而快速发现多个变量间的主要相关性。相关性分析绘制散点图矩阵为了更加准确地描述变量之间的线性相关程度,可以通过计算相关系数来进行相关分析。Pearson相关系数Pearson相关系数一般可用于分析两个连续性变量之间的关系,其计算公式为:相关性分析计算相关系数

相关性分析Spearman秩相关系数不服从正态分布的变量、分类或等级变量之间的关联性可采用Spearman秩相关系数,也称等级相关系数来描述。Spearman秩相关系数计算公式如下: 对两个变量成对的取值分别按照从小到大(或从大到小)顺序编秩,代表的秩次,代表的秩次,为、的秩次之差。相关性分析

一个变量秩次的计算过程:相关性分析

从小到大排序从小到大排序时的位置秩次

0.5110.8221.0331.24(4+5)/2=4.51.25(4+5)/2=4.52.3662.877判定系数定系数是相关系数的平方,可用进行表示,用于衡量回归方程对的解释程度。判定系数取值范围为

。越接近于1,表明两个变量之间的相关性越强;接近于0,表明两个变量之间几乎没有直线相关关系。相关性分析

pandas库的corr()方法可计算出列与列、变量与变量之间的成对相关系数,但不包括空值。corr()方法的基本使用格式和参数说明如下:pandas.DataFrame.corr(method

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论