Python数据分析与应用 课件 第7、8章 python与数据分析;numpy_第1页
Python数据分析与应用 课件 第7、8章 python与数据分析;numpy_第2页
Python数据分析与应用 课件 第7、8章 python与数据分析;numpy_第3页
Python数据分析与应用 课件 第7、8章 python与数据分析;numpy_第4页
Python数据分析与应用 课件 第7、8章 python与数据分析;numpy_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第7章Python与数据分析《Python数据分析与应用》啤酒与尿布“啤酒与尿布”。该故事产生于20世纪90年代的美国沃尔玛超市,超市管理人员分析销售数据时发现了一个令人难于理解的现象——“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在年轻的父亲的同一个购物篮。这是由于在美国有婴儿的家庭中,母亲留在家中照看婴儿,父亲去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒。至此,超市人员将属于食品饮料的“啤酒”和属于生活用品的“尿布”摆放在一处,从而致使两种商品的销售量直线上升。数据分析流程(1)明确目标(2)获取数据(3)清洗数据(4)特征工程(5)构建模型(6)模型评估。明确目标这是数据分析与挖掘的第一步,即明确数据分析的对象、目标、或任务。此环节应该跟业务需求方多次沟通与合作,把握最终要解决的问题。规划哪些数据可能会影响到这些问题的答案,这一步就称为数据的获取过程。数据获取数据清洗为确保数据分析或挖掘结果的准确性,往往需要对数据做一些基本的清洗和整理,如数据的一致性检验、缺失值和异常值的处理等。特征工程通过Scipy、Pandas、Sklearn等分析库对数据进行统一量纲等标准化处理,对数据进行离散化处理,采用哑变量、独热编码进行数据重编码,实施特征工程。模型评估通常情况下,在模型搭建好后,并不意味着分析或挖掘任务的结束,还需要对模型的拟合效果做评估,其目的就是不断优化模型,使最终的模型能够更好地反映数据的真实性。构建模型建模的目的主要是为了预测,例如使用线性回归模型预测产品的销售额;利用决策树模型预测用户是否具有欺诈行为;利用朴素贝叶斯模型预测邮件是否为垃圾邮件。Python数据分析库库名简

介Numpy提供数组支持,以及相应的高效处理函数Matplotlib强大的数据可视化工具、作图库Pandas强大的数据分析、数据处理和数据清洗工具seaborn数据可视化工具、作图库Scipy提供矩阵支持,以及矩阵相关的数值计算模块sklearn经典的机器学习库NumpyNumPy是Python的数据分析的基本库,是在Python的Numeric数据类型的基础上,引入Scipy模块中针对数据对象处理的功能,用于数值数组和矩阵类型的运算、矢量处理等。MatplotlibMatplotlib具有两个重要的模块——pylab和pyplot。Pylab实现了MATLAB的绘图功能,就是MATLAB的Python版本。pyplot主要用于将NumPy统计结果可视化,可以绘制线图、直方图、饼图、散点图以及误差线图等各种图形。Pandas

Pandas的名称来源于面板数据(PanelData)和Python数据分析(DataAnalysis),作为Python进行数据分析和挖掘时的数据基础平台和事实上的工业标准,支持关系型数据的增、删、改、查,具有丰富的数据处理函数,支持时间序列分析功能,灵活处理缺失数据等。seabornSeaborn是图形可视化python包,作为matplotlib的补充,在其基础上进行了更高级的API封装,高度兼容numpy与pandas数据结构以及scipy等统计模式,能做出具有吸引力的图。ScipyScipy是2001年发行的类似于Matlab和Mathematica等数学计算软件的Python库,用于统计、优化、整合、线性代数模块、傅里叶变换、信号和图像处理等数值计算。scipy具有stats(统计学工具包)、erpolate(插值,线性的,三次方)、cluster(聚类)、signal(信号处理)等模块。SklearnSklearn(又称为scikit-learn)是简单高效的数据挖掘和数据分析工具,基于python语言的NumPy、SciPy和matplotlib库之上,是当前较为流行的机器学习框架。数据分类定类数据:表示个体在属性上的特征和类别上的不同变量,只是一种标志,没有次序关系,不可以直接测量的数据。如外貌,出生地等。定序数据:表示个体在某个有序状态中所处的位置,不能直接做四则运算。如学历分为初中、高中、大学、硕士、博士等。定量数据:定量数据又称为定距数据,具有间距特征的变量,可以直接测量的数据,如身高、体重、气温等。数据统计量(1)极差极差又称范围误差或全距,用来衡量指定变量间差异变化范围,是最大值与最小值的差距,用于标志值变动的最大范围。通常极差越大,样本变化范围越大。(2)平均数平均值用于测量数据集中趋势,计算公式是所有数据之和除以数据的个数。数据统计量(3)中位数中位数是指将样本数值集合划分为数量相等或相差1的上下两部分。对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。(4)众数众数是样本观测值在频数分布表中频数最多的那组数。例如:1,2,2,2,3,3,4的众数是2。如果所有数据出现的次数都一样,那么这组数据没有众数。例如:1,2,3,4,5没有众数。数据统计量(5)方差方差是实际值与期望值之差平方的平均值,方差是在概率论和统计方差衡量随机变量或一组数据是离散程度的度量。(6)协方差协方差用于衡量两个变量的总体误差,两个变量是否相对它们各自平均值有一致行为。1)如果两个变量同时处于平均值之上或之下,两个变量就是正关联性。2)如果两个变量一个处于平均值之上,另一个处于平均值之下,就是负关联性。当两个变量相同时,协方差就是方差。数据统计量皮尔森相关系数度量两个变量之间的相关程度其值介于-1与+1之间,表示两变量存在一定程度的相关,越接近1,两变量间线性关系越密切;越接近于0,表示两变量的线性相关越弱

数据可视化数据可视化是指将大型数据集中的数据以统计图表和图形图像形式呈现,表现抽象或复杂的概念、技术和信息,并利用数据分析和开发工具发现其中未知信息的处理过程。数据可视化起源于1960年代计算机图形学,通过计算机创建图形图表,将数据的各种属性和变量呈现出来,通过饼图、直方图、散点图、柱状图等原始的统计图表将数据可视化是最基础和常见应用。折线图折线图又名线形图,或折线统计图,是以折线的上升或下降表示数量变化的统计图。折线图不仅可以表示数量的多少,而且反映同一事物在不同时间里数据的变化趋势。

饼图饼图属于最传统的统计图形之一,通过各扇形面积的大小反映部分与部分,部分与总体的比例关系。但不擅长对比差异不大或水平值过多的离散型变量。散点图散点图又称为散点分布图,和折线图需要的数组非常相似,区别是折线图会将各数据点连接起来;而散点图则只是描绘各数据点,并不会将这些数据点连接起来。直方图直方图又称质量分布图,由一系列高度不等的纵向条纹和线段表示数据分布形态,一般用横轴表示数据所属类别,纵轴表示数量或者占比。条形图条形图是统计图资料分析中最常用的图形,又名柱状图,可以清楚地表明各种数量的多少,用来描述各个类别之间的关系。箱线图箱线图又称箱形图或盒式图,主要用于分析数据内部的分布状态或分散状态,不同于折线图、柱状图或饼图等传统图表只是数据大小、占比、趋势的呈现。箱线图包含统计学的均值、分位数、极值等统计量,用于分析不同类别数据平均水平差异,展示属性与中位数离散速度,并揭示数据间离散程度、异常值、分布差异等。箱线图是一种基于“五位数”摘要显示数据分布的标准化方法热力图热力图又称为热点图,也称为交叉填充表,展示两个离散变量的组合关系,通过每个单元格颜色的深浅代表数值的高低以及差异情况。第8章

Numpy《Python数据分析与应用》NumPy NumPy是Python的开源数字扩展,定义了数值数组和矩阵类型以及基本运算的语言扩展,用于矩阵数据、矢量处理等。 Numpy的官方网址/NumPyndarray属性名含义ndarray.ndim数组的轴(维度)的数量ndarray.shape数组的维度。为一个整数元组,表示每个维度上的大小。对于一个n行m列的矩阵来说,shape就是(n,m)。shape元组的长度就是秩(或者维度的数量)ndim。ndarray.size数组的元素的总个数。这等于shape元素的乘积。ndarray.dtype用来描述数组中元素类型的对象。ndarray.itermsize数组的每个元素的字节大小。例如,一个类型为float64的元素的数组itemsize为8。ndarray.data该缓冲区包含了数组的实际元素。python提供array模块,但是array不支持多维,也没有各种运算函数,不适合做数值运算。

而numpy提供的同质多维数组ndarray正好弥补以上不足。创建数组ArrayArangeLinspacelogspace1.array创建数组importnumpyasnp#引入numpy库a=np.array([[1,5],[4,5,7]])#创建数组,将元组或列表作为参数a5=np.array(([1,5,3,4,5],[6,7,8,9,5]))#创建二维的narray对象print(type(a))#a的类型是数组print(type(a5))print(a)print(a5)2.arange函数创建数组importnumpyasnpa=np.arange(15)#利用arange函数创建数组print(a)a5=np.arange(1,5,0.1)#arang函数和range函数print(a5)3.linspace用于创建指定数量等间隔的序列,实际生成一个等差数列importnumpyasnpa=np.linspace(0,1,15)#从0开始到1结束,共15个数的等差数列print(a)4.logspace用于生成等比数列importnumpyasnpa=np.logspace(0,5,5)#生成首位是10的0次方,末位是10的5次方,含5个数的等比数列print(a)查看数组importnumpyasnp#引入numpy库a=np.array([[1,5],[4,5,7],3])#创建数组,将元组或列表作为参数a5=np.array(([1,5,3,4,5],[6,7,8,9,5]))#创建二维的narray对象print(type(a))#a的类型是数组print(a)print(a5)print(a.dtype)#查看a数组中每个元素的类型print(a6.dtype)#查看a5数组中每个元素的类型查看数组importnumpyasnp#引入numpy库a=np.array([[1,5],[4,5,7],3])a5=np.array(([1,5,3,4,5],[6,7,8,9,5]))#创建二维narrayprint(a.shape)#查看数组的行列,3行print(a6.shape)#查看数组的行列,返回5行5列print(a.shape[0])#查看a的行数print(a6.shape[1])#查看a5的列数print(a.ndim)#获取数组的维数print(a6.ndim)print(a6.T)#简单转置矩阵ndarray索引和切片importnumpyasnpa=np.array([[1,5,3,4,5],[6,7,8,9,5]])print(a)print(a[:])#选取全部元素print(a[1])#选取行为1的全部元素print(a[0:1])#截取[0,1)的元素print(a[1,5:5])#截取第二行第[5,5)的元素[895]print(a[1,:])#截取第二行,返回[67895]print(a[1,5])#截取行号为一,列号为5的元素8print(a[1][5])线性代数

数z说明函

数说

明np.zeros生成零矩阵np.ones生成所有元素为1的矩阵np.eye生成单位矩阵np.transpose矩阵转置np.dot计算两个数组的点积np.inner计算两个数组的内积np.diag矩阵主对角线与一维数组间转换np.trace矩阵主对角线元素的和np.linalg.det计算矩阵行列式np.linalg.eig计算特征根与特征向量np.linalg.eigvals计算方阵特征根np.linalg.inv计算方阵的逆np.linalg.pinv计算方阵的Moore-Penrose伪逆np.linalg.solve计算Ax=b线性方程组解np.linalg.lstsq计算Ax=b的最小二乘解np.linalg.qr计算QR分解np.linalg.svd计算奇异值分解np.linalg.norm计算向量或矩阵的范数四则运算importnumpyasnpimportnumpy.linalgaslg#求矩阵的逆需要先导入numpy.linalga1=np.array([[1,2,3],[4,5,6],[5,4,5]])a5=np.array([[1,5,4],[3,4,7],[7,5,6]])print(a1+a5)#相加print(a1-a5)#相减print(a1/a5)#对应元素相除,如果都是整数则取商print(a1%a5)#对应元素相除后取余数print(a1**5)#矩阵每个元素都取n次方矩阵运算importnumpyasnpimportnumpy.linalgaslg#求矩阵的逆需要先导入numpy.linalga1=np.array([[1,2,3],[4,5,6],[5,4,5]])a5=np.array([[1,5,4],[3,4,7],[7,5,6]])print(a1.dot(a5))#点乘满足:第一个矩阵的列数等于第二个矩阵的行数print(a1.transpose())#转置等价于print(a1.T)print(lg.inv(a1))#用linalg的inv函数来求逆特征根和特征向量importnumpyasnparr=np.array([[1,2,5],[3,6,7],[4,2,9]])print('计算3×3方阵的特征根和特征向量:\n',arr)print('求解结果为:\n',np.linalg.eig(arr))多元一次方程组importnumpyasnp#多元线性方程组a=np.array([[1,3,5],[2,5,-1],[2,4,7]])b=np.array([10,6,4])x=np.linalg.solve(a,b)print(x)统计量

数说明函

数说

明min(arr,axis)最小值cumsum(arr,axis)轴方向计算累计和max(arr,axis)最大值cumprod(arr,axis)轴方向计算累计乘积mean(arr,axis)平均值argmin(arr,axis)轴方向最小值所在的位置median(arr,axis)中位数argmax(arr,axis)轴方向最大值所在的位置sum(arr,axis)和corrcoef(arr)计算皮尔逊相关系数std(arr,axis)标准差cov(arr)计算协方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论