版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第7章Python与数据分析《Python数据分析与应用》啤酒与尿布“啤酒与尿布”。该故事产生于20世纪90年代的美国沃尔玛超市,超市管理人员分析销售数据时发现了一个令人难于理解的现象——“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在年轻的父亲的同一个购物篮。这是由于在美国有婴儿的家庭中,母亲留在家中照看婴儿,父亲去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒。至此,超市人员将属于食品饮料的“啤酒”和属于生活用品的“尿布”摆放在一处,从而致使两种商品的销售量直线上升。数据分析流程(1)明确目标(2)获取数据(3)清洗数据(4)特征工程(5)构建模型(6)模型评估。明确目标这是数据分析与挖掘的第一步,即明确数据分析的对象、目标、或任务。此环节应该跟业务需求方多次沟通与合作,把握最终要解决的问题。规划哪些数据可能会影响到这些问题的答案,这一步就称为数据的获取过程。数据获取数据清洗为确保数据分析或挖掘结果的准确性,往往需要对数据做一些基本的清洗和整理,如数据的一致性检验、缺失值和异常值的处理等。特征工程通过Scipy、Pandas、Sklearn等分析库对数据进行统一量纲等标准化处理,对数据进行离散化处理,采用哑变量、独热编码进行数据重编码,实施特征工程。模型评估通常情况下,在模型搭建好后,并不意味着分析或挖掘任务的结束,还需要对模型的拟合效果做评估,其目的就是不断优化模型,使最终的模型能够更好地反映数据的真实性。构建模型建模的目的主要是为了预测,例如使用线性回归模型预测产品的销售额;利用决策树模型预测用户是否具有欺诈行为;利用朴素贝叶斯模型预测邮件是否为垃圾邮件。Python数据分析库库名简
介Numpy提供数组支持,以及相应的高效处理函数Matplotlib强大的数据可视化工具、作图库Pandas强大的数据分析、数据处理和数据清洗工具seaborn数据可视化工具、作图库Scipy提供矩阵支持,以及矩阵相关的数值计算模块sklearn经典的机器学习库NumpyNumPy是Python的数据分析的基本库,是在Python的Numeric数据类型的基础上,引入Scipy模块中针对数据对象处理的功能,用于数值数组和矩阵类型的运算、矢量处理等。MatplotlibMatplotlib具有两个重要的模块——pylab和pyplot。Pylab实现了MATLAB的绘图功能,就是MATLAB的Python版本。pyplot主要用于将NumPy统计结果可视化,可以绘制线图、直方图、饼图、散点图以及误差线图等各种图形。Pandas
Pandas的名称来源于面板数据(PanelData)和Python数据分析(DataAnalysis),作为Python进行数据分析和挖掘时的数据基础平台和事实上的工业标准,支持关系型数据的增、删、改、查,具有丰富的数据处理函数,支持时间序列分析功能,灵活处理缺失数据等。seabornSeaborn是图形可视化python包,作为matplotlib的补充,在其基础上进行了更高级的API封装,高度兼容numpy与pandas数据结构以及scipy等统计模式,能做出具有吸引力的图。ScipyScipy是2001年发行的类似于Matlab和Mathematica等数学计算软件的Python库,用于统计、优化、整合、线性代数模块、傅里叶变换、信号和图像处理等数值计算。scipy具有stats(统计学工具包)、erpolate(插值,线性的,三次方)、cluster(聚类)、signal(信号处理)等模块。SklearnSklearn(又称为scikit-learn)是简单高效的数据挖掘和数据分析工具,基于python语言的NumPy、SciPy和matplotlib库之上,是当前较为流行的机器学习框架。数据分类定类数据:表示个体在属性上的特征和类别上的不同变量,只是一种标志,没有次序关系,不可以直接测量的数据。如外貌,出生地等。定序数据:表示个体在某个有序状态中所处的位置,不能直接做四则运算。如学历分为初中、高中、大学、硕士、博士等。定量数据:定量数据又称为定距数据,具有间距特征的变量,可以直接测量的数据,如身高、体重、气温等。数据统计量(1)极差极差又称范围误差或全距,用来衡量指定变量间差异变化范围,是最大值与最小值的差距,用于标志值变动的最大范围。通常极差越大,样本变化范围越大。(2)平均数平均值用于测量数据集中趋势,计算公式是所有数据之和除以数据的个数。数据统计量(3)中位数中位数是指将样本数值集合划分为数量相等或相差1的上下两部分。对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。(4)众数众数是样本观测值在频数分布表中频数最多的那组数。例如:1,2,2,2,3,3,4的众数是2。如果所有数据出现的次数都一样,那么这组数据没有众数。例如:1,2,3,4,5没有众数。数据统计量(5)方差方差是实际值与期望值之差平方的平均值,方差是在概率论和统计方差衡量随机变量或一组数据是离散程度的度量。(6)协方差协方差用于衡量两个变量的总体误差,两个变量是否相对它们各自平均值有一致行为。1)如果两个变量同时处于平均值之上或之下,两个变量就是正关联性。2)如果两个变量一个处于平均值之上,另一个处于平均值之下,就是负关联性。当两个变量相同时,协方差就是方差。数据统计量皮尔森相关系数度量两个变量之间的相关程度其值介于-1与+1之间,表示两变量存在一定程度的相关,越接近1,两变量间线性关系越密切;越接近于0,表示两变量的线性相关越弱
数据可视化数据可视化是指将大型数据集中的数据以统计图表和图形图像形式呈现,表现抽象或复杂的概念、技术和信息,并利用数据分析和开发工具发现其中未知信息的处理过程。数据可视化起源于1960年代计算机图形学,通过计算机创建图形图表,将数据的各种属性和变量呈现出来,通过饼图、直方图、散点图、柱状图等原始的统计图表将数据可视化是最基础和常见应用。折线图折线图又名线形图,或折线统计图,是以折线的上升或下降表示数量变化的统计图。折线图不仅可以表示数量的多少,而且反映同一事物在不同时间里数据的变化趋势。
饼图饼图属于最传统的统计图形之一,通过各扇形面积的大小反映部分与部分,部分与总体的比例关系。但不擅长对比差异不大或水平值过多的离散型变量。散点图散点图又称为散点分布图,和折线图需要的数组非常相似,区别是折线图会将各数据点连接起来;而散点图则只是描绘各数据点,并不会将这些数据点连接起来。直方图直方图又称质量分布图,由一系列高度不等的纵向条纹和线段表示数据分布形态,一般用横轴表示数据所属类别,纵轴表示数量或者占比。条形图条形图是统计图资料分析中最常用的图形,又名柱状图,可以清楚地表明各种数量的多少,用来描述各个类别之间的关系。箱线图箱线图又称箱形图或盒式图,主要用于分析数据内部的分布状态或分散状态,不同于折线图、柱状图或饼图等传统图表只是数据大小、占比、趋势
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025届高三化学复习专练:离子反应(原卷版)
- 2024解除厂房房屋租赁合同范本
- 护理OSCE考核培训
- 淮南师范学院《构图学》2022-2023学年第一学期期末试卷
- 2025年电工特种作业操作证考试题库及答案
- 急性腹泻预防和护理
- 贵溪能源公司战略规划
- 抑郁症的中医护理措施
- 2025届广东梅县某中学高三数学上学期期中试卷及答案解析
- 手术患儿心理护理
- 国开2024年秋《休闲农业概论》形考任务1-4答案
- 2024年教师资格考试高级中学面试生物试题与参考答案
- 年终总结数据对比分析图表
- 2024-2025学年统编版初二上学期期末历史试卷及答案指导
- 一对一教学管理制度
- 工业固体废弃物的资源化处理
- 一年级数学计算题专项练习1000题集锦
- 2024年2024年离婚协议书模板电子版
- 意义生活:符号学导论学习通超星期末考试答案章节答案2024年
- 人教版数学八年级上册 期末复习专项练习题(选择+填空)(含简单答案)
- 2024版简单租房合同范本下载
评论
0/150
提交评论