




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、课 题4.2数据的统计与描述课 型讲练授课班级大数据授课时数2教学目标.能够计算数值型字段的统计指标。.能够统计字符型字段的频数。.掌握describe函数的用法。教学重点.能够计算数值型字段的统计指标。.能够统计字符型字段的频数。教学难点1.掌握describe函数的用法。在进行数据分析时,首先需要判断分析的字段是数值型还是字符串型,学情分析学情分析因为不同类型的字段处理方法是不同的,这一点在使用describe函数时就 非常明显。数据的统计与描述可以用来概括和表示数据的状况,通过一些统计指标可以方便 地表示一组数据的集中趋势、离散程度、频数分布等特征。一、数值型字段的统计与描述数值型字段是
2、指该字段是用数值来描述的,如身高、体重、成绩等。数值型字段 的描述性统计主要包括计算最小值、最大值、均值、中位数、四分位数、极差、方差、 标准差等统计指标。.直接利用统计指标进行计算pandas提供了很多方法来计算数值型字段的各类指标,常用统计指标如表4-*所 Zjx O表4-*数值型数据统计指标方法名称说明方法名称说明mean均值max最大值median中位数min最小值mode众数PtP极差quantile四分位数std标准差sum总和cumsum累加和skew偏度kurt峰度其中,quantile表示四分位数,是指通过三个分割点将全部数据等分为四局部, 其中每局部包含25%的数据,这三个
3、分割点就是四分位数。中间的四分位数就是中位 数,而处在25%位置上的四分位数称为下四分位数,处在75%位置上的四分位数称为 上四分位数。skew表示偏度,是描述分布偏离对称性程度的一个特征数。当分布左右对称时, 偏度系数为0。当偏度系数大于。时,该分布为右偏。当偏度系数小于。时,该分布 为左偏。kurt表示峰度,是指用来反映频数分布曲线顶端尖峭或扁平程度的指标。峰度大 于。表示该数据分布与正态分布相比拟为陡峭,为尖顶峰;峰度小于0表示该数据分 布与正态分布相比拟为平坦,为平顶峰。cumsum表示累加和,是指对列数据进行累加,其结果也是一列数据。直接利用统计指标进行计算的一般方法为:DataFr
4、amecolumn.统计指标 例如代码如下: import numpy as np import pandas as pdarr = np.arange( 1,17).reshape(4,4)data = pd.DataFrame(arr,columns=,a7b,/c,/d) print(初始数据为:nn,data)print。a 列的最大值=,dataa.max() print(Hb 列的平均值廿,datac.mean()print(nc列的标准差值二%.2F%(datac1.std()print,”)datae二datad.cumsum()printed列的累加和结果为e列:n”,dat
5、ad?e) 输出结果如图4-*所示。Run:4-2AC:UsersliliangAnaconda3python.exe C:/Users/liliang/PycharmProjects/sjfx/4-2.py初始数据为: abed=$01234 TOC o 1-5 h z U15678”.29101112W 313141516a列的最大值=13b列的平均值=9.0 c列的标准差值=5.16d列的累加和结果为e列:d e04481212 2416 40Process finished with exit code 0图4-*统计指标计算例如结果2利用describe函数进行计算pandas提供了
6、 describe函数用来一次性计算数值型字段的八个统计指标,如表3-* 所示。表4-*数值型字段的describe函数统计结果方法名称说明count非空个数mean均值std标准差min最小值25%25%分位数50%50%分位数,即中位数75%75%分位数max最大值在调用describe函数计算统计指标时,还可以采用describe()i (i=0,l,2,)的方 法调用某个统计指标,如用describe。0调用第1个统计指标count, describe()U调用 第2个统计指标mean。同时,还可以利用指标名称来调用指标,如describeOHS%】 表示调用25%分位数,即调用下四分
7、位数。例如代码如下:des = dataa .describe。print(na列的describe函数计算结果:n”,round(des,2) #利用round函数保存所有2 位小数print(”a 列的平均值=desl)print(na 列的 25%分位数二”,des25%)输出结果如图4-*所示。Run:4-2 It=方C:UsersliliangAnaconda3python.exe C:/Users/1iliang/PycharmProjects/sjfx/4-2.py a列的describe函数计算结果:count4.00mean7.00丑X 二std5.16min1.0025%4
8、.0050%7.0075%10.00max13.00Name: a, dtype: float64a列的平均值=7.0a列的25%分位数=4.0Process finished with exit code 0图4-*统计指标计算例如结果二、分类型字段的统计与描述分类型字段是指该字段的具有分类作用,如省份名、城市名、商品类别等,分类 型字段统计与描述主要是频数统计。.利用value_counts函数进行统计分析pandas提供了 value_counts函数用来统计分类型字段的频数,value_counts函数的一般用法为:_value_counts(normalize,ascending)其
9、中,normalize表示是否按频率显示,True表示按频率显示,False表示按频数显示,默认为False,即默认按按频数显示。例如代码如下:data,f=A,;B7B,;C,print(初始数据为:n”,data)print(按频数统计f列降序的结果:n,dataf.value_counts(ascending=False)print(按频率统计f列升序的结果:n,data| T . value_counts(normalize=True,ascending=True)输出结果如图4-*所示。Run:4-2C:UsersliliangAnaconda3python.exe C:/Users
10、/liliang/PycharmProjects/sjfx/4-2.py初始数据为: a b c d e f5012344A共 1567gl2 B . 2 9 10 11 12 24 B3 13 14 15 16 40 C 按频数统计f列降序的结果:B 2A 1C 1Name: f, dtype: int64 技频率统Ilf列升序的结果:C 0.25A 0.25B 0.50Name: f, dtype: float64Process finished with exit code 0图4-* value_counts函数例如结果.利用describe函数进行统计分析pandas中describ
11、e函数除了可以对数值型字段进行统计描述,还可以对分类型字 段进行统计描述。对于分类型字段,describe函数可以统计分类数目、最多频数类别 等结果,具体统计结果如表4-*所示。表4-*字符型数据describe函数统计结果例如代码如下:方法名称说明count表示非空数目。unique表示数据的种类。top表示出现最多的类型。freq表示出现最多的类型的数目。des二 dataf .describe()print(Hf列describe函数统计结果为:n”,des)print(4列的类别数量=H,desl)printCf列频数最多的类别为:s,该类别出现的次数为ddesltopldeslfre
12、q】) 输出结果如图3-*所示。 TOC o 1-5 h z Run:4-2AC:UsersliliangAnaconda3python.exe C:/Users/liliang/PycharmProjects/sjfx/4-2.py千列describe函数统计结果为:count 4力 unique3top b“ 看 freq2_ Name: f, dtype: objectf列的类别数量=3f列频数最多的类别为:b,该类别出现的次数为:2Process finished with exit code 0图4-* describe函数例如结果任务实训任务 1:利用 read_excel 导入
13、supermarket.xlsx (supermarket.xlsx 存放在 c:data 路 径中)中的“销售统计”工作表(第1张工作表),导入时将“客户ID”列设为索引, 将导入数据命名为datal,完成:(1)直接计算“销售金额”列的平均值和中位数以及偏度,并根据这些统计指 标判断数据的大致分布。(2)通过describe函数生成“单价”列统计指标,再单独输出其平均值。任务1 (1)具体代码如下:pd.set_option(display.max_columns,None)pd.set_option(display. width,None)pd.set_option(,True)data
14、l - pd.read_excel(,c:datasupermarket.xlsx,index_col-r, ID)print。导入的数据为:n”,data l.head()mean 二 datal 销售金额1.mean()median = datal 销售金额1.median。skew = datal销售金额,.skew。print。销售金额的平均值二%.2An销售金额的中位数二%.2An销售金额的偏度 二 %.2fnn%(mean,median,skew) 输出结果如图3-*所示。Run:4-2导入的数据为:订单ID产品ID产品名称客户姓名省城市单价数量销售金额折扣折扣金额5客户ID 14
15、485US-2018-1357144办公用-用品-10002717Fiskars 剪刀,蓝色惠淅江杭州6521300.478.010165CN-2018-1973789办公用-信封-10004832GlobeWeis搭扣信封,红色许安四川内江6321260.0126.010165CN-2018-1973789办公用-装订-10001505Cardinal孔加固材料,回收许安四川内江162320.419.217170US-2018-3017568办公用-用品-10003746Kleencut开信刀,工业宋良江苏镇江8043200.4192.015737CN-2017-2975416办公用-器具-
16、10003452KitchenAid 搅拌机,黑色万兰广东汕头459313770.01377.0销售金额的平均值=1706.77销售金额的中位数-585.00销售金额的偏度=2.59图4-*任务1(1)输出结果【结果分析】销售金额的平均值远大于中位数,并且偏度为2. 59,远大于0,说 明数据是右偏的,即销售金额存在着大量的极大值,也就是说在数据中,有一些客户 贡献了极高的销售金额,这一点也比拟符合“帕累托法那么:“帕累托法那么”也叫“二 八法那么”,它是指在任何特定群体中,重要的因子通常只占少数,而不重要的因子却 占多数,因此只要能控制具有重要性的少数因子即能控制全局。即80%的价值是来自
17、20%的因子,其余的20%的价值那么来自80%的因子。经济学家认为,20%的人掌握着80% 的财富。推而广之,在任何大系统中,约80%的结果是由该系统中约20%的变量产生 的。任务1(2)具体代码如下:des = data 1数量describe。print,数量,列的describe结果为:nn,round(des,2) #利用round函数保存所有2 位小数print。1数量冽的平均值=,desl)输出结果如图3-*所示。 TOC o 1-5 h z Run:4-2AC:UsersliliangAnaconda3python.exe C:/Users/liliang/PycharmProj
18、ects/sjfx/4-2.py数量列的describe结果为:count100.00二mean3.79“std2.18.min1.00W 25%2.0050%3.0075%5.00max14.00Name:数量,dtype: float64 数量列的平均值=3.79Process finished with exit code 0图3-*任务1 (2)输出结果任务2:根据任务1的导入数据,重新命名为data2,计算贡献所有销售金额的前 80%的订单笔数占总笔数的比例。具体代码如下:data2 二 dataldata2 = data2.reset_index()data2.sort_value
19、s(by=销售金额ascending二False,inplace=True)data2订单销售金额占比1=data2销售金额data21销售金额sum() #计算订单成交额占比data2订单销售金额累计占比=data2订单销售金额占比cumsum() #计算订单成交额的累计 占比print。订单销售金额累计占比前5条数据为:n”,data2.head()key=data2ocdata2订单销售金额累计占比10.8.index0 #找到累计占比超过80%的第1个用户 TOC o 1-5 h z print。”)print。订单销售金额累计占比超过80%的临界数据的索引编号key)print,”)
20、data2_80 = data2.1oc:keyprint(订单销售金额累计占比接近80%的最后5条数为:n”,data2_80.tail()print。”)print(”销售金额累计占比超过80%订单笔数二,data2_80.shape0)result = data2_80.shape0/data2.shape0print(”销售金额累计占比超过80%订单笔数占总比数的比例=%.2f%”%(result* 100)#在输出语句中,%是格式符表示百分号输出结果如图4-*所示。Run:4-2Q -C:UsersliliangAnaconda3python.exe C:/Users/liliang
21、/PycharmProject$/sjfx/4-2.py订单他彷金事累计占比前S条数鬣为:客户ID订单ID产品ID产品名称客户姓名省城市单价数M创篦金麟折扣折扣金网订单销供金颗占比订单隹1;金策罩计占比5219825 CN-2017-2828982 办公用器具-10CO0297Hamilton Beach 炉灶,黑色苏附山东WS25285126400.012640.00.0748580.0740584915985 CN-2018-2396895 技术- -10004915思科充电器,全尺寸密荔吉林蛟河30464121840.012184.00.0713860.145444518325 CN-2
22术设名-10001640柯尼卡打印机,红色俞明江西景博犊12379111330.011133.00.0652280.2106731520965 US-2017-2511714 办公用器具 10063582KitchenAid冰箱,黑色刘斯江苏徐46203.40.0605760.2712494114815 US-2017-3857264 办公用 2S具 100O4757Breville炉灶,黑色武杰江苏港用1571694260.45655.60.0552270.326476仃隼销隹金餐东计占比超过8OX的卷界数据的奉引编号二24订单循售金额累计占
23、比接近80%的最后5条数为:客户】D订单ID产居ID产品名称售户姓名省城市单价数量箱售金嵌折扣折扣金额订单稍售金额占比i丁单销售金额货it占比871S445 CN-2017-5552260 *具-用具-19001977Eldon亚聚,优质四川端阳322619320.41159.20.0113260.7668177213180 CN-2018-2187292 技术- -】。0。393三星信号增强as,全尺寸XM庆庆643319290.01929.00.0113020.7781194721265 US-2017-S956361 技术 -10004349诺亚充电器,芭色邮禹四川内江1781117810.41068.60.0104350.7885543312310 CN-2018-3230180 家具-椅子-1O0OO374 Harbour Creations 椅热,可调宋栋河北*山348517400.01740.00.0
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电子商务企业的现金流管理与税务策略
- 年度品牌推广计划的思考
- 生物学学业水平测试的准备计划
- 分析仓库业务运作中的数据计划
- 提升社区居民环境意识的方案计划
- 提高班级凝聚力的有效措施计划
- 会议管理的有效方法与总结计划
- 建立客户反馈机制优化服务流程计划
- 小班年度主题活动的设计与安排计划
- 财务健康与年度工作保障计划
- 中小学-珍爱生命 远离毒品-课件
- 教师职业道德-教师专业发展(教师培训课件)
- 电工(中级工)理论知识习题库+参考答案
- 人工智能技术应用专业调研报告
- 图书馆、情报与文献学:图书馆学考点(题库版)
- 专题09:散文阅读(解析版)-2022-2023学年七年级语文下学期期中专题复习(江苏专用)
- 医美机构客户满意度调查表
- clsim100-32药敏试验标准2023中文版
- LNG加气站质量管理手册
- 2 我多想去看看(课件)-一年级下册语文
- 《肺癌课件:基本概念与临床表现》
评论
0/150
提交评论