版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
软件工程统计方法
第三讲统计图中国海洋大学信息学院计算机系王勇2016.91主要内容两种类型的变量(样本)数量型分类型表示两种变量的统计图例子与分析采样,实践ExploringDatawithGraphsUsingGraphstoDescribeData2两种变量在统计中,有两种变量分类型(catagorical)数量型(quantitative)3分类型变量(categorical)例子:天气:雨、晴、阴性别:男、女心情:很快乐、快乐、中等、不快乐、很不快乐关键信息:该分类在全部分类中所占的相对数量(比例)4数量型变量(quantitative)离散和连续:离散:可能值构成一组数。如家庭中的孩子数,1,2。擅长的外语数,1,2,3。变量为:“xx的个数”,就是离散的。连续:可能值构成一个区间。如身高,体重,完成一个任务的时间。不是一组值,而是无限连续的区间。如完成一个任务的时间是:2.4966631小时。
关键信息:中心位置:center离散性:spread(variablility)5数据是数量型还是分类型,离散还是连续,是选择分析方法的依据。
6用于分类变量的统计图饼图,Piechart条形图,Bargraph7饼图单纯突出比例这里表示两个类别8饼图的缺点当两个值接近时,不易区分。(美国电力的来源)9条形图条形图中按取值从大到小排列时,被称为ParetoChart(帕累托图)。Pareto原理:少量的分类包含了大多数值(80/20定律)。例如,前3个分类,包含了88%的发电量。10条形图11同时有两组分类数据美国众参两院就军事打击叙利亚的态度,2013年难以抓住关键……众院参院12改成并列的条形图13条形图?一目了然临界值,中点14细节展开除了比例,还有数量民主,共和15用颜色灰度来区分是否发表评论16进入正文增加黑点标记:有说明17组合各种表现形式党首18使用的绘图方法小结临界值(通过与否)中间线分类(支持/反对,民主/共和)颜色、条、块具体数量小方格或小圆附加信息黑点深浅,灰色(突出)19描述数量变量的统计图点图,Dotplot茎叶图,Stem-and-leafchart直方图,Histogram折线图,Timeplot例:摄入过多的钠(sodium)会导致高血压。为此,我们研究早餐中常见的20种成份里钠的含量。20DotPlot为每个观察值画一个点,放在数线的上方。数线上方的一排点表示同样的值。点的个数表示该值出现的频数。步骤:画数线,放置点21数线Numberline早餐20种谷类中钠的含量单位为asingleserving.(通常为3/4cup)22茎叶图Stem-and-leaf压缩图去掉个位,只留百、十把最后一位数做为leaf,前面的数做为stem。23直方图
Histogram钠的含量从0-290,我们把它分成8份,每个宽度为40.不能显示实际的数值。只能看到有一个数落在了0-40之间。如果值落在边界上,则不清楚它属于哪个区间。24>>e
e=1.00001.20001.80002.00002.00003.00003.00003.0000>>hist(e)实验:边界上数的归属第一条:左右边界的数都包括中间的条:只包括右边界上的数1.8属于左边25举例:成绩分析直方图2013年计算机系软件工程课学生平时成绩如下(88人)在matlab环境下,把数据存入变量a中。2601008010055100751000701007555100100100759050951001009080959085951001004010010045100751054570095951005510090855595100100851009595153010085959085601595751007010010030757075100951009580556085751001001054030用Matlab作直方图Matlab中,输入hist(a)默认分成10组(箱)27把箱变成兰色,加白色边。h=findobj(gca,'Type','patch');set(h,'FaceColor','b','EdgeColor','w')得100分的最多28可改变分组个数,因为最高分是105,最低分是0,可分成21组,5分一组。hist(a,21)29105分100组,一分一组30作直方图步骤把数据范围分成相等宽度的区间。对少量离散值,可使用实际值计算每个区间的数值的个数在横轴上,标记区间的值。画出高度等于数值个数的条31数码照片亮度直方图在一张照片的直方图中,横轴代表的是图像中的亮度,由左向右,从全黑逐渐过渡到全白;纵轴代表的则是图像中处于这个亮度范围的像素的相对数量。全黑全白像素数量32黑白像素分布正常黑色过少白色过少33另一种直方图参见:《统计学》,DavidFreeman著,魏宗舒等译,p34.工具为目标服务,可灵活处理34数据分布–也是直方图35220数据分布左偏,如寿命分布右偏,如收入分布问题:在左偏或右偏时,中位数在均值的哪一侧?36直方图说明不能表示实际的数字值。例如我们只知道有一个值落在0-40之间,但不知道它实际是多少。对离散值,直方图为每个变量显示一个条,如果是连续变量,需要分成多个区间,构成多个组。离散值也可分成多个组。一般区间宽度相同。分成多少个区间自己决定,没有统一的标准。太少的话太粗略,太密的话可能会失去形状信息。问题:直方图和条形图有何区别?37使用哪一种图?数量型变量统计图,在Dotplot,Stem-and-leaf,Histogram中如何选择?Dotplot和Stem-and-leaf适合小数据集,它们能画出每一个数据点。Histogram适用于大数据集,压缩的好一些。Histogram更灵活一些。前两者能保持数据的值,而Histogram不能。大于50个数据点时,考虑用Histogram。难以决定的话,都画出来看哪种更清楚,能表示的信息更多。38折线图,TimePlotInternet的使用量39折线图,TimePlot40含对比的折线图失业率变化曲线,恢复所需时间越来越长暗示衰退远未结束;已在恢复中。41房价趋势比较42坐标在右侧方便比较分歧/a/20160918/49982681_0.shtml43数据来源:LongviewEconomics/a/20160918/49982681_0.shtmlTimePlot连续17个月就业岗位增加美国工作岗位变化图转折从新总统上任开始颜色变化用折线效果不好,不光滑44堆积图用灰度、颜色辅以文字强化突出美国债务增长趋势与成份债务增长主要来源45分析:折线图实例看似是上升趋势,成绩?横坐标单位不统一;4647箱图Boxplotmedian:7275thpercentile:79.7525thpercentile:60maximum:100minimum:3848箱图分析数据分布的变化其中:是真实值是模型值相对误差每条曲线包含5个数据点共10条曲线49箱图10次实验的相对误差RE平均值中位数标准差0.31690.32450.07540.42090.31550.24610.43270.26060.39050.39770.18180.57670.32660.13040.74740.25730.12510.85900.2094-0.00530.91630.1816-0.090.94250.1666-0.13710.95430.1589-0.16190.9597分析:RE误差均值(绿线)降低,因为正负抵消RE中位数(短红线)先降后升标准差(红线)增大,误差值离散性加大RE均值标准差50糟糕的图2004年,某大学调查学生意见。其中一个问题是:“你是否认为伊拉克战争使美国更安全?”报纸登出的调查结果如下:没从0开始51是不是人们关心两者的总量对比这样则是正确的52人们关心顺序变化/a/20160920/14889229_0.shtml糟糕的图53乔治亚大学1996年以来非裔黑人学生入学的比例正确的图54乔治亚大学1996年以来入学总数和非裔黑人学生数好的图世界人口的一天收入分布横坐标非线性数量-直方图比例比例-饼图5556571、数据本身2、分析原因武汉内涝很多小区原来是湖面5859美国大选各州支持示意图(红色支持特朗普,蓝色支持希拉里,灰色为情况不明)。/a/20160920/14889229_0.shtml统计图总结分类值Piechart,饼图Bargraph,条形图数量值Dotplot,点图Stem-and-leafchart,茎叶图Histogram,直方图数据分布:正态,左/右偏Timeplot,折线图60三款统计作图软件介绍Graphpad6.0Sigmaplot12.5Origin9.1Graphpad是一款集数据分析和作图于一体的数据处理软件,它可以直接输入原始数据,自动进行基本的统计,如计算标准差、标准误和P值等,同时产生高质量的科学图表。优点:输入数据后图表自动生成,非常方便;所做图表美观性较好;包含一些简单的统计功能;帮助文件写的较好;生物医学领域使用较多缺点:图表类型较少;综合功能在这三款软件中是最弱的。SigmaplotSigmaplot是SystatSoftware公司开发的专业的绘图软件,非常简单的就可以画出精密的图形,目前已有超过十万的使用者,特别设计给科学家使用。优点:专门用来制作图表;所制作的图表最适合作为论文发表,因为其默认风格最适合论文图表需要;所做的图表种类仅次于Origin。缺点:个别电脑中软件安装出现故障。Or
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年汽车维修行业技师岗位劳动合同范本3篇
- 《《智慧之和》(节选)翻译实践报告》
- 《交替传译中的信息重组技巧》
- 《几类分数阶偏微分方程的守恒数值方法》
- 2024年电影剧本定制创作合同版B版
- 2025单位向个人的汽车租赁合同
- 2024年度智能家电技术知识产权归属及保密服务合同3篇
- 课题申报书:指向学生个性创造力发展的阶位课程设计研究
- 2025客房预订合同范文
- 2025简易广告服务合同
- MIL-STD-1916抽样计划表(抽样数)大
- 当代民航精神与文化智慧树知到期末考试答案章节答案2024年中国民用航空飞行学院
- 第一单元 春之声-《渴望春天》教学设计 2023-2024学年人教版初中音乐七年级下册
- 养老护理员培训课件
- 包装-存储-运输管理制度
- 装修增项补充合同协议书
- 模拟电路设计智慧树知到期末考试答案章节答案2024年广东工业大学
- 行政复议法-形考作业2-国开(ZJ)-参考资料
- 2022-2023学年广东省广州市番禺区教科版(广州)六年级上册期末测试英语试卷【含答案】
- 中国传统文化专题选讲智慧树知到期末考试答案2024年
- MOOC 通信原理-南京邮电大学 中国大学慕课答案
评论
0/150
提交评论