数据的分析专业知识讲座_第1页
数据的分析专业知识讲座_第2页
数据的分析专业知识讲座_第3页
数据的分析专业知识讲座_第4页
数据的分析专业知识讲座_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

初一数学教师:丁瑾数据分析1/41第一部分数据代表如何用一种数量来代表一组数据信息?

你们班上一次数学考试成绩如何?用平均分来代表班级成绩平均水平.平均分怎么计算呢?全班数学考试平均分等于全班学生成绩总和除以全班学生人数所得值.2/41一组数据平均数就是用这组数据总和除以这组数据总个数得到值.假如一组数据是,一般用来表达这组数据平均数.我们一般把它叫做一组数据算术平均数.一、平均数平均数作用:表达一组数据平均水平.3/41例1、为了检查一批零件质量,从中抽取了10件,测得它们长度如下(单位:mm):22.3622.3522.3322.3522.3722.3422.3822.3622.3222.35请估计这批零件平均长度.分析:题目要求估计一批零件平均长度,抽取10个零件组成了一种样本,我们只需要计算出样本平均数,就能够用它来估计总体平均水平了.解:(22.36+22.35+22.33+22.35+22.37+22.34+22.38+22.36+22.32+22.35)÷10=22.35答:估计这批零件平均长度是22.35mm.4/41有没有什么简便算法呢?22.3622.3522.3322.3522.3722.3422.3822.3622.3222.35每个数据整数部分都是22,

只需要计算小数部分平均数得到0.35

再加上整数部分平均数22就得到原数据平均数22.35.当一组数据中每个数据都比较接近某一种数时候,我们能够把原数据分别减去这个数,得到比较简单一组数,再计算新数据平均数,成果再把减去数加回就能够了.0.360.350.330.350.370.340.380.360.320.35小数部分分别是5/41假如一组数据,,…,平均数是则另一组数据,,…,平均数就是.,.6/41假如一组数据,,…,平均数是,则另一组数据,,…,平均数就是.7/41问题:假期里,小红和小丽结伴买菜,三次购买西红柿价格如下表:价格(元/千克)1.21.00.8合计小丽购买数量(千克)2226小红购买数量(千克)1236问从平均价格上看,谁买划算?小丽购买平均价格=(元/千克)小红购买平均价格=(元/千克)小红买更划算.8/41加权平均数若n个数权分别为则叫做这n个数加权平均数.加权平均数大小不但与每组数据值大小有关,并且与每组数据值权大小有关.9/41例2.学期末,某班评选一名优秀学生干部,下表是班长、学习委员和团支部书记得分情况:班长学习委员团支部书记思想体现242826学习成绩262624工作能力282426假设在评选优秀干部时,思想体现、学习成绩、工作能力这三方面主要性比为3:3:4,通过计算说明谁应当选为优秀干部.解:班长平均得分是学习委员平均得分是团支部书记平均得分是答:班长平均得分最高,班长应当当选.10/41权作用:权反应是数据相对“主要程度”或者说“影响力大小”.某一数据权数越大,该数据对平均数影响就越大.11/41例3.下面是一次考试成绩统计表:分数0~910~1920~2930~3940~4950~5960~6970~7980~8990~99人数03300014111这次考试平均成绩是多少呢?分析:统计表中没有给出每个人详细分数,只给出了每个分数段人数情况,如80~89学生有2个人,这2人成绩也许是80~89中任何一种数,在这种情况下,我们用端点值80和89平均数84.5来代表这2个同窗分数.80和89

平均数84.5叫80~89这一组数据组中值.各个小组数据两个端点平均数叫做这个小组组中值.组中值作用:用一种详细数来代表分组后一种小组内实际数据值.用组中值来代表各组实际数据后来,各组频数就是对应组中值权.12/41解:分别计算个组组中值得到分数0~910~1920~2930~3940~4950~5960~6970~7980~8990~99组中值4.514.524.534.544.554.564.574.584.594.5人数03300014111答:这次考试平均成绩约为68分.问题:假如小明分数是69,你能说小明这次考试是中上水平吗?为何会出现这种情况呢?平均数容易受极端值影响.怎么能处理一种详细数据在一组数据中位置问题呢?13/41二、中位数将一组数据按照从小到大(或从大到小)次序排列,假如数据个数是奇数,则处于中间位置数就是这组数据中位数;假如数据个数是偶数,处于中间位置数据有两个,这两个数据平均数就是这组数据中位数.中位数作用是什么呢?中位数即为中间位置数,它是一种位置代表值;中位数一旦确定,就能懂得大于等于或不大于等于这个中位数数据各占二分之一.14/41如何确定一组数据中位数呢?先排列、再确定数据个数,再根据数据个数奇偶来确定中位数.分数0~910~1920~2930~3940~4950~5960~6970~7980~8990~99人数03300014111数据个数为50,处于最中间位置是第25和第26个数,这两个数据都在70~79这个范围内,那么这两个数据平均数即中位数也一定在70~79这个范围内.小明分数是69分,低于中位数,因此是中下水平.15/41例4.求下面各组数据中位数:解:先将这组数据由小到大进行排列:2,3,4,4,5,7,9.(2)2,4,9,5,4,3,7,4.解:先将这组数据由小到大进行排列:2,3,4,4,4,5,7,9.处于中间位置数是:4,4,因此中位数是(3)2,4,9,5,4,3,7,5.解:先将这组数据由小到大进行排列:2,3,4,4,5,5,7,9.处于中间位置数是:4,5,因此中位数是(1)2,4,9,5,4,3,7.处于中间位置数是4,因此中位数是4.16/41(4)数据4,7,9,5分别出现3,5,1,3次.分析:先确定数据个数为3+5+1+3=12处于中间位置数是第6个和第7个数.

解:先将这组数据由小到大进行排列:4出现3次,5出现3次,7出现5次,9出现1次.第6个数是5,第7个数是7,因此中位数是一组数据中位数只有一种.中位数有也许不是这组数据中数.17/41问题:某市一家专门生产中学生运动服服装厂发觉了一种问题,同样款式运动服,有号码运动服出现了积压,有号码又供不应求,这是为何呢?应当怎么处理这个问题呢?服装厂为理解决这个问题,进行了一次统计调查.从全市50000名中学生中,随机地抽取1000名学生,测得他们身高数据,得到一种样本身高(厘米)145150155160165170175180185人数105018040019010050155根据样本数据,这家服装厂对生产计划进行了调整,抽调了人手来多生产160号运动服.18/41三、众数我们把一组数据中出现次数最多数叫做这组数据众数.当一组数据中两个数据频数同样,都是最大,那么这两个数据都是这组数据众数.众数作用:能告诉我们什么数据出现次数做多,是一组数据峰值.19/41例5.求下面各组数据众数:(1)2,4,9,5,4,3,7,4.解:这组数据中,4出现最多,众数为4.(2)2,4,9,5,4,3,7,5.解:这组数据中,4和5都出现最多,众数为4和5.(3)数据4,7,9,5分别出现3,5,1,3次.解:这组数据中,7出现最多,众数为7.20/41小结:我们学习了平均数、中位数、众数,这三个统计量都能够作为一组数据代表,它们都是反应数据集中趋势量,从不一样角度反应了数据集中程度.平均数能代表一组数据平均水平.平均数计算要用到所有数据,它能够充足利用数据提供信息,因此在现实生活中较为常用.但它缺陷是受极端值影响较大.2.中位数能代表中间位置,它是一种位置代表值.它只需要很少计算,不受极端值影响,这是它一种优势.3.当一组数据中某些数据数次反复出现时,众数往往是我们关怀一种量,众数不受极端值影响,这是它一种优势.21/41数据波动问题:有一群平均年纪15岁人在操场上玩耍,你想象一下,会是些什么人呢?一定是某些中学生吗?有没有也许是一种60岁老大爷带着5个6岁小朋友在做游戏呢?我们算一算:在分析一组数据信息时候,我们不但仅要研究能体现数据集中趋势量,还要研究数据波动程度.年纪最大是老大爷年纪60,最小是小朋友年纪6,他们年纪之间相差54,它们差54就是这组数据极差.22/41四、极差一组数据中最大数据与最小数据差叫做这组数据极差.极差作用:极差反应是数据变化范围,是最简单一种度量数据波动情况统计量.极差还能弥补平均数受极端值影响给人错误印象.假如极差较小,即数据波动程度较小,平均数对数据代表性就较好,假如极差较大,即数据波动程度较大,平均数对数据代表性就比较差.23/41例6.某日在不一样步段测得乌鲁木齐和广州气温情况如下:0:004:008:0012:0016:0020:00乌鲁木齐10℃14℃20℃24℃19℃16℃广州20℃22℃23℃25℃23℃21℃从上述数据中,分析乌鲁木齐和广州气温情况,你能做出什么合理判断吗?解:判断一、广州平均气温比乌鲁木齐平均气温高.17.4℃,22.3℃判断二、乌鲁木齐气温变化幅度大,广州气温变化幅度小乌鲁木齐温差:24-10=14℃,广州温差:25-20=5℃问题:若某公司在这一天派两人分别去乌鲁木齐和广州出差,他们穿什么衣服感觉比较舒适?24/41问题:现田径队要培养新人,在甲乙两名运动员中选用一名重点培养,假设你是一名教练,根据下表中提供甲乙两人五次比赛成绩,你会选择哪名运动员?甲乙两人五次相同情况下比赛成绩(单位:秒):12345甲14.5414.4714.5414.4314.52乙14.5214.4714.5014.5314.48分析:首先应计算两人平均成绩,即两组数据平均数只从平均数这个角度无法选择.平均数相同,表达两名队员平均水平接近,这时候应选择成绩稳定队员,也就是成绩波动性比较小队员.那么你以为甲乙两人谁成绩更稳定呢?25/41甲运动员成绩波动比较大,乙成绩波动比较小,乙成绩更稳定.26/41如何用一种数量来体现每个数据与平均数差异大小,进而描述波动性大小呢?12345甲14.5414.4714.5414.4314.52乙14.5214.4714.5014.5314.48每组中有5个数据,我们先计算这5个数据与平均数差甲:0.04,-0.03,0.04,-0.07,0.02;乙:0.02,-0.03,0,0.03,-0.02.思考:然后把这些差加起来就能够了吗?我们把所得差进行平方甲:0.016,0.009,0.016,0.049,0.004乙:0.004,0.009,0,0.009,0.004再求这些平方数平均数甲:0.00188乙:0.0005227/41五、方差为了刻画一组数据波动大小,能够采取多种办法.统计中常用下面做法:设有n个数据各数据与它们平均数差平方分别是,,…我们用它们平均数,即用来衡量这组数据波动大小,并把它叫做这组数据方差.记作:方差计算步骤:1.求平均数,2.每个数据与平均数求差,3.分别平方,4.再求所得平方数平均数.28/4112345甲14.5414.4714.5414.4314.52乙14.5214.4714.5014.5314.48分别计算甲、乙运动员比赛成绩方差:=0.00188,=0.00052甲方差比较大,说明甲波动比较大,稳定性比较差,能够判断乙成绩更稳定,与画图得到直观判断一致.29/41方差作用:当数据分布比较分散(即数据在平均数附近波动较大)时,各个数据与平均数差平方和较大,方差就较大;当数据分布比较集中(即数据在平均数附近波动较小)时,各个数据与平均数差平方和较小,方差就较小.结论:方差越大,数据波动越大,稳定性越差;方差越小,数据波动越小,稳定性越好.30/41例7.现有甲、乙两种品牌计算机样机,由10名专家对这两台计算机功能进行测试打分,根据专家打分计算出统计量如下:(1)

=60,=80,=9,=16(2)

=80,=80,=9,=16你选择使用哪台计算机?为何?解:(1)乙机平均分远高于甲机平均分,说明乙机功能显著好于甲机.选择乙.(2)甲乙平均分相同,说明甲乙两机功能差不多,甲机方差比较小,说明专家意见更一致.选择甲.平均数和方差是在描述数据中作用不一样,平均数描述数据一般水平,方差描述是数据波动情况.一般来说,在对两组数据作比较时候,先计算平均数,当平均数相同或比较接近时候,再比较方差.31/41假如一组数据,,…,方差是则另一组数据,,…,方差也是

假如一组数据,,…,方差是则另一组数据,,…,方差是32/41平均数和方差运算性质:

,…,,,…,,,…,数据平均数方差,33/41综合应用平均数、中位数、众数都是表达数据集中趋势量

极差、方差都是表达数据波动情况量

数据处理全过程:

(设计调查问卷)搜集数据

(列统计表)整顿数据

(画统计图)描述数据

(算统计量)分析数据

统计基本思想是估计思想

统计价值在于用样本来估计总体

34/41例8.学校鼓励学生参与社会实践,小明和他同窗利用寒假一周时间对市公交10路车起点站一周乘车人数进行了统计,以每天800人次为准,超出人数记为正数,不足人数记为负数.统计一周情况如下:星期一星期二星期三星期四星期五星期六星期日50400-50300-100377430求该起点站在这一周内平均每天乘客人数,并估计本月(30天)该起点站乘客总人数.解:计算所给数据平均数:(50+400-50+300-100+377+430)÷7=201

则一周乘车人数平均数为

201+800=1001

该起点站在这一周内平均每天乘客人数为1001人.

估计本月(30天)平均每天乘车人数为1001人

30天乘车总人数为

1001×30=30030人35/41例9.小明把植树节期间班内学生种树情况绘制成统计图,根据统计图求平均数、众数、中位数、极差、方差.分析:横轴(种树棵树)表述数据值纵轴(人数)表达数据频数解:参与植树同窗共有:2+1+10+8+8+5=34(人)平均数为说明班内学生平均植树4棵.36/41共有34人,也就是有34个数据,最中间数据是第17个和第18个数据从小到大排列,第17个和第18个数据都是4,因此中位数是4.说明种4棵树以上学生和种4棵树下列学生约各占二分之一.种3棵树人最多,因此众数为3.(注意不是10)说明种3棵树学生最多.37/41

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论