




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、华南理工大学精品课程华南理工大学精品课程统计学统计学统计数据的描述统计数据的描述第二章第二章华南理工大学精品课程华南理工大学精品课程第二章第二章 统计数据的描述统计数据的描述录取中有无歧视录取中有无歧视? ?某高校只有两个系,财经系和工程系。某高校只有两个系,财经系和工程系。该校报考及录取的总体情况如下:该校报考及录取的总体情况如下:男生男生女生女生录取录取350350200200未录取未录取450450400400报考人数报考人数800800600600引例:引例:华南理工大学精品课程华南理工大学精品课程第二章第二章 统计数据的描述统计数据的描述 如果我们只看该校男女生录取的如果我们只看该校
2、男女生录取的比率,即男生比率,即男生350/800=44%, 350/800=44%, 女生女生200/200/600=33%600=33%。这时我们不免会问,是男同。这时我们不免会问,是男同学的成绩比女同学好,还是在录取中学的成绩比女同学好,还是在录取中存在着性别的歧视?学过统计学的同存在着性别的歧视?学过统计学的同学不会简单地做出结论,而是继续搜学不会简单地做出结论,而是继续搜集数据并得到两个系各自录取的男女集数据并得到两个系各自录取的男女生数据:生数据:引例:引例:华南理工大学精品课程华南理工大学精品课程第二章第二章 统计数据的描述统计数据的描述工程系工程系财经系财经系男生男生女生女生
3、男生男生女生女生录取录取3003001001005050100100未录取未录取300300100100150150300300报考人数报考人数 600600200200200200400400引例:引例:华南理工大学精品课程华南理工大学精品课程第二章第二章 统计数据的描述统计数据的描述 有了分系的录取数据,不难看到工程有了分系的录取数据,不难看到工程系录取的人数比较多,男女生录取的比系录取的人数比较多,男女生录取的比率都是率都是50%50%。 而财经系招生名额较少,而财经系招生名额较少,男女生录取的比率都是男女生录取的比率都是25%25%。由于女生。由于女生报财经系的人多,男生报工科的人多,
4、报财经系的人多,男生报工科的人多,因而导致男生整个录取率偏高,而女生因而导致男生整个录取率偏高,而女生偏低。这个例子告诉我们对数据一是要偏低。这个例子告诉我们对数据一是要从不同角度进行分析,二是要注意权数从不同角度进行分析,二是要注意权数的影响,这就是本章要讨论的问题。的影响,这就是本章要讨论的问题。引例:引例:华南理工大学精品课程华南理工大学精品课程6 6引例提问引例提问录取中有无歧视?录取中有无歧视?q1q2q3统计学怎样对数据进行有效分析?统计学怎样对数据进行有效分析?怎样理解权数对均值的影响?怎样理解权数对均值的影响?华南理工大学精品课程华南理工大学精品课程7 7本章学习内容本章学习内
5、容p1.1.学习如何用数据对客观事物进行计量,学习如何用数据对客观事物进行计量, 如何获取数据以及对数据质量的评价如何获取数据以及对数据质量的评价p2.2.如何对获取的数据进行整理如何对获取的数据进行整理p3.3.数据分布的集中趋势和离散程度数据分布的集中趋势和离散程度p4.4.非正态总体的分布偏态和峰度非正态总体的分布偏态和峰度p5.5.茎叶图和箱线图的特点和优势茎叶图和箱线图的特点和优势p6.6.统计表及统计图统计表及统计图华南理工大学精品课程华南理工大学精品课程8 8本章学习目标本章学习目标p 了解数据的计量尺度了解数据的计量尺度p 了解统计数据的来源和数据的质量要求了解统计数据的来源和
6、数据的质量要求p 掌握数值型数据的整理方法掌握数值型数据的整理方法p 掌握数据集中趋势和离散程度的测度方法掌握数据集中趋势和离散程度的测度方法p 掌握茎叶图和箱线图的制作方法掌握茎叶图和箱线图的制作方法p 掌握分布偏态与峰度的测度方法掌握分布偏态与峰度的测度方法p 掌握统计表和统计图的使用掌握统计表和统计图的使用华南理工大学精品课程华南理工大学精品课程9 9第一节第一节 数据的计量尺度数据的计量尺度2.42.5第二章具体章节结构第二章具体章节结构 第二节第二节 统计数据的来源统计数据的来源第三节第三节 统计数据的质量统计数据的质量第四节第四节 统计数据的整理统计数据的整理第五
7、节第五节 分布集中趋势的测度分布集中趋势的测度华南理工大学精品课程华南理工大学精品课程1010第六节第六节 分布离散程度的测度分布离散程度的测度2.9第七节第七节 分布偏态与峰度的测度分布偏态与峰度的测度第八节第八节 茎叶图与箱线图茎叶图与箱线图第九节第九节 统计表与统计图统计表与统计图第二章具体章节结构第二章具体章节结构 华南理工大学精品课程华南理工大学精品课程第一节第一节 数据的计量尺度数据的计量尺度 按照计量学的一般分类方法,对数按照计量学的一般分类方法,对数据分为四种计量尺度,即:据分为四种计量尺度,即: 一、列名尺度一、列名尺度二、顺序尺度二、顺序尺度三、间隔尺度三
8、、间隔尺度四、比率尺度四、比率尺度华南理工大学精品课程华南理工大学精品课程1212列名尺度列名尺度 ( (nominal scalenominal scale) )1.1. 也称名义尺度或分类尺度也称名义尺度或分类尺度2.2. 计量层次最低计量层次最低3.3. 对事物进行平行的分类对事物进行平行的分类4.4. 各类别可以指定数字代码表示各类别可以指定数字代码表示5.5. 使用时必须符合类别穷尽和互斥的要求使用时必须符合类别穷尽和互斥的要求6.6. 数据表现为数据表现为“类别类别”7.7. 具有具有= =或或 的数学特性的数学特性华南理工大学精品课程华南理工大学精品课程1313顺序尺度顺序尺度
9、( (ordinal scaleordinal scale) )1.1. 也称定序尺度也称定序尺度2.2. 对事物分类的同时给出各类别的顺序对事物分类的同时给出各类别的顺序3.3. 比定类尺度精确比定类尺度精确4.4. 未测量出类别之间的准确差值未测量出类别之间的准确差值5.5. 数据表现为数据表现为“类别类别”,但有序,但有序6.6. 具有具有 或或 的数学特性的数学特性华南理工大学精品课程华南理工大学精品课程1414间隔尺度间隔尺度 ( (interval scaleinterval scale) )1.1. 也称间隔尺度也称间隔尺度2.2. 对事物的准确测度对事物的准确测度3.3. 比定
10、序尺度精确比定序尺度精确4.4. 数据表现为数据表现为“数值数值”5.5. 没有绝对零点没有绝对零点6.6. 具有具有 + + 或或 - - 的数学特性的数学特性华南理工大学精品课程华南理工大学精品课程1515比率尺度比率尺度 ( (ratio scaleratio scale) )1.1. 也称比率尺度也称比率尺度2.2. 对事物的准确测度对事物的准确测度3.3. 与定距尺度处于同一层次与定距尺度处于同一层次4.4. 数据表现为数据表现为“数值数值”5.5. 有绝对零点有绝对零点6.6. 具有具有 或或 的数学特性的数学特性华南理工大学精品课程华南理工大学精品课程1616四种计量尺度的比较四
11、种计量尺度的比较定类尺度定类尺度定序尺度定序尺度定距尺度定距尺度 定比尺度定比尺度 分类分类( = ( = , ) ) 排序排序( ( ) ) 间距间距( + ( + ,- )- ) 比值比值( ( , ) ) “”表表2-1 2-1 四种计量尺度的比较四种计量尺度的比较华南理工大学精品课程华南理工大学精品课程1717本节提问本节提问数据的计量尺度分为哪几种?数据的计量尺度分为哪几种?q1q2q3不同计量尺度各有什么特点?不同计量尺度各有什么特点?间隔尺度和比例尺度有何区别?间隔尺度和比例尺度有何区别?华南理工大学精品课程华南理工大学精品课程第二节第二节 统计统计数据的来源数据的来源 统计数据
12、来源于直接组织的调统计数据来源于直接组织的调查、观察和科学试验,我们称之为第查、观察和科学试验,我们称之为第一手数据或直接的数据一手数据或直接的数据; ;或者来源于或者来源于已有的数据,我们称之为第二手数据已有的数据,我们称之为第二手数据或间接的数据。或间接的数据。一、间接获取的数据一、间接获取的数据 二、直接获取的数据二、直接获取的数据华南理工大学精品课程华南理工大学精品课程1919间接取得的数据间接取得的数据1.1. 统计部门和政府部门公布的有关资料,如各类统计部门和政府部门公布的有关资料,如各类统计年鉴统计年鉴2.2. 各类经济信息中心、信息咨询机构、专业调查各类经济信息中心、信息咨询机
13、构、专业调查机构等提供的数据机构等提供的数据3.3. 各类专业期刊、报纸、书籍所提供的资料各类专业期刊、报纸、书籍所提供的资料4.4. 各种会议,如博览会、展销会、交易会及专业各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料性、学术性研讨会上交流的有关资料5.5. 从互联网或图书馆查阅到的相关资料从互联网或图书馆查阅到的相关资料中国统计出版社华南理工大学精品课程华南理工大学精品课程2020提供统计数据的部分政府网站提供统计数据的部分政府网站中国政府及相关机构中国政府及相关机构 网址网址数据内容数据内容国家统计局国家统计局http:/http:/统计年鉴、统计统计年鉴、统
14、计月报等月报等国务院发展研究中心国务院发展研究中心信息网信息网http:/.chttp:/ n宏观经济、财经、宏观经济、财经、货币金融等货币金融等 中国经济信息网中国经济信息网http:/http:/经济信息及各类经济信息及各类网站网站华通数据中心华通数据中心http:/http:/国家统计局授权国家统计局授权的数据中心的数据中心中国决策信息网中国决策信息网http:/http:/决策知识及案例决策知识及案例三农数据网三农数据网.http:/cn三农信息、论坛三农信息、论坛及相关网站及相关网站表表2-2 2-2 提供统计数据的部分政府网站提供统计数据的
15、部分政府网站华南理工大学精品课程华南理工大学精品课程2121提供统计数据的部分政府网站提供统计数据的部分政府网站美国政府机构美国政府机构 网址网址数据内容数据内容人口普查局人口普查局人口和家庭等人口和家庭等联邦储备局联邦储备局http:/www.bog.frb.fed.http:/www.bog.frb.fed.usus货币供应、信誉、货币供应、信誉、汇率等汇率等预算编制办公室预算编制办公室http:/www.whitehouse.g/ombov/omb财政收入、支出
16、、财政收入、支出、债券等债券等商务部商务部商业、工业等商业、工业等表表2-2 2-2 提供统计数据的部分政府网站(续表)提供统计数据的部分政府网站(续表)华南理工大学精品课程华南理工大学精品课程2222普查普查 (census)(census)1.1. 为特定目的专门组织的非经常性全面调查为特定目的专门组织的非经常性全面调查2.2. 通常是一次性或周期性的通常是一次性或周期性的3.3. 一般需要规定统一的标准调查时间一般需要规定统一的标准调查时间4.4. 数据的规范化程度较高数据的规范化程度较高5.5. 应用范围比较狭窄应用范
17、围比较狭窄华南理工大学精品课程华南理工大学精品课程2323抽样调查抽样调查 (sampling survey)(sampling survey)1.1.从总体中随机抽取一部分单位作为样本进从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体行调查,并根据样本调查结果来推断总体特征的数据收集方法特征的数据收集方法 华南理工大学精品课程华南理工大学精品课程2424本节提问本节提问简要说明统计数据的来源?简要说明统计数据的来源?q1q2获取直接统计数据的渠道主要有哪些?获取直接统计数据的渠道主要有哪些?华南理工大学精品课程华南理工大学精品课程第三节第三节 统计统计数据的质量数据的
18、质量 统计数据的误差:统计数据的误差: 一、抽样误差一、抽样误差二、非抽样误差二、非抽样误差华南理工大学精品课程华南理工大学精品课程2626统计数据的误差统计数据的误差抽抽 样样误误差差抽样框误差回答误差无回答误差调查员误差非非 抽抽样样误误差差数数 据据的的误误差差华南理工大学精品课程华南理工大学精品课程2727抽样误差抽样误差 ( (sampling errorsampling error) )1.1. 由于抽样的随机性所带来的误差由于抽样的随机性所带来的误差 2.2. 所有样本可能的结果与总体真值之间的平均性所有样本可能的结果与总体真值之间的平均性差异差异 3.3. 影响抽样误差大小的因
19、素影响抽样误差大小的因素 样本量的大小样本量的大小 总体的变异性总体的变异性华南理工大学精品课程华南理工大学精品课程2828非抽样误差非抽样误差 ( (non-sampling errornon-sampling error) )1.1. 相对于抽样误差而言相对于抽样误差而言2.2. 除抽样误差之外的,由于其他原因造成的样本除抽样误差之外的,由于其他原因造成的样本观察结果与总体真值之间的差异观察结果与总体真值之间的差异3.3. 存在于所有的调查之中存在于所有的调查之中 概率抽样,非概率抽样,全面性调查概率抽样,非概率抽样,全面性调查4.4. 有抽样框误差、回答误差、无回答误差、调查有抽样框误差
20、、回答误差、无回答误差、调查员误差、测量误差员误差、测量误差华南理工大学精品课程华南理工大学精品课程2929误差的控制误差的控制1.1. 抽样误差可计算和控制抽样误差可计算和控制2.2. 非抽样误差的控制非抽样误差的控制 调查员的挑选调查员的挑选 调查员的培训调查员的培训 督导员的调查专业水平督导员的调查专业水平 调查过程控制调查过程控制 调查结果进行检验、评估调查结果进行检验、评估 现场调查人员进行奖惩的制度现场调查人员进行奖惩的制度华南理工大学精品课程华南理工大学精品课程3030本节提问本节提问简要说明抽样误差和非抽样误差?简要说明抽样误差和非抽样误差?q1q2非抽样误差的控制有哪些途径?
21、非抽样误差的控制有哪些途径?华南理工大学精品课程华南理工大学精品课程第四节第四节 统计统计数据的整理数据的整理一、统计数据的分组一、统计数据的分组 二、次数分配二、次数分配三、次数分配直方图三、次数分配直方图四、洛伦茨曲线四、洛伦茨曲线华南理工大学精品课程华南理工大学精品课程3232统计数据的分组统计数据的分组 统计分组是统计整理的第一步,它是按照统统计分组是统计整理的第一步,它是按照统计研究的目的,将数据分别分入不同的组内。在计研究的目的,将数据分别分入不同的组内。在本章第一节中,我们将数据分成四种计量尺度,本章第一节中,我们将数据分成四种计量尺度,即列名尺度、顺序尺度、间隔尺度和比例尺度。
22、即列名尺度、顺序尺度、间隔尺度和比例尺度。其中列名尺度和顺序尺度的数据是按照事物的性其中列名尺度和顺序尺度的数据是按照事物的性质和属性划分的,因而又称为按品质标志分组;质和属性划分的,因而又称为按品质标志分组;间隔尺度和比例尺度是按照事物的数量标准划分间隔尺度和比例尺度是按照事物的数量标准划分的,又称为数量标志分组。的,又称为数量标志分组。 华南理工大学精品课程华南理工大学精品课程3333组距分组组距分组( (要点要点) )1.1. 将变量值的一个区间作为一组将变量值的一个区间作为一组2.2. 适合于连续变量适合于连续变量3.3. 适合于变量值较多的情况适合于变量值较多的情况4.4. 需要遵循
23、需要遵循“不重不漏不重不漏”的原则的原则5.5. 可采用等距分组,也可采用可采用等距分组,也可采用 不等距分组不等距分组华南理工大学精品课程华南理工大学精品课程3434组距分组组距分组 ( (步骤步骤) )1.1. 确定组数:组数的确定应以能够显示数据的确定组数:组数的确定应以能够显示数据的分布特征和规律为目的分布特征和规律为目的2.2. 确定组距:组距确定组距:组距(class width)(class width)是一个组的上是一个组的上限与下限之差,可根据全部数据的最大值和限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即最小值及所分的组数来确定,即 组距组距( ( 最大
24、值最大值 - - 最小值最小值) ) 组数组数3.3. 统计出各组的频数并整理成频数分布表统计出各组的频数并整理成频数分布表华南理工大学精品课程华南理工大学精品课程3535组距分组组距分组 ( (几个概念几个概念) )1. 1. 下限下限( (low limit)low limit) :一个组的最小值:一个组的最小值2. 2. 上限上限( (upper limit)upper limit) :一个组的最大值:一个组的最大值3. 3. 组距组距( (class width)class width) :上限与下限之差:上限与下限之差4. 4. 组中值组中值( (class midpoint)cla
25、ss midpoint) :下限与上限之间:下限与上限之间的中点值的中点值华南理工大学精品课程华南理工大学精品课程3636案例分析案例分析 次数分配表的编制次数分配表的编制工人编号周加工零件数工人编号周加工零件数工人编号周加工零件数12345678910106841109110991111107121105111213141516171819209994119881189720310695106212223242526272829308510610110596105107128111101表表2-3 某车间某车间30名工人周加工零件数名工人周加工零件数 (单位:件)(单位:件)华南理工大学精品
26、课程华南理工大学精品课程3737案例分析案例分析 次数分配表次数分配表表表2-4 某车间某车间30名工人周加工零件数的频数分布名工人周加工零件数的频数分布按周加工零件数分组次 数80 9090 100100 110110 120120 130371352合计30华南理工大学精品课程华南理工大学精品课程3838使用使用excelexcel频数函数频数函数 (frequency)(frequency) excelexcel的的“直方图直方图”工具的缺陷是:频数分布和工具的缺陷是:频数分布和直方图没有与数据联系起来,这样,如果你改直方图没有与数据联系起来,这样,如果你改变任何一个数据,频数分布表和直
27、方图不会跟变任何一个数据,频数分布表和直方图不会跟着改变着改变 使用使用excelexcel中的统计函数中的统计函数“frequencyfrequency”来创建来创建 频数分布表和直方图,可解决这一问题。频数分布表和直方图,可解决这一问题。华南理工大学精品课程华南理工大学精品课程3939使用使用excelexcel频数函数频数函数 (frequency)(frequency)创建频数分布表的步骤是:创建频数分布表的步骤是:选择与接受区域相临近的单元格区域,作为选择与接受区域相临近的单元格区域,作为频数分布表输出的区域频数分布表输出的区域选择统计函数中的选择统计函数中的“frequency”f
28、requency”函数函数在对话框在对话框 date-array date-array 后输入数据区域,在后输入数据区域,在bins-arraybins-array后输入接受区域后输入接受区域同时按下同时按下ctrl-shift-enterctrl-shift-enter组合键,即得到组合键,即得到频数分布频数分布华南理工大学精品课程华南理工大学精品课程4040分组数据的图示分组数据的图示 ( (直方图的绘制直方图的绘制) )809010011012013004812图图2-1 2-1 某车间工人周加工零件直方图某车间工人周加工零件直方图华南理工大学精品课程华南理工大学精品课程4141分组数据
29、的图示分组数据的图示 ( (折线图的绘制折线图的绘制) )809010011012013004812折线图与直方图下的面积相等! 华南理工大学精品课程华南理工大学精品课程4242次数分配的类型次数分配的类型华南理工大学精品课程华南理工大学精品课程4343洛伦茨曲线洛伦茨曲线1.1. 2020世纪初美国经济学家、统计学家洛伦茨世纪初美国经济学家、统计学家洛伦茨(m.(m.e. lorentz)e. lorentz)根据意大利经济学家巴雷特根据意大利经济学家巴雷特(v. (v. pareto)pareto)提出的收入分配公式绘制而成提出的收入分配公式绘制而成2.2. 描述收入和财富分配性质描述收入
30、和财富分配性质的曲线分析该国家或地区的曲线分析该国家或地区分配的平均程度分配的平均程度ab华南理工大学精品课程华南理工大学精品课程4444基尼系数基尼系数1.1. 2020世纪初意大利经济学家基尼世纪初意大利经济学家基尼(g. (g. ginigini) )根据洛根据洛伦茨曲线给出了衡收入分配平均程度的指标伦茨曲线给出了衡收入分配平均程度的指标2.2. a a表示实际收入曲线与绝对平均线之间的面积表示实际收入曲线与绝对平均线之间的面积3.3. b b表示实际收入曲线与绝对不平均线之间的面积表示实际收入曲线与绝对不平均线之间的面积4.4. 如果如果a=0a=0,则基尼系数,则基尼系数=0=0,表
31、示收入绝对平均,表示收入绝对平均=aab基尼系数华南理工大学精品课程华南理工大学精品课程4545基尼系数基尼系数5.5.如果如果b=0b=0,则基尼系数,则基尼系数=1=1,表示收入绝对不平均,表示收入绝对不平均6.6.基尼系数在基尼系数在0 0 和和1 1之间取值之间取值7.7.一般认为:一般认为:基尼系数若小于基尼系数若小于0.20.2,表明分配平均;,表明分配平均;基尼系数在基尼系数在0.20.2至至0.40.4之间是比较适当的,之间是比较适当的,即一个社会既有效率又没有造成极大的分配不公;即一个社会既有效率又没有造成极大的分配不公;基尼系数在基尼系数在0.40.4被认为是收入分配不公平
32、的警戒线,被认为是收入分配不公平的警戒线,超过了超过了0.40.4应该采取措施缩小这一差距。应该采取措施缩小这一差距。ab华南理工大学精品课程华南理工大学精品课程4646本节提问本节提问描述次数分配表的编制过程。描述次数分配表的编制过程。q1q2q3解释洛伦茨曲线及其用途。解释洛伦茨曲线及其用途。说明基尼系数的含义和用途。说明基尼系数的含义和用途。华南理工大学精品课程华南理工大学精品课程第五节第五节 分布集中趋势的测度分布集中趋势的测度一、众数一、众数二、中位数二、中位数三、四分位数三、四分位数四、均值四、均值五、几何均值五、几何均值六、切尾均值六、切尾均值七、众数、中位数和均值的比较七、众数
33、、中位数和均值的比较华南理工大学精品课程华南理工大学精品课程4848众数众数 ( (modemode) )1.1. 一组数据中出现次数最多的变量值一组数据中出现次数最多的变量值2.2. 适合于数据量较多时使用适合于数据量较多时使用3.3. 不受极端值的影响不受极端值的影响4.4. 一组数据可能没有众数或有几个众数一组数据可能没有众数或有几个众数5.5. 主要用于分类数据,也可用于顺序数据和数主要用于分类数据,也可用于顺序数据和数值型数据值型数据华南理工大学精品课程华南理工大学精品课程4949众数众数 ( (不惟一性不惟一性) )无众数无众数原始数据原始数据: 11 3 7 12 9 8: 11
34、 3 7 12 9 8华南理工大学精品课程华南理工大学精品课程5050中位数中位数 ( (medianmedian) )1.1.排序后处于中间位置上的值排序后处于中间位置上的值e1minniixm华南理工大学精品课程华南理工大学精品课程5151中位数中位数 ( (位置的确定位置的确定) )华南理工大学精品课程华南理工大学精品课程5252案例分析案例分析 (9(9个数据的算例个数据的算例) )华南理工大学精品课程华南理工大学精品课程5353案例分析案例分析 (10(10个数据的算例个数据的算例) )华南理工大学精品课程华南理工大学精品课程5454四分位数四分位数 ( (quartilequart
35、ile) )1.1.排序后处于排序后处于25%25%和和75%75%位置上的值位置上的值华南理工大学精品课程华南理工大学精品课程5555四分位数四分位数 ( (位置的确定位置的确定) )华南理工大学精品课程华南理工大学精品课程5656案例分析案例分析 ( (四分位数四分位数7 7个数据的算例个数据的算例) )华南理工大学精品课程华南理工大学精品课程5757案例分析案例分析( (四分位数四分位数1010个数据的算例个数据的算例) )华南理工大学精品课程华南理工大学精品课程5858均值均值 ( (meanmean) )1.1. 集中趋势的最常用测度值集中趋势的最常用测度值2.2. 一组数据的均衡点
36、所在一组数据的均衡点所在3.3. 体现了数据的必然性特征体现了数据的必然性特征4.4. 易受极端值的影响易受极端值的影响5.5. 用于数值型数据,不能用于分类数据和顺序用于数值型数据,不能用于分类数据和顺序数据数据华南理工大学精品课程华南理工大学精品课程5959简单均值简单均值 (simple mean)(simple mean)华南理工大学精品课程华南理工大学精品课程6060加权均值加权均值 (weighted mean)(weighted mean)华南理工大学精品课程华南理工大学精品课程6161案例分析案例分析 加权均值加权均值按零件数分按零件数分组组组中值(组中值(xi)频数(频数(f
37、i)xifi105110110115115120120125125130130135135140107.5112.5117.5122.5127.5132.5137.5358141064322.5562.5940.01715.01275.0795.0550.0合计合计506160.0 表表2-5 某车间某车间50名工人日加工零件均值计算表名工人日加工零件均值计算表华南理工大学精品课程华南理工大学精品课程6262均值均值 ( (数学性质数学性质) )1. 1. 各变量值与均值的离差之和等于零各变量值与均值的离差之和等于零21()minniixx1() 0niixx华南理工大学精品课程华南理工大学精
38、品课程6363几何均值几何均值 ( (geometric meangeometric mean) )1.1. n n 个变量值乘积的个变量值乘积的 n n 次方根次方根2.2. 适用于对比率数据的平均适用于对比率数据的平均3.3. 主要用于计算平均增长率主要用于计算平均增长率4.4. 计算公式为计算公式为: :121nnnmniigxxxx112lg1lg(lglglg )niimnxgxxxnn 华南理工大学精品课程华南理工大学精品课程6464案例分析案例分析 几何均值几何均值 【例例】 一位投资者购持有一种股票,在一位投资者购持有一种股票,在19199797年、年、19981998年、年、
39、19991999年和年和20002000年收益率分年收益率分别为别为 4.5%4.5%、2.0%2.0%、3.5%3.5%、5.4%5.4%。计算该。计算该投资者在这四年内的平均收益率投资者在这四年内的平均收益率 华南理工大学精品课程华南理工大学精品课程6565切尾均值切尾均值 (trimmed mean)(trimmed mean)(1)(2)()2nnn nxxxxnn 1.1. 去掉大小两端的若干数值后计算中间数据的均去掉大小两端的若干数值后计算中间数据的均值值2.2. 在电视大奖赛、体育比赛及需要人们进行综合在电视大奖赛、体育比赛及需要人们进行综合评价的比赛项目中已得到广泛应用评价的比
40、赛项目中已得到广泛应用3.3. 计算公式为计算公式为: :102华南理工大学精品课程华南理工大学精品课程6666案例分析案例分析 切尾均值切尾均值【例例】某次求职面试中共有某次求职面试中共有1111名评委,对某位求职名评委,对某位求职者的给分分别是:者的给分分别是: 123456, , , , , ,9.22,9.25,9.20,9.30,9.65,9.30,xxxxxx(1)(2)(3)(4)(5)(6), , , , , ,9.20, 9.20, 9.22, 9.24, 9.25, 9.25,xxxxxx(7)(8)(9)(10)(11), , , , 9.27, 9.28, 9.30,
41、9.30, 9.65xxxxx 1 11 /1 111 11 /1 121 11 11 /1 11 /1 1( 2 )( 3 )( 1 0 )1 121 11 / 1 1 1 129 . 29 . 2 29 . 3 9 . 2 69xxxxxxx7891011, , , , 9.27,9.20,9.28,9.25,9.24xxxxx华南理工大学精品课程华南理工大学精品课程6767众数、中位数和均值的关系众数、中位数和均值的关系图图2-4 2-4 众数、中位数和均值的关系众数、中位数和均值的关系华南理工大学精品课程华南理工大学精品课程6868众数、中位数、均值的众数、中位数、均值的特点和应用特点
42、和应用1.1. 众数众数 - -不受极端值影响不受极端值影响 - -具有不惟一性具有不惟一性 - -数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用2.2. 中位数中位数 - -不受极端值影响不受极端值影响 - -数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用3.3. 均值均值 - -易受极端值影响易受极端值影响 - -数学性质优良数学性质优良 - -数据对称分布或接近对称分布时应用数据对称分布或接近对称分布时应用小结小结数据类型和所适用的集中趋势测度值数据类型和所适用的集中趋势测度值数据类型数据类型定类数据定类数据 定序数据定序数据定距数据定距数据定比数据定比数据适适用用的的测测度
43、度值值众数众数中位数中位数算术平均数算术平均数算术平均数算术平均数四分位数四分位数众数众数调和平均数调和平均数众数众数中位数中位数几何平均数几何平均数四分位数四分位数 中位数中位数四分位数四分位数众数众数红色为该数据类型最适合用的测度值华南理工大学精品课程华南理工大学精品课程7070本节提问本节提问一组数据的分布特征可以从哪几个一组数据的分布特征可以从哪几个方面进行测度?方面进行测度?q1q2q3怎样理解均值在统计学中的地位?怎样理解均值在统计学中的地位?对于比率数据的平均,为什么采对于比率数据的平均,为什么采用几何平均?用几何平均?简述众数、中位数和均值的特简述众数、中位数和均值的特点和应用
44、场合。点和应用场合。q4华南理工大学精品课程华南理工大学精品课程第六节第六节 分布离散程度的测度分布离散程度的测度一、极差一、极差二、内距二、内距三、方差和标准差三、方差和标准差四、离散系数四、离散系数华南理工大学精品课程华南理工大学精品课程7272极差极差 ( (rangerange) )1.1. 一组数据的最大值与最小值之差一组数据的最大值与最小值之差2.2. 离散程度的最简单测度值离散程度的最简单测度值3.3. 易受极端值影响易受极端值影响4.4. 未考虑数据的分布未考虑数据的分布华南理工大学精品课程华南理工大学精品课程7373内距内距 (inter-quartile (inter-qu
45、artile range,iqrrange,iqr) )1.1. 也称四分位差也称四分位差2.2. 上四分位数与下四分位数之差上四分位数与下四分位数之差 内内 距距 = = q q3 3 q q1 13.3. 反映了中间反映了中间50%50%数据的离散程度数据的离散程度4.4. 不受极端值的影响不受极端值的影响5.5. 可用于衡量中位数的代表性可用于衡量中位数的代表性华南理工大学精品课程华南理工大学精品课程7474案例分析案例分析 四分位差四分位差回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意241089
46、3453024132225270300合计合计300表表2-6 甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布华南理工大学精品课程华南理工大学精品课程7575方差和标准差方差和标准差( (variancevariance and and standard deviationstandard deviation) )1.离散程度的测度值之一离散程度的测度值之一2.2.最常用的测度值最常用的测度值3.3.反映了数据的分布反映了数据的分布4.4.反映了各变量值与均值的平均差异反映了各变量值与均值的平均差异5.5.根据总体数据计算的,称为总体方差或标准差;根据总体数据计算的,称为
47、总体方差或标准差;根据样本数据计算的,称为样本方差或标准差根据样本数据计算的,称为样本方差或标准差华南理工大学精品课程华南理工大学精品课程7676总体方差和标准差总体方差和标准差 (population (population varvarianceiance and and standard deviationstandard deviation) )未分组数据未分组数据:221()niixn21()niixn221()kiiimfn21()kiiimfn华南理工大学精品课程华南理工大学精品课程7777案例分析案例分析 总体标准差计算过程及结果总体标准差计算过程及结果表表2-7 某车间某车间
48、50名工人日加工零件标准差计算表名工人日加工零件标准差计算表按零件数分组按零件数分组组中值组中值( (x xi i) )频数频数( (f fi i) )( (x xi i- - x x ) )2 2( (x xi i- - x x ) )2 2f fi i105105 110110110110 115115115115 120120120120125125125125 130130130130 135135135135 140140107.5107.5112.5112.5117.5117.5122.5122.5127.5127.5132.5132.5137.5137.53 35 58 8141
49、410106 64 4246.49246.49114.49114.4932.4932.490.490.4918.4918.4986.4986.49204.49204.49739.47739.47572.45572.45259.92259.926.866.86184.90184.90518.94518.94817.96817.96合计合计50503100.53100.5华南理工大学精品课程华南理工大学精品课程7878样本方差和标准差样本方差和标准差 (simple (simple variancvariance e and and standard deviationstandard devia
50、tion) )221()1niixxsn21()1niixxsn221()1kiiimx fsn21()1kiiimxfsn华南理工大学精品课程华南理工大学精品课程7979样本方差样本方差 自由度自由度(degree of freedo(degree of freedom)m)1.1.一组数据中可以自由取值的数据的个数一组数据中可以自由取值的数据的个数2.2.当样本数据的个数为当样本数据的个数为 n n 时,若样本均值时,若样本均值 x x 确定确定后后, ,只有只有n n-1-1个数据可以自由取值,其中必有一个数据可以自由取值,其中必有一个数据则不能自由取值个数据则不能自由取值3.3.例如,
51、样本有例如,样本有3 3个数值,即个数值,即x x1 1=2=2,x x2 2=4=4,x x3 3=9=9,则,则 x x = 5= 5。当。当 x x = 5 = 5 确定后,确定后,x x1 1,x x2 2和和x x3 3有两个有两个数据可以自由取值,另一个则不能自由取值,数据可以自由取值,另一个则不能自由取值,比如比如x x1 1=6=6,x x2 2=7=7,那么,那么x x3 3则必然取则必然取2 2,而不能取,而不能取其他值其他值4.4.样本方差用自由度去除,其原因可从多方面解释,样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本从实际应用角度
52、看,在抽样估计中,当用样本方差去估计总体方差方差去估计总体方差2 2时,它是时,它是2 2的无偏估计的无偏估计量量华南理工大学精品课程华南理工大学精品课程8080案例分析案例分析 样本方差样本方差 样本方差与标准差样本方差与标准差华南理工大学精品课程华南理工大学精品课程8181离散系数离散系数( (coefficient of variationcoefficient of variation) )1.1.标准差与其相应的均值之比标准差与其相应的均值之比2.2.对数据相对离散程度的测度对数据相对离散程度的测度3.3.消除了数据水平高低和计量单位的影响消除了数据水平高低和计量单位的影响4.4.用
53、于对不同组别数据离散程度的比较用于对不同组别数据离散程度的比较5.5.计算公式为计算公式为: :vssvx华南理工大学精品课程华南理工大学精品课程8282案例分析案例分析 离散系数离散系数超市编号超市编号产品销售额(万元)产品销售额(万元)x x1 1销售利润(万元)销售利润(万元)x x2 21 12 23 34 45 56 67 78 81701702202203903904304304804806506509509501000100012.518.018.022.022.026.526.540.040.064.064.069.069.0表表2-8 2-8 某某公司公司
54、所属所属8 8家家超市超市的产品销售数据的产品销售数据华南理工大学精品课程华南理工大学精品课程8383案例分析案例分析 离散系数离散系数 小结小结数据类型和所适用的离散程度测度值数据类型和所适用的离散程度测度值数据类型数据类型定类数据定类数据 定序数据定序数据定距数据或定比数据定距数据或定比数据适适用用的的测测度度值值异众比率异众比率四分位差四分位差 方差或标准差方差或标准差 异众比率异众比率 离散系数(比较时用)离散系数(比较时用) 平均差平均差 极差极差 四分位差四分位差 异众比率异众比率为该数据类型为该数据类型最适合的用的测度值最适合的用的测度值华南理工大学精品课程华南理工大学精品课程8
55、585本节提问本节提问为什么要计算离散系数?为什么要计算离散系数?q1q2华南理工大学精品课程华南理工大学精品课程第七节第七节 分布偏态与峰度的测度分布偏态与峰度的测度一、偏态及其测度一、偏态及其测度二、峰度及其测度二、峰度及其测度华南理工大学精品课程华南理工大学精品课程8787偏态与峰度分布的形状偏态与峰度分布的形状图图2-5 2-5 偏态与峰度分布的形状偏态与峰度分布的形状华南理工大学精品课程华南理工大学精品课程8888偏态偏态1 1、偏态:衡量频数分配不对称程度,或偏斜、偏态:衡量频数分配不对称程度,或偏斜程度的指标。程度的指标。2 2、计算公式:(用距法测定)、计算公式:(用距法测定)
56、 333322华南理工大学精品课程华南理工大学精品课程8989 当当 =0=0时,左右完全对称,为正态分布;当时,左右完全对称,为正态分布;当 00时为正偏斜;当时为正偏斜;当 00)0)( ( 0)00时,表示频数分布比正态分布更集中,分布呈尖峰时,表示频数分布比正态分布更集中,分布呈尖峰状态,状态,00) )(=0)=0) ( (0) )图图2-8 2-8 峰度示意图峰度示意图华南理工大学精品课程华南理工大学精品课程第八节第八节 茎叶图与箱线图茎叶图与箱线图一、茎叶图一、茎叶图二、箱线图二、箱线图华南理工大学精品课程华南理工大学精品课程9797茎叶图茎叶图 (stem-and-leaf d
57、isplay)(stem-and-leaf display)1.1. 用于显示未分组的原始数据的分布用于显示未分组的原始数据的分布2.2. 由由“茎茎”和和“叶叶”两部分构成,其图形由数字组两部分构成,其图形由数字组成成3.3. 以该组数据的高位数值作树茎,低位数字作树叶以该组数据的高位数值作树茎,低位数字作树叶4.4. 树叶上只保留一位数字树叶上只保留一位数字5.5. 茎叶图类似于横置的直方图,但又有区别茎叶图类似于横置的直方图,但又有区别: :- -直方图可观察一组数据的分布状况,但没有给直方图可观察一组数据的分布状况,但没有给出具体的数值出具体的数值- -茎叶图既能给出数据的分布状况,又
58、能给出每茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息一个原始数值,保留了原始数据的信息华南理工大学精品课程华南理工大学精品课程9898案例分析案例分析 茎叶图茎叶图图图2-9 2-9 某车间某车间3030名工人周加工零件数据的茎叶图表名工人周加工零件数据的茎叶图表华南理工大学精品课程华南理工大学精品课程9999案例分析案例分析 扩展的茎叶图扩展的茎叶图图图2-10 2-10 扩展的茎叶图表扩展的茎叶图表华南理工大学精品课程华南理工大学精品课程100100箱线图箱线图 ( (box plotbox plot) )1.1. 用于显示未分组的原始数据的分布用于显示未分组
59、的原始数据的分布2.2. 箱线图由一组数据的箱线图由一组数据的5 5个特征值绘制而成,它个特征值绘制而成,它由一个箱子和两条线段组成由一个箱子和两条线段组成3.3. 箱线图的绘制方法箱线图的绘制方法 首先找出一组数据的首先找出一组数据的5 5个特征值,即最大值、个特征值,即最大值、最小值、中位数最小值、中位数m me e和两个四分位数和两个四分位数( (下四分下四分位数位数q ql l和上四分位数和上四分位数q qu u) 连接两个四分(位)数画出箱子,再将两连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接个极值点与箱子相连接华南理工大学精品课程华南理工大学精品课程101101箱线图箱
60、线图 ( (箱线图的构成箱线图的构成) )华南理工大学精品课程华南理工大学精品课程102102案例分析案例分析 箱线图箱线图华南理工大学精品课程华南理工大学精品课程103103分布的形状与箱线图分布的形状与箱线图华南理工大学精品课程华南理工大学精品课程104104案例分析案例分析 多批数据箱线图多批数据箱线图 课程名称课程名称学生编号学生编号1 12 23 34 45 56 67 78 89 910101111英语英语经济数学经济数学西方经济学西方经济学市场营销学市场营销学财务管理财务管理基础会计学基础会计学统计学统计学计算机应用基计算机应用基础础76766565939374746868707
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 种鸡本交笼饲养高效生产技术
- 辣椒秋延后多层覆盖活体保鲜栽培技术
- 国际物流标准化试题及答案
- 2024年CPMM逆袭成功路径试题及答案
- 生物钟对生物体的影响研究试题
- 跨境电商网站的设计挑战试题及答案
- 运输环节中的风险辨识试题及答案
- 细胞间相互作用的机制分析试题及答案
- 江西省抚州市临川实验学校2025届高三第一次模拟考试化学试卷含解析
- 班组长安全管理培训教材
- 2025年中石化销售西北分公司招聘笔试参考题库含答案解析
- 2024年03月浙江安吉农商行校园招考笔试历年参考题库附带答案详解
- 新就业形态职业伤害保障制度的法理障碍及纾解
- 湖北省武汉市六校联考2025届高考仿真模拟数学试卷含解析
- 社区获得性肺炎患者护理查房
- 意向金合同范本
- 高中数学复习专题19 导数之凹凸反转问题原卷版
- 《几内亚地质概况》课件
- 基本医疗保险异地就医备案个人承诺书【模板】
- (安全生产)2020年硫酸安全设施设计专篇
- 2024年湖北省公务员考试《行测》真题及答案解析
评论
0/150
提交评论