应用统计之数据的整理与抽样_第1页
应用统计之数据的整理与抽样_第2页
应用统计之数据的整理与抽样_第3页
应用统计之数据的整理与抽样_第4页
应用统计之数据的整理与抽样_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、本资料来源数据的整整理与抽抽样4、数据的的描述性性指标频数分布布所给定定的是一一个分布布形状,要进一一步描述述和刻画画其分布布的数量量特征,则需要要计算数数据的集中趋势势和离散程度度。它们是是反映数数据分布布数量规规律的一一对代表表值。若所描述述的数据据是所观观察研究究的总体体,则称称这些代代表值为为参数;若所描述述的数据据仅是总总体中随随机抽取取的一个个样本,则称这这些代表表值为统计量。数据的整整理与抽抽样一、集中中趋势集中趋势势亦称趋趋中性。它表示示同类现现象在一一定时间间、地点点条件下下所达到到的一般般水平与与大量单单位的综综合数量量特征。集中趋趋势有三三个特点: 它用用一个代代表值综综

2、合反映映总体各各单位(所有有个体) 某种种标志值值的一般般水平或或代表水水平; 它抽抽象掉了了各个个个体之间间标志值值的差异异; 它一一般用单单位的数数值表示示,其计计量单位位与标志志值的计计量单位位相一致致。数据的整整理与抽抽样集中趋势势的作用用: 可方方便地比比较若干干总体的的某种标标志值的的平均水水平,说说明它们们在某一一数量标标志上的的差异。如平均均成绩、平均身身高等; 可研研究总体体某种标标志值的的平均水水平随时时间的变变化,说说明其发发展趋势势和规律律。如人人均收入入的变化化、劳动动生产率率的变化化等; 可分分析社会会经济现现象间的的依存关关系,为为此必须须采用分分组的方方法。数据

3、的整整理与抽抽样4、可作作为评价价事物优优劣的数数量标准准。如各各批产品品合格率率;5、可用用以计算算和估算算其他重重要经济济指标(如由人人均收入入估算社社会购买买力)。数据的整整理与抽抽样统计学上上对集中中趋势有有以下几几种主要要测度值值:1、均值值均值又称称算术平平均数。是数据据集中趋趋势的主主要测度度值。对对于未经经整理的的原始数数据,一一般用以以下公式式:数据的整整理与抽抽样 简单单算术平平均数如平均工工资、平平均身高高、平均均成绩等等的计算算。均值观察值容量总体N样本n数据的整整理与抽抽样例:某班班级28名学生的的应用统统计学成成绩如下下:7285649276738782966677

4、6557907169707468796053758872786167计算该班班学生应应用统计计学的平平均成绩绩。解:数据的整整理与抽抽样简单算术术平均数数较准确确地描述述了总体体与个体体之间的的数量关关系,其其描述方方式同时时考虑了了变量值值的次数数和变量量值的大大小对集集中趋势势的影响响,数列列中任何何数值和和次数的的变化都都会引起起算术平平均数的的改变,它是最最灵敏、对资料料运用最最充分的的指标。数据的整整理与抽抽样 加权权算术平平均数当数据是是已经分分组的频频数分布布资料时时,计算算算术平平均数需需要用加加权平均均法。“权”即即占总次次数的比比重。近近似算法法如下:数据的整整理与抽抽样均

5、值组中值组数总体K样本k数据的整整理与抽抽样成绩分组组中值 人数5060552110607065852070807511825809085434090100953285合计282080数据的整整理与抽抽样在使用组组中值作作为第第i组的代表表值时,假设各各组数据据在组内内分布均均匀,但但实际上上并非如如此,所所以计算算的均值值会产生生误差。均值不仅仅受组中中值大小小的影响响,而且且也会受受权数的的影响响,权数数越越大大,则该该组数值值对均值值的影响响就越大大。由均均值的计计算公式式很容易看看出这一一点。数据的整整理与抽抽样 月工资(元)员员工工数(人)各组平均均工资工工资总总额fxxf1600以

6、下401550620001600170010016501650001700180020017503500001800190040018507400001900200045019508750002000220025021005250002200以上602300138000合计据的整整理与抽抽样=2855000/1500=1903.33元算术平均均数的特特点: 各变变量值与与其算术术平均数数的离差差之和等等于0,即 各变变量值与与其算术术平均数数的离差差平方和和为最小小值(相对于于其他任任何数),即数据的整整理与抽抽样例如,为为分析某某乡农民民家庭生生活水平平与家庭庭人口

7、的的关系,则需按按人均月月收入对对该乡农农户分组组。也可可按户人人口数分分组。人均月收入(分组) 调查户数 人口数 户均人口数 250以下 9 54 6.0 250300 9 49 5.4 300350 31 162 5.2 350400 96 403 4.2 400600 69 239 3.5 600以上 12 35 2.9 合 计 226 942 4.2数据的整整理与抽抽样2、几何平平均数它是与算算术平均均数不同同的另一一种平均均数,主主要用于于环比发发展速度度或比率率均值的的计算。 简单单几何平平均数这是在资资料未分分组情况况下采用用的一种种计算方方法。其中,是是第i期的发展展速度或或比

8、率。数据的整整理与抽抽样某企业“九五”期间产产品销售售额的年年增长速速度为因,所以以可用对数数计算几几何平均均数。年份份199519961997199819992000增长速度度 (%)2718231625相对前一一年(%)127118123116125相对1995(%)100127149.9184.3213.8267.3数据的整整理与抽抽样 加权权几何平平均数在资料已已经分组组,每个个变量值值出现次次数或比比重不等等时,应应使用加加权几何何平均。即对数计算算公式为为数据的整整理与抽抽样假设投资资银行某某项投资资的年利利率按复复利计算算,25年的年利利率分配配为:有有1年3 %,有4年4 %,

9、有8年8 %,有10年10%,有2年15%,求平均均年利率率。(单利:)数据的整整理与抽抽样3、中位位数将一组变变量值按按大小顺顺序排列列,位于于数列中中间位置置的变量量值即为为中位数。由于中中位数居居于数列列正中,所以它它可以作作为代表表一般水水平和集集中趋势势的代表表值。在在标志变变异度较较大的情情况下,可避免免极端数数值(不稳健健)的的影响。单项变量量数数列列中位数为为为中位数数的位置置。数据的整整理与抽抽样例:某班班级28名学生的的应用统统计学成成绩如下下:72856492767387829666776557907169707468796053758872786167计算该班班学生应应

10、用统计计学成绩绩的中位位数。解:N =28,Me=(N+1)/2=(28+1)/2= 14.5对成绩顺顺序排列列后,X14= 72,X15= 73数据的整整理与抽抽样组距变量量数列 确定定中位数数所在组组计算公式式为N/2或,N和为为总次次数; 计算算中位数数下限公式式含有中位位组均匀匀分布的的假设。数据的整整理与抽抽样其中,L 中位位数所在在组的下下组限; 数值值在L之下各组组的累计计次数; 中位位数所在在组的次次数;d 中位位数所在在组的组组距。上限公式式数据的整整理与抽抽样例:成绩分组组中值 人数5060552110607065852070807511825809085434090100

11、953285合计282080数据的整整理与抽抽样解:N =28,L= 70,Sm-1= 10,= 11,d=10显然,数据的整整理与抽抽样例:年收入额 (元) 农户数 百分比 (%) 26002800 240 8 28003000 480 16 30003200 1050 35 32003400 600 20 34003600 270 9 36003800 210 7 38004000 120 4 42004400 30 1 合 计 3000 100数据的整整理与抽抽样解:N =3000,L =3000,Sm-1= 720,= 1050,d= 200显然,数据的整整理与抽抽样4、四分分位数四分

12、位数数是将数数据排序序后,将将数据四四等分的的三个数数值,其其中中间间的数值值是中位位数。在在中位数数与最大大值和中中位数与与最小值值之间再再找到两两个数值值,即可可将数据据四等分分。四分位数数的三个个分割点点的位置置分别为为数据的整整理与抽抽样 上四四分位数数若上四分分位数为为Xi,则 下四四分位数数若下四分分位数为为Xj,则其中,表表示向向上取整整。数据的整整理与抽抽样在资料分分组的情情况下,四分位位值的三三个点分分别以N/4、2N/4和3N/4定位,之之后求3个四分位位数。第第i个四分位位点的值值为其中,第第i个分位值值所在组组的下限限; 其前前各组的的累计次次数; 其所所在组的的次数;

13、 其所所在组的的组距。数据的整整理与抽抽样5、众数数众数是将将数据按按大小顺顺序排队队后,出出现次数数明显最最多或最最有明显显集中趋趋势的点点的数值值。它是指在在总体中中最常遇遇到的现现象,即即在一个个数列中中出现最最多的标标志值。例如,大多数数工人可可完成的的工作量量、大多多数人的的收入、最一般般的身高高等。它不受变变量数列列极值的的影响,用具有有次数最最多的标标志值描描述集中中趋势,代表的的范围最最广。但但是,众众数的取取得必须须在个体数足足够多且又有明显集集中趋势势时才有意意义。数据的整整理与抽抽样如果分布布没有明明显的最最高点,则众数数不存在在。如果果有两个个相同的的最高点点,也可可有

14、两个个众数。M0M0M0M0数据的整整理与抽抽样众数的确确定方法法 若为为单项变量量数列,则变量量出现次次数最多多 (频频率最高高)的的变量值值就是众众数。日班次平均加工零件数量 (个) x 工人数 (人) f 50 20 55 30 60 80 65 10 70 5 合计 145数据的整整理与抽抽样 若为为等组距变变量数列列,则分两两步:年收入额 (元) 农户数 百分比 (%) 26002800 240 8 28003000 480 16 30003200 1050 35 32003400 600 20 34003600 270 9 36003800 210 7 38004000 120 4

15、 42004400 30 1 合 计 3000 100数据的整整理与抽抽样 确定定众数组组频次最高高的一组组为众数数组。30003200元元之间; 计算算众数与众数组组相邻的的两组数数频次的的多少有有关: 若相相邻两组组数的频频次相等等,则众众数组的的中值就就是众数数;数据的整整理与抽抽样 若相相邻两组组数的频频次不等等,则众众数为其中:L 众数数组的下下限值; 众数数组与其其下限相相邻组的的频次差差; 众数数组与其其上限相相邻组的的频次差差;d 众数数组的组组距。(下限公公式)数据的整整理与抽抽样在本例中中,L=3000d=3200-3000=200=1050-480=570或=35%-16

16、%=19%=1050-600=450或=35%-20%=15%则或上限公式式为数据的整整理与抽抽样例:计算算全班学学生应用用统计学学的众数数。成绩分组 人数506026070870801180904901003合计28数据的整整理与抽抽样解:L=70,d=10数据的整整理与抽抽样在度量集集中趋势势的几种种均值指指标中,算术平平均数、中位数数、众数数最为重重要。三三者之间间存在如如下关系系:当次数分分布完全全对称时时,当次数分分布为偏偏态时,数据的整整理与抽抽样6、集中中趋势分分析应注注意的几几个问题题 只有有同质总总体才能能计算平平均值,各个体体之间仅仅存在数数量差异异; 在分分组的条条件下,

17、总体的的均值不不仅受组组的均值值大小的的影响,同时还还受总体体内部结结构变动动的影响响。当总总体内部部结构变变化时,总体均均值就不不能全面面、准确确地反映映现象的的特征和和规律;数据的整整理与抽抽样 应以以分布数数量和典典型事例例作补充充说明总总体的集集中趋势势; 应与与离散趋趋势分析析相结合合,以全全面反映映现象个个体的差差异。数据的整整理与抽抽样二、离散散趋势1、问题题的提出出集中趋势势反映了了总体单单位(个体) 标志志值分布布特征的的一个重重要方面面,但仅仅用此指指标描述述这些标标志的一一般水平平是不够够的。要全面描描述总体体单位标标志值的的分布特特征,必必须对标标志值的的差异性性进行研

18、研究。离中趋势势是指一一组变量量值背离离分布中中心值的的特征,它与集集中趋势势共同说说明总体体的分布布特征。数据的整整理与抽抽样2、离中中趋势度度量的目目的 描述述总体内内部差异异程度,反映社社会经济济活动的的均衡性性,为管管理决策策提供信信息。班级 语文 数学 历史 地理 化学 物理 总评甲班 82 86 80 83 83 84 83乙班 75 89 84 78 80 92 83数据的整整理与抽抽样 衡量量和比较较均值指指标代表表性的高高低离中趋势势指标数数值的大大小和均均值代表表程度高高低有密密切关系系。离中趋势势指标数数值越大大,均值值的代表表性就越越小;而而离中趋趋势指标标数值越越小,

19、均均值的代代表性就就越大。这充分说说明,均均值代表表性的大大小必须须与离中中趋势指指标结合合运用。数据的整整理与抽抽样 为选选取样本本单位数数提供依依据。各个体标标志值变变异度越越小,即即总体越越一致,则为获获取代表表性资料料,只需需选取较较少的样样本单位位;反之之,就需需要选取取较多的的样本单单位。数据的整整理与抽抽样3、离中中趋势度度量方法法 按总总体内单单位标志志值差异异距离度度量。如如极差、四分位位差等; 按异异众比例例度量; 按个个体标志志值的平平均离差差度量。如平均均差、标标准差等等。离中趋势势的度量量由变异异指标给给出,它它可以是是绝对数数,也可可以是相相对数。数据的整整理与抽抽

20、样4、极差差极差又称称为全距,是数据据离散或或差异程程度的最最简单的的测度值值。全距的计计算是数数据的最最大值与与最小值值之差。即或数据的整整理与抽抽样例:计算算全班学学生应用用统计学学成绩的的极差。解:显然,数数据越分分散,则则极差越越大。极极差易受受极端数数据的影影响,而而中间数数据的变变化对它它无任何何影响。数据的整整理与抽抽样5、方差差和标准准差 方差差 未分分组数据据 总体体方差; 样本本方差;数据的整整理与抽抽样称n-1为自由度。因为当样样本确确定之之后,样样本n个数据中中只有n-1个可以自自由变动动,即样样本数据据中只有有n-1个误差的的有用信信息。另一种解解释是,样本方方差之所所以要除除以n-1,是为保保证样本本方差对对总体方方差估估计计的无偏偏性。数据的整整理与抽抽样 分组组数据对于分组组数据的的方差,还要考考虑各组组的次数数,即对对其离差差平方和和加权。数据的整整理与抽抽样 标准准差、S标准差就就是方差差的平方方根。即即数据的整整理与抽抽样 方差差与标准准差的关关系方差与标标准差的的差异在在于对离离差的处处理不同同。 方差差不仅便便于数学学上进一一步计算

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论