数理统计:统计数据的理和描述_第1页
数理统计:统计数据的理和描述_第2页
数理统计:统计数据的理和描述_第3页
数理统计:统计数据的理和描述_第4页
数理统计:统计数据的理和描述_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章:统计资料的描述

概率论和数理统计是用来研究随机现象的数量规律性的.由于随机现象的普遍性,使得概率论和数理统计在工农业生产、社会经济和现代科技各领域中具有极其广泛的应用.作为今后要为人类医药事业作出贡献的大学生,应该学好这门学科.

第一讲统计资料的整理

一、统计资料的类型

1.计量资料(又称定量数据)

在实际工作中对每个观察单位用定量的方法测定某项指标量,所得数据称为计量资料。整理资料时一般用单项分组或组距分组的方法。

2.计数资料(又称定性数据)

在实际工作中将每个观察单位按某种属性或类别分组,所得各组的观察单位个数,称为计数资料。整理资料时一般用组距分组、单项分组或不分组的方法。在实际问题中绝大多数数据资料是计量资料,本书所介绍的统计方法也主要用于计量资料的分析处理,只有非参数方法等用于计数资料的分析(不排除通过数量转化而用计量资料的分析方法处理)。二、统计数据的整理和显示

统计数据的整理是根据统计研究的目的和任务,将收集的零乱的数据资料进行科学的加工和汇总,

使数据资料条理化、系统化,以反映研究总体的数量特征、规律性和趋势。统计数据的整理的一般步骤为:(1)对数据进行审核;(2)对数据按某种属性特征或数量特征进行分组;(3)列出统计表、绘制统计图。(一)定性数据的整理

定性数据是描述总体个体的属性特征的。例:下表是根据2000年我国人口普查数据得到的,对我国6周岁以上人口按受教育程度(属性特征)分组形成的频数、频率分布表。

2000年我国6周岁以上人口教育程度频数、频率分布表受教育程度文盲、半文盲小学初中高中及中专大专以上人数(亿)1.10934.51914.29891.41090.4573比例(﹪)9.438.336.412.03.9我国6周岁以上人口受教育程度餅形图(二)定量数据的整理和显示

定量数据是描述总体的数量特征的。例:某高校某专业110名学生某门考试成绩(分)如下表:764294977288559662839980817768906785696176738165518787938810089996561749762729149728298100735171996894828579745587498572789786537173908877808671968546736698559881798486748662747959969769898681788499459582916773898984743272试编制考试成绩频数、频率分布表。学生考试成绩统计图表

解:(1)

计算极差R=最大值-最小值

=100-32=68

(2)确定组数k

▲经验分组n<50k取5~6组

50<n<100k取7~10组n>100k取10~15组

▲公式分组k=1+

=7.781≈8

(3)确定组距(等距情形):d==8.5

为便于计算,组距一般取5或10的倍数;第一组的下限要小于最小值,最后一组上限要大于最大值,本例取d=10,第一组的下限取30,最后一组的上限取100。本例实取7组。

确定组中值组中值=(4)分组计算频数、频率和累计频率,列表10.7820.4910.2450.1090.0550.009累计频率0.2180.2910.2450.1360.05450.0450.009频率(f/n)24322715651频数(f)90-10080-9070-8060-7050-6040-5030-40成绩分组表

学生考试成绩分布表(5)绘制频数、频率、累计频率图学生考试成绩统计图表三、数据分布特征的统计指标描述(一)集中趋势的测度

1.平均值(只介绍平均值,中位数、众数自学)(1)简单算术平均值(用于未分组数据)

设观测数据值为

则上例110名学生的平均成绩为:

(2)加权算术平均数(用于分组数据)

设原始数据共分为k组,各组的组中值为:

上例,由学生考试成绩分布表的数据:

成绩分组

30-4040-5050-6060-7070-8080-9090-100

组中值(M)35455565758595

频数(f)1 5 6 15 27 32 24

计算得:

由于组中值是该组的代表值,故用加权算术平均值公式计算的值为准确值的近似值。

(3)平均值的数学性质:◆各观测值与它们的均值的离差之和为零;

即◆各观测值与它们的均值的离差的平方和最小。

上述性质今后在计算或论证过程中将会用到。

(二)数据分布离散程度的测度平均值代表观测值的整体水平,其代表性的好坏需要另外的指标加以侧度。即要考察各观测数据偏离其平均值的程度或是数据的分散程度。一般地说该测度值越小,平均值代表性越好,数据相对集中;相反,代表性差,数据相对分散。常用的测度值有极差、平均差、方差、标准差和变异系数等,其中最重要的是方差和标准差。

1.极差

R=最大值-最小值(不分组)

或R=最后一组上限-第一组下限(分组)

极差简单易算,但只用了数据的两个极端值,丢失的信息太多,不能反映中间数据的离散性,故不常用。

2.方差和标准差方差和标准差是观测数据离散程度最重要的测度。

(1)总体方差和标准差

则总体方差总体标准差为总体的全部观测值,

(2)样本方差和标准差

设从总体抽取的样本数据为

,

则样本方差

(不分组)

(分组)

样本标准差

例:根据上例学生考试成绩原始数据,已知n=110,

故样本方差和样本标准差分别为计算结果说明每个学生的考试成绩与平均成绩78.10分相比,

平均相差别14.70分,成绩分布不是很均匀。注:本例如果用分组的计算公式结果分别为本199.53和14.20

与准确值215.98和14.70相差不多,但是计算量减少了。在实际计算时用下列简化公式(用计算器上的统计功能)=78.103.标准化变量

在对不同量纲的多个变量进行统计分析时,往往要对变量(或观测值)进行标准化处理。其公式为:

标准化值的绝对值一般不会超过3个标准差,仅只有0.3%的值超过,这些数值称为离群点。在第三章中将会详细讨论标准化变量有关性质。

4.变异系数和样本标准误◆变异系数

×100%

它是一个无量纲的相对数,主要用于比较总体水平差异较大或具有不同量纲的数据组的数据离散程度大小。

◆样本标准误

它是描述了各样本平均值偏离总体平均值的平均程度(又称为抽样平均误差)。例:(略)

第二讲用excel进行数据整理和作图

一、excel数据分析程序的安装在安装excel时选择完全安装,进入excel后:◆点击“工具”菜单中的“加载宏”

◆在弹出的“加载宏”对话框中选择“分析工具库”◆点击确定,完成安装。(在excel“工具”的菜单就会出现“数据分析”的命令选项。二、统计作图

例;根据下表的数据;

2000年我国6周岁以上人口教育程度频数、频率分布表建立excel数据库,并制作统计条形图。受教育程度文盲、半文盲小学初中高中及中专大专以上人数(亿)1.10934.51914.29891.41090.4573比例(﹪)9.438.336.412.03.9

◆在excel中建立数据库

◆在“插入”下拉菜单中选择“图表”子菜单,进入图表向导

◆选择图表类型中的“柱形图”,再单击“下一步”◆进入图表数源数据窗口,确定用于制作图表的数据区域,在“数据区域”栏中输入“A2:F2”,在“系列产生在”栏选“行”.◆单击上步的图表中顶部“系列”标签,再点击“分类(X)轴标志”的空白区域的右边的,会弹一个小条形框,再用鼠标选定数据源的数据分类区域(B1:F1),再点击小条形框右边的按钮。

单击◆单击“下一步”得下图,并可选择相关功能菜单◆单击“完成”,得下图◆对所得条形图进行编辑:将光标移到要调整的区域,单击右键进入编辑窗口,对相关项目进行重新选择,得到如下图形三、定量数据的频数分布与直方图的生成

例:以前面的110名学生的考试成绩为例编制频数分布表并生成直方图.1.将考试数据输入excel中,建立数据库;2.将数据按组距d=10分组,在空白列输入各组的上限值(实为本组上限值-1);3.选择“工具”下垃菜单的“数据分析”子菜单,用鼠标双击对话框中的“直方图”选项,4.入进“直方图”对话框,其主要选项有:(1)在输入区域里输入(A1:A110);(2)在接收区域里输入(C3:C9);(3)选择“标志”选项;(4)选择“累计百分率”选项(如果要作累计频率折线图的话);(5)选择“图表输出”选项。按“确定

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论