统计第二章单变量统计描述_第1页
统计第二章单变量统计描述_第2页
统计第二章单变量统计描述_第3页
统计第二章单变量统计描述_第4页
统计第二章单变量统计描述_第5页
已阅读5页,还剩79页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第二章第二章 单变量统计描述单变量统计描述o一、基本技术一、基本技术o二、集中趋势测量法二、集中趋势测量法o三、离散趋势测量法三、离散趋势测量法o四、正态曲线四、正态曲线第一节 基本技术一、定类层次一、定类层次二、定序层次二、定序层次三、定距层次三、定距层次一、一、定类层次定类层次o适用于简化一个定类变量资料的方法包括:n次数分布、比例、比率、图示和对比值。1、次数分布,即频数、次数分布,即频数o次数分布次数分布(Frequency distribution):o变项内每一个值的原始资料出现多少次。用f表示。o例:甲乙两校学生父亲的职业(第36页)表表1 两个社区中违法者和非违法者的两个社区中

2、违法者和非违法者的频数频数研究对象研究对象社区社区1社区社区2违法者违法者 初犯者初犯者 58 68 屡犯者屡犯者 43 137非违法者非违法者4811081总总 和和 5821286 2、比例、比例将每类的次数(f)除以总数(N),公式P=f/N3、比率、比率(百分比百分比)o把计算比例时所用的基数变大为100,即每一百有多少。 比率的公式为比率的公式为o百分率:百分率:f/N 100o千分率:千分率:f/N 1000o万分率:万分率:f/N 10000关于比率(百分比)的例子关于比率(百分比)的例子表表2. 三三个个假假想想的的社社区区心心理理卫卫生生中中心心的的个个案案数数目目和和百百分

3、分数数分分布布 A中中心心 B中中心心 C中中心心 总总 和和 类类 别别 数数目目 % 数数目目 % 数数目目 % 数数目目 % 已已婚婚者者 63 47.3 88 45.5 41 36.6 192 43.8 离离婚婚者者 19 14.3 37 19.2 26 23.3 82 18.7 订订婚婚者者 27 20.3 20 10.4 15 13.4 62 14.2 未未婚婚母母亲亲 13 9.8 32 16.6 21 18.8 66 15.1 其其他他 11 8.3 16 8.3 9 8.0 36 8.2 总总和和 113 100.0 193 100.0 112 100.0 438 100.0

4、 如如果果分分类类是是穷穷尽尽的的互互相相排排斥斥的的,各各百百分分比比的的相相加加应应为为100。 两条重要原则两条重要原则o (1) (1) 一定要在百分数或比例的旁边列出个案一定要在百分数或比例的旁边列出个案的数目。的数目。o (2) (2) 只有在百分数基数只有在百分数基数( (分母分母) )的个案数目达的个案数目达到到5050左右,才使用百分数。如果个案数目很左右,才使用百分数。如果个案数目很少少,最好直接用每个类别的个案数目。最好直接用每个类别的个案数目。4、对比值对比值分析定类层次资料时,也分析定类层次资料时,也可以计算两数目的对比值。可以计算两数目的对比值。 A 数值与数值与

5、B 数值的对比值,数值的对比值,就是就是 A 除以除以 B。 o例:某地总人口中有例:某地总人口中有2860028600名男性和名男性和2350023500名女性名女性o则性别对比值:男性人数:则性别对比值:男性人数:女 性 人 数女 性 人 数 = 2 8 6 0 0= 2 8 6 0 0 :23500=121723500=1217:10001000 5、 图示法图示法o以图形来简化资料。以图形来简化资料。o定类资料使用较多的有定类资料使用较多的有 条形图条形图和和圆形图圆形图。 (1) 条形图条形图o以长方形的长度来表示次以长方形的长度来表示次数或百分率的多少,宽度数或百分率的多少,宽度没

6、有意义。长方形之间可没有意义。长方形之间可以分开以分开( (也可以不分也可以不分) )。例:某地区人口构成:干部例:某地区人口构成:干部110人,工人人,工人152人,农民人,农民288人,总数人,总数550三者百分比的条形图三者百分比的条形图(2)圆形图:)圆形图:把一个圆形平面按数值的比例分割把一个圆形平面按数值的比例分割。工人27.6%农民52.4%干部20% o农民36052.4%=188.64o工人36027.6%=99.36o干部36020.0%=72 二二、定序层次定序层次o以上基本技术,如次数、比例、比率、以上基本技术,如次数、比例、比率、对比值、长条图和圆形图等,也可以对比值

7、、长条图和圆形图等,也可以用于简化定序资料。用于简化定序资料。o适用于定序层次而不可用于定类层次适用于定序层次而不可用于定类层次的,有的,有累加次数和累加百分率累加次数和累加百分率。 1、累加次数、累加次数o累加次数就是把次数逐级相加起来,累加次数就是把次数逐级相加起来,分为两种;分为两种;n 向上累加向上累加( (cfcf ) )n 向下累加向下累加( (cfcf ) )o作用:容易知道某值以下作用:容易知道某值以下( (或以上或以上) )之次数总和之次数总和。向上累积向上累积(cf )表示由低层向高层累加,如下表五表示由低层向高层累加,如下表五级级 一级;向下累积一级;向下累积(cf )表

8、示由高层向低层累表示由高层向低层累加,如下表一级加,如下表一级 五级五级 2、累加百分率(%)o将各级的百分率数值逐渐相加 三、三、定距层次定距层次o以上方法对定距层次的变量都适用。o但定距层次的变量在使用这些方法时必须先进行分组,由具必须先进行分组,由具体数字转化为区间。体数字转化为区间。收入(元)收入(元)f fcfcfcfcf1500-18991500-1899404055055040401300-14991300-14991411415105101811811100-12991100-1299158158369369339339900-1099900-10991361362112114

9、75475700-899700-89965657575540540500-699500-69910101010550550总数总数550550例:某校学生家庭每月总收入(p41)直方图直方图o 直方图:又称矩形图,以一个矩形的面直方图:又称矩形图,以一个矩形的面积积( (长长 宽宽) )表示每组数值的次数或百分表示每组数值的次数或百分率的多少。率的多少。o 与条形图的不同:条形图的宽度没有意与条形图的不同:条形图的宽度没有意义。直方图的义。直方图的长度与宽度均有意义长度与宽度均有意义;直;直方图方图各个矩形要相连排列各个矩形要相连排列,条形图可以,条形图可以分开。分开。直方图的绘制直方图的绘制

10、o 以坐标横轴的宽度表示以坐标横轴的宽度表示组距组距,以纵轴的,以纵轴的长度表示长度表示频次密度频次密度, 二者乘积为该组的次数。o 频次密度=频次/组距o 等距分组的情况下,可以用频次作为长条的长度。多角线图多角线图o多角线图:把各个矩形顶多角线图:把各个矩形顶端的端的中点中点用直线连结起来,用直线连结起来,其作用是使各组的次数其作用是使各组的次数( (或百分率或百分率) )的分布情况更的分布情况更显而易见。显而易见。组距的大小,会影响线条的平滑程度,组距组距的大小,会影响线条的平滑程度,组距愈小,线条就愈平滑。愈小,线条就愈平滑。020406080100120140304050607080

11、90100第二节集中趋势测量法集中趋势测量法o 含义:找出一个数值来代表变项的资料含义:找出一个数值来代表变项的资料分布,以反映资料的集中情况。分布,以反映资料的集中情况。o 意义:根据这个代表值来估计或预测每意义:根据这个代表值来估计或预测每个研究对象的数值。个研究对象的数值。o 常用指标:常用指标:众值、中位值、均值众值、中位值、均值 一个人到某公司求职,经过调查,得出关于该公司工资的一些数据,如果是你,应该如何选择?员工员工经理经理副经副经理理职员职员A职员职员B职员职员C职员职员D职员职员E职员职员F职员职员G月薪月薪(元)(元)6000400017001300120011001100

12、1100500关于集中趋势的小故事:o 吉斯莫先生有一个小工厂,生产超级小玩意儿。 o 管理人员由吉斯莫先生、他的弟弟、六个亲戚组成。工作人员由5个领工和10个工人组成。工厂经营得很顺利,现在需要一个新工人。o 现在吉斯莫先生正在接见萨姆,谈工作问题。o 吉斯莫:我们这里报酬不错。平均薪金是每周300美元。你在学徒期间每周得75美元,不过很快就可以加工资。o 萨姆工作了几天之后,要求见厂长。o 萨姆;你欺骗我!我已经找其他工人核对过了,没有一个人的工资超过每周100元。平均工资怎么可能是一周300元呢?o 吉斯莫:啊,萨姆,不要激动。平均工资是300元。我要向你证明这一点。o 吉斯莫:这是我每

13、周付出的酬金。我得2400元,我弟弟得1000元,我的六个亲戚每人得250元,五个领工每人得200元,10个工人每人100元。总共是每周6900元,付给23个人,对吧?o 萨姆:对,对,对!你是对的,平均工资是每周300元。可你还是蒙骗了我。o 吉斯莫;我不同意!你实在是不明白。我已经把工资列了个表,并告诉了你,工资的中位数是200元,可这不是平均工资,而是中等工资。o 萨姆:每周100元又是怎么回事呢?o 吉斯莫:那称为众数,是大多数人挣的工资。o 吉斯莫:老弟,你的问题是出在你不懂平均数、中位数和众数之间的区别。o 萨姆:好,现在我可懂了。我我辞职!一、众数一、众数(Mode)(Mode)

14、o 众数(众数(ModeMode):):次数最多之值次数最多之值。* * *o 众数适合于分析定类变项,也可以用来众数适合于分析定类变项,也可以用来分析定序、定距变项的资料。分析定序、定距变项的资料。* * *;* * *o 对于定类变项,以众数作预测所犯的错对于定类变项,以众数作预测所犯的错误是最小的。误是最小的。二、定序变项:中位值二、定序变项:中位值(Median)(Median)o 中位值中位值(Md )(Md ):在一个序列的中央位置之值,:在一个序列的中央位置之值,即高于此值的有即高于此值的有50%50%的研究个案,低于此值的研究个案,低于此值的也有的也有50%50%。 o 如果个

15、案数是奇数,中位数就是中间个数的如果个案数是奇数,中位数就是中间个数的记分数。如果记分数。如果N N是偶数,按惯例,取两个中是偶数,按惯例,取两个中间个案的平均值。间个案的平均值。1、根据原始资料求中位值、根据原始资料求中位值o 将个案由低到高排序:将个案由低到高排序:n (1)(1)如果如果N N是奇数,是奇数,中位数位置中位数位置就是第就是第( (N+1)/2N+1)/2个个个案所在的位置。个案所在的位置。n (2)(2)如果如果N N是偶数,是偶数,中位数落在最中位数落在最中央的两个个中央的两个个案之间。案之间。o 如果重复数值多,可以利用累加次数寻找中如果重复数值多,可以利用累加次数寻

16、找中位值。位值。 例:例: 学生的学业成绩(学生的学业成绩(p47)等级fcf甲580乙2075丙3055丁2525总数802、根据分组资料计算中位值、根据分组资料计算中位值o 公式;Md=L+( )Wo L:中位值组的真实下限 o f:中位值组的频数o CF:低于中位值组真实下限的累积次数o W:中位值组的组距o N:全部个案数目o (例:p48,表2-6)fcfN2三、均值三、均值(Mean)o定义:将变项的各个数值之和除以个案的总数目。习惯上用X来代表均值,o X=o X=NxNXXXNiin121Nx均值的代数性质:o(1)每一个取值对均值的偏差的总和为0,即:(xi-x)=0o(2)

17、各数值对均值的偏差平方和小于任何其他数的偏差平方和,即:(xi-x)2=极小值1、未分组资料o (1)根据原始资料求均值X=o例 7,3,11,10,4 o X=Nx754101137(2)根据频数分布求均值o X=fxfiiNxfxfxfnn2211例:求以下550人的平均数变量值 fi fix 50 15 750 60 28 1680 63 40 2520 70 29 20300 74 160 11840 80 17 1360 总和 550 38450 则:o X=o =69.6o如果给出的频数是比例:Pi=fi/N,那么,均值计算还可以进一步简化为:o X=P1X1+ P2X2+PiXi

18、=PiXifxfii550384502、分组数据o对于分组数据,可用组中心值来对于分组数据,可用组中心值来代替变量值。计算方法与未分组代替变量值。计算方法与未分组数据相同,数据相同,o X=o(假定所有的个案集中于它们各自假定所有的个案集中于它们各自的间距的中点。的间距的中点。)fxfmi例:青年人阅读小说书的数目(例:青年人阅读小说书的数目(p51)书数Fxmfxm2-42365-746248-10594511-133123614-162153017-1911818总数17159X =4.917159fxfmi四、众值、中位值和均值比较o1. 三值设计的共同目的:希望通过一个三值设计的共同目

19、的:希望通过一个数值来描述整体特征,以便简化资料。数值来描述整体特征,以便简化资料。三者均反映了变量的集中趋势。三者均反映了变量的集中趋势。o 众值:适用于定类、定序和定距变量众值:适用于定类、定序和定距变量o 中位值:适用于定序和定距变量中位值:适用于定序和定距变量o 均值:适用于定距变量均值:适用于定距变量、众值中位值均值o 众值:仅使用了资料中最大频次这一信息,众值:仅使用了资料中最大频次这一信息,因此,资料使用是不完全的。因此,资料使用是不完全的。o 中位值:由于考虑了变量的顺序和居中位中位值:由于考虑了变量的顺序和居中位置,它和总体的频次分布有关。置,它和总体的频次分布有关。o 均值

20、:既考虑到频次,又考虑变量值的大均值:既考虑到频次,又考虑变量值的大小,因此最灵敏。小,因此最灵敏。o 虽然均值对资料的信息利用最充分,但虽然均值对资料的信息利用最充分,但对对严重偏态的分布,会失去它应有的代表性严重偏态的分布,会失去它应有的代表性。3、偏态和三值的关系:n对于对称的图形,众值、中位值和均值三者位置重叠,当图形正偏或负偏时,均值变化最快,中位值次之,众值不变。如图:o 对称 正偏斜 负偏斜o M0=Md=X M0MdX XMdM0 第三节o试比较以下三组数据: o 甲组:80 86 90 94 100 X=90o 乙组:88 89 90 91 92 X=90o 丙组:90 90

21、 90 90 90 X=90离散趋势测量法离散趋势测量法o含义:求出一个值来表示一个变项含义:求出一个值来表示一个变项上的个案与个案之间的差异情况。上的个案与个案之间的差异情况。o与集中趋势测量法互相补充。如果与集中趋势测量法互相补充。如果个案差异大,众数、中位数和均值个案差异大,众数、中位数和均值的代表性就差。的代表性就差。一、定类变量:离异比率一、定类变量:离异比率(Variation Ration)o 离异比率(V)就是非众值的次数与全部个案数目的比率。o 公式如下: V= o N:全部个案数目,fmo:众值的次数。o 非众值的比例越小,众值的代表性越好。NfNmo例:调查了200名大学

22、生,内心的苦恼倾诉对象意愿为:o 党团组织41人、家长49人、知心朋友52人、闷在心里32人、 班团干部15人、随便议论11人o 可见N=200 fmo=52o V=o 众数的代表性很低o 注意:众值与众值频数,即MO与fmo的区别。%7474. 020052200NfNmo二、定序变项:四分位差二、定序变项:四分位差o 将个案由低至高排列,然后分为四个等分;则第一个四分位置的值(Q1)与第三个四分位置的(Q3)的差异,就是四分位差(简写Q),公式是Q=Q1-Q3)o 25% 25% 25% 25%o 低 Q1 Q2 Q3 高oQ1与Q3差异越大,表示有50%的个案越是远离中位值,因此中位值的

23、代表性就越差。 1、根据原始资料计算四分位差(例:p55)o 甲队有11户人家,每户人数如下:o 2 2 3 4 6 9 10 10 11 13 15o Md位置= Md=9o Q1位置= Q1=3o o Q3位置= Q3=11o o 所以四分位差Q=Q3-Q1=11-3=86211121N3411141N9) 111(43) 1(43N2、根据分组资料计算四分位差o Q1=L1+( ) w1o Q3=L3+( ) w3114fcfN3343fcfN三、定距变项:标准差nxx)(2S例:标准差的计算Xi(xi-x)(xi-x)272-1181864861316969-41657-16256x=

24、73050606.105506S对于分组资料,用组中值来代表变量值,标准差计算公式与上述相同(例:表2-7)fxxfsm2)(22xNfxsmmx为每组的组中点,f 是该组的次数 第四节一、正态曲线的一般形式正态曲线方程正态曲线方程xNxxs2)(222/)(21)(sxxesxf正态曲线的特点o 1、单峰,有一个最高点;o “中间高、两边低”;o 当x=x时,取得最大值。 正态曲线特点:o2一个对称曲线,曲线在高峰处有一个对称轴,在轴的左右两边是对称的,对称轴是直线xxo3一条渐近线。曲线无论向左或向右延伸,都越来越接近横轴,但不会和横轴相交,以横轴为渐近线。二、两个参数对曲线形状的二、两个

25、参数对曲线形状的影响影响o当 和 确定后,正态曲线的图形也就唯一被确定了。因此 和 称作正态分布曲线的两个参数。xx改变改变 2值:当值:当 x 不变的情况下,不变的情况下, 越小,则对应图形越尖瘦。越小,则对应图形越尖瘦。o 只要是正态分布,在一定的标准差数值范围内,个案的比例是一定的。标准正态分布(1):标准分(Z分)SXXZXXsxxzo 计算标准分的意义o 1、根据标准分的大小,一眼就能看出该变量值在一种正态分布中的位置;o 标准分以标准差为计量单位,不受原变量计量单位的影响,所以可以跨越不同的正态分布比较大小。o 如果把服从正态分布的随机变量的变量值都转换为标准分,这些Z分又能组成一个新变量,称为标准化变量,其分布仍然服从正态分布均值为0、标准差为1的标准正态分布。标准正态分布oZ 1.65 比例是0.05oZ1.96 比例是0.025oZ 2.33 比例是0.01oZ 2.58 比例是0.005oZ 3.09 比例是0.001oZ 3.30 比例是0.0005假设某变量X服从正态分布,其平均值为60,标准差为4,求p55X63的值。o 解:(1)先将X标准化,o 当X=55时,对应的标准分o Z=(55-60)/4=-1.25;o 当当X=63时,对应的标准分o Z=(63-60)/4=0.75;o (2)p55X63=p-1.25z0.75o =

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论