版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
主讲人:石伟Email:shiwei@社会统计学&SPSS应用除了上帝,任何人都必须用数据来说话。
——美国谚语统计的思维方法,就像读和写的能力一样,有一天会成为效率公民的必备能力。
——英国学者威尔斯我在课堂上曾一再对戏剧理论专业的学生说,与其玩弄几个空泛的理论概念,不如认真做一点观众调查。理论探讨应该面对着一批切实可行的调查数据进行。……这些调查所得的数据即使很粗糙、很不准确,总比脱离实际的词汇之争有意思得多。观众的反应当然并非艺术的准绳,因此又需要对调查结果进行理性处理,理论家的思辩能力仍然大有用武之地。十六世纪后期的丹麦天文学家第谷(TychoBrahe)观察天象三十年积累了大量的天文资料,他的助手开普勒(JohannesKepler)运用数学方法对这一大堆资料进行理论处理,终于发现了行星运动三定律。我们目前对剧场里的观众反应进行调查,也不仅仅为了票房的盈亏和剧目的轮换,而是面向着审美心理规律的透彻揭示,就像开普勒那样。
——余秋雨:《戏剧审美心理学》第一章绪论一、什么是统计学统计学是一门研究如何搜集、整理、分析和展示数据的方法科学,其目的是探索数据的内在规律性,以达到对客观事物的科学认识。数据搜集:例如,调查与实验等数据整理:例如,分组、排序等数据分析:例如,平均数、标准差、t检验、方差分析、回归分析等数据展示:例如,图和表等二、什么是社会统计学三、社会统计学的作用描述统计(descriptivestatistics):通过对搜集到的数据的整理与分析,以表、图和各种代表量的形式来描述数据的特征,找出数据的基本规律。推断统计(inferentialstatistics):通过对样本数据的统计分析,在一定可靠程度上推测相应的总体的数据特征及规律。四、SPSS简介及数据编码录入简介StatisticalPackageforSocialScienceStatisticalProgramforSocialScienceStatisticalProduct&ServiceSolutionsPredictiveAnalyticsSoftware(PASW,2009)IBMSPSSStatistics19http:///http:////forum-65-1.html金融行业
电信行业
政府行业
教育行业……
客户分析
市场细分
市场调查
市场预测
新产品开发
满意度调查
信用度分析……数据录入问题1:您认为打工的外地人对重庆市的社会秩序是否有影响?(单选)1□有很大影响2□有较大影响3□没有影响4□不好说4编码答案问题2:您有几个儿子?几个女儿?
1□儿子_______人
2□女儿________人23问题变量1变量2变量1的值变量2的值23100011外部式录入内部式录入采用文本文件(*.dat;*.txt)。这种录入方式的特点是,数据之间没有间隔,录完一个数码后自动后移,录入速度较快。缺点是容易错位。采用SPSS数据编辑器(SPSSDataEditor)录入。其优点是不容易错位,缺点是不能自动后移,录入速度慢,数据错误不容易修改。例题:某系甲、乙两班同学的性别及统计成绩如下:ID性别班级分数ID性别班级分数1女甲班8612男乙班812男甲班8213女乙班773男甲班7414男乙班634男甲班8515男乙班755女甲班7616女乙班696男甲班7917男乙班867男甲班8218男乙班818男甲班8319女乙班609女甲班8320女乙班6910男甲班7921女乙班7311男甲班8222女乙班89测量水平定类水平定序水平定距水平定比水平五、数据的测量水平定类水平(nominallevel)计量层次最低对事物进行平行的分类各类别可以指定数字代码表示使用时必须符合类别穷尽和互斥的要求数据表现为“类别”具有=或≠的数学特性定序水平(ordinallevel)对事物分类的同时给出各类别的顺序,数据表现为有序的类别。比定类水平精确不能测量出类别之间的准确差值具有>或<的数学特性定距水平(intervallevel)具有定类水平和定序水平的性质数据直接表现为“数值”,不用赋值具有+或-的数学特性可以转变为定序尺度和定类尺度比定序尺度精确没有绝对零点定比水平(ratiolevel)有绝对零点具有定距水平的性质具有×或÷的数学特性四种计量尺度的比较第二章单变量描述统计分布、统计表、统计图集中趋势测量法离散趋势测量法第一节分布、统计表、统计图一、分布(distribution)的概念一个变量的各个取值出现的次数或频次,又叫频次分布。例:家庭结构(X)为,可取3个值:
X1——核心家庭
X2——直系家庭
X3——联合家庭于是有:
(X1,n1) (X2,n2) (X3,n3)分布的一般形式:当n表示频次时,以上变量值频次对的集合称作频次分布。当n表示百分比时,以上变量值百分比对的集合称作百分比分布,又称频率或相对频次分布。当n表示概率时,以上变量值概率对的集合称作概率分布。二、统计表
以表格的形式来表示变量的分布。(一)定类变量注意事项:百分比统计表必须注明统计总数。统计表的组成要素:表号、表头(标题等)、标识行、主体行、表尾(资料来源等)。满足互斥性要求百分比总和可以为100.1%或99.9%,若要保证为100%,则改变频次最多项的数字。(二)定序变量 定序变量的统计表的内容、制作方法与定类变量相同,不同的是定序变量的取值需按顺序排列。(三)定距、定比变量 离散型变量(如家庭人数等) 连续型变量(如身高等)对于变量值较少的离散型变量,其制表方法同定序变量的制表方法。例:某生产车间50名工人日加工零件数(单位:个)如下,试做频数分布表。对于连续型变量或变量值较多的离散型变量,分组计算频次。组距:每组的上限与下限之差。对于等组距分组,其计算公式为:i=全距/组数组限:每组的起止范围。每组的最低值为下限,最高值为上限。例:下表是100个同龄儿童的身高数据,试作频次分布统计表。练习例:某生产车间50名工人日加工零件数(单位:个)如下,试做分组(7组)频数分布表。三、统计图 以图形的形式来表示变量的分布。
1.定类、定序变量:Pie图(饼图)、bar图(条形图)Pie图的SPSS演示bar图的SPSS演示练习评价下面的统计表是否有误,为什么?根据以下统计资料2.定距、定比变量:histogram(直方图),line(线图)直方图:以一组无间隔的直条表现频数分布特征的统计图。直方图的每一条形高度分别代表相应组别的频数。对于等距分组,用频次作为条形高度;对于非等距分组,用频次密度作为条形的相对高度。频次密度=频次/组距四、表和图的累积表示 累积表或累积图表示的是大于某个变量值的频次(或频率)一共是多少或小于某个变量值的频次(或频率)一共是多少。向上累积(cf↑或c%↑):是指位于某一变量值“以上”的频次或频率的总和。向下累积(cf↓或c%↓):是指位于某一变量值“以下”的频次或频率的总和。第二节集中趋势测量法一、集中趋势测量法(measuresofcentraltendency)用一个具有某种典型特征的数值来代表变量,这样的特征值就叫做集中值或集中趋势,对这样的数值的求取就叫做集中趋势测量。二、集中趋势的类型众值(mode)中位值(median)均值(mean)(一)众值Mo1.众值的概念
众值指频次分布中最大频次所对应的变量值。(1)定类、定序变量Mo=x2(2)定距、定比变量原始数据。例:成绩分组数据(连续型数据):众值为具有最高频次或频次密度的那一组的组中值bi。例:无众值。2.众值的意义众值的代表性在于其估计或预测每一个研究对象(个案)的值所犯错误总数是最小的。3.众值的适用范围适合于任何层次的变量,特别是定类变量。适合于单峰对称分布,不适合于多峰分布(众值不唯一)。(二)中位值Md1.中位值的概念中位值是指位于一组数据数列中间位置的那个值。数据数列——数据依序排列。中间位置——大于等于中位值的数据个数= 小于等于中位数的数据个数。(1)原始数据当观察总数N为奇数时,Md为位于(N+1)/2的那个值。当观察总数N为偶数时,Md取居中位置左右两数的平均值。(2)频次分布数据2.中位值的意义对于含有极端数据的一组数据,中位值更具有代表性。例:收入3.中位值的适用范围定序变量及其以上。例:成绩
(三)均值M或1.均值的概念2.均值的意义以均值来估计定距或定比数据中个案的数值,错误最小。3.均值的适用范围适用于定距和定比变量。4.均值的数学性质(1)各变量值与均值的离差之和等于零。(2)各变量值与均值的离差平方和最小。(四)众值、中位值和均值的比较三值设计的目的都是希望通过一个数值来描述一个变量的整体特征,以便简化资料。它们都反映了变量的集中趋势。
Scale/MeasurementModeMedianMeanNorminalOrdinalInternal/Ratio★★★★★★均值受极端值的变化影响,而中位值则不受影响。
练习以下是甲、乙两村9户家庭人口数的原始数据:甲村:3;3;4;4;4;5;6;7;8乙村:3;3;4;4;4;4;5;5;5(1)计算两村家庭人口数的众值、中位值和均值。(2)对三种集中值作出讨论。以下是68名职工婚姻状况的调查:(1)试作统计表和统计图。(2)选择适当的集中值并讨论之。以下是某厂职工教育程度的调查:(1)试作统计表和统计图。(2)选择适当的集中值并讨论之。设以下是某区家庭子女数的统计表:(1)试作频率统计表、直方图和线图。(2)试求均值。设以下是72名离婚者婚龄的统计。(1)试作频率统计表、直方图和线图。(2)试求众值、中位值和均值,并简单讨论之。指出下面的统计表存在的问题,并画一个完整的频次和频率统计表,在表中把真实组限、组距和组中值都列上。某厂工人的月收入分布1501~19004013011300158901~1100136701~90065501~70010某制鞋厂家为了制定生产计划,调查了100个成年女性穿鞋的尺寸,数据如下:尺寸21.52222.52323.52424.52525.526人数361018181510631(1)求这个数据集的平均数、中位数和众数;(2)对这个数据集,用什么指标作为数据集中趋势的度量比较合适?某市40个百货公司12月份的销售额资料如下(单位:万元):试根据以上资料编制第一组为50万元~60万元的等距数列,并计算出频率和累积频次。一项研究调查了19名中学教师,他们的月经济收入如下:
1200,1270,1300,1310,1320,1350,1360,1370,1390,1400,1450,1460,1490,1530,1580,1600,3200,4000。现欲了解他们的平均月经济收入。下表是39名学生的总评:随机抽取18名同学对西大进行5点量表的评价(1为非常不满意;2为不满意;3为一般;4为满意;5为非常满意),结果如下:
1,1,1,2,2,2,2,2,2,3,3,3,4,4,4,4,5,5(1)试作频次分布、频率分布、向上累积频次、向上累积频率、向下累积频次、向下累积频率表。(2)求中位值;(3)说明中位值的意义。下面是某班20名学生的某心理特征的得分,请描述这班学生在此心理特征上的数量特征。
12,10,8,9,6,6,23,15,17,5,14,13,7,6,8,19,16,15,13,12
若你是某大公司的人力资源部的经理,公司老板要求你确定公司产品开发工程师的薪酬标准。(1)你该如何着手开展工作?(2)若你通过调查获得了如下数据,那你确定的薪酬标准是什么?A公司年总收入B公司年总收入C公司年总收入助理工程师53000助理工程师51000助理工程师55000助理工程师52000助理工程师52000助理工程师54000助理工程师54000工程师59000助理工程师53000工程师61000工程师61000工程师64000工程师60000高工65000高工70000高工65000高工64000高工71000作业以下题目请用SPSS完成。我们在某高校采访了16名大学生,了解他们平时的学习情况,以下数据是大学生每周用于看电视的时间:
15,14,12,9,20,4,17,26,15,18,6,10,16,15,5,8。试计算这批数据的均值、中位值、众值、全距、四分位差、方差和标准差。客户在银行的等待服务时间是反映银行服务质量的一项重要指标,以下是一份来自某调查公司的调查资料:等待时间人数不超过2分钟7超过2分钟但不超过4分钟15超过4分钟但不超过6分钟8超过6分钟但不超过8分钟3超过8分钟但不超过10分钟1以下是某班参加业余活动情况的调查:C=“书社”;P=“摄影组”;J=“舞蹈团”;O=“体育组”。(1)试作统计表和统计图;(2)选择适当的集中值和离散值,并讨论之。第三节离散趋势测量法A:7,7,8,8,8,9,9Md=8;=8;R=Max-Min=2B:4,5,7,8,9,11,12Md=8;=8;R=Max-Min=8C:1,4,7,8,9,12,15Md=8;=8;R=Max-Min=14这三组数据的均值、中位值都是8,但它们的整齐程度却不一样一、离散趋势测量法(measuresofdispersion) 是用一个值来代表数据之间的差异情况,这样的代表值就叫做离散值或离散趋势,对这样的值的求取就叫做离散趋势测量。二、离散趋势与集中趋势的关系集中值代表性的高低要受数据之间差异情形的影响。要全面反映一个变量的数据特征,必须同时考察集中趋势和离散趋势。三、离中趋势的类型异众比率全距四分位差方差与标准差四、异众比率γ异众比率γ是非众值的频次之和在总数N中所占的比例。
五、全距或极差(range,简称R)全距R=最大变量值-最小变量值R越大,数据越分散;R越小,数据越集中。只受最大变量值和最小变量值的影响,没有考虑其他变量值的差异。难以准确反映变量的变异情况。适用于定序、定距、定比变量。六、四分位差(interquartilerange,简称Q)(一)四分位值四分位值的概念四分位值是指位于一组数据数列中第25%、第50%、第75%三个位置上的值。中位值或Q50Q1或Q25Q3或Q75四分位值的位置中位值位于(N+1)/2Q25位于Q75位于Q1表明至少有25%的变量值小于等于它;同时至少有75%的变量值大于等于它。Q3表明至少有75%的变量值小于等于它;同时至少有25%的变量值大于等于它。(N+1)/43(N+1)/4例:抽样调查甲村和乙村的家庭人数。甲村11户人家,每户人数如下:2,2,3,4,6,9,10,10,11,13,15Md的位置:(n+1)/2=(11+1)/2=6Md=9Q1的位置:(n+1)/4=(11+1)/4=3Q1=3Q3的位置:3(n+1)/4=3(11+1)/4=9Q3=11乙村8户人家,每户人数如下:2,3,4,7,9,10,12,12Md的位置:(n+1)/2=(8+1)/2=4.5Md=8Q1的位置:(n+1)/4=(8+1)/4=2.25Q1=3+0.25(4-3)=3.25Q3的位置:3(n+1)/4=3(8+1)/4=6.75Q3=10+0.75(12-10)=11.5(二)四分位差四分位差的概念Q=Q75-Q25上例:甲村:Q甲=Q3-Q1=11-3=8乙村:Q乙=Q3-Q1=11.5-3.25=8.25四分位差的意义Q愈大,表示有50%的变量值愈远离中位值,因而中位值的代表性愈小。四分位差通常与中位值一起使用。上例:因Q甲<Q乙若以中位值作估计,在甲村所犯的错误会略小于在乙村所犯的错误。练习1.7位评审对华裔溜冰选手关颖珊的溜冰成绩评分为5.8,5.6,5.8,5.7,5.6,5.9,5.8,求Q1、Q2、Q3与四分位差。2.12位学生各在罚球在线投篮十次,投中次数分别为3,2,3,7,5,3,6,4,1,3,6,8,求Q1、Q2、Q3与四分位差。
3.有4,6,6,7,7,10,11,11,13,15等十个样本,求下列各统计量:Q1、Q2、Q3与四分位差。4.试求下列8个数值的四分位差:90,60,75,86,80,78,92,68。
百分位值简介“中新网11月29日电11月2日,由某杂志主办的“2004中国MBA商学院排行”揭晓,排行榜显示复旦MBA毕业生起薪排行最高,平均年薪19万。复旦大学管理学院职业发展中心代理主任黄智颖告诉记者,近日有很多复旦MBA学生问他这个数据的可信度。”
该杂志主编杨俊杰先生在给记者的电子邮件中如此解释:“排行榜中薪酬部分,是以该校全部毕业生起薪点的80分位值的平均收入来计算的,收入的80分位值反映出该校毕业生的收入的中高端水平,最能体现一个学院毕业生薪酬的整体水准及未来发展趋势。复旦MBA毕业生首份工作的起薪点,即指有20%的毕业生达到或超过了年薪19万,而80%的人则达不到19万。”
七、方差(variance)与标准差(standarddeviation)方差也称变异或均方差(meansquaredeviation),表示一组数据平均的离散程度。样本方差总体方差标准差:是方差的正平方根;其单位与原变量X的单位相同。样本标准差总体标准差例:随机抽取6个被试,测量其对死刑的态度。态度量表为5点量表,1表示坚决反对,5表示坚决支持,依次类推。被试变量x1421324254631.33-1.67-
0.67-
0.671.330.331.772.790.450.451.770.11简化计算变量x725184816561867396694761573249如果数据已被整理为频次分布,则:SD=1.85对于等距分组数据,用组中值来代替变量值xi,公式同上。这样的计算不及用原始数据计算精确。SD=7.87方差与标准差是使用了所有的数据来计算变异情形的。方差与标准差的意义值越大,数据的离散程度越大,分布的范围越广,以均值来估计或预测变量值犯错的可能性越大,均值的代表性越小。标准差通常与均值一起使用。适用于定距和定比变量。第四节正态分布与标准分数单峰、对称=Mo=Md离差y,y≠0
当σ恒定时当μ恒定时标准分数(standardscore)又称为Z分数,是以标准差为单位,表示一个数在团体中所处位置的相对位置量数。正态曲线各部分面积表例:一学生分数115分,总体平均数100分,标准差15,问该生的成绩所处位置。例:一学生分数82分,总体平均数100分,标准差15,问该生的成绩所处位置。……练习数据文件:SAQ.sav第三章双变量关系的描述统计第一节统计相关的性质例:调查100人快乐之源,3个选项,其中40%人选金钱,50%人选工作,10%的人选情感。一、相关的概念
如果一个变量的取值发生变化,另外一个变量的值也相应发生变化,则这两个变量相关。性别与四级英语考试通过率的相关统计表述:统计结果显示,当性别取值不同时,通过率变量的取值并未发生变化,因此性别与考试通过率无关。通过率变量性别变量性别与四级英语考试通过率的相关统计表述:统计结果显示,当性别取值不同时,通过率变量的取值发生了变化,因此性别与考试通过率相关。通过率变量性别变量二、相关的程度大多数的统计法是以0代表无相关或零相关,以1代表全相关。介于0与1之间的数值如果愈大,就表示相关的程度愈强。abcdX1212Y全相关是指在一个变量上的每个增量都对应于另一个变量上的一个增量。零相关是指两个变量值变化方向无一定规律,即当一个变量值变大时,另一个变量值可能变大也可能变小,并且变大变小的机会趋于相等。如学生身高与学习成绩的关系。三、相关的方向正相关:是指当一个变量的值增加时,另一个变量的值也增加。负相关:是指当一个变量的值增加时,另一个变量的值却减少。相关方向的分析不适合于定类变量。三、相关的方向正相关:是指当一个变量的值增加时,另一个变量的值也增加。负相关:是指当一个变量的值增加时,另一个变量的值却减少。相关方向的分析不适合于定类变量。四、变量间的对称性相关关系不代表因果关系如果假定变量X影响变量Y,而变量Y不影响变量X,则变量X和Y之间的关系为不对称关系。如果不确定或不区分变量X与变量Y影响的方向,则变量X和Y之间的关系为对称关系。四、变量间的对称性相关关系不代表因果关系。如果假定变量X影响变量Y,而变量Y不影响变量X,则变量X和Y之间的关系为不对称关系。如果不确定或不区分变量X与变量Y影响的方向,则变量X和Y之间的关系为对称关系。第二节列联描述统计一、列联表的概念 就是同时依据两个变量的值,将所研究的个案分类统计的频次或频率分布表。二、列联表的格式边缘次数边缘次数条件次数条件次数表行百分比列百分比三、列联表的大小表的大小就是横行数目(rows,简写r)乘上纵列数目(columns,简写c),即表的大小=r×c一般用横行表示因变量,纵列表示自变量。列联表的简单分析第三节相关测量法一、两个定类变量:Lambda,tau-y(一)Lambda相关测量法
E1YE2YXE1-E2
在不知道X值的情况下预测Y值所产生的全部误差根据X的每个值来预测Y值所产生的误差总数以X值来预测Y值时所减少的误差消减误差比例(proportionatereductioninerror,简称PRE)PRE愈大,以X值预测Y值能够减少的误差所占的比例愈大;即X与Y的相关愈强。Lambda相关测量法就是以一个定类变量的众值来预测另一个定类变量的值时,可以减除多少误差。如果消减的误差在全部误差中所占的比例愈大,就表示这两个变量的相关越强。例:若性别为自变量X,快乐之源为因变量Y。依PRE的定义,E1=n-MY;E2=n-∑my;E1-E2=(n-MY)-(n-∑my)=∑my-MYY变量的众值次数X变量的每个值之下Y变量的众值次数对于2个不对称的定类变量,若X为自变量,Y为因变量,则PRE表示为其中,My为Y变量的众值次数;
my为X变量的每个值之下Y变量的众值次数;
n为全部个案数目。对于2个对称的定类变量,则PRE表示为其中,Mx为X变量的众值次数;
mx为Y变量的每个值之下X变量的众值次数。若全部众值集中在条件次数表的同一列或同一行中,则Lambda系数就会等于0。这时就不适合于采用Lambda相关测量法。λ及λy介于0与1之间。其值越大,消减的误差越大,2个变量之间的相关越强。(二)tau-y相关测量法tau-y系数属于不对称相关测量法。
tau-y系数的计算公式n:全部个案数目Fy:Y变量的边缘次数Fx:X变量的边缘次数f:条件次数tau-y系数的解释由于tau-y测量法考虑了全部的次数,故其敏感度高于Lambda测量法。对于不对称关系,最好选用tau-y来简化两个变量的相关情形。二、两个定序变量:Gamma,dy对称关系——Gamma系数;不对称关系——dy系数或Somers’d
其值范围[-1,+1],都具有消减误差比例的意义。(一)Gamma相关测量法同序对数Ns:在两个变量上的相对等级相同的一对个案为1个同序对。……异序对数Nd:在两个变量上的相对等级不同的一对个案为1个异序对。……若全部个案数目为n,则会组成0.5n(n-1)对个案。Ns=4Nd=3G=(4-3)/(4+3)=+0.14可见,工人积极性与产量成正相关。然而,二者的相关程度很弱。若以一个变量来预测另一个变量,只可以消减14%的误差。(二)dy相关测量法在因变量上的同分对数Ty:只在因变量上的等级相同的一对个案为1个同分对。……Ns=4Nd=3(三)列联表计算Gamma和dy2×2表2×3表3×2表Ty=f11(f12)+f21(f22)+f31(f32)f11f12f13f21f22f23f31f32f33
123
123X
YNS=f11(f22+f23+f32+f33)+f12(f23+f33)+f21(f32+f33)+f22(f33)Nd=f13(f22+f21+f32+f31)+f12(f21+f31)+f23(f32+f31)+f22(f31)Ty=f11(f12+f13)+f12(f13)+f21(f22+f23)+f22(f23)+f31(f32+f33)+f32(f33)3×3表NS=f11(f22+f23+f32+f33)+f12(f23+f33)+f21(f32+f33)+f22(f33)=23(55+28+94)+20(28+24)+11(27+24)+55(24)=6003Nd=f13(f22+f21+f32+f31)+f12(f21+f31)+f23(f32+f31)+f22(f31)=4(55+11+27+8)+20(11+8)+28(27+8)+55(8)=2204Ty=f11(f12+f13)+f12(f13)+f21(f22+f23)+f22(f23)+f31(f32+f33)+f32(f33)=23(20+4)+20(4)+11(55+28)+55(28)+8(27+24)+27(24)=4141可见,婆媳冲突与住户密度呈正相关,即住户的人口密度越高,婆媳冲突越大。如果以住户人口密度来预测或估计婆媳冲突的大小,可以消减30.8%的误差。(四)斯皮尔曼等级相关系数rs
D表示每个个案在两个变量上的等级差异量适用于对称关系
rs取值范围为[-1,+1]rs2具有消减误差比例的意义Rs=+0.47(五)Kendall’stau系数三、两个定距变量:Pearson积差相关(一)公式(二)r取值范围[-1,+1](三)计算示例(四)r系数适用于对称关系,也可近似用于非对称关系(五)r2具有消减误差的意义四、定类变量与定距变量:相关比率E2(一)适用于一个定类变量X为自变量,一个定距变量Y为因变量的情形(二)计算公式(三)E2具有消减误差比例的意义;E值范围[0,1]。E2=0.70,E=0.84五、定类变量与定序变量:Lambda,tau-y练习:请分别计算tau-ytau-y1=.138;tau-y2=.224相关系数值在相互比较时,更显出其意义。然而要相互比较,就要尽可能采用同样的相关测量法。六、定序变量与定距变量:相关比率E2练习:请分别计算E2及EE21=0.02,E1=0.14;E22=0.70,E2=0.84七、本章小节第四章概率与统计推断第一节抽样的意义与问题第二节抽样的历程第三节随机与非随机抽样法参阅风笑天:《现代社会调查方法》第四节概率与抽样分布推断统计(inferentialstatistics):通过对样本数据的统计分析,在一定可靠程度上推测相应的总体的数据特征及规律。统计值(statistic):即样本值参数值(parameter):即总体值代表性样本(representativesample):是指可以从这个样本的数据对总体的特征做出准确的、无偏估计的一个样本。一、二项抽样分布
二项抽样分布特征:每次抽样只有两种可能结果;每次抽样“成功”的概率为P,失败的概率为Q,P+Q=1,且每次抽样的概率都相同;每次抽样相互独立;抽样可重复N次;在N次抽样中,出现“成功”的次数的概率分布就叫二项分布。二、均值抽样分布均值抽样分布特征:如果样本相当大,则抽样分布接近正态分布;抽样分布的均值就是总体均值,抽样分布的标准差叫标准误(standarderror);有95%的样本均值在M±1.96SE范围内,有99%的样本均值在M±2.58SE范围内。三、参数估计与假设检验参数估计:统计值(样本)→参数值(总体)假设检验:假设参数值,用样本统计值检验参数值是否正确。第五章参数估计一、点估计与区间估计(一)点估计:用样本统计值来代表总体参数值。无偏估计与有偏估计(二)区间估计:估计总体参数值可能落入的区间范围。置信度:总体参数值落在某一区间时正确的概率。置信区间:总体参数值的区间范围。置信区间与置信度成正比。二、均值的区间估计α=.05α=.01置信区间的大小与样本的大小成反比。例:三、百分比的区间估计α=.05α=.01例:四、积矩相关系数的区间估计0.489≤r≤0.695第六章假设检验一、研究假设与虚无假设研究假设H1
虚无假设H0抽样分布H0为真,则H1为假;H0为假,则H1为真。二、否定域与显著性水平而显著水平表示否定域在整个抽样分布中所占的比例,也即表示样本的统计值落在否定域内的概率。否定域CR就是抽样分布内一端或两端的小区域,如何样本的统计值在此区域范围内,则否定虚无假设。三、单侧(尾)与双侧(尾)检验四、Ⅰ型错误与Ⅱ型错误Ⅰ型错误:拒绝H0时所犯的错误。犯Ⅰ型错误的概率通常以α表示,故又称α型错误。Ⅱ型错误:接受H0时所犯的错误。犯Ⅱ型错误的概率通常以β表示,故又称β型错误。α型错误与β型错误成反比。五、单均值的Z检验适用条件样本是随机抽取的n≥100或n≥30均值的抽样分布近似为正态分布例:从全区工人中随机抽取n=120名工人进行一项政治水平的测验,发现样本平均分为=57分,标准差S=18.5。可否证明全区工人该项测验的平均分M=60分。设p=0.05。解:n=120,Z>-1.96,故接受H0,即全区工人该项测验的平均分为60分。若H1:M<60H0:M=60解:这是单尾检验,查表得Z≤-1.65Z<-1.65,故否定H0,接受H1,即全区工人该项测验的平均分小于60分。若p=0.01,仍为左侧单尾检验,查表得Z≤-2.33,样本统计值Z=-1.78>-2.33,故接受H0,即该区工人该项测验的平均分为60分。例:有人调查早期教育对儿童智力发展的影响,从受过良好早期教育的儿童中随机抽取n=70人进行韦氏儿童智力测验,结果样本平均数为=103.3,能否认为受过良好早期教育的儿童智力高于一般水平(总体M=100,σ=15)。H1:M>100H0:M=100p=.05查表得:Z≥1.65依题意:Z=1.84≥1.65∴拒绝H0,接受H1,即即受过良好早期教育的儿童的平均智力要优于一般儿童的智力。六、单均值的t检验适用条件样本是随机抽取的n≤30自由度(degreesoffreedom,df):有多少个案的数值可以随意变更。自由度是指样本中独立的或能自由变化的数据的个数。例:一个样本n=4,数据分别为8、9、11、12,=10
要保证平均数恒定,只能自由改变3个数据,如7、15、8,第四个数必定为10。
对于样本,由于是固定的,所以df=n-1对于总体,由于μ是未知的,所以df=nt的抽样分布的形状(如扁平或高耸的程度)取决于自由度。t分布表(P391,附录5:t分布)例:一个随机样本,n=26,=65,S=10。H1:M>60H0:M=60p≤.05解:df=n-1=26-1=25,查表得:t≥1.708样本t=2.5>1.708∴拒绝H0,接受H1,即全校学生的平均成绩优于60分。七、两个均值差异的Z检验H1:M1≠M2orM1-M2≠0H0:M1=M2orM1-M2=0适用条件两个样本都是随机抽样;两个总体都是正态分布;两个总体的标准差(方差)是相等的(?)大样本,n1+n2≥100或n≥30例:解:Z=1.31<1.96,故接受H0,即甲乙两地农民请客送礼平均支出无显著差异(两样本均值的差异只是抽样误差造成的而已)。
练习:从某地区的六岁儿童中随机抽取男生30人,测量身高,平均为=114cm;抽取女生27人,平均身高=112.5cm。根据以往累积资料,该地区六岁儿童身高的标准差α1=5cm,女童身高标准差α2=6.5cm,能否根据这一次抽样测量的结果下结论:该地区六岁男女儿童身高有显著差异?参考答案:Z=0.96<1.96,即P>0.05,所以该地区六岁儿童男女身高差异不显著。八、两个均值差异的t检验适用条件两个样本都是随机抽样;两个总体的标准差(方差)是相等的(?)小样本,n1+n2<100或n<30例:解:查表得:t=-2.530<-2.528,故否定虚无假设,接受备择假设,即戒烟运动可显著减少抽烟量。
例:从某地区的六岁儿童中随机抽取男生30人,测量身高,平均为=114cm;抽取女生27人,平均身高=112.5cm。根据以往累积资料,该地区六岁儿童身高的标准差α1=5cm,女童身高标准差α2=6.5cm,能否根据这一次抽样测量的结果下结论:该地区六岁男女儿童身高有显著差异?解:查表得:t0.05/2(30+27-2)=t0.05/2(55)=2.00,所以t=0.96<t0.05/2(55)=2.00,即该地区男女儿童身高差异不显著。相关样本的t检验例:某幼儿园在儿童入园时对49名儿童进行比奈智力测验,结果平均智商为106,一年后再对同组被试施测,结果智商平均分为110,已知两次测验结果的相关系数为0.74,问能否说随着年龄的增长与一年的教育,儿童的智商有了显著提高?例:t=1.667<2.015,故接受虚无假设,即计划生育宣传不能达到减少男青年的理想儿女数目。查表得:例:某幼儿园在儿童入园时对49名儿童进行比奈智力测验,结果平均智商为106,一年后再对同组被试施测,结果智商平均分为110,已知两次测验结果的相关系数为0.74,问能否说随着年龄的增长与一年的教育,儿童的智商有了显著提高?t0.05(49-1)=t0.05(48)≈1.684t0.01(49-1)=t0.01(48)≈2.423例:某研究者认为哥哥比弟弟更具创造性,故随机抽取10对兄弟进行创造性测验,结果如下,假设测验成绩符合正态分布。问兄弟之间的创造性是否有显著的差异?哥哥:65486352615363706566合计弟弟:61426652475865626469d46-3014-5-281-320d21636901962546419360查表得:t0.05(10-1)=t0.05(9)=2.263SPSS演示与实作九、单百分率与百分率差异的检验百分率是均值的一种特殊形式(一)单百分率的Z检验当n≥30,且nP≥5&n(1-P)≥5,样本较大,百分率的抽样分布近似正态分布,可用Z作为检验统计量。
回忆比较:百分比的区间估计α=.05α=.01例:一休闲娱乐杂志声称其读者群中女性占80%,为验证这一说法是否属实,某研究机构抽取了由200人组成的一个随机样本,发现有146个女性经常阅读该杂志。分别取显著性水平α=0.05和α=0.01,检验该杂志读者群中女性的比例是否为80%。
解:H0=80%,H1≠80%P≤0.05,则|Z|≥1.96检验统计量
Z=-2.475<-1.96,故否定H0,接受H1,即该杂志的说法并不属实,该杂志女性读者的比例应超过80%。
(二)两个百分率差异的Z检验两个随机样本百分率之差的抽样分布接近正态分布,用Z检验法。
例:P≤0.001,查表得
Z=6.560≥3.30,故否定H0,接受H1,即两地小家庭所占比例是不同的。
练习:国际色觉障碍讨论会宣布,每12个男子中,有一个是先天性色盲。从某校抽取的1200名男生中有60人是色盲,问该校男子色盲比率与上述比例是否有显著差异?(答案:Z=1.21<1.96)从甲乙两校各自随机抽出学生160名和150名,发觉体育“达标”人数分别是115和130,问甲乙两校学生体育“达标”率是否有显著差异?(答案:Z=3.196>1.96)
第七章双变量关系的假设检验相关样本总体E1=[40(100-40)]/100+[50(100-50)]/100+[10(100-10)]/100=58E2=[10(60-10)]+[40(60-40)]+[10(60-10)]/60+[30(40-30)]+[10(40-10)]+[0(40-0)]/40 =45tau-y=(58-40)/58=0.224一、卡方检验(chisquaretest)适用条件:(1)随机样本;(2)两个变量都是定类变量或一个定类一个定序变量。实际次数预期次数边缘次数边缘次数条件次数条件次数表列联表的大小表的大小就是横行数目(rows,简写r)乘上纵列数目(columns,简写c),即表的大小=r×c一般用横行表示因变量,纵列表示自变量。列联表的简单分析性别与四级英语考试通过率的相关统计表述:统计结果显示,当性别取值不同时,通过率变量的取值并未发生变化,因此性别与考试通过率无关。通过率变量性别变量性别与四级英语考试通过率的相关统计表述:统计结果显示,当性别取值不同时,通过率变量的取值发生了变化,因此性别与考试通过率相关。通过率变量性别变量例:df=(r-1)(c-1)=(2-1)(2-1)=1,查附录六表得,χ2≥3.841χ2=30.389>3.841,故否定H0,接受H1,即性别与最敬佩父亲还是母亲有关。
χ2越大,H0正确的可能性越小,H1正确的可能性越大。SPSS演示及练习P404(八A)前三个问题。
P82,表4-1。P83,表4-2。P85,表4-3。边缘次数边缘次数条件次数条件次数表……P≤0.001,df=4,χ2≥18.465χ2=35.833>18.465,故否定H0,接受H1,即青年人的受教育水平与其最大志愿显著相关。Pearson卡方:n≥40,e≥5Continunitycorrection卡方:2×2表(df=1),n≥40,1≤e<5与卡方有关的相关测量法:Phi相关系数列联相关系数V相关系数Ns=4Nd=3G=(4-3)/(4+3)=+0.14可见,工人积极性与产量成正相关。然而,二者的相关程度很弱。若以一个变量来预测另一个变量,只可以消减14%的误差。回顾两个定序变量的相关dy相关测量法在因变量上的同分对数Ty:只在因变量上的等级相同的一对个案为1个同分对。……Ns=4Nd=3二、两个定序变量相关的检验适用条件:(1)随机样本;(2)两个变量都是定序变量;(3)n≥100G=0时,G值的抽样分布近似正态分布大样本n≥30小样本n<30NS=f11(f22+f23+f32+f33)+f12(f23+f33)+f21(f32+f33)+f22(f33)=23(55+28+94)+20(28+24)+11(27+24)+55(24)=6003Nd=f13(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年伐木劳务承包合同范本大全
- 2024年出售建筑砖头合同范本大全
- 2024年出口车架采购合同范本
- 丝印应用技术培训
- 2024年贵金属复合材料(含微型、异型)项目成效分析报告
- 2024年运输代理服务项目评估分析报告
- 2024至2030年中国高精度光电跟踪铣槽机数据监测研究报告
- 2024年财务公司服务项目综合评估报告
- 2024至2030年中国金属纤维涤纶高强度圆筒除尘袋行业投资前景及策略咨询研究报告
- 2024至2030年中国营养茶数据监测研究报告
- 广东省深圳市(2024年-2025年小学五年级语文)人教版质量测试(上学期)试卷及答案
- 2021-2024世界篮球趋势发展报告
- 更换阀门施工方案
- 医疗器械销售培训课程
- 中文工坊建设:内涵意蕴、现实挑战与实践路径
- 期中测试卷(1-4单元)(试题)2024-2025学年六年级上册试题人教版
- 电子发票管理系统开发与维护合同
- 现代服务业课件
- 浙江省杭州市2024年中考英语真题(含答案)
- 成人术中非计划低体温预防与护理学习与预实践
- 2024年国家公务员考试《行测》真题卷(行政执法)答案和解析
评论
0/150
提交评论