基本概念介绍_第1页
基本概念介绍_第2页
基本概念介绍_第3页
基本概念介绍_第4页
基本概念介绍_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基本概念介绍吴喜之1随机性和规律性有许多定律,例如牛顿三定律,物质不灭定律,爱因斯坦相对论等等。但是在许多领域,很难用如此确定的公式或论述来描述一些现象。比如,人的寿命。一个吸烟、喝酒、不锻炼、而且一口长荤的人可能比一个很少得病、生活习惯良好的人活得长。可以说,活得长短是有一定随机性的(randomness)。这种随机性可能和人的经历、基因、习惯等无数说不清的因素都有关系。2随机性和规律性从总体来说,我国公民的预期寿命却是非常稳定的。而且女性的预期寿命也稳定地比男性高几年。这就是规律性。你可能活过这个寿命,也可能活不到这个年龄,这是随机的。但是总体来说,预期寿命的稳定性,却说明了随机之中有规律性。这种规律就是统计规律。3概率和机会常听到概率这个名词。如天气预报中提到的降水概率。如果降水概率是百分之九十,那就很可能下雨;但如果是百分之十,就不大可能下雨。因此,从某种意义说来,概率描述了某件事情发生的机会。显然,这种概率不可能超过百分之百,也不可能少于百分之零。换言之,概率是在0和1之间的一个数,说明某事件发生的机会有多大。4有些概率是无法精确推断的比如你对别人说你下一个周末去公园的概率是百分之八十。但你无法精确说出为什么是百分之八十而不是百分之八十四或百分之七十八。其实你想说的是你很可能去,但又没有完全肯定。实际上,到了周末,你或者去,或者不去;不可能有分身术把百分之八十的你放到公园,而其余的放在别处。5有些概率是可以估计的如掷骰子。只要没有人做手脚,你得到任何点的概率都应该是六分之一。这反映了掷骰子的规律性。但掷出骰子之后所得到的结果还只可能是六个数目之一。这体现了随机性。如果你掷1000次骰子,那么,大约有六分之一的可能会得到6;这也说明随机结果也具有规律;而且有可能通过试验等方法来推测其规律。6总体通常用变量来代表一个调查问卷可能有关于性别、年龄、收入、观点、教育程度、财产情况、纳税情况、职业等问题。这些:性别、年龄、收入、观点、教育程度、财产情况、纳税情况、职业等,都是变量9变量可以是一维或多维的年龄,收入等都是一维的而地理坐标就是二维的许多变量的组合,则可能是多维的。10变量可以是定性或者定量的性别、观点、教育程度、职业等变量是定性的。年龄、收入、财产情况、纳税情况等变量可以是定量的11定性变量也要由随机(数量)变量描绘性别、观点、教育程度、职业等变量是定性的,无法用数量直接描述但是,它们的频数、比例等可以用数量描述没有用数量描述的量,无法参加数据分析过程12随机变量有分布(总体分布)有离散性分布(如二项分布、Poisson分布、超几何分布)>也有连续性分布(如正态分布、t分布,c2分布,F分布)>13离散分布14随机回答选答题可能得到的分数例:纯粹随机回答三个单选题(每个5种选择)可能答对0、1、2、3题的概率为15可用表或公式描述分布(想想为什么)16上面例子为:二项分布随机变量Binomialrandomvariable17它相当于从一个装有1个红色球和4个蓝色球(总数5个)的罐子,每次随机取出一个,观察其颜色;再放回;再接着取下一个(放回抽样)。一直取3次(回答3个问题)一次抽取得到红色(答对)的概率为p=1/5,而得到蓝色的概率为q=1-p=4/5.18均观测不到红球(答对0题)的概率为p(0)=P(BBB)=P(B)P(B)P(B)=(4/5)(4/5)(4/5)=(4/5)3=

q3=

0.512只观测到1次红球(恰答对1题)的概率为p(1)=P(RBB)+P(BRB)+P(BBR)=(1/5)(4/5)(4/5)+

(4/5)(1/5)(4/5)+(4/5)(4/5)(1/5)=3(1/5)(4/5)2=3pq2=

0.384.只观测到2次红球(恰答对2题)的概率为p(2)=P(RRB)+P(RBR)+P(BRR)=(1/5)(1/5)(4/5)+

(1/5)(4/5)(1/5)+(4/5)(1/5)(1/5)=3(1/5)2(4/5)=3p2q=

0.096.三次抽取,均为红球的概率为p(3)=P(RRR)=(1/5)(1/5)(1/5)=(1/5)3=p3=0.008.三次抽取(回答3题)19注意二项式展开的系数20n

次同等条件的独立试验每次试验仅有两种结果,通常记为S(成功)和

F(失败).成功(S)的概率在每次试验保持不变,用p表示,失败

(F)概率则为

q=1-p.n

次试验中成功的数目x,

则为二项随机变量.二项随机变量21在某些固定的条件下,人们认为某些事件出现的次数服从Poisson分布,比如在某一个时间段内某种疾病的发生病数,显微镜下的微生物数,血球数,门诊病人数,投保数,商店的顾客数,公共汽车到达数,电话接通数等等.<Poisson随机变量22连续分布情况23连续分布的密度函数:Probabilitydistributions(alsocalledprobabilitydensityfunctionfrequencyfunction)forcontinuousrandomvariables(Thefollowingisanormaldistribution)比如,概率P(-.5<x<1),为在区间(-.5,1)上曲线下面的面积.24均值(mean)m=0,标准差(standarddeviation)s=1的正态分布称为标准正态分布.通常用z表示标准正态随机变量.

如果x为有均值m和标准差s的正态变量,那么z=(x-m)/s,即x的标准得分

z-score为标准正态分布.比如,x为均值m=2,标准差s=0.5的正态变量,则z=(x-m)/s=(x-2)/.5为标准正态分布.25标准正态分布N(0,1),m=0,s=1.F(1.96)=P(Z<1.96)=0.9750021=1-P(Z>1.96)=1-0.02499790P(Z>1.96)=1-F(1.96)=1-0.9750021=0.0249979026分布

N(0,1)和N(-2,0.5)的密度函数不同均值m和标准差s的密度曲线有不同的位置和形状27这几个分布都是正态分布导出的分布,一般不描述什么实际现象,但是在进行检验时,总体为正态分布的随机变量的一些变换呈这些分布,用于相应的检验。比如t检验c2检验和F检验。其实,t分布是正态变量标准化时,用样本标准差s代替总体标准差s的结果。c2分布为独立正态变量的平方和的分布,F分布为c2分布(除以其自由度后)之比。t分布c2分布和F分布28分布由总体参数来区分二项分布Bin(n,p)的总体参数为试验次数n和“成功”概率p正态分布N(m,s)由位置参数(均值)m和形状参数s区分DensitycurvesofN(0,1)andN(-2,0.5)29样本数据:我们能够摸的着的部分我们通常只能够通过抽取样本来得到对总体的理解>样本统计量-对总体特征的描述>最好的样本是随机样本>数据的收集(二手数据、试验数据、一手数据、抽样调查)>抽样调查的各种误差>抽样调查的问卷设计>抽样调查数据问题的例子(另外文件)30总体和样本要想了解北京市民对建设北京交通设施是以包括轨道运输在内的公共交通工具为主还是以小汽车为主的观点,需要进行调查;调查对象是所有北京市民,调查目的是希望知道市民中对这个问题的不同看法各自占有的比例。显然,不可能去问所有的北京市民,而只能够问一部分;并根据这部分观点来理解整个北京市民的总体观点。31总体和样本在这个例子中,单个北京市民的观点称为个体(element或individual),而称所有北京市民对这个问题的观点为一个总体(population),总体是包含所有要研究的个体的集合。而调查时问到的那部分市民的观点(也就是部分个体)称为该总体的一个样本(sample),是总体中选出的一部分。当然,也有可能试图调查所有的人(比如人口普查),那叫做普查(census)。普查就一定比抽样准吗?<32数据的描述如同给人画像一样33直方图比如某个地区(地区1)学校高三男生的身高;有163个度量如何用图形来表示这个数据,使人们能够看出这个数据的大体分布或“形状”呢?一个办法就是画一个直方图(histogram)。3435盒型图比直方图简单一些的是盒形图(boxplot,又称箱图、箱线图、盒子图)。后面图的左边一个是根据地区1高三男生的身高数据所绘的盒形图;其右边的图代表另一个地区(地区2)的高三学生的身高36第三四分位点中位数第一四分位点37茎叶图地区1高三男生身高数据的茎叶图

38HEIGHTStem-and-LeafPlotFrequencyStem&Leaf9.0015.00122334417.0015.5566666777889999920.0016.0111222222333333344435.0016.5555566666666777778888888888899999925.0017.000000001111222223333334424.0017.55566667777777777788889913.0018.011111112233311.0018.556677888994.0019.23332.0019.563.00Extremes(>=198)Stemwidth:10.00Eachleaf:1case(s)39散点图往往人们得到的数据有两连续个变量的,比如美国男士和女士初婚年限的数据。该数据描述了自1900年到1998年男女第一次结婚延续的时间的中位数。当然,不可能将所有人的婚姻年限都给出来。所以,每年就取了一个中间的值(中位数)作为代表。自1900到1960年是每十年一个值,以后到1990是每五年取一个数,1995年以后是每年一个数。这里的一个变量为记录年份,另一个是结婚时间长短。由于分男士和女士,因此有两二维数据。这时可以以一个变量为横坐标(如年份),另一个为纵坐标(这里是结婚年限)来点图。这种图称为散点图(scatterplot)。还可以看出在二十世纪六十年代婚姻年限降低,而后来又升高。而男子的年限平均比女性长。这个图是用SPSS画的。

4041定性变量的点图定性变量(或属性变量,分类变量)不能点出直方图、散点图或茎叶图,但可以描绘出它们各类的比例。下面用SPSS绘的图表示了说世界各种主要语言的人数的比例

42饼图43条形图44汇总统计量或概括统计量(summarystatistic)45汇总统计量(位置)均值(mean):样本值的算术平均值中位数(median):中间大小的数(一半样本点小于中位数)(第一或第三)(下、上)四分位数(点)(firstquantile,thirdquantile)(分别有1/4或3/4的数目小于它们)k-百分位数(k-percentile)a分位数(acentile):k-百分位数=k%分位数:有k%的数目小于它众数(mode):样本中出现最多的数46汇总统计量(尺度)

(scalestatistic)极差(range):极端值之差四分位间距(四分位极差)(interquantilerange)四分位数之差标准差(standarddeviation)方差平方根方差(variance)各点到均值距离平方的平均47两个尺度不同的数据的直方图,左边的标准差大约只有右边的一半

48数据的标准得分(standardscore)两个类似的班级(一班和二班)上同一门课,但是由于两个任课老师的评分标准不同,使得两个班成绩的均值和标准差都不一样(数据:grade.sav)。一班分数的均值和标准差分别为78.53和9.43,而二班的均值和标准差分别为70.19和7.00。那么得到90分的一班的张颖是不是比得到82分的二班的刘疏成绩更好呢?49数据的标准得分(standardscore)怎么比较才能合理呢?虽然这种均值和标准差不同的数据不能够直接比较,但是可以把它们进行标准化,然后再比较标准化后的数据。一个标准化的方法是把原始观测值(亦称得分,score)和均值之差除以标准差;得到的度量称为标准得分(standardscore):(x-m)/s(这里m和s为均值和标准差)5051随机样本在从有限总体抽取样本时,如果总体中的每一个体都有同等机会被选到样本中,这种抽样称为简单随机抽样(simplerandomsampling),而这样得到的样本则称为随机样本(randomsample)。52随机样本就北京交通问题的调查为例,在随机抽样的情况下,如果样本量(samplesize,也就是样本中个体的数目)在总体中的比例为1/5000,那么,无论在东城区或者在延庆县,无论在白领阶层还是蓝领阶层被问到的人的比例都应该大体是1/5000也就是说,这种比例在总体的任何部分是大体不变的。53随机样本抽样就像从一锅八宝粥中舀出一勺如果粥和匀了,那么一勺中的各种成分比例应该和锅中的比例类似。就如一个抽样调查随机样本所包含的各种人群比例应该和总体类似。一个非随机的抽样就像从没有和匀的八宝粥中舀出的一勺一样。54方便样本实践中,得到随机样本不容易。很多搞调查的人就采取简单的办法。如按随机选出的电话号码进行调查,可节省时间和资源,但不是一个随机样本了。这些称为方便样本(conveniencesample)。在调查中,即使选择对象的确是随机的,最理想的情况所得到的样本也只代表那些愿意回答问题人的观点所组成的总体;没有回答问题的人的观点永远不会被这种调查的样本所代表。55这种不回答的问题是抽样调查特有的问题。在其他问题中,也有使用方便样本的情况。比如在肺癌研究中,人们往往看到吸烟和肺癌的关系的数据;这些数据并不是整个人群中采集的随机样本;它们可能只是医院中的病人记录中得到的。在杂志和报纸上也有问卷,但得到的只是拥有这份报刊,而且愿意回答的人的观点。<56二手数据报纸、电视和杂志提供各种数据。比如高速公路通车里程、物价指数、股票行情、外汇牌价、犯罪率、房价、流行病的有关数据(确诊病例、疑似病例、死亡人数和出院人数等等);当然还有国家统计局定期发布的各种国家经济数据、海关发布的进出口贸易数据等等。从中可以选取对自己有用的信息。这些间接得到的数据都是二手数据。57第一手数据获得第一手数据并不象得到二手数据那么轻松。某些在华的外资企业每年至少要花三四千万元来收集和分析数据。他们调查其产品目前在市场中的状况和地位并确定其竞争对手的态势;调查不同地区,不同阶层的民众对其产品的认知程度和购买意愿以改进产品和服务来争取顾客收集各地方的经济交通等信息以决定如何保住现有市场和开发新市场。市场信息数据对企业是至关重要的。他们很舍得在这方面花钱。因为这是企业生存所必需的,绝不是可有可无的。58观测数据和试验数据上面所说的数据是在自然的未被控制的条件下观测到的,称为观测数据(observationaldata)。而对于有些问题,比如在不同的医疗手段下某疾病的治疗结果有什么不同、不同的肥料和土壤条件下某农作物的产量有没有区别、用什么成分可以提高某物质变成超导体的温度等等。这种在人工干预和操作情况下收集的数据就称为试验数据(experimentaldata)。

59试验数据有助于找出必要的因果关系60抽样调查的一些常用方法在抽样调查时,最理想的样本是前面提到的随机样本。但是由于实践起来不方便,在大规模调查时一般不用这种全部随机抽样的方式,而只是在局部采用随机抽样的方法。下面介绍几种抽样方法。这里没有深奥的理论;读者完全可以根据常识判断在什么情况下简单的随机样本不方便以及下面的每个方法有什么好处和缺陷。对于它们具体的设计、实施与数据分析,有许多专门的书籍,就不在这里赘述了。61一些抽样方法1.分层抽样(stratifiedsampling)。这是先把要研究的总体按照某些性质分类(stratum),再在各类中分别抽取样本。在每类中调查的人数通常是按照这该类人的比例,但出于各种考虑,也可能不按照比例,也可能需要加权(加权就是在求若干项的和时,对各项乘以不同的系数,这些系数的和通常为1)。比如按照教育程度把要访问的人群分成几类;再在每一类中调查和该类成比例数目的人。以确保每一类都有按比例的代表。62一些抽样方法2.整群抽样(clustersampling)。这是先把总体划分成若干群(cluster),再(通常是随机地)从这些群中抽取几群;然后再在这些抽取的群中对个体进行抽样。比如,在某县进行调查,首先在所有村中选取若干村子,然后只对这些村子的人进行调查。显然,如果各村情况差异不大,这种抽样还是方便的。否则就会增大误差了。63一些抽样方法3.多级抽样(multistagesampling)。在群体很大时,往往在抽取若干群之后,再在其中抽取若干子群,甚至再在子群中抽取子群,等等。最后只对最后选定的最下面一级进行调查。比如在全国调查时,先抽取省,再抽取市地,再抽取县区,再抽取乡、村直到户。在多级抽样中的每一级都可能采取各种抽样方法。因此,整个抽样计划可能比较复杂,也称为多级混和型抽样。64一些抽样方法4.系统抽样(systematicsampling)。这是先把总体中的每个单元编号,然后随机选取其中之一作为抽样的开始点进行抽样。如果编号是随机选取的,则这和简单随机抽样是等价的。在选取开始点之后,通常从开始点开始按照编号进行所谓等距抽样;也就是说,如果开始点为5号,“距离”为10,则下面的调查对象为15号、25号等等。(美国越战时征兵)

65抽样方法的选择不能一概而论实际上每个抽样通常都可能是各种抽样方法的组合。既要考虑精确度,还要根据客观情况考虑方便性、可行性和经济性。不能一概而论。这些抽样方法的选择多半是种艺术,而不是科学。66不仅抽样方法,而且问卷设计、调查过程等,均可能是致命的提问方式(和目的有关)问卷中问题的次序问题的语言提问的人抽样框作假

67误差

假定在某一职业人群中女性占的比例为60%。如果在这个人群中抽取一些随机样本,这些随机样本中女性的比例并不一定是刚好60%,可能稍微多些或稍微少些。这是很正常的,因为样本的特征不一定和总体完全一样。这种差异不是错误,而是必然会出现的抽样误差(samplingerror)。刚才提到在抽样调查中,一些人因为种种原因没有对调查作出反映(或回答),这种误差称为未响应误差(nonresponseerror)。而另有一些人因为各种原因回答时并没有真实反映他们的观点,这称为响应误差(responseerror)。和抽样误差不一样,未响应误差和响应误差都会影响对真实世界的了解;应该在设计调查方案时尽量避免。<68设计问卷时,在实践中应该尽量做到调查目标明确;问卷的设计需要统计学家参与;问题要合乎逻辑、少而精;问题的内容和语言要严格,但又简单明了;切忌巨型问卷。问题的次序,调查人的选择要科学地设计抽样方案,对于确实感兴趣的问题要保证样本量,但绝不能企图面面俱到,急功近利。《69数据:样本所包含的数字向量或矩阵一个变量的不断观测,产生数据向量对一个对象的各种变量的观测,产生数据方阵,通常每列代表一个变量的观测,每行代表一个对象的各种变量的观测值尽管书上的数据表格千差万别,但基本上都可以形成一个矩阵,以供计算机使用7071统计软件统计软件的发展,也使得统计从统计学家的工具变成了大众的游戏。只要你输入数据,点几下鼠标,做些选项,马上得到漂亮结果。是否傻瓜式的统计软件的使用可以代替统计课程了?数据的整理和识别,方法的选用,计算机输出结果的理解都不象使用傻瓜相机那样简单可靠。72统计软件国外法律或医学方面的软件都有不少警告,不时提醒你去咨询律师或医生。但统计软件则不那么负责。只要数据格式无误、方法不矛盾(比如不用零作为除数)就一定给你结果,而且一般没有任何警告。另外,统计软件输出的结果太多;即使是同样的方法,不同软件输出的内容还不一样;有时同样的内容名称也不一样。这就使得使用者大伤脑筋。没有统计学家能解释软件的所有的输出。因此,就应该特别留神,明白自己是在干什么。不要在得到一堆毫无意义的垃圾之后还沾沾自喜。73统计软件统计软件的种类很多。有些功能齐全,有些价格便宜;有些容易操作,有些需要更多的实践才能掌握。还有些是专门的软件,只处理某一类统计问题。面对太多的选择往往给决策带来困难。这里介绍最常见的几种。74统计软件SPSS:很受欢迎;容易操作,输出漂亮,功能齐全,价格合理。它也有自己的程序语言,但基本上已经“傻瓜化”。它对于非专业统计工作者是很好的选择。帮助功能很好。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论