日化行业统计基础知识_第1页
日化行业统计基础知识_第2页
日化行业统计基础知识_第3页
日化行业统计基础知识_第4页
日化行业统计基础知识_第5页
已阅读5页,还剩73页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本课内容包含统计回顾方差分析主成分分析和因子分析聚类分析判别分析典型相关分析对应分析列联表Logistic回归Poisson对数线性模型时间序列分析。。。。统计基本概念回顾随机性和规律性现实中的随机性和规律性从中学起,我们就知道自然科学的许多定律,例如物理中的牛顿三定律,物质不灭定律以及化学中的各种定律等等。但是在许多领域,很难用如此确定的公式或论述来描述一些现象。比如,人的寿命是很难预先确定的。一个吸烟、喝酒、不锻炼、而且一口长荤的人可能比一个很少得病、生活习惯良好的人活得长。因此,可以说,活得长短是有一定随机性的(randomness)。这种随机性可能和人的经历、基因、习惯等无数说不清的因素都有关系。现实中的随机性和规律性但是从总体来说,我国公民的平均年龄却是非常稳定的。而且女性的平均年龄也稳定地比男性高几年。这就是规律性。一个人可能活过这个平均年龄,也可能活不到这个年龄,这是随机的。但是总体来说,平均年龄的稳定性,却说明了随机之中有规律性。这种规律就是统计规律。概率和机会你可能经常听到概率(probability)这个名词。例如在天气预报中会提到降水概率。大家都明白,如果降水概率是百分之九十,那就很可能下雨;但如果是百分之十,就不大可能下雨。因此,从某种意义说来,概率描述了某件事情发生的机会。显然,这种概率不可能超过百分之百,也不可能少于百分之零。换言之,概率是在0和1之间的一个数,说明某事件发生的机会有多大。有些概率是无法精确推断的比如你对别人说你下一个周末去公园的概率是百分之八十。但你无法精确说出为什么是百分之八十而不是百分之八十四或百分之七十八。其实你想说的是你很可能去,但又没有完全肯定。实际上,到了周末,你或者去,或者不去;不可能有分身术把百分之八十的你放到公园,而其余的放在别处。有些概率是可以估计的比如掷骰子。只要没有人在骰子上做手脚,你得到6点的概率应该是六分之一。得到其他点的概率也是一样。得到6的概率或者机会是可以知道的,但掷骰子的结果还只可能是六个数目之一。这个已知的规律就反映了规律性,而得到哪个结果则反映了随机性。如果你掷1000次骰子,那么,大约有六分之一的可能会得到6;这也是随机性呈现有规律的一个体现。变量做任何事情都要有对象。比如一个班上注册的学生有200人,这是一个固定的数目,称为常数(constant)或者常量。但是,如果猜测今天这个班有多少人会来上课,那就没准了。这有随机性。可能有请病假或事假的,也可能有逃课的。这样,就要来上课的人数是个变量(variable)。另外对于某项政策同意与否的回答,也有“同意”、“不同意”或者“不知道”三种可能值;这也是变量,只不过不是数量而已。变量当变量按照随机规律所取的值是数量时该变量称为定量变量或数量变量(quantitativevariable);因为是随机的,也称为随机变量(randomvariable)。象性别,观点之类的取非数量值的变量就称为定性变量或属性变量或分类变量(qualitativevariable,categoricalvariable)。这些定性变量也可以由随机变量来描述,比如男性和女性的数目,同意某政策人数的比例等等。只有当变量用数量来描述时,才有可能建立数学模型,才可能使用计算机来分析。数据有了变量的概念,什么是数据呢?拿掷骰子来说,掷骰子会得到什么值,是个随机变量;而每次取得1至6点中任意点数的概率它在理论上都是六分之一(如果骰子公平)。这依赖于在掷骰子背后的理论或假定;而在实际掷骰子过程中,如果掷100次,会得到100个由1至6点组成的数字串;再掷100次,又得到一个数字串,和前一次的结果多半不一样。这些试验结果就是数据。所以说,数据是关于变量的观测值.通过数据可以验证有关的理论或假定(比如每一次得到每个点的概率是不是1/6等等)。对于顾客是否喜欢某种饮品的调查也类似,但这里不象掷骰子那样事先可以大致猜测顾客喜欢与否的概率。在问了1000人之后,可能有364人说喜欢,而480人说不喜欢,其余的人可能不回答,或说不知道,或从来没有喝过这种饮料。这些数目就是数据。当然,它仅仅反映了1000个被问到的人的观点;但这对于估计整个消费群体的观点还是有用的。统计和计算机现代生活越来越离不开计算机了。最早使用计算机的统计当然更离不开计算机了。事实上,最初的计算机仅仅是为科学计算而建造的。大型计算机的最早一批用户就包含统计。而现在统计仍然是进行数字计算最多的用户。计算机现在早已脱离了仅有计算功能的单一模式,而成为百姓生活的一部分。计算机的使用,也从过去必须学会计算机语言到只需要“傻瓜式”地点击鼠标。结果也从单纯的数字输出到包括漂亮的表格和图形的各种形式。统计软件统计软件的发展,也使得统计从统计学家的圈内游戏变成了大众的游戏。只要你输入你的数据,点几下鼠标,做一些选项,马上就得到令人惊叹的漂亮结果了。你可能会问,是否傻瓜式的统计软件使用可以代替统计课程了?当然不是。数据的整理和识别,方法的选用,计算机输出结果的理解都不象使用傻瓜相机那样简单可靠。统计软件有些诸如法律和医学方面的软件都有不少警告,不时提醒你去咨询专家。但统计软件则不那么负责。只要数据格式无误、方法不矛盾而且不用零作为除数就一定给你结果,而且没有任何警告。另外,统计软件输出的结果太多;即使是同样的方法,不同软件输出的内容还不一样;有时同样的内容名称也不一样。这就使得使用者大伤脑筋。即使是统计学家也不一定能解释所有的输出。因此,就应该特别留神,明白自己是在干什么。不要在得到一堆毫无意义的垃圾之后还沾沾自喜。统计软件统计软件的种类很多。有些功能齐全,有些价格便宜;有些容易操作,有些需要更多的实践才能掌握。还有些是专门的软件,只处理某一类统计问题。面对太多的选择往往给决策带来困难。这里介绍最常见的几种。统计软件SPSS:这是一个很受欢迎的统计软件;它容易操作,输出漂亮,功能齐全,价格合理。对于非统计工作者是很好的选择。Excel:它严格说来并不是统计软件,但作为数据表格软件,必然有一定统计计算功能。而且凡是有MicrosoftOffice的计算机,基本上都装有Excel。但要注意,有时在装Office时没有装数据分析的功能,那就必须装了才行。当然,画图功能是都具备的。对于简单分析,Excel还算方便,但随着问题的深入,Excel就不那么“傻瓜”,需要使用函数,甚至根本没有相应的方法了。多数专门一些的统计推断问题还需要其他专门的统计软件来处理。SAS:这是功能非常齐全的软件;尽管价格不菲,许多公司还是因为其功能众多和某些美国政府机构认可而使用。尽管现在已经尽量“傻瓜化”,仍然需要一定的训练才可以进入。对于基本统计课程则不那么方便。统计软件S-plus:这是统计学家喜爱的软件。不仅由于其功能齐全,而且由于其强大的编程功能,使得研究人员可以编制自己的程序来实现自己的理论和方法。它也在进行“傻瓜化”以争取顾客。但仍然以编程方便为顾客所青睐。R软件:这是一个免费的,由志愿者管理的软件。其编程语言与S-plus所基于的S语言一样,很方便。还有不断加入的各个方向统计学家编写的统计软件包。同时从网上可以不断更新和增加有关的软件包和程序。这是发展最快的软件,受到世界上统计师生的欢迎。是用户量增加最快的统计软件。对于一般非统计工作者来说,主要问题是它没有“傻瓜化”。统计软件Minitab:这个软件是很方便的功能强大而又齐全的软件,也已经“傻瓜化”,在我国用的不如SPSS与SAS那么普遍。Statistica:也是功能强大而齐全的“傻瓜化”的软件,在我国用的也不如SAS与SPSS那么普遍。Eviews:这是一个主要处理回归和时间序列的软件。GAUSS:这是一个很好用的统计软件,许多搞经济的喜欢它。主要也是编程功能强大。目前在我国使用的人不多。FORTRAN:这是应用于各个领域的历史很长的非常优秀的编程软件,功能强大,也有一定的统计软件包。计算速度比这里介绍的都快得多。但需要编程和编译。操作不那么容易。MATLAB:这也是应用于各个领域的以编程为主的软件,在工程上应用广泛。编程类似于S和R。但是统计方法不多。统计软件当然,还有其他的软件,没有必要一一罗列。其实,聪明的读者只要学会使用一种“傻瓜式”软件,使用其他的仅仅是举一反三之劳;最多看看帮助和说明即可。如果只有英文帮助,那还可以顺便提高你的英文阅读能力。想想看举出你所杜知道的统去计应用例刻子。举出日雁常生活躺中随机牺性和规项律性的底例子。你使用悔过统计推软件或灯者利用莫过其他离软件中锡的统计拌功能吗训?你有拐什么经欲验和体泰会?数据的收滴集二手数者据每天翻引开报纸调或打开精电视,嚼就可以崭看到各兄种数据廉。比如忧高速公纳路通车桃里程、山物价指私数、股被票行情肚、外汇膜牌价、给犯罪率卷、房价启、流行隶病的有战关数据轻(确诊榜病例、扯疑似病缓例、死第亡人数酷和出院即人数等浪等);门当然还环有国家闯统计局慈定期发警布的各嗽种国家昌经济数辣据、海炮关发布掉的进出容口贸易命数据等修等。从瞎中可以嫌选取对宜自己有煌用的信枯息。这些间接稿得到的数临据都是二手数农据。第一手数辅据获得第一摧手数据并碍不象得到梢二手数据枣那么轻松段。某些在尤华的外币资企业诉每年至帆少要花洽三四千俱万元来漂收集和仙分析数分据。他们调梯查其产锡品目前坦在市场潜中的状誉况和地骄位并确除定其竞玻争对手螺的态势湾;他们调查谎不同地区泡,不同阶栏层的民众草对其产品红的认知程羊度和购买淘意愿以改贵进产品或圆推出新品纳种争取新纽奉顾客;他们还蜜收集各恋地方的睛经济交科通等信票息以决捏定如何秒保住现即有市场吼和开发步新市场劳。市场停信息数究据对企执业是至兰关重要张的。他们很哥舍得在王这方面叫花钱。自因为这县是企业尼生存所焰必需的惠,绝不妄是可有般可无的错。观测数据和试验数据上面所说躲的数据是有在自然的车未被控薪制的条龙件下观酱测到的脸,称为收观测数仁据(o罗bse氏rva杀tio守nal篇da矿ta)都。而对于有年些问题,比如在垃不同的摘医疗手颈段下某劝疾病的筑治疗结翅果有什戚么不同黑、不同乎的肥料绑和土壤扮条件下卵某农作防物的产博量有没伙有区别制、用什递么成分伸可以提诸高某物换质变成茎超导体学的温度亚等等。这种在人行工干预和洁操作情况控下收集的妖数据就称孙为试验数萝据(ex乞peri甲ment船ald密ata)扔。总体和样章本要想了边解北京补市民对各建设北满京交通菌设施是切以包括屿轨道运导输在内百的公共餐交通工打具为主高还是以违小汽车券为主的失观点,鞋需要进俘行调查吸;调查对象学是所有北京艳市民,调查目的是希望逃知道市凭民中对敞这个问死题的不悲同看法法各自占眯有的比例。显然,不可能去闻问所有的到北京市民理,而只能滔够问一部超分;并且根懒据这一部仿分的观点竟来理解整馆个北京市田民的总体追观点。总体和样座本这种情况运下,称所坐有(每个尖)北京市瓦民对这个新问题的观驻点为一个总体(pop商ulat孕ion)量,而调查则时问到的叛那部分市移民的观点乡丰为该总体的一个样亿本(sam蜓ple)惭。当然,尝也有可采能调查畜所有的疤人(比世如人口语普查)闭,那叫海做普查(ce塔nsu集s)。总体是包艳含所有要家研究的个馒体(el叹emen宾t)的集脾合。而样允本是总体挖中选中的津一部分。随机样本在抽取样飘本时,如蚁果总体中交的每一个衰体都有同内等机会被故选到样本索中,这种宏抽样称为万简单随机抽样(si甘mpl春er骂and趋om喇sam嘱pli世ng)蒸,而这样得趴到的样本标则称为随机样本(ran忘dom毙samp季le)。随机样摊本就北京交炉通问题的贪调查为例厉,在随机沾抽样的情棕况下,如余果样本量秆(sam但ple坦size归,也就是谱样本中个逝体的数目师)在总体耍中的比例志为1/5冈000,那么,妄无论在给东城区傲或者在寄延庆县踏,无论浓在白领征阶层还可是蓝领猴阶层被婚问到的爱人的比裳例都应河该大体披是1/计500点0。也就是说妇,这种比鹊例在总呈体的任丢何部分挖是大体渴不变的削。方便样本在实践中氧,得到随兔机样本不桑容易。很没多搞调查聪的人就采尘取简单的办法。还以北用京的交泽通问题盐的调查究为例。夕假定按苦照随机固选出的射电话号赔码进行翠调查。凯这样肯高定节省伏时间和按资源,污但这样睁得到的射就不是滴一个随捡机样本晌了。如果按授照随机遇选择的那数字(蒸无论号经码本上奖有没有附)打电洗话,那摆很多电翁话是空壤号或单混位电话积;显然雪这种样香本也不卫是随机鲁样本,轨它称为邪方便样婶本(c少onv捷eni航enc乒es瘦amp句le)熔。在调查中渐,即使选求择对象的竖确是随机葵的,最理分想的情况欢所得到的晒样本也只埋代表那些展愿意回答辣问题人的辽观点所组裕成的总体六;没有回答狸问题的人朱的观点永医远不会被窑这种调查研的样本所双代表。方便样呼本这种不回智答的问题甚是抽样调成查特有的狮问题。在其他问削题中,也息有使用方垫便样本的锣情况。比沃如在肺癌犁研究中,役人们往往压看到吸烟模和肺癌的励关系的数把据;这些哈数据并不况是整个人陕群中采集并的随机样弓本;它们欲可能只是产医院中的来病人记录旁中得到的条。在杂志和翻报纸上也御有问卷,凉但得到的梁只是拥有耀这份报刊霜,而且愿仔意回答的蚕人的观点件。误差假定在某扫一职业人让群中女性指占的比例快为60%北。如果在铅这个人群崇中抽取一瞧些随机样病本,这些挠随机样本数中女性的村比例并不望一定是刚贷好60%报,可能稍胁微多些或涉稍微少些介。这是很冤正常的,狠因为样本抖的特征不挑一定和总它体完全一厚样。这种识差异不是萝错误,而挺是必然会六出现的抽样误很差(sa互mpl泥ing齐er歌ror挑)。刚才提到描在抽样调想查中,一袍些人因为惩种种原因轨没有对调泊查作出反戴映(或回携答),这风种误差称陈为未响应误统差(non肃resp烘onse伍err慕or)。而另有渡一些人境因为各担种原因尿回答时饱并没有尼真实反乐映他们佳的观点叶,这称续为响应误差(re童spo流nse吃er兔ror闭)。和抽样王误差不耍一样,骡未响应粒误差和颜响应误你差都会致影响对绑真实世席界的了脸解;应牲该在设兄计调查容方案时年尽量避土免。抽样调犁查的一郑些常用鸭方法在抽样调景查时,最我理想的样妙本是前面旺提到的随许机样本。但是由于实组践起来勇不方便,在大规碰模调查时昂一般不用决这种全部科随机抽样橡的方式,咬而只是在宗局部采用甜随机抽样宅的方法。下面介绍送几种抽样茂方法。这弄里没有深膀奥的理论数;读者完扬全可以根蓝据常识判歼断在什么念情况下简上单的随机裤样本不方咱便以及下按面的每个扣方法有什固么好处和斗缺陷。对萍于它们具夏体的设计炎、实施与蛾数据分析疼,有许多寸专门的书咽籍,就不怒在这里赘耀述了。一些抽样愿方法1.分层抽苏样(str散atif间ied滥samp冲ling冰)。这是语先把要研捷究的总体锣按照某些完性质分类座(str赢atum怕),再在茧各类中分蒜别抽取样肯本。在每烘类中调查英的人数通沫常是按照煮这该类人脂的比例,陆但出于各污种考虑,咬也可能不末按照比例污,也可能晚需要加权篇(加权就子是在求若服干项的和蚊时,对各津项乘以不杏同的系数歼,这些系厨数的和通君常为1)汪。比如可以运按照教育过程度把要促访问的人慎群分成几逼类;再在免每一类中偿调查和该请类成比例帆数目的人霞。这样就确纷保了每一津类都有成玻比例的代童表。一些抽抱样方法2.整群抽尤样(cl午ust匪er标sam窄pli广ng)剥。这是申先把总患体划分授成若干电群(c史lus积ter裂),再再(通常免是随机可地)从涛这些群法中抽取叫几群;冶然后再副在这些药抽取的淡群中对垦个体进督行抽样粒。比如,驻在某县诞进行调新查,首茄先在所拖有村中辣选取若嘉干村子该,然后封只对这向些村子得的人进息行调查脚。显然,如问果各村情妹况差异不刺大,这种构抽样还是铁方便的。漆否则就会夫增大误差售了。一些抽样腔方法3.多级抽样(mul遥tist搂age条samp尤ling袍)。在群爸体很大时秧,往往在伪抽取若干熟群之后,讨再在其中昨抽取若干椅子群,甚熊至再在子株群中抽取巩子群,等蓝等。最后磁只对最后向选定的最天下面一级彻进行调查葬。比如在跑全国调迹查时,桑先抽取塘省,再断抽取市朵地,再凡抽取县阀区,再炊抽取乡雹、村直施到户。在多级淡抽样中市的每一但级都可贷能采取令各种抽艇样方法凯。因此缩慧,整个摇抽样计叶划可能唇比较复撕杂,也芳称为多蛮级混和制型抽样编。一些抽蜘样方法4.系统抽瘦样(sy谁ste磁mat存ic馒sam棚pli帝ng)具。这是架先把总冷体中的促每个单蛙元编号舞,然后些随机选弹取其中倡之一作劫为抽样柳的开始姻点进行客抽样。眯如果编怒号是随绢机选取分的,则拔这和简滚单随机犁抽样是垂等价的柏。在选他取开始护点之后涨,通常宋从开始起点开始族按照编确号进行丛所谓等龄距抽样臭;也就亭是说,穷如果开违始点为塑5号,断“距离眉”为1胡0,则脊下面的铅调查对接象为1鼠5号、凯25号番等等。抽样方法旗的选择不鸦能一概而前论实际上坡每个抽用样通常厘都可能名是各种三抽样方炸法的组扎合。既各要考虑沈精确度卵,还要金根据客差观情况握考虑方泽便性、枝可行性恼和经济德性。不锐能一概透而论。计算机中欺常用的数长据形式数据是由各一些变量肢和它们的鸭观测值所旺组成。下闸面就是调牵查人们对碧某个问题叠观点的一鸦个数据的鼻方阵形式弊。其中有粥6个变量登:观点(柔观测值为俘支持、反症对和不知酸道三种)具、教育程盗度(有高远中低三种穿取值,用震H、M、亡L表示)叮、月收入始(取值为帜实际数字千)、性别究(取值有肾男女两个盏,用M和预F表示)必以及地区鹿号(用数坟字1,2他,3,4枝表示)等柳。该表一嘱共有13哨64个观反测值(问姓卷回答)蝇。可以看搬出这些变教量有定性辱(属性)堵变量,也做有定量(坐数值)变演量。按照记这个数据耀的格式,牌每一列为币一个变量钳的不同观开测值;而贼每一行则略称为一个香观测值,值它是个由产数量值和侦属性值组挽成的向量茧,每一个胞值相应于招一个变量跪。思考1.从举出一些减观测数据翁和试验数体据的例子疏。2.诊举出简单痰随机样本涉的例子。3.腔根据两你的经乡丰验,举状出总体蝴和样本饥的一些启具体例去子。4.没举出调查般抽样时可埋能发生的揭各种影响受调查结果石的问题,所并且提出丧你认为可超以减少或搂避免这些炼问题的建僻议。5.仅根据你的哪直觉,本挠章提到的赏几种抽样雾方法的优认缺点是什歪么?原因适何在?6.讲举出庸一些书顷报上发币表的数著据例子旷,并指尘出那些厌是变量镜,哪些急是观测已值。数据的保描述如同给功人画像劈燕一样直方图比如某个扁地区(地恳区1)学怕校高三男酷生的身高也;有16焦3个度量阅如何用图坐形来表示亦这个数据朵,使人们啄能够看出主这个数据矩的大体分定布或“形火状”呢?琴一个办法调就是画一庙个直方图脆(his废togr时am)。盒型图比直方图军简单一些卷的是盒形良图(bo班xplo临t,又称诞箱图、箱孩线图、盒坏子图)。黄后面图的爽左边一个疗是根据地杏区1高三罚男生的身桐高数据所纸绘的盒形应图;其右毒边的图代岩表另一个宣地区(地平区2)的撕高三学生孙的身高茎叶图地区1高袜三男生身若高数据的键茎叶图HEIG嗓HTS尘tem-败and-盾Leaf换Plo喝tFreq愉uenc益y箱Ste黄m&据Lea脚f9.0牧0畅1仆5.太0粉012骑233张4417.锐00只15得.棍556株666回677输788奏999懒9920.倒00绒16婚.恳011糊122足222踩233版333山334贱4435.0泄0麻16.露55骗5556净6666好6667攻7777缘瑞8888患8888移8889尿9999来925.0芳0坑17.忠00冠0000傍0011估1122洁2223涌3333页34424.0饱0习17.弱55亦5666饶6777唐7777劲7777耻8888蜜9913.上00累18唯.遮011此111献112喜233仓311.皆00烘18鼻.任556躬677颈888摘994.0你0资1艰9.讽2茎3332.0留0内1膜9.驴5众63.0患0E羽xtr轨eme说s滚(按>=1周98)Ste使mw椅idt闯h:本10克.00Eac纱hl龟eaf密:六1映ca治se(捉s)散点图往往人伙们得到梦的数据茎有两个耕变量的娇,比如转美国男存士和女搬士初婚再年限的员数据。征该数据遗描述了粱自190亚0年到1998年男女竖第一次饭结婚延绣续的时杠间的中今位数。美当然,决不可能薄将所有收人的婚弄姻年限弟都给出惰来。所趣以,每序年就取匹了一个怒中间的捏值(中位数)作为代表掩。自1900到196习0年是每摘十年一逢个值,漆以后到199跟0是每五年锄取一个数住,1995年以后是茅每年一个待数。这里急的一个变窝量为记录罗年份,另克一个是结添婚时间长挖短。由于比分男士和播女士,因沟此有两二摇维数据。启这时可以竟以一个变赢量为横坐熄标(如年枯份),另锦一个为纵困坐标(这电里是结婚零年限)来要点图。这断种图称为柏散点图(scat宾ter驰plot)。还边可以看斧出在二自十世纪支六十年屋代婚姻弦年限降膀低,而省后来又另升高。醒而男子放的年限浑平均比聚女性长晓。这个赶图是用SPSS画的。定性变量胸的点图定性变量疼(或属性犯变量,分叔类变量)揭不能点出河直方图、饼散点图或底茎叶图,蛋但可以描没绘出它们夺各类的比脾例。下面刚用SPS义S绘的图表英示了说世份界各种主它要语言的壶人数的比弦例饼图条形图汇总统困计量或概括统计快量(sum仿mary善sta控tist逆ic)汇总统计蛛量(位置充)均值(m砖ean)中位数厕(me菜dia见n)(第一匀,第三拢)四分摄位数(梢点)(firs连tqu奴anti毛le,惹thir漂dqu搅anti虾le)k-百躬分位数芹(k-傅per扰cen刘til谈e)众数(愤mod能e)汇总统及计量(俩尺度)(sc硬ale泰st御ati岂sti遮c)极差(跃ran写ge)四分位间煎距(四分炭位极差)(int顶erqu少anti京ler骡ange弓)标准差(sta搬ndar忌dde扑viat绪ion)方差(var粘ianc追e)两个尺厉度不同资的数据渣的直方孤图,左炭边的标总准差大丹约只有惧右边的掀一半数据的标茅准得分(sta灰ndar谱dsc慎ore)两个水平壶类似的班隙级(一班覆和二班)况上同一门透课,但是叨由于两个挑任课老师披的评分标让准不同,卖使得两个斥班成绩的摆均值和标躁准差都不疫一样(数假据:gr医ade.纹sav)灿。一班分酒数的均值养和标准差种分别为7顾8.53脾和9.4按3,而二票班的均值角和标准差滥分别为7谈0.19哥和7.0凝0。那么稼得到90泄分的一班链的张颖是讯不是比得柔到82分塑的二班的斤刘疏成绩禾更好呢?障怎么比较恭才能合理袋呢?虽然亲这种均值陡和标准差良不同的数搬据不能够蔽直接比较侵,但是可咱以把它们讯进行标准升化,然后蛋再比较标等准化后的针数据。一锦个标准化哑的方法是紧把原始观签测值(亦样称得分,尝scor食e)和均总值之差除祝以标准差判;得到的习度量称为奏标准得分急(sta列ndar胃dsc潜ore)艰。思考1.份根据闯你的经挎验,给寄出定性立和定量蚊变量的芬例子。2.僵对于问题嫌1中你的穴例子,试胃图画出各躲种描述性姨图形并计劣算汇总统洗计量。3.住举例说明血众数、中佳位数和均险值的优缺撒点。4.兔举例说明熟尺度统计驻量说明了丘数据的什悲么特性。5.案标准得久分实际右上是对哨原始数板据的一虚种标准蒸化。试串举出标篮准得分山的用处家。统计推断从数据宵得到对径现实世芦界的结豆论的过盏程估计总体它惰代表我块们所关寨心的那瞎部分现哑实世界途。而在堵利用样进本中的戒信息来化对总体帮进行推纤断之前丧人们一士般对代闹表总体三的变量去假定了弱分布族屠。比如可假定人续们的身夹高属于技正态分竭布族;葛对抽样决调查假帝定了二兵项分布炒族等等贡。这些依模型基中本上是戚根据经开验来假犬定的,类所以仅枝仅是对毙现实世辛界的一眼个近似尖。在假阀定了总积体分布叔族之后年,进一邻步对总杯体的认究识就是准要在这混个分布薄族中选程择一个盏适合于淹我们问榴题的分息布;由粥于分布殿族成员兵是由参荒数确定晒的,如竹果参数睡能够估敌计,对婶总体的猜具体分劝布就知筋道得差周不多了匀。估计一种是点软估计(p症oint继est慈imat肥ion)绢,也就是还用估计量啄的实现值挂来近似相隔应的总体废参数。另一种披是区间枣估计(挠int锈erv稼al糠est尖ima低tio缘瑞n);拾它是包鹅括估计米量在内赔(有时探是以估阴计量为沾中心)辰的一个幅区间;腔该区间保被认为疤很可能料包含总桶体参数之。点估计给郊出一个数滩字,用起修来很方便徒;而区间浊估计给出绞一个区间袄,说起来啊留有余地跟;不象点桨估计那么忙绝对。无偏估计景(大样本扎性质)区间估防计的置怖信度(屋大样本桥性质)估计注意置法信区间残的论述叫是由区恩间和置吧信度两崖部分组姥成。有泰些新闻楚媒体报巡寿道一些垃调查结倒果只给险出百分然比和误假差(即弓置信区艰间),烘并不说翁明置信励度,也肠不给出辉被调查哲的人数因,这是丙不负责泊的表现煤。因为滔降低置梳信度可顿以使置华信区间慌变窄(巨显得“水精确”盾),有拐误导读汁者之嫌愁。如果储给出被束调查的星人数,验则内行虚可以由肆推算出抛置信度扔(由后鼓面给出肥的公式量),反金之亦然件。一个描盯述性例检子一个有1钞0000壮个人回答坡的调查显吼示,同意然某种观点恐的人的比叮例为70盘%(有7局000人盯同意),湖可以算出呀总体中同忍意该观点播的比例的段95%置芒信区间为快(0.6科91,0中.709欢);另一霉个调查声招称有70敞%的比例末反对该种罢观点,还杜说总体中选反对该观草点的置信疾区间也是俊(0.6项91,0藏.709张)。到底辨相信谁呢滴?实际上枯,第二个植调查隐瞒突了置信度丹(等价于课隐瞒了样冶本量)。饼如果第二饱个调查仅销仅调查了怜50个人瓦,有35罚个人反对消该观点。渐根据后面箩的公式可次以算出,莫第二个调披查的置信弟区间的置宅信度仅有缴11%。假设检拘验在假设检歇验中,一舞般要设立渡一个原假沟设;而设通立该假设榜的动机主梁要是企图刚利用人们旧掌握的反捕映现实世附界的数据这来找出假椒设和现实腥的矛盾,表从而否定笛这个假设干。在多数范统计教科泰书中(除进了理论探含讨之外)萍的假设检辆验都是以巩否定原假南设为目标邮。如果否定耗不了,那庄就说明证沉据不足,冲无法否定淘原假设。耗但这不能算说明原假远设正确。红很多教科拥书在这个萍问题上不玻适当地用沃“接受原踪蝶假设”的历说法,犯祥了明显的巡寿低级逻辑恰错误。假设检呢验的过除程和逻经辑首先要提稀出一个原残假设,比岸如某正态橡总体的均充值等于5鸟(m=5)。指这种原假稠设也称为龙零假设(辱null芦hyp市othe庸sis)泽,记为H0。与此同炕时必须猛提出对郑立假设释,比如羞总体均戚值大于枪5(m>5)仿。对立侮假设又谈称为备鹊选假设蛮或备择况假设(们alt圈ern妖ati晴ve傍hyp稻oth角esi条s)记虹为记为期H1或Ha。假设检验冠的过程和孝逻辑根据零假缸设(不是折备选假粱设!)挑,我们皮可以得糕到该检救验统计全量的分纪布;然后再看拆这个统计那量的数据支实现值(宇real饥izat占ion)奴属不属于惯小概率事食件。也就因是说把数讨据代入检略验统计量派,看其值帝是否落入亦零假设下牌的小概率弟范畴;如果的冲确是小赢概率事股件,那而么我们异就有可槐能拒绝县零假设骂,否则幻玉我们说藏没有足胸够证据工拒绝零叙假设。假设检醉验的过币程和逻勒辑注意:零假设计和备选泡假设在授假设检尾验中并厨不对称。因检谢验统计梨量的分抹布是从帐零假设缴导出的苗,因此捆,如果帮发生矛辞盾,当仍然就对弹零假设迟不利了万。不发生矛警盾也不说姿明备选假跃设有问题妄(因为和校备选假设具无关)。假设检验堡的过程和或逻辑检验统蹈计量在电零假设扰下等于欲这个样素本的数瓶据实现族值或更指加极端筑值的概烟率称为p-值(p厨-val犬ue)。显然得到睡很小p-值意味蚂着小概率防事件发生烘了。如果决小概率事朽件发生,良是相信零米假设,还吸是相信数集据呢?当然是相候信数据。禾于是就拒馆绝零假设织。但小概器率并不能锦说明不会宰发生,仅河仅发生的林概率很小棍罢了。拒绝正确记零假设的线错误常被控称为第一放类错误(鬼type雅Ie秋rror筋)。假设检验咐的过程和蒸逻辑有第一闯类错误捞,就有妥第二类燥错误;个那是备腊选零假王设正确里时反而宇说零假自设正确酷的错误吴,称为惭第二类老错误(域typ默eI脱Ie局rro革r)。零假设绘和备选沟假设哪扫一个正盒确,这相是确定灾性的,栽没有概括率可言极。而可能犯府错误的是烘人。涉及选假设检验扣的犯错误据的概率就罢是犯第一挽类错误的蹦概率和犯赔第二类错清误的概率刊。负责的态廉度是无论骄做出什么鸽决策,都怕应该给出支犯错误的戴概率。假设检验各的过程和毁逻辑到底p-值是吨多小才迅能够拒蚊绝零假忆设呢?搅也就是陶说,需饶要有什仔么是小属概率的责标准。团这要看往具体应充用的需胶要。但欲在一般害的统计甩书和软栗件中,乡丰使用最盖多的标昏准是在梅零假设够下(或汁零假设算正确时费)抽样倒所得的单数据拒稀绝零假炕设的概跪率应小突于0.宽05(暑也可能英是0.爬01,划0.0初05,泄0.0碑01等条等)。正这种事批先规定号的概率抄称为显盒著性水液平(s桶ign贺ifi适can恳ce长lev伯el)未,用字骗母a来表示善。当p-值小于叔或等于a时,就拒询绝零假设缎。所以,a是所允许亭的犯第一完类错误概蜘率的最大望值。当p-值小于或针等于a时,我傅们说这载个检验底是显著困的(s千ign剧ifi西can佩t)。假设检勿验的过届程和逻剖辑归纳起来戚,假设检供验的逻辑厦步骤为:第一,伴写出零并假设和惭备选假不设;第二,确趣定检验统会计量;第三,确免定显著性营水平a;第四,乓根据数苏据计算座检验统增计量的白实现值思;第五,榴根据这续个实现缸值计算p-值;第六,诸进行判锋断:如熄果p-值小于旗或等于疑a,就希拒绝零祥假设,酬这时犯扫错误的泻概率最舱多为a北;如果p-值大于狮a,就栗不拒绝骄零假设难,因为熟证据不桐足。假设检汗验的过伪程和逻醒辑实际上变,计算亡机软件菊仅仅给次出p-值,而无不给出a。这有很眯多方便之水处。比

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论