版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、统计学在考古中的应用,第四讲,总体、样本、样本观察值的关系,总体,样本,样本观察值,?,理论分布,统计是从手中已有的资料样本观察值,去推断总体的情况总体分布。样本是联系两者的桥梁。总体分布决定了样本取值的概率规律,也就是样本取到样本观察值的规律,因而可以用样本观察值去推断总体,17个柱洞组成的总体 样本量 n1 17个不同样本 17.6% n2 153个不同样本 8.5% n=3 969个不同样本 5.3% 样本量越大,样本平均值更集中于总体平均值附近,不具备代表性的样本,它的少见程度(根据特殊数列)能让我们确定,对我们可能从给定总体中可以随机抽取出来的任何给定大小的特定样本,它不具备代表性的
2、概率是多少。,特殊数列,由所有可能的不同样本(样本大小相等)的平均值组成 数学上也能够证明,特殊数列的标准差就是给定总体的标准差再除以样本大小的平方根 。 标准误差就是由从给定总体中能够抽取的给定大小的所有不同样本的平均值组成的数列的标准差。,特殊数列,平均值的抽样分布 第一,特殊数列的平均值和样本抽取总体的平均值一致;第二,特殊数列的标准差,就是标准误差,即。第三,特殊数列符合正态分布,只要样本大小超过30。,样本均值抽样分布与中心极限定理,中心极限定理:设从均值为,方差为2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布,置信度和总
3、体平均值,一个特殊数列的平均值与总体的平均值是一样的;其标准差(也即标准误差)是总体的标准差除以样品数目的平方根。在现实生活中,我们既不知道样品所取自的总体平均值,又不知道其标准差。 没有一个总体和所有可能取自它的样本,相反只有一个样本以及它可能来自的总体。,假设有一个由100件矛头组成的随机样本,它抽取自一个数目更大的总体。我们想要知道的是这个矛头总体的长度平均值。这个随机样本的100个矛头的长度平均值是3.35cm,标准差是0.50cm。 将这些样品(100件矛头)看作是取自那个时期该地区的史前居民制作的所有矛头组成的总体的一个随机样本。,大而模糊的总体被认为是无限总体。这并不是说它们中的
4、个体无限多,只是因为它们非常巨大而且没有准确地限定。,对于大的总体和样本而言,样本平均值与总体平均值常常一样。与之相类似,样本标准差与总体标准差也常常相同。因此,最好的评估是,样本所取自的矛头总体的长度平均值为3.35cm,标准差是0.50cm。 然而,样本的平均值并不总是正好与其总体相同。因此,在作上述估计时,到底应该具有多大的置信度。换种说法:这一估计到底在多大程度上是不正确的?更准确地说,这一估计的错误到了何种程度才至于(对研究结果)造成影响?,已经假定它很可能来源于一个长度平均值为3.35cm(与样本的长度平均值一样)的总体,但并不能保证它一定来自这样一个总体。 样本可能来源于一个长度
5、平均值大于或小于3.35cm、甚至远远大于或小于3.35cm的总体。 可以分别考虑,样本可能取自各种不同的特殊总体:在多大程度上会是这样的(样本来源于平均值大于或小于3.35cm的总体)。对于每一个所能想象到的样本母体,需要考虑到来自这个总体的、由任意100件矛头平均值组成的特殊总体。,想象样本可能来源于一个长度平均值为3.25cm的总体。从一个平均值为3.25cm的总体中取得这样的样本(就是说,平均值为3.35cm,标准偏差为0.50cm的样本)的不寻常性有多大? 那个来自平均值为3.25cm总体、由任意100件矛头平均值组成特殊数列会是什么样的? 这个特殊数列的平均值与总体的平均值一样,也
6、就是3.25cm。这个特殊数列的形状大体上是正态分布,,取自一个平均值为3.25cm、标准差为0.50cm的总体,并由100件样品平均值组成的特殊数列。,平均值为3.35cm的样本确实有可能在平均值为3.25cm的总体的抽样数目为100件的所有可能样本之中,但它们出现的概率不高不如那些平均值更靠近3.25cm的样品出现的频率高。在一个取自平均值为3.25的总体的所有可能样本中,我们的样本极不正常。所以,我们的样本有可能来自一个平均值为3.25cm的总体,但这种可能性不是很大。,样本来源于平均值为3.20cm总体的可能性有多大?图9.3示意了一个选自平均值为3.25cm,标准差为0.50cm的总
7、体、由任意(所有可能性)100件样品的平均值组成的特殊数列。,样本来源于平均值为3.30cm总体的可能性有多大?图9.4示意了一个选自平均值为3.30,标准差为0.50cm的总体、由任意(所有可能性)100件样品的平均值组成的特殊总体。在图9.4所示的正态曲线上,与我们的样本相对应的位置水平相当高。因而平均值为3.35cm的样本选自平均值为3.30cm的总体的可能性很大。,图9.5代表由选自平均值为3.35cm、标准差为0.50cm的100件所有可能性样本组成的特殊数列。于是,它代表各种可能取自这种总体的样本不寻常性,因而也就是从这个总体中选取它们任何一个的可能性。,可以设想继续把这个方法应用
8、到更多的可能性母体,用这些试验结果来构建一个新的曲线。这个新的曲线将会表明每一个可能的母体是我们的样本来源的可能性有多大。其结果是,如果实施这样的程序,我们建立的曲线将会有一个与图9.5所示意的曲线具备完全相同的参数。,另一方面,图9.6所示的曲线代表了平均值为3.35cm、标准偏差为0.50cm的100件样品所来自的可能性总体的概率,因而也就是这个样本取自它们中任何特定一个的可能性。,置信度与精确度,样本的可能来源的大量总体(都有一个介于3.30cm和3.40cm的平均值)的平均值都介于3.30cm和3.40cm之间。(这些总体的平均值落在我们样本平均值的正负1个标准误差的范围之内)。,谨慎
9、地认为,我们的样本可能来自平均值在3.30和3.40cm之间的总体。我们这样说,是因为在所有可能的总体中平均值小于3.30cm和大于3.40cm的总体的数量仍然是很多的。,我们的样本很可能来自一个平均值为3.350.10cm,只有极少数的可能性总体的平均值小于3.20cm或大于3.50cm。那么,从一个平均值小于3.20cm或大于3.50cm的总体选择一个由100件样品组成、平均值为3.35cm、标准偏差为0.50cm的样本的就是极不寻常的(概率极低)。 我们的样本来自一个平均值为3.350.15cm的总体的可能性非常大,很可能说“我将于4点到”。虽然守时的习俗不同,但我不大可能说,我会在4点
10、前5分钟内到达,除非我感觉有非常大的自信。如果我的到达取决于途中的交通状况如何,我更可能说“我会在4点左右到达”,这是一个精确度较低的陈述,表明我有可能或早或晚10至15分钟到达。如果预想到可能碰到更难估计的阻力,我可能说“我将大概在4点左右到那儿,”暗示一个更低的精确性,也许在3:30和4:30之间。,students t检验,小样本,左边的一列代表自由度,它们等于样本中所有个体的数目减去1(n-1)。 这意味着我们样本所取自的可能性总体有95(图9.7“正态曲线以下”的阴影区域所代表的)落在样本平均值的1.98个标准误差之内。因此,当我们说“很可能”样本来源于一个平均值为3.35cm0.1
11、0cm时,我们的意思-更确切地说,是来自这样一个总体的可能性为95。我们有95的自信说我们的样本取自一个平均值为3.35cm0.10cm的总体。我们并不完全肯定我们的样本来源于一个平均值为3.35cm0.10cm的总体,但情况就是那样的可能性是95。,正态分布的3法则,68.3% 295.5% 399.7%,特定置信水平,推断确定当样本中个体数目是100时,与90置信度对应的标准误差是多少。因为n =100,d.f.=99,所以我们用120 d.f.所在的那一行。在90置信度一列的数值是1.658,这意味着对这样大的一个样本来说,1.658个标准误差的误差范围对应的置信度是90。从而,我们将标
12、准误差(0.05cm)乘以1.658,得到一个0.08cm的误差范围。我们于是说:我们有90的置信度说我们的样本来自一个平均值为3.350.08cm的总体。如果我们的样品由12件而不是100件矛头组成,我们就得用表9.1中的11 d.f.所在的那一行,(相应地)需要用1.796个标准误差的误差范围。以这个方法把误差范围校准到一定的置信水平可以消除任何因样本大小不同所引起的可能混乱,有限总体,如果我们利用一个100件矛头样本对其所代表的总数目为120件的总体的长度平均值作推算时,我们的推论结果的不确定性比起用同样大的样本对一个实质上无限总体的长度平均值进行的推论会更小。至少在这个案例中,普通感觉
13、判断为真时,在数学上也是正确的。任何时候只要总体是有限的,我们就可以把有限总体校正系数代入下面的标准误差等式中:,案例,设想在一个村庄遗址发掘现场的一个特定房子内发现了53个碗口沿残片,我们从中随机选取25个。我们希望以这25个残片的测量值为依据来推算数目为53个的碗口沿残片总体的平均直径,并且我们希望在95的置信水平上作出一个判断。,平均值14.79cm 样本的标准差是3.21cm 0.47cm 95置信度 t值2.064 2.064*0.47cm= 0.97cm 14.790.97cm,需要多大样本?,确定我们希望表述时所有的置信水平和可以接受的误差范围,然后确定需要多大的样本来达到这个目
14、标。 在95的置信水平上对一个遗址中的陶片厚度进行估计,误差范围不超过0.5毫米。经过对该地区的几个遗址上收集的陶片厚度的测量,我们发现陶片样本的标准差大约在0.9毫米。,n=0.9mm1.960/0.5mm2 =(1.764mm/0.5mm)2 =3.5282 =12.447,带回一个13件的陶片样本,其平均厚度为7.3毫米,标准差为0.9毫米 对数量大小为13件的样本,在12 d.f和95置信度时,t为2.179 残陶片的平均厚度是7.30.5毫米,截尾,修正平均值的估计能带来双倍的回报它对数列中心而言是一个更灵敏的指数,而且对平均值估计的误差范围也小得多。,类型数列与总体比例,在样本的基
15、础上,对总体比例进行估计,与根据样本平均值来估计总体平均值非常相似。 由100个矛头组成的样本,我们要分析一下矛头的制作原材料。经检测,其中有13个是由黑曜石制作。由于样本中矛头的总数目是100个,那由黑曜石做成的矛头所占的比例就是13/100或13.0%。 一个样本可能会与作为其来源的总体有一个不同的平均值;同样,一个样本中,由黑曜石制成的矛头的比例是13.0%,而样本选取的总体中,黑曜石矛头的比例却不是13.0%,这种情况也是可能的。因此,我们就想把误差范围和置信区间也引入到对样本及总体比例的估计中去,就像总体平均值一样。,标准差 S0.3363 13.0%3.4% 在置信度为95%的水平
16、上,我们就可以估计:在样本抽取的总体中,黑曜石矛头所占比例为13.06.7%(即在6.3%-19.7%之间)。这就意味着,在一个黑曜石矛头所占比例小于5.3%或大于19.7%的总体中,抽出一个象我们这样的样本(即:有100个矛头,其中有13.0%是由黑曜石制成的)的概率只有5%。,假设我们对一个村落遗址进行全面发掘。这个村落曾经有人居住的时期相对较短。我们在其中确定了24个房屋基址。在这24个房屋基址中,有17个保存的程度较好,可以确定其入口的位置。在这17个房屋中,有6个房屋的入口是朝南开的。经过对偏差所有可能来源进行一一慎重考虑,我们决定将最初建立在遗址上的24所房屋作为一个总体,把其中保
17、存较好的这17所房屋作为一个随机样本。于是我们可以估计,在这个遗址上的房屋中,有6/17(即35.3%)的入口是面向南的。,SE= 0.0625 想达到90%的置信水平,用这个标准误差乘上1.746(根据表9.1.,置信度为90%和16d.f.时的t=1.746)得到0.1091,由此我们就可以断定:在此遗址上的24座房屋中,有35.310.9%(即24.4%-46.2%)的房屋的开口朝南。因为这是一个有限总体,我们可以将其估计的比例(以及其后的误差范围)转换成房屋的数目。将总体中房屋的数目(24)乘上误差范围的最低值(24.4%),得5.9座房屋;乘上最高值(46.2%),得11座房屋。于是
18、我们就可以说:在置信度为90%的水平上,这个遗址上的房屋中,有611座的开口是朝南的。,在这个案例中,所抽取的样本以及从中抽取这个样本的总体太小了,以至于这些统计结果并无多大的实际意义;因为毕竟我们已经知道,在这个遗址上有6座房屋的开口是朝南的:就是在这个样本中已知开口朝南的房屋有6座。我们还知道,不可能有多于13座的房屋的开口朝南,因为只有7座房屋的开口没有记录。如果这7座房子的开口均朝南的话,那加上前面的6座就是13座。倘若我们早已知道开口朝南的房屋的数目在613之间的话,那我们还说“在置信度90%的水平上,这个遗址上开口朝南的房子的数目是611座”这样的话又意义何在呢?但无论如何,我们已经意识到,这个样本小得无法让我们在很高的置信水平上,对整个总体做出一些精确的判断。即使这是一个抽样比例达到71%的样本(17/24=71%),但要为了揭示一些我们所想知道的事情的话,这个样本还是显得太小了。在统计术语中,不论其在总体中所占的比例如何大,一个由17个样品组成的样本确实是一个非常小的样本。假如我们处理这样一个小样本的话,就会有一个很大的问题:无论我们得出的比例是多少,都有可能与总体中的比例不同。不管我们通过这个样本对其总体做出怎样的结论,它都不会是很精确或确定的,即使这些结论是我们对整个总体所能做
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度槽棎施工合同服务内容详细规定
- 2024年度场地租赁合同标的为运动场馆的租赁权
- 2024年度卞蓓离婚后医疗保险权益处理合同
- 中医的治疗方法英语
- 2024年度建筑工程设计专利许可合同
- 2024年度大豆市场分析与预测报告合同
- 2024年度珠宝首饰代售合同
- 2024年度婚礼音乐表演服务合同
- 2024年度云服务合同的服务提供商责任
- 2024年度北京汽车租赁公司新能源汽车保险合同
- DB3205-T 1126-2024非物质文化遗产档案建设与管理规范
- 2024年天然气管道维护与输送合同
- 【人教】第三次月考卷01【U1-U9】
- 2024-2030年中国汽车凸轮轴行业需求状况及未来发展策略研究报告版
- 24.2.1 点和圆的位置关系 课件 2024-2025学年人教版数学九年级
- 天津市红桥区2024-2025学年八年级上学期期中英语试题(带答案)
- 2024-2025年全国《保安员》岗位工作职责资格知识考试题库与答案
- 2024年企业合并协议与合同
- 学生自主管理班级制度
- 天津市2024-2025学年高一上学期11月期中考试 化学试题(无答案)
- 2024年居间服务合同:新能源项目开发与合作
评论
0/150
提交评论