版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第七章 抽樣與抽樣分配.所謂的抽樣,是指從一個母體中抽出一組樣本,利用此樣本來推估母體特性的一種方法或程序,而我們所抽出的樣天性否能夠具體的代表整個母體,與我們所运用的抽樣方法有關。普通而言,抽樣的方法可以分為兩種,一種是隨機抽樣,另一種則是非隨機抽樣。由隨機抽樣所抽出的樣本都具有隨機性,亦即每組樣本被抽出的機率皆一样,而且所抽出的樣本是相互獨立的;至於非隨機抽樣則沒有這個特性。在此我們僅介紹隨機抽樣的部分。隨機抽樣所抽出的樣本,稱之為隨機樣本。常見的隨機抽樣方法有簡單隨機抽樣法(Simple Random Sampling)、分層隨機抽樣法(Stratified Random Samplin
2、g)、部落抽樣法(Cluster Sampling)以及系統抽樣法(Systematic Sampling)。.7.1 常見的抽樣方法在這一節中我們所討論的是隨機性的抽樣法,常見的有以下四種:簡單隨機抽樣、分層隨機抽樣、部落抽樣以及系統抽樣,以下便將這四種方法加以說明。.7.1.1 簡單隨機抽樣法設從含有N個元素的母體中,隨機抽取個為一組樣本,而每一個樣本被抽出的機會均一样,此種抽樣的方法,稱之為簡單隨機抽樣法;而按此種方法所抽出的樣本,則稱之為簡單隨機抽樣樣本。在採用此種抽樣方法時,依其抽取的樣本放回或不放回,又可分為抽樣放回(sampling with replacement)與抽樣不放回
3、(sampling without replacement)兩種。這兩者在抽樣的時候,樣本出現的機率並不一样。當我們採取抽樣放回的方式時,每組樣本出現的機率為 ,而當我們採用抽樣不放回的方式時,其每組樣本出現的機率則為 ,然而當母體相當大的時候,兩者均可視為獨立的狀況,也就是說不论樣本放回或是不放回,對於下一次抽取並不會呵斥影響。.7.1.2 分層隨機抽樣法分層隨機抽樣法就是指將整個母體分成假设干個不重疊之部份母體,此部份母體稱之為層,每個層與層之間相互排斥。例如將班上個同學的身高依160公分以下、160170公分、170公分以上三種層次分為三個不同的部份母體,而每個母體的個數分別為、與,然後
4、在每一層中各別抽取一簡單隨機樣本,其樣本數分別為、與。假设將各層的樣本數加總起來,便為總樣本。由上述的例子,我們不難看出層內的變異較小,而層與層之間的變異則較大。然而當我們在採用分層隨機抽樣法時,要如何來決定每一層內究竟要抽出幾個樣本呢?普通而言,最常用的方法是比例配置法,以下便加以說明。.【例7.1】某個研讨機構想要研讨大學教育的問題,於是想要在台灣地區以隨機抽樣法選取1200名大學生作為樣本。倘假设知全省大學各年級之總人數及其學業平均成績的資料如下表所示:試問倘假设以分層比例抽樣法來選取樣本,則各年級應該抽取多少名學生?.解: 首先我們先求出台灣地區大學生之總個數N N=25,000+21
5、,000+18,000+16,000=80,000 令n1,n2,n3與n4分別表示依分層比例抽樣法所應該抽取之大一、大二、大三與大四的學生人數。則根據(7.1)式我們可以求出 因此,倘假设以分層比例抽樣法來選取樣本時,則應該選取大一的 學生375位,大二的學生315位,大三的學生270位以及大四的學 生240位。 .7.1.3 部落抽樣法部落抽樣法是將整個母體依其標準分成假设干個部落(部落內的每個元素彼此間的差異較大,而部落與部落間的差異較小),然後任取數個部落為隨機樣本,而被抽中之部落內的每個元素皆為調查的對象。例如人口調查,以家庭為抽樣單位,被選中的家庭其全部成員皆必須接受調查。採用部落
6、抽樣法的誤差通常較大,然而因為可以就近集中調查,可因此而省下不少的時間與調查費用,故此種抽樣法還是有其可用之處。部落抽樣法與分層抽樣法看似一样,然而實際上,兩者卻有很大的不同之處,茲將這兩種抽樣方法的差異列表如下:.7.1.4 系統抽樣法將母體一切的元素依次陈列,然後將其分成數個間隔,每隔假设干元素抽取一個,此種抽樣方法稱之為系統抽樣法。此種抽樣方法的優點便是在运用時非常方便,只需隨機選取出第一個元素之後,每隔假设干個單位之後再抽取一個元素,以此類推,其餘的樣本元素便能夠決定出來,不断到抽取了所需的樣本個數為止。然而採用此種抽樣方法時,其所运用的資料應該防止有週期性的現象,否則將會造成嚴重的偏
7、向。例如在探討冷氣機平均每月的銷售數量時,倘假设每隔12個月抽取一個元素,則所得到的資料都是同一月份的資料,將無法提供充分的情報,因此在採用此方法時必須加以留意。以下便將此系統抽樣法的步驟加以說明:. (1) 首先先將一切的N個母體元素依序陈列。 (2) 依次將母體劃分為n個相等大小的區間,每一區間內的元素 個數為 假设k為非整數,則取最接近的整數來替代。 (3) 採用簡單隨機的抽樣方法從第一個區間的k個元素中,抽出 一 個元素,作為起始點。 (4) 由起始點算起,每隔 k個單位抽取一個元素,即為樣本元素, 共取n個元素合成一組樣本。 .7.2 抽樣分配統計量乃為樣本內隨機變數的實數值函數,但
8、此實數值函數不包含未知參數。統計量本身亦為一隨機變數並以大寫字母表示,如樣本平均數 ,樣本變異數 ,而以小寫字母表示統計量的計算值或觀察值,如樣本平均數 ,樣本變異數 。舉個例子來說,假假设我們從一母體中隨機抽出一組樣本 ,則像等皆為樣本內隨機變數的實數值函數,但這些實數值函數不包含未知參數,這些皆可稱之為統計量。.但隨機變數 並不是統計量,因包含未知參數 。當我們在作資料分析時,主要的目的便是利用統計量來推估母體的某些數值特徵,這些母體的數值特徵稱為母體參數。普通在統計學上較常运用到的統計量包含有樣本平均數 、樣本變異數 、樣本比例 等。為了要充分地利用樣本統計量來對母體的參數作估計,我們必
9、須對每一種能够的樣本作探討。倘假设我們將一切能够的樣本組合都考慮進去,那麼統計量的機率分配便稱為抽樣分配。.7.2.1 樣本平均數的抽樣分配倘假设我們從一個平均數為 ,標準差為 的母體中,隨機抽出一組樣本 ,那麼樣本平均數 則為樣本平均數的抽樣分配之期望值與變異數如下: 期望值 變異數. .【例7.2】設一個母體,其元素包含1、2、3、4、5共N=5個數值,假设從此一母體中抽出n=2個為一組隨機樣本。倘假设採用抽取後放回的方式,試求樣本平均數的抽樣分配,平均數與變異數。解:首先可以由題意求出母體平均數與母體變異數 母體平均數 母體變異數 .假设從此一無限母體中抽取n=2個為一組隨機樣本,則一切
10、能够的不同樣本組合列表如下: 編號 樣本 編號 樣本 編號 樣本 1 (1,1) 1 11 (3,1) 2 21 (5,1) 3 2 (1,2) 1.5 12 (3,2) 2.5 22 (5,2) 3.5 3 (1,3) 2 13 (3,3) 3 23 (5,3) 4 4 (1,4) 2.5 14 (3,4) 3.5 24 (5,4) 4.5 5 (1,5) 3 15 (3,5) 4 25 (5,5) 5 6 (2,1) 1.5 16 (4,1) 2.5 7 (2,2) 2 17 (4,2) 3 8 (2,3) 2.5 18 (4,3) 3.5 9 (2,4) 3 19 (4,4) 4 10
11、(2,5) 3.5 20 (4,5) 4.5.由上表可知,的能够組合有25種,而每一種組合的機率皆為,所以的抽樣分配為 1 1.5 2 2.5 3 3.5 4 4.5 5從的抽樣分配表中可以計算出的平均數 與變異數. 由以上所得到的結果可知,一切能够組合之樣本平均數的期望值與母體平均數相等( ),而樣本平均數的變異數等於母體變異數除 以n的值( )。而對一切的有限母體且抽出後不放回,运用簡單隨機抽樣,則樣本平均數的抽樣分配之期望值與變異數: 期望值 變異數 (7.4) . 上述定理中是在有限母體且抽出的元素不放回母體中的情況。而式子中 則稱為有限母體校正因子(f.p.c),在此將一些有限母體校
12、正因子的特性加以說明: 1. 由於樣本數 固定,所以當母體數愈大時, 愈接近於1。 2. 假设樣本數與母體數N 的比例相當小時,則可以將之視為無限母 體;普通而言,當 時,便可將有限母體校正因子省略。 3. 當樣本數 接近於母體數N 時,有限母體校正因子便趨近於0,亦即表示 也將趨近於0。 .普通來說,當我們在考慮樣本平均數 之抽樣分配的型態時,樣本大小以及母體本身的分配型態都會影響此統計量之抽樣分配。當這些要素處於不同的情況之下,則 的抽樣分配將會有所差異,以下便加以探討在不同的特性要素下, 抽樣分配所呈現的各種型態。.自常態分配母體中抽樣時: .自非常態分配母體中抽樣時: .【例7.4】
13、一個常態分配母體其平均數 80而變異數 16,假设從此一母體中隨機抽取出樣本大小為100的隨機樣本,其樣本平均數用來估計母體平均數。試求之期望值 與標準差為何?並且說明的抽樣分配。解: 由題意我們可以得知,母體平均數 80,母體變異數 16而樣本大小 n =100,且母體本身為常態分配,因此其樣本平均數的期望值與標準差分別為 而之抽樣分配則是平均數為 80,標準差為 0.4 的常態分配。.7.2.2 中央極限定理(Central Limit Theorem;C.L.T)中央極限定理在統計學中相當地重要,該定理是指從一個具有平均數與變異數的母體中抽取樣本數為的一組隨機樣本,其樣本平均數為,則當n
14、趨近無限大時時, 的分配趨近於標準常態分配。因此,當我們不知母體的分配型態,或是母體本身並非常態分配,只需樣本個數夠大,我們均可以將其樣本平均數之抽樣分配視為常態分配,並且我們也可以利用此定理來求有關樣本平均數的某些機率。.【例7.6】 一個在全省各地開了三千家分店的大企業,想要抽樣估計去年每家分店發生物品損壞的平均損失金額。假設母體平均數 元,而母體標準差 元,試求(a)倘假设抽取n=100家分店當成隨機樣本,則樣本平均數與母體平均數之差在60元以內的機率是多少?(b)倘假设將抽取的分店家數添加到n=256家,則樣本平均數與母體平均數之差在60元以內的機率又是多少?解: 由題意可以得知,母體
15、平均數 與標準差 分別為與,令 X 代表該企業的去年的損失金額,則 XN(1630 , )。 . (a) 由於母體總數N=3000,而樣本數n=100,這兩者的比例相當小,因此在求 時,可以將有限母體校正因子省略不計,因此我們可以求得 由此可知,樣本平均數 的抽樣分配為 N(1630 , ),而所欲求的機率為: . 由以上的結果,我們有約 87的自信心,斷定的誤差不會超過60元。 (b) 倘假设將樣本數添加到n=256時,其 依然等於母體平均數 ,而樣本平均數 的標準差則為 此時樣本平均數 的抽樣分配為 N(1630 , ),而所欲求的 機率為: . 當樣本數添加到256家分店時,其估計誤差不
16、超過60元的機率也添加到了98,由此我們可以得到一個結論:當樣本數愈大時,估計值將愈精確,其樣本平均數 愈趨近於母體的平均數。 .7.3 樣本比例的抽樣分配在7.2節中我們談到了樣本平均數的抽樣分配,這一節我們將討論另一種重要的樣本統計量,樣本比例(proportion)的抽樣分配。樣本比例在統計學上應用也相當廣泛,他可用來推估某種特性(如性別,不良品,胜利)在整個母體中所佔的比例,其定義如下:.上面的(7.5)式中,Y代表不良品,胜利或某種特性之觀測值所發生的次數,例如胜利的次數或者男性的人數等,而 n則表示樣本的大小,此時Y的機率分配,則相當於前面章節中所討論到的二項分配。假假设母體為有限
17、母體且抽樣放回,母體比例為 p的情況下,樣本比例 的抽樣分配之期望值 (7.6) 變異數 (7.7). 在此,我們將上面的(7.6)式與(7.7)式證明如下: 上面所討論的是有限母體且抽樣放回的情況,倘假设此時的母體為有限母體且抽出後不放回的抽樣方式時,抽取 n 個樣本,則樣本比例 的抽樣分配之期望值與變異數分別如下: 期望值 變異數 (7.8) . 我們曾經在之前討論二項分配時提過,當樣本數足夠大的時候,二項分配可以用常態分配來近似,而普通來說,當 以及 這兩個條件皆成立時,都可將其視為大樣本的情況,亦即可用常態分配來處理二項分配的問題。而當我們在探討樣本比例的抽樣 分配時,假设樣本數夠大,
18、則有限母體校正因子(f.p.c)可以省略,因此根據中央極限定理,在大樣本的情況下, 的抽樣分配近似於一個平均數等於 ,標準差為 的常態分配。 亦即當 且 時, 的分配近似於常態分配 (7.9).【例7.8】.解:.7.4 與常態分配有關之三種抽樣分配 常態分配在統計學的應用非常地廣泛,然而,除了常態分配之外, 另外還有三種相當重要的抽樣分配:卡方分配、t分配、F分配。我們將在下面的各小節中分別一一加以介紹。.7.4.1 卡方分配上面的(7.10)式表示卡方分配的機率密度函數。卡方分配是由“標準常態平方和所組成的分配,它主要是用來作適合度檢定,亦即檢定資料能否符合某種分配,有時也用來求母體變異數
19、的信賴區間與檢定單一母體的變異數。至於卡方分配的圖形,則如以下圖7.2所示。卡方分配為右偏的分配曲線,我們由圖中可以看出,當自在度r越大時,其卡方分配所呈現的圖形會愈趨近於常態分配。 .卡方分配的性質: 1.卡方分配之加法性:設X與Y皆為相互獨立之卡方分配,其自在度 各為 及 ,假设一統計量 ,則Z為自在度 的卡方 分配。 2.假设隨機變數X為具有自在度為r的卡方分配,則 (1)期望值 (2)變異數 . 3.卡方分配是右偏的分配曲線,隨著自在度的添加,其變異數也會跟著 增大。.4. ,其中r表示其自在度,此機率代表 點 的右尾面積為 。舉個例子來說, 表示自在度為 10之卡方分配的數值,比15
20、.987大的機率為10%,而比15.987小 的機率則為90%。 .【例7.10】利用卡方分配表求出以下的卡方值:(a) 自在度=15 , (b) 自在度=28 , (c) 自在度= 5 , 求使得 的卡方值。.解: (a) 從後面附錄的卡方分配表中,我們可以看出 因此我們可以得到 .(b) 同(a)小題的查表方法,我們亦可得到 亦即表示說 的機率為0.01(c) 由題意得知,此卡方分配的自在度為5。因為所以 查卡方分配表中, 以及所 對應的卡方值 因此便可以求出 使得的卡方值為12.8325。 .【例7.11】 由一個平均數 未知,而變異數 的常態分配母體中抽出一組樣本數 為20的隨機樣本,
21、試求: (a) 其樣本變異數 會超過27.67的機率為多少? (b) 其樣本變異數 會介於8.52與25.384之間的機率為多少?.解: (a) 由題意可知母體的變異數 ,樣本數n =20 ,由定理7.4.5可知 ,則樣本變異數 超過27.67的 機率為 我們由卡方分配表中可以看出,當自在度d.f.=19,而 時 ,其卡方值 ,因此我們可以求出 = 0.025故樣本變異數超過27.67的機率為0.025。 . (b) 樣本變異數 會介於8.52與25.384之間的機率為 我們由卡方分配表中可以看出,其卡方值 , 因此我們可以求出 = =0.95-0.05=0.9 故我們可以求出樣本變異數 會介於8.52與25.384之間的機率為0.9。 .7.4.2 t分配上面的(7.13)式表示分配的機率密度函數,而此分配的平均數與變異數分別表示如下:; ,r為自在度且 。.分配的性質:.【例7.12】.解: .【例7.13】 假設X表示某國中之男生的體重,知其分配為平均數 ,而標準差 未知的常態分配,亦即XN(63 , )。倘假设今從此班級中隨機抽出n =16位男學生當成樣本,其樣本標準差 =3
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 企业竞争图谱:2024年工业电机 头豹词条报告系列
- 2025年《书·法》民法典作品专题讲座与研讨会合作协议2篇
- 2024年09月广东2024年中信银行广州分行校园招考笔试历年参考题库附带答案详解
- 2024年09月山东2024年中国银行山东省分行校园招考笔试历年参考题库附带答案详解
- 2024年09月安徽2024年中国农业发展银行安徽分行校园招考笔试历年参考题库附带答案详解
- 2024年09月全国2024年浙江民泰商业银行秋季校园招考笔试历年参考题库附带答案详解
- 2024年09月2024年中国银行全球校园招考统一考试营业网点类笔试笔试历年参考题库附带答案详解
- 2024年09月2024华夏银行南昌分行校园招聘笔试历年参考题库附带答案详解
- 2024年08月新疆克拉玛依国民村镇银行秋季社会招考笔试历年参考题库附带答案详解
- 2024年08月北京银行乌鲁木齐分行招考公司产品经理笔试历年参考题库附带答案详解
- 2025湖北襄阳市12345政府热线话务员招聘5人高频重点提升(共500题)附带答案详解
- 血细胞分析报告规范化指南2020
- ISO 56001-2024《创新管理体系-要求》专业解读与应用实践指导材料之7:“5领导作用-5.1领导作用和承诺”(雷泽佳编制-2025B0)
- 2024年快速消费品物流配送合同6篇
- 广东省茂名市2024届高三上学期第一次综合测试(一模)历史 含解析
- 神经重症气管切开患者气道功能康复与管理学习与临床应用
- 第5章 一元一次方程大单元整体设计 北师大版(2024)数学七年级上册教学课件
- 人教版高一地理必修一期末试卷
- 辽宁省锦州市(2024年-2025年小学六年级语文)部编版期末考试(上学期)试卷及答案
- 2024年下半年鄂州市城市发展投资控股集团限公司社会招聘【27人】易考易错模拟试题(共500题)试卷后附参考答案
- GB/T 29498-2024木门窗通用技术要求
评论
0/150
提交评论