已阅读5页,还剩73页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第七章 抽樣與抽樣分配,所謂的抽樣,是指從一個母體中抽出一組樣本,利用此樣本來推估 母體特性的一種方法或程序,而我們所抽出的樣本是否能夠具體的 代表整個母體,與我們所使用的抽樣方法有關。一般而言,抽樣的 方法可以分為兩種,一種是隨機抽樣,另一種則是非隨機抽樣。由 隨機抽樣所抽出的樣本都具有隨機性,亦即每組樣本被抽出的機率 皆相同,而且所抽出的樣本是互相獨立的;至於非隨機抽樣則沒有 這個特性。在此我們僅介紹隨機抽樣的部分。 隨機抽樣所抽出的樣本,稱之為隨機樣本。常見的隨機抽樣方法有 簡單隨機抽樣法(Simple Random Sampling)、分層隨機抽樣法 (Stratified Random Sampling)、部落抽樣法(Cluster Sampling)以及 系統抽樣法(Systematic Sampling)。,7.1 常見的抽樣方法,在這一節中我們所討論的是隨機性的抽樣法,常見的有以下四種: 簡單隨機抽樣、分層隨機抽樣、部落抽樣以及系統抽樣,以下便將 這四種方法加以說明。,7.1.1 簡單隨機抽樣法,設從含有N個元素的母體中,隨機抽取個為一組樣本,而每一個樣本 被抽出的機會均相同,此種抽樣的方法,稱之為簡單隨機抽樣法; 而按此種方法所抽出的樣本,則稱之為簡單隨機抽樣樣本。在採用 此種抽樣方法時,依其抽取的樣本放回或不放回,又可分為抽樣放 回(sampling with replacement)與抽樣不放回(sampling without replacement)兩種。這兩者在抽樣的時候,樣本出現的機率並不相同。 當我們採取抽樣放回的方式時,每組樣本出現的機率為 ,而當我們 採用抽樣不放回的方式時,其每組樣本出現的機率則為 ,然而當母 體相當大的時候,兩者均可視為獨立的狀況,也就是說不管樣本放 回或是不放回,對於下一次抽取並不會造成影響。,7.1.2 分層隨機抽樣法,分層隨機抽樣法就是指將整個母體分成若干個不重疊之部份母體, 此部份母體稱之為層,每個層與層之間互相排斥。例如將班上個同 學的身高依160公分以下、160170公分、170公分以上三種層次分 為三個不同的部份母體,而每個母體的個數分別為、與,然後在每 一層中各別抽取一簡單隨機樣本,其樣本數分別為、與。若將各層 的樣本數加總起來,便為總樣本。由上述的例子,我們不難看出層 內的變異較小,而層與層之間的變異則較大。然而當我們在採用分 層隨機抽樣法時,要如何來決定每一層內到底要抽出幾個樣本呢? 一般而言,最常用的方法是比例配置法,以下便加以說明。,【例7.1】,某個研究機構想要研究大學教育的問題,於是想要在台灣地區以隨 機抽樣法選取1200名大學生作為樣本。倘若已知全省大學各年級之 總人數及其學業平均成績的資料如下表所示: 試問倘若以分層比例抽樣法來選取樣本,則各年級應該抽取多少名 學生?,解: 首先我們先求出台灣地區大學生之總個數N N=25,000+21,000+18,000+16,000=80,000 令n1,n2,n3與n4分別表示依分層比例抽樣法所應該抽取之大一、大二、大三與大四的學生人數。則根據(7.1)式我們可以求出 因此,倘若以分層比例抽樣法來選取樣本時,則應該選取大一的 學生375位,大二的學生315位,大三的學生270位以及大四的學 生240位。,7.1.3 部落抽樣法,部落抽樣法是將整個母體依其標準分成若干個部落(部落內的每個元 素彼此間的差異較大,而部落與部落間的差異較小),然後任取數個 部落為隨機樣本,而被抽中之部落內的每個元素皆為調查的對象。 例如人口調查,以家庭為抽樣單位,被選中的家庭其全部成員皆必 須接受調查。採用部落抽樣法的誤差通常較大,然而因為可以就近 集中調查,可因此而省下不少的時間與調查費用,故此種抽樣法還 是有其可用之處。部落抽樣法與分層抽樣法看似相同,然而實際上, 兩者卻有很大的不同之處,茲將這兩種抽樣方法的差異列表如下:,7.1.4 系統抽樣法,將母體所有的元素依次排列,然後將其分成數個間隔,每隔若干元 素抽取一個,此種抽樣方法稱之為系統抽樣法。此種抽樣方法的優 點便是在使用時非常方便,只需隨機選取出第一個元素之後,每隔 若干個單位之後再抽取一個元素,以此類推,其餘的樣本元素便能 夠決定出來,一直到抽取了所需的樣本個數為止。然而採用此種抽 樣方法時,其所使用的資料應該避免有週期性的現象,否則將會造 成嚴重的偏差。例如在探討冷氣機平均每月的銷售數量時,倘若每 隔12個月抽取一個元素,則所得到的資料都是同一月份的資料,將 無法提供充分的情報,因此在採用此方法時必須加以注意。以下便 將此系統抽樣法的步驟加以說明:,(1) 首先先將所有的N個母體元素依序排列。 (2) 依次將母體劃分為n個相等大小的區間,每一區間內的元素 個數為 (若k為非整數,則取最接近的整數來代替)。 (3) 採用簡單隨機的抽樣方法從第一個區間的k個元素中,抽出 一 個元素,作為起始點。 (4) 由起始點算起,每隔 k個單位抽取一個元素,即為樣本元素, 共取n個元素合成一組樣本。,7.2 抽樣分配,統計量乃為樣本內隨機變數的實數值函數,但此實數值函數不包含 未知參數。統計量本身亦為一隨機變數並以大寫字母表示,如樣本 平均數 ,樣本變異數 ,而以小寫字母表示統計量的計算值或觀察 值,如樣本平均數 ,樣本變異數 。舉個例子來說,假若我們從一 母體中隨機抽出一組樣本 ,則像 等皆為樣本內隨機變數的實數值函數,但這些實數值函數不包含未 知參數,這些皆可稱之為統計量。,但隨機變數 並不是統計量,因包含未知參數 。當我們在作資料分析 時,主要的目的便是利用統計量來推估母體的某些數值特徵,這些 母體的數值特徵稱為母體參數。一般在統計學上較常使用到的統計 量包含有樣本平均數 、樣本變異數 、樣本比例 等。為了要充分地利 用樣本統計量來對母體的參數作估計,我們必須對每一種可能的樣 本作探討。倘若我們將所有可能的樣本組合都考慮進去,那麼統計 量的機率分配便稱為抽樣分配。,7.2.1 樣本平均數的抽樣分配,倘若我們從一個平均數為 ,標準差為 的母體中,隨機抽出一組 樣本 ,那麼樣本平均數 則為 樣本平均數的抽樣分配之期望值與變異數如下: 期望值 變異數,【例7.2】,設一個母體,其元素包含1、2、3、4、5共N=5個數值,若從此一母體中抽出n=2個為一組隨機樣本。倘若採用抽取後放回的方式,試求樣本平均數的抽樣分配,平均數與變異數。 解: 首先可以由題意求出母體平均數與母體變異數 母體平均數 母體變異數,若從此一無限母體中抽取n=2個為一組隨機樣本,則所有可能的不同樣本組合列表如下: 編號 樣本 編號 樣本 編號 樣本 1 (1,1) 1 11 (3,1) 2 21 (5,1) 3 2 (1,2) 1.5 12 (3,2) 2.5 22 (5,2) 3.5 3 (1,3) 2 13 (3,3) 3 23 (5,3) 4 4 (1,4) 2.5 14 (3,4) 3.5 24 (5,4) 4.5 5 (1,5) 3 15 (3,5) 4 25 (5,5) 5 6 (2,1) 1.5 16 (4,1) 2.5 7 (2,2) 2 17 (4,2) 3 8 (2,3) 2.5 18 (4,3) 3.5 9 (2,4) 3 19 (4,4) 4 10 (2,5) 3.5 20 (4,5) 4.5,由上表可知,的可能組合有25種,而每一種組合的機率皆為,所以的抽樣分配為 1 1.5 2 2.5 3 3.5 4 4.5 5 從的抽樣分配表中可以計算出的平均數 與變異數,由以上所得到的結果可知,所有可能組合之樣本平均數的期望值與母體平均數相等( ),而樣本平均數的變異數等於母體變異數除 以n的值( )。而對所有的有限母體且抽出後不放回,使用簡單隨機抽樣,則樣本平均數的抽樣分配之期望值與變異數: 期望值 變異數 (7.4),上述定理中是在有限母體且抽出的元素不放回母體中的情況。而式子中 則稱為有限母體校正因子(f.p.c),在此將一些有限母體校正因子的特性加以說明: 1. 由於樣本數 固定,所以當母體數愈大時, 愈接近於1。 2. 若樣本數與母體數N 的比例相當小時,則可以將之視為無限母 體;一般而言,當 時,便可將有限母體校正因子省略。 3. 當樣本數 接近於母體數N 時,有限母體校正因子便趨近於0,亦即表示 也將趨近於0。,一般來說,當我們在考慮樣本平均數 之抽樣分配的型態時,樣本 大小以及母體本身的分配型態都會影響此統計量之抽樣分配。當這 些因素處於不同的情況之下,則 的抽樣分配將會有所差異,以下 便加以探討在不同的特性因素下, 抽樣分配所呈現的各種型態。,自常態分配母體中抽樣時:,自非常態分配母體中抽樣時:,【例7.4】,一個常態分配母體其平均數 80而變異數 16,若從此一母體中隨機抽取出樣本大小為100的隨機樣本,其樣本平均數用來估計母體平均數。試求之期望值 與標準差為何?並且說明的抽樣分配。 解: 由題意我們可以得知,母體平均數 80,母體變異數 16而樣本大小 n =100,且母體本身為常態分配,因此其樣本平均數的期望值與標準差分別為 而之抽樣分配則是平均數為 80,標準差為 0.4 的常態分配。,7.2.2 中央極限定理(Central Limit Theorem;C.L.T),中央極限定理在統計學中相當地重要,該定理是指從一個具有平均 數與變異數的母體中抽取樣本數為的一組隨機樣本,其樣本平均數 為,則當n趨近無限大時時, 的分配趨近於標準常態分配。 因此,當我們不知母體的分配型態,或是母體本身並非常態分配, 只要樣本個數夠大,我們均可以將其樣本平均數之抽樣分配視為常 態分配,並且我們也可以利用此定理來求有關樣本平均數的某些機 率。,【例7.6】,一個在全省各地開了三千家分店的大企業,想要抽樣估計去年每家分店發生物品損壞的平均損失金額。假設母體平均數 元,而母體標準差 元,試求(a)倘若抽取n=100家分店當成隨機樣本,則樣本平均數與母體平均數之差在60元以內的機率是多少?(b)倘若將抽取的分店家數增加到n=256家,則樣本平均數與母體平均數之差在60元以內的機率又是多少? 解: 由題意可以得知,母體平均數 與標準差 分別為與,令 X 代表該企業的去年的損失金額,則 XN(1630 , )。,(a) 由於母體總數N=3000,而樣本數n=100,這兩者的比例相當小,因此在求 時,可以將有限母體校正因子省略不計,因此我們可以求得 由此可知,樣本平均數 的抽樣分配為 N(1630 , ),而所欲求的機率為:,由以上的結果,我們有約 87的信心,斷定的誤差不會超過60元。 (b) 倘若將樣本數增加到n=256時,其 依然等於母體平均數 ,而樣本平均數 的標準差則為 此時樣本平均數 的抽樣分配為 N(1630 , ),而所欲求的 機率為:,當樣本數增加到256家分店時,其估計誤差不超過60元的機率也增加到了98,由此我們可以得到一個結論:當樣本數愈大時,估計值將愈精確,其樣本平均數 愈趨近於母體的平均數。,7.3 樣本比例的抽樣分配,在7.2節中我們談到了樣本平均數的抽樣分配,這一節我們將討論另 一種重要的樣本統計量,樣本比例(proportion)的抽樣分配。樣本比 例在統計學上應用也相當廣泛,他可用來推估某種特性(如性別,不 良品,成功)在整個母體中所佔的比例,其定義如下:,上面的(7.5)式中,Y代表不良品,成功或某種特性之觀測值所發生的 次數,例如成功的次數或者男性的人數等,而 n則表示樣本的大小, 此時Y的機率分配,則相當於前面章節中所討論到的二項分配。假若 母體為有限母體且抽樣放回,母體比例為 p的情況下,樣本比例 的抽樣分配之期望值 (7.6) 變異數 (7.7),在此,我們將上面的(7.6)式與(7.7)式證明如下: 上面所討論的是有限母體且抽樣放回的情況,倘若此時的母體為有限母體且抽出後不放回的抽樣方式時,抽取 n 個樣本,則樣本比例 的抽樣分配之期望值與變異數分別如下: 期望值 變異數 (7.8),我們曾經在之前討論二項分配時提過,當樣本數足夠大的時候,二項分配可以用常態分配來近似,而一般來說,當 以及 這兩個條件皆成立時,都可將其視為大樣本的情況,亦即可用常態分配來處理二項分配的問題。而當我們在探討樣本比例的抽樣 分配時,若樣本數夠大,則有限母體校正因子(f.p.c)可以省略,因此根據中央極限定理,在大樣本的情況下, 的抽樣分配近似於一個平均數等於 ,標準差為 的常態分配。 亦即當 且 時, 的分配近似於常態分配 (7.9),【例7.8】,解:,7.4 與常態分配有關之三種抽樣分配,常態分配在統計學的應用非常地廣泛,然而,除了常態分配之外, 另外還有三種相當重要的抽樣分配:卡方分配、t分配、F分配。我們將在下面的各小節中分別一一加以介紹。,7.4.1 卡方分配,上面的(7.10)式表示卡方分配的機率密度函數。卡方分配是由“標準 常態”平方和所組成的分配,它主要是用來作適合度檢定,亦即檢定 資料是否符合某種分配,有時也用來求母體變異數的信賴區間與檢 定單一母體的變異數。至於卡方分配的圖形,則如以下圖7.2所示。 卡方分配為右偏的分配曲線,我們由圖中可以看出,當自由度r越大 時,其卡方分配所呈現的圖形會愈趨近於常態分配。,卡方分配的性質:,1.卡方分配之加法性:設X與Y皆為互相獨立之卡方分配,其自由度 各為 及 ,若一統計量 ,則Z為自由度 的卡方 分配。 2.若隨機變數X為具有自由度為r的卡方分配,則 (1)期望值 (2)變異數 . 3.卡方分配是右偏的分配曲線,隨著自由度的增加,其變異數也會跟著 增大。,4. ,其中r表示其自由度,此機率代表 點 的右尾面積為 。舉個例子來說, 表示自由度為 10之卡方分配的數值,比15.987大的機率為10%,而比15.987小 的機率則為90%。,【例7.10】,利用卡方分配表求出下列的卡方值: (a) 自由度=15 , (b) 自由度=28 , (c) 自由度= 5 , 求使得 的卡方值。,解: (a) 從後面附錄的卡方分配表中,我們可以看出 因此我們可以得到,(b) 同(a)小題的查表方法,我們亦可得到 亦即表示說 的機率為0.01 (c) 由題意得知,此卡方分配的自由度為5。 因為 所以 查卡方分配表中, 以及所 對應的卡方值 因此便可以求出 使得的卡方值為12.8325。,【例7.11】,由一個平均數 未知,而變異數 的常態分配母體中抽出一組樣本數 為20的隨機樣本,試求: (a) 其樣本變異數 會超過27.67的機率為多少? (b) 其樣本變異數 會介於8.52與25.384之間的機率為多少?,解: (a) 由題意可知母體的變異數 ,樣本數n =20 ,由定理7.4.5可知 ,則樣本變異數 超過27.67的 機率為 我們由卡方分配表中可以看出,當自由度d.f.=19,而 時 ,其卡方值 ,因此我們可以求出 = 0.025 故樣本變異數超過27.67的機率為0.025。,(b) 樣本變異數 會介於8.52與25.384之間的機率為 我們由卡方分配表中可以看出,其卡方值 , 因此我們可以求出 = =0.95-0.05=0.9 故我們可以求出樣本變異數 會介於8.52與25.384之間的機率為0.9。,7.4.2 t分配,上面的(7.13)式表示分配的機率密度函數,而此分配的平均數與變 異數分別表示如下: ; ,r為自由度且 。,分配的性質:,【例7.12】,解:,【例7.13】,假設X表示某國中之男生的體重,已知其分配為平均數 ,而標準差 未知的常態分配,亦即XN(63 , )。倘若今從此班級中隨機抽出n =16位男學生當成樣本,其樣本標準差 =3
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 信息论与编码理论基础(第三章)
- 技术创新与研发项目申报管理制度
- 部编版五年级语文下册第七单元各类阅读真题(含小古文、非连续性文本等)名师解析连载
- 基础知识综合(原卷版)-2025年中考语文复习专练
- 2024年江苏客运员考试题库及答案
- 2024年黑龙江客运从业资格证考试题答案解析
- 2024年海口客运从业资格考试题库app
- 2024年黑河小车客运从业资格证考试
- 2024年渭南办理客运从业资格证版试题
- 2024年安徽客运资格证培训考试题
- 俄罗斯中国欧美电子管型替代表
- 废物处置分类及收费标准
- 钢丝绳的基本知识
- 《大学》导读解析
- 酒店宾客意见表1
- 昆明地区废弃花卉秸秆资源化利用现状及建议
- 会计师事务所审计工作底稿之银行询证函模版
- 浅谈如何提高煤矿企业经营管理水平
- 2022年胸腔镜辅助下二尖瓣置换、三尖瓣成形术的护理配合
- 六上数学《圆》练习题(超全)
- 月饼生产质量控制要点
评论
0/150
提交评论