由随机现象谈到统计思维课件_第1页
由随机现象谈到统计思维课件_第2页
由随机现象谈到统计思维课件_第3页
由随机现象谈到统计思维课件_第4页
由随机现象谈到统计思维课件_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、統計推論:使用大數法則與中央極限定理來描述誤差 陳 宏臺灣大學數學系10:40-12:10, 1/11/2012種子教師培訓營 建國中學大綱: 一、量化不確定性推論統計(信心與機率之關聯)二、機率的頻率觀 (機率的起源)三、使用機率來描述誤差的可能尺度大數法則中央極限定理人們可不使用統計嗎?四、課綱及課本中的暇疵之處主題:量化不確定性統計與科學的關係 科學是一套描述自然現象時該用的方法跟精神,我們該用可被檢測的方法對現象做出描述。一個良好的理論要能以少數假設為基礎,再以這些假設來描述大量的觀測現象,並且能對其他的現象做出正確、可觀測的預測。所以,如果所觀測到的現象並不符合預測,那我們就得對該理

2、論進行修改或是放棄該理論。統計是從數據中獲取資訊的學問。推論統計的哲學基礎:否證邏輯一個假說必須演繹出可被預測的命題,並接受經驗證據的考證。如相對論是科學,當根據相對論來預測日蝕的發生與否,如和日蝕觀測的數據不合,就可確定相對論不是科學。如某人宣稱一銅板是公平的,我們使用機率工具來推算出其投擲多次出現正面次數的行為。現實際投擲該銅板多次,當實驗結果與上述行為不吻合。此時可合理的懷疑某人的宣稱,認為該銅板並非公平。不確定性推論逆或反向機率原則(The principle of inverse probability) 統計的困難來自於我們是有些數據,但是沒有我們希望能擁有的全部數據來回答想要解決

3、的問題,或是我們並無足夠的信心在已擁有的數據。例一、某民調已問出某些選民的投票傾向,但並非每一位。例二、如已知某些病人對一特定藥品的反應,但並非每一位病人對此藥品的反應。 推論統計 提供系統性的方法來決定在現有的一組數據中所觀察到的特徵與該組數據所來自的母群體未被或無法被觀察到的特徵的差距為何?以九十八學年度指考數學乙第6題為例某縣市教育局欲瞭解高中生參加課外活動社團的意願, 開學日隨機調查高一、高二、高三學生各1067名,詢問本學期是否要參加課外活動社團。已知該縣市的高一、高二、高三學生人數幾乎一樣多,各年級學生調查結果如下圖:推論統計 母體是指調查者欲研究的全部對象(人、事、物)所成的集合

4、。母體參數(高一學生要參加課外活動社團的比例)樣本是指從母體中抽取一部份個體,此一部份個體資料稱為來自該母體之一樣本。簡言之,即母體的一各個部份集合。樣本統計量 (66%)現有課綱的推論統計部份:信賴區間 核心在於樣本統計量與母體參數間差距的描述。統計與真理 C.R. Rao Prof. CR Rao wins 2011 RSS Guy Medal in Gold /watch?v=f6b8GxjBRG4Guy, William A. (1810-1885 法醫學)數學是一種從給定前提下演繹結果的邏輯。如擲一公正銅板100次,最容易觀察到50次正面。上述宣稱為何正確?令 X 代表擲一公正銅板1

5、00次,得到正面的次數。X 的可能取值為0, 1, , 100,得到 x 次正面的機率如下問題:那個 x 使得 P(X = x) 最大?那個 x 使得 P(X = x) 最大? 當x = 50時, P(X = x) 最大。統計與真理 C.R. Rao 統計是一種從經驗中學習的理性方法,及從給定的結果驗證前提的邏輯。“如擲一銅板100次,觀察到100次正面,該銅板一定是不公正” ,此敘述是否正確?此敘述錯誤。因為擲一公正銅板100次,觀察到100次正面的機率並非0,而是(0.5)100,其值約為10-30.1,並非0。雖然很小,但無法確認“該銅板一定是不公正”此一敘述。98年學測數學第九題在測試

6、同學,是否能將語言文字轉化為數學語言來處理。問題:當一袋中有兩枚銅板,其中一枚為公正,另一枚得正面的機率為1。現某人由袋中隨機取出一枚銅板,若擲該枚銅板100次且得到100次正面。試問該枚銅板是否為公正銅板? 答案:無法確認試問該枚銅板是為公正銅板的機率為何? 條件機率當一袋中有兩枚銅板,其中一枚為公正,另一枚得正面的機率為1。現某人由袋中隨機取出一枚銅板,若擲該枚銅板100次且得到100次正面。試問該枚銅板為公正銅板的機率為何? 令A代表取出公正銅板的事件,而B代表擲袋中取出銅板100次且得到100次正面的事件。P(A|B)為何?若P(A|B) 0 但小於10-30時,可確認袋中取出銅板絕非

7、公正銅板嗎?你的假設或已有資訊為何? 袋中有多枚銅板,如各枚銅板得正面的機率都不同,且其中有枚銅板為公正銅板。某人由袋中隨機取出一枚銅板,若擲該枚銅板100次且得到50次正面。試問該枚銅板是否最可能為公正銅板? 設袋中共有N枚銅板,第i枚銅板得正面的機率為pi,令Ai代表取出第i枚銅板的事件,而B代表擲袋中取出銅板100次且得到50次正面的事件。P(Ai|B)為何?統計與真理? 袋中有多枚銅板,某人由袋中隨機取出一枚銅板,若擲該枚銅板100次且得到50次正面。試問該枚銅板是否最可能為公正銅板? 若袋中無銅板為公正銅板,顯然該枚銅板不可能是公正銅板。若袋中各枚銅板得正面的機率都不同,且其中有枚銅

8、板為公正銅板。由下式可知,該枚銅板最可能為公正銅板。如擲一銅板100次,觀察到50次正面時,你是採取何種策略認為該枚銅板最可能為公正銅板?統計上常用的策略之一,為最大可能法或最大概似法 (method of maximum likelihood)來推估該枚銅板得正面的機率。或得出 C(100,50) p50(1-p)50為最大的p值,來推估該枚銅板得到正面的機率。98年學測數學第九題(3) 此次調查結果可解讀為:甲地全體居民中有一半以上的 人聽過該產品的機率大於95%令 p 為受訪時甲地全體居民中聽過該產品的比例, p為一未知的定數。本題在問該未知定數 p 大於0.5的機率,或P( p 0.5

9、0,0.58 )否大於0.95?因 p 為一未知的定數且0.50,0.58為一已知的區間,若使用機率的語言, P(p 0.50,0.58 )只會是1或0。那麼在95% 信心水準之下,該產品在甲地的知名度之信賴區間為 0.50 , 0.58 中的95%的意義為何?由上述說明可知絕非P(p 0.50,0.58 )=0.95,故學者創造出信賴區間一詞。答錯率 57% 全部考生、55% 高分組、59% 低分組統計與真理 CR Rao 我已認識到數學及統計,在人類為提昇自然知識及有效管理日常事務,所做的一切努力中,佔有重要性。我相信在最終的分析中,所有知識皆為歷史。在抽象的意義下,所有科學皆為數學。在理

10、性的世界裡,所有判斷皆為統計。主題二、機率的頻率觀 (機率的起源)歷史發展 十七世紀開始使用數學方法來探討機率1654年在巴斯卡(Pascal)與費馬(Fermat)的五封信函內,討論當一約定賭局臨時終止時,該如何合理的分配該筆賭金的問題。在探討此問題時,產生古典機率(假設每局A和B兩人獲勝的機率都相等)及使用數學期望值來分配該筆賭金。frequentist (頻率觀) and informational (資訊) approaches頻率觀: 瑞士數學家伯努利所提出,藉由拋擲十元硬幣多次的辦法來決定該硬幣得正面的機率。大數法則 古典機率巴斯卡將這問題告知了另一位著名的法國數學家費馬 。從他們

11、的通信當中,一個新的數學領域誕生了。 古典機率1654年在巴斯卡(Pascal)與費馬(Fermat)的五封信函內,討論當一約定賭局臨時終止時,該如何合理的分配該筆賭金的問題。這其中所探討的一個問題是總共有賭金100元,A、B兩人約定如果誰先贏得3局,就可以把賭金全部拿走。每贏一局可以得到一分,而首先拿到3分者就取得勝利,可以拿走所有的賭金。若現在A拿到兩分,而B拿到一分,當每局A、B兩人獲勝的機率都相等時,如在此時結束賭局,應該如何分配賭金?在探討此問題時,產生古典機率(假設每局A和B兩人獲勝的機率都相等)及使用數學期望值來分配該筆賭金。迪默勒問題的簡單版本 論證二:最多擲五次銅板,目前A已

12、得2點,而B得1 點。一二三四五機率AABABABAAA事件一BA事件二BB事件三期望值的算法: 100+100=75 美國高中AP(大學先修)課程 臺師大及中興大學皆鼓勵修習 AP 課程的外國學生申請。AP Exams are considered within the applicants complete academic transcript.國立南科國際實驗高級中學雙語部共開設13門AP課程AP課程及考試為大學一年級生的水準、深度,考試長達三小時,含一個半小時的問答考題,AP成績為頂尖大學錄取學生的重要指標。參看高雄市中區辦理大學預修課程之研究.tw/ksvs%20paper/7/f

13、ile/13.pdf目前 AP 考試有22 個專業、37 個課程,包括微積分AB (215,086, 2008年)、微積分BC、統計學等。 美國高中的大學預修課程 (單維彰 科學月刊) .tw/shann/Lite/essay/9712.pdf AP統計考試涵蓋的主題 資料探索: 描述型態及與型態之差異使用圖表及數據分析來描述型態及型態之差異。著重於解釋圖表及數據分析所提供的訊息。抽樣及實驗設計: 規畫及執行數據數據必需根據完整規劃的計畫進行,方能進行有效的推論。蒐集數據的計畫包含問題的釐清、釐清後再決定蒐集數據的辦法及其分析。 美國AP 統計考試涵蓋的主題 預期的型態: 使用機率及模擬探索隨

14、機現象 機率是用來找出在模型給定之下,所觀察到的數據應該是如何分布。隨機變數的機率分布。中央極限定理。統計推論: 估計母體參數及假設檢定統計推論提出系統性的方法來挑選適當的模型。 二項分配當取得一銅板,且要決定擲該一銅板得到正面的機率p為何?假設我們擲一銅板100次,得到45次正面。試問擲該一銅板得到正面的機率p為何? 問題:如何去比較一個未知量 p 與一個已知數字0.45 間的差異?量化不確定性應用:你懂信賴區間了嗎?統計(Statistics)的字根為State。字根和國家(state)是相同的,政府所用的資料(the use of data by the state.)母體與樣本間的關係

15、 關心的議題推論資料蒐集、整理、陳示、分析機率論抽樣理論不確定的議題敘述統計推論統計試問下列選項中的敘述,哪些是正確的?(1)學生要參加課外活動社團之比例隨著年級增加而遞減(2)由上述資訊可以估算全體學生要參加課外活動社團的比例在95%信心水準下,每一個年級學生要參加課外活動社團的比例之信賴區間,都可以由題目中已知的數據算出(4)在95%信心水準下,三個年級的調查結果,以高一學生要參加課外活動社團的比例的信賴區間最長(5) 在95%信心水準下,三個年級的調查結果,以高三學生要參加課外活動社團的比例的信賴區間最短選項(3)-(5)測試與信賴區間的公式相關的數學問題。選項(1)-(2)測試與信賴區

16、間相關統計推論的概念。答對率 45% 全部考生、66% 高分組、27% 低分組選項(4) 、(5)互斥,高分組答對率約70%,低分組答對率約50%就選項(1)而言學生要參加課外活動社團之比例隨著年級增加而遞減台北市、新北市、桃園縣、高雄市、高雄縣的高中職學生人數約為12萬、10萬、7萬、6萬、3.2萬,若各縣市要蒐集相關資料就曠日費時。若採簡單隨機抽樣,各調查高一、高二、高三學生各1067名,其實也不容易。由一組數據觀察到的特徵與該組數據所來自的母群體未被或無法被觀察到的特徵的差距為何?在此所問的特徵是學生要參加課外活動社團之比例隨著年級增加而遞減。一組數據觀察到的特徵為66%-52%(0)及

17、52%-22%(0)。若高一、高二、高三學生要參加課外活動社團之比例為p1, p2,及p3。未被觀察到的母群體特徵會是p1-p2 (0)且p2-p3 (0)?數學上如何來處理誤差及近似?學生要參加課外活動社團之比例隨著年級增加而遞減如何來量測 與 p1 - p2 間的差距? 數學上如何來處理近似?國中生: (1.01)1/2約為1,更好的答案約為1+0.01/2或1+0.01/2-0.012/8。因為高中生:大學生: 均值定理,Taylors Theorem如何回答(1)?學生要參加課外活動社團之比例隨著年級增加而遞減如何來量測 與 p1 - p2 間的差距? 論證:以高雄縣而言,假設高一、高

18、二、高三學生各10000名,且高一學生中只有704名學生要參加課外活動社團,但高二學生中有5200名學生要參加課外活動社團。但採簡單隨機抽樣,調查高一、高二學生各1067名時,是有可能高一這704名要參加課外活動社團學生都被抽中,而高二學生中這5200名學生要參加課外活動社團被抽中555位,這4800名不要參加課外活動社團的學生被抽中512位。此時 p1 p2=0.0704-0.52,與 差距甚大。在論證的情況下,會發生此狀況的機率約為exp(-1862) ,雖然很小但不是0。因對母群體的不理解,採簡單隨機抽樣是有可能發生上述狀況,無法排除此一可能。使用機率來處理簡單隨機抽樣的誤差因 p1 -

19、 p2 為一未知數,而 ,我們無法用傳統的計算兩者之間差距的方法。而採取評估簡單隨機抽樣方法是否能達到在大多數的情況下, 皆與未知的 p1 - p2 差距不大。考慮事件 ,當 P(Ac) 很小時,我們認定此次簡單隨機抽樣所得的樣本,比較可能是事件Ac 未發生,所以未知的p1 - p2與0.12應該是差距不大於c。關鍵是P(Ac) 要會算且甚小。二項分配假設我們擲一銅板100次,得到45次正面。試問擲該一銅板得到正面的機率為何? 問題: 如何去處理關係不確定的現象?巴斯卡三角形擲一公平銅板16次,得到 x 次正面的機率為弱大數法則與機率的極限相對頻率觀 當接受古典機率時,一枚公平銅板出現正面事件

20、的機率是0.5。伯努利的問題是是否可藉由重覆丟擲該枚銅板多次,使用出現正面事件發生之比例來估計0.5或如何量化未知量p與已知量之差距。因丟擲該枚銅板10次,不同的簡單事件共有1024個,出現正面的次數可為0、1、10,有2/1024(約0.2%)的機率會得到0次或10次,此時出現正面事件發生之比例為0或1,這顯然與0.5是有相當的差異;有22/1024 (約.2%)的機率會得到0、1、9或10次,此時出現正面事件發生之比例為0、0.1、0.9或1,這顯然與0.5仍有相當的差異。有112/1024 (約10%)的機率會得到0、1、2、8、9或10次,或有約90%的機率出現正面事件發生之比例介於0

21、.3與0.7之間。 當丟擲該枚銅板20次時,則出現正面事件發生之比例為0或1的機率為2/10242(約0.0002%),較丟擲該枚銅板10次時為低;有420/10242 (約0.37%)的機率會得到出現正面事件發生之比例為不超過0.1或不小於0.9;有約95.86%的機率出現正面事件發生之比例為介於0.3與0.7之間;或有約88.47%的機率出現正面事件發生之比例為介於0.35與0.65之間。現在說明當丟擲該枚銅板多次,出現正面事件發生之比例與0.5的距離超過定數c的機率會隨著試驗次數增加,越來越小。令Sn表丟擲該枚銅板n次時出現正面之次數,則Sn的可能取值為0, 1, , n,且 現藉助巴斯

22、卡三角形第n列的(n+1)個數字,來看出上述出現正面事件發生之比例與0.5超過一定數的機率會隨著n變大呈現下降的趨勢。因巴斯卡三角形的第n列的n+1個數字為C(n,0)、C(n,1)、C(n,n),當以k為組中點,組次數為C(n,k)所繪製之直方圖時,可知該直方圖對稱於通過(1+n)/2之垂直線,且其圖形呈現上升再下降之走勢。 由於C(n,k+1)/C(n,k)=(n-k)/(k+1) ,可知當k3;當(n-2)/3k(n-3)/4時,3 C(n,k+1)/C(n,k)2。由等比級數之特性,可知直方圖會集中於過(1+n)/2之垂直線附近,直方圖會集中於過(1+n)/22n此二垂直線之間,或說對

23、於非0的正數c 當使用電腦模擬,並繪製Sn/n的直方圖。當n大時,預期會面臨何等的困境?直方圖會集中於0.5附近,但直方圖下方的面積會是1。 使用電腦模擬,並繪製Sn/n的直方圖,當n大時,會面臨製圖的困難。當樣本數增加時,跳動範圍漸小。微積分上的對應處理如下這就回答是否可藉由重覆實驗(設想丟擲銅板)多次所得該事件發生之比例來估計p,也就是一般所稱的(弱)大數法則。(弱)大數法則:假設一事件發生之機率為 p,假設能一再地重覆該實驗n次,觀察同樣的現象,每次的佈置都相同(機會相同),而且一次次之間互相獨立,其中有k次發生了這件事件;我們計算發生的相對頻率k/n,那麼,在n趨近無限大時,這相對頻率

24、k/n就趨近於p,|k/n-p|不很小的機會很小!該如何來放大Xn/n- 0.5間的距離,當n大時,使得下述的機率值b界於0與1之間? 中央極限定理告訴我們 an = n1/2.古典機率及相對頻率觀之機率古典機率是指在同等確實之概念下(試驗)所有可能簡單事件的出現機率皆均等下,當所有可能簡單事件出現之總數為n時,當某事件可表為r個簡單事件時,該事件發生之機率定義為r/n(此分數稱為頻度)。所以擲一個公正銅板,出現正面的機率是1/2,此話的意思是指擲該銅板只可出現正面或反面這兩種簡單事件,且因材質均勻,故此二簡單事件的出現機率均等,所以得正面的機率是1/2。如果一遊戲(或者其他實驗 ) 有 k

25、種發生機會相等的結果,且它被重複進行了很多次,則每種結果實際上發生的真實次數將會越近於1/k。(試想丟一個公正的骰子 )引進機率的極限相對頻率(limiting relative frequency)解釋,也就是上述伯努利所欲探討的問題或伯努利大數法則。 可否藉由重覆實驗(設想擲銅板)多次所得該事件發生之比例來估計 p?記擲n次得到正面的次數為N,當n很大時,N/n-0.5為何?標準化:課本中常態曲線的描述誤導,詞句不夠精準擲n次得到正面的次數為N當n=16時,N/n-0.5的可能取值為-0.5, -0.4375, -0.375,0, 0.0625,0.5。N/n-0.5=0的機率約為0.19

26、64。當n= 32時,事件N/n-0.5=0發生的機率約為0.1399。事件|N/n-0.5|1/(2n)=|N-16|2.83發生的機率約為0.6229。事件|N-16|3發生的機率約為0.7847。當n= 64時,事件 N/n-0.5=0發生的機率約為0.0993。事件|N/n-0.5|1/(2n)發生的機率約為0.7396。事件|N/n-0.5|1/(2n)發生的機率約為0.6183。當n= 128時,事件N/n-0.5= 0發生的機率約為0.0704。事件|N/n-0.5|1/(2n)=|N-64|5.66發生的機率約為0.6691。事件|N-64|6發生的機率約為0.7496。當n=

27、1024時,事件N/n-0.5= 0發生的機率約為 0.0249。當n=2048時,事件N/n-0.5= 0發生的機率約為 0.0176。當2m=500時,得到250次正面的機率約為0.0357;而正面次數介於248次及252次的機率約為0.1067。當2m=1000時,得到500次正面的機率約為0.0252。由Stirlings formula可知故所以因量化不確定性 問題:如何去比較一個未知量與一個已知數字間的差異?簡單隨機抽樣於一含有N個成員的母群體中,對任一個含有n個成員的樣本,都有同樣的機率被選取。共有 C(N,n) 個含有 n 個成員的抽取樣本。考慮取得數據可分成贊同、不贊同這兩類

28、當n/N很小時,使用擲銅板的機率模型所算出的機率與使用簡單隨機抽樣的機率模型所算出的機率差距不大。量化不確定性(續) 丟擲出現正面機率為p的銅板n次,令X表示出現正面的次數E(X) = np、 Var(X) = np(1-p)Chebyschev inequality (謝比雪夫不等式) P(|X/n p| c) p(1-p)/n/c2數學傳播第九卷第三期 .tw/math_media/d93/9304.pdf46% 及871位民眾0.46 = x/871將|X/n p| c分為A類;而 |X/n p| c分為B類0.46 p是A類或B類,事件|X/n p| c較易發生?量化不確定性(續) 丟

29、擲出現正面機率為0.5的銅板870(=n)次時,利用中央極限定理可知P(|X/n 0.5| 1/30)5% ;而 P(|X/n 0.5| 1/30) 95% P(|X/n 0.5|= 0) = 2.704%P(|X/n 0.5| 0.00575) = 29% 恰好得到50%正面的機率並非太大樂透彩數字的出現如果是隨機,每個數字出現的次數並不會是均勻的。選項(1)是否超綱?學生要參加課外活動社團之比例隨著年級增加而遞減統計處理抽樣誤差? 如考慮以下兩個事件,當 P(Bc1) 0.975且P(Bc2) 0.975時,P(Ac)0.05 。隨機抽樣誤差母體參數 = 樣本統計量 + 抽樣誤差抽樣誤差為

30、一隨機變數使用機率語言來描述抽樣誤差當樣本個數增大時,抽樣誤差會變小在95%信心水準下,三個年級的調查結果,以高一學生要參加課外活動社團的比例的信賴區間最長在95%信心水準下,三個年級的調查結果,以高三學生要參加課外活動社團的比例的信賴區間最短 98年學測數學第九題選項(3)(5)某廠商委託民調機構在甲、乙兩地調查聽過某項產品的居民佔當地居民之百分比(以下簡稱為知名度)。結果如下:在95% 信心水準之下,該產品在甲、乙兩地的知名度之信賴區間分別為 0.50 , 0.58 、 0.08 , 0.16 。試問下列哪些選項是正確的?(3) 此次調查結果可解讀為:甲地全體居民中有一半以上的人聽過該產品

31、的機率大於95%(4) 若在乙地以同樣方式進行多次民調,所得知名度有95% 的機會落在區間 0.08 , 0.16 (5) 經密集廣告宣傳後,在乙地再次進行民調,並增加參訪人數達原人數的四倍,則在95%信心水準之下該產品的知名度之信賴區間寬度會減半(即0.04)95%信心水準下之信賴區間:98年學測數學第九題(3) 此次調查結果可解讀為:甲地全體居民中有一半以上的 人聽過該產品的機率大於95%令p為受訪時甲地全體居民中聽過該產品的比例, p為一未知的定數。本題在問該未知定數p大於0.5的機率,或P(p 0.50,0.58 )否大於0.95?因p為一未知的定數且0.50,0.58為一已知的區間,

32、若使用機率的語言, P(p 0.50,0.58 )只會是1或0。那麼在95% 信心水準之下,該產品在甲地的知名度之信賴區間為 0.50 , 0.58 中的95%的意義為何?由上述說明可知絕非P(p 0.50,0.58 )=0.95,故學者創造出信賴區間一詞。答錯率 57% 全部考生、55% 高分組、59% 低分組98年學測數學第九題選項(3)之說明設想甲地的人口總數有10,000人,當使用簡單隨機抽樣由其中選出130位參訪人時(機率在此被引進),會有C(10,000,130)種簡單隨機抽樣,而每種的機率都是1/C(10,000,130)。當對每種選出的130位參訪人,得出聽過該產品的比例,該比

33、例的取值只可能是0/130、130/130,再根據該比例得出其信賴區間,最多會有131類。而每類信賴區間的發生機率可算出,而在這C(10000,130)種簡單隨機抽樣所得出的信賴區間,其中約有95%的區間會包括未知的p。而0.50 , 0.58是這C(10,000,130)個信賴區間其中的一個,但並不知其是否為會包括未知p的區間,不過可能性蠻高的。 98年學測數學第九題選項(3)之說明設想甲地的人口總數有10,000人,當使用簡單隨機抽樣由其中選出130位參訪人時(機率在此被引進),會有C(10,000,130)種簡單隨機抽樣,而每種的機率都是1/C(10,000,130)。當對每種選出的13

34、0位參訪人,得出聽過該產品的比例,該比例的取值只可能是0/130、130/130,再根據該比例得出其信賴區間,最多會有131類。而每類信賴區間的發生機率可算出,而在這C(10000,130)種簡單隨機抽樣所得出的信賴區間,其中約有95%的區間會包括未知的p。而0.50 , 0.58是這C(10,000,130)個信賴區間其中的一個,但並不知其是否為會包括未知p的區間,不過可能性蠻高的。 區間比較圖 n =20 n = 500 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

35、 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 信賴區間圖右圖中,全班 40 個學生每個人都得到一個區間,如果老師事先知道 p = 0.6,那麼從圖中可知,有 35 個區間包含真實的 p 值。全班 40 個學生包含 p

36、 值區間個數的期望值為40 0.95 = 38 個0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 98年學測數學第九題選項(4)之說明(4) 若在乙地以同樣方式進行多次民調,所得知名度有95% 的機會落在區間0.08 , 0.16 當p= 0.12時,所得知名度有95% 的機會落在區間0.08 , 0.16 。若p遠離 0.12時,所得知名度就

37、不再有95% 的機會落在區間0.08 , 0.16 。但我們無法由區間0.08 , 0.16 來判定” p= 0.12”或” p遠離 0.12。” p為一未知的定數。答錯率 75% 全部考生、85% 高分組、63% 低分組98年學測數學第九題選項(5)之說明(5) 經密集廣告宣傳後,在乙地再次進行民調,並增加參訪人數達原人數的四倍,則在95%信心水準之下該產品的知名度之信賴區間寬度會減半(即0.04)令p0為受訪時甲地全體居民中聽過該產品的比例, 而p1為經密集廣告宣傳後甲地全體居民中聽過該產品的比例。本題至少有兩種做答方式:答錯率 41%全部、48%高分組、38%低分組一、 p0 = p19

38、8年學測數學第九題(5) 經密集廣告宣傳後,在乙地再次進行民調,並增加參訪人數達原人數的四倍,則在95%信心水準之下該產品的知名度之信賴區間寬度會減半(即0.04)本題至少有兩種做答方式: 二、 p0 p1主題三: 為何人們使用統計? 人們使用統計的目的 “It is far better to foresee even without certainty than not to foresee at all. ”沒有絕對把握的預測,也遠勝過於不做預測。 Henri Poincare 龐加萊 (1854-1912) 經濟學家就是這樣的專家:他會在明天知道為什麼他昨天對所做的預測為何今天沒發生

39、Evan Esar (1899-1995)Evan Esar is known for quotes like “統計學: 唯一的科學使得專家們可依據相同的圖表而得出截然不同的結論。Because you have to!Because you have to! 量化不確定性 問題:如何去比較一個未知量與一個已知數字間的差異?實例一:於十年前第一場臺北市長競選辯論後,根據TVBS報導之民意調查結果,在所抽樣本中,王建煊之支持率為7%。試問王建煊於台北市選民中之真實支持率為何?在上例中,已知數字為7%,而所關心的未知量為王建煊於台北市選民中的支持率p%。試問1. 7%這個數字是如何得到的?2.

40、7%與實務上無法量測的支持率p% 之間差異的大小?3. 如何量度不確定性? 7%- p% 4. 預測是人類活動中的常態如進大學、工作、婚姻、投資、保險等。 Because you have to! 間歇泉(Geyser) 預測噴泉之時間根據前次噴泉之持續時間 在誤差不超過正負十分鐘,使用的預測公式的準確率達到90%。研究目的:便利遊客安排旅遊瞭解間歇泉形成的原因進一步資訊可參看 /gs265/geysers.html /yell/oldfaithfulcam.htm兩者間的函數關係為何?間歇泉(Geyser) 數據:於1985年8月1日至1985年8月15日間,收集美國黃石公園老忠實間歇泉噴泉

41、記錄。共有299筆,每筆含等待時間及持續時間。 研究步驟:由這一次的持續時間預測下一次的等待時間繪製散布圖可能的物理模型噴泉口之下方有一細長tube,內充滿了水而受環繞岩石加熱。由於tube內滿了大量的水,故tube下方的水因壓力的緣故,其沸點較高,且愈深處沸點愈高。3. 當tube上方的水,因環繞岩石加熱達到沸點變為蒸氣;而較下方的水因壓力降低,故其沸點隨之降低,而加速將下方的水變為蒸氣,故開始噴泉。4. 有關此物理模型之進一步討論,參看Rinehart (1969; J. Geophy. Res., 566-573)依據上述理論,可期待此次噴泉持續時間較長久者,等待噴泉口再次噴泉之時間可能

42、較長 間歇泉形成的三個要素:水源、熱源、水庫及管路系統統計專業人員需要什麼樣的能力?分辨事物的邏輯批判性思考(分辨事物的邏輯)數學訓練計算機及撰寫程式的能力溝通及語言能力報告撰寫簡報在高壓力下進行工作 儘快得到結果網戰鎖定技 點擊率提升五倍2011-11-27 中國時報 【管婺媛台北報導】網路已成近年選舉主流戰場,但價格不斐且績效難以評估。隨著新技術的推出,網路戰可打得更精細,幫政治人物在茫茫網海中,精準的接觸到自己的選民。多數民眾都誤以為,自己在網路上是隱形的。臉書、Google等民眾登入後使用的網站,很久就開始販賣針對特定對象的廣告,以年齡、性別、社團、喜好等區分,讓廣告主廣告只出現在篩選

43、後的特殊族群網頁。全台約七成網友使用YAHOO奇摩入口網站,即便使用者不見得會登入,但網路工程師還是可以透過位置、搜尋習慣等,挑出可能的標的族群,讓網民在渾然無覺的情況下,加深對候選人的印象。業者透露,一般的網路廣告點擊率大約是萬分之一,出現一萬次才有一個人會去點,但透過新技術鎖定目標後,點擊率可以提升五倍。條件機率與目標行銷(Target marketing)選擇區隔市場(market segment)作為目標市場:進行市場區隔。選擇一個或數個區隔市場做為目標市場,從事產品定位。研擬合適的行銷組合策略,以滿足區隔內的顧客需求。優點: 集中行銷,幫助銷售者掌握行銷機會與策略,使預算集中於選定的

44、目標市場,發揮最大的市場推銷效果。發掘有利的市場機會。根據各個市場的特點,可隨時調整產品訴求與行銷訴求,且可建立多種訴求,以適合各種區隔化市場的需要。隨著全球性經濟的興起使得產業競爭更加劇烈,因此企業必須採用目標行銷以協助企業正確快速地鎖定行銷推廣的顧客族群 For instance, I open a catering business offering catering services in the clients home. (What is my target market?)Replace advertising with a newspaper insert that goes out to everyone by a direct mail campaign that went only

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论