统计分析基础_第1页
统计分析基础_第2页
统计分析基础_第3页
统计分析基础_第4页
统计分析基础_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计分析基础2023/3/9基本統計1第一页,共六十一页,2022年,8月28日2023/3/9基本統計2基本統計課程大綱敘述統計(DescriptiveStatistcs)機率分配及抽樣機率分配概念參數的估計

(PointEstimation&IntervalEstimation)第二页,共六十一页,2022年,8月28日2023/3/9基本統計3什麼是統計學?Statistics源自印歐語系字根status(狀態);understand(了解)蒐集、整理、陳述、解釋統計資料特性敘述統計學利用已知樣本(sample)所蒐集的資料,推論未知母(群)體(population)的特性推論統計學使在不確定情況下作成決策的科學方法第三页,共六十一页,2022年,8月28日2023/3/9基本統計4敘述統計與推論統計之比較母體(欲分析的對象)樣本(母體的代表)統計抽樣分析推估敍述統計推論統計從數據分析中有效掌握數據間的規律性及差異性第四页,共六十一页,2022年,8月28日2023/3/9基本統計5統計資料的種類屬性資料依資料的性質而劃分類別,無法按大小排列例:產品區分為「合格」、「不合格」兩類 or作業員、班別。屬量資料計數值資料(離散型資料,DiscreteData)

零或正整數計量值資料(連續型資料,ContinuousData)可帶有小數點的資料第五页,共六十一页,2022年,8月28日2023/3/9基本統計6敘述統計如何觀察一組數據莖葉圖直方圖統計量數箱型圖第六页,共六十一页,2022年,8月28日2023/3/9基本統計7你對資料瞭解多少?

收集某廠某月每天的產量,連續27天。第七页,共六十一页,2022年,8月28日2023/3/9基本統計8莖葉圖

TheStem-and-LeafPlot

將十位數視為莖,個位數視為葉第八页,共六十一页,2022年,8月28日2023/3/9基本統計9莖葉圖你看出了什麼?平均產量約為(大部分資料落在)40-60左右。資料大概分散在20-50之間。資料的分佈不對稱,偏向數字大的那一邊。第九页,共六十一页,2022年,8月28日2023/3/9基本統計10莖葉圖你還可以看出什麼?若覺得stem太少,或每一stem的資料太多,可以再分細一點。第十页,共六十一页,2022年,8月28日2023/3/9基本統計11莖葉圖你還可以看出什麼?Q2=X(14)=40Q1=X(7)=22Q3=X(21)=54IQR=Q3-Q1=32P10=(X(2)+X(3))/2=7P90=(X(25)+X(26))/2=61第十一页,共六十一页,2022年,8月28日2023/3/9基本統計12直方圖第十二页,共六十一页,2022年,8月28日2023/3/9基本統計13直方圖與莖葉圖的補同直方圖的分組可較細緻,莖葉圖的分組較粗略。直方圖無原始數據,莖葉圖有原始數據。第十三页,共六十一页,2022年,8月28日2023/3/9基本統計14資料大概落在哪裡?平均產量,平均厚度。資料的分散程度?品質(變異)是高或低?資料是否對稱?如何觀察一組數據第十四页,共六十一页,2022年,8月28日2023/3/9基本統計15如何以一些量數描述一組數據代表資料特性的一些統計量數集中趨勢量數:(centraltendency)

代表大部份資料集中的位置所在,通常利用此數作為資料的代表值差異量數:(variation,dispersion)代表資料的分散程度偏態量數

:(shape)代表資料偏離對稱的程度第十五页,共六十一页,2022年,8月28日2023/3/9基本統計16各種統計量數連續資料特性的描述方式平均數

Mean中位數Median眾數Mode全距Range四分位距InterquartileRange變異數Variance標準差StandardDeviation偏態Skew集中趨勢量數差異量數偏態量數第十六页,共六十一页,2022年,8月28日2023/3/9基本統計17集中趨勢量數意義:代表大部份資料集中的位置所在,通常利用此數作為資料的代表值功用:簡化作用,代表作用,比較作用常用的量數算數平均數中位數眾數第十七页,共六十一页,2022年,8月28日2023/3/9基本統計18算數平均數(Mean)樣本平均數(samplemean)第十八页,共六十一页,2022年,8月28日2023/3/9基本統計19例子:連續27天LOTS平均產量?第十九页,共六十一页,2022年,8月28日2023/3/9基本統計20中位數(Median)意義:一群資料中間的那個數。中位數將一組資料分成兩半,比中位數大和比中位數小的資料數各為一半。(Median,Me)算法:排序(X(1)≦X(2)≦…≦X(n))算出中位數大概的位置所在(或是比中位數小的數字有幾個):I=(n+1)/2看I是否為整數,來決定中位數的所在。若I為整數(資料數為奇數):Me=X(I)若I為不整數(資料數為偶數):Me=(X([I])+X([I]+1))/2第二十页,共六十一页,2022年,8月28日2023/3/9基本統計21眾數(Mode)意義:一組資料中,出現次數最多的數NoMode

RawData: 10.3,4.9,8.9,11.7,6.3,7.7OneMode

RawData: 6.3,4.9,

8.9,6.3,4.9,

4.9MoreThan1Mode

RawData: 21,28,

28,41,43,43算法:做次數分配表第二十一页,共六十一页,2022年,8月28日2023/3/9基本統計22三種集中量數的比較若有極端值時,平均數較不具意義。第二十二页,共六十一页,2022年,8月28日2023/3/9基本統計23三種集中量數的比較Median一定居中。右偏Right-Skewed左偏Left-Skewed對稱SymmetricMean=Median=ModeMeanMedianModeModeMedianMean第二十三页,共六十一页,2022年,8月28日2023/3/9基本統計24哪一個集中量數較好原則:無極端值:mean有極端值:median類別資料:mode例:現有100名學生成績想知道班上整體表現如何mean成績分等級,想知道哪一等級較多人mode第二十四页,共六十一页,2022年,8月28日2023/3/9基本統計25非集中位置量數集中位置量數(集中趨勢量數)大部分資料的所在非集中位置量數描繪數值資料的分佈情況百分位數(percentile)四分位數(quartile)十分位數(decimal)第二十五页,共六十一页,2022年,8月28日2023/3/9基本統計26百分位數(Pk)算法:排序:算出百分位數大概位置的所在(比百分為數小的大概有幾個):I=(n+1)*k/100看I是否為整數:若I為整數,則Pk=X(I)若I不為整數,則Pk=(X([I])+X([I]+1))/2第二十六页,共六十一页,2022年,8月28日2023/3/9基本統計27特殊的百分位數(Pk)特殊的百分位數四分位數(Q1,Q2,Q3)—QuartileQ1=P25,

Q2=P50,

Q3=P75十分位數(D1,D2,…,D10)—DecimalD1=P10,

D2=P20,…,

D10=P100第二十七页,共六十一页,2022年,8月28日2023/3/9基本統計28四分位數/十分位數廠內每日產量例子:排序:1,1,13,14,21,21,22,23,25,30,35,38,39,40,42,48,50,52,53,53,54,56,56,58,59,63,65第一,二,三四分位數:k=25,I=(n+1)k/100=7,Q1=X(7)=22k=50,I=(n+1)k/100=14,Q2=X(14)=40k=75,I=(n+1)k/100=21,Q3=X(21)=54第十,九十百分位數:k=10,I=(n+1)/10=2.8,D1=(X(2)+X(3))/2=7k=90,I=(n+1)x0.9=25.2,D9=(X(25)+X(26))/2=61第二十八页,共六十一页,2022年,8月28日2023/3/9基本統計29全距(Range)想法:若有兩個數,如何表示他們的差異程度?公式:R=X(n)-X(1)優點:意義簡單明瞭缺點:只考慮兩個觀察值,無法測出中間各觀察值之間的差異程度,敏感度小。受極端值影響較大產量例子:R=65-1=64.第二十九页,共六十一页,2022年,8月28日2023/3/9基本統計30四分位距想法:如何彌補全距易受極端值影響的缺點?用中間資料來衡量差異程度公式:IQR=Q3-Q1意義:一組資料中間一半觀察值的全距僅與中間50%的資料有關當資料對稱時,Me-Q1=Q3-Me=IQR/2第三十页,共六十一页,2022年,8月28日2023/3/9基本統計31四分位距優點:計算方便易於瞭解,不受極端值影響缺點:僅考慮中間一半的數值,對兩端之數值皆未涉及,較不敏感。為此項缺點不如全距之甚。產量例子:Q1=22Q3=54IQR=54-22=32第三十一页,共六十一页,2022年,8月28日2023/3/9基本統計32離差(deviation)全距及四分位差均只考慮一群資料中的少數幾個資料,並未將全部資料考慮進來。那如何將全部資料考慮進來計算其分散程度?離差=觀察值與集中量數之差可見離差的絕對值越大表示其差異程度應越大若有n個資料,就有n個離差。如何將這n個離差整合起來成一個數?第三十二页,共六十一页,2022年,8月28日2023/3/9基本統計33變異數與標準差離差:變異數公式:標準差公式:第三十三页,共六十一页,2022年,8月28日2023/3/9基本統計34變異數與標準差優點:意義簡明。代數計算容易。(實際計算可能複雜)由全部數值得到,較敏感。缺點:易受極端值影響。第三十四页,共六十一页,2022年,8月28日2023/3/9基本統計35變異數與標準差(特性)特性:資料越集中(越相似),差異程度小,標準差(全距,IQR)也小。若一資料的標準差小,表大部份資料集中在平均數附近,則平均數的代表性高。標準差(變異數,全距,IQR)恆大於或等於零。若為零則表示全部數值均相同。標準差與資料的大小無關,他只與資料的分散程度有關。(可能兩組資料數字,平均數相差很大,但標準差相等)第三十五页,共六十一页,2022年,8月28日2023/3/9基本統計36箱型圖(BoxPlot)以五個量表示資料分佈fivenumbersummaryplotQ2Q3Q1X(n)X(1)第三十六页,共六十一页,2022年,8月28日2023/3/9基本統計37箱型圖(BoxPlot)右偏左偏對稱Q1

Q2

Q3Q1

Q2

Q3Q1

Q2

Q3哪一邊較大,就是偏向哪一邊第三十七页,共六十一页,2022年,8月28日2023/3/9基本統計38箱型圖

最多資料聚集的地方QuartileBoxPlotOutlierBoxPlotP10P90Q2Q3Q1X(n)X(1)Q1-1.5IQRQ3+1.5IQR第三十八页,共六十一页,2022年,8月28日2023/3/9基本統計39箱型圖極端值Outlier第三十九页,共六十一页,2022年,8月28日2023/3/9基本統計40例子:某日之cellgap值)3.74.14.5資料分佈,有右偏情形,近似雙峰的現象,可能有不同因素在影響;需根據資料收集的成因加以進一步的探討第四十页,共六十一页,2022年,8月28日2023/3/9基本統計41箱型圖(比較數組資料的分佈情形)CellgapV.S機台(TOOLID)不同機台所對應的cellgap值差異似不大?!!Outlier第四十一页,共六十一页,2022年,8月28日2023/3/9基本統計42箱型圖(比較數組資料的分佈情形)CellgapV.S量測日期Cellgap3.44.04.30.619202122232425262728293030day不同日期所對應之cellgap值似有差異第20,26,27,29,30日之cellgap值似有偏高現象。第23日之cellgap值似偏低。第19,20,30日之cellgap值離散度較其他位置為大。第四十二页,共六十一页,2022年,8月28日2023/3/9基本統計43機率分配課程單元隨機變數期望值變異數重要的機率分配簡介常態分配t分配卡方分配F分配第四十三页,共六十一页,2022年,8月28日2023/3/9基本統計44隨機變數定義:用以代表從某一母(群)體之所有可能隨機抽樣試驗的結果,都可以唯一存在的一個實數值與之對應之函數,通常以大寫字母表示。數學表示方式:Xf(x)f(x)稱之為隨機變數x的機率密度函數性質:

第四十四页,共六十一页,2022年,8月28日2023/3/9基本統計45重要機率分配簡介常態分配(NomalDistribution)通常以Z代表其隨機變數,記作Z~N(,2)

其中為期望值,2為變異數。標準常態分配,(Z-)/~N(0,1)為一鐘型分配常態分配底下的面積是固定的P(-≦Z≦+)=68.26%P(-2≦Z≦+2)=95.44%P(-3≦Z≦+3)=99.74%第四十五页,共六十一页,2022年,8月28日2023/3/9基本統計46常態分配圖形+1+2+3-3-2-1+4-468.27%95.45%99.73%第四十六页,共六十一页,2022年,8月28日2023/3/9基本統計47常態分配隨機變數的線性轉換常態分配的標準化-3-2-10123一般常態分配標準常態分配第四十七页,共六十一页,2022年,8月28日2023/3/9基本統計48其他重要的機率分配卡方分配(Chi-SquaredDistribution)記作X~

,其中為參數

t分配(StudenttDistribution)記作T~,其中為參數

F分配(FDistribution)記作F~,其中1,2

為參數

第四十八页,共六十一页,2022年,8月28日2023/3/9基本統計49抽樣分配統計量(statistics)是一組隨機樣本的實數值函數T(X1,X2,…,Xn)Samplemean,variance,median,mode,sampleproportionetc.統計量也是一種隨機變數統計量的機率分配稱為抽樣分配(samplingdistribution)因為我們是用統計量去猜母體參數,我們需要知道其抽樣分配,才能衡量猜的準確性。第四十九页,共六十一页,2022年,8月28日2023/3/9基本統計50中央極限定理若X1,X2,….,Xn

為自任意一母群體(期望值為μ,變異數為σ2<)抽出的一組隨機樣本,則當n

時,(通常n>30),則的機率分配會近似於標準常態分配。中央極限定理的重要性不論母體分配為何,任何樣本平均數的抽樣分配,當樣本數巨大時,即可應用常態分配以求算其近似機率。第五十页,共六十一页,2022年,8月28日2023/3/9基本統計51思考時間機率論與統計學著重的重點差異為何?為何須要發展統計學?機率論為就已知的母(群)體,探討抽樣出來的可能性。統計學討論就未知的母(群)及已知的樣本來對母(群)體特性作推估。因實務上或經濟上無法對母(群)體作全檢,係為不確定因素來源,故利用抽樣方法來對母(群)體作推論。第五十一页,共六十一页,2022年,8月28日2023/3/9基本統計52思考時間推論統計學與敘述統計學基本差異為何?推論統計學導入機率理論來對母(群)體加以推論,使得對母群體之機率特性有更進一步與可信之描述。而不只是對母群體單一樣本資料狀態的描述。第五十二页,共六十一页,2022年,8月28日2023/3/9基本統計53統計學領域導覽統計學Statistics敘述統計學DescriptiveStatistics推論統計學InferentialStatistics有母數統計學ParametricStatistics無母數統計學Non-parametricStatistics參數的估計ParameterEstimation參數的假設檢定HypothesisTesting點估計PointEstimation區間估計IntervalEstimation單邊假設檢定OneSideTesting雙邊假設檢定TwoSideTesting第五十三页,共六十一页,2022年,8月28日2023/3/9基本統計推論54統計推論單元推論的基本觀念參數估計第五十四页,共六十一页,2022年,8月28日2023/3/9基本統計55統計推論統計推論:在不確定的情況下,討論如何由資料全體(母體)中抽出一部分資料(樣本),而以這一部份資料去推測資料全體的某些特性。蒐集、整理、陳述、解釋統計資料特性敘述統計學利用已知樣本(sample)所蒐集的資料,推論未知母(群)體(population)的特性推論統計學使在不確定情況下作成決策的科學方法第五十五页,共六十一页,2022年,8月28日2023/3/9基本統計56點估計

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论