统计基础与Statistica软件学习教案_第1页
统计基础与Statistica软件学习教案_第2页
统计基础与Statistica软件学习教案_第3页
统计基础与Statistica软件学习教案_第4页
统计基础与Statistica软件学习教案_第5页
已阅读5页,还剩88页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、会计学1统计统计(tngj)基础与基础与Statistica软件软件第一页,共93页。第2页/共93页第二页,共93页。第3页/共93页第三页,共93页。第4页/共93页第四页,共93页。第5页/共93页第五页,共93页。tosampling imperfections, variations in ambient conditions, skill of personnel, and many other factors. Such variation always exists and, although in certain cases it may have been minimize

2、d, it should not be ignored entirely. 第6页/共93页第六页,共93页。nThe sample is the 27 observations (measurements). nThe sample sizeis n=27. nThe random variableis the measured concentration in each specimen having a known concentration of 8.0 mg/L.nExperimental errorhas caused the observed values to vary abo

3、ut the true value of 8.0 mg/L. The errors are 6.9 8.0=1.1, 7.88.0=0.2,+0.9,2.8,0.3,+1.6,+0.7, and so on.第7页/共93页第七页,共93页。nDo not expect your first graph to reveal all interesting aspects of the data. nMake a variety of graphs to view the data in different ways.第8页/共93页第八页,共93页。第9页/共93页第九页,共93页。第10页/

4、共93页第十页,共93页。第11页/共93页第十一页,共93页。第12页/共93页第十二页,共93页。time than for longer times. nThe graph of residuals in the bottom plot shows the opposite is true. The curve does not fit well at the shorter times and in this region the residuals are large and predominantly positive第13页/共93页第十三页,共93页。第14页/共93页第十四页

5、,共93页。第15页/共93页第十五页,共93页。nEfficiency (有效)nWainernElegance (典雅(diny)nGrace (优雅)nImpact (效果)William Playfair (1786), a pioneer and innovator in the use of statistical graphics, desires to tell a story graphically as well as dramatically.第16页/共93页第十六页,共93页。It confuses units - pH is not measured in mg/L

6、. Three-dimensional effects make it more difficult to read the numerical values. Using a log scale makes the values seem nearly the same when they are much different. The 875 mg/L TSS and the 1500 mg/L COD have bars that are nearly the same height.第17页/共93页第十七页,共93页。第18页/共93页第十八页,共93页。n逐步回归分析,固定非线性分

7、析,残差分析和基于回归模型的预测等。n如果您要调查研究人的智商是否与吃鱼和吃豆腐有关,就可以用回归法来分析。n3、ANOVAMANOVA(方差分析)n有单因素和多因素方差分析、协方差分析和重复测量方差分析等。两个以上样本平均数差异的显著性检验,就可利用方差分析。n如:比较几种教学方法哪一种对学习成绩提高最快,比较几种牌号汽油的行程率等等。第19页/共93页第十九页,共93页。分布、均匀分布等。n6、高级线性/非线性模型(Advanced Linear/Nonlinear Models)n包含各种线性和非线性模型化分析功能(gngnng)。如Nonlinear Estimation(非线性估计)

8、:包括一般非线性模型,逐步Logit分析,最大似然估计等。n7、工业统计与6-(Industrial Statistics & Six-Sigma)n包括质量控制、过程分析、实验设计、6-分析第20页/共93页第二十页,共93页。第21页/共93页第二十一页,共93页。第22页/共93页第二十二页,共93页。第23页/共93页第二十三页,共93页。STATISTICA可以打开的文件类型包括Excel, dBASE, SPSS, Lotus等程序产生的文件和扩展(kuzhn)名为txt, csv, htm, rtf等文本格式,并以STATISTICA数据文件的格式保存。 第24页/共93

9、页第二十四页,共93页。第25页/共93页第二十五页,共93页。第26页/共93页第二十六页,共93页。第27页/共93页第二十七页,共93页。第28页/共93页第二十八页,共93页。第29页/共93页第二十九页,共93页。n标准误差(standard error)n(1)、平均值n定义n平均值是最常用的统计描述量,它给出了变量的一种“趋向中心”的信息,当然是要在在满足置信区间的条件下。n置信区间是群体的“真实”平均值信息在我们可以接受的可信度范围内的一个尺度。niiXnX11第30页/共93页第三十页,共93页。n需要注意的是:置信区间依赖于样本的大小(sample size)和数据值的变化

10、(variation of data values)。n样本越大,平均值越可靠;n数据值变化越大,平均值的可信度越低。n另外,置信区间的计算假设群体(qnt)变量是随机的,并服从正态分布。如果这个假设不满足,那么即使样本足够大,估计值也是无效的。第31页/共93页第三十一页,共93页。柱状图可以检验分布质量,如分布是双峰的(有两个顶点),这可能是由于样本是不均匀(jnyn)的,它可能来自两个不同的群体,一个更接近正态分布,一个则要差一些。这种情况下,需分别对两个子样本进行分析。 第32页/共93页第三十二页,共93页。q 假设两个变量在最小区间上进行(jnxng)测量,那么皮尔逊相关是指两个变

11、量之间的相互比例关系,这个比例值就是相关系数(r)q 相关系数的变化范围是从-1.00 到 +1.00。-1.00表示负相关性,+1.00表示正相关性,0.00表示没有相关性。第33页/共93页第三十三页,共93页。q比例(bl)表示它们是线性的,可以用一条向上或向下的直线表示。这条线可以称作回归线或最小二乘线,也就是所有的点与直线的距离的平方和最小。尤其是距离的平方(r2)更是反映两个变量的变化比例(bl)关系的重要结果。 第34页/共93页第三十四页,共93页。表达了拒绝假设检验(两组样本观测没有区别)的可能性(概率)。n为了执行独立样本的t-检验,需要一个自变量(如下表中的“GENDER

12、”)和至少一个因变量(如测试分数“MEASURE”)。自变量的平均值将被根据不同的组(如“male”和“female”)进行分别计算并作比较。n如果因变量有多个,则分别对每一个因变量作t-检验。第35页/共93页第三十五页,共93页。第36页/共93页第三十六页,共93页。第37页/共93页第三十七页,共93页。q点击“Summary”按钮查看(chkn)结果q选择所有变量第38页/共93页第三十八页,共93页。第39页/共93页第三十九页,共93页。q单击“One variable list”按钮,在变量选择窗口中可以选择一个、多个(du )甚至所有的变量,在这里,单击“Select all

13、”选中所有变量。 q然后单击“Summary”按钮进行相关性分析,显示相关性分析结果的表格。 第40页/共93页第四十页,共93页。q用户可以设定高亮(o lin)显示相关系数的水平相关系数的绝对值越大,参数间的相关性越高。相关系数为正,也就是正相关,否则为负相关。第41页/共93页第四十一页,共93页。第42页/共93页第四十二页,共93页。第43页/共93页第四十三页,共93页。第44页/共93页第四十四页,共93页。Measure05 and Measure09 是统计重要的 (p=.0006), 接受错误相关的概率为6/10000,技术上说,从相关系数为-0.47或更强(往负的方向增大

14、)的总体中随机抽取一个(y )样本,在10000次中有6次是不相关的。第45页/共93页第四十五页,共93页。第46页/共93页第四十六页,共93页。第47页/共93页第四十七页,共93页。第48页/共93页第四十八页,共93页。也可以画出柱状图等其他(qt)图形。 MeanSE1.96*SE第49页/共93页第四十九页,共93页。q并且男性的平均值(5.46)大于女性(3.63),虽然这种差异是非常可能发生的,在这个统计重要度条件下,不期望发生这种差异的可能性大约是9/1000。但是这个结果(ji gu)还需要进一步的验证,首先可以观察这个变量的“box and whisker”图。 q在结

15、果的第五列(p-levels)查看p值,寻找p值小于0.05水平的变量。对大量的因变量,男性组和女性组的平均值比较接近。只有变量“MEASURE07”达到0.05的统计重要度,其p值为0.0087。第50页/共93页第五十页,共93页。第51页/共93页第五十一页,共93页。从这个意义上来说,虽然平均值是显著的存在区别,我们也经常以此来进行判断(pndun),但是在做统计研究的过程中,还是要谨慎的对待这种差异。 第52页/共93页第五十二页,共93页。两个(lin )分布不同第53页/共93页第五十三页,共93页。nSums of Squares This is the uncorrected

16、 sum of squares, or the sum of squared data values NStDev/第54页/共93页第五十四页,共93页。different a distribution is from the normal distribution. nA positive value typically indicates that the distribution has a sharper peak, thinner shoulders, and fatter tails than the normal distribution. A negative value m

17、eans that a distribution has a flatter peak, fatter shoulders, and thinner tails than the normal distribution. nKurtosis is calculated as 33/)()2)(1/(sxxnnn) 3)(2/() 1( 3/)() 3)(2)(1/() 1(244nnnsxxnnnnn第55页/共93页第五十五页,共93页。第56页/共93页第五十六页,共93页。nsxt/0第57页/共93页第五十七页,共93页。第58页/共93页第五十八页,共93页。acceptable a

18、 level is greater than the p-value, or 0.034.nA 95% confidence interval for the population mean, m, is (4.5989, 4.9789). Test of means against reference constant (value) (1sample t test.sta)VariableMeanStd.Dv.N Std.Err.Confidence-95.000%Confidence+95.000%ReferenceConstantt-valuedfpValue4.7888890.247

19、20790.0824024.5988694.9789095.000000-2.561968 0.033545第59页/共93页第五十九页,共93页。The confidence interval is calculated as 第60页/共93页第六十页,共93页。第61页/共93页第六十一页,共93页。第62页/共93页第六十二页,共93页。第63页/共93页第六十三页,共93页。commonly choosen a-levels, there is no evidence for a difference in energy use when using an electric vent

20、 damper versus a thermally activated vent damper. T-tests; Grouping: Damper (Spreadsheet7)Group 1: 1Group 2: 2VariableMean1Mean2t-valuedfpValid N1Valid N2Std.Dev.1Std.Dev.2F-ratioVariancespVariancesBTU_IN9.90775010.14300-0.38482088 0.70130040503.0198682.7670201.1911090.557837第64页/共93页第六十四页,共93页。第65页

21、/共93页第六十五页,共93页。第66页/共93页第六十六页,共93页。correlations.nSince all the p-values are smaller than 0.01, there is sufficient evidence at a= 0.01 that the correlations are not zero, in part reflecting the large sample size of 200. Correlations (Spreadsheet11)Marked correlations are significant at p .20; Lilli

22、efors p.01Shapiro-Wilk W=.97647, p=.02790-10-8-6-4-20246810X = Category Boundary05101520253035No. of obs.第71页/共93页第七十一页,共93页。上述(shngsh)窗口称作“Variable Specifications Editor”,可在“Data ”菜单中选择 “All Variable Specs ”命令打开。第72页/共93页第七十二页,共93页。第73页/共93页第七十三页,共93页。第74页/共93页第七十四页,共93页。q在“Graphs ”菜单中选择“Histograms

23、 ”命令,打开“2D Histograms - Advanced tab ”窗口(chungku),变量选择Pt_Poor ,在“Intervals box ”中将“Categories ”设置为16第75页/共93页第七十五页,共93页。“Median/Quartile/Range ”选项。Box & Whisker Plot Mean = 23.01 MeanSD = (16.5834, 29.4366) Mean1.96*SD = (10.4139, 35.6061)PT_POOR8101214161820222426283032343638第76页/共93页第七十六页,共93页。例如:人口变化增长率与贫困家庭比例(bl)成负相关,说明贫困导致人口外迁。第77页/共93页第七十七页,共93页。第78页/共93页第七十八页,共93页。standardized regression coefficients (Beta) raw

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论