统计分析和prism软件使用201512_第1页
统计分析和prism软件使用201512_第2页
统计分析和prism软件使用201512_第3页
统计分析和prism软件使用201512_第4页
统计分析和prism软件使用201512_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、统计基础和统计基础和prism软件使用软件使用仝鑫 魏健2015-12目录目录线性回归和prism软件应用t检验、F检验(方差分析)和prism软件应用假设检验(参数检验和非参数检验)统计学基础知识The Gaussian Distribution The Gaussian function describing this shape is defined as follows:where m represents the populationmean and s the standard deviation.Few biological distributions, if any, real

2、ly follow the Gaussian distribution一、统计学基础知识The Central Limit TheoremIf your samples are large enough, the distribution of means will follow a Gaussian distribution even if the population is not Gaussian.N=10 or so is generally enough一、统计量(Descriptive Statistics:column statistics in prism)Measures o

3、f LocationA typical or central value that best describes the data(central tendency).Mean(平均值)Median(中数)Mode(众数)Geometric mean(几何均数)Measures of DispersionDescribe spread (variation) of the data around that central value.Range(范围)Variance(方差)Standard Deviation(标准偏差)Standard Error(样本间标准误=SD/n Coefficie

4、nt of variation(变异系数)Confidence Interval(置信区间)No single parameter can fully describe distribution of data in the sample. Moststatistics software will provide a comprehensive table describing the distribution.Measures of Location: MeanMeanMore commonly referred to as “the average”.It is the sum of th

5、e data points divided by the number of data points.Migration AssayCell #Distance travelled(Microns)14922731324245786807628399200M=76.78 microns = 77 micronsM 492713224 788062 392009Measures of Dispersion: VarianceVariance Defined as the average of the square distance of each value from the mean.To c

6、alculate variance, it is first necessaryto calculate the mean score then measurethe amount that each score deviates fromthe mean. The formula for calculating variance is:1)(22NMXSMeasures of Dispersion:Standard DeviationStandard DeviationThe most common and useful measure of dispersion.Tells you how

7、 tightly each sample is clustered around the mean. When the samples are tightly bunched together, the Gaussian curve is narrow and the standard deviation is small.When the samples are spread apart, the Gaussian curve is flat and the standard deviation is large. The formula to calculate standard devi

8、ation is:SD = square root of the variance.标准偏差(SD) 和标准误( SEM)Standard deviation refers to the amount you expect an individual measurement to vary from the average.标准差(standard deviation)衡量的是样本值对样本平均值的离散程度,反应个体间变异的大小,是量度数据精密度的指标。Standard error of the mean is how much you expect a value averaged from

9、several measurements to vary from the true mean. 标准误(standard error)衡量的是样本平均值对总体平均值的离散程度,反映抽样误差的大小,是量度结果精密度的指标。Should we show standard deviation or standard error?Use Standard Deviation If the scatter is caused by biological variability and you want to show that variability. For example: You aliquot

10、 10 plates each with a different cell line and measure integrin expression of each.Use standard error If the variability is caused by experimental imprecision and you want to show the precision of the calculated mean. Then show the 95% confidence interval of the mean. For example: You aliquot 10 pla

11、tes of the same cell line and measure integrin expression of each.Precision of the Mean在统计学中,样本的置信区间(Confidence intervals)是对这个样本的总体某参数的区间估计。展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。“一定概率”:称为置信水平。当求取90% 置信区间时 Z=1.645 当求取95% 置信区间时 Z=1.96当求取99% 置信区间时 Z=2.576The formula for calculating CI:CI = X (SEM x Z)X is the

12、sample mean and Z is the critical value for the normal distribution.For the 95% CI, Z=1.96.For our data set:95% CI=77 (19x1.96)=77 32CI 95%=45-109This means that theres a 95% chance that the CI you calculated contains the population mean.CI: A Practical ExampleData set AData set B8090855290308844796

13、892778855856288758688Data set AData set BMean86.164.1SD4.119.3SEM1.36.1Low 95% CI83.250.3High 95% CI89.077.9Between these two data sets, which mean do you think best reflects the population mean and why?Interpret CI of a meanSD/SEM/95% CI error barsSDSEM95% CI二、The Null Hypothesis(假设检定) Appears in t

14、he form Ho: m1 = m2Where; Ho = null hypothesism1 = mean of population 1m2 = mean of population 2 An alternate form is Ho: m1-m2=0 The null hypothesis is presumed true until statistical evidence in the form of a hypothesis test proves otherwise.(非此即彼)非此即彼)检验统计量检验统计量 用于假设检验问题的统计量称为用于假设检验问题的统计量称为检验统计量检

15、验统计量。 与参数估计相同,需要考虑:与参数估计相同,需要考虑: 总体是否正态分布;总体是否正态分布; 大样本还是小样本;大样本还是小样本; 总体方差已知还是总体方差已知还是未知。未知。假设检验的一些基本概念假设检验的一些基本概念假设检验的一些基本概念the difference you observed from sampling true difference of population. All you can do is calculate probabilities(P value:0,1). Before thinking about P values, you should:1)

16、 Assess the science. 2) Review the assumptions of the analysis you chose P values(Small P and big P see page 35 and 37)显著性水平显著性水平(threshold significance level)用样本推断用样本推断H0是否正确,必有犯错误的可能。是否正确,必有犯错误的可能。 原假设原假设H0正确,而被我们拒绝,犯这种错误的概率或风险用正确,而被我们拒绝,犯这种错误的概率或风险用 表示。表示。把把 称为假设检验中的称为假设检验中的显著性水平显著性水平, 即决策中的风险。即决

17、策中的风险。例:0.05时的接受域和拒绝域接受域接受域:原假设为真时允许范围内的变动,应该:原假设为真时允许范围内的变动,应该接受原假设。接受原假设。拒绝域拒绝域:当原假设为真时只有很小的概率出现,因而当统计量的结果落入这一区域:当原假设为真时只有很小的概率出现,因而当统计量的结果落入这一区域便应便应拒绝原假设拒绝原假设,这一区域便称作拒绝域。,这一区域便称作拒绝域。 假设检验的一些基本概念假设检验的一些基本概念双侧检验与单侧检验双侧检验与单侧检验假设检验根据实际的需要可以分为假设检验根据实际的需要可以分为 :双侧检验(双尾)双侧检验(双尾): 指只强调差异而不强调方向性的检验。指只强调差异而

18、不强调方向性的检验。单侧检验(单尾)单侧检验(单尾):强调某一方向性的检验。:强调某一方向性的检验。 左侧检验左侧检验 右侧检验右侧检验大还是小比是否有差异,不关心,只关注0101011010:mmmmmmmmHHmmmmmmmm1110011010:HHHH假设检验中的单侧检验示意图 拒绝域 拒绝域 (a)右侧检验 (b)左侧检验假设检验的一些基本概念假设检验的一些基本概念假设检验中的两类错误假设检验中的两类错误 假设检验假设检验是依据样本提供的信息进行推断的是依据样本提供的信息进行推断的,即由部分来推即由部分来推断总体断总体,因而假设检验不可能绝对准确因而假设检验不可能绝对准确,是可能犯错

19、误的。是可能犯错误的。 两类错误:两类错误: 错误错误(I型错误型错误): H0为真时却被拒绝为真时却被拒绝,弃真错误弃真错误; 错误错误(II型错误型错误): H0为假时却被接受为假时却被接受,取伪错误。取伪错误。 假设检验中各种可能结果的概率:假设检验中各种可能结果的概率: 接受接受H0 ,拒绝拒绝H1 拒绝拒绝H0,接受接受H1 H0为真为真 1 (正确决策正确决策) (弃真错误弃真错误) H0为伪为伪 (取伪错误取伪错误) 1- (正确决策正确决策)X(1) 与与 是两个前提下的概率。即是两个前提下的概率。即 是拒绝原假设是拒绝原假设H0时犯错时犯错误的概率,这时前提是误的概率,这时前

20、提是H0为真;为真; 是接受原假设是接受原假设H0时时犯错犯错误的概率,这时前提是误的概率,这时前提是H0为伪。所以为伪。所以 不等于不等于1。(2)对于固定的对于固定的n, 与与 一般情况下不能同时减小。对于固定一般情况下不能同时减小。对于固定的的n, 越小越小, Z /2越大越大,从而接受假设区间从而接受假设区间(-Z /2, Z /2)越大越大,H0就越容易被接受就越容易被接受,从而从而“取伪取伪”的概率的概率 就越大就越大; 反之亦然反之亦然。即样本容量一定时,。即样本容量一定时,“弃真弃真”概率概率 和和“取伪取伪”概率概率 不不能同时减少,一个减少,另一个就增大。能同时减少,一个减

21、少,另一个就增大。与 (3)要想减少要想减少 与与 ,一个方法就是要增大样本容量一个方法就是要增大样本容量n。与概率从而减少了两种错误的变小,则分布就瘦长,变小,就会中,在样本平均数的分布若增大mnnnNXn22),(与Statistical Power(统计功效)Hypothesis TestingObserve PhenomenonPropose HypothesisDesign StudyCollect and Analyze DataInterpret ResultsDraw ConclusionsvvvStatistics are an importantPart of the st

22、udy designNonparametric tests and parametric tests(参数检验和非参数检验)ANOVA, t tests, and many statistical tests :sampled data from populations that follow a Gaussian bell-shaped distribution.many kinds of biological data follow a bell-shaped distribution that is approximately Gaussian.a Gaussian distributi

23、on :Normality test(正态性检验):Normality tests can help you decide when to use nonparametric tests, but the decision should not be an automatic one.examine the frequency distribution or the cumulative frequency distribution.使用服从使用服从T分布的统计量检验正态总分布的统计量检验正态总体平均值的方法。体平均值的方法。是定量资料分析中最常用的假设检验是定量资料分析中最常用的假设检验方法

24、方法t检验和prism软件应用三、t检验、F检验(方差分析)和prism软件应用t检验类型1 1、样本均数与已知某总体均数、样本均数与已知某总体均数比较的比较的t t检验检验 use the column statistics analysis2 2、配对设计(、配对设计(paired design)均数比较的均数比较的t t检验检验目的:推断两个未知总体均数1与2是否有差别,用配对设计。3 3、两个独立样本(、两个独立样本(unpaired design)均数比较的)均数比较的t t检验检验目的:推断两个未知总体的均数1与2是否有差别,用成组设计。 适用于样本均数与已知总体均数0的比较,其比

25、较目的是检验样本均数所代表的总体均数是否与已知总体均数0有差别。 已知总体均数0一般为标准值、理论值或经大量观察得到的较稳定的指标值。 单样t检验的应用条件是总体标准未知的小样本资料( 如n50),且服从正态分布。 一、样本均数与已知某总体均数的比较(单样本t检验)二、配对设计均数比较的t检验(配对t检验)配对设计处理分配方式主要有三种情况:两个同质受试对象分别接受两种处理,如把同窝、同性别和体重相近的动物配成一对,或把同性别和年龄相近的相同病情病人配成一对;同一受试对象或同一标本的两个部分,随机分配接受两种不同处理;自身对比(self-contrast)。即将同一受试对象处理(实验或治疗)前

26、后的结果进行比较,如对高血压患者治疗前后、运动员体育运动前后的某一生理指标进行比较。 案例1 6L1 Tm1t ratioTesting if pairs follow a Gaussian distribution独立样本:又称非配对样本或成组样本。是指一组数据与另一组数据没有任何关系,也就是说,两样本资料是相互独立的。u两组的样本容量尽可能相同,可以提高检验的精确度。u其均数差异显著性的t检验,又分为两总体方差相等(方差齐性)和方差不等两种检验方法(Levenes Test for equality of variance)。u若两总体方差不等,即方差不齐,可采用t检验,或进行变量变换,或

27、用秩和检验方法处理。 三、两个独立样本均数比较的t检验(两独立样本的t检验)案例2 6L1rs和16L1rs Tm1nonparametric testChoosing when to use a nonparametric test is not straightforward The Mann-Whitney test Wilcoxon matched pairs test -unpaired data总结应用条件:t 检验:1. 小样本(n50)计量资料 2.样本来自正态分布总体 3.总体标准差未知 4.两样本均数比较时,要求两样本相 应的总体方差相等(方差齐性)2022-6-4 把所有

28、观察值之间的变异分解为几个部分。即把描写观察值之间的变异的离均差平方和分解为某些因素的离均差平方和及随机抽样误差的离均差平方和,进而计算其相应的均方差,构成F统计量。 分类: 单因素方差分析:因素只有一个,这个因素的水平2。多因素(2)方差分析:因素2,各因素的水平2方差分析(ANOVA,F检验)和prism软件应用 在试验中所考虑的因素只有一个时,称为单因素实验。 它是最简单的一种,它适用于只研究一个试验因素的资料,目的在于正确判断该试验因素各处理的相对效果(各水平的优劣)1.各样本是相互独立的随机样本;各样本是相互独立的随机样本;2.各样本数据均服从正态分布;各样本数据均服从正态分布;3.相互比较的各样本的总体方差相等,相互比较的各样本的总体方差相等, 即方差齐性即方差齐性(homogeneity of variance)。单因素方差分析(one way ANOVA) ordinary one-way ANOVA Repeated measures one-way ANOVA Non parameters :Kruskal-Wallis test; Fredmans test案例3NaCl浓度对6L1rs颗粒影

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论