版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、一、什么是统计学Statistics? 统计学是收集、分析、表述和解释统计数据统计学是收集、分析、表述和解释统计数据 的科学。统计学是关于数据的科学。的科学。统计学是关于数据的科学。 资料的收集收集就是取得统计数据。 数据整理数据整理是将数据分组、归纳和汇总并将其用图表 的形式表达出来。 数据分析数据分析是通过统计方法研究数据,并结合实际背 景阐述实际问题的特征的过程。 数据解释数据解释是对分析结果进行说明。 统计学分为描述统计学描述统计学和推断统计学推断统计学。 反映客观反映客观 现象的数现象的数 据据 总体内在的总体内在的 数量规律性数量规律性 推断统计推断统计 (利用样本信息和概率(利用
2、样本信息和概率 论对总体的数量特征进论对总体的数量特征进 行估计和检验等)行估计和检验等) 概率论概率论 (包括分布理论、大数定律(包括分布理论、大数定律 和中心极限定理等)和中心极限定理等) 描述统计描述统计 (统计数据的搜集、整(统计数据的搜集、整 理、显示和分析等)理、显示和分析等) 总体数据 样本数据 描述统计与推断统计的关系描述统计与推断统计的关系 几个基本概念 总体总体(population)、个体(、个体(individual)与样本)与样本(sample) 总体(N):一个统计问题所研究对象的全体 有限总体有限总体:一个班级学生的身高 无限总体无限总体:临床试验中来推断某一药品
3、疗效高、某一棉 田棉铃虫的头数 个体:组成总体的每一基本单元 样本(n):从总体中抽取的部分个体,用于对总 体进行推断(n30,小样本;n30,大样本) 通过某事物的一部分(样本),来估计事物的全部 (总体)特征 JJ JJ JJ JJ JJ 几个基本概念(续) 几个基本概念(续) 变量变量(variable)与观测值与观测值(observation) 变量(变数):相同性质的事物表现差异性的 某种特征某种特征,其表现随个体而异 身高、体重、叶绿素含量、叶片形状 随机变量:变量取值的变化是不可预测的 变量通常记为:x,y,z, 观测值:对变量进行测量或观察所获得的数值 观测值也称为:变量值(v
4、alue of variables)、 资料/数据(data) 二、均值和方差二、均值和方差 :第:第i个观察值或变数个观察值或变数 n:观察值或变数的个数:观察值或变数的个数 :求和符号(:求和符号(sigma) 计算公式:计算公式: 1 i xx n i x 标准差和方差标准差和方差 总体方差和总体标准差总体方差和总体标准差 2 2 ()x n 2 ()x n 2 2 () 1 xx s n 2 () 1 xx s n 样本方差和样本标准差样本方差和样本标准差 三、概率与概率分布三、概率与概率分布 概率分布-几个概念 概率函数概率函数(probability function) 随机变量取
5、某一特定值的概率函数(离散型随机变量) 二项分布(对立事件)和泊松分布(出现概率较小,样本 容量大) 概率密度函数概率密度函数(probability density function) 随机变量取某一特定值的密度函数(连续型随机变量) 概率分布函数概率分布函数(probability distribution function) 随机变量取值小于或等于某特定值的概率 离散型随机变量的概率分布 概率分布图概率分布图 概率分布函数 累积函数 密度函数 连续型随机变量的密度函数及概率 分布函数 x=某一特定值时,P=0 12 若若n n,二项分布连接线表现为一个光滑的曲线。 这一曲线称之为正态分布
6、曲线正态分布曲线或正态概率曲线正态概率曲线。其 概率密度函数为: 记做:N( , 2) 2 1 () 2 1 ( ) 2 x f xe 13 由于正态曲线受和的制约,曲线随这两 个参数的变化而改变。 构造一个新变数,这个变数要消去和的 影响。假定新变数用u来表示,则: 标准正态分布的概率密度函数 u变换变换 标准正态标准正态 分布分布 u u服从均数为服从均数为0 0、标准差为、标准差为1 1的正态分布的正态分布 x u 15 原总体原总体 样本样本1样本样本2样本样本n 1 x 2 x 2 x 新总体新总体 n 统计量统计量 如果从容量为N的总体抽样(放回),若每次抽取容量为n的 样本,那么
7、一共可以得到Nn个样本。 每个样本可以计算一个平均数,如果将这些平均数集合起来 便构成一个新总体。 由于每次随机抽样所得的平均数可能会存在差异,所以由平 均数构成的新总体也应该有其分布,这种分布称为平均数的平均数的 抽样分布抽样分布。 样本均值的抽样分布样本均值的抽样分布 1、样本平均数的期望值、样本平均数的期望值 由于不同的样本可得到不同的样本均值,因此, 考察样本均值的期望就显得非常重要。 用 表示样本均值的期望值, 表示总体均值, 可证明在简单随机抽样中。 x ()E xX X 2. 2.样本平均数的标准差样本平均数的标准差 x 称为标准误标准误。 2 2 xx nn t分布分布 当总体
8、标准差未知时,且样本数小于30时, 以样本 标准差S代替所得到的统计量 记为t。在 计算时,由于采用S来代替,使得t 变量不再服从标 准正态分布,而是服从t分布 () / x xS / x t sn 服从自由度为n-1的t分布 2、t分布密度曲线以纵轴为对称轴,左右对称,且在t0时, 分布密度函数取得最大值 3、与标准正态分布曲线相比,t分布曲线顶部略低,两尾部 稍高而平.df越小这种趋势越明显.df越大,t分布越趋近 于标准正态分布.当n 30时,t分布与标准正态分布的区 别很小;n 100时,t分布基本与标准正态分布相同; n时,t分布与标准正态分布完全一致 正态分布曲 线与t分布 曲线的
9、比较 t分布的特征分布的特征 1、t分布受自由度 df=n-1的制约,每 一个自由度都有一 条t分布密度曲线 分布分布 设从一正态总体 中随机抽取样 本容量为n,m的两个独立样本,其样本的方 差为 ,则定义 两者的比值为F : 2 ( ,)N 22 12 ,ss 2 1 2 2 s F s 服从自由度为n-1,m-1的F分布 F分布特征分布特征 1)F分布的平均数1,F的取值区间为0,+) 2)F分布曲线的形状仅决定于df1和df2.在df1l或2 时,F分布曲线呈严重倾斜的反向J型,当df1=3时转为 左偏曲线(在平均值的左边) 不同自由度下的F分布曲线 四、统计推断 假设检验假设检验 参数
10、估计参数估计 原理:概率很小的事件在一次抽样试验 中实际是几乎不可能发生的。 =0.05/0.01 假设检验(Hypothesis) 如何进行检验:如何进行检验: 样本样本 平均数平均数 总体总体 均数均数 推断推断 样本样本 随机抽样随机抽样 总体总体 1 1 、提出假设、提出假设 无效假设无效假设 /零假设零假设 /检验假设检验假设 备择假设备择假设 /对应假设对应假设 2 2 、 确定显著水平确定显著水平 0.05显著水平* 极显著水平* 能否定能否定H0的的人为人为规定的规定的概率概率标准称为显著水平,记作标准称为显著水平,记作 。 统计学中,一般认为概率小于统计学中,一般认为概率小于
11、0.05或或0.01的事件为的事件为 小概率事件小概率事件,所以在小概率原理基础上建立的假设检验所以在小概率原理基础上建立的假设检验 也常取也常取 =0.05和和 =0.01两个显著水平两个显著水平 。 P1.581)=20.0571=0.1142 根据研究设计的类型和统计推断的目的选根据研究设计的类型和统计推断的目的选 择使用不同的检验方法。择使用不同的检验方法。 本例:服从本例:服从N( x, x2)分布。分布。 例: 126 0 x 40 6 240 2 2 n x 4、作出推断结论:是否接受假设 P P30时,可用样本方差s2来代替 总体方差2 ,仍用u检验法。 3、总体方差2未知,且
12、n30且n230时,用u u检验法。检验法。 2、两个总体方差12 和22未知,且两个样本都是小样本, 即n130且n230时,用t t检验法检验法。 所谓方差的同质性,就是指各个总体的所谓方差的同质性,就是指各个总体的 方差是相同的。方差是相同的。 方差的同质性检验就是要从各样本的方方差的同质性检验就是要从各样本的方 差来推断其总体方差是否相同差来推断其总体方差是否相同 方差的同质性检验 五、方差分析 t t 检验可以判断两组数据平均数间的差异显著性检验可以判断两组数据平均数间的差异显著性 对多个处理进行平均数差异显著性检验时,采用对多个处理进行平均数差异显著性检验时,采用t t检验检验 法
13、的缺点:法的缺点: 方差:又叫均方,是标准差的平方,是表示变异的量。方差:又叫均方,是标准差的平方,是表示变异的量。 确定各种原因在总变异中所占的重要程度。确定各种原因在总变异中所占的重要程度。 处理效应处理效应 试验误差试验误差 相差不大,说明试验处理对指标影响不大。相差不大,说明试验处理对指标影响不大。 相差较大,即处理效应比试验误差大得多,相差较大,即处理效应比试验误差大得多, 说明试验处理影响是很大的,不可忽视。说明试验处理影响是很大的,不可忽视。 xij = + i +ij (i=1,2,3(i=1,2,3,k,k;j=1,2,3j=1,2,3,n),n) 总体平均数总体平均数i 处
14、理效应处理效应 ij 试验误差试验误差 xij 是在第是在第 i 次处理下的第次处理下的第 j 次观测值次观测值 要明确要明确不同处理平均数两两间差异的显著性不同处理平均数两两间差异的显著性, 每个处理的平均数都要与其他的处理进行比较,每个处理的平均数都要与其他的处理进行比较, 这种差异显著性的检验就叫这种差异显著性的检验就叫多重比较多重比较。 即:统计上把多个平均数两两间的相互比较称为即:统计上把多个平均数两两间的相互比较称为 多重比较。多重比较。 概念概念 五、多重比较五、多重比较 不同离子不同离子对木聚糖对木聚糖酶活性酶活性的影响的影响(mg/ml)(mg/ml) 0.00 0.25 0
15、.50 0.75 1.00 1.25 0.00 0.06 0.12 0.18 0.24 0.30 0.00 0.40 1.20 1.60 2.00 0.00 0.40 0.60 0.80 1.00 1.20 Na+K+ Cu2+ Mn2+ 水平水平 实验指标实验指标 因素因素 *对对多因素试验多因素试验而言,而言,处理就是指水平与水平的组合处理就是指水平与水平的组合 定义定义:是指对:是指对试验指标试验指标同时受到两个试验同时受到两个试验因素因素 作用的试验资料的方差分析。作用的试验资料的方差分析。 二因素都是固定因素二因素都是固定因素 二因素均为随机因素二因素均为随机因素 固定模型固定模型
16、随机模型随机模型 混合模型混合模型 一个因素是固定因素,一个因素是固定因素, 一个因素是随机因素一个因素是随机因素 二因素方差分析二因素方差分析 三种模型在计算上类似,但在对待检验及结果解释时有三种模型在计算上类似,但在对待检验及结果解释时有 所不同所不同。 主效应和互作主效应和互作 主效应主效应(main effectmain effect): 各试验因素的相对独立作用(不同饲料的各试验因素的相对独立作用(不同饲料的 增重差异,不同品种玉米产量不同)增重差异,不同品种玉米产量不同) 互作、交互互作、交互(interactioninteraction): 某一因素在另一因素的不同水平上所产生某
17、一因素在另一因素的不同水平上所产生 的效应不同。的效应不同。 方差分析的基本假定 正态性正态性 可加性可加性 方差同质性方差同质性 二因素方差分析二因素方差分析 六、回归与相关的概念 相相 关关 变变 量量 因果关系因果关系 平行关系平行关系 回归分析回归分析(regression analysis)(regression analysis) 相关分析相关分析(correlation analysis)(correlation analysis) 一个变量的变化一个变量的变化受到受到另一另一 个变量或几个变量的个变量或几个变量的制约制约 两个以上变量之间两个以上变量之间共同受共同受 到到另外因
18、素的另外因素的影响影响 (一)、直线回归的变异来源 (x,y) 实际值与估计值之差,剩余或残差。 估计值与均值之差,它与回归系数的大小有关。 yy y y yy y y y y abx yy 因变量因变量 y y的平方和,总平方和,的平方和,总平方和,SSSST T或或SSSS总 总 回归平方和回归平方和 U/SSU/SSR R离回归平方和离回归平方和 Q/SSQ/SSE E 222 ()()()y yyyyy 变异 分解 两个变量是否存在线性关系,采用两个变量是否存在线性关系,采用F F检验法进行。检验法进行。 也以采用也以采用t t检验法进行(需分别检验检验法进行(需分别检验a a、b b
19、值)。值)。 若若x x与与y y间间不存在直线关系不存在直线关系,则总体回归系数,则总体回归系数=0;=0; 若若x x与与y y间间存在直线关系存在直线关系,则总体回归系数,则总体回归系数00. . F F值较大时,说明方程的变值较大时,说明方程的变 异主要有回归平方和(异主要有回归平方和(U U) 造成,方程成立。造成,方程成立。 t t检验法检验法 F F检验法检验法 回归方差回归方差 离回归方差离回归方差 = F= F 直线回归的直线回归的适应范围适应范围一般以自变量的一般以自变量的 取值为限取值为限。 直线回归注意问题 在自变量范围内求出的估计值,一般称为内在自变量范围内求出的估计
20、值,一般称为内 插插(interpolation);超过自变量取值范围所计算超过自变量取值范围所计算 出的估计值,称为外延出的估计值,称为外延(extrapolation)。 若无充分理由证明超过自变量取值范围还是若无充分理由证明超过自变量取值范围还是 直线,应该避免外延。直线,应该避免外延。 yyyx yx xy SS U SS bSP SS SP SS SP SSSS SP r yy y y SS Q SS QSS SS U r 1 2 决定系数 coefficient of determination 反映客观反映客观 现象的数现象的数 据据 总体内在的总体内在的 数量规律性数量规律性
21、推断统计推断统计 (利用样本信息和概率(利用样本信息和概率 论对总体的数量特征进论对总体的数量特征进 行估计和检验等)行估计和检验等) 概率论概率论 (包括分布理论、大数定律(包括分布理论、大数定律 和中心极限定理等)和中心极限定理等) 描述统计描述统计 (统计数据的搜集、整(统计数据的搜集、整 理、显示和分析等)理、显示和分析等) 总体数据 样本数据 描述统计与推断统计的关系描述统计与推断统计的关系 标准差和方差标准差和方差 总体方差和总体标准差总体方差和总体标准差 2 2 ()x n 2 ()x n 2 2 () 1 xx s n 2 () 1 xx s n 样本方差和样本标准差样本方差和样本标准差 离散型随机变量的概率分布 概率分布图概率分布图 1、样本平均数的期望值、样本平均数的期望值 由于不同的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 信用卡借用 合同模板
- 基础水钻开挖合同范例
- 劳务合同范例驾校
- 北京标准用工合同范例
- 基地加盟合同范例
- 公司合同范例书籍
- 外汇托管合同范例
- 外线施工劳务合同范例
- 二手空调租赁简易合同范例
- 修路工程全包合同范例
- 【语文】宁波市小学四年级上册期中试卷
- 《埃隆·马斯克传》导读
- 环保设施安全风险评估报告
- MOOC创新创业与管理基础(东南大学)
- 【基于活动理论的信息技术课程教学研究8300字(论文)】
- 年产15万吨PET的生产工艺设计-毕业论文
- 车间生产计划完成情况统计表
- 品管圈(QCC)降低ICU护士床头交接班缺陷率课件
- 《左道:中国宗教文化中的神与魔》读书笔记模板
- 施工现场临时用电安全技术规范
- 同仁堂药品目录
评论
0/150
提交评论