版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、统计学第一章 导论VLA1.1.1 什么是统计学 统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。数据分析所用的方法分为描述统计方法和推断统计方法。1.2 统计数据的类型1.2.1 分类数据、顺序数据、数值型数据 按照所采用的计算尺度不同, 可以将统计数据分为分类数据、 顺序数据、 数 值型数据。分类数据:只能归于某一类别的非数字型数据, 它是对事物进行分类的结果, 数据表现为类别,是用文字来表示。例如:支付方式、性别、企业类型等。 顺序数据: 只能归于某一有序类别的非数字型数据。例如:员工对改革措施的态度、产品等级、受教育程度等。 数值型数据: 按数字尺度测量的观测值,其结果表现
2、为具体的数值。例如:年龄、工资、产量等。 统计数据大体上可分为品质数据(定性数据)和数量数据(定量数据、数值 型数据)。1.2.2 观测数据和实验数据 按照统计数据的收集方法,可以分为观测数据和实验数据。观测数据:通过调查或观测而收集的数据。例如:降雨量、 GDP、家庭收入等。实验数据: 在实验中控制实验对象而收集到的数据。例如:医药实验数据、 化学实验数据等。1.2.3 截面数据和时间序列数据 按照被描述的现象与时间的关系,可分类截面数据和时间序列数据。截面数据: 在相同或近似相同的时间点上收集的数据。例如: 2012 年我国 各省市的 GDP。时间序列数据: 同一现象在不同的时间收集的数据
3、。例如: 2000-2012年湖北省的 GDP。1.3.1 总体和样本 总体:包含所研究的全部个体(数据)的集合。 样本:从总体中抽取的一部分元素的集合。1.3.2 参数和统计量 参数:用来描述总体特征的概括性数字度量。 统计量: 用类描述样本特征的概括性数字度量。例如:某研究机构准备从某乡镇 5 万个家庭中抽取 1000 个家庭用于推断该乡镇 所有农村居民家庭的年人均纯收入。 这项研究的总体是 5 万个家庭;样本是 1000 个家庭;参数是 5 万个家庭的人均纯收入; 统计量是 1000 个家庭的人均纯收入。第二章 数据的搜集2.1 数据的来源2.1.1 数据的间接来源间接来源的数据: 如果
4、与研究内容有关的原信息已经存在, 我们只是对这些 原信息重新加工、整理,使之成为我们进行统计分析可以使用的数据。 例如:统计公报、统计年鉴、某机构或某团体提供的数据、期刊、报纸和图书提 供的数据、会议交流的数据、互联网查阅的数据等。二手数据的优缺点:优点: 搜集方便,采集成本低,数据采集快,作用广泛等。 缺点: 针对性不够。2.1.2 数据的直接来源 普查: 调查针对总体中的所有个体单位进行。普查数据的优缺点: 优点:调查范围广,被调查单位多,信息全面,完整。 缺点: 调查费时,费力,费钱。2.2 调查数据2.2.1 概率抽样和非概率抽样 重复抽样: 从总体中抽取一个元素后, 把这个元素放回到
5、总体中再抽取第二 个元素,直至抽取 n 个元素为止的抽样方法。简单随机抽样: 从含有 N 个元素的总体中,抽取 n 个元素作为样本,使得 总体中的每一个元素都有相同的概率被抽中的抽样方式。分层抽样: 在抽样时,将总体分成互不交叉的若干个层级,然后按一定的比例, 从各层次独立地随机抽取一定数量的个体, 将各层次取出的个体合在一起作为样 本。整群抽样:先将总体划分为若干群体, 然后以群作为抽样单位从中抽取部分 群,再对抽中的各个群中所包含的所有元素进行观察的抽样方式。方便抽样: 调查过程中由调查员依据方便原则,自行确定入样单位。滚雪球抽样: 调查时首先选择一组调查单位, 对其实施调查后, 再请他们
6、提 供另外一些属于研究总体的调查对象, 调查人员根据所提供的线索, 进行此后的 调查的调查方式。2.4.1 抽样误差 样本量与抽样误差成反比。随着样本量的逐渐增大,抽样误差就越小。2.4.3 误差的控制 通过样本量的大小控制可以改变误差大小, 要求的抽样误差越小, 所需要的 样本量就越大。第三章 数据的图表展示3.2.1 分类数据的整理与图示(3)饼图主要用于表示一个样本 (或总体) 中各组成部分的数据占全部数据的比例。 适合 于描述结构性问题。(4)环形图 显示多个样本各部分所占的相应比例。 适合于比较研究两个或多个样本或总体的 结构性问题。3.3.1 数据分组为解决数据分组不重的问题, 统
7、计分组时习惯上规定 “上组限不在内” 即当相邻 两组的上下限重叠时, 恰好等于某一组上限的变量值不算在本组内, 而计算在下一组。(a xFa,拒绝Ho;若FvF a,不拒绝Ho(2)P值法是根据检验统计量的概率 P值与显著性水平G,进行比较,以要 判定应拒绝原假设还是不应拒绝原假设。如果 P值小于显著性水平a,则拒绝原 假设;如果P值大于显著性水平。,则不能拒绝原假设。& 1.5利用P值进行决策P值:当原假设为真是所得到的样本观察结果或更极端结果出现的概率。P值决策原理:得到检验统计量的概率 P值后的决策就是要判定应拒绝原假设还是不应拒绝原假设。如果检验统计量的概率 P值小于显著性水平a,则拒
8、绝原假设;P值 越小,拒绝原假设的理由就越充分。反之,如果检验统计量的概率P值大于显著 性水平ot,则不应拒绝原假设。n、总体标准差b 。& 2.1检验统计量的确定检验统计量选择的影响因素:样本量1. 样本量在大样本情况下,样本量都服从正态分布,我们使用z统计量。2. 总体标准差O是否已知(1) 总体标准差b已知 样本统计量服从正态分布,采用 z统计量。t分布,采用t统计量。 n 30时,根据使用者偏好(2) 总体标准差CT未知使用样本标准差代替总体标准差,样本统计量服从 当nv 30且总体标准差CT未知时,采用t统计量;当 选择z统计量还是t统计量。8-7,见教材P195。一个总体参数检验的
9、检验统计量的确定归纳为图 8.4.1关于检测结果的解释Ho”而不采用“接受Ho”通常统计学家建议我们在叙述中采用“不能拒绝 这种说法。8.4.2单侧检验中假设的建立在实际应用中,我们通常把希望验证的命题放在备择假设, 通过备择假设来 确定原假设,即把原有的、传统的观点或结论放在原假设上。我们需要注意的是:如果没有拒绝原假设,并不意味着原假设是真实的、真理, 也并不意味着备择假设就是错的,只是暂时没有充分的证据证明原假设不成立(如同无罪假设);接受备择假设则一定意味着原假设是错误的。关于何谓“原有的、传统的”,原假设,即原有理论、看法、状况、历史经 验、以及被大多数人认可的事情,在没有充分证据的
10、情况下,被假定为正确的事 情。关于何谓“新的、可能的”备择假设,即检验者感兴趣的那些新事物、可能的、 猜测质疑的问题,希望用事实推翻原假设以得出新观点。第十章方差分析10.1.1 方差分析及其有关术语 方差分析是比较多个总体的均值是否相等的统计方法, 本质上主要是研究一 个或多个分类自变量与一个数值型变量之间的关系 (即分类自变量对数值型因变 量的影响)。10.1.2 方差分析的基本思想和原理2. 误差分解 组内误差:来自水平内部的数据误差, 反映了一个样本内部数据的离散程度。组内误差只含有随机误差。 (见教材 P238)组间误差: 来自不同水平之间的数据误差,是随机误差和系统误差的总和, 反
11、映了不同样本之间数据的离散程度。P239P239P239在方差分析中,数据的误差是用平方和来表示的。 总平方和( SST): 反映全部数据误差大小的平方和。教材 误差平方和(SSE):反映组内误差大小的平方和。教材 因素平方和(SSA):反映组间误差大小的平方和。教材 SST=SSE+SSA10.1.3 方差分析中的基本假定 ( 1)每个总体应服从于正态分布。( 2)各总体的方差必须相同。( 3)观测值是独立的。 10.2.2 分析步骤 1.提出假设 2.构造检验的统计量 为构造检验的统计量,在方差分析中, 需要计算三个误差平方和 。SSE:每个组的各样本数据与其组均值的误差平方和,反映了每个
12、样本各观 测值的离散程度(随机误差的大小) 。对随机误差大小的度量,反映了除自变量 对因变量的影响之外, 其他因素对因变量的总影响, 也即残差变量。 残差变量所 引起的误差成为残差效应。SSA:各组均值与总均值的误差平方和,反映各样本均值之间的差异程度。 对随机误差和系统误差大小的测度, 反映了自变量对因变量的影响, 称为自变量 效应或因子效应。SST:全部观测值与总均值的误差平方和。对全部数据总误差程度的度量, 反映了自变量和残差变量的共同影响,等于自变量效应与残差效应之和。总平方和( SST) =组间平方和( SSA) +组内平方和( SSE)为了消除观测值多少对误差平方和大小的影响, 需
13、要将其平均, 也就是用各 平方和除以它们所对应的自由度。 计算结果成为均方或方差。 三个平方和所对应的自由度分别为:SST的自由度为n-1,其中n为全部观测值的个数。SSA的自由度为k-1,其中k为因素水平的个数。SSE的自由度为n-k。SSA的均方也称为组间均方或组间方差,记为MSA,其计算公式:MSA=SSA/(k-1) SSE的均方也称为组内均方或组内方差,记为MSE,其计算公式:MSE=SSE/(n-k) 将上述MSA与MSE进行对比(MSA/MSE),即得到所需要的检验统计量 F。3. 统计决策如果FFa,则拒绝原假设,表明各水平的均值有显著差异,也即所检验的 因素(行业)对观测值有
14、显著影响。如果FV Fa,则不能拒绝原假设,没有证据表明各水平的均值有显著差异, 也即不能认为所检验的因素(行业)对观测值有显著影响。在进行决策时, 除了使用以上方法进行判断之外, 还可以直接利用方差分析 表中的P值与显著性水平a的值进行比较。如果PV a时,则拒绝原假设;如果 P a时,贝U不能拒绝原假设。4. 方差分析表教材P246、P247,表10-4、表10-5,熟练掌握表中各字母及数值的代表意 义、利用临界值或 P 值进行统计决策。练习题:10.7 ( P263),熟练应用。第十一章 一元线性回归11.1.1 变量间的关系对应的函数关系: 因变量随着自变量一起变化, 并完全依赖于自变
15、量。 确定关系。例如:销售额与销售量相关关系: 非完全确定关系、一个变量的取值不能由另一个变量唯一确定。 (比如:家庭储蓄与家庭收入、父母身高与子女身高、教育程度与个人收入、产 量与施肥量)。11.1.2 相关关系的描述与测度 相关分析就是对两个变量之间线性关系的描述与度量。它要解决的问题包括:( 1 )变量之间 是否 存在关系( YES/NO)(2)存在什么样的关系(What)(3)关系强度如何?(4)样本能否代表总体关系相关系数 相关系数:根据统计数据计算的度量两个变量之间线性关系强度的统计量 相关系数的性质:1. r的取值范围是-1,1若0r1,正线性相关;若-1兰r0.8时,可视为高度相关0. 5r 0.8时,可视为中度相关0.3 r 0.5时,可视为低度相关 r a,则不能拒绝原假设,表明没有证据证实自变量x与因变量y 之间有显著性
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度美容院线上线下融合运营合同
- 2024版新能源发电项目合作协议
- 整装闭口合同范本
- 2024年度国际货物运输代理合同
- 二零二四年度版权买卖合同:图书出版权转让协议
- 订舱合同范本
- 篮协签约合同范本
- 煤炭竞价合同范本
- 二零二四年度北京某金融公司贷款合同
- 2024版产品生产加工合同
- GB/T 33718-2017企业合同信用指标指南
- 抱抱“暴暴”应对负面情绪 课件 高中心理健康
- GB/T 20981-2021面包质量通则
- GB/T 19412-2003蓄冷空调系统的测试和评价方法
- GB/T 1410-2006固体绝缘材料体积电阻率和表面电阻率试验方法
- 口腔科器械的清洗消毒规程-段丽辉
- 深基坑安全管理(安全培训)课件
- pep四年级上册英语期中复习课件
- 西北大学博士研究生培养方案
- 神经内科医疗质量评价体系考核标准
- 科技部创新基金项目专项审计报告参考样式
评论
0/150
提交评论