已阅读5页,还剩37页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
实用统计分析方法与应用 现代统计学的研究对象:统计方法和统计逻辑 现代统计学的分类: 从实际应用中的方法来区分可分为 现代统计学概述 1 以总体全面资料或非随机性局部资料为基础的统计理论与方法体系 统计总体论)、统计设计、统计调查、统计整理、统计指数、动态分析理论、 描述统计 依据随机样本推断总体特征的理论与方法体系 概率论、经典统计理论、贝叶斯理论、统计判决理论等 数理统计 R 编程 可视 SAS 编程 Eviews 编程 可视 Matlab 编程 可视 SPSS 可视 Stata 可视 Excel 可视 。 统计软件 2 常用统计软件一览 (3种数据形态 ) SPSS的特点: 1:可视化操作,界面友好美观。 2:数据接口多。 3:操作简单,用户体验好。 4:较之 Excel数据处理能力更强。 数理统计的基本框架: 3 微积分 概率论 数理统计 基础 。 计量经济学 时间序列 数理统计的基本框架: 微积分: 数学基础,为概率论的运算以及数理统计的统计量提供基础。 概率论: 数理统计学所考察的数据都带有随机性(偶然性)的误差。这给根据这种数据所作出的结论带来了一种不确定性,其量化要借助于概率论的概念和方法。 数理统计基础: 对数据的结构分析和条件检验。对以数据为基础的计量经济学提供前端分析。 计量经济学: 利用建立模型和优化模型解决实际问题的方法。 时间序列分析: 是一种动态数据处理的统计方法。该方法基于随机过程理论和数理统计学方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题。 4 数理统计的基本框架: 5 总体 所研究对象的全体。 个体:总体中最小的研究单位。 总体容量:总体中所包含的个体个数。 总体中每一个个体都具有相同的观察特征。 样本 从总体中抽出若干个个体组成的集体 样本容量:样本中所包含的个体个数。 样本的分类取决于取得样本的方法。如简单随机样本等。 随机变量 对客观事物进行观察试验的结果。 随机变量是将试验事件数量化。 6 随机变量的数学特征 7 随机变量的数学特征 随机变量的分类 定性分类随机变量可分为 分类变量 和 有序变量 定量分类随机变量按数据集是否能够取有限个或至多可列个值,可分为 离散型变量 和 连续型变量 。 离散型变量: 随机变量 X只可能取有限个或至多可列个值 连续型变量: 变量可以在某个区间内取任一实数,即变量的取值可以是连续的 随机变量的数学特征 8 分布: 分布是形容数据的一类集体形态的特征,分布列或分布函数代表了数据出现在不同位置拥有的不同概率。 离散型随机变量的分布列: 表现出每一个随机变量取值及出现的概率 例: 价格 A1( 70万) A2( 88万) A3( 108万) 占比 25% 50% 25% 某楼盘当期开盘的户型总价分布列 常见的离散型变量分布: 0-1分布,泊松分布 随机变量的数学特征 9 随机变量的数学特征 10 最常用的连续型随机变量分布 正态分布 在统计中,许多重要的分布都是连续型分布,其中一种特别重要的连续型随机变量的概率分布就是正态分布 (Normal Distribution)。正态分布最初为 De Moivre于 1773 年发现,其后,拉普拉斯 (Laplace)和高斯 (Gauss)对它作出了很大的贡献,尤其是高斯的贡献最为突出,所以正态分布又称为高斯分布。 随机变量的数学特征 期望 方差 协方差与相关系数 大数定律与中心极限定理 11 随机变量的数学特征 期望: 在概率论和统计学中,一个离散型随机变量的期望值(或数学期望、或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和。 离散型随机变量: 12 以频率为权重的加权平均 1 1 2 2() k k k kkE X p x p x p x p x LL( ) 1 , 2 ,kkP X x p k Lkkkpx若级数 绝对收敛, 则称此级数为随机变量 X的数学期望,记作 E( X),即 13 例 某楼盘当期开盘的户型总价的分布列 求整个项目的平均价格 随机变量的数学特征 E( X) =70*25%+88*50%+108*25%=88.5 1 1 2 2 3 3 ) (E X p x p x p x 价格 A1( 70万) A2( 88万) A3( 108万) 占比 25% 50% 25% 随机变量的数学特征 14 连续型随机变量 设连续型随机变量 X的概率密度为 f (x), 则 ( ) ( )E X x f x d x 正态分布的期望 22()2()12xx e d xEX 数学期望的意义 15 试验次数较大时, X的观测值的算术平均值 在 E(X)附近摆动 ()x E X数学期望又可以称为 期望值 (Expected Value), 均值 (Mean) E(X)反映了随机变量 X取值的“ 概率平均 ” ,是 X的 可能值以其相应概率的加权平均。 方差的引入 16 E( X1 )=50 20 30 50 70 80 1/8 1/8 1/2 1/8 1/8 E( X2 )=50 总价(万元) 占比 40 50 60 1/4 1/2 1/4 设有两个楼盘,其各户型总价取值规律如下: 总价(万元) 占比 两种个楼盘的总价均值是相同的,但楼盘 2的波动更大 方差 17 2( ) ( )D X E X E X均方差(标准差) ( ) ( )X D X ()DX ()Var XX设 是一随机变量,如果 存在,则称 为 的方差,记作 或 2()E X E XX即 方差的计算步骤 18 ( ) ( )E X x f x d x Step 1: 计算期望 E(X) 1 1 2 2 ( ) k k k kkE X p x p x p x p x LLStep 2: 计算 E(X2) 22( ) ( )E X x f x d x 22 2 2 21 1 2 2 ) ( k k k kkE X p x p x p x p x LLStep 3: 计算 D(X) 22( ) ( ) ( ) D X E X E X离散型 连续型 离散型 连续型 协方差 在概率论和统计学中,协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。 直观上来看,协方差表示的是两个变量总体的误差,这与只表示一个变量误差的 方差 不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。 19 相关系数 前面说到当两个变量互为统计独立时,协方差 COV=0 但反之协方差 COV=0时,两个变量并不一定统计独立 相关系数是变量之间相关程度的指标。样本相关系数用 r表示 ,总体相关系数用 表示 ,相关系数的取值范围为 -1,1 20 定义 21 样本与总体 引 言 22 随机变量及其所伴随的概率分布全面描述了随机现象的统计性规律。 概率论的许多问题中,随机变量的概率分布通常是已知的,或者假设是已知的,而一切计算与推理都是在这已知是基础上得出来的。 但实际中,情况往往并非如此,一个随机现象所服从的分布可能是 完全不知道的,或者知道其分布概型,但是其中的某些参数是未知的。 例如: 望今缘在开售之前做市场调查,目标总体内有购房需求客户的当期 支付能力或者客户当前对户型面积的需求。所得出的数据集是服从的 分布是未知的。 数理统计的任务则是 以概率论为基础,根据试验所得到的数据, 对研究对象的客观统计规律性做出合理的推断。 样本与总体 23 总体与样本 在数理统计中 , 把研究对象的全体称为 总体 ( population)或母体 , 而把组成 总体的每个单元称为 个体 。 例如我们做市场调查 , 目标客户群体就是总体 , 每一个客户称为个体 。 总体: 样本: 在抽取过程中 , 每抽取一个个体 , 就是对总体 X进行一次随机试验 , 每次抽取 的 n个个体 , 称为总体 X的一个容量为 n的样本 ( sample) 或子样 ;其中样本中所 包含的个体数量称为样本容量 n。 总体是唯一的、确定的,而样本是不确定的、可变的、随机的。 抽样及抽样方法 24 1. 简单随机抽样 2. 类型抽样 3. 整群抽样 4. 等距抽样 5. 阶段抽样 常用抽样方法 定义 从欲研究的全部样品中抽取一部分样品单位。其基本要求是要保证所 抽取的样品单位对全部样品具有充分的代表性。抽样的目的是从被抽取样 品单位的分析、研究结果来估计和推断全部样品特性,是科学实验、质量 检验、社会调查普遍采用的一种经济有效的工作和研究方法。 简单随机样本样本必须具有的性质 25 代表性 即样本 ( )的每个分量 与总体 具有 相同的概率分布 。 12, , , nX X XL iX X独立性 即每次抽样的结果既不影响其余各次抽样的结果,也不受其它各次抽 样结果的影响。 满足上述两点要求的子样称为 简单随机样本 .获得简单随机样本的抽样方法叫 简单随 机抽样 . 样本( sample) 总体( population) 抽样( sampling) 总体容量( population size) N=45 样本容量( sample size) n=10 为推断总体的某些特征,而从总体中按一定方法抽取若干个体,这一过程称为抽样,所抽取的个体称为样本。 抽样方法 自有限总体的简单随机抽样 简单随机样本 有限总体 总体中每一个体以相等的概率被抽出,称简单随机抽样。 有放回抽样与 无放回抽样之分 。自有限总体的简单随机抽样,特指 有放回抽样 。 27 25 2 1 3 4 5 23 26 28 29 30 31 33 36 14 13 12 11 10 9 8 7 6 21 20 22 42 43 44 91 17 37 16 35 15 38 32 39 40 41 24 18 34 45 2 38 3 25 7 36 23 23 12 9 抽样方法 自无限总体的简单随机抽样 无限总体 自无限总体抽取样本,采用 无放回抽样 。如果满足以下两个条件,则称简单随机抽样: 每个个体来自同一个总体 样本中每个个体的抽取是独立的 简单随机样本 抽样方法 统计量 计算 总 体 确定性 样 本 随机抽样 随机性 随机性 xps样本统计量做为随机变量,具有特定的概率分布。 把握住他们的分布规律就找到了推断总体参数的依据。 总体参数 XP理论上可计算 确定性 抽样分布 30 统计方法 参数估计 31 数理统计问题:如何 选取样本 来 对总体 的种种统计特征 作出判断 。 参数估计问题:知道随机变量(总体)的 分布类型 ,但 确切的形式 不知道,根据样本来估计总体的参数 ,这类问题称为 参数估计 。 参数估计的类型 点估计、区间估计 点估计的方法 :构造一个统计量来对总体进行估计 主要方法:数字特征法、矩法、极大似然法 。 区间估计 :点估计总是有误差的,但没有衡量偏差程度的量,区间估计则是按 一定的可靠性程度对待估参数给出一个区间范围。 2Z 2显著性水平 22 10置信度 22 nZxnZx 2_2_ ,显著性水平 下, 在 1- 置信水平下的置信区间: 置信度 置信度 ,也叫置信水平。它是指特定个 体对待特定命题真实性相信的程度 .也 就是概率是对个人信念合理性的量度 . 概率的置信度解释表明 ,事件本身并没 有什么概率 ,事件之所以指派有概率只 是指派概率的人头脑中所具有的信念 证据。置信水平是指总体参数值落在 样本统计值某一区内的概率;而置信 区间是指在某一置信水平下,样本统 计值与总体参数值间误差范围。置信 区间越大,置信水平越高。 是否为大样本 n30 值是否已知 值是否已知 总体是否近 似正态分布 用样本标准差 s 估计 nszx2_nzx 2_nzx 2_nstx2_用样本标准差 s 估计 将样本容量 增加到 n30 以便进行区间 估计 是 是 是 是 否 否 否 否 总体均值区间估计程序 假设检验 34 引 言 统计假设 通过实际观察或理论分析对总体分布形式 或对总体分布形式中的某些参数作出某种 假设。 假设检验 根据问题的要求提出假设,构造适当的统 计量,按照样本提供的信息,以及一定的 规则,对假设的正确性进行判断。 基本原则 小概率事件在一次试验中是不可能发生的。 假设检验 35 参数的假设检验 :已知总体的分布类型,对分布函数或密度函数中的某些 参数提出假设,并检验。 思想 :如果原假设成立,那么某个 分布已知 的 统计量在某个区域内取值的 概率 应该较小,如果样本的观测数值落在这个小概率区域内,则原假设不 正确,所以,拒绝原假设;否则,接受原假设。 拒绝域 检验水平 假设检验 36 基本步骤 1、 提出原假设,确定备择假设 ; 2、 构造分布已知的合适的统计量 ; 3、 由给定的检验水平 ,求出在 H0成立的条件下的 临界值(上侧 分位数,或双侧 分位数) ; 4、 计算统计量的样本观测值,如果落在拒绝域内, 则拒绝原假设,否则,接受原假设。 37 相关分析 简单相关分析 是对两个变量之间的相关程度进行分析。单相关分析所用的指标称为单相关系数,又称为单相关系数、 Pearson(皮尔森)相关系数或相关系数。通常以 表示总体的相关系数,以表示样本的相关系数 38 相关系数的检验 在实际的客观现象分析研究中,相关系数一般都是利用样本数据计算的,因而带有一定的随机性,样本容量越小其可信程度就越差。因此也需要进行检验,即对总体相关系数 是否等于进行检验。数学上可以证明,在与都服从于正态分布,并且又有 的条件下,可以采用检验来确定的显著性。其步骤如下: 39 关键术语 无放回抽样( sampling without replacement) 一个元素一旦选入样本,就从总体中剔除,不能再次被选入 放回抽抽样( sampling with replacement) 一个元素一旦被选入样本,仍被放回总体中。先前被选入的元素可能再次被抽到,并且在本样中可能出现多次 抽样分布( sampling distribution) 样本统计量所有可能值构成的概率分布 点估计( point estimate) 用做总体参数估计量的值。它
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《布-加综合征的优化CTV技术及其与超声诊断的对比分析》
- 河南省《旅游概论》高考模拟卷3(解析版)
- 乳房再造护理查房
- 模电课件基本运算电路
- 2024年度数据服务合同标的赔偿协议
- 2024年度北京二手住宅定金支付协议
- 2024年度生物医药研发合作协议
- 2024年度知识产权许可合同:专利持有人与使用人之间的知识产权许可协议
- 下肢动脉闭塞手术治疗
- 医疗机构污水处理管道方案
- DB34∕1659-2022 住宅工程质量常见问题防治技术规程
- 牙体牙髓笔记整理 牙髓病、根尖周病
- 翻车机篦子层清理操作风险及控制措施
- THE LION, THE WITCH AND THE WARDROBE(《纳尼亚传奇》第一部――狮子女巫与魔衣橱 英文版)
- (学习)同型半胱氨酸PPT课件(PPT 31页)
- 2020 新ACLS-PCSA课前自我测试-翻译版玉二医【复制】附有答案
- 大班打击乐《孤独的牧羊人》课件
- 注射机与注射成型工艺详解
- 小升初学生个人简历模板
- (完整版)装饰装修工程监理规划
- 细心度测试卷
评论
0/150
提交评论