数据统计与分析技术.ppt

上传人：j*** IP属地：四川上传时间：2019-08-08 格式：PPT 页数：111 大小：1.55MB 积分：15 举报 版权申诉

已阅读5页，还剩106页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

数据统计与分析技术,数据统计与,分析技术,1. 分析前数据预处理 2. 样本描述性统计 3. 平均数比较与T检验 4. 相关分析 5. 回归分析 6. 非参数检验 7. 方差分析 8. 聚类分析和判别分析 9. 主成分分析和因子分析 10. 时间序列分析,分析前数据预处理,1.1 数据的排序 1.2 数据的转置 1.3 数据的拆分 1.4 数据文件的合并 1.5 数据的选择 1.6 数据的加权 1.7 数据的转换,样本描述性统计,2.1 基本数学模型 2.2 频数分析过程 2.3 数据描述过程 2.4 数据探察过程 2.5 列联表分析过程,平均数比较与T检验,3.1 分组平均数的比较 3.2 单一样本t检验 3.3 独立样本t检验 3.4 配对样本t检验,相关分析,4.1 相关系数 4.2 偏相关系数 4.3 距离分析,回归分析,5.1 线性回归 5.2 曲线回归,非参数检验,6.1 非参数检验概述 6.2 单样本检验 6.3 独立样本差异的显著性检验 6.4 相关样本差异的显著性检验,方差分析,7.1 方差分析概述 7.2 方差分析的基本步骤 7.3 单因素方差分析 7.4 多因素方差分析 7.5 协方差分析,聚类分析和判别分析,8.1 聚类分析和判别分析过程概述 8.2 快速样本聚类过程 8.3 分层聚类分析 8.4 判别分析,主成分分析和因子分析,9. 1 主成分分析 9. 2 因子分析,时间序列分析,10.1 指数平滑法 10.2 季节分解法 10.3 自回归法 10.4 自回归综合移动平均模型,Bye,Bye,数据的排序,1. 在主菜单中单击Data菜单选项，打开该菜单条；,2.单击Sort Cases选项，打开对话框；,3. 在左边窗口选定变量名，再用箭头按钮，将变量转到Sort by 窗口中；,4.在Sort Order方框中，选择排序方式。,数据的排序对话框,数据的转置,1. 在主菜单中单击Data菜单选项，打开该菜单条；,2.单击Transpose选项，打开对话框；,3.在左边窗口选定变量名，再用箭头按钮，将变量转到Transpose窗口中；,4. 单击“OK”按钮，确认后，生成新的数据文件。,数据的转置对话框,数据的拆分,1. 在主菜单中单击Data菜单选项，打开该菜单条；,2.单击Split File选项，打开对话框；,3.选择进行拆分的方式；,4.在左边窗口选定变量名，用中间箭头按钮，将变量转到Groups Based on窗口中；,5.注意拆分前的排序，选择两种方式。,数据的拆分对话框,数据文件合并,样本合并(横向拼接） DataMerge FilesAdd Cases,2.变量合并(纵向拼接） DataMerge Files Add Variable,数据的选择,1. 根据逻辑关系表达式选择数据,2.随机选取数据,3.在给定范围内选择数据,4.用过滤器变量选择数据,数据的加权,1.加权（Weight）是一种通过人为方法来调节样本或数据大小的方法，在资料输入、样本分析和科学评价中经常起到举足轻重的作用。,2.加权有两种情况：对变量的值加权对个案加权对话框,数据的加权对话框,数据的转换,1. 利用Compute功能选项转换数据 2. 利用Count功能选项转换数据 3. 利用Recode功能选项转换数据 4. 利用Automatic Recode功能选项转换数据 5. 利用随机数种子转换数据,基本数学模型,描述集中趋势的统计量: 算术平均数调和平均数几何平均数众数中位数 2.描述离散趋势的统计量极差平均差标准差（方差）标准误 3.描述分布特征的统计量偏度峰度,算术平均数,算术平均数等于所有样本数据的总和除以数据个数。算术平均值是描述样本数据中心趋势最常用的统计量。在分组条件下，其公式为：,标准差（方差）,标准差（）与方差（2 ）是反映数据离散趋势最常用的统计量。在分组条件下，方差的公式为：,标准差是方差方差的算术平方根。,频数分析过程,该过程可计算数据资料的各种描述统计指标、给出变量简单频数分布表、绘制几种变量分布图。,Analyze Descriptive Statistics Frequencies 出现对话框,操作,频数分析过程对话框,统计量选择对话框,数据描述过程,操作,该过程计算数据资料的各种描述统计指标，但不给出分布图。,Analyze Descriptive Statistics Descriptives 出现对话框,数据描述过程对话框,Options对话框,数据探察过程,操作,探索性数据分析是指对数据的初步考察，由描述统计指标和直观的图形组成。包括检查数据错误、描述整体或分组数据的数量特征和分布特征，假设检验，奇异值辨认等。,Analyze Descriptive Statistics Explore 出现对话框,数据探察过程对话框,列联表分析过程,操作,列联表是按两个标志对一组观察值进行交叉分组所得到的频数分布表，表中列出同时联系于横行和纵行某特定标志名称的观察值数目，在表的右边栏列出各行频数的合计，在表的底行列出各列频数的合计，在两者交叉处，即表的右下角，列出频数总计。,Analyze Descriptive Statistics Crosstabs 出现对话框,列联表分析过程对话框,平均数分析,该过程主要用于分组计算各统计指标，也可以进行单因素随机设计方差分析和线性检验。,Analyze Compare Means Means 出现对话框,操作,平均数分析对话框,Options对话框,单一样本t检验,Analyze Compare Means One Sample T Test 出现对话框,操作,该过程用于检验样本平均数与总体平均数之间是否存在差异。,单一样本t检验对话框,独立样本t检验,Analyze Compare Means Independent-Sample T test 出现对话框,操作,该过程用于检验两个独立样本的平均数之间是否存在差异。,独立样本t检验对话框,独立样本,独立样本(Independent Sample)是指两个样本彼此独立，没有任何关联。例如实验组与控制组、男生组与女生组、高收入组与低收入组、大学数学系与物理系等。但这里的独立样本是广义的独立，仅是指非关联变量。两独立的样本各接受相同的测量，研究者的兴趣在比较两批样本群在测量结果总体上是否存在差异。独立样本中，所有观测都是独立的，即具体个别样本的顺序可以变化的，与变量无关。,配对样本t检验,Analyze Compare Means Paired-Sample T test 出现对话框,操作,该过程用于检验两个配对样本的平均数之间是否存在差异。,配对样本t检验对话框,配对样本,配对样本（Paired Sample）或相关样本（Correlated Sample），指两个样本的观测值之间彼此有关联，如同一批被试者接受两种实验条件，即同一批观测对象接受两种不同的测量。对于此类样本，研究者所感兴趣的是二次测量之间是否存在差异。如实验前和实验后的测量，即具体个别样本的顺序不可以变化的。,相关分析,相关分析是研究两变量之间的关系。相关模型包括皮尔逊（Pearson）、斯皮尔曼（Spearman）和肯特尔（Kendall）三种子模型。相关模型要求X、Y变量都是随机变量，并都呈正态分布。满足上述正态分布的定量数据可用Pearson相关模型。对于定序、计数数据、对于不满足正态分布的数据，则非参数检验模型，即Spearman和Kendall相关模型。,相关分析,相关过程调用：AnalyzeCorrelate Bivariate：,Pearson相关模型,Pearson相关系数计算公式：,r是最常用的相关系数,偏相关系数,多个变量之间的相关关系是错综复杂的，任何两个变量之间都有简单相关关系，而这种相关关系中夹杂了其他变量所带来的影响。固定其他因素，而计算某两个因素之间的相关系数称为偏相关系数。,偏相关系数,相关过程调用：AnalyzeCorrelate Partial:,距离分析,对于更复杂数据资料之间的关系，可利用距离分析来进行研究。距离分析通过计算各样本点之间的距离，来观测样本之间的相似或不相似程度，从而可进一步进行聚类分析、因子分析和多维分析。,线性回归,一元线性回归多元线性回归可化为线性回归的非线性回归,多元回归的方法,线性回归,线性回归过程调用：AnalyzeRegression Linear Regression,x：可控制或可精确观测得到的数据的变量； Y：与x具有相关关系的随机变量。 xi (i=1, 2, , n) yi (i=1, 2, , n) 数据对（样本值）：(xi, yi) i=1, 2, , n 散点图(Scatter Graph) 假定Y与x具有线性相关关系：,(xi, yi),其中，是数学期望为0的随机变量，假设满足正态分布，于是：,一元线性回归,x1, x2, , xr：r个可控制或可精确观测得到的数据的变量； Y：与x1, x2, , xr具有相关关系的随机变量。假定Y与x1, x2, , xr具有线性相关关系：,其中，是数学期望为0的随机误差，且满足正态分布。对于n组样本观察值（nr）： xi1, xi2, , xir (i=1, 2, , n) yi (i=1, 2, , n) 多元线性回归模型为：,其中，i互不相关。,多元线性回归,多元线性回归方法,Enter (全回归法) Stepwise （逐步回归法） Remove（剔除法） Backward（向后回归法） Forward（向前回归法）,引入自变量的显著性水平1 剔除自变量的显著性水平2,对不在方程中的自变量能否引入？,引入自变量,对已在方程中的自变量能否剔除？,剔除自变量,筛选结束,能,否,能,否,逐步回归的基本步骤,1. 双曲线型,方法：变量替换,可化为线性回归的非线性回归,2. 指数曲线型,若a0，则令v=lny，得到：,若a0，则令v=ln(-y），得到：,3. 幂函数型,若a0，则令v=lny，u=lnx，得到（a0情况类推）：,可化为线性回归的非线性回归,4. 对数曲线型,令u=logx，得到：,令v=logy，得到：,令u=logx， v=logy，得到：,可化为线性回归的非线性回归,5. S曲线型,令：,得到：,可化为线性回归的非线性回归,曲线回归,客观实现中各因素之间呈现线性关系的现象并不很多，更多的是呈现曲线关系，这时应采用非线性回归分析。非线性回归模型包括两种形式：一是可线性化的，如二次曲线模型、对数模型等；一是不可线性化的，如逻辑曲线模型。 SPSS提供了拟合各种常用曲线模型的功能。,曲线回归,线性回归过程调用：AnalyzeRegression Curve Estimation,非参数检验概述,非参数检验的着眼点不是总体参数，而是总体的分布情况，即研究目标总体的分布是否与已知理论分布相同，或者各样本所在总体的分布位置，形状是否相同。由于这一类方法并不涉及总体参数，因而被称为非参数方法。,非参数检验概述,Nonparametric Tests 菜单提供八种非参数检验的分析方法，分为两类： 1. 分布类型检验方法 Chi-Square过程；检验二项分类变量分布的Binomial过程；检验样本序列随机性的Runs过程及检验样本是否服从各种常用分布的l-Sample K-S过程。 2. 分布位置检验方法独立样本分布位置检验的2 、K Independent Samples过程；相关样本分布位置检验的2、 K Related Samples过程。,单样本检验,1. 卡方检验（Chi-Square） 2. 二项分布检验（Binomial） 3. 游程检验（Runs） 4. 单样本K-S检验（1-Sample K-S）,卡方检验,卡方检验属于拟合优度型检验，适用于具有明显分类特征的某种数据，用来检验属于某一类别的对象的个数与根据零假设所得期望数目之间是否有显著差异，进行检验时，需要构造统计量：,二项分布检验,二项检验属于拟合优度检验，适用于数据只能划分为两类的总体。二项检验是检验是否认为从样本中观察到的两类比例来自具有指定P的总体。,游程检验,游程检验有游程最大长度检验和游程总个数检验两种检验方法，SPSS采用的是游程总个数检验方法，用该法可以检验一组样本数据是否来自同一总体（或差异不明显服从同一分布），即考察按随机顺序得到的一组样本的观测值是否表现出足够的随机性。,单样本K-S检验,K-S检验是一种拟合优度检验，研究的是样本观察值的分布和设定的理论分布间符合程度的问题，通过对两个分布差异的分析确定是否有理由认为样本的观察结果来自所设定的理论分布总体。单样本K-S检验中的理论分布可为正态分布、均匀分布、泊松分布、指数分布。,独立样本差异的显著性检验,SPSS提供了检验两个或多个独立样本所属的总体分布位置/形状是否相同的功能，具体说，2 Independent Samples 过程提供了四种检验两个独立样本所属总体分布是否相同的方法，K Independent Samples 过程提供了两种检验多个独立样本所属总体分布是否相同的方法。,2 Independent Samples 过程四种检验,K Independent Samples 过程两种检验,相关样本差异的显著性检验,SPSS提供了检验两个或多个相关样本所属的总体分布位置/形状是否相同的功能，具体说，2 Related Samples 过程提供了三种检验两个相关样本所属总体分布是否相同的方法，K Related Samples 过程提供了两种检验多个相关样本所属总体分布是否相同的方法。,2 Related Samples 过程三种检验,K Related Samples 过程两种检验,方差分析,如果要检验两个总体的均值是否相等，我们可以用t检验。当要检验多个总体的均值是否相等，则需要采用方差分析。方差分析是通过对误差的分析研究来判断多个正态总体均值是否相等的一种统计方法。其优点是实用、有效，可以节省时间。,(Analysis of Variance，简称ANOVA),方差分析,方差分析的三个条件,（）被检验的各总体均服从正态分布；（）各总体的方差皆相等；（）从每一个总体中所抽出的样本是随机且独立的。,方差分析,方差分析的分类,方差分析按所涉及因素的多少可分为：单因素方差分析双因素方差分析多因素方差分析,方差分析的基本步骤,（）将各不同水平间的总离差分成两个部分组间差异和组内差异（）构造检验统计量 F= MSR / MSE （）判断在零假设为真时，F(k-l),(n-k)的F分布。若各样本平均数的差异很大，则分子组间差异会随之变大，而F值也随之变大，故F检验是右尾检验。当检验统计量F大于临界值时则拒绝原假设。,单因素方差分析,单因素方差分析只考虑单个因素对观察值是否有影响，比较因素各个水平下的均值是否相等。相应的原假设H0：各组均值无显著性差异（在不同因素水平下）；备择假设H1：各组均值不全相等。,SPSS实现的方法有两种：方法一方法二,方法一,单因素方差分析过程调用：,AnalyzeCompare MeansOne-Way ANOVA,方法二,AnalyzeGeneral Linear ModelUnivariate,单因素方差分析过程调用：,Univariate 对话框,多因素方差分析,多因素方差分析指研究影响因素为两个或两个以上时，因素对因变量的影响是否显著。另外，分析时还需要考虑影响因素之间是否有交互作用。,多因素方差分析,多因素方差分析过程调用：,AnalyzeGeneral Linear ModelUnivariate,协方差分析因素,当因变量是定量的，自变量中既有定性也有定量变量时，则常选用介于方差分析和线性回归分析之间的方法协方差分析。在协方差分析中，选为定量变量的自变量称为协变量，并要求协变量间相互独立，与定性因素间无交互作用。,协方差分析因素,协方差分析过程调用：,AnalyzeGeneral Linear ModelUnivariate,聚类分析和判别分析过程概述,聚类分析是研究物以类聚问题的一种有效方法，它将一批样本数据按照其性质上的相近程度，在没有先验知识的情况下客观进行分类，该方法被视为是一种探索性的分析方法。判别分析是一种有效的分类方法，分析时各类的特征是事先已知，即根据判别，将新样本划分到不同的组中去。分类形成后相同的类就是一个具有相近个体的集合，不同类之间具有明显的区别。,聚类分析和判别分析过程概述,SPSS的Classify菜单共包括三个主要过程： 1）快速聚类（K-Means Cluster）是非系统聚类法中最常用的K-均值聚类法，只能用于对样本的快速聚类。 2）分层聚类（Hierarchical Cluster）提供了全面而强大的聚类分析功能，可以对多种数据类型进行样本或变量的聚类分析。 3）判别分析（Discriminant）提供了全面的判别分析功能。,快速样本聚类过程,快速样本聚类（Quick C1uster），也称逐步聚类或动态聚类，其基本思想是：开始按照一定方法选取一批凝聚点（聚心），其次让样本向最近的聚心凝聚形成初始分类，然后按最近距离原则修改不合理的分类，直到合理为止。该方法适合于大样本的Q型聚类分析。根据经验，若样本容量大于100，则可以考虑使用这种方法。,快速样本聚类过程界面,快速样本聚类过程结果,聚类成员表,分层聚类分析,分层聚类分析（Hierarchical Cluster Analysis），也叫系统聚类分析，是聚类分析中应用最广泛的一种方法。其聚类过程是：开始把参与聚类的每个样本（或变量）各视为一类，然后根据两类之间的距离或相似性逐步合并，直到所有的样本（或变量）合并为一个大类为止。,分层聚类分析界面,分层聚类分析结果1,聚类分析垂直冰柱图,分层聚类分析结果2,聚类分析树形图,判别分析,判别分析在分析之前就应该明确所研究的变量共有几个类别，该分析方法的目的就是从现有已知类别的样本数据中，利用某种技术建立起一个判别函数，以后再有未知类别的数据进入，就利用建立的函数来判断其类别。,判别分析步骤,（1）选择自变量及组变量，并计算各组单变量描述统计量，对判别分析所要求的前提假定进行统计检验。（2）推导判别系数，给出标准化或末标准化的典则判别函数系数，并对函数显著性进行检验；（3）建立Fisher线性判别模型，根据Bayes规则或Fisher规则进行判别分组；（4）进行样本回判分析，分析判别函数的结果；（5）输出结果，结合研究对象的实际情况分析输出结果，作出结论。,判别分析界面,判别分析结果,dis_1: 将所有变量都加入进行分析 dis_2: 用逐步选择判别进行分析,主成分分析,主成分分析从解释变量的方差出发，假设变量的方差能完全被主成分所解释；而因子模型是从解释变量之间的相关关系出发，假设观察变量之间的相关能完全被公因子解释。主成分分析法是一种实用的多元统计分析方法，它能够将大量、繁复的原始指标、数据简化为少量的综合指标，同时使这少量指标尽可能地包合原指标群中的信息资料。这些综合指标能够更好地反映各样本之间的主要差别，而且在统计意义上是相互独立。,主成分分析,主成分分析过程调用：,AnalyzeData ReductionFactor,因子分析,因子分析的基本思想是将实测的多个指标，用少数几个潜在的指标（因子）的

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据统计与分析技术.ppt

文档简介

温馨提示

最新文档

评论

数据统计与分析技术.ppt

文档简介

温馨提示

最新文档

评论

相关文档