统计学中常用的数据分析方法汇总_第1页
统计学中常用的数据分析方法汇总_第2页
统计学中常用的数据分析方法汇总_第3页
统计学中常用的数据分析方法汇总_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学中常⽤的数据分析⽅法汇总新增内容⽇志20210712⼤数定律和中⼼极限定理统计学分析⽅法01|描述统计描述统计是通过数据、可视化图表的形式,对数据的分布状态、数字特征和随机变量之间关系进⾏估计和描述的⽅法。描述统计分为集中趋势分析和离中趋势分析和相关分析三⼤部分。1.集中趋势分析利⽤平均数、中数、众数等统计指标来表⽰数据的集中趋势。例如被试的平均成绩多少?是正偏分布还是负偏分布?2.离中趋势分析靠全距、四分差、平均差、⽅差(协⽅差:⽤来度量两个随机变量关系的统计量)、标准差等统计指标来研究数据的离中趋势。⽐如⽤两个班级的四分差或百分点来⽐较,就可以得知哪个班级内的成绩分布更分散3.相关分析探讨数据之间是否具有统计学上的关联性。可以是单⽅⾯相关,也可以说互相相关。4.推论统计5.⼤数定律和中⼼极限定理①⼤数定律概率论历史上第⼀个极限定理属于伯努利,也被称之为“⼤数定律”。在随机事件的⼤量重复出现中,往往呈现⼏乎必然的规律,这个规律就是⼤数定律。例如抛硬币,出现正反⾯的概率不尽相同。但是当抛的次数到⼤⼀定数量时,两种结果的概率往往各⾃趋向于⼆分之⼀。同样的,我们要统计⼀个地区的⽣育率,当统计样本达到⼀定数量时,概率基本会稳定在⼀个区间。②中⼼极限定理当样本量越来越⼤时,样本均值会趋向于正态分布(钟形曲线)。正态分布有两个量来描述,⼀个是均值,⼀个是⽅差。中⼼极限定理对样本分布不做要求(离散,连续,⾮正态分布都可以)。此时中⼼极限定理可以承担桥梁的作⽤,实现数据样本的正态分布,满⾜统计检验⽅法的先决条件。⽐如要⽤统计检验的⽅法,⽐较⼀个地区男⼈跟⼥⼈秃头的平均年龄是否有差异,但是当样本量较⼩的时候,样本是离散分布的。但通过中⼼极限定理,当样本量达到⼀个阈值,那么样本就可以实现正态分布。02|常见数值1.平均值2.加权平均值我们常⽤平均数表⽰⼀组数据的‘平均⽔平’。把在⼀组数据⾥,⼀个数据出现的次数称为权。学校算期末成绩,期中考试占30%,期末考试占50%,作业占20%,假如某⼈期中考试得了84,期末92,作业分91,则其算术平均数就是:(84+92+91)/3=89其加权平均数就是:(8430%+9250%+91*20%)=89.43.箱线图常⽤参数02|假设检验1.参数检验在已知总体分布的条件下(⼀般要求总体服从正态分布)对⼀些主要的参数(如均值、百分数、⽅差、相关系数等)进⾏的检验。①U检验:当样本含量n较⼤时,样本值符合正态分布②T检验:当样本含量n较⼩时,样本值符合正态分布2.⾮参数检验不考虑总体分布是否已知,常常也不是针对总体参数,⽽是针对总体的某些⼀股性假设(如总体分布的位罝是否相同,总体分布是否正态)进⾏检验。主要⽅法包括:卡⽅检验、秩和检验、⼆项检验、游程检验、K-量检验等。03|信度分析信度(Reliability)即可靠性,它是指采⽤同样的⽅法对同⼀对象重复测量时所得结果的⼀致性程度。信度指标多以相关系数表⽰,⼤致可分为三类:稳定系数(跨时间的⼀致性),等值系数(跨形式的⼀致性)和内在⼀致性系数(跨项⽬的⼀致性)。信度分析的⽅法主要有以下四种:重测信度法、复本信度法、折半信度法、α信度系数法。1.重测信度法问卷对同⼀组被调查者间隔⼀定时间重复施测,计算两次施测结果的相关系数。2.复本信度法编辑让同⼀组被调查者⼀次填答两份问卷复本,计算两个复本的相关系数。在实际调查中,很难使调查问卷达到这种要求,因此采⽤这种⽅法者较少。3.折半信度法编辑折半信度法是将调查项⽬分为两半,计算两半得分的相关系数,进⽽估计整个量表的信度。04|列联表分析列联表是观测数据按两个或更多属性(定性变量)分类时所列出的频数表。05|相关分析1.单相关两个因素之间的相关关系叫单相关,即研究时只涉及⼀个⾃变量和⼀个因变量2.复相关三个或三个以上因素的相关关系叫复相关,即研究时涉及两个或两个以上的⾃变量和因变量相关3.偏相关在某⼀现象与多种现象相关的场合,当假定其他变量不变时,其中两个变量之间的相关关系称为偏相关。06|⽅差分析使⽤条件:各样本须是相互独⽴的随机样本;各样本来⾃正态分布总体;各总体⽅差相等。1.单因素⽅差分析⼀项试验只有⼀个影响因素,或者存在多个影响因素时,只分析⼀个因素与响应变量的关系2.多因素有交互⽅差分析⼀顼实验有多个影响因素,分析多个影响因素与响应变量的关系,同时考虑多个影响因素之间的关系3.多因素⽆交互⽅差分析分析多个影响因素与响应变量的关系,但是影响因素之间没有影响关系或忽略影响关系4.协⽅差分祈传统的⽅差分析存在明显的弊端,⽆法控制分析中存在的某些随机因素,使之影响了分祈结果的准确度。协⽅差分析主要是在排除了协变量的影响后再对修正后的主效应进⾏⽅差分析,是将线性回归与⽅差分析结合起来的⼀种分析⽅法07|回归分析1.⼀元线性回归分析⼀个⾃变量X与因变量Y有关,X与Y都必须是连续型变量,因变量y或其残差必须服从正态分布2.多元线性回归分析多个⾃变量与因变量Y的关系,X与Y都必须是连续型变量,因变量y或其残差必须服从正态分布。3.Logistic回归分析线性回归模型要求因变量是连续的正态分布变⾥,且⾃变量和因变量呈线性关系,⽽Logistic回归模型对因变量的分布没有要求,⼀般⽤于因变量是离散时的情况08|聚类分析聚类与分类的不同在于,聚类所要求划分的类是未知的sklearn⾥⾯⾮常有名的k-means就是⼀种聚类分析⽅法,属于⽆监督的机器学习算法,在建模前不知道分类结果,通过算法来实现⾃动分类从统计学的观点看,聚类分析是通过数据建模简化数据的⼀种⽅法。传统的统计聚类分析⽅法包括系统聚类法、分解法、加⼊法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采⽤k-均值、k-中⼼点等算法的聚类分析⼯具已被加⼊到许多著名的统计分析软件包中,如SPSS、SAS等09|判别分析根据已掌握的⼀批分类明确的样品建⽴判别函数,使产⽣错判的事例最少,进⽽对给定的⼀个新样品,判断它来⾃哪个总体1.与聚类分析区别:聚类分析可以对样本逬⾏分类,也可以对指标进⾏分类;⽽判别分析只能对样本聚类分析事先不知道事物的类别,也不知道分⼏类;⽽判别分析必须事先知道事物的类别,也知道分⼏类聚类分析不需要分类的历史资料,⽽直接对样本进⾏分类;⽽判别分析需要分类历史资料去建⽴判别函数,然后才能对样本进⾏分类2.分类⽅法Fisher判别分析法以距离为判别准则来分类,即样本与哪个类的距离最短就分到哪⼀类,适⽤于两类判别以概率为判别准则来分类,即样本属于哪⼀类的概率最⼤就分到哪⼀类,适⽤于适⽤于多类判别BAYES判别分析法BAYES判别分析法⽐FISHER判别分析法更加完善和先进,它不仅能解决多类判别分析,⽽且分析时考虑了数据的分布状态,所以⼀般较多使⽤10|主成分分析PrincipalComponentAnalysis,PCA,sklearn中⾮常常⽤的算法之⼀。11|因⼦分析寻找隐藏在多变量数据中、⽆法直接观察到却影响或⽀配可测变量的潜在因⼦、并估计潜在因⼦对可测变量的影响程度以及潜在因⼦之间的相关性的⼀种多元统计分析⽅法12|时间序列分析时间序列通常由

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论