版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据分析方法体系数据分析方法体系0.1 三种数据分析方法论0.2 统计软件中的数据存储格式0.3 数据的统计描述与参数估计0.4 常用假设检验方法0.5 多变量模型0.6 多元统计分析0.7 智能统计分析/数据挖掘方法0.1 三种数据分析方法论o严格设计支持下的统计方法论o半试验研究支持下的统计方法论o偏智能化、自动化的数据挖掘应用方法论严格设计支持下的统计方法论严格设计支持的统计方法论也称为经典统计方法论,之所以经典,不仅因为其发展较早,而且可使研究者在整个研究体系中尽量掌控一切,具体特征如下:o具有非常严密的研究设计,遵循七大步骤:试验设计、数据收集、数据获取、数据准备、数据分析、结果报告
2、、模型发布。其中试验设计作为关键,直接影响整个研究的成败。o在此类研究项目中,试验设计中会充分考虑需要控制的影响因素,并采用多种设计方案来对非研究因素的作用加以控制,比如完全随机抽样、随机分组等。o数据在设计完毕后开始采集,整个试验过程会在尽量理想的情况下进行,从而在试验及数据获取过程中对无关因素加以严格控制。o原始数据往往需要从头开始采集,数据质量完全取决于试验过程是否严格依从设计要求,以及试验设计本身是否合理等,每个原始数据的成本都非常高。o在分析方法上,最终采用的统计模型应当基于相应的试验设计所定制的模型。由于在试验设计和试验实施过程中已经对非研究因素的影响做了充分的考虑和控制,因而在很
3、多情况下往往可以只利用非常简单的统计方法。各种复杂高深的统计模型不是没有用武之地,但它们不是至关重要的工具。此类统计方法论的应用在实验室研究、临床试验等领域最为常见,所使用的方法常常是单因素分析法,或者针对一些复杂设计使用一般线性模型(方差分析模型)的定制框架。半试验研究支持下的统计方法论经典统计分析方法论对整个流程的控制和干预非常严格,但是在很多情况下无法满足,形成了所谓半试验研究支持下的统计分析方法论,其具体特征如下:o研究设计具有明显的向实际情况妥协的特征,所谓七大步骤可能不被严格遵循,从数据准备开始的后三步的重要性比经典分析方法论高。o研究设计可能无法做到理想化,例如抽样与分组的完全随
4、机性,试验组与对照组干预措施的严格控制无法严格满足。o整个数据采集过程难以做到理想化。o部分数据可能先于研究设计而存在,整个研究需要在这些数据的基础上补充所需的其他部分信息。另一方面,这些数据可能不完全满足分析需求,但这种缺陷却无法得到修正。o在分析方法上,由于实验设计难以做到完美,因此各种潜在因素的作用可能并不明确,需要从各种可能的影响因素中进行筛选和探索。可能用到的分析方法颇为复杂,事实上,很多复杂的多因素分析方法模型就是在这类研究的实际分析需求的刺激下产生并蓬勃发展的。这类统计分析方法的应用范围目前最广泛,在经济学、社会学研究中最为常见。偏智能化、自动化的数据挖掘应用方法论和前两种较为传
5、统方法论相比,数据挖掘方法论的特点为:完全以商业应用需求为导向。o分析流程出现了很大的变化,不再是线性的七大步骤,而是周而复始的循环结构,且非常强调前期的商业理解,后期的模型发布与应用。在常见的数据挖掘方法论中,以CRISP-DM最具代表性。o由于业务数据往往来源于业务系统,如电信公司的业务数据库,因此数据采集过程是全自动的,完全先于整个研究项目而存在,不是为数据分析而做准备的,因为难以做到理想化。o由于业务系统的数据会动态增加,因此几乎不可能考虑另行加以人工收集希望补足的数据,而只能看菜吃饭,否则整个项目将永无止境,失去实用价值。o在分析方法上,由于极端强调商业应用,因此分析方法的选择并不重
6、要,往往采取多种方法并行,从中择优的分析思路。能否满足商业需求,或者说模型是否能够在业务系统中得到真正的发布和应用,则是判断整个数据挖掘项目是否成功的唯一标准。0.2 统计软件中的数据存储格式o二维数据表o变量的存储类型n数值型n字符型o变量的测量尺度n定类尺度n定序尺度n定距尺度和定比尺度0.3 数据的统计描述与参数估计o连续变量的统计描述n集中趋势的描述指标:算术平均、中位数、几何平均、结尾平均、众数、调和平均n离散趋势的描述指标:全距、方差、百分位数、四分位数、四分位间距、变异系数n分布特征的描述指标:偏度、峰度n其他:单峰、双峰,极端值o连续变量的参数估计:n参数的点估计n参数的区间估
7、计o分类变量的统计描述和参数估计n频数分布n相对数指标:比(Ratio),构成比(Proportion),率(Rate)o统计图形体系n单变量图连续变量:直方图、箱图、茎叶图n单变量图分类变量:饼图、Pareton双变量图连续因变量:条图、散点图n双变量图分类因变量:条图、马赛克图0.4 常用假设检验方法 完成了统计描述和参数估计工作之后,研究者往往会进一步基于专业知识和数据特征而提出假设,并期望验证其是否成立,这就涉及假设检验的工作。o单变量假设检验方法:在检验中只涉及一个变量的数值特征,根据变量的类型和分析目的的不同,相应希望考察的总体假设可能是均值等于某个数值、标准差等于某个数值、分布符
8、合某种指定分布,也可以是某个类别的比例不高于某个指定值,或者大于某个数值的样本比例等于某个指定值这类奇怪的设定。o双变量假设检验方法:在涉及两个变量的检验方法中,大多数情况下这两个变量可以分出主次,相应地在统计模型中它们会被设定为自变量和因变量。当无法进行区分时,则使用相关分析方法。单变量假设检验方法o针对数据独立性或随机性的检验:考察样本的随机性,如果样本不是从总体整随机抽取的,所做的任何推断将变得没有价值,对于这类问题,最简单的方法是进行游程检验。o针对分布类型的检验:常见的情况是检验某个连续变量所在总体的分布是否服从正态分布,因为正态分布是很多后续统计分析的前提。o假定分布类型后针对某个
9、分布参数的检验:n考察中位数是否等于某个假定值,采用秩和检验n对于连续型变量,研究者最关心的往往是其均数是否等于某个假定数值,单样本图t检验是常用的方法。双变量假设检验方法o无序分类因变量的检验方法n当自变量为两分类或无序分类变量时,两个变量相互交叉构成了典型的交叉表,此时以卡方检验最为常用。n当自变量为有序多分类变量时,几乎没有恰当的方法可以充分利用数据信息,比较常见的方法是暂时忽略其有序特征,先参照无序变量的方式进行卡方检验,然后再结果解释时考虑序列信息。n当自变量为连续变量时,简单的统计方法已经无能为力,可以考虑两分类或者多分类的Logistic回归模型。o有序分类因变量的检验方法n当自
10、变量为两分类或无序多分类变量时,研究目的往往是考察这些类别组的因变量中位数是否相同,此时应当使用两样本秩和检验或者多样本秩和检验进行分析。n当自变量为有序多分类变量时,如果希望利用序列特征,则可以按照两有序变量的相关分析指标体系来分析。n当自变量为连续变量时,简单的统计分析对此无能为力,可以考虑使用因变量为有序分类的Logistic回归模型来分析。双变量假设检验方法(续)o连续性因变量的检验方法n自变量为两分类变量时,研究目的是考察两组间的因变量均值是否相等,应当使用两样本t检验进行分析。n自变量为无序分类变量时,研究目的是考察多组间的因变量均值是否相等,此时应当使用单因素方差分析,在方差分析
11、结果有统计学意义时进行后续两两比较。n自变量为有序多分类变量时,没有恰当的方法充分利用数据信息,参照无序变量的方式进行分析,结果解释时考虑序列信息n当自变量为连续变量时,相应分析方法的基本框架是考虑线性关联,需要确认两变量间的数量关联是线性还是曲线的,然后利用线性回归方程考察自变量对因变量的数量影响。o相关分析的指标体系:在提及相关分析时往往考察的是连续变量的相关关系,实际上对任何类型的变量,都可以用相应的指标进行相关关系的考察。n名义变量的相关指标n有序变量的相关指标n连续变量的相关指标0.5 多变量模型这里所说的多变量模型指的是在模型中可以区分出因变量和自变量,并且模型中可以有多个自变量或
12、因变量,建模的目的是考察各自变量对因变量的作用强弱,最终对因变量取值进行预测的统计模型。o方差分析/一般线性模型:典型的方差分析对应的是因变量为连续变量,自变量为分类变量。由于其框架模型为线性相加结构,因此也称为一般线性模型。n单因变量的方差分析模型:n多因变量的方差分析模型o广义线性模型和混合线性模型n广义线性模型:传统的线性模型、Logistic回归模型、Poisson回归、Probit回归等都可以看作是广义线性模型的特例。n广义估计方程:在广义线性模型的基础上发展起来的处理纵向数据的统计模型。n混合线性模型:传统的线性模型没有考虑数据资料的层次结构,假定不同个体数据完全独立;传统的统计分析方法中,对集中趋势(均值)的分析方法完善,对离散趋势的分析还处于起步阶段。o回归模型n线性回归模型n线性回归模型的衍生模型n路径分析和结构方程模型n非线性回归模型nLogistic回归模型o其它常见模型n生存分析模型n对数线性模型n时间序列模型0.6 多元统计分析这里的多元统计模型是指在模型中难以区分出自变量
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年广东省深圳市中考英语试题含解析
- 长春版小学心理健康教育四年级(下)教案
- 期中提优卷(无答案) 2024-2025学年人教版(2024)英语七年级上册
- 2024至2030年中国控油洁面奶数据监测研究报告
- 2024至2030年中国带座轴承用润滑脂行业投资前景及策略咨询研究报告
- 2024至2030年中国室内绣花拖鞋数据监测研究报告
- 2024至2030年中国口咽通气管数据监测研究报告
- 2024至2030年中国单刃电动茶树修剪机数据监测研究报告
- 产品英语术语培训
- 2024至2030年中国2,2-二甲基联苯胺盐酸盐行业投资前景及策略咨询研究报告
- 电缆阻燃施工方案
- 科技伦理与法规政策
- 法院安检服务投标方案
- 学校安全管理责任分解图
- 印刷电路板化学品行业可行性研究报告
- 江西省三市八校联盟2023-2024学年高一上学期期中联考英语试卷
- 山东省青岛市西海岸新区2023-2024学年六年级上学期期中科学试卷
- 医院护理培训课件:《妊娠剧吐的护理查房》
- 文印服务投标方案(技术方案)
- 阅读过去:考古学阐释的当代取向
- 2022年湖北交投襄阳高速公路运营管理限公司收费员招聘【110人】上岸笔试历年难、易错点考题附带参考答案与详解
评论
0/150
提交评论