版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据统计分析
SPSS实战入门第一天课程
数据统计分析
SPSS实战入门第一天课程1课程目标了解基本的统计思想和分析方法了解SPSS软件的特点掌握SPSS的基本操作能够应用SPSS进行基本的统计分析可以有效的对SPSS进行进一步的自学SPSS数据分析的流程课程目标了解基本的统计思想和分析方法2课程安排第一讲数据分析概述统计学的思想与概念第二讲SPSS概述SPSS操作实践第三讲应用案例简介第四讲SPSS数据分析可视化第五讲实践中的SPSS数据分析方法方差分析课程安排第一讲3第六讲SPSS回归模型SPSS多元线性回归SPSSLogistic回归第七讲SPSS因子分析SPSS主成分分析第八讲SPSS聚类分析SPSS决策树第九讲SPSS时间序列第六讲4第一讲数据分析概述
在当今世界,企业怎样搜集、管理、利用数据和信息,并迅速作出决策和反应将是能否在激烈竞争的全球一体化市场经济中能否生存和成败的关键之举。企业需要可靠的决策,可靠的决策来自于系统地定义问题,收集数据,比较和分析数据,结合研究设计,并从数据中得到结论。企业研究是一个系统性的研究过程,提供解决管理问题的信息,作为决策基础。用系统化的方法采集数据并基于这些数据做出决定的过程,对于建立可靠的决策,从而帮助管理者了解企业的各项问题,提供知识与技术来面对变化快速的环境第一讲数据分析概述在当今世界,企业怎样搜5
大量数据和信息匮乏的矛盾从数据中提取信息不是数据库自动能够解决的数据分析统计学数据的科学统计学:随机性与规律性统计工具利用统计学原理服务于数据分析第一讲数据分析概述大量数据和信息匮乏的矛盾数据分析统计学数据的科学统计工具6统计学的本质
当我们不能预测一件事情的结果时,随机性就和这件事情联系起来了.(危险来临,喜从天降)
通过看上去随机的现象进行统计分析,我们开始了解这个世界.统计学的本质当我们不能预测一件事情的结果时7什么时候需要数据分析?商业问题数据问题!商业问题解决方案把商业问题转化为数据问题数据分析及分析结果把数据结果转化为商业解决方案什么时候需要数据分析?商业问题数据问题!商业问题解决方案把商8实际中的问题(企业)当你买了一只手表时,被告知一年内可以免费保修。你想过厂家为什么说一年而不说三个月或两年呢?显然:说多了,厂家会损失;说少了,会失去竞争,也是损失。到底这个保修期是怎样决定的呢?在同一年级中,同样一门课程可能由一些不同教师讲授。教师讲课方式当然不一样,考试题目也不一定相同。那么如何比较不同班级的成绩呢?CEO的收入是一个非常敏感的问题,到底和一个企业的资产价值有怎样的关系,如何制订才会比较公平?不同的机构得出不同的结果;各自都说自己是客观、公正和有道理的。到底如何理解这些不同的结果呢?实际中的问题(企业)当你买了一只手表时,被告知一年内可以免费9实际中的问题(政府)信用评价体系影响到低体重早产儿的社会和制度因素是什么?收入支出比平衡问题?社会安全保障与房地产定价策略问题?……实际中的问题(政府)信用评价体系10数据的价值和利用数据无处不在数据包含的信息很多,但是数据中的信息往往是分散的,单个数据很难直接被应用起来统计学就是把数据转化为信息的科学数据的价值和利用数据无处不在数据包含的信息很多,但是数据中的11统计学
统计学(Statistics)是一个系统搜集数据并基于数据做出决定的过程.它是指导人们正确地认识客观世界的研究方法,是研究受到随机影响的数据的一门学科。
基本特点:
1)是一个在随机现象中寻找规律性的科学;2)由描述和推断两部分方法构成;3)是科学地度量问题,收集问题,表示问题和分析问题的研究方法.统计学统计学(Statistics)是一个12运用统计的领域包括…精算农业动物学人类学考古学审计学晶体学人口统计学牙医学生态学经济计量学教育学选举预测和策划工程流行病学金融水产渔业研究遗传学地理学地质学历史研究人类遗传学水文学工业法律语言学文学劳动力计划管理科学市场营销学医学诊断气象学军事科学核材料安全管理眼科学制药学物理学政治学心理学心理物理学质量控制宗教研究社会学调查抽样分类学气象改善搏采,等等...运用统计的领域包括…精算金融气象学13数据分析过程原始数据、二手数据确定研究目标、范围选择研究方案选择数据收集方式和分析技术分析评估所需样本量建立项目预算描述性统计分析推断性统计分析人工智能等数据挖掘特有的算法计分析清理数据使之适合于分析应用对数据进行变换评估数据质量,填充缺失数据对表格、图形进行编辑用word、excel、text、html展示数据数据分析数据管理数据收集计划结果发布数据理解数据分析过程原始数据、确定研究目标、范围描述性统计分析清理数14描述统计为什么不够?描述统计为什么不够?15数据的层次性:
律师的困惑辛普森悖论(Simpson‘sParadox)亦有人译为辛普森诡论,为英国统计学家E.H.辛普森E.H.Simpson于1951年提出的悖论,即在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。例题:一所美国高校的两个学院,分别是法学院和商学院,新学期招生。人们怀疑这两个学院有性别歧视。法学院商学院
申请性别法学院商学院女男录取率数据的层次性:
律师的困惑辛普森悖论(Simpson‘sP16总体和样本总体(population)研究对象的全体,其中的每一个元素称为个体分为有限总体和无限总体有限总体的范围能够明确确定,且元素的数目是有限的无限总体所包括的元素是无限的,不可数的样本(sample)从总体中抽取的一部分元素的集合构成样本的元素的数目称为样本量(size)总体和样本总体(population)17参数和统计量参数(parameter)研究者想要了解的总体的某种特征值所关心的参数主要有总体均值()、标准差()、总体比例()、总体的协差阵(Σ)等总体参数通常用希腊字母表示统计量(statistic)根据样本数据计算出来的一个量所关心的样本统计量有样本均值(x)、样本标准差(s)、样本比例(p)、样本的协差阵等样本统计量通常用小写英文字母来表示参数和统计量参数(parameter)18变量(Variable)
说明现象某种特征的概念如商品销售额、受教育程度、产品的质量等级等变量的具体表现称为变量值,即数据;变量可以分为分类变量(categoricalvariable)
:说明事物类别的一个名称顺序变量(rankvariable)
:说明事物有序类别的一个名称数值型变量(metricvariable)
:说明事物数字特征的一个名称离散变量:取有限个值连续变量:可以取无穷多个值变量(Variable)说明现象某种特征的概念19统计中的几个基本概念平均数标准差比例参数p统计量xs总体样本统计中的几个基本概念参数统计量总体样本20点估计(PointEstimator)点估计(PointEstimator)21置信区间(IntervalConfidence)置信区间(IntervalConfidence)22假设检验(HypothesisTest)假设检验(HypothesisTest)23理念统计模型的严格数学表达很复杂、繁琐,但是其背后的思想往往很简单做为信息时代的管理者,要理解管理的科学性,科学的基础是测量,没有测量谈不到深入的和恰当的管理制度的建立.统计学只是一个工具,SPSS更是工具的工具,不要指望它能够“自动”解决你面临的商业问题.要注意统计学方法的适用条件,滥用统计学会造成“严重”的负效果.理念统计模型的严格数学表达很复杂、繁琐,但是其背后的思想24第二讲SPSS概述SPSS:StatisticalPackageforSocialScienceStatisticalProductandServiceSolutionsSPSS的发展:60年代:美国斯坦福大学三位研究生研制70年代:SPSS总部成立于芝加哥,推出SPSSX中小型机版80年代:SPSS公司(SPSS/PC+微机版1~3)90年代:SPSS公司(SPSSWINDOWS版5~11)第二讲SPSS概述SPSS:25SPSS软件的特点
功能强大;兼容性好;容易使用;企业级统计分析解决方案;结果的权威性.SPSS软件的特点
功能强大;26统计软件SPSS:这是一个很受欢迎的统计软件;它容易操作,输出漂亮,功能齐全,价格合理。它也有自己的程序语言,但基本上已经“傻瓜化”。它对于非专业统计工作者是很好的选择。
Excel:它严格说来并不是专业统计软件,但作为数据表格软件,必然有一定统计计算功能。而且凡是有MicrosoftOffice的计算机,基本上都装有Excel。但要注意,有时在装Office时没有装数据分析的功能,那就必须装了才行。当然,画图功能是都具备的。对于简单分析,Excel还算方便,但随着问题的深入,Excel就不那么“傻瓜”,需要使用函数,甚至根本没有相应的方法了。多数专门一些的统计推断问题还需要其他专门的统计软件来处理。统计软件SPSS:这是一个很受欢迎的统计软件;它容易操作,输27SPSS软件基本介绍1、SPSS的基本构成:11个模块2、SPSS五个窗口的基本功能3、应用SPSS执行统计分析的几种方法4、SPSS的四种结果5、SPSS无处不在的Help6、SPSS五种结果保存方式SPSS软件基本介绍1、SPSS的基本构成:11个模块28SPSSClient/ServerSPSSBase----基础模块SPSSAdvanced----多元方差分析、生存分析SPSSRegression----回归SPSSTrends----时间序列SPSSCategories----分类数据分析SPSSConjoint----正交设计和分析SPSSTables----表格展示数据SPSSMaps----地图展示数据SPSSMissingValueAnalysis----缺失值分析SPSSExactTestAnalysis----精确检验SPSSComplexSamples----复杂抽样SPSSClient/ServerSPSSBase---29SPSS模块与过程读/录入数据数据整理描述统计数据分析图表展示结果编辑结果报告AdvancedCategoriesConjointRegressionTrendsExactTestComplexSampleMissingValueBaseTableMapSPSS模块与过程读/录入数据数据整理描述统计数据分析图表展30SPSS操作界面----五个窗口DataEditor----数据编辑窗口DataViewVariableViewSyntaxEditor----程序编辑窗口Viewer----结果管理窗口DraftViewer----草稿结果窗口Script----脚本编辑窗口SPSS操作界面----五个窗口DataEditor--31完全窗口菜单方式:所有分析操作过程都是通过菜单和按钮及对话框方式进行的.是经常使用的一种运行方式,适用于一般分析和SPSS的初学者.完全窗口菜单方式:32SPSS的结果SPSS的四种结果文本格式的结果表格结果标准图结果交互图结果SPSS的结果SPSS的四种结果33SPSS的结果保存方式SPSS结果文件格式Html格式Word格式Text格式Excel格式图形:jpg、pct…练习:将savetype.spo打开,将其中的对象以不同的格式保存。SPSS的结果保存方式SPSS结果文件格式练习:将savet34SPSS的帮助系统帮助菜单TopicsTutorialCaseStudiesStatisticsCoachCommandSyntaxGuide对话框帮助无处不在的What’sthis?SPSS的帮助系统帮助菜单35第三讲SPSS操作实践1.SPSS数据文件的创建与保存2.利用SPSS整理数据3.数据抽样方法4.利用SPSS展现数据:专业的报表和图形5.利用SPSS分析数据第三讲SPSS操作实践1.SPSS数据文件的创建与保存363.1SPSS数据文件SPSS数据文件是一种有结构的数据文件。年级性别 问题1…… 问题n1 1 ………. 42 2 ……… 2 …………………...3 1 ………… 1文件结构数据个案case变量名变量SPSS数据文件一般只能通过SPSS软件打开3.1SPSS数据文件SPSS数据文件是一种有结构的数据文37SPSS数据文件的特点原始数据文件格式:数据文件中的一列为一个变量,每个变量有一个唯一的存取标志:变量名数据文件中的一行为一个个案(case)汇总数据文件格式:男女高价值客户1023低价值客户1220SPSS数据文件的特点原始数据文件格式:男女高价值客户10238SPSS数据文件的结构(一)变量名(Variablename):
变量名是变量存取的唯一标志。
起名规则:不多于64个字符组成不区分大小写允许汉字作为变量名默认变量名为VARn,如:var00001SPSS数据文件的结构(一)变量名(Variablenam39SPSS数据访问(一)打开数据文件
菜单选项:File->Open->.sav(二)数据定位按个案号码定位菜单:Data->Gotocase->输入样本号按值定位光标定位到某列变量上
->Edit->Find...SPSS数据访问(一)打开数据文件40SPSS数据的编辑(三)插入和删除一个个案插入:data->insertcase删除:选定待删行,鼠标右键找到Cut(四)插入和删除一个变量插入:光标定位到某列变量上
->Data->InsertVariable(插到某列前)或鼠标右键删除:选定列,鼠标右键Cut项SPSS数据的编辑(三)插入和删除一个个案41SPSS数据编辑(五)数据移动、复制和删除定义源数据块鼠标右键:cutcopyclear确定目标单元鼠标右键:pasteSPSS数据编辑(五)数据移动、复制和删除42SPSS数据的录入录入时应注意:黑框确定当前数据单元。录入带有变量值标签的数据:手工输入代码,屏幕显示变量值标签。SPSS数据的录入录入时应注意:43SPSS数据的保存数据保存:操作保存格式:
(1)*.sav:SPSS数据文件(默认)。(2)*.dbf:dbase数据文件。(3)*.xls:Excel工作表文件。注意:有些信息会丢失SPSS数据的保存数据保存:44练习2:1.将文件telenew.sav导出到mydocuments\myspsscredit\tele1.xls2.将文件telen.txt导入到spss窗口,另存为mydocuments\myspsscredit\tele2.sav练习2:45SPSS变量定义变量的类型(type)和显示宽度(width)变量名标签(Variablelabel)变量值标签(Valuelabel)变量列格式(ColumnFormat)缺失值(MissingValues)变量计量尺度(Measurement)利用变量视图查看变量定义的情况SPSS变量定义变量的类型(type)和显示宽度(width46一个基本的分析例题例:xuelin.sav
要求
(1)数据的基本描述过程descriptive(2)数据的分布histogram(3)基本的比较推论t检验
(4)保存结果为*.spo文件,*.html文件
(5)使用拆分文件进行分类比较
(6)使用筛选变量进行数据的初步探索一个基本的分析例题例:xuelin.sav47两个总体均值之差的检验
(12、22
未知且相等,小样本)H0:1-2=0H1:1-2
0=0.05n1=12,n2
=14临界值(s):检验统计量:决策:结论:
在
=0.05的水平上拒绝H0有证据表明两种方法生产的产品其抗拉强度有显著差异Z01.96-1.96.025拒绝H0拒绝H0.025两个总体均值之差的检验
(12、22未知且相等,小482.用SPSS加工和整理数据数据文件的整理
个案排序、个案选取、文件合并、文件转置数据加工变量计算、产生计数变量数据分组自动分组、手工分组数据文件的其他处理功能指定加权变量、SPSS变量集的定义和使用2.用SPSS加工和整理数据数据文件的整理492.用SPSS加工和整理数据数据清理:检查录入错误、清除不合理数据、定义或弥补缺失值变量重新编码(Recode)生成新变量(Compute)按关键变量对记录排序(Sort)按关键变量对记录分组(Aggregate)变量和记录之间转置(Transpose)数据合并与拆分(Merge/Split)对记录加权(Weight)2.用SPSS加工和整理数据数据清理:检查录入错误、清除不502.1变量重新编码Recode过程(xuelin.sav)xuelinlevel=0,xuelin<120,xuelin>=210,1<xuelin<2问题:如果仅对有些组进行如何?2.1变量重新编码Recode过程(xuelin.sav)512.2生成新变量Compute过程目的:产生新变量或对原变量进行必要的转换处理理论需要:
预测问题产生比率数据偏态数据的正态处理时间序列的平稳处理等应用例:身高2/体重肥胖指数负债/收益资产负债信贷额度-贷款余额信用评级总通话时间/总呼叫次数通话质量2.2生成新变量Compute过程目的:产生新变量或对原变522.2生成新变量Compute过程目的:产生新变量或对原变量进行必要的转换处理(如:预测问题/产生比率数据/偏态数据的正态处理/时间序列的平稳处理等)(1)含义:
根据用户给出的SPSS算术表达式,对所有或部分样本数据进行加工。(2)SPSS算术表达式(NumericExpression):
由算术运算符(+、-、*、/、**)、SPSS函数以及SPSS变量名组成的式子。2.2生成新变量Compute过程目的:产生新变量或对原变53temp=1,xuelin>12,xuelin<=1temp=1,xuelin>12,xuelin<=154算术函数统计函数分布函数逻辑函数字符串函数日期时间函数缺失值函数其他函数Abs()sqrt()exp()lg10()rnd()trunc()mod()mean()sd()sum()cfvar()max()min()normal()uniform()rv.()cdf.()idf.()range()any()index()length()lower()lpad()ltrim()substr()missing()sysmis()lag()(3)SPSS函数算术函数Abs()sqrt()exp()lg10552.3按关键变量对记录排序(Sort)
目的:将所有个案按照用户指定的某一个或多个变量的变量值的升序或降序重新排列。菜单选项: data->sortcases注意: (1)Ascending:升序、Descending:降序。 (2)多重排序,选择变量名的次序很关键。2.3按关键变量对记录排序(Sort)
目的:56练习:对xuelin.sav分别按照血磷浓度和年龄进行排序。练习:对xuelin.sav分别按照血磷浓度和年龄进行排序。572.4按关键变量对记录分组(Aggregate)(1)含义:按指定的分类变量的变量值对个案分组;计算每组个案的汇总变量的基本统计量;将计算结果生成到一新文件中,即:在新文件中对应分类变量的每一个分类值产生一个个案。原始数据按性别变量汇总数据2.4按关键变量对记录分组(Aggregate)(1)含义58(2)菜单选项:
data->aggregate(3)说明:多重分组时,变量名的选择顺序。生成的新文件名默认为:aggr.sav。可修改。生成的新变量名默认为原变量名后加_1。可修改。可以在新文件中存贮个分组个案数.(2)菜单选项: 592.5变量和记录之间转置(Transpose)
目的:将数据文件行列互换,即:将个案转为变量,变量转为个案.转置前转置后2.5变量和记录之间转置(Transpose)
目的:转置602.5变量和记录之间转置Restructure过程2.5变量和记录之间转置Restructure过程612.6数据合并与拆分(Merge/Split)
目的:
将两个SPSS数据文件合并到一个数据文件中。文件合并的方式:纵向合并横向合并2.6数据合并与拆分(Merge/Split)
目的:62(一)纵向数据合并(1)含义:
将磁盘上的一个SPSS数据文件追加到当前dataeditor窗口中的数据文件中。(2)前提:
两个SPSS数据文件应可以合并的内容,且最好有相同的变量名和变量类型。(3)菜单选项:
data->mergefile->addcases(一)纵向数据合并63(二)横向数据合并(1)含义:
将磁盘上的一个SPSS数据文件中的若干个变量增加到当前dataeditor窗口的数据文件中。(2)前提:
a.两个数据文件必须有一个共同的变量名为关键字段---合并的依据;
b..两个数据文件应事先按关键字段升序排序。
(二)横向数据合并64(二)横向数据合并(3)菜单选项:
data->mergefile->addvariable(4)选项说明:mathcasesonkeyvariablesinsortedfiles:以关键字作为合并标志。
Bothfilesprovidecases:合并后的文件的数据由两个文件共同提供。Externalfileiskeyedtable:以dataeditor的数据为基础。Workingdatafileiskeyedtable:以磁盘文件的数据为基础。(二)横向数据合并652.7对记录加权(Weight)
(1)含义:
指定某一变量为加权变量。如:商品平均价格(2)菜单选项: data->weightcase(3)说明如果取消加权变量应重新定义:data->weightcasedonotweightcases(4)举例:打开文件average.sav2.7对记录加权(Weight)
(1)含义:66课堂练习:针对Employeedata.sav进行以下思考与练习:(1)生成变量表示员工的年龄;(2)按照性别分类计算平均工资;(3)将薪水分成不同的级别:“高4”“中高3”“中下2”“下1”;课堂练习:针对Employeedata.sav进行以下思67第一问第一问68第二问第二问69SPSS数据分析基础课件703.抽样数据随机数抽样等距抽样(*)分层抽样(*)整群抽样(*)3.抽样数据随机数抽样71在抽样方案设计部分提供了详细的向导,便于用户使用模块功能抽样方案设计:在原始数据集中生成抽样子集抽样数据描述:基于抽样设计文件进行相应数据的统计描述在抽样方案设计部分提供了详细的向导,便于用户使用72例题:在文件newcar.sav中的数据随机选择70%数据定义筛选变量,使用frequency过程进行筛选前后结果观察。例题:73练习:对employee.sav中的数据进行抽样,利用70%抽样数据按如下薪水公式预测,目前薪水=-12824+1.9*底薪+177*工作时间将得到的模型用于未知结果的预测,比较结果预测模型的差异。练习:对employee.sav中的数据进行抽样,利用70%74练习:xuelin.sav
要求
(1)定义新变量将xuelin>2和xuelin<1都视为异常数据。
(2)使用筛选变量剔除异常数据进行分析。练习:xuelin.sav75SPSS数据分析基础课件76第三讲应用案例简介第三讲应用案例简介77一个例子——罗斯文商贸公司背景介绍:罗斯文商贸公司是Microsoft数据库产品(Access,SQLServer等)中的一个示例数据库;它虚拟了一家经销日用品的商贸公司的情况;目前该公司保存的历史数据资料,见下页;如何对客户价值进行评估。商业问题:微软公司提供的案例数据库——罗斯文商贸公司,我们需要对客户的价值进行评估,以便采取有效的市场销售策略。一个例子——罗斯文商贸公司背景介绍:78罗斯文商贸公司数据罗斯文商贸公司数据79罗斯文商贸公司统计问题统计问题:(1)如何描述客户价值?——购买总金额?购买频次?平均每次购买金额?最近购买金额?它们的线性组合?——使用最简单的购买总金额(2)需要什么样的数据挖掘方法?——描述汇总?分类?预测?概念描述?细分?相关分析?——使用最简单的描述汇总(3)需要的数据从哪里来?——从以下几个来源:客户订单订单明细罗斯文商贸公司统计问题统计问题:80罗斯文商贸公司商业问题解决方案
商业问题解决方案从所有客户中找出最有价值的10个客户,将名单发给市场部门,让其对这些客户进行更多的关注罗斯文商贸公司商业问题解决方案商业问题解决方案81结束语当你尽了自己的最大努力时,失败也是伟大的,所以不要放弃,坚持就是正确的。WhenYouDoYourBest,FailureIsGreat,SoDon'TGiveUp,StickToTheEnd结束语82谢谢大家荣幸这一路,与你同行It'SAnHonorToWalkWithYouAllTheWay演讲人:XXXXXX时间:XX年XX月XX日
谢谢大家演讲人:XXXXXX83
数据统计分析
SPSS实战入门第一天课程
数据统计分析
SPSS实战入门第一天课程84课程目标了解基本的统计思想和分析方法了解SPSS软件的特点掌握SPSS的基本操作能够应用SPSS进行基本的统计分析可以有效的对SPSS进行进一步的自学SPSS数据分析的流程课程目标了解基本的统计思想和分析方法85课程安排第一讲数据分析概述统计学的思想与概念第二讲SPSS概述SPSS操作实践第三讲应用案例简介第四讲SPSS数据分析可视化第五讲实践中的SPSS数据分析方法方差分析课程安排第一讲86第六讲SPSS回归模型SPSS多元线性回归SPSSLogistic回归第七讲SPSS因子分析SPSS主成分分析第八讲SPSS聚类分析SPSS决策树第九讲SPSS时间序列第六讲87第一讲数据分析概述
在当今世界,企业怎样搜集、管理、利用数据和信息,并迅速作出决策和反应将是能否在激烈竞争的全球一体化市场经济中能否生存和成败的关键之举。企业需要可靠的决策,可靠的决策来自于系统地定义问题,收集数据,比较和分析数据,结合研究设计,并从数据中得到结论。企业研究是一个系统性的研究过程,提供解决管理问题的信息,作为决策基础。用系统化的方法采集数据并基于这些数据做出决定的过程,对于建立可靠的决策,从而帮助管理者了解企业的各项问题,提供知识与技术来面对变化快速的环境第一讲数据分析概述在当今世界,企业怎样搜88
大量数据和信息匮乏的矛盾从数据中提取信息不是数据库自动能够解决的数据分析统计学数据的科学统计学:随机性与规律性统计工具利用统计学原理服务于数据分析第一讲数据分析概述大量数据和信息匮乏的矛盾数据分析统计学数据的科学统计工具89统计学的本质
当我们不能预测一件事情的结果时,随机性就和这件事情联系起来了.(危险来临,喜从天降)
通过看上去随机的现象进行统计分析,我们开始了解这个世界.统计学的本质当我们不能预测一件事情的结果时90什么时候需要数据分析?商业问题数据问题!商业问题解决方案把商业问题转化为数据问题数据分析及分析结果把数据结果转化为商业解决方案什么时候需要数据分析?商业问题数据问题!商业问题解决方案把商91实际中的问题(企业)当你买了一只手表时,被告知一年内可以免费保修。你想过厂家为什么说一年而不说三个月或两年呢?显然:说多了,厂家会损失;说少了,会失去竞争,也是损失。到底这个保修期是怎样决定的呢?在同一年级中,同样一门课程可能由一些不同教师讲授。教师讲课方式当然不一样,考试题目也不一定相同。那么如何比较不同班级的成绩呢?CEO的收入是一个非常敏感的问题,到底和一个企业的资产价值有怎样的关系,如何制订才会比较公平?不同的机构得出不同的结果;各自都说自己是客观、公正和有道理的。到底如何理解这些不同的结果呢?实际中的问题(企业)当你买了一只手表时,被告知一年内可以免费92实际中的问题(政府)信用评价体系影响到低体重早产儿的社会和制度因素是什么?收入支出比平衡问题?社会安全保障与房地产定价策略问题?……实际中的问题(政府)信用评价体系93数据的价值和利用数据无处不在数据包含的信息很多,但是数据中的信息往往是分散的,单个数据很难直接被应用起来统计学就是把数据转化为信息的科学数据的价值和利用数据无处不在数据包含的信息很多,但是数据中的94统计学
统计学(Statistics)是一个系统搜集数据并基于数据做出决定的过程.它是指导人们正确地认识客观世界的研究方法,是研究受到随机影响的数据的一门学科。
基本特点:
1)是一个在随机现象中寻找规律性的科学;2)由描述和推断两部分方法构成;3)是科学地度量问题,收集问题,表示问题和分析问题的研究方法.统计学统计学(Statistics)是一个95运用统计的领域包括…精算农业动物学人类学考古学审计学晶体学人口统计学牙医学生态学经济计量学教育学选举预测和策划工程流行病学金融水产渔业研究遗传学地理学地质学历史研究人类遗传学水文学工业法律语言学文学劳动力计划管理科学市场营销学医学诊断气象学军事科学核材料安全管理眼科学制药学物理学政治学心理学心理物理学质量控制宗教研究社会学调查抽样分类学气象改善搏采,等等...运用统计的领域包括…精算金融气象学96数据分析过程原始数据、二手数据确定研究目标、范围选择研究方案选择数据收集方式和分析技术分析评估所需样本量建立项目预算描述性统计分析推断性统计分析人工智能等数据挖掘特有的算法计分析清理数据使之适合于分析应用对数据进行变换评估数据质量,填充缺失数据对表格、图形进行编辑用word、excel、text、html展示数据数据分析数据管理数据收集计划结果发布数据理解数据分析过程原始数据、确定研究目标、范围描述性统计分析清理数97描述统计为什么不够?描述统计为什么不够?98数据的层次性:
律师的困惑辛普森悖论(Simpson‘sParadox)亦有人译为辛普森诡论,为英国统计学家E.H.辛普森E.H.Simpson于1951年提出的悖论,即在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。例题:一所美国高校的两个学院,分别是法学院和商学院,新学期招生。人们怀疑这两个学院有性别歧视。法学院商学院
申请性别法学院商学院女男录取率数据的层次性:
律师的困惑辛普森悖论(Simpson‘sP99总体和样本总体(population)研究对象的全体,其中的每一个元素称为个体分为有限总体和无限总体有限总体的范围能够明确确定,且元素的数目是有限的无限总体所包括的元素是无限的,不可数的样本(sample)从总体中抽取的一部分元素的集合构成样本的元素的数目称为样本量(size)总体和样本总体(population)100参数和统计量参数(parameter)研究者想要了解的总体的某种特征值所关心的参数主要有总体均值()、标准差()、总体比例()、总体的协差阵(Σ)等总体参数通常用希腊字母表示统计量(statistic)根据样本数据计算出来的一个量所关心的样本统计量有样本均值(x)、样本标准差(s)、样本比例(p)、样本的协差阵等样本统计量通常用小写英文字母来表示参数和统计量参数(parameter)101变量(Variable)
说明现象某种特征的概念如商品销售额、受教育程度、产品的质量等级等变量的具体表现称为变量值,即数据;变量可以分为分类变量(categoricalvariable)
:说明事物类别的一个名称顺序变量(rankvariable)
:说明事物有序类别的一个名称数值型变量(metricvariable)
:说明事物数字特征的一个名称离散变量:取有限个值连续变量:可以取无穷多个值变量(Variable)说明现象某种特征的概念102统计中的几个基本概念平均数标准差比例参数p统计量xs总体样本统计中的几个基本概念参数统计量总体样本103点估计(PointEstimator)点估计(PointEstimator)104置信区间(IntervalConfidence)置信区间(IntervalConfidence)105假设检验(HypothesisTest)假设检验(HypothesisTest)106理念统计模型的严格数学表达很复杂、繁琐,但是其背后的思想往往很简单做为信息时代的管理者,要理解管理的科学性,科学的基础是测量,没有测量谈不到深入的和恰当的管理制度的建立.统计学只是一个工具,SPSS更是工具的工具,不要指望它能够“自动”解决你面临的商业问题.要注意统计学方法的适用条件,滥用统计学会造成“严重”的负效果.理念统计模型的严格数学表达很复杂、繁琐,但是其背后的思想107第二讲SPSS概述SPSS:StatisticalPackageforSocialScienceStatisticalProductandServiceSolutionsSPSS的发展:60年代:美国斯坦福大学三位研究生研制70年代:SPSS总部成立于芝加哥,推出SPSSX中小型机版80年代:SPSS公司(SPSS/PC+微机版1~3)90年代:SPSS公司(SPSSWINDOWS版5~11)第二讲SPSS概述SPSS:108SPSS软件的特点
功能强大;兼容性好;容易使用;企业级统计分析解决方案;结果的权威性.SPSS软件的特点
功能强大;109统计软件SPSS:这是一个很受欢迎的统计软件;它容易操作,输出漂亮,功能齐全,价格合理。它也有自己的程序语言,但基本上已经“傻瓜化”。它对于非专业统计工作者是很好的选择。
Excel:它严格说来并不是专业统计软件,但作为数据表格软件,必然有一定统计计算功能。而且凡是有MicrosoftOffice的计算机,基本上都装有Excel。但要注意,有时在装Office时没有装数据分析的功能,那就必须装了才行。当然,画图功能是都具备的。对于简单分析,Excel还算方便,但随着问题的深入,Excel就不那么“傻瓜”,需要使用函数,甚至根本没有相应的方法了。多数专门一些的统计推断问题还需要其他专门的统计软件来处理。统计软件SPSS:这是一个很受欢迎的统计软件;它容易操作,输110SPSS软件基本介绍1、SPSS的基本构成:11个模块2、SPSS五个窗口的基本功能3、应用SPSS执行统计分析的几种方法4、SPSS的四种结果5、SPSS无处不在的Help6、SPSS五种结果保存方式SPSS软件基本介绍1、SPSS的基本构成:11个模块111SPSSClient/ServerSPSSBase----基础模块SPSSAdvanced----多元方差分析、生存分析SPSSRegression----回归SPSSTrends----时间序列SPSSCategories----分类数据分析SPSSConjoint----正交设计和分析SPSSTables----表格展示数据SPSSMaps----地图展示数据SPSSMissingValueAnalysis----缺失值分析SPSSExactTestAnalysis----精确检验SPSSComplexSamples----复杂抽样SPSSClient/ServerSPSSBase---112SPSS模块与过程读/录入数据数据整理描述统计数据分析图表展示结果编辑结果报告AdvancedCategoriesConjointRegressionTrendsExactTestComplexSampleMissingValueBaseTableMapSPSS模块与过程读/录入数据数据整理描述统计数据分析图表展113SPSS操作界面----五个窗口DataEditor----数据编辑窗口DataViewVariableViewSyntaxEditor----程序编辑窗口Viewer----结果管理窗口DraftViewer----草稿结果窗口Script----脚本编辑窗口SPSS操作界面----五个窗口DataEditor--114完全窗口菜单方式:所有分析操作过程都是通过菜单和按钮及对话框方式进行的.是经常使用的一种运行方式,适用于一般分析和SPSS的初学者.完全窗口菜单方式:115SPSS的结果SPSS的四种结果文本格式的结果表格结果标准图结果交互图结果SPSS的结果SPSS的四种结果116SPSS的结果保存方式SPSS结果文件格式Html格式Word格式Text格式Excel格式图形:jpg、pct…练习:将savetype.spo打开,将其中的对象以不同的格式保存。SPSS的结果保存方式SPSS结果文件格式练习:将savet117SPSS的帮助系统帮助菜单TopicsTutorialCaseStudiesStatisticsCoachCommandSyntaxGuide对话框帮助无处不在的What’sthis?SPSS的帮助系统帮助菜单118第三讲SPSS操作实践1.SPSS数据文件的创建与保存2.利用SPSS整理数据3.数据抽样方法4.利用SPSS展现数据:专业的报表和图形5.利用SPSS分析数据第三讲SPSS操作实践1.SPSS数据文件的创建与保存1193.1SPSS数据文件SPSS数据文件是一种有结构的数据文件。年级性别 问题1…… 问题n1 1 ………. 42 2 ……… 2 …………………...3 1 ………… 1文件结构数据个案case变量名变量SPSS数据文件一般只能通过SPSS软件打开3.1SPSS数据文件SPSS数据文件是一种有结构的数据文120SPSS数据文件的特点原始数据文件格式:数据文件中的一列为一个变量,每个变量有一个唯一的存取标志:变量名数据文件中的一行为一个个案(case)汇总数据文件格式:男女高价值客户1023低价值客户1220SPSS数据文件的特点原始数据文件格式:男女高价值客户102121SPSS数据文件的结构(一)变量名(Variablename):
变量名是变量存取的唯一标志。
起名规则:不多于64个字符组成不区分大小写允许汉字作为变量名默认变量名为VARn,如:var00001SPSS数据文件的结构(一)变量名(Variablenam122SPSS数据访问(一)打开数据文件
菜单选项:File->Open->.sav(二)数据定位按个案号码定位菜单:Data->Gotocase->输入样本号按值定位光标定位到某列变量上
->Edit->Find...SPSS数据访问(一)打开数据文件123SPSS数据的编辑(三)插入和删除一个个案插入:data->insertcase删除:选定待删行,鼠标右键找到Cut(四)插入和删除一个变量插入:光标定位到某列变量上
->Data->InsertVariable(插到某列前)或鼠标右键删除:选定列,鼠标右键Cut项SPSS数据的编辑(三)插入和删除一个个案124SPSS数据编辑(五)数据移动、复制和删除定义源数据块鼠标右键:cutcopyclear确定目标单元鼠标右键:pasteSPSS数据编辑(五)数据移动、复制和删除125SPSS数据的录入录入时应注意:黑框确定当前数据单元。录入带有变量值标签的数据:手工输入代码,屏幕显示变量值标签。SPSS数据的录入录入时应注意:126SPSS数据的保存数据保存:操作保存格式:
(1)*.sav:SPSS数据文件(默认)。(2)*.dbf:dbase数据文件。(3)*.xls:Excel工作表文件。注意:有些信息会丢失SPSS数据的保存数据保存:127练习2:1.将文件telenew.sav导出到mydocuments\myspsscredit\tele1.xls2.将文件telen.txt导入到spss窗口,另存为mydocuments\myspsscredit\tele2.sav练习2:128SPSS变量定义变量的类型(type)和显示宽度(width)变量名标签(Variablelabel)变量值标签(Valuelabel)变量列格式(ColumnFormat)缺失值(MissingValues)变量计量尺度(Measurement)利用变量视图查看变量定义的情况SPSS变量定义变量的类型(type)和显示宽度(width129一个基本的分析例题例:xuelin.sav
要求
(1)数据的基本描述过程descriptive(2)数据的分布histogram(3)基本的比较推论t检验
(4)保存结果为*.spo文件,*.html文件
(5)使用拆分文件进行分类比较
(6)使用筛选变量进行数据的初步探索一个基本的分析例题例:xuelin.sav130两个总体均值之差的检验
(12、22
未知且相等,小样本)H0:1-2=0H1:1-2
0=0.05n1=12,n2
=14临界值(s):检验统计量:决策:结论:
在
=0.05的水平上拒绝H0有证据表明两种方法生产的产品其抗拉强度有显著差异Z01.96-1.96.025拒绝H0拒绝H0.025两个总体均值之差的检验
(12、22未知且相等,小1312.用SPSS加工和整理数据数据文件的整理
个案排序、个案选取、文件合并、文件转置数据加工变量计算、产生计数变量数据分组自动分组、手工分组数据文件的其他处理功能指定加权变量、SPSS变量集的定义和使用2.用SPSS加工和整理数据数据文件的整理1322.用SPSS加工和整理数据数据清理:检查录入错误、清除不合理数据、定义或弥补缺失值变量重新编码(Recode)生成新变量(Compute)按关键变量对记录排序(Sort)按关键变量对记录分组(Aggregate)变量和记录之间转置(Transpose)数据合并与拆分(Merge/Split)对记录加权(Weight)2.用SPSS加工和整理数据数据清理:检查录入错误、清除不1332.1变量重新编码Recode过程(xuelin.sav)xuelinlevel=0,xuelin<120,xuelin>=210,1<xuelin<2问题:如果仅对有些组进行如何?2.1变量重新编码Recode过程(xuelin.sav)1342.2生成新变量Compute过程目的:产生新变量或对原变量进行必要的转换处理理论需要:
预测问题产生比率数据偏态数据的正态处理时间序列的平稳处理等应用例:身高2/体重肥胖指数负债/收益资产负债信贷额度-贷款余额信用评级总通话时间/总呼叫次数通话质量2.2生成新变量Compute过程目的:产生新变量或对原变1352.2生成新变量Compute过程目的:产生新变量或对原变量进行必要的转换处理(如:预测问题/产生比率数据/偏态数据的正态处理/时间序列的平稳处理等)(1)含义:
根据用户给出的SPSS算术表达式,对所有或部分样本数据进行加工。(2)SPSS算术表达式(NumericExpression):
由算术运算符(+、-、*、/、**)、SPSS函数以及SPSS变量名组成的式子。2.2生成新变量Compute过程目的:产生新变量或对原变136temp=1,xuelin>12,xuelin<=1temp=1,xuelin>12,xuelin<=1137算术函数统计函数分布函数逻辑函数字符串函数日期时间函数缺失值函数其他函数Abs()sqrt()exp()lg10()rnd()trunc()mod()mean()sd()sum()cfvar()max()min()normal()uniform()rv.()cdf.()idf.()range()any()index()length()lower()lpad()ltrim()substr()missing()sysmis()lag()(3)SPSS函数算术函数Abs()sqrt()exp()lg101382.3按关键变量对记录排序(Sort)
目的:将所有个案按照用户指定的某一个或多个变量的变量值的升序或降序重新排列。菜单选项: data->sortcases注意: (1)Ascending:升序、Descending:降序。 (2)多重排序,选择变量名的次序很关键。2.3按关键变量对记录排序(Sort)
目的:139练习:对xuelin.sav分别按照血磷浓度和年龄进行排序。练习:对xuelin.sav分别按照血磷浓度和年龄进行排序。1402.4按关键变量对记录分组(Aggregate)(1)含义:按指定的分类变量的变量值对个案分组;计算每组个案的汇总变量的基本统计量;将计算结果生成到一新文件中,即:在新文件中对应分类变量的每一个分类值产生一个个案。原始数据按性别变量汇总数据2.4按关键变量对记录分组(Aggregate)(1)含义141(2)菜单选项:
data->aggregate(3)说明:多重分组时,变量名的选择顺序。生成的新文件名默认为:aggr.sav。可修改。生成的新变量名默认为原变量名后加_1。可修改。可以在新文件中存贮个分组个案数.(2)菜单选项: 1422.5变量和记录之间转置(Transpose)
目的:将数据文件行列互换,即:将个案转为变量,变量转为个案.转置前转置后2.5变量和记录之间转置(Transpose)
目的:转置1432.5变量和记录之间转置Restructure过程2.5变量和记录之间转置Restruct
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 吉林工商学院《音乐图像学》2023-2024学年第一学期期末试卷
- 湖南女子学院《综艺主持》2023-2024学年第一学期期末试卷
- 黑龙江农垦职业学院《草书》2023-2024学年第一学期期末试卷
- 高考物理总复习《电容器带电粒子在电场中的运动》专项测试卷含答案
- 郑州城市职业学院《管理科学与工程学科论文写作指导》2023-2024学年第一学期期末试卷
- 浙江经贸职业技术学院《影视摄像技术》2023-2024学年第一学期期末试卷
- 小学学校微信公众号信息发布工作制度
- 浙江财经大学《基础医学概论Ⅱ3(微生物学)》2023-2024学年第一学期期末试卷
- 张家口职业技术学院《法务谈判与技巧》2023-2024学年第一学期期末试卷
- 缺陷管理与风险评估实施细则
- 幼儿园篮球课培训
- AQ 6111-2023个体防护装备安全管理规范知识培训
- 老干工作业务培训
- 基底节脑出血护理查房
- 高中语文《劝学》课件三套
- 人教版八年级物理-第二章:声现象复习完整课件
- 直播代运营服务合同范本版
- 2024年江苏苏州中考数学试卷及答案
- 2024年山东省高中自主招生数学模拟试卷试题(含答案)
- 算术平方根2课件
- 【人教版】九年级化学上册期末试卷及答案【【人教版】】
评论
0/150
提交评论