第三讲基础使用演示文稿_第1页
第三讲基础使用演示文稿_第2页
第三讲基础使用演示文稿_第3页
第三讲基础使用演示文稿_第4页
第三讲基础使用演示文稿_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三讲基础使用演示文稿当前第1页\共有56页\编于星期六\15点优选第三讲基础使用当前第2页\共有56页\编于星期六\15点统计分析的技术思路?!商业问题数据问题商业问题解决方案

统计学方法或者数据挖掘方法当前第3页\共有56页\编于星期六\15点统计分析是正确理解数据的工具首先:要避免犯统计错误明确:统计没有错误,犯错的是人。理论和方法的错误理解和解释的错误当前第4页\共有56页\编于星期六\15点描述性统计多变量分析技术市场研究模型技术数据挖掘技术频数分析交叉表分析T检验数据探查分析相关分析方差分析回归分析主成分分析因子分析聚类分析判别分析对应分析多维尺度分析结合分析离散选择模型多维偏好分析结构方程式模型分类树决策与预测模型分类预测细分关联序列统计分析方法当前第5页\共有56页\编于星期六\15点变量:测量尺度名称级——定类变量顺序级——定序变量间隔级——定距变量比例级——定比变量低高转换定性定量非数量型数量型离散型随机变量连续型随机变量当前第6页\共有56页\编于星期六\15点数据分析项目各阶段数据收集数据录入数据读取数据准备数据理解数据分析数据建模模型评估结果报告结果发布

SASSAS0SAS0SASSASSAS0AnswerTreeAMOS/LISRELUCINETACACBCDecisionTimeClementineEnterpriseMinerWhatIfSPSSMRPencilPaper市场调查管理咨询描述性统计多变量分析技术市场研究模型技术数据挖掘技术数据可视化技术调查手段0年———————年—————————————————年————————————00年调研机构专用分析软件与模块Spss0Spss0Spss0Spss0SpssSpss0Spss0Spss0SpssCATIWEBSurveyDATAWareHouseCAPI市场营销数量型——非数量型当前第7页\共有56页\编于星期六\15点SPSS软件功能产品简介窗口简介菜单简介数据分析步骤无处不在的Help系统进行数据分析要求的格式记录、变量等的一般术语当前第8页\共有56页\编于星期六\15点SPSS产品简介SPSS是服务器/客户端结构的产品SPSS产品由SPSSBase,AdvancedCategories,Conjoint,Trends,Regression,MissingValueAnalysis,Tables,ExactTest和Maps等分析模块构成,另外还有专门查看输出结果的SmartViewer模块SPSSDataAccessPack用于和数据库进行连接并获取数据当前第9页\共有56页\编于星期六\15点进入SPSS当前第10页\共有56页\编于星期六\15点SPSS窗口简介DataViewDataEditVariableView当前第11页\共有56页\编于星期六\15点SyntaxOutputSPSS窗口简介当前第12页\共有56页\编于星期六\15点SPSS的Help系统帮助菜单

StatisticsCoachResultCoachCasestudiesTutorial对话框帮助无处不在的“What’sthis?”当前第13页\共有56页\编于星期六\15点SPSS的环境设置当前第14页\共有56页\编于星期六\15点命令语法规则每条命令始于新起一行的第一列其他行至少空一列最后一行以(.)结束变量名必需拼写正确子命令必须以(/)分隔每行不超过256字符,推荐限制在80字符内当前第15页\共有56页\编于星期六\15点利用命令Help三种编辑方式生成SPSS命令1.通过自己编辑生成2.通过“Paste”生成格式再做修改3.利用“Help”生成格式再作修改利用Help生成SPSS命令的几步1.写入关键字,如“Regression”2.点击工具栏以获取语句3.选择选项以及变量当前第16页\共有56页\编于星期六\15点各自适用条件如果满足于菜单分析,就用菜单分析如果不经常使用SPSS,运行菜单,并获取帮助如果只想运行Syntax文件中的命令,又不想显示命令,用Include命令如果要经常读取某一文本各式或数据库数据,可考虑用Include命令来定义数据,然后进行分析如果做月报性分析,可以考虑用ProductionFacility如果运行同样的命令,只是在文件名或变量名作小的改动,考虑用ProductionFacility中的宏当前第17页\共有56页\编于星期六\15点SPSS的变量变量名变量类型变标值标缺失值测量尺度当前第18页\共有56页\编于星期六\15点变量和数据整理排序转置数据重构数据合并插入变量汇总数据正交实验设计拆分记录选择样本样本加权当前第19页\共有56页\编于星期六\15点变量或数据转换计算新变量随机种子计数重新编码自动分类秩排序秩排序缺失值处理当前第20页\共有56页\编于星期六\15点数据分析和方法当前第21页\共有56页\编于星期六\15点数据分析和图形分析,展示当前第22页\共有56页\编于星期六\15点有用的工具当前第23页\共有56页\编于星期六\15点汇总数据数据选择一起动手当前第24页\共有56页\编于星期六\15点汇总数据当前第25页\共有56页\编于星期六\15点描述统计测定指标数据分布性质算术平均数中位数众数集中趋势全距方差标准差离中趋势偏态分布形态四分位距峰度当前第26页\共有56页\编于星期六\15点保留语法-下次再作——研究痕迹当前第27页\共有56页\编于星期六\15点频数分析变量分布当前第28页\共有56页\编于星期六\15点当前第29页\共有56页\编于星期六\15点当前第30页\共有56页\编于星期六\15点描述性分析汇总统计当前第31页\共有56页\编于星期六\15点ABC正态分布当前第32页\共有56页\编于星期六\15点探索数据关系EXPLORINGRELATIONSHIPS定类变量交互分析CATEGORICALDEPENDENTVARIABLES连续变量趋势图分析CONTINUOUSDEPENDENTVARIABLES相关和散点图分析RELATIONSHIPSBETWEENINDEPENDENTVARIABLES数据转换DATATRANSFORMATIONS自动编码AUTOMATICRECODE分组值GROUPINGVALUES函数转换FUNCTIONALTRANSFORMATIONS修改异常值MODIFYINGOUTLIERS计算新变量DERIVINGNEWVARIABLES改变分析单元CHANGINGTHECASEBASE消减变量REDUCINGTHENUMBEROFFIELDS当前第33页\共有56页\编于星期六\15点计算新变量菜单:Compute方程式:

函数(算术、字符、日期时间、统计量)

变量值

数字数学与逻辑符号示例:平均值计算字符合并年龄计算条件式计算:当前第34页\共有56页\编于星期六\15点对变量重新赋值菜单:Recode与Compute不同之处:Recode利用单个变量值计算生成新值覆盖旧变量或生成新变量旧值与新值的对应关系:两个原则:不重,不漏适用于:将连续变量转换为分类变量将数字字符型变量转换为数值型变量将几个类别合并为一类当前第35页\共有56页\编于星期六\15点字符型变量自动转换为数值型变量菜单:AutomaticRecode适用于:字符型变量转换为数值型变量与Recode相比转换原则:字母顺序----顺序或逆序相同字符串相同值,不同字符串不同值值标签----原变量值标签或值示例:Name----Numname,Sex----Gender当前第36页\共有56页\编于星期六\15点Doif…elseifLogistic适用于:基于几个变量生成新变量结构:Doif.Compute.Elseif.Compute.Else.Compute.Endif.示例:将所有产品分为三类:耐用、快速变动、其它当前第37页\共有56页\编于星期六\15点图形模块的应用目的:掌握如何新建图形模块文件(TemplatesorChartlooks)掌握如何应用模版文件了解如何设置图形模版文件为默认外观当前第38页\共有56页\编于星期六\15点表格编辑规则表格要素:行、列、层、数据编辑规则:TableProperties对所有单元格、所有行、列或者层进行编辑属性与新纬度一致(列变量移动到行变量时)CellProperties只对选中的单元格进行编辑属性继承先Table后CellCellProperties覆盖TableProperties特性当前第39页\共有56页\编于星期六\15点表属性用于修改整个表的属性主要功能:单元格属性:字体、对齐方式行列宽度、高度空行和空列打印边界脚标当前第40页\共有56页\编于星期六\15点SPSS结果的发布掌握如何将表格、图形、文本等结果转入其他应用格式中掌握将SPSS结果导入为静态网页格式或文本格式OLE方法将SPSSPivotTable转入其他应用程序中将SPSSGraph转入其他应用程序中将SPSS结果导出利用SPSSSmartViewerWebServer来展示结果当前第41页\共有56页\编于星期六\15点文件的合并----增加记录和变量增加记录:一种纵向合并,是对不同个体的相同属性进行合并,事先排序,变量相同。增加变量:是一种横向合并,是对相同个体的不同属性进行合并,事先排序,关键字且唯一。一对一匹配或一对多匹配。合并两个文件或多个文件。利用菜单一次只能合并两个文件。其中一个文件必须使SPSS格式,另一个文件必须可以用SPSS打开。当前第42页\共有56页\编于星期六\15点定义商业问题最重要的要求是你的数据和业务问题。没有任何统计方法或算法,无论多么复杂玄妙,无法提供有价值的结果。即使有也难以使人信赖。缺少这些背景知识,无法明确定义要解决的问题,不能为分析准备资料,也很难正确解释所得到的结果。要想充分发挥数据的价值,必须要对你的目标有一个清晰明确的定义;决定到底想干什么,有效的问题定义还应该包含一个对你的知识发现,以及项目得到结果进行衡量的标准。还应该有整个项目预算和理性的解释。比如你说你想提高商业战役的用户响应时,你想做的可能是“提高用户响应率”,也可能是“提高一次用户响应的价值”,要解决这两个问题而建立的分析方法或模型几乎是完全不同的,你必须做出决定。当前第43页\共有56页\编于星期六\15点理解商业问题性别父亲的教育程度被访者教育程度工作类型城市当前收入水平当前第44页\共有56页\编于星期六\15点性别父亲的教育程度被访者教育程度工作类型城市当前收入水平当前财政状况未来信用风险Time1Time2当前第45页\共有56页\编于星期六\15点家庭收入销售数量喜欢流行音乐当前第46页\共有56页\编于星期六\15点数据质量评估“龙生龙,凤生凤”对数据分析也是同样道理。要想得到好的模型必须用好的资料。数据质量评估就是要确定资料中哪些性质会最终影响模型的质量。你不仅要保证资料值的正确性和一致性。还要保证这些值是按同样的方法记录的同一件事情。数据域中可能包含了不正确的值。比如,身份证号码被粗心的资料录入人员录入了年龄。即使每个单个域中包含的资料都是正确的,但这些域组合起来时可能就出现了错误的记录,如男性怀孕。有时域中的值为空。当从多个不同的源整合资料时一定要注意不同源之间资料的一致性。存在各种各样的数据质量问题当前第47页\共有56页\编于星期六\15点资料清理缺值是一个非常有害的问题。如果只要有一个数据域缺值就把这个记录删除掉,那么最后可能得到一个很小的数据集。同时你得到的这个数据集很可能已经丢失了实际资料中蕴含的一些信息,因为你已经改变了原资料的组成。缺值这件事本身可能就是非常有意义的,比如也许只有富有的顾客才经常忽略“收入”这一项。你可以增加一个新的变量来标识这些缺值的记录,然后用它建立一个模型,然后与按其它方法建立的模型进行比较,看哪个准确度更高一些。另一种方法是为缺失值计算一个替代值。计算替代值的常用方法包括使用形式值(名词变量),中间值(定序变量),平均值(连续变量)。当前第48页\共有56页\编于星期六\15点还有一个不是很常用的方法是按照数据库中值的分布规律为缺值的字段添值。比如如果数据库中包含40%男性和60%女性,那么在为那些性别缺失的记录添值时也按这个比例随机赋值。还有一种方法是为这个缺失值的字段用统计分类和预测技术建立一个预测模型,然后按照这个模型的预测结果添值,这种方法效果应该最好,当然也最花时间。承认生活并不是十全十美是必要的,数据分析也是一样,你也不可能解决所有遇到的问题,只能做得尽量好一点。检查和修正数据质量问题是一项非常耗费时间和金钱的工作,对解决不了的问题,通常你只能采取折衷的办法,先用现有的资料分析,把问题放到将来去解决。缺失值处理问题当前第49页\共有56页\编于星期六\15点进行“描述型分析”以获得更详细的关于可视化、描述性统计量、频数分析、关联分析、交叉分析、连结分析及其它资料分析方法。分析的目的是找到对预测输出影响最大的数据域和变量,并决定是否需要定义转换和导出新的字段(变量)。如果资料集包含成百上千的字段,那么浏览分析这些资料将是一件非常耗时和累人的事情,这时你需要选择一个具有好的接口和功能强大的工具软件来协助你完成这些事情。分析资料当前第50页\共有56页\编于星期六\15点理想情况下,你可以选择拥有的所有变量;把他们输入到统计分析工具中,让他来帮你选择哪些是最好的预测变量。实际上这样做并不是很好:一方面是由于随着变量个数的增加,模型的建立时间也随之上升;另一方面盲目的把所有的变量都加进去会导致建立错误的模型。比如,建立预测模型的一个常见错误就是把一个依赖于目标变量的变量(由目标变量导出)作为预测变量,像用生日来“预测”年龄。在原理上说,一些数据算法自动忽略不相关的变量、自动计算相关的(协)变量;在实际应用中完全依赖这些工具是不明智的,毕竟最了解你的资料的还是你自己。利用你的领域知识,你会做出大部分正确的选择。例如,用身份证号或人名做预测变量要么不会有任何用处,甚至降低了其它重要变量的影响力。选择变量当前第51页\共有56页\编于星期六\15点与选择变量类似,你可能也想用你所有的记录来建立模型,然而如果你的资料量确实非常巨大的话,要么要花费很长的时间来建立这个模型,要么买一台计算能力非常强大的机器。因此,如果资料量特别大,进行抽样就是一个很好的主意。如果做的足够仔细,保证抽样是按真正的随机来进行的,抽样对大部分商业问题来说都不会丢失信息。你可以用所有的资料建立一个模型;你还可以用抽样的方法根据不同得抽样方法建立几个模型,然后评价这几个模型选择一个最好的。我们认为后面这种方法得到的方法更准确、更健壮。你可能选择资料中明显的异常资料删除掉。然而在某些情况下,这些看来异常的资料可能包含了你要建立模型的重要信息。基于你对问题的理解方式的不同,通常可以把这些异常忽略掉。比如可以把异常认为是人为的录入错误。有时也需要向资料中添加一些新的资料(如,那些没有做出购买的客户)。选择记录当前第52页\共有56页\编于星期六\15点很多情况下需要从原始资料中衍生一些新的变量作为预测变量。比如,用话费额度占收入的百分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论