第1章数据分析概述_第1页
第1章数据分析概述_第2页
第1章数据分析概述_第3页
第1章数据分析概述_第4页
第1章数据分析概述_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、主讲:程静薇2012年春第1章1.用数据说话1.数据分析概述1.SPSS统计软件简介4 有三种谎言:谎言、糟糕透顶的谎言和统计资料。英国前首相 本杰明迪斯雷利1.对于将国家法定节假日总天数由10天增加到11天,您的态度是:支持反对无所谓 结果:88%的人支持2.对于将“五一”国际劳动节调整出的2天和新增加的1天用于增加清明、端午、中秋三个传统节日为国家法定节假日,您的态度是:支持反对无所谓 结果:67%的人支持3.对于保留“十一”国庆节和春节两个黄金周,您的态度是:支持反对无所谓 结果:81%的人支持2007年,由国家法定节假日调整研究小组联合新浪网进行“五一黄周存废”的问卷调查。妖魔化女大学

2、生:u大学毕业生处女率排行榜:北京外国语大学处女率为15.86%。u北外新闻系大三学生组织的“北外女生性调查”中,全部459名受访者(有两人未给出此项答案)中,大学期间已经发生性行为的有53人,而未发生性行为的有406人,发生性行为的比例仅为11.5%。如何得到有偏的样本?“你乐意回答调查问卷吗?” 结论是:一个典型的来自总体的样本中,压倒多数的人选择了“乐意”。 国家统计局2008年7月27数据:上半年,中国城镇单位在岗职工平均工资12964元,比去年同期增长18.0%。其中,城镇国有经济单位13800元,增长17.0%;城镇集体经济单位7789元,增长18.9%;城镇其他经济类型单位126

3、10元,增长19.2%。平均工资:被增长张家有财一千万,九个邻居穷光蛋。平均起来算一算,个个都是张百万。u 当样本分布并非正态分布时,均值并不适用。此时中位数能更好地代表样本信息:一半比它小,一半比它大。时代杂志的新订户:他们年龄的中位数是34岁,家庭平均年收入为7270美元。u一股犯罪浪潮袭击了我市,去年杀人犯的比例增加了 67%。n是是3个到个到5个?还是个?还是300个到个到500个?个?u今年鸡蛋涨幅同比下降50%。n前年前年1元,去年元,去年2元,今年元,今年3元?元?u舒肤佳:有效去除99%的细菌。n总体细菌总体细菌or样本细菌?样本细菌?u居民抱怨物价飞涨但中国国家统计局公布8月

4、通胀低于预期。n谁的预期?谁的预期?u 绝对数和百分比都不可靠。u 遗漏比较对象的目的是为了有意得到误导性的结论。首先,要避免犯统计错误。明确:统计没有错误,统计软件没有错误,犯错的是。夜越深,我对你的爱越深。现在,我对你爱和夜色正相关。11u北京晚报的读者具有哪些特征?他们的购买力如何?u哪些人群会使用手机上网?他们每月愿意花多少钱用手机上网?他们用手机上网的动机如何?u最新款的手机应该选择什么渠道投放广告?报纸、杂志、电视还是互联网?研究:为寻求问题的答案而实施的有计划、有步骤的行为。基础研究:为了解变量间的关系,不能立刻见到商业产品或服务。应用研究:为了开发一种产品或解决一个迫切的实际问

5、题。定性研究:用非数字的语言来描述观察资料,统计数据在研究中是次要的。定量研究:用数字术语来表现观察结果,往往采用精确的统计方法。u统计学是从数据中获取信息的科学。u统计分析软件是数据分析的主要工具。u完整的数据分析过程包括:u数据的收集数据的收集u数据的整理数据的整理u数据的分析数据的分析u统计学为数据分析过程提供一套完整的科学的方法论。统计软件为数据分析提供了实现手段。基础统计描述性统计概率分布常用统计分析方法:推断性统计置信区间假设检验简单回归方差分析相关分析卡方检验非参数检验多元高级统计分析方法多元回归分析聚类分析主成分分析因子分析多维尺度分析对应分析结合分析结构方程式模型u主要介绍如

6、何利用SPSS软件对数据进行实证分析。u在介绍基本数据分析方法与统计分析原理的基础上,通过经典的数据分析案例说明进行数据分析的步骤、过程以及解释结果的现实意义。u本课程着重应用,不重原理。u本门课程一共32学时,其中课堂讲授16学时,上机实验16学时。u课堂讲授采用主要结合具体的数据案例介绍基本统计方法如何通过SPSS加以实现。u上机实验是本门课程的重要组成部分。要求通过实际操作,熟练掌握课堂讲授的知识。u基本掌握SPSS统计软件在数据分析中的应用,具体表现为:n问卷设计问卷设计n掌握运用掌握运用SPSSSPSS进行问卷分析的基本方法进行问卷分析的基本方法n解释统计分析结果解释统计分析结果n独

7、立完成一份统计分析报告独立完成一份统计分析报告u上机时要求固定位置,只要机器没有问题,各人自始至终使用固定的计算机。u建立固定的个人文件夹,并及时保存备份个人数据。u珍惜短暂的上机练习时间,鼓励踊跃提问、相互讨论。但与课程无关的事情诸如聊QQ、浏览网页、看电影等消磨时间的行为不允许出现在课堂上。20uStatistical Package for the Social Sciences n社会科学统计软件包社会科学统计软件包 uStatistical Product and Service Solutions (from 2000)n统计产品与服务解决方案统计产品与服务解决方案 uSPSS是世

8、界上最早的统计分析软件u60年代:由美国斯坦福大学的三位研究生研制u70年代:1975年在芝加哥组建了SPSS总部u80年代:1984年推出了SPSS/PC+n世界上第一个统计分析软件微机版本世界上第一个统计分析软件微机版本n开创了开创了SPSS微机系列产品的开发方向微机系列产品的开发方向u 90年代以后: Windows 版(v5-19)u2009.7.28,IBM收购SPSSnPASW(Predictive Analytics Software)u全球100多个国家和地区有分支机构或合作伙伴,直系员工超过2000人。u全球约有28万用户,分布于通讯、医疗、银行、证券、保险、制造、商业、市场

9、研究、科研教育等领域和行业。u全球500强中有80%的公司使用SPSS,而在市场研究和市场调查领域有超过80%的市场占有率,是世界上应用最广泛的专业统计软件之一。u国际学术交流中,用SPSS软件完成的计算和统计分析,可以不必说明算法。u功能强大n囊括了各种成熟的统计方法与模型。囊括了各种成熟的统计方法与模型。n提供了各种数据准备与数据整理技术。提供了各种数据准备与数据整理技术。n包括自由灵活的表格功能。包括自由灵活的表格功能。n提供了各种常用的统计学图形。提供了各种常用的统计学图形。兼容性好n对对Excel数据、文本格式数据导入数据、文本格式数据导入SPSS中进行分析;中进行分析;nSPSS导

10、入的表格、图形结果可直接导出为导入的表格、图形结果可直接导出为Word、Excel等等格式,可以将表格、交互式图形作为对象粘贴到格式,可以将表格、交互式图形作为对象粘贴到Word、Excel等中。等中。易用性强n界面十分友好界面十分友好n美观的结果输出美观的结果输出n强大的辅助教学功能强大的辅助教学功能n是非专业统计人员的首选统计软件是非专业统计人员的首选统计软件 u附加模块 (一般、混合、对数)线性模型;生存分析BaseAdvanced 对应分析、感知图等Categories 多阶段复杂抽样技术等Complex Sample 正交设计、联合分析等Conjoint 精确/随机抽样概值计算Exa

11、ct Test 在地图上展示数据Maps 缺失数据的报告与填补Missing Value Analysis Logistic,Probit, 非线性回归Regression 交互式创建表格Tables 时间序列:Arima、指数平滑、自回归等Trends SPSS的启动n使用开始菜单启动使用开始菜单启动SPSSn双击双击SPSS图标启动图标启动SPSS SPSS的退出n使用使用FILE菜单中的菜单中的“EXIT SPSS”菜单项退出菜单项退出SPSSn单击数据编辑窗右上角单击数据编辑窗右上角“”的退出的退出SPSSn退出时通常会提示是否保存数据文件退出时通常会提示是否保存数据文件.sav和结果

12、文件和结果文件.spo5、打开一个已、打开一个已存在的数据源程存在的数据源程序序1、以、以浏览运行浏览运行操作指导操作指导2、在、在数据窗口数据窗口输入数据选项输入数据选项3、运行、运行一个已一个已存在的文件选项存在的文件选项4、使用、使用数据库向数据库向导来创造一个新导来创造一个新的文件选项的文件选项6、打开、打开一个其它一个其它类型的文件类型的文件(一)SPSS的数据编辑窗口(SPSS Data Editor)u用于打开以“.sav”为扩展名的SPSS数据文件;SPSS中各统计分析功能都是针对该窗口中的数据进行的。u功能:对SPSS的数据进行定义、录入、修改、管理等基本操作。u分为两个视图

13、:nData View(数据视图数据视图):行代表观测个体:行代表观测个体(Record)、列代表属性、列代表属性(Variable)n Variable View(变量视图变量视图):显示变量名称、类型、格式等:显示变量名称、类型、格式等数据窗口变量定义窗口(一)SPSS的数据编辑窗口(SPSS Data Editor)主界面的主界面的10个下拉菜单:个下拉菜单: File(文件):对(文件):对SPSS相关文件进行基本管理相关文件进行基本管理 Edit(编辑):对数据进行基本编辑(编辑):对数据进行基本编辑 View (视图):对(视图):对SPSS窗口外观等进行设置窗口外观等进行设置 D

14、ata (数据)(数据) :对数据进行加工整理:对数据进行加工整理 Transform(转换):对数据进行基本处理(转换):对数据进行基本处理 Analyze(统计分析):对数据进行统计分析和建模(统计分析):对数据进行统计分析和建模 Graphs(作图):对数据生成统计图形(作图):对数据生成统计图形 Utilities(实用程序):(实用程序):SPSS其他辅助管理其他辅助管理 Windows(窗口管理):对(窗口管理):对SPSS中的多个窗口进行管理中的多个窗口进行管理 Help(帮助)(帮助) :SPSS的联机帮助的联机帮助(二)SPSS的结果管理窗口(SPSS Output View

15、er)用于存放分析结果,用于打开以用于存放分析结果,用于打开以“.spo”为扩展名的结果文件。为扩展名的结果文件。 结果管理窗口是一个文本窗口,其功能是用来结果管理窗口是一个文本窗口,其功能是用来显示系统处理的输出结果或系统运行过程中所发生显示系统处理的输出结果或系统运行过程中所发生的错误信息。的错误信息。 在一个在一个SPSS运行期间可以同时打开两个或两个运行期间可以同时打开两个或两个以上的输出窗口。其中只有一个为主输出窗口。以上的输出窗口。其中只有一个为主输出窗口。(三)SPSS的图表编辑窗口(SPSS Chart Editor)(一)计划阶段(1)确定研究问题(2)建立项目预算:费用的多

16、少直接决定调查的精确度(信度)(3)确定研究范围即确定研究总体和个体(4)确定样本的抽取方法:简单随机抽样、分层抽样、整群抽样、系统抽样等等。(5)分析评估所需的样本量:如在95%的置信度水平下,最大允许误差为3%,所需样本量为1067。(6)确定数据收集方式:面访、电话访问、拦截访问(7)确定应该收集个体的哪些数据:问卷的准备(8)确定研究问题的分析方法与分析工具:统计方法的选择与统计软件的应用。关于样本量的认识误区:u“样本量越大,代表性越好”一个样本对总体是否有代表性,关键在于其是否来自随机抽样。如果抽样方法是有偏的,那么样本量越大,代表性反而越差,从而得出错误的结论。如“自发性回应样本

17、”u“样本量越大,精度越高”抽样误差的大小与所需费用成反比,与样本量的平方根成反比。样本量增大到一定程度后,对绝对误差的补偿微乎其微。u“总体越大,所需的样本量也就越大”样本对总体的代表性取决于是否来自科学的抽样方法,与总体的大小无关。(二)数据收集阶段数据收集的方法有多种:如电话访问、面访、拦截式访问。进行数据收集需要有一份标准问卷,能从问卷中得出有意义的结论。(三)数据获取阶段数据获取是将分散的、原始格式各不相同的数据读入分析工具中,使分析工具可以对数据进行分析。(四)数据准备阶段(1)清理数据以保证数据的准确性(2)对数据进行必要的转换(3)填充缺失数据(4)对数据进行合并、汇总等(五)数据分析阶段(1)预分析。包括概括性统计描述和探索性统计推断两部分。前者是用统计图和统计表对数据进行更好的理解,后者是基于对数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论