统计和统计数据(2012年.ppt_第1页
统计和统计数据(2012年.ppt_第2页
统计和统计数据(2012年.ppt_第3页
统计和统计数据(2012年.ppt_第4页
统计和统计数据(2012年.ppt_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据分析 (方法与案例),应用统计学,2019-6-21,统 计 学 (第四版) 贾俊平 著,2011,2019-6-21,学习要求,不缺课,不迟到早退, 少请假。请勿代答。 遵守课堂纪律,踊跃参与讨论,努力做好作业。 附注:有关成绩的评定 总评平时40%期末60% 平时成绩以90分起评,缺课1次扣10分,迟 到早退1次扣5分,请假次数过多酌情扣分。,2019-6-21,统计思维总有一天会像读与写一样成为一个有效率公民的必备能力。 H. G. Wells,统计名言,第 1 章 统计和统计数据,1.1 统计及其应用领域 1.2 怎样获得统计数据?,Statistics,2019-6-21,你相信这样的一些统计结论吗?,吸烟对健康是有害的,吸香烟的男性减少寿命2250天 不结婚的男性会减少寿命3500天,不结婚的女性会减少寿命1600天 身体超重30%会使寿命减少1300天 每天摄取500毫升维生素C,生命可延长6年 身材高的父亲,其子女的身高也较高 二个出生的子女没有第一个聪明,第三个出生的子女没有第二个聪明,依此类推 学生们在听了莫扎特钢琴曲10分钟后的推理测试会比他们听10分钟娱乐磁带或其他曲目做得更好 上课坐在前面的学生平均考试分数比坐在后面的学生高 漂亮的女性有损男性的智力。男性在看到漂亮女性时智力会下降,这就是为什么大学里的女孩子比男孩子学习好的原因,1.1 统计及其应用领域 1.1.1 统计学研究什么? 1.1.2 统计的应用,第 1 章 统计和统计数据,1.1.1 统计学研究什么?,1.1 统计及其应用领域,2019-6-21,什么是统计学? (statistics),1. 收集数据:取得数据 2. 处理数据:图表展示 分析数据:利用统计方法分析数据 数据解释:结果的说明 得到结论:从数据分析中得出客观结论,收集、处理、分析、解释数据并从数据中得出结论的科学,2019-6-21,统计方法,2019-6-21,描述统计 (descriptive statistics),研究数据收集、整理和描述的统计学方法 内容 搜集数据 整理数据 展示数据 描述性分析 目的 描述数据特征 找出数据的基本规律,2019-6-21,推断统计 (inferential statistics),研究如何利用样本数据来推断总体特征的统计学方法 内容 参数估计 假设检验 目的 对总体特征作出推断,2019-6-21,统计学研究什么?,物理学研究的是如热、光、电、运动规律那样的自然现象 化学家测定物质的组成及化学元素之间的交互作用 生物学家研究植物和动物的生活 数学家则在给出的假定之下沉溺于他自己推演各种命题的游戏 这些学科中的每一门都有它自己的问题,而且有解决这些问题的各自的方法,各学科为此而成为一门单独的学科,2019-6-21,统计学研究什么?,统计学没有任何固定的对象,是一门独特的学问 统计学研究的是来自各领域的数据,由解决其他领域内的问题而存在并兴旺发达。按萨维奇(L.J.Savage)的说法: 统计学基本上是寄生的。靠研究其他领域内的工作而生存。这不是对统计学的轻视,这是因为对很多寄主来说,如果没有寄生虫就会死。对有的动物来说,如果没有寄生虫就不能消化它们的食物。因此,人类奋斗的很多领域,如果没有统计学,虽然不会死亡,但一定会变得很弱,统计方法体系,1.1.2 统计的应用,1.1 统计及其应用领域,2019-6-21,经 济 学,工业,农业,医学,教育学,体育 科学,生态学,地质 科学,社会 科学,考古学,环境 保护,军事学,统计学应用学科和领域,心理学,文 学,材料科学,2019-6-21,体育科学 如何研究体力测试指标(反复横向跳、立定体前屈、俯卧上体后仰等)与运动能力测试指标(耐力跑、跳远、投球等)之间的相关关系? 生态学 对1000个类似的鱼类样本,如何根据测量的特征如体重、身长、鳍数、鳍长、头宽等,将这些鱼分成几个不同品种?,2019-6-21,地质学 在地质勘探中,如何根据岩石样本的多种特征来判别地层的地址年代,是有矿还是无矿,是铜矿还是铁矿等? 社会学 调查青年对婚姻家庭的态度、对文化和职业的要求、对经济收入的态度、对老人的责任、对相貌的重视等等作主要因素分析以便进行正确的引导,2019-6-21,考古学 对挖掘出来的人头盖骨的高、宽等特征来判别是男或女,根据挖掘出来的动物牙齿的有关测试指标,判别它属于哪一类动物、是哪一个时代的。 环境保护 研究多种污染气体的浓度与污染源的排放和气象因子(风向、风速、温度、湿度)等之间的相互关系。,2019-6-21,军事科学 研究某飞机洞库可燃性气体变化的规律以及对气体浓度的预测。 文学 对红楼梦作者的版权鉴定,2019-6-21,统计的应用领域,【例1-1】用统计识别作者 17871788年,三位作者Alexander Hamilton,John Jay和James Madison为了说服纽约人认可宪法,匿名发表了著名的85篇论文。这些论文中的大多数作者已经得到了识别,但是,其中的12篇论文的作者身份引起了争议 通过对不同单词的频数进行统计分析,得出的结论是,James Madison最有可能是这12篇论文的作者。现在,对于这些存在争议的论文,认为James Madison是原创作者的说法占主导地位,而且几乎可以肯定这种说法是正确,2019-6-21,统计的应用领域,【例1-2】用简单的描述统计量得到一个重要发现 费舍(RAFisher)在1952的一篇文章中举了一个例子,说明如何由基本的描述统计量的知识引出一个重要的发现。20世纪早期,哥本哈根卡尔堡实验室的施密特(J.Schmidt)发现不同地区所捕获的同种鱼类的脊椎骨和鳃线的数量有很大不同;甚至在同一海湾内不同地点所捕获的同种鱼类,也发现这样的倾向 然而,鳗鱼的脊椎骨的数量变化不大。施密特从欧洲各地、冰岛、亚速尔群岛以及尼罗河等几乎分离的海域里所捕获的鳗鱼的样本中,计算发现了几乎一样的均值和标准偏差值。由此,施密特推断所有各个不同海域内的鳗鱼是由海洋中某公共场所繁殖的。后来名为“戴纳(Dana)”的科学考察船在一次远征中发现了这个场所,2019-6-21,统计的应用领域,【例1-3】挑战者号航天飞机失事预测 1986年1月28日清晨,载有7名宇航员的挑战者号进入发射状态。就在发射前,有冰片牢附在机壳上。几分钟后,正当电视新闻报道它已进入轨道时,航天飞机在毁灭性的爆炸声中化成碎片,机上的宇航员片骨未存 推动航天飞机进入太空的两个固体燃料发动机是由Thiokol公司制造的。失事前一天晚上,Thiokol公司的经理们和国家航空航天局就如期发射还是推迟发射产生了争执。天气预报发射时的气温为310F。争执的结果采纳了Thiokol公司经理们的建议:按计划发射航天飞机。因为他们觉得没有确凿证据表明低温会对固体燃料火箭推进器的性能产生影响,2019-6-21,统计的误用与滥用,大约在一个世纪以前,政治家Benjamin Disraeli曾有一个著名的论断:“有三类谎言:谎言、糟透的谎言和统计” 。他还说:“图并没有说谎,是说谎者在画图” 历史学家Andrew Lang说,一些人使用统计“就像喝醉酒的人使用街灯柱支撑的功能多于照明” 统计滥用 不好的样本 过小的样本 误导性图表 局部描述 故意曲解,2019-6-21,统计的误用与滥用,统计应用上的两个极端 不用或几乎不用统计 简单问题复杂化 在统计应用中,这两个极端都是不可取的 简单的方法不一定没用,复杂的方法也不一定有用。正如有的学者所说的,最简单的模型往往是最有用的 统计应该恰当地应用到它能起作用的地方。不能把统计神秘化,更不能歪曲统计,把统计作为掩盖实事的陷阱,1.2 怎样获得统计数据 1.2.1 变量与数据 1.2.2 数据的来源,第 1 章 统计和统计数据,1.2.1 变量与数据,1.2 怎样获得统计数据,2019-6-21,变量与数据,变量(variable) 从一次观察到下一次观察会出现不同结果的某种特征 观察一个企业的销售额,这个月和上个月有所不同;观察股票市场上涨股票的家数,今天与昨天数量不一样;观察一个班学生的生活费支出,一个人和另一个人不一样;投掷一枚骰子观察其出现的点数,这次投掷的结果和下一次也不一样 “企业销售额”、“上涨股票的家数”、“生活费支出”、“投掷一枚骰子出现的点数”等就是变量 数据(data) 观察到的变量的结果,2019-6-21,变量与数据,定量变量(quantitative variable)或数值变量(metric variable) 可以用阿拉伯数据来记录其观察结果 如“企业销售额”、“上涨股票的家数”、“生活费支出”、“投掷一枚骰子出现的点数” 定量变量的观察结果称为定量数据或数值型数据(metric data) 分类变量(categorical variable) 表现为不同的类别 如“性别”、“企业所属的行业”、“学生所在的学院” 等 分类变量的观察结果就是分类数据(categorical data) 顺序变量(rank variable)或有序分类变量 具有一定顺序的类别变量 如考试成绩按等级,一个人对事物的态度 顺序变量的观察结果就是顺序数据或有序分类数据(rank data) 分类变量和顺序变量统称为定性变量(qualitative variable),1.2.2 数据的来源,1.2 怎样获得统计数据,2019-6-21,数据的来源,寻找二手数据 抽取样本 总体(population):包含所研究的全部个体(数据)的集合 样本(sample):从总体中抽取的一部分元素的集合 样本量(sample size):构成样本的元素的数目 概率抽样方法,2019-6-21,概率抽样 (probability sampling),根据一个已知的概率来抽取样本单位,也称随机抽样 特点 按一定的概率以随机原则抽取样本 抽取样本时使每个单位都有一定的机会被抽中 每个单位被抽中的概率是已知的,或是可以计算出来的 当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率,2019-6-21,简单随机抽样 (simple random sampling),从总体N个单位(元素)中随机地抽取n个单位作为样本,使得总体中每一个元素都有相同的机会(概率)被抽中 抽取元素的具体方法有重复抽样和不重复抽样 特点 简单、直观,在抽样框完整时,可直接从中抽取样本 用样本统计量对目标量进行估计比较方便 局限性 当N很大时,不易构造抽样框 抽出的单位很分散,给实施调查增加了困难 没有利用其他辅助信息以提高估计的效率,2019-6-21,简单随机样本 (simple random sample),由简单随机抽样形成的样本 从总体N个单位中随机地抽取n个单位作为样本,使得每一个容量为n样本都有相同的机会(概率)被抽中 参数估计和假设检验所依据的主要是简单随机样本,2019-6-21,分层抽样 (stratified sampling),将总体单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本 优点 保证样本的结构与总体的结构比较相近,从而提高估计的精度 组织实施调查方便 既可以对总体参数进行估计,也可以对各层的目标量进行估计,2019-6-21,系统抽样 (systematic sampling),将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位 先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k等单位 优点:操作简便,可提高估计的精度 缺点:对估计量方差的估计比较困难,2019-6-21,整群抽样 (cluster sampling),将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查 特点 抽样时只需群的抽样框,可简化工作量 调查的地点相对集中,节省调查费用,方便调查的实施 缺点是估计的精度较差,用计算机生成随机数和 简单随机样本,软件应用,2019-6-21,2、用计算机生成随机数和 简单随机样本,1、Excel数据分析工具的安装,2019-6-21,用Excel生成个指定数之间的随机数,生成位于两个指定数之间的一个随机数(RANDBETWEEN函数) 第1步:在Excel表格界面中,直接点击【fx】命令 第2步:在复选框“函数分类”中点击【全部】选项,并在“函数 名”中点击【RANDBETWEEN】选项,然后【确定】 第3步:在【Bottom】输入要返回的最小整数(本例为1) 在【Top】输入要返回的最大整数(本例为100) 单击【确定】即可得到一个随机数(要得到多个随机数 向下复制即可),生成两个指定数之间的随机数,Excel,2019-6-21,用Excel抽取简单随机抽样,【例】某班级共有30名学生,他们的名单如右表。用Excel抽出一个由5个学生构成的随机样本,2019-6-21,用Excel抽取简单随机样本,第1步:将30个学生的名单录入到Excel工作表中的一列 第2步:给每个学生一个数字代码,分别为1,2,30 ,并按顺序排列,将代码录入到Excel工作表中 的一列,与学生名单相对应(数值型数据直接抽取) 第3步:选择【工具】下拉菜单,并选择

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论