第1章-统计和数据_第1页
第1章-统计和数据_第2页
第1章-统计和数据_第3页
第1章-统计和数据_第4页
第1章-统计和数据_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据分析

(方法与案例)

作者贾俊平统计学基础

FundamentalStatistics第1章统计和数据1.1

统计及其应用领域1.2统计数据及其类型1.3统计中的几个基本概念

2011年学习目标统计学的含义统计的应用领域统计数据的类型统计中的几个基本概念1.1统计及其应用领域

一、什么是统计学二、统计的应用领域三、统计的误用与滥用第1章统计和数据一、什么是统计学1.1统计及其应用领域2011年什么是统计学?

(statistics)1.收集数据:取得数据2.处理数据:图表展示分析数据:利用统计方法分析数据数据解释:结果的说明得到结论:从数据分析中得出客观结论

收集、处理、分析、解释数据并从数据中得出结论的科学

2011年统计方法统计方法描述统计推断统计参数估计假设检验2011年描述统计

(descriptivestatistics)研究数据收集、整理和描述的统计学方法内容搜集数据整理数据展示数据描述性分析目的描述数据特征找出数据的基本规律02550Q1Q2Q3Q4¥x=30s2=1052011年推断统计

(inferentialstatistics)研究如何利用样本数据来推断总体特征的统计学方法内容参数估计假设检验目的对总体特征作出推断样本总体二、统计的应用领域1.1统计及其应用领域2011年统计的应用领域【例1.1】用统计识别作者

1787—1788年,三位作者AlexanderHamilton,JohnJay和JamesMadison为了说服纽约人认可宪法,匿名发表了著名的85篇论文。这些论文中的大多数作者已经得到了识别,但是,其中的12篇论文的作者身份引起了争议通过对不同单词的频数进行统计分析,得出的结论是,JamesMadison最有可能是这12篇论文的作者。现在,对于这些存在争议的论文,认为JamesMadison是原创作者的说法占主导地位,而且几乎可以肯定这种说法是正确2011年统计的应用领域【例1.2】用简单的描述统计量得到一个重要发现

费舍(R.A.Fisher)在1952的一篇文章中举了一个例子,说明如何由基本的描述统计量的知识引出一个重要的发现。20世纪早期,哥本哈根卡尔堡实验室的施密特(J.Schmidt)发现不同地区所捕获的同种鱼类的脊椎骨和鳃线的数量有很大不同;甚至在同一海湾内不同地点所捕获的同种鱼类,也发现这样的倾向然而,鳗鱼的脊椎骨的数量变化不大。施密特从欧洲各地、冰岛、亚速尔群岛以及尼罗河等几乎分离的海域里所捕获的鳗鱼的样本中,计算发现了几乎一样的均值和标准偏差值。由此,施密特推断所有各个不同海域内的鳗鱼是由海洋中某公共场所繁殖的。后来名为“戴纳(Dana)”的科学考察船在一次远征中发现了这个场所2011年统计的应用领域【例1.3】挑战者号航天飞机失事预测在此次失事前,该航天飞机24次发射成功。将航天飞机送入太空的两个固体燃料推进器由6只O型项圈密封。在几次飞行中,曾发生过O型项圈被腐蚀或气体泄漏事故。这样的事故是及其危险的。前24次发射中有一次发动机遭到了永久性破坏。根据23次飞行中发生腐蚀或泄漏事故的次数(因变量)及火箭连接处的温度(自变量)数据,进行线性回归得到的回归方程为当温度为310F时,O型项圈发生事故的预计次数为2.225次。结果显示连接处的温度与O型项圈事故之间有一定的相关性。如果当时那些经理们看到了回归的预测结果,也许推迟发射会成为其谨慎的选择2011年统计的应用领域【例1.3】挑战者号航天飞机失事预测

1986年1月28日清晨,载有7名宇航员的挑战者号进入发射状态。就在发射前,有冰片牢附在机壳上。几分钟后,正当电视新闻报道它已进入轨道时,航天飞机在毁灭性的爆炸声中化成碎片,机上的宇航员片骨未存推动航天飞机进入太空的两个固体燃料发动机是由Thiokol公司制造的。失事前一天晚上,Thiokol公司的经理们和国家航空航天局就如期发射还是推迟发射产生了争执。天气预报发射时的气温为310F。争执的结果采纳了Thiokol公司经理们的建:按计划发射航天飞机。因为他们觉得没有确凿证据表明低温会对固体燃料火箭推进器的性能产生影响三、统计的误用与滥用1.1统计及其应用领域2011年统计的误用与滥用产生误用和滥用的情形不好的样本过小的样本误导性图表局部描述故意曲解1.2统计数据及其类型

一、分类数据、顺序数据、数值型数据二、观测的数据和实验数据三、截面数据和时间序列数据第1章统计和数据2011年统计数据的分类统计数据的分类按计量层次分类的数据顺序的数据数值型数据按时间状况截面的数据时序的数据按收集方法观察的数据试验的数据2011年统计数据的分类

(按计量尺度分)分类数据(categoricaldata)

只能归于某一类别的非数字型数据对事物进行分类的结果,数据表现为类别,用文字来表述例如,人口按性别分为男、女两类顺序数据(rankdata)

只能归于某一有序类别的非数字型数据对事物类别顺序的测度,数据表现为类别,用文字来表述例如,产品分为一等品、二等品、三等品、次品等数值型数据(metricdata)

按数字尺度测量的观察值结果表现为具体的数值,对事物的精确测度例如:身高为175cm、168cm、183cm2011年统计数据的分类

(按收集方法分)观测数据(observationaldata)

通过调查或观测而收集到的数据在没有对事物人为控制的条件下而得到的有关社会经济现象的统计数据几乎都是观测数据试验数据(experimentaldata)

在试验中控制试验对象而收集到的数据比如,对一种新药疗效的试验,对一种新的农作物品种的试验等自然科学领域的数据大多数都为试验数据2011年统计数据的分类

(按时间状况分)截面数据(cross-sectionaldata)

在相同或近似相同的时间点上收集的数据描述现象在某一时刻的变化情况比如,2005年我国各地区的国内生产总值数据时间序列数据(timeseriesdata)

在不同时间上收集到的数据描述现象随时间变化的情况比如,2000年至2005年国内生产总值数据1.3统计中的几个基本概念

一、总体和样本二、参数和统计量三、变量第1章统计和数据2011年总体和样本总体(population)所研究的全部个体(数据)的集合,其中的每一个个体也称为元素分为有限总体和无限总体有限总体的范围能够明确确定,且元素的数目是有限的无限总体所包括的元素是无限的,不可数的样本(sample)从总体中抽取的一部分元素的集合构成样本的元素的数目称为样本容量或样本量(samplesize)

2011年参数和统计量参数(parameter)描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值所关心的参数主要有总体均值(

)、标准差(

)、总体比例(

)等总体参数通常用希腊字母表示统计量(statistic)用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数所关心的样本统计量有样本均值(

x)、样本标准差(s)、样本比例(p)等样本统计量通常用小写英文字母来表示2011年统计中的几个基本概念平均数标准差比例参数

统计量

xsp

总体

样本2011年变量

(variable)

说明现象某种特征的概念如商品销售额、受教育程度、产品的质量等级等变量的具体表现称为变量值,即数据变量可以分为分类变量(categoricalvariable)

:说明事物类别的名称顺序变量(rankvariable):说明事物有序类别的名称数值型变量(metricvariable)

:说明事物数字特征的名

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论