高级应用统计学-基本概念与数据特征的初步分析_第1页
高级应用统计学-基本概念与数据特征的初步分析_第2页
高级应用统计学-基本概念与数据特征的初步分析_第3页
高级应用统计学-基本概念与数据特征的初步分析_第4页
高级应用统计学-基本概念与数据特征的初步分析_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

沈琪

2010前情回顾

Previouslyreviewed

前情回顾定类尺度(NominalLevel)定序尺度(OrdinalLevel)定距尺度(IntervalLevel)定比尺度(RatioLevel)前情回顾问卷设计中的若干重要问题SomeimportantproblemsinQuestionnairedesign能够获得诚实的回答单选问题的备选答案应当是一个答案空间的完整划分并且互相排斥多选题的答案必须分布在两个以上的维度。多选问题的备选答案,至少有一部分不是互相排斥的。问题的陈述和备选答案都不能有多重含义。问题设计的用语要含义明确,不能让应答者产生不同的理解。在问题的陈述中,要对所询问的行为的时间、方式、目的做必要的限定。前情回顾7.在问卷问题中,凡是能够限定数量范围的要尽量限定。不仅要从研究目的,还要从应答者的角度来审核问卷问题设置的合理性。8.问题的不同提法可能导致不同的回答结果。9.对于得不到诚实回答而又必须了解的数据,可以通过变换问题的提法来获得相应的数据,或者通过了解相对数据来判断总体的情况。10.问卷不能太长,以20~30分钟为宜。11.把相对容易回答和相对有趣的问题放在问卷的前面,难得放在后面。12.问卷设计一定要通过小规模访谈来修改。问卷设计中的若干重要问题SomeimportantproblemsinQuestionnairedesign数据预处理/dws148f/statisticsresourcesmain.asp.au/nceph/surfstathome/sufrstat.html/govdocs/stats.html统计学网络资源沈琪

2010高级应用统计学

——基本概念与数据特征的初步分析

BasicConceptsandPreliminaryAnalysisofDataCharacteristics

基本概念BasicConcepts……………数据预处理DataPreprocessing……常用统计参数StatisticalParameters………………具体案例Cases………………………010203导读04第一节基本概念

BasicConcepts

基本概念总体(Population)个体(Individual)指标(Variable)数据(Data)离散变量(discretevariable)连续变量(continuousvariable)基本概念比例(Proportion):一个总体中各个部分的数量占总体数量的比重,通常反映总体的构成或结构。比率(Ration):各不同类别的数量比值。可以是同一总体中不同部分的数量对比

如:总人口中:男性/女性;GDP中:固定资产投资/居民消费GDP中:三次产业增加值之比可以是同一现象在不同时间或空间上的数量之比

如:不同年份GDP之比

经济增长率不同地区GDP之比

两个地区经济水平差异第二节数据预处理

DataPreprocessing

数据预处理(一)一、数据的审核、筛选、排序1、审核(examinationandverification):对第一手资料(直接调查或试验取得):审核其完整性与准确性如:文化程度:小学职业:大学教师对第二手资料(获取他人的资料):审核其完整性、准确性、适用性、时效性数据预处理(一)

2、筛选(datafildtering):剔除不符合要求的数据或有明显错误的数据;将符合特定条件的数据筛选出来。数据预处理(一)3、数据的排序(datarank)数据排序是按一定顺序将数据排列。排序目的:a、通过浏览数据发现一些明显的特征趋势或解决问题的线索;b、有助于数据的检查纠错;c、为分组提供依据。数据预处理(二)二、数据分组(datagrouping)与频数分布(frequencydistribution)预处理数据分组计算频数描述统计数据预处理(二)数据分组统计分组(statisticalgroup)是将预处理过的数据按照某种特征或标准分成不同的组别。◎统计分组标志(indicant):分组时所依据的特征或标准,有品质标志(attributiveindicant)和数量标志(quantitativeindicant)。◎频数分布表(frequencydistributiontable):对分组后的数据,计算各组中数据出现的次数或频数所形成的汇总表。数据预处理(二)◎

频数分布或次数分布(Frequencydistribution):全部数据按其分组标志在各组内的分布状况。分布在各组内的数据个数称为频数或次数。Afrequencydistributionisatabularsummaryofasetofdatashowingthefrequency(ornumber)

ofitemsineachofseveralnonoverlappingclasses.◎相对频数(Relativefrequency)/频率/比重:各组频数与全部频数之和的比重。Therelativefrequencyofaclassistheproportionofthetotalnumberofdataitemsbelongingtotheclass.(=Frequencyoftheclass/n)◎百分数频数(Percentagefrequency):istherelativefrequencymultipliedby100.数据预处理(二)50个计算机购买者所购买的不同品牌的机型数据品质标志分组数据预处理(二)

Table,

FrequencyDistribution/RelativeandPercentageFrequencyofComputerPurchases

CompanyFrequencyRelativeFrequencyPercentageFrequencyApple130.2626Compaq120.2424Gatewy200050.1010IBM90.1818PackardBell110.2222Total501.00100Theobjectiveindevelopingafrequencydistributionistoprovideinsightsaboutthedatathatcannotbequicklyobtainedbylookingonlyattheoriginaldata.数据预处理(二)分组计频基本步骤:确定组数

确定组距

(按组)整理成分布频数表数量标志分组数据预处理(二)一会计事务所对其20家客户(clients)年底帐目辑核(audits)时间(天)统计如下表:Table

Year-EndAuditTimes(indays)1214191815151817202722232221332814181613数据预处理(二)1、确定组数(Numberofclasses)。组数的确定一般视数据本身的特点及数据的多少而定。实际分组时常按斯特格斯(Sturges)提出的经验公式来确定组数K:其中N为数据的个数(总体单位数或样本数),一般对结果取整数。数据预处理(二)2、确定组距(Widthofclasses):组距是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定:

组距=(最大值-最小值)/组数数据预处理(二)确定各组组限(Classlimits)并据此整理频数分布表。数据预处理(二)1、分组所遵循的主要原则是“不重不漏”(eachdatavaluebelongstooneclassandonlyoneclass)。因此,最低组限(Thelowerclasslimit)

数据的最小值,最大组限(Theupperclasslimit)

数据的最大值;另外,数据在每组中的归属习惯上采用“上组限不在内”。

2、对离散型数据,可采用相邻两组组限间断的办法解决“不重”的问题(如6~10,11~15,16~20等);对连续型数据,往往采用相邻两组组限重叠,根据“上限不在内原则”解决“不重”问题(如[5,10),[10,15),[15,20)等)。数据预处理(二)一会计事务所对其20家客户(clients)年底帐目辑核(audits)时间(天)统计如下表:Table

Year-EndAuditTimes(indays)1214191815151817202722232221332814181613数据预处理(二)例中:K=1+lg20/lg2=1+4.32=5.325组距=(33-12)/5=4.2,可取整数5为最后选定的组距。

例中是离散型数据(天),采用组限间断方法,因此可得频数分布表如下:Table,

Frequencydistribution,relativefrequencyandpercentfrequencydistributionfortheaudit-timedataAuditFrequencyRelativePercentTime(days)FrequencyFrequency

10~14

40.202015~1980.404020~2450.252525~2920.101030~3410.055Total201.00100数据预处理(三)现实中的分析对象常常是多个要素(elements)构成的。不同要素的数据往往具有不同的单位和量纲(unitsanddimension),其数值的变异(variation)可能是很大的,这就会对各种统计分析方法(statisticalanalysismethod)的计算结果(results)产生影响。因此当分析要素的对象(object)确定之后,在进行分析之前,首先要对要素进行数据处理(DataPreprocessing)。三、数据的标准化(standardizationofdata)数据预处理(三)①总和标准化。分别求出各要素所对应的数据的总和,以各要素的数据除以该要素的数据的总和,即

这种标准化方法所得到的新数据满足数据预处理(三)②标准差标准化,即由这种标准化方法所得到的新数据,各要素的平均值为0,标准差为1,即

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论