第一讲:抽样及样本_第1页
第一讲:抽样及样本_第2页
第一讲:抽样及样本_第3页
第一讲:抽样及样本_第4页
第一讲:抽样及样本_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

商务统计学与SPSS应用主讲:黄英姿

博士第一讲抽样及样本什么是统计学?统计学是关于数据的科学,其内容包括数据的收集、分类、汇总、组织、分析和解释。统计学在商务及经济中的应用:会计金融营销生产经济什么是数据?数据是经过收集、分析、概括后用以表达和说明的事实和数字;个体、变量及观测值质量数据及数量数据截面数据和时间序列数据数据的获得现有数据调研数据数据收集中的陷井基本概念总体、个体与样本描述性统计学:研究一组数据的组织、整理及描述的统计学分支推断统计学:利用样本数据对总体进行推断的统计学分支总体参数:用来描述总体特征的概括性数字统计量:用来描述样本特征的概括性数字变量抽样及抽样方法抽样从总体中抽取样本的过程抽样方法概率抽样简单随机抽样、等距抽样、分层抽样、分群抽样非概率抽样便利抽样、判断抽样、配额抽样、滚雪球抽样质量数据汇总

频数分布FrequencyDistributions相对频数分布RelativeFrequencyDistributions百分数频数分布PercentFrequencyDistributions条形图BarGraph饼形图PieChart频数分布

频数分布是用数据概括表的形式不列示若干个互不重叠分组中每组数据值出现的次数;编制频数分布表的目的是揭示表面数据的内涵,而这种数据内涵很难迅速从原始数据中获取。相对频数分布和百分数频数分布

相对频数是各组数据出现的频数占数据总数的比例;相对频数分布是表明每一组的相对频数的数据集的表格总汇;百分数频数分布是相对频数乘以100;百分数频数分布是表明每一组的百分数频数的数据集的表格总汇。条形图条形图是用图的方式描述已概括成频数、相对频数或百分数频数分布的质量数据的方法;在图形的横轴为每一组别的标记;纵轴为频数、相对频数、百分数频数;用固定宽度的条绘制每一标记,扩展条的高度达到纵轴上表示的各组别的频数、相对频数或百分数频数;条形相对独立以强调每一类是一独立的事实。饼形图饼形图也是常用的描绘质量数据相对频数分布的图形方法;先画圆,然后用相对频数把圆划分为扇形。其角度大小与相对频数对应数量(定量)数据汇总频数分布FrequencyDistributions相对频数分布RelativeFrequencyDistributions百分数频数分布PercentFrequencyDistributions点图Dotplot直方图Histogram累积分布CumulativeDistribution穹形图Ogive频数分布确定无重复的组别数一般为为5-20个组大样本数据分较多的组小样本数据分较少的组确定各组间的组距各组间的组距相同近似组距为

近似组距=-----------------------------

最大数据值-最小数据值组数频数分布确定组上线与组下线下线确定分配给该组可能的最小数据值;上线确定分配给该组可能的最大数据值;上、下线不一定是所给数据值;上、下线的确定不唯一,可依据数据中小数点的位置选取适当的上、下线;上、下线的确定应使得每个数据属且只属于其中一个组。相对频数和百分数频数相对频数分布和百分数频数分布相对频数是各组数据出现的频数占数据总数的比例;相对频数分布是表明每一组的相对频数的数据集的表格总汇;百分数频数分布是相对频数乘以100;百分数频数分布是表明每一组的百分数频数的数据集的表格总汇。点图点图是用图形概括数据最简单的方法之一;点图用横坐标轴显示数据的值域,然后用小圆点半每个数据值标在坐标轴的上方直方图直方图是将数据所反映的分布直观地显示出来的一种常用方法;横轴为所感兴趣的变量,纵轴为频数、相对频数或百分频数;每一组的频数、相对频数或百分数频数用长方形表示,长方形的底在横轴上,宽是组距,高是相应的频数、相对频数或百分数频数;不像条形图,直方图在邻近的组间没有分隔。累积分布累积频数分布表示小于或等于每一组上限的数据值的个数的取值情况;累积相对频数分布表示小于或等于每一组上限的数据值所点比例的取值情况;累积百分数频数分布就是累积相对频数与100乘积穹形图穹形图即是累积频数分布或累积相对频数分布的图形;横轴为所感兴趣的变量,纵轴为累积频数或累积相对频数;探索性数据分析放在后面与数值方法一起讲交叉分组列表交叉分组列表是一种同时汇总两个变量数据的表格方法一般在表格的左边和顶端的标记定义两个变量的组数交叉分组列表揭示了所列两个变量之间的内在关系散点图散点图是将两个变量之间的关系直观地显示出来的一种方法数值方法位置的度量MeasuresofLocation离散程度的度量Measuresofdispersion形状的度量MeasuresofShape位置的度量平均数Mean中位数Median众数Mode百分位数Percentiles四分位数Quartiles平均数所有数据之和与数据个数的商如果数据集是总体,总体平均值(populationmean)为如果数据集为样本,样本平均值(Simplemean)为中位数若数据的个数是奇数,当把所有数据按升序排列时,中位数就是处在中心位置的数若数据的个数是偶数,当把所有数据按升序排列时,中位数就是处在中心两个数的平均数

众数出现频数最高的数

如果有多于一个众数存在,则称数据是多峰的百分位数第p个百分位数是这样的数据值:至少有p%个数据值跟它一样或比它小;至少有(100-p)%个数据值跟它一样大或比它大。百分位数的计算:增序排列数据;计算指数I=(p/100)n若i不是整数,将其向上取整,则p分位数是第i项;若i是整数,则p分位数是第i项与第i+1项的数据的平均值。百分位数例有数据集6,3,8,10,6,20,5,4为求其第20个百分数,先将原数据集排序

3

4

5

6

68

10

20计算指数i=(20/100)*8≈2则原数据集的第20个百分位数就是位于第二项的4。四分位数四分位数是特定的百分数。第一个四分位数为25%百分位数;分二个四分位数为50%百分位数即中位数;第三个四分位数为75%百分位数。离散程度的度量

全距Range四分位点内距inter-quartileRange方差Variance标准差StandardDeviation标准差系数CoefficientofVariation全距全距是数据中最大值与最小值间的差距全距是数据离散程度最简单的描述全距对最大数据及最小数据敏感四分位点内距

四分位点内距是第一与第一四分位数间的差距是中间50%的数据的全距它能够克服极端数据的影响方差方差是各数据值与其平均值之间的平均差异如果数据集是总体,总体方差为如果数据集为样本,样本方差为标准差标准差为方差的正平方根标准差具有与原始数据相同的计量单位,较方差更便于比较如果数据集是总体,则总体标准差为如果数据集是样本,则样本标准差为变异系数变异系数是标准差相对于平均数的大小的度量如果数据集为总体,变异系数为如果数据集为样本,变异系数为平均数和方差的应用Z分数z-Scores切比晓夫定理Chebyshev’sTheorem经验法则TheEmpiricalRule异常值的检验DetectingOutliersZ分数Z-分数通常称为标准化数值Z-分数的意义是数据值偏离平均数标准差的个数Z-分数大于0的数据是那些比平均数大的数据值Z-分数小于0的数据是那些比平均数小的数据值Z-分数等于0的数据是那些与平均数相等的数据值一个数据集经过标准化之后,其平均值变为0,标准差变成1切比晓夫定理至少(1-1/k2)个数据落在平均数k倍标准差范围内,其中k是大于1的任何数值至少75%的数据落在平均数的k=2标准差范围内至少89%的数据落在平均数的k=3标准差范围内至少94%的数据落在平均数的k=4标准差范围内经验法则对于具有钟形分布的数据集而言大约68%的数据落在平均数的1倍标准差范围内大约95%的数据落在平均数的2倍标准差范围内几乎所有的数据落在平均数的3倍标准差范围内异常值的检验数据集中出现的非正常大或非正常小的数据值称为异常值Z-分数值低于-3或高于3的数据可能是异常值异常值的出现可能是由于记录错误,也可能是记录正确的非正常数据值异常值也可能来自于不同的总体探索性数据分析

探索性数据分析技术是由简单运算及容易绘制的图形组成,可用快速汇总数据。茎叶图Stem-andLeafdisplay五数概括Five-NumberSummary箱图Boxplot茎叶图茎叶图是一种简单的对数据进行快束描绘的数据汇总方法茎叶图不仅提供了数据排序,同时还显示了数据的分布信息与直方图有相似之处,但茎叶图还显示了实际的数据值数据的首位或首几位放置在直线的左边—称为茎数据的末位(只是最后一位)放置在直线的右边--称为叶五数概括最小数据值SmallestValue第一个四分位数FirstQuartile中位数Median第三个四分位数ThirdQuartile最大值LargestValue箱图以第1和第3四分位数(Q1和Q3)作为箱子两端,其间的间距称为四分位间距,记为IQR=Q3-Q1箱图的下限制线位于比Q1低1.5倍IQR的位置上,上限制线位于比Q3高1.5倍IQR的位置上限制线以外的是异常值双变量相关关系度量

协方差

Covariance相关系数CorrelationCoefficient协方差如果数据集是总体,协方差为如果数据集是样本,协方差为正值表示正相关,负值表示负相关相关系数CorrelationCoefficient如果数据集是总体,相关系数为如果数据集是样本,相关系数为相关系数的值在-1与1之间相关系数的值接近-1表示较显著地负线性相关相关系数的值接近1表示较显著地正线性相关加权平均数和分组数据

的加权平均数

加权平均数TheWeightedMean分组数据GroupedData

加权平均数当数据来处总体时代替平均值是一个特殊的加权平均数分组数据分组数据的样本均值为是第i组中值是第i组的频数

n为样本容量分组数据的样本方差为分组数据分组数据的总体均值为是第i组中值是第i组的频数

n为样本容量分组数据的样本方差为审计时间频数分布表审计时间(天)

频数10-1415-1920-2425-2930-34合计4852120审计时间频数分布表样本均值为样本方差为形状的度量描述数据是如果分布的形状的度量对称性(Symmetric)或歪曲性(Skewe

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论