




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1,统计学概述,房祥忠 北京大学概率统计系 xzfang 62751836,2,什么是统计学?,统计学是通过搜集数据和分析数据从而得到结论和做出决断的科学。,3,日常生活中的统计学,顾客满意度,物价指数,失业率,平均寿命 而媒体和厂家关心的电台收视率。入户调查得到。收视率排名决定广告收费,4,科学研究和生产实践中的统计学,统计的主要部分都是为了解决科学研究中的问题而发展起来的 农业和生物科学,物理和化学 工程界利用统计方法进行试验设计从而得到产品可靠性和失效的模式 现代工业利用统计方法建立质量控制方法从而使产品质量稳定。 医学利用控制临床试验比较新的治疗方法和新药的效果。 遗传学家利用统计方法
2、给出基因图和进行DNA匹配,5,总体、个体、样本,总体就是要研究的个体(对象)的全体。这里的个体可能是人,也可能是住户,或者产品。 统计学中我们关心总体的指标 一个样本就是能够实际观测到的总体的一个部分(子集)。,6,从样本到总体,大多数总体都太大,甚至个体数是无限的 花费极大人力、物力和时间。 比如中国的所有家庭就是一个很大的总体,要想了解整个中国的家庭状况,可行的办法是选取一个相对小的样本进行调查。 为了使得取出的样本没有系统偏差,需要采取所谓随机抽样的方式进行。得到所谓随机样本。随机偏差,7,概率论和统计学的关系,大家都会很熟悉名词“概率统计”。 概率论和统计学是两个相关的学科。 统计学
3、利用概率论的工具来对数据的变化性进行建模,并且将不确定性加以定量化。,8,概率论统计学联系和区别举例,在概率论中我们假定总体和它的性质都是知道的。然后我们研究从中抽取一个特殊样本的概率。 举例来说,假如某地域目前流通的百元钞票中混进了1%的假钞,从中任意抽取100张,计算其中没有假钞的概率(36.6%)。这是概率论的问题。 而统计学则处理相反的问题。假如我们不知道假钞所占比例。我们要设计抽样方法,然后用样本中给出的数据来估计假钞的比例,以及确定这种估计的准确性是多少。,9,统计的三个主要任务,收集数据 概括和探索数据 基于数据得到结论和做出决断,10,2.1数据的类型,分类数据:为了表示简单和
4、操作方便,有时用数字表示总体中个体的类别。 如果数据的大小没有直观意义,这样的数据称为分类数据。 例如,可以用1表示活期储蓄,2表示3个月定期储蓄,3表示6个月定期储蓄等。可以用1表示男性职员,0表示女性职员。产品的合格品可以用1代表,不合格品可以用0代表。,11,2.1数据的类型,顺序数据: 如果表示类别的数据的大小有一定意义,但它们的倍数或差没有意义。这样的数据称为顺序数据。 很满意用3表示,满意用2表示,不满意用1表示,很不满意用0表示。,12,2.1数据的类型,数值型数据:表示个体的某些特征,其大小,倍数和差都有意义。这样的数据称为数值型数据,定量数据或数量数据。,13,2.2 数据概
5、括,国家统计局1998-2004发布的中国统计年鉴 1997-2003全国各地区城镇居民平均每人全年家庭总收入。 数字较多,很难直接得到一个整体的印象。 代表性的数字,我们称其为特征。,14,各地区城镇居民平均每人全年家庭总收入,15,16,17,数字特征,最大值(Max):样本中的最大数据值。 最小值(Min):样本中的最小数据值。 众数:出现次数最多的数。例如,在一个样本中人数最多的年龄就是众数。 中位数(Median):将样本从小到大排列,位于中间的值称为样本中位数。如果样本个数为偶数,则取中间两个数的算术平均值作为中位数。,18,分位数(Quantile):如果样本中比一个数w小的样本
6、所占比例为q。则称这个数w为q分位数。 一般将25%(=1/4)和75%(=3/4)分位数称为四分位数,且分别称为下四分位数和上四分位数。 中位数是50%分位数。,19,平均值(Mean):将样本所有数进行算术平均得到的值,称为平均数。,方差(Var):表示样本离散程度的量,20,标准差(Sd):方差开方,即s。标准差的尺度与原来的数据相同。 四分位长度:定义为上四分位数与下四分位数之差。也表示数据的分散程度。,21,表2.2各地区城镇居民平均每人全年家庭总收入数据特征,22,表2.3 根据四分位对各地区城镇居民平均每人全年家庭总收入分类,23,24,25,26,Box-Whisker图(盒线
7、图)。 有很多种图表也可以很直观地概括数据。 盒线图能够很直观的给出数据的主要特征。 盒子中间的线代表中位数,顶端代表上四分位点,底端代表下四分位点,如果有加号“+”,则加号表示与其他数据相差很远的个体,我们称其为离群值或野值,一般是指从这些点从盒子顶端或底端的距离超过1.5倍的盒子长度,既四分位长度。 下面的几个图是根据前面给出的数据画出来的。图形所占长度越大,则表示数据越分散。中位数的位置也能反映数据分布是否有偏。,27,图2.8 1997年各地区城镇居民平均每人全年家庭总收入盒线图,28,图2.9 1998年各地区城镇居民平均每人全年家庭总收入盒线图,29,图2.10 1999-2003年各地区城镇居民平均每人全年家庭总收入盒线图,30,直方图:如果我们觉得上面给出的盒线图不够详细,我们可以用直方图表示数据。直方图反映了样本中取各种值的比例的较详细情况。首先将按照数据大小进行分组。在数据轴上取分点,31,32,33,小矩形的面积恰好等于落在该小区间中数据的频率或比例。这样所有小矩形的面积加一起是1。,34,表2.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 储物间转让合同样本
- 个人器材租赁合同标准文本
- 上海物业服务合同样本
- 假山洞合同样本
- 2025企业雇佣合同制员工雇佣合同范本
- 伦敦私人租房合同样本
- 个人委托律师合同标准文本
- 企业代运营合同标准文本
- 业务分配合同样本
- 人才工程就业合同样本
- 《抗肿瘤药物遴选和评估制度》(2021版)
- 关节活动度检查(ROM-T)徒手肌力检查(MMT)记录表(2-1)
- 药剂科妊娠患者处方点评统计表
- 济南英语介绍
- XBD型消防稳压泵性能参数表
- 《专四语法重点题》课件
- 11《军神》第二课时 一等奖创新教学设计
- 新能源汽车驱动电机系统检测与维修中职PPT完整全套教学课件
- 《家畜生态学》课程教学大纲
- 屋面及防水工程施工(第二版)PPT完整全套教学课件
- 潘谢矿区西淝河、泥河、济河、港河水体下安全开采可行性论证报告
评论
0/150
提交评论