统计基础培训_第1页
统计基础培训_第2页
统计基础培训_第3页
统计基础培训_第4页
统计基础培训_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计基础培训第1页,共55页,2023年,2月20日,星期六1统计基础知识2统计图和统计表3excel在统计分析中的应用主要内容第2页,共55页,2023年,2月20日,星期六1统计基础知识1.1统计描述的意义1.2频数表1.3集中趋势的描述1.4离散趋势的描述1.5抽样误差1.6正态分布第3页,共55页,2023年,2月20日,星期六1.1统计描述的意义社会活动看似杂乱无章,对个体来说有很多不确定性,但总体上都是服从一些统计规律的。科研工作有很多数据,统计描述就是对这些数据进行加工和提炼,找出规律、预测未知。统计描述是最简洁有力的语言。统计描述通过描述性指标和统计图(表)反映资料的分布规律及其数量特征。第4页,共55页,2023年,2月20日,星期六1.2频数表Table1.某单位1999年的101名职工的血清总胆固醇含量。频数表:将变量值分为不同数量的组段,清点各组段的例数。意义:概括了解变量值在各组段的分布和规律。2.354.213.325.354.174.132.784.263.584.344.844.414.783.953.923.583.664.283.263.52.74.614.752.913.914.594.192.684.524.913.183.684.833.873.953.914.154.554.83.414.123.955.084.533.923.585.353.843.63.514.063.073.554.233.574.833.523.844.53.964.53.274.523.194.593.753.984.134.263.633.875.713.34.734.175.133.784.573.83.933.783.994.484.284.065.265.253.985.033.513.863.023.74.333.293.254.154.364.953.003.26第5页,共55页,2023年,2月20日,星期六1.确定全距:R=最大值—最小值=5.71-2.35=3.362.定组数(8-13组)和组距:各组段的起点和终点分别称为上限和下限,某组段的组中值为该组段的(上限+下限)/2。相邻两组段的下限之差为组距。常用全距的1/10取整做组距。3.36/10=0.336≈0.33.写出组段的下限:

第1组段值小于或等于最小变量值,并以整数为好。如2.3~4.

列出频数表:

变量(x)归为下限≤x<上限。计量资料频数表的编制步骤第6页,共55页,2023年,2月20日,星期六Table1.

100名职工血清总胆固醇频数表

组段频数ff(%)2.3-11.02.6-33.02.9-66.03.2-88.03.5-1717.03.8-2020.04.1-1717.04.4-1212.04.7-88.05.0-55.05.3-22.05.3-5.611.0合计100100.0第7页,共55页,2023年,2月20日,星期六频数分布图—直方图正态分布:频数分布的集中位置在中间,左右两侧大致对称。第8页,共55页,2023年,2月20日,星期六正偏态分布:频数分布不对称,集中位置偏向数值小的一侧。第9页,共55页,2023年,2月20日,星期六负偏态分布:集中位置偏向数值大的一侧。第10页,共55页,2023年,2月20日,星期六1.3集中趋势的描述描述对象:描述同质观察值平均水平或中心位置。1.3.1均数(average,mean):基本公式:加权法公式:应用范围:适用于正态或类似正态分布的数值变量资料。第11页,共55页,2023年,2月20日,星期六1.3.2几何均数(G)应用范围:适用于数值呈倍数变化或数据经过对数变换后呈正态分布的数值变量资料。基本公式:加权法公式:第12页,共55页,2023年,2月20日,星期六1.3.3中位数定义:将一组变量值由小到大依次排列,居以中间位次的观察值即为中位数使用范围:适用于描述偏态分布资料的平均水平。n为偶数n为奇数第13页,共55页,2023年,2月20日,星期六1.3.4百分位数(percentile)定义:将一组变量值由小到大依次排列,n×X%为第x百分位数的秩次,其对应的变量值(x)为第x百分位数,记为Px。中位数即为P50。第p百分位数的计算:第1步:以递增顺序排列原始数据(即从小到大排列)。第2步:计算指数i=n×p%第3步:l)若i不是整数,将i向上取整。大于i的毗邻整数即为第p百分位数的位置。2)若i是整数,则第p百分位数是第i项与第(i+l)项数据的平均值。

第14页,共55页,2023年,2月20日,星期六1.4离散程度的描述1.4.1全距(Range,R):定义:R=最大值–最小值意义:

R值越大,表示该组数据的变异越大。缺点:数据利用不全,部分信息损失,在例数少时结果不稳定。仅考虑最大值与最小值之差,不能反映组内其他观察值的变异度。描述对象:反映一组同质观察值的变异度第15页,共55页,2023年,2月20日,星期六1.4.2四分位数间距(quartile,简记为Q):定义:为上四分位数QU与下四分位数QL之差。Q=P75%-P25%意义:作为变异指标比极差稳定。常用于表示偏态分布资料的变异。Q越大,变异度越大;反之,Q越小,变异度越小。第16页,共55页,2023年,2月20日,星期六1.4.3方差和标准差(standarddeviation,STDEV)总体方差(σ2)总体标准差(σ)样本标准差(s)第17页,共55页,2023年,2月20日,星期六1.4.4

变异系数(CV)应用:2.比较组单位相同,但均数相差悬殊的组间变异程度.CV越大,表示数据变异越大。常用于衡量方法、仪器的精密度。公式:1.组间单位不同时变异程度的比较。意义:第18页,共55页,2023年,2月20日,星期六1.5抽样误差1.5.1抽样误差抽样误差:由于个体变异的存在,抽样研究所造成的样本统计量与总体参数之间的差异,称为抽样误差。均数的抽样误差:这种由抽样研究造成的样本均数与总体均数间的差异称为均数的抽样误差。第19页,共55页,2023年,2月20日,星期六样本均数的标准差称均数的标准误1.5.2标准误(standarderror)定义:公式:意义:反映均数抽样误差大小的指标。标准误大,表示抽样误差大;标准误小,表示抽样误差小。第20页,共55页,2023年,2月20日,星期六1.6正态分布频数分布与正态分布曲线示意图第21页,共55页,2023年,2月20日,星期六正态分布曲线下面积的含义1.表示变量值(x)在a-b区间变量值所占全部(总体)变量值的比例或概率(p)。2.变量值在整个曲线下的面积为100%,或出现的概率为1。第22页,共55页,2023年,2月20日,星期六正态分布曲线理论上的特征(1)以X=μ为中心,X值呈钟型分布。(2)在X=μ处,f(x)取最大值。(3)正态分布由μ、σ决定正态分布的位置和形状。随μ不同,曲线位置不同,称μ为位置参数。σ越大,曲线形状不同,称σ为形状参数。第23页,共55页,2023年,2月20日,星期六正态分布参数位置变化示意图第24页,共55页,2023年,2月20日,星期六正态分布变异度不同变化示意图第25页,共55页,2023年,2月20日,星期六2统计表与统计图2.1统计表2.1.1统计表的结构医院有效病例无效病例合计甲121830乙31940丙205070合计6377140表22002年某地三医院同种感冒药治疗鼻塞的效果横标目纵标目表号标题横标目名称第26页,共55页,2023年,2月20日,星期六2.1.2编制统计表的原则●重点突出,一张表只表达一个中心内容。●主语在左,宾语在右,从左至右构成一句完整而通顺的话。●简单明了,文字、数字与线条尽量简洁。第27页,共55页,2023年,2月20日,星期六2.1.3编制统计表的要求标题:概括说明表的内容,必要时注明时间和地点,列于表的上方居中。字数一般不超过20个。标目:简明确切,有单位的要注明单位。横标目列于表的左侧,为被研究的事物;纵标目列于表的上端,为横标目的统计指标。数字:一律用阿拉伯字表示;同一指标的小数位数应一致并对齐。表中暂缺或无数字者分别以“”和“—”表示,数字为零者要记做“0”,表内不留空格。线条:除表的顶线、底线、纵标目下、合计上的横线外,其余线均省略;顶线和底线应略粗。表的左上角不宜用斜线。第28页,共55页,2023年,2月20日,星期六2.2统计图条图(barchart)圆图(piechart)百分比条图(percentbarchart)线图(linegraph)直方图(histogram)散点图(scatterdiagram)统计地图(statisticalmap)2.2.1统计图的种类第29页,共55页,2023年,2月20日,星期六1.按资料的性质和分析目的选用适合的图形:间断性资料选用条图、圆图、百分条图;连续性资料选用线图、直方图。2.要有标题,扼要说明资料的内容,必要时注明时间、地点,一般写在图的下面。3.条图、线图和直方图都有纵轴与横轴。纵横坐标长度的比例一般约5:7(或7:5)为宜。4.纵轴和横轴应标注标目及其单位;标明尺度。5.比较不同事物时,用不同的线条或颜色表示,要附图例说明。2.2.2绘制统计图的基本要求第30页,共55页,2023年,2月20日,星期六2.2.3条图用直条的长度表示相互独立的统计指标的大小,可分为:①单式条图;②复式条图;③分段条图④误差条图图2-172000年三大城市四苗接种率(%)第31页,共55页,2023年,2月20日,星期六图2-27四种营养素喂养小白鼠三周后所增体重(克)图2-26老、中、青三代的结核菌素阳性率与强阳性率(%)第32页,共55页,2023年,2月20日,星期六3excel在统计分析中的应用3.1利用excel进行T检验3.2利用excel进行直线相关方程计算第33页,共55页,2023年,2月20日,星期六3.1利用excel进行T检验小鼠对子号12345678910实验组3.02.32.41.14.03.72.71.92.61.3对照组3.64.54.24.43.75.67.04.15.04.5表1某化合物抑瘤实验的结果第34页,共55页,2023年,2月20日,星期六Step1建立excel表格第35页,共55页,2023年,2月20日,星期六Step2选择TTEST函数第36页,共55页,2023年,2月20日,星期六第37页,共55页,2023年,2月20日,星期六Step3输入各个参数第38页,共55页,2023年,2月20日,星期六第39页,共55页,2023年,2月20日,星期六第40页,共55页,2023年,2月20日,星期六Step4点击“确定”,返回P值第41页,共55页,2023年,2月20日,星期六Step5结果分析P<0.05,小概率事件,实验组与对照组存在显著性差异,说明该药物有效。在柱状图中,P<0.05用*标识,P<0.01时,用**表示。P>0.05,实验组与对照组没有显著性差异,说明该药物无效第42页,共55页,2023年,2月20日,星期六3.2利用excel进行直线相关方程计算药物浓度(g/l)00.010.020.030.040.0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论