第一章药理学《数据的描述和整理 》2_第1页
第一章药理学《数据的描述和整理 》2_第2页
第一章药理学《数据的描述和整理 》2_第3页
第一章药理学《数据的描述和整理 》2_第4页
第一章药理学《数据的描述和整理 》2_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

医药数理统计方法第一章数据的描述和整理内容第一节数据的类型和整理第二节数据分布特征的统计描述第三节数据的直观描述:统计图表第四节数据整理与统计作图的excel应用2概率论(probability)研究随机现象数量规律的数学学科。数理统计(mathematicalstatistics)以概率论为基础,通过对随机现象观察数据的收集整理、分析推断来研究其规律的学科。统计学(

statistics,介于自然科学和社会科学的边缘学科,是研究随机现象数据规律性的学科)定义:以概率论和数理统计的理论、方法为基础,对研究对象的数据资料进行搜集、整理、分析和解释,从数量角度去探索某自然现象或社会现象的客观规律(统计规律)的一门学问。特点:研究事物的数量特征功能:帮助人们透过客观世界中的偶然现象去发现和探究出隐藏在这些现象背后的客观规律。医药数理统计医药数理统计是运用数理统计的原理和方法来分析和解释医药及医学研究中遇见的各种现象和试验调查资料的一门学科。包括以下内容:1.数理统计所需的概率论基础知识及概率分布;2.医药学中常用的统计方法:3.试验设计:包括试验设计的基本原则及常用的试验设计方法。例:1)普查某地区的总人数及某种疾病的人数,算出该地区该疾病的患病率,并与全国平均患病率(已知资料)比较。2)从某地中随机抽查n个人,查出其中患某种疾病的人数,并推断出该地区的患病率是否明显高于全国平均水平?5数据类型与统计方法

定类数据

定序数据

定性(品质)数据

定量(数量)数据

定距数据

定比数据

参数方法

非参数方法

第一节数据的类型和整理一、数据的分类6变量

定序变量

离散变量

连续变量

定类变量

数值变量

(二)变量及其类型7(三)两类数据的转换1、定量数据的定性化转换。例如,成年男子的血清胆固醇按是否小于6(mmol/L)划分成血脂正常和异常两类;这时定量数据就成了定性数据。2、定性数据的数量化转换。例如,对定性变量性别中的定性数据“男”“女”可以分别取值为“1”和“0”,此时取值1和0之间没有量的差别,只是一种“数据代码”。8(四)统计数据的搜集和来源(1)原始资料(或一手资料):通过专门进行的科学试验或调查来采集得到的直接来源数据资料。(2)次级资料(或二手资料):利用已公开出版(报道)的信息资料或尚未公开的信息资料来搜集的间接来源数据资料,包括图书资料和报刊杂志、广播电视等媒体和互联网中的各种数据资料,使用时应注意数据的含义、计算口径和方法,并在引用时注明数据来源。91、对人100人的血红蛋白含量测量考察时:低于60g/L(重度贫血)有5人、60~90g/L(中度贫血)10人、90~125g/L(轻度贫血)有15人、125~160g/L(正常)有55人、大于160g/L(血红蛋白增高)有15人,该资料为

资料。2、若以舒张压大于90mmHg为高血压,某地1000人中有多少个高血压患者,该统计资料为

资料。课堂练习10二、数据的统计整理和图示(一)定性数据的整理和图示频数是指落在各类别中的数据个数;频率则是指各类别的数据个数占数据总个数的比例值;频数分布表就是将各个类别及其相应的频数(或频率、百分比)用表格形式全部列出来。112000年我国6周岁以上各种受教育程度的人口数12图1-12000年我国6周岁以上人口的各种受教育程度的垂直条形图13(二)定量数据的整理和图示定量数据分组方法

等距分组

异距分组

单变量值分组

组距分组

14编制频数分布表的步骤确定组数

编制频数分布表的步骤

确定组距

计算频数

统计图示15书例1-1现有某高校某专业60名学生数理统计课的成绩(单位:分)数据如下,试编制频数分布表并制作直方图等来进行数据的统计整理和图示。83 67 80 71 81 62 73 75 57 86 96 64 89 47 91 89 66 83 84 7972 74 61 96 82 69 94 81 70 57 83 85 78 54 99 79 64 77 8410076 92 79 72 94 86 53 81 93 69 85 63 78 66 77 81 80 69 83 76161确定组数:

通常当数据个数小于50时,可分为5-6组;当数据个数为100左右时,可分为6-10组;当数据个数超过500时,可分为10-15组。在实际分组时,也可按经验公式来定组数k。例如在本例中,N=60,则k=6.9≈7即大致可分为7组。172确定组距:组距(classwidth)d是指该组上限与下限之差,一般多采用等组距。(取整)本例中,最大值=100,最小值=47,故组距

77.5718

3计算频数,形成频数分布表表1-3成绩数据频数分布表19组距分组(要点)将变量值的一个区间作为一组适合于连续变量适合于变量值较多的情况必须遵循“不重不漏”的原则…可采用等距分组,也可采用不等距分组20为反映各组数据的一般水平,通常用组中值作为该组数据的代表值,即为了统计分析需要,有时还需要观察某一数值以下(或以上)的频数或频率之和,这称为累积频数或累积频率.21表1-4成绩数据累积频数分布表224整理结果的统计图示

为了展示定量数据的整理结果,一般绘制直方图和频数折线图等专用于展示分组数据频数分布特征的统计图,以便直观全面地认识和分析定量数据的分布特征和规律。

图1-2成绩数据的频数直方图23

典型的统计软件(StatisticalSoftware)SASSPSSExcelSTATISTICAExcelSTATISTICASASSPSS24Excel制作频数表和直方图252627第二节数据分布特征的统计描述一、数据分布集中趋势的描述均值(mean)也称为均数或算术平均值,是全部数据的算术平均,记为。它适用于数值数据,不能用于定类和定序数据。对原始数据,设数据为x1,x2,…,xn,均值的计算公式:例如,对例1-1中的原始数据,计算60名学生考试成绩的均值为(一)均值直接法28对分组整理的数据,设原始数据被分为k组,各组的组中值为m1,m2,…,mk,各组观察值出现的频数分别为f1

,f2,…,fk,其中,均值的计算公式:加权法29表1-5成绩数据计算表30Excel计算均值函数:“=average(a2:j5)31(二)中位数(median)定义:将一组观察值从小到大按顺序排列,X1≤X2≤……≤Xn,居中心位置的数值即为中位数,记为Me32Excel中位数函数:“=median(A2:j5)”33(三)百分位数(Percentile)定义:是一种位置指标,一个百分位数Px把原始数据分为两个部分,比它小的占x%,比它大的占1-x%。式中:L、ix、fx分别为Px所在组段的下限,组距,频数;fL为Px所在组段之前各组段的累积频数。34百分位数的应用1)计算四分位数间距来描述资料的离散程度2)用两个百分位数可以估计一些医学参考值范围3)P50=Me35(一)极差(range)定义:也称全距,观察值中最大值与最小值之差,R=Xmax-Xmin例:对甲乙两名患者连续观察5天,测得的收缩压分别为:甲患者(mmHg)162145178142186乙患者(mmHg)164160163159166R甲=186-142=44mgHgR乙=166-159=7mgHg特点:极差大离散程度大,计算简单,粗略说明观察值变化范围Excel“=Max(A2:J5)-Min(A2:J5)”二、数据分布离散程度的描述(二)四分位数间距(quartile)定义:为上四分位数QU(P75)与下四分位数QL(P25)之差。Q=QU-QL特点:四分位数间距越大,数据的变异越大。比极差稳定,但没用到每一个具体的观察值,常用于描述偏态分布及分布一端或两端没有确切数值的资料的离散趋势。Excel

下四分位数QL“=Quartile(A2:J5,1)”上四分位数Qu“=Quartile(A2:J5,3)”(三)方差(Variance,meanofsquare)方差越大、数据变异越大样本方差总体方差Excel样本方差“=Vara(A2:J5)”(四)样本标准差(standarddeviation)标准差越大,变异程

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论