




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、生物医学统计分析评分实验报告 课程名称 生物医学统计分析 实验名称 数据的管理及基本统计分析 专业班级 姓 名 学 号 实验日期 2015年11月19日 实验地点 20152016学年度第 2 学期一、 实验目的对数据进行管理及基本统计分析,包括:数据的格式化,数据的输入,数据管理器列宽定义,数据的增减、整理、运算与新变量的生成、文件的调用与保存,Descriptives过程,Frequenciies过程。二、实验环境 1、硬件配置:处理器:Intel(R) Core(TM) i7-3770 CPU 3.40GHz 3.40GHz 安装内存(RAM):4.00GB 系统类型:64位操作系统 2
2、、软件环境:IBM SPSS Statistics 19.0软件三、实验内容(包括本实验要完成的实验问题及需要的相关知识简单概述)(1) 课本第二章资料的描述性统计分析的例2.1-2.7运行一遍,注意理解结果;(2) 然后将实验指导书的例1按照步骤进行数据管理的操作和基本统计分析。(1) 某地某年成年男子120 人的红血球数(1012/L)记录如下: 5.195 5.360 4.070 4.065 5.160 4.590 4.520 4.720 4.490 5.260 5.070 5.100 4.315 4.990 4.360 5.450 5.120 5.190 4.580 4.380 4.6
3、10 4.360 5.100 4.215 5.070 4.721 4.640 5.000 5.510 5.600 4.420 5.180 4.260 5.060 5.280 4.250 4.840 4.800 5.850 5.305 5.000 5.290 5.360 4.950 5.420 5.610 5.630 4.520 4.800 5.000 5.280 4.920 5.170 4.640 5.520 5.140 4.295 5.470 4.840 4.540 4.740 4.880 5.140 4.700 5.560 5.520 4.485 4.290 4.780 4.620 4.8
4、10 5.110 4.600 5.200 4.700 5.050 5.220 5.590 5.370 4.650 4.780 5.315 5.150 5.070 5.005 5.120 4.985 4.815 5.090 3.980 4.550 4.960 4.780 5.190 5.160 5.640 5.050 5.040 4.320 5.190 4.840 5.000 5.700 5.030 5.155 4.860 4.715 4.920 4.890 5.180 5.875 5.105 5.185 5.130 4.070 5.100 5.260 5.220 5.190 5.010对该组数
5、据进行数据管理的操作和基本统计分析。四、实验结果与分析 (包括实验原理、数据的准备、运行过程分析、源程序(代码)、图形图象界面等)注:本项可以增加页数 (一)数据格式化:用户可根据具体资料的属性对数据进行格式化。主要有以下3种数据类型:Numeric:数值型,同时定义数值的宽度(Width),即整数部分+小数点+小数部分的位数,默认为8位;定义小数位数(DecimalPlaces),默认为2位。Date:日期型。如选择mm/dd/yy形式,则1995年6月25日显示为06/25/95。String:字符型,用户可定义字符长度(Characters)以便输入字符。(二)数据的输入:定义好变量并格
6、式化数据之后,即可向数据管理窗口键入原始数据。数据管理窗口的主要部分就是电子表格,横方向为电子表格的行,其行头以1、2、3、表示,即第1、2、3、行;纵方向为电子表格的列,其列头以var00001,var00002,var00003表示变量名。行列交叉处称为单元格,即保存数据的空格。鼠标一旦移入电子表格内即呈十字形,这时按鼠标左键可激活单元格,被激活的单元格以加粗的边框显示;用户也可以按方向键上下左右移动来激活单元格。单元格被激活后,用户即可向其中输入新数据或修改已有的数据。(三)数据管理器列宽定义:点击ColumnFormat.钮,用户可定义数据管理器纵列的宽度,以便显示较长的数值或文字;同
7、时用户还可指定数值或文字在数据管理器单元格中的位置:Left表示靠左、Center表示居中、Right表示靠右(此为默认方式)。(四)数据的增删:增加一个新的变量列:Data菜单的InsertVariable命令项。增加一个新的列:Data菜单的InsertCase命令项,增加一个新的行。增加一个新的观察值:Edit菜单的Cut命令项。删除一个行:Delete键或选Edit菜单的Clear命令项。删除一个变量列:Delete键或选Edit菜单的Clear命令项。删除一个观察值:Edit菜单的Cut命令项,Edit菜单的Paste命令项。(五)数据的整理:数据的排序:选Data菜单的SortCa
8、ses.命令项,弹出SortCases.对话框,在变量名列框中选1个需要按其数值大小排序的变量(用户也可选多个变量,系统将按变量选择的先后逐级依次排序),点击钮使之进入Sortby框,然后在SortOrder框中确定是按升序(Ascending,从小到大)或降序(Descending,从大到小),点击OK钮即可。数据的行列互换:选Data菜单的Transpose.命令项,弹出Transpose.对话框,在变量名列框中选1个或多个需要转换的变量,点击钮使之进入Variable(s)框,再点击OK钮即可。产生的新数据会在第1列出现一个case_lbl新变量,用于放置原来数值的变量名。若要将数据再转
9、换回原来的排列方式,方法与上述过程相同。数据的分组汇总:选Data菜单的Aggregate.命令项,弹出AggregateData对话框在变量名列框中选一个变量,点击钮使之进入BreakVariable(s)框,选一个变量进入AggregateVariable(s)框,因欲作平均值汇总,故点击Function.钮弹出AggregateData:AggregateFunction对话框,选Meanofvalues项点击Continue钮返回;再点击OK钮即可。数据的分割:选Data菜单的SplitFile.命令项,弹出SplitFile对话框,选Repeatanalysisforeachgrou
10、p表示此后都按指定的分组方式作相同项目的分析,用户可从变量名列框中选1个或多个变量点击钮使之进入GroupsBasedon框来作分组的依据。若在数据分割之后要取消这种分组,可选Analyzeallcases项,则系统恢复如初。(六)数据的运算与新变量的生成:选Transform菜单的Compute.命令项,既可对选定的变量进行运算操作,又可通过运算操作让系统生成新的变量。在弹出的ComputeVariable对话框中,先TargetVariable指定一个变量(可以是数据管理器中已有的变量,也可是用户欲生成的新变量),然后点击Type&Label.钮确定是数值型变量,还是字符型变量,或加上变量
11、标签。在NumericExpression框中键入运算公式,系统提供计算器和82种函数(在Functions框内)让用户使用;若点击If.钮会弹出ComputeVariable:IfCases对话框,用户可指定符合条件的变量参与运算。(七)数据文件的调用与保存:选File菜单的Open命令项,再选Data.项,弹出OpenDataFile对话框,用户确定盘符、路径、文件名后点击OK钮,即可调入数据文件。数据文件的保存:File菜单的SaveAs.命令项,弹出Newdata:SaveDataAs对话框,用户确定盘符、路径、文件名以及文件格式后点击OK钮,即可保存数据文件。(八)Descripti
12、ves过程:调用此过程可对变量进行描述性统计分析,计算并列出一系列相应的统计指标。依次打开Analyze-descriptivestatistics-descriptives,弹出Descriptives对话框。现在对话框左侧的变量列表中选取变量,点击钮使之进入Variable(s)框。点击Options.钮,弹出Descriptives:Options对话框。框中各指标的意义请参阅上面内容。选好项目后点击Continue钮返回Descriptives对话框,再点击OK钮即可。(九)Frequencies过程:调用此过程可进行频数分布表的分析。频数分布表是描述性统计中最常用的方法之一,此外还可
13、对数据的分布趋势进行初步分析。依次选择AnalyzeDescriptivestatisticsFrequencies,弹出Frequencies对话框。同时可点击Format.钮弹出Frequencies:Format对话框,在Orderby栏中有四个选项:Ascendingvalues为根据数值大小按升序从小到大作频数分布;Descendingvalues为根据数值大小按降序从大到小作频数分布;Ascendingcounts为根据频数多少按升序从少到多作频数分布;Descendingcounts为根据频数多少按降序从多到少作频数分布。在PageFormal栏中可定义结果输出的格式。点击sta
14、tistics.钮,弹出对话框,可点击相应项目,要求系统在作频数表分析的基础上,附带作各种统计指标的描述,特别是可进行任何水平的百分位数计算。如计算四分位数(Quartiles)、均数(Mean)、中位数(Median)、众数(Mode)、总和(Sum)、标准差(Std.deviation)、方差(Variance)、全距(Range)、最小值(Minimum)、最大值(Maximum)、标准误(S.E.mean)、偏度系数(Skewness)和峰度系数(Kurtosis),选好后点击Continue钮返回Frequencies对话框。点击Charts.钮,弹出Frequencies:Char
15、ts对话框,用户可选两种图形,一是直条图(Barchart),适用于非连续性的变量;另一是直方图(Histogram)。例2.1结果: 表1 描述性统计N最小值最大值平均值标准偏差方差偏度峰度统计量统计量统计量统计量标准错误统计量统计量统计量标准错误统计量标准错误蛋长652.2256.7254.0933.705331.727692.985.560.845-.8851.741蛋宽646.1248.4247.3900.40407.98977.980-.490.845-2.0111.741蛋重650.0153.2351.6300.662381.622502.633.007.845-3.2191.74
16、1有效 N(成列)6分析:从:从表中可以看出有6个统计量,最小值,最大值,平均值:=4.95917,平均值的标准差: ,方差:,标准差=,偏度是描述发布形态对称性的统计量,偏度等于0是正态分布,大于0是右偏分布,表明较低的值占多数,小于0是左偏分布,表明较高的值占多数。峰度是描述资料分布形态扁平程度的统计量,峰度等于0表示数据分布的扁平程度适中,即正态分布,大于0是尖峰分布,小于0是扁平分布。例2.2结果: 表2 描述统计量N全距极小值极大值均值标准差体重12628.037.065.051.7625.1779有效的 N (列表状态)126分析:从表中可以看出126头母羊体重的均值=51.762
17、,标准差s=5.1779,全距R=28.0,最大体重=65.0,最小体重=37.0.IF (体重 = 36.0&体重 39.0) 次数=1.EXECUTE.IF (体重 = 39.0&体重 42.0) 次数=2.EXECUTE.IF (体重 = 42.0&体重 45.0) 次数=3.EXECUTE.IF (体重 = 45.0&体重 48.0) 次数=4.EXECUTE.IF (体重 = 48.0&体重 51.0) 次数=5.EXECUTE.IF (体重 = 51.0&体重 54.0) 次数=6.EXECUTE.IF (体重 = 54.0&体重 57.0) 次数=7.EXECUTE.IF (体重
18、 = 57.0&体重 60.0) 次数=8.EXECUTE.IF (体重 = 60.0&体重 63.0) 次数=9.EXECUTE.IF (体重 = 63.0) 次数=10.EXECUTE.表3 频数分布表频数百分比有效百分比累积百分比有效36.01.8.8.839.01.8.81.642.064.84.86.345.01814.314.320.648.02620.620.641.351.02721.421.462.754.02620.620.683.357.0129.59.592.960.075.65.698.463.021.61.6100.0合计126100.0100.0分析:从表中可以看
19、出,我们对数据进行了分组,分成10组,组距=全距/组数=28.0/103.0第一组下限=最小值-1/2组距=37-1/2*3=35.536,分组的组限依次为36.0,39.0,42.0,45.0,48.0,51.0,54.0,57.0,60.0,63.0.所以第一组就是36.0-39.0.以此类推。频数是有效数在各组中取到的次数,如36.0的频数是1,则表示取到1位在36.0-39.0范围内的数。百分比则是频数在总数中的比例,如1的百分比是1/1260.8,有效百分比就是有效的频数百分比,累积百分比就是有效百分比的累积。 例2.3结果: 图1 水稻杂种二代米粒性状分离条形图 分析:条形图一般用
20、于归类资料,主要适用于彼此独立的资料互相比较。“图表中的数据为”选项说明:1.格案组摘要:观察值分类描述模式,即对变量中的观察值进行分组后绘图;2.各个变量的摘要:变量描述模式,即每个变量生成一个条形图;3.个案值:观察值描述模式,即对应分类轴变量中每一观察值生成一个条形图。本题选个案组摘要。 “条的表征”选项说明:1.个案数:以每组观察单元的例数制图;2.个案数的%:以每组观察单元的例数百分比制图;3.累计个数:以每组观察单元的累积例数制图;4.累积%:以每组观察单元的累积百分比制图;5.其它统计量:已经过统计加工数据的制图。本题选其它统计量。从表中可以看出每种米粒性状的平均数次数。注意:米
21、粒性状要定义为字符串。变量为:次数,是纵坐标。类别轴为米粒性状,是横坐标。 例2.4结果: 图2 几种动物食品的营养成分 分析:从图中可以看出牛奶中的水分最多,再是糖类,无机盐最少;牛肉中水分最多,再是蛋白质,脂肪,没有糖类,其它两个以此类推。注意:品名要定义为字符串。 例2.5结果:图3 牛肉的不同营养成分构成比分析:饼图用于表示计数资料、质量性状资料或半定量(等级)资料的构成比。从图中可以看出其它占的比例最大,再是蛋白质,最少是脂肪。图表中的数据为个案组摘要。例2.6结果: 图4 长白猪体重的变化分析:线图适用于连续性计量资料,表示事物或现象因时间、条件的变化而变迁的趋势。因为只有体重一个
22、变量,所以选择简单以及个案值摘要。从图中可以看出长白猪的体重随着月龄的增长而增长。例2.7结果: 图5 3个品种猪体重的变化分析:图表中的数据为个案值,从图中可以看出3种猪的体重都随着月龄的增长而增长。其中长白猪的变化最快最显著。例1结果:表4 描述统计量N全距极小值极大值均值标准差方差偏度峰度统计量统计量统计量统计量统计量标准误统计量统计量统计量标准误统计量标准误红血球数1201.8953.9805.8754.95917.036866.403841.163-.259.221-.243.438有效的 N (列表状态)120分析:从表中可以看出有120个统计量其中极小值是3.980,极大值是5.
23、875,全距=极大值-极小值=5.875-3.980=1.895,均值:=4.95917,均值的标准差: 是0.036866,方差:=0.163,标准差=0.403841,偏度是描述发布形态对称性的统计量,偏度=-0.259小于0是左偏分布,表明较高的值占多数。峰度=-0.243小于0是扁平分布。表5 统计量次数N有效120缺失0表6 120人的红血球数的次数分布表频率百分比有效百分比累积百分比有效3.01.8.8.84.05344.244.245.05.06655.055.0100.0合计120100.0100.0图6 红血球数次数分布图 分析:列出了120人的基本统计指标,从表中可以120
24、人的红血球数的极差是1.895,均值是4.95909,标准差是0.403835,方差是0.163,数据波动不大,偏度、峰度均小于0,表明较大数值占多数(左偏),数据成扁平分布。该类数据较多、单一变量,故对数据分3组进行进一步分析。从表2.6可知120个数据均有效;从表27可知3.0,4.0,5.0各组中体重符合对应范围的数据个数依次是1,53,66;从表中可以看出红血球数在5.0数量最多。表7案例处理摘要 案例有效缺失合计N百分比N百分比N百分比红血球数120100.0%0.0%120100.0%表8描述分析 统计量标准误红血球数均值4.95909.036865均值的 95% 置信区间下限4.
25、88610上限5.032095% 修整均值4.96422中值5.02000方差.163标准差.403835极小值3.980极大值5.875范围1.895四分位距.490偏度-.258.221峰度-.243.438表9 M-估计器 Huber 的 M-估计器aTukey 的双权重bHampel 的 M-估计器cAndrews 波d红血球数4.986865.007094.979385.00776a. 加权常量为 1.339。b. 加权常量为 4.685。c. 加权常量为 1.700、3.400 和 8.500d. 加权常量为 1.340*pi。表10百分位数百分位数5102550759095加权平
26、均(定义 1)红血球数4.250504.360004.700005.020005.190005.506005.60950Tukey 的枢纽红血球数4.700005.020005.19000表11极值案例号值红血球数最高11115.8752395.85031035.7004965.6405475.630最低1903.980244.06531154.070434.0705244.215红血球数 Stem-and-Leaf Plot Frequency Stem & Leaf 1.00 39 . 8 3.00 40 . 677 .00 41 . 5.00 42 . 15699 5.00 43 . 1
27、2668 3.00 44 . 289 6.00 45 . 224589 6.00 46 . 012445 9.00 47 . 001224888 10.00 48 . 0011444689 6.00 49 . 225689 15.00 50 . 000001345567779 23.00 51 . 00001223445566788899999 8.00 52 . 02266889 5.00 53 . 01667 3.00 54 . 257 5.00 55 . 12269 4.00 56 . 0134 1.00 57 . 0 2.00 58 . 57 Stem width: .100 Each leaf: 1 case(s) 图7箱形图 分析:对例1中的数据进行分析,首先因其数据样本的数据较多,而且对其的特性和分布都不是太了解,所以我们就对此样本数均进行一个探索性的分析,分析结果如上所示。(1) 首先我做了一个基本的描述性统计分析,得到以上表6的全距、最大值、最小值、均值、标准差等最基本的统计数据,表7是对样本数据进行的一个基本的处理摘要,得到我们有120个样本数据且120样本数据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年税务师备考必避坑试题及答案
- 数据分析的实际技巧 试题及答案解析
- 食品安全课程复习试题及答案
- 2025企业租赁合同标准版
- 2025中介服务佣金合同范本
- 2025年高考考前信息必刷卷02英语(新高考I卷)解析版
- 2025停车场承包协议合同书
- 生育补贴政策落地方案
- 2025专项许可经营合同
- 低空经济政策红利与产业机遇透析
- 2025-2030中国面巾纸行业运营模式与竞争格局分析研究报告
- 2025年浙江省初中学校TZ8共同体中考数学一模试卷
- 2025年各地低空经济政策汇编
- 2025年共青团入团考试测试题库及答案
- 2021年同等学力申硕《临床医学》试题真题及答案
- CNAS-EC-027-2010 信息安全管理体系认证机构认可说明
- 小学科学实验教学与现代教育技术融合研究
- 2025年兴业银行股份有限公司招聘笔试参考题库含答案解析
- 2025届华能安阳热电限责任公司毕业生招聘高频重点提升(共500题)附带答案详解
- 完整版医院CT机房装饰改造工程施工组织设计方案
- gis在城乡规划中的应用
评论
0/150
提交评论