




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、教育测量与统计第二讲 数据清理与图表呈现 数据的整理 心理和教育研究中收集的各种原始资料杂乱无章,只有经过整理分析才能从中提取出有用的信息。 在对资料进一步分析之前,需要进行认真的整理。审核资料 审核审核资料的目的,是为了剔除不合格的资料,以确保资料的可靠性和可信性。 审核是对原始资料进行初步的审查和核实。不符合要求的数据主要有三种:缺失、可疑、失误。审核资料 缺失:指数据不全或缺项未填;例如一份资料中未回答的问题占10以上,或者缺少关键性资料。 可疑:指难以辨认或怀疑其真实性的数据;例如,有的被试填答的问卷全部选同一个选项(如全选A或全选B);有的被试填答的结果可以看到是一种规则的排列方式(
2、如A B C D E D B C A B C D E)。 失误:指存在明确差错的数据或答案。数据的分组 分组要以被研究对象的本质特性为基础 分类标志要明确,要能包括所有的数据 数据分组的标志 性质类别:按事物的不同性质进行分类。 数量类别:按数值大小进行分类,并排序。 统计表 统计表是用来表达研究变量与被说明的事物之间数量关系的表格。它可以将大量数据的分类结果清晰、概括、一目了然地表达出来,便于分析、比较和计算。 1、统计表的构成 横标目的总标目横标目的总标目 纵标目纵标目 横标目横标目 数字数字表表21 统计表的格式统计表的格式顶线顶线底线底线表线表线表号表号标题标题标目标目标目表注表注注:
3、例:例: 表表2-2 2-2 北京市四街道智力落后患者分布北京市四街道智力落后患者分布街道街道检查人数检查人数病人数病人数患病率(患病率()甲甲51841518411591593.13.1乙乙76030760302632633.53.5丙丙49508495081901903.83.8丁丁51788517881701703.33.3总计总计2291682291687827823.43.4统计表的种类 简单表:只按研究现象(或变量)的名称、地点、时序等列出数据的统计表。 分组表:只按一个标志分组的统计表称为分组表。 复合表:按两个或两个以上标志分组的统计表称为复合表。 表表2-3 各校学生数一览表
4、各校学生数一览表学校学校校校校校校校校校人数人数98598576276289389310511051 表表2-4 上海市区男幼儿上海市区男幼儿20米跑步用时米跑步用时年龄组年龄组3 3岁岁4 4岁岁5 5岁岁6 6岁岁平均用时平均用时( (秒秒) )7.717.717.167.166.046.045.535.53 表表2-5 某年级操行评定结果某年级操行评定结果班别班别甲甲乙乙丙丙丁丁合计合计男男女女男男女女男男女女男男女女一班一班6 65 58 88 86 64 42 21 14040二班二班5 55 59 910103 33 31 11 13737三班三班7 76 69 98 84 43
5、30 01 13838合计合计1818161626262626131310103 33 3115115统计图 统计图是整理和呈现数据的另一种方法,它把研究变量与被说明事物之间的数量关系用图形表现,直观、形象地表达出事物的全貌及其数据的分布特征,使人一目了然,便于理解和记忆,印象深刻。 统计图的构成 统计图一般由图号、标题、标目、图形、图注等几部分构成。 统计图中的标目由基线和尺度线构成。对于有纵、横轴的统计图,一般以基线表示被观察的现象,而尺度线则表示其数量。 统计图的分类 条形图:用直条的长短来表示统计项目数值大小的图形,主要是用来比较性质相似的间断型资料。 圆形图:是用于表示间断型资料比例
6、的图形。圆形的面积表示一组数据的整体,圆中扇形的面积表示各组成部分所占的比例。各部分的比例一般用百分比表示。 图图21 某年级操行评定结果条形图某年级操行评定结果条形图 基线尺度线图形图图22 某年级操行评定结果条形图某年级操行评定结果条形图例:例: 图图2-3 三项影响较大的三项影响较大的SARS信息对不同文化程度民众的影响信息对不同文化程度民众的影响00.511.522.533.544.5世卫组织对来本地旅游的警告卫生部、本市的新闻发布会所在单位和住宅区有无患者初中高中大专本科图图24 某年级操行评定结果圆形图某年级操行评定结果圆形图 求出各组成部分所占的百分比求出各组成部分所占的百分比
7、求出各部分的中心角度求出各部分的中心角度 以顺时针方向画出扇形以顺时针方向画出扇形 标出不同颜色及百分比标出不同颜色及百分比总数量某一成分数量360总数量某一成分数量线形图 线形图用来表示连续型资料。它能表示两个变量之间的函数关系;一种事物随另一种事物变化的情况;某种事物随时间推移的发展趋势等。 基于线形图,既可对有关统计变量进行数量比较,又可分析发展的趋势。 例如:对有意义的词汇,小学一年级至初中三例如:对有意义的词汇,小学一年级至初中三年级学生视觉、听觉记忆再现率的情况。年级学生视觉、听觉记忆再现率的情况。 图图25 有意义的材料再现率比较线形图有意义的材料再现率比较线形图次数分布表 一位
8、研究者调查了151位大学生,问他们在过去一年中的应激程度,用的是0到10点量表。151个大学生的数据如下: 4,7,7,7,8,8,7,8,9,4,7,3,6,9,10,5,7,10,6,8,7,8,7,8,7,4,5,10,10,0,9,8,3,7,9,7,9,5,8,5,0,4,6,6,7,5,3,2,8,5,10,9,10,6,4,8,8,8,4,8,7,3,8,8,8,8,7,9,7,5,6,3,4,8,7,5,7,3,3,6,5,7,5,7,8,8,7,10,5,4,3,7,6,3,9,7,8,5,7,9,9,3,1,8,6,6,4,8,5,10,4,8,10,5,5,4,9,4,7
9、,7,7,6,6,4,4,4,9,7,10,4,7,5,10,7,9,2,7,5,9,10,3,7,2,5,9,8,10,10,6,8,3用次数分布表整理次数分布 最简单的描述统计 描述统计的目的:简化和整理数据的表达。 次数分布(Frequency Distribution):是指一批数据在某一量度的每一个类目所出现的次数情况 组织此类数据的第一种方法是:建立次数分布表 次数分布表和次数分布图就是表达一组数据是如何在某一度量上分布的例例1: 某个班的某个班的26个学生在一次测验中的分数如下(个学生在一次测验中的分数如下(10分为分为满分):满分): 9,2,3,8,10,9,9,2,1,2,
10、9,8,2,5,2,9,9,3,2,5,7,2,10,1,2,9将这些分数作成一个次数分布表将这些分数作成一个次数分布表 X f10 2 9 7 8 2 7 1 6 0 5 2 4 0 3 2 2 8 1 2简单次数分布表 例例1 1:对于下面的次数分布表:对于下面的次数分布表:a) a) 此分布中共有几个分数此分布中共有几个分数 (N = N = ?)?)b) b) 对这些分数求和对这些分数求和 X XN = f = 14X = xf = 33 每个分数的比率和百分率 Proportion=p=f/n分组次数分布表 (Grouped Frequency Tables) 变量的值分布在一个较广
11、的范围时,需要分组次数分布表简捷地描述数据 常常以区间或类别的形式出现, 而不是某一特定值. 例如学生成绩, (A = 90-99, B = 80-89, .). 编制分组次数分布表的步骤把所有数据按大小顺序排列求全距定组数定组距写出区间上下限统计每个区间的次数分组的“惯常法则”(rules of thumbs) 分组次数分布表应该有大约10(5-15)个区间,目的是使这组数据易于直观感受和理解 所有区间的宽度应该相等 组距应该是个比较简单的数字,如2,5,10,20 每个区间开始的分数应该是组距的倍数 例3:以下是22个同学的测验分数,编制分组次数分布表94,92,82,87,81,74,7
12、5,78,76,76,63,60,62,54,51,56,59,43,32,36,25,18 例例3:以下是:以下是22个同学的测验分数,编制分组次数分布个同学的测验分数,编制分组次数分布表表94,92,82,87,81,74,75,78,76,76,63,60,62,54,51,56,59,43,32,36,25,18 分数的分布范围是18-942为组距,分38组5为组距,分16组10为组距,分9组精确界限 (Real Limits) 对于一个连续型变量,每个分数实际对应量尺上的一段区间。分割这些区间的界限叫做精确界限(real limits). 分割两个邻近分数的精确界限位于两个分数的中间
13、。 每个分数有两个精确界限, 一个在区间的顶端,称为精确上限(upper real limit), 另一个在区间的底端,称为精确下限(lower real limit). 注意一个区间的精确上限也是高一个区间的精确下限 次数分布图直方图 (histogram) 用一些垂直条画在每个分数之上 垂直条的高度代表次数 垂直条的宽度代表分数的精确区间. 临近的垂直条连接在一起 只有数据是等距或等比量度(连续变量)时,才能用直方图直方图 (histogram) 棒图(条形图;bar graph) 表达质性研究的数据(qualitative data). 用一些垂直条画在每个分数(或类别)之上 垂直条的高
14、度代表次数 每个垂直条之间有一段空间。 只有数据是命名或顺序量度(离散型变量)时,才能用棒图棒图(条形图;bar graph) 折线图(line graph) 又称次数分布多边图(frequency distribution polygon) 在每一分数上面画点 点的高度代表次数 一条连续折线将这些点连接在一起 表达数据的变化趋势折线图(line graph) 茎和叶图 (stem and leaf display) 如何准确地用图表达数据 把复杂的观点传递得清晰,准确,高效. 在最短的时间里用最少的笔墨和空间传递最多的信息. 图形的实际差别与数据的差别成正比. 标注清楚,详细,完全. 测度单
15、位要一致.误导读者的图次数分布的形状 用3个特征可以完整地描述一个分布: 形状(shape) 集中趋势(central tendency) 变异性(variability)对称分布(symmetrical distribution) 可以画一条垂直线穿过分布的中央,使得分布的一边恰是另一边的镜象。 偏态分布(skewed distribution) 分数堆积在分布的一端,而另一端成为比较尖细的尾端(tail) 偏态分布尾端向右的称为正偏态(positively skewed )(因为其尾端指向正数) 偏态分布尾端向左的称为负偏态(negatively skewed).双峰分布(bi-modal
16、 distribution )矩形分布(rectangle distribution) 一个分布中所有的值都是相同频次百分位数 (percentile) 以上是描述观察的整体,而我们也可用次数分布来描述某一个别点在一个集合中的位置 原始分数本身并不提供该点在一个集合中的位置的信息 一个分数的等级(rank) 或百分位数等级(percentile rank): 某一分布中分数在某一值之下或等于该值的个体所占的百分比. 当一个分数被其百分位数等级, 该分数称为百分位数(percentile).累计次数分布 cf = 累积次数(cumulative frequency) c% = cf/N x100%累积百分比(cumulative percentage)如何确定百分位数 对于连续型数据, 必须考虑其精确上限和精确下限如何确定百分位数 对于分数4, 其对应的累积百分比是 95%.但注意:分数4意味着一个人得分在3.5 和 4.5之间. 累积百分比表明组距的精确上限。因此,95 的百分位数是与4.5 相对应(而不是 4.0). 找出分布中4分的精确上限和精确下限的累积次数. 对于分数4.5, 其对应的累积百分比是95 对于分数3.5, 其对应
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《辩论赛技巧与策略》课件
- 2025体育教师学期工作总结(15篇)
- 骨干教师培训计划(16篇)
- 阅读的演讲稿(19篇)
- 2025年10月教师述职报告范文(18篇)
- 小学清明节国旗下讲话稿(4篇)
- 佛山假山施工方案
- 校园食品安全宣传周活动总结(35篇)
- 消防干道施工方案
- 大专自我鉴定200字(12篇)
- 幼儿园游戏活动评价
- (正式版)SHT 3075-2024 石油化工钢制压力容器材料选用规范
- 机器人发展史课件完整版
- 《城市市政管网运行安全风险评估规程》
- 2024年中国诗词大会知识竞赛模拟题库及答案(120题)
- 新车入户代办委托书
- 可乐罐罐身主要成分的探究
- 麻醉复苏室护理进修汇报
- 医疗用毒性药品培训课件
- 政府与非营利组织会计(王彦第8版)习题及答案 第1-23章 政府会计的基本概念-政府单位会计报表
- 2024版机动车鉴定评估师必备考试复习题库(含答案)
评论
0/150
提交评论