郝元涛中山大学课程_第1页
郝元涛中山大学课程_第2页
郝元涛中山大学课程_第3页
郝元涛中山大学课程_第4页
郝元涛中山大学课程_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、广东省高等教育教学改革项目申 请 书项目名称:基于项目反应理论的医学统计学标准化试题库的建立及应用申 请 人: 郝元涛 申请学校: 中山大学 (盖章)联系 :传 真:电子邮箱: 访问路径: 广 东 省 教 育 厅 制二O一二年五月申请者的承诺与成果使用授权 本人自愿申报广东省本科院校教育教学改革项目,认可所填写的广东省本科院校教育教学改革项目(以下简称为申请书)为有约束力的协议,并承诺对所填写的申请书所涉及各项内容的真实性负责,保证没有知识产权争议。课题申请如获准立项,在研究工作中,接受广东省教育厅或

2、其授权(委托)单位、以及本人所在单位的管理,并对以下约定信守承诺: 1.遵守相关法律法规。遵守我国著作权法和专利法等相关法律法规;遵守我国政府签署加入的相关国际知识产权规定。2.遵循学术研究的基本规范,恪守学术道德,维护学术尊严。研究过程真实,不以任何方式抄袭、剽窃或侵吞他人学术成果,杜绝伪注、伪造、篡改文献和数据等学术不端行为;成果真实,不重复发表研究成果;维护社会公共利益,维护广东省高等教育教学改革项目的声誉和公信力,不以项目名义牟取不当利益。3.遵守广东省本科院校教育教学改革项目有关管理规定以及广东省财务规章制度。4.凡因项目内容、成果或研究过程引起的法律、学术、产权或经费使用问题引起的

3、纠纷,责任由相应的项目研究人员承担。5.项目立项未获得资助项目或获得批准的资助经费低于申请的资助经费时,同意承担项目并按申报预期完成研究任务。6.同意广东省教育厅或其授权(委托)单位有权基于公益需要公布、使用、宣传项目申请评审书内容及相关成果。项目主持人(签章):_ 年 月 日一、简表项目简况项目名称医学统计学标准化试题库及计算机自适应考试系统的建立项目类别A、总体研究 B、专业大类 eq oac(,C)、教学管理 D、自选项目起止年月2013年1月-2014年12月项目申请人姓名郝元涛性别男出生年月1969.11专业技术职务/行政职务教授/党委书记兼副院长最终学位/授予国家博士/中国所在学校

4、学校名称中山大学邮政编码510080讯地址广东省广州市中山二路74号中山大学北校区公共卫生学院305室主要教学工作简历时间课程名称授课对象学时所在单位1996年至今卫生统计学预防医学专业本科生48中山大学1996年至今医药数理统计药学专业本科生32中山大学1996年至今MedicalStatistics医学长学制学生48中山大学1996年至今MultivariateStatisticalMethods医科研究生40中山大学主要教学改革和科学研究工作简历时间项目名称获奖情况2006-2007医学统计学网络课程的建设无2007-2010儿童生活质量测定量表系列PedsQ

5、L 引进及考核无2009-2011医学统计学试题库及计算机自适应考试系统的建立无2011-2013ReformsofEducationonPublicHealth无项目组总人数职称学位参加单位数高级中级初级博士后博士硕士125121371主要成员(不含申请 者)姓名性别出生年月职称工作单位分工签名张晋昕男1966.06副教授中山大学公共卫生学院试题库建设凌莉女1964.04教授中山大学公共卫生学院试题库建设林爱华女1963.06副教授中山大学公共卫生学院试题库建设顾菁女1977.08副教授中山大学公共卫生学院试题库建设吴少敏女1971.08实验师中山大学公共卫生学院试题库管理朱淑明男1972.

6、11实验师中山大学公共卫生学院系统维护曾芳芳女1979.09实验师中山大学公共卫生学院系统维护黄勇男1987.01研究生中山大学公共卫生学院试题分析录入邓特男1987.07研究生中山大学公共卫生学院试题分析录入郑巧兰女1987.08研究生中山大学公共卫生学院试题分析录入陈龙男1988.03研究生中山大学公共卫生学院试题分析录入二、立项依据:(项目的意义、现状分析)1 研究背景考试是指通过书面、口头提问或实际操作等方式,考查并测量参试者所掌握的知识和技能的状态或水平的社会活动 ADDIN NE.Ref.9F65629D-19B1-4B7E-8933-F223BA0548A41。考试是教学过程中的

7、一个重要环节,是评价教学质量的重要手段,不仅可以规范和引导教师的教学行为,还可以促进学生积极学习,培养和提高学生分析问题、解决问题等综合能力 ADDIN NE.Ref.7A9D5F3A-E0B0-4CA1-859E-3AF3FAD10FCC2,是教育管理必不可少的手段。那么,如何通过考试客观、科学地评价每个考生的真实能力,充分发挥考试对教学的反馈作用,是教学过程中需要着力解决的一个重要问题。考试能否准确测量考生对所学知识的掌握水平,很大程度上依赖于试题质量的高低。高质量的试题不仅具有良好的信度、效度,便于进行统计分析,而且还能够考察学生对知识的理解、运用的真实能力,全面反映学生的学习成果及老师

8、的授课效果。为了实现科学化、标准化、规范化、公正化的考试,充分发挥考试的积极作用,建立高质量的标准化试题库 ADDIN NE.Ref.60C8F0AD-E960-4D98-A934-580BC02EC4773是行之有效的方法途径。优质试题库的构建不仅能够大大减轻教师的工作负担,有利于促进学风、教风的建设,还能够更好地对试卷和考生作答情况进行分析,也有利于教学管理工作的科学化、规范化,最终促进教学水平及质量的不断提高。此外,如何借助计算机系统从已建立好的标准化试题库中快速有效地抽取试题、组成高质量试卷,以及如何以最少的试题量准确、有针对性地考察考生的能力是题库建设的重要问题,因此,在智能组卷过程

9、中应选择合适的自动组卷算法,使得组成的试卷能够满足用户的各种需求,并进一步实现基于计算机的自适应考试。2 国内外研究现状2.1 试题库研究现状2.1.1 国外研究现状题库(Item Bank)一词,本意为试题的有序集合 ADDIN NE.Ref.5A6E9850-8953-4AB7-9599-2CE4EF6779394,起源于60年代英国的一个全国教育研究课题。题库并不是将某一科目的练习题或考试题简单地进行收集并存入计算机 ADDIN NE.Ref.47DDD9DC-8909-4ECF-A87E-D60C9FED1A685, 6。这种做法得到的充其量只是一个习题集,是题目堆积的仓库,并不是试题

10、库。完整意义上的题库,除了具有录入存储试题的功能外,还应具备查询功能、智能组卷、分析反馈等功能,它相当于一个数据库,可以对试题进行调用,更改。因此,题库与一般的题集(Item Pool)是不同的,并不是未经加工处理的试题的简单堆集 ADDIN NE.Ref.23B86F57-C6F4-46DE-882D-852D18F6E0DA1。题库问题的提出、发展,与计算机技术的日益革新、迅速发展是不可分割的。计算机技术的日趋成熟、大众化、普及化,为建立智能化、高质量、大容量的题库提供了坚实的硬件基础条件。国外题库的发展有较长的历史,最早利用计算机进行题库管理的是CTSS系统(Classroom Teac

11、her Supporting System) ADDIN NE.Ref.077196D9-0646-4790-AE75-008F360F93F97,该系统是IBM公司和洛杉矶学区于1968年共同开发的,最初管理一个美国历史题库,该题库包含800道试题,能为中学教师生成测验试卷、家庭作业及课堂讨论题等等。后来,加利福尼亚州开发了一个更为庞大的题库系统,该系统拥有11个学科试题库,这些试题库中所包含的题目数多则上万,少至数百。题库的建立与发展离不开一定的教育测量理论的指导,最初的题库是以经典测量理论(Classic Test Theory, CTT)为依据的。CTT经过百年发展,在理论与方法上已相

12、当成熟,以CTT为指导编制的测验在各行各业中得到了广泛、成功的应用,但CTT仍存在很多无法克服的技术问题,如具有试题依赖性和样本依赖性等 ADDIN NE.Ref.25083858-9062-42B8-A7BD-19142B9FCB148-10。于是,近代统计学家Rasch, Wright, Lord ADDIN NE.Ref.EA252851-10D0-4DF7-8126-40C57CE0579611等人进行了艰辛探索与不懈努力,在CTT的基础上发展起来一种新的测量理论,即项目反应理论(Item Response Theory, IRT)。IRT依赖于几项强势基本假设,如单维性假设、局部独立

13、性假设等 ADDIN NE.Ref.C8E24AD4-C5FD-4D04-96F5-D92F48E2F2B312,强调数学模型的建立 ADDIN NE.Ref.E4FF93E0-92C8-494F-9B7D-0CBD21EB127E13, 14和试题参数的估计,具有试题独立性(即扣除了测量误差的影响后,考生能力参数的估计值不会随着试题的不同而改变)和样本独立性(即扣除了测量误差的影响后,试题参数的估计值不会随着考生的不同而改变),解决了CTT遇到的大部分问题,如今被广泛应用于是题库建设中。目前,基于IRT建立的试题库已经被大量应用于计算机自适应考试,且许多高校已经引入IRT来评价考试试题,并做

14、了各种理论探讨。如美国以IRT为基础对研究生入学考试(Graduate Record Examination,GRE)、工商管理类研究生入学考试(Graduate for Management and Administration Test,GMAT)均实行了计算机自适应考试。此外,TOFEL考试中的试题评价也采用了IRT ADDIN NE.Ref.ACFCA1AC-F52B-4A79-9B92-C69BBE46E1C415。许多授证考试、认证考试(如医护人员的资格考试、美国飞机驾驶员考试等)也都是基于IRT理论的。2.1.2 国内研究现状我国题库建设与研究起步较晚,但发展迅速。上世纪80年代

15、中期,我国开始推广与实施标准化考试,题库建设迫在眉睫,许多学校及各种考试机构均陆陆续续开始尝试建立题库,各种各样的试题库、多种学科的试题库在这股建立题库的热潮构建起来 ADDIN NE.Ref.69756A28-C7F0-4954-8843-A76038653E2F16。在这些众多的早期试题库中,主要有以下四种类型:1. 将试题按章节顺序存储的“题库”这种类型的“题库”仅仅将现有的试题按不同的章节划分存放至试题库中,存储过程简便易行,操作方便,但是每一道试题并未按所考查的知识点、所要达到的能力水平等指标进行划分,试题的存放也没有按科学、合理的顺序进行,以至于在抽取试题、组卷过程中需要浏览考查章

16、节中存储的所有试题才能完成任务,费时费力,效率低下。2. 整卷库这种类型的“题库”是以整套试卷为基本单位存放于试题库中来进行存储的,每一套试卷都含有固定数目和固定内容的试题,每次举行考试只需抽取一整套满意的、符合要求的试卷即可,不必对试卷中的试题逐一进行挑选,方便快捷。但是,当试题库中不存在满足考试要求的试卷,且现有的试卷又结构固化,不能够进行灵活的调整时,往往就会陷入窘迫的状况。3. 卡片库这种类型的“题库”的关键在于试题库卡片的制作,试题库卡片上包含每一道试题的详细信息,如题型、分值、知识点、难度、区分度等指标,还包括试题的具体内容、答案与评分标准等项目,最后将制作好的卡片分类保管,构成题

17、库。卡片库最大的缺点是未能将试题存储在计算机中,脱离了现代化手段,倒是组卷时效率不高、费时费力。4. 理论框架库这种类型的“题库”具有相应的测量理论以及具体的计算机程序,虽然可广泛适用于各个学科,但其仅仅是一个理论框架,未列出学科以及学科知识、能力层次分类细目,不能称之为完整意义上的“试题库”。虽然早期出现了以上多种多样的试题库,但是由于计算机技术等的限制,试题库在当时并未得到大范围的推广应用。后来,教育技术、计算机技术、网络技术的迅猛发展以及对题库建设相关理论的深入研究,为我国试题库的建设翻开了新的篇章。上世纪90年代初,国家也开始重视试题库的建设,在国家有关项目的支持下,我国也建立了如高等

18、教育基础学科系列试题库、国家医学水平考试题库等一系列题库系统,此外,我国也对汉语水平考试(HSK)计算机试题库的建立进行积极的探索与研究。目前,国内许多高校都着眼于应用IRT建立标准化试题库,如江西师范大学、北京师范大学、华东师范大学等,都为试题库的建设积累了经验、锻炼了队伍,为在更大范围内开展试题库建设打下了基础,推动了试题库建设工作的发展。2.1.3 医学统计学试题库研究现状随着现代医学的发展,医学统计学这门学科在搜集、整理、描述及推断医学数据乃至指导实验设计等方面的作用和地位日益突出,该学科受到国内外医学院校越来越多的重视。医学统计学(Medical Statistics)是应用数统计学

19、的原理与方法研究居民健康状况以及卫生服务领域中数据的收集、整理和分析的一门科学 ADDIN NE.Ref.52A7CFD5-17D5-4746-80AA-C2182B68974317。这是一门理论性与实践性很强的学科,其教学内容除了基本的理论知识外,还包括一些统计软件的操作与使用方法,如SAS软件、SPSS软件等,因此,考试方式也是多种多样的,包括理论考试与上机考试,其考试的客观性、公正性也是至关重要的。目前,在国内许多医学院校,医学统计学这门课程是面向不同专业(如预防专业、药学专业、护理专业、口腔专业、康复专业、法医专业等等)的学生开设的,不同专业对该学科的需求不一,学生的学习习惯与能力水平

20、也不等,教师对不同专业的学生制定的教学目标和采取的教学方法也不尽相同,然而,每次参加医学统计学考试的不同专业的学生却逐年增多,考试的公正性也随之成为师生关注的焦点。传统的考试方式采用人工形式,包括命题、试卷编制、监考、教师阅卷、成绩统计、试卷分析等步骤,工作量巨大,且容易出现差错,使考试的客观性、公平性遭到质疑,因此,医学统计学考试方式改革便逐渐提上日程。正如前所述,建立标准化的试题库可以有效解决存在于医学统计学考试中的种种问题。标准化试题库是以单个试题为基本单位的,操作起来方便灵活,试题库中的试题质量高、数量大、对知识点的覆盖面广,并且每一道试题都具有难度、区分度等属性指标,此外,这些试题按

21、照一定的秩序存放在试题库中,出卷者可以根据不同的目的、不同的需求抽取相应的试题,组合成满意的试卷对考生施测,方便快捷、省时省力、大大提高了效率。当前,不同学校对医学统计学的试题库建立方法及采取的考试方式不尽相同:有的学校建立了“整卷库”,以整套试卷为单位进行存储,考试时随机抽取一套试卷对考生施测,这种方式固化了试卷结构,不能根据实际需求灵活调整;有的学校简单的将试题按章节存放在一起,试题未经测试与合理的分析,未按能力层次及学科要求进行划分,考试时按章节选出一部分试题组卷,费时又费力;还有的学校并未建立试题库,而是指定每位代课老师出一定数量的题目,最后把所有老师提交的题目汇总、组合成卷,由于代课

22、老师往往根据课堂上强调的授课重点出题,带有暗示性质,因此并不能全面考察学生的真实水平。此外,多数试题库是依据经典测量理CTT论建立的,CTT本身又存在很多缺陷,难以保证考试的客观公正性。可见,当前的医学统计学试题库建立及考试制度存在诸多问题,为了解决这些问题,医学统计学标准化试题库的建立以及考试方式的改革势在必行。2.2 自动组卷系统和计算机自适应考试如何组织试卷,采用何种测试方式可以更好的评价学生的能力,是高校教育面临的又一个现实问题。考试出卷是一项繁琐的工作,需要综合考虑多方面的影响因素。利用计算机管理试题库,自动生成试卷是大势所趋。自动组卷系统是计算机辅助教学的重要组成部分,其建立主要取

23、决于算法。以往的组卷系统多采用随机选取法和回溯试探法 ADDIN NE.Ref.4F5E2AC6-3436-46CB-A6E2-E592F73CE27C18。前者根据状态空间的控制指标,随机抽取一道试题,此过程不断重复,直到组卷完成或已无法从题库中抽取满足条件的试题为止。这种算法结构简单,但成功率低,时间消耗多。后者是将随机选取法产生的每一状态记录下来,当搜索失败时释放上次记录的状态类型,然后再依据一定的规律变换一种新的状态进行试探,通过不断回溯试探直到试卷生成完毕或回到起点。但该算法对内存的占用量大,程序结构相对比较复杂,选取试题缺乏随机性,并且组卷花费时间长。在此基础上,人们寻找了一种新的

24、改进算法-遗传算法,这种算法具有组卷效率高、速度快、数据库冗余小的特点,并且具有自适应全局寻优和智能搜索技术,收敛性好的优点 ADDIN NE.Ref.018A3411-7B8B-4568-B979-E26081451D9019, 20。目前国内某些高校开始尝试基于遗传算法来建立自动组卷系统,但仍处于尝试阶段。计算机自适应考试(Computerized Adaptive Test, CAT) ADDIN NE.Ref.B64E7A20-7132-45CE-9B34-6B8DF3A2E0C821, 22是由一定量的试题组成试题库,按照一定的策略进行选题,按规则结束测试,进行实时评分。这是构建在I

25、RT基础上的一种考试方式,它能根据考生答题的情况不断计算受试者的能力值和信息量,并及时根据这些参数调整出题策略,最终给受试者一个恰当的评价。这种新的考试方式避免了大量题目使学生感觉厌烦,也避免了过难的题目使学生感到沮丧,可以明显减轻学生对于考试的焦虑情绪。随着近年来计算机及网络技术的发展,CAT在测量理论研究及时间应用中都取得了显著的进步,国内的HSK(中国汉语水平考试)以及国外的TOFEL和GRE等都是成功应用计算机自适应考试的例子。基于以上原因,本研究拟以医学统计学课程为试点,通过IRT对试题进行分析,科学评价各个试题参数,并制定试题筛选标准,以合格的、优秀的试题为单位输入并存储于试题库,

26、形成有质量保证的试题库。通过计算机及网络技术,建立自动组卷系统和计算机自适应考试系统,通过两个系统测量学生的能力。本研究将为今后各学科建立标准试题库、开展计算机自适应考试、科学评价学生能力、充分发挥考试的反馈作用提供经验和示范。3 研究目的和意义随着医学统计学这一学科在现代医学中的地位日益突出,国内许多医学院校选修这一门课程及参加该学科考试的学生也大大增加,然而目前多数学校在医学统计学试题库建立方面以及现有的考试制度均存在一定弊端,难以保证考试的客观性、公正性。为了解决这一问题,本研究拟以项目反应理论为依据,建立医学统计学标准化试题库,并采用遗传算法建立自动组卷系统,并实现计算机自适应考试系统

27、。建立与推广应用高质量、大容量、智能化的医学统计学标准化试题库以及采用遗传算法实现自动组卷、建立计算机自适应考试系统,不仅可以大大节省时间、人力,还能充分发挥考试的积极作用,全面反馈教学效果,促进良好的学风、教风、校风的形成,不断提高教学质量,最终为社会培养高素质的医学统计学人才,具有重大的实际意义。且本研究的研究成果将进一步丰富医学统计学的内容,巩固其在国内外教学中的领先地位。参考文献1 漆书青. 现代测量理论在考试中的应用M. 华中师范大学出版社,2003.2 张定国,梁平. 试论题库系统的研究与开发J. 抚州师专学报,1998(2):43-45.3 袁玉萍,代冬岩,汪洪艳. 高校试题库理

28、论及题库系统的建立J. 哈尔滨职业技术学院学报,2007(3):42-43.4 Hambleton R K. Item response theory: the three-parameter logistic modelM. Center for the Study of Evaluation, UCLA,1983.5 张峻. 建立基于试题库的校内统考机制实现教考分离J. 中国科教创新导刊,2010(28):9-10.6 漆书青,戴海琦,丁树良. 现代教育与心理测量学原理Z. 北京:高等教育出版社,2002239-242.7 张倩倩. IRT在现代教育技术题库构建中的应用D. 山东师范大学,

29、2011.8 刘启亮,孔外平. 谈谈心理与教育测量理论的发展J. 重庆科技学院学报(社会科学版),2008(2):195-197.9 韩耀风,郝元涛,方积乾. 项目反应理论及其在生存质量研究中的应用J. 中国卫生统计,2006(6):562-565.10 Fan X. Item response theory and classical test theory: An empirical comparison of their item/person statistics.J. Educational and Psychological Measurement,1998,58 (3):357-

30、381.11 Hambleton R K, Swaminathan H, Flay B R. Application of Item Response Theory Models for Intensive Longitudinal DataM. New York:Oxford University Press.,2006.84-108.12 Swaminathan H, Rogers H J, Hambleton R K. Fundamentals of item response theoryM. Newbury Park, Calif.:Sage Publications,1991.17

31、4.13 Tutz G. Sequential item response models with an ordered responseJ. British Journal of Mathematical and Statistical Psychology,1990,43(1):39-55.14 姚定康,梅长林,周全,等. 关于项目反应理论试题参数的估计J. 教育发展研究,2004(6):101-103.15 刘丽平,王文杰,郭世宁. 计算机自适应考试(CAT)系统题库的设计与实现J. 计算机系统应用,2006(3):10-12.16 田雨. 高等教育试题库建设及图学类试题库发展概况J.

32、工程图学学报,2000(4):139-143.17 :/baike.baidu /view/1223973.htmZ.18 董跃武,黄凯东,勾学荣. 遗传算法与试题库自动组卷J. 中国远程教育,2002(8):57-60.19 杜鹏东,田振清. 基于IRT指导的组卷策略的遗传算法设计与实现J. 内蒙古师范大学学报(自然科学汉文版),2007(2):164-167.20 张彦. 遗传算法在计算机辅助考试系统自动组卷中的应用D. 太原理工大学,2006.21 方长福,詹沐清. 基于IRT理论的CAT系统的研究J. 科技信息,2009(24):79-80.22 刘丽平,王文杰,郭世宁. 计算机自适应

33、考试(CAT)系统题库的设计与实现J. 计算机系统应用,2006(3):10-12.三、项目实施方案及实施计划1.具体改革内容、改革目标和拟解决的关键问题改革内容(1)应用项目反应理论科学评价医学统计学试题的各试题参数,如难度、区分度、猜测度。(2)制定严格的试题筛选标准,选择优秀的试题进入试题库。(3)采用计算机及网络技术建立基于遗传算法的自动组卷系统,实现计算机自适应考试系统。(4)通过自动组卷系统和计算机自适应系统科学测试学生的能力,及时反馈教学过程中存在的问题。(5)动态维护、及时更新医学统计学标准化试题库。改革目标(1)建立基于现代测量理论(IRT)的医学统计学标准化试题库,题库可应

34、用于不同专业(临床医学、预防医学)、不同层次(专科、本科、研究生)的考生。(2)建立自动组卷系统和计算机自适应考试系统,并通过两种系统科学评价学生的真实能力,及时反映教学质量。拟解决的关键问题(1)在估计试题参数的过程中,对不同的题型应该采用何种项目反应理论模型来进行拟合;(2)试题参数估计出来以后,采用何种方法、何种软件进行拟合优度检验;(3)如何制定完备的试题筛选标准;(4)如何根据遗传算法实现自动组卷系统。(5)如何实现计算机自适应考试系统。2.实施方案、实施方法、具体实施计划(含年度进展情况)及可行性分析实施方案、实施方法、具体实施计划本研究主要分为四个阶段,第一阶段是试题开发与施测阶

35、段,第二阶段是医学统计学试题参数的估计阶段,第三阶段是试题库的建立和维护阶段,第四阶段是建立基于遗传算法的自动组卷系统和计算机自适应考试系统阶段及实测阶段。(1)试题开发与施测(2013.01-2013.06)搜集各大院校以及市面上出售的医学统计学试题,或由专家编制新的试题,然后将这些试题组成不同的试卷,并对不同的考生进行施测。为了使不同试卷中的试题参数水平得以比较、促进试题题库的发展,在组成不同试卷的过程中,采用定锚测验设计的方法将不同的测验进行衔接,以便于将多份测验的试题参数估计值,放置在一个共同的量尺上。经定锚测验设计后组成的不同试卷(供20份试卷)中存在一部分共同试题,即定锚试题(其数

36、目大约是测验试题数的20%到25%之间),而试卷中其他部分的试题是不同的。然后将这些含有部分共同试题的不同试卷给予不同的考生进行施测。为了保证试题参数估计值的精确性,解答每一份试卷的考生数量应足够大(如:在采用项目反应理论中的单维三参数logistic模型进行分析时,考生数量至少为1000时,试题参数的估计值才可靠)。(2)试题参数估计(2013.07-2013.12)对数据进行分析时,应选择合适的模型,且必须满足模型应用的前提条件(如单维性、局部独立性等)。1.对单项选择题,其反应数据为二元化计分形式,采用项目反应理论中的单维三参数logistic模型(3 Parameter Logisti

37、c Model,3PLM)进行处理,其表达式如下: (1)其中表示考生能力估计值;表示第i题的区分度系数;表示第i题的难度系数;表示第i题的猜测度系数;D表示标化因子,一般取D=1.702;Pi()表示能力为的考生答对此题目的概率。2. 对于简答题和计算分析题,将原始分数进行转化后,反应数据变换为多元计分形式,此时,可采用项目反应理论中的等级反应模型(Graded Response Model,GRM)。GRM假设每一个反应类别各自对应一条特征曲线,如果对某试题i而言,被试的反应可以划分为k+1类,其得分可以表示如下:Xi=0,1,k,那么被试在该试题上恰好得某一等级k分的概率可表示如下: (

38、2)公式(2)中,Pi,k()表示对于试题i而言,能力值为的被试恰好得k分的概率;表示对于试题i而言,能力值为的被试得k分以及k分以上的概率,表示对于试题i而言,能力值为的被试得k+1分以及k+1分以上的概率。其中按双参数logistic模型可以写为: (3)公式(3)中,、ai、D的含义与公式(1)相同,bi,k表示第i题第k个等级的难度系数。采用以上两个模型进行试题参数估计时,均采用边际极大似然估计(Marginal Maximum Likelihood)法。若以表示能力为的考生对题目i的反应(答对1,答错0)的概率,其对数似然函数表示为: (4)其中n为题目数,表示考生答对第i题的概率,

39、表示考生答错第i题的概率。当各参数的偏导数为0时函数取得最大值,分别求得每一个题目相应的各试题参数值。3. 试题参数拟合优度检验调用SAS9.1软件中的宏语句IRT-FIT对每一道单选题进行拟合优度检验,以Pearson 检验的与似然比检验的两个常用的拟合指标检验试题与理论模型的拟合情况。两指标的计算公式如下:, (5), (6)以上两公式中,表示题号,为考生作答第题时选择的答案类别(),表示考生的总分,为总分为分考生总人数,为作答第题时选择的答案类别为且总分为分的考生的实际人数,为作答第题时选择的答案类别为且总分为分的考生的期望人数。(3)试题库的建立与维护(2014.01-2014.05)

40、 = 1 * ROMAN I. 试题库的建立:在建立试题库的过程中,不是任意一道试题都能入库,只有经过严格筛选,性能优良的试题才能存放在试题库中。在筛选试题以决定哪些试题可以入库时,不能仅以试题参数取值是否符合一定范围作为能否进入试题库的唯一标准,需同时考虑拟合效果、试题是否重复以及任课教师的专业意见。我们将从以下四方面对试题进行筛选:(1)数据与模型的拟合效果考察每一道试题的拟合情况,以与为指标,将、与事先规定的检验水准进行比较,挑选出同时在两种指标下拟合效果良好的试题,初步考虑其能否进入试题库。(2)试题参数的取值大小得到每一道试题的试题参数估计之后,首先对含有锚试题的不同试卷中的试题参数

41、进行等化,使所有试题参数均在同一量尺上。此外,试题各项参数应在一定范围内才能保证其优良性。如试题难度过大或过小,会使分数呈偏态分布,从而使考试的信度系数值降低,因此,选取难度位于-4.0,4.0范围内的试题进入试题库。区分度越大的题目,表明对学业水平不同的考生的鉴别力或区分能力越强。通常,教学过程结束后进行的考试,是以考察考生对知识掌握情况为目的的,因此,区分度不应过大,选取区分度位于0.0,3.0范围内的试题进入试题库。此外,试题的猜测度也不应太大,猜测度系数过大的试题对于考察学生对知识的掌握意义不大,我们将猜测度位于0.0,0.2(每道单选题有五个选项)范围内的试题选入试题库。(3)试题是

42、否相同由于在历年考试试卷中可能存在相同的试题,因此,挑选出拟合优良、试题各参数在规定范围内的试题以后,还应查看这些试题是否具有唯一性,即是否有相同的试题存在,若存在,则应删除相同的试题,最后只保留一道参数估计标准误最小的该试题即可。(4)统计教师专业意见经过以上三层筛选,已初步提取了候选试题,最后,还要考虑统计教师的专业意见。邀请8-10位任课教师独立地逐一对初步筛选的试题进行审核,以判断每道试题知识点划分是否准确、所属认知层次划分是否准确等,经全部任课教师认可的试题方能最终进入试题库。经以上四步筛选出了最终能够入库的优秀试题,并利用这些试题建立试题库。除了将试题参数录入试题库外,各个试题还应

43、包括试题编号、题型、知识点、认知层次、参考答案、分值以及答题时间。试题编号为抽题时提供选择标志,可以表示为1, 2, 3。试题题型表明试题所属类型:A表示单项选择题、B表示简答题、C表示综合分析题。知识点即某道试题属于哪个知识点。认知层次指知识点所考察的能力层次,包括掌握(以“Z”表示)、熟悉(以“S”表示)、了解(以“L”表示)3个层次。参考答案用于存储题目的评分答案。分值即表示每道试题的分值。答题时间指考生解答每一道题所用的最长时间。 = 2 * ROMAN II. 试题库的维护:由专门的题库管理员管理试题库,试题库不是一成不变的,试题库应不断更新。测试过程中,如题库管理员发现有某些试题已

44、不适合用于测试(考察的内容已不再符合教学大纲要求,知识点已经更新等),应及时与任课教师讨论,如一致认为不适合,则应把此种试题剔除试题库。自动组卷系统试题库在增加新的试题时,需由出题教师事先根据教学经验评估出试题的各项参数,包括题型、难度、区分度、猜测度等。试题经由出题小组认可后才能增加进入试题。自适应考试的试题库分为测试子库和试测子库,测试子库储存用于测试的试题,而经讨论新增的题目,则应存放在试题库内的试测子库中。采用样本试测的方法来估计试题参数,即在考试时同样也抽取试测子库的试题用于试测,由于在考试时,考生不知道这些题目的作答不会影响成绩,同样也会认真作答。当试测子库的试题已经经过400次试

45、测后,则可根据这400次试测的数据,使用IRT相应模型,采用最大边缘似然估计来估计试测试题的各项参数,得到试题参数后,试测试题就可以进入测试子库,用于正式考试。(4)自动组卷系统和计算机自适应考试系统的建立及施测(2014.6-2014.12) = 1 * ROMAN I. 自动组卷系统的建立:自动组卷系统建立是一个目标函数和一组约束条件的组合优化问题。首先需给出多个约束条件,包括试题类型比例、难度、区分度、猜测度、知识掌握程度比例、试卷总分以及考试时间共七个约束条件。这七个约束条件决定了一个n*7的矩阵S: 矩阵S的列元素分别满足用户对试卷的要求。本研究设定试卷指标f综合反映这7个指标与用户

46、要求的误差,由于不同指标的重要程度不同,故整个试卷的误差指标即为这7个指标的误差加权和,用下式来表示: (7)其中表示第i个指标与用户要求的误差绝对值,表示第i个指标的权重。基于矩阵编码的遗传算法,通过适应度函数以及三种遗传算子(选择算子、交叉算子和选择算子)来进行搜索试题,最终实现自动组卷。组卷就是从题库中抽取试题,使整个试卷指标f最小。 = 2 * ROMAN II. 计算机自适应考试系统的建立:首先是探索学生的初始能力,以取得学生的能力初值。考生通过计算机客户端登陆考试系统,系统从题库中抽取中等难度的试题,考生开始测试,系统根据考生对试题的反应抽取下一道试题,若考生能正确回答,则抽取难度

47、更加大的试题予以测试;若考生不能正确回答,则抽取难度相对较小的试题,直到考生既有答对的题目又有答错的题目时,就可以初步估计考生的能力值。在估计出考生的能力初始值后,系统针对初始能力从题库中抽取难度最适当、信息量最大的题目进行测试,并不断估计能力值。当估计出的能力值趋于稳定,达到一定测量精度为止,从而对考生的真实能力做出准确的评价。 抽题策略:不断从试题库中抽取与考生能力相适应的题目是正确估计真实能力的前提,本研究采用的是IRT最大信息函数来确定所选择的题目。用表示信息函数,它表示了题目参数和考生能力的关系。 (8)其中表示考生能力估计值,表示第i题的区分度系数,表示第i题的难度系数,表示第i题

48、的猜测度系数,D表示标化因子。对于不同能力的考生,题目有不同的信息量,信息量最大时所对应的能力值是最适合采用此题目测试的考生的能力值。系统根据前面推断的考生能力,自动搜寻相应信息量最大的题目进行测试,直到前后两次估计出的考生能力值之差小于某一定数值。 能力估计:正确估计考生的能力是计算机自适应考试的最终目的。本研究采用极大似然法来估计考生的能力。以表示能力为的考生对题目i的反应(答对1,答错0)的概率。通过一个似然函数来表示:其中n为题目数,表示考生答对第i题的概率,表示考生答错第i题的概率。对每一个向量求出相应的值,当然函数取最大值时得到的估计值。可行性分析:(1)成立了专门的指导小组、领导

49、小组,并有资深医学统计学教师、计算机技术人员的协助。(2)有Epidata 3.1、MULTILOG 7.03、SAS 9.1等多种软件系统的支持,硬件设施也齐全完备,教研室有大型并行计算机一台,拥有独立计算机房,配有多台电脑,以便于资料查询、数据录入与结果分析。(3)实施科学的课题管理制度,每周召开课题研究分析会,及时发现解决课题研究中遇到的问题。(4)查阅了大量相关文献,积累了丰富的的相关知识,初步探索了标准化试题库建立的方法、自动组卷系统的实现方法,并且对于计算机自适应系统有一定程度的了解,能够完成课题研究的各种工作。技术路线图:整理考生反应组型,录入数据基于MMLE,采用IRT单维三参

50、数logistic模型对单选题进行参数估计,应用等级反应模型对简答题和计算分析题进行参数估计经四层筛选,选择优秀试题进入试题库由题库管理员管理题库并对其及时更新试题库管理和维护阶段抽取中等难度试题开始测试既有答对又有答错题目是否能力初始值估计选择信息量最大的试题进行测试满足终止条件结束测试是否计算机自适应考试系统建立及施测阶段建立约束条件矩阵基于遗传算法,通过适应度函数以及三种遗传算子搜索试题从题库中抽取试题,使整份试卷指标f最小自动组卷施 测自动组卷及施测阶段试题参数估计阶段试题开发与施测阶段搜集、编制试题,将通过定锚测验设计的试卷对考生施测3.项目预期的成果和效果(包括成果形式,预期推广、

51、应用范围、受益面等)(1)建立医学统计学标准化试题库。(2)建立基于遗传算法的自动组卷系统。(3)实现医学统计学计算机自适应考试系统。(4)发表论文2-3篇。 医学统计学试题库以Excel形式进行存储,方便易行,便于试题的增加或删除等操作。自动组卷系统与计算机自适应考试系统都由相应的程序运行实现,可向全国范围内医学院校进行推广和应用,以协助其按照不同目的要求自动生成试卷、并能针对个别的考生进行实测。本研究成果将进一步丰富国家级精品课程一医学统计学的内容,巩固其在国内外教学的领先地位。4.本项目的特色与创新之处(1)率先应用现代测量理论对试题参数进行估计,修正了经典测量理论用于参数估计时的缺陷,

52、并以此为理论基础构建医学统计学标准化试题库。(2)首次将自动组卷系统和计算机自适应考试系统应用于医学统计学的考试中,有助于减轻学生对考试的心理负担,准确评价学生能力,正确反映教学质量。四、教学改革基础1.与本项目有关的教学改革工作积累和已取得的教学改革工作成绩(1)查阅了大量国内外文献,对研究背景有足够的了解。(2)对二元计分形式的数据进行了初步探索与分析,并能够选择合适的方法进行拟合优度检验。(3)掌握了遗传算法的实现步骤,初步实现了基于遗传算法的自动组卷系统。能够根据用户要求基本实现自动组卷,为今后进一步完善自动组卷系统的功能打下了坚实的理论和实践基础。(4)熟悉计算机自适应系统的原理。2.学校已具备的教学改革基础和环境,学校对项目的支持情况(含有关政策、经费及其使用管理机制、保障条件等,可附有关文件),尚缺少的条件和拟解决的途径。学校已具备的教学改革基础和环境:(1)成立了专门的指导小组、领导小组,并有资深优秀的医学统计学教师、计算机技术

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论