（应用数学专业论文）数据挖掘技术在选择题难度预测系统构建中的应用.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-06 格式：PDF 页数：48 大小：1.07MB 积分：18 举报 版权申诉

（应用数学专业论文）数据挖掘技术在选择题难度预测系统构建中的应用.pdf_第2页

（应用数学专业论文）数据挖掘技术在选择题难度预测系统构建中的应用.pdf_第3页

（应用数学专业论文）数据挖掘技术在选择题难度预测系统构建中的应用.pdf_第4页

（应用数学专业论文）数据挖掘技术在选择题难度预测系统构建中的应用.pdf_第5页

已阅读5页，还剩43页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

中文摘要现行选择题已经实现计算机机器阅卷，但选择题的难度预测还主要靠命题专家凭经验推断，其预测结果往往准确度不够而且还带有个人主观色彩。近年来数据挖掘技术在商业、金融、企业管理等领域成功应用并取得实质性成果，但是在教育领域的应用才刚刚起步。本文尝试运用数据挖掘技术和人工智能思想来构建选择题难度预测的计算机软件系统。本文先介绍了现行选择题难度测量及表示方法，提出了选择题难度由题目本身的客观因素和考生的主观因素决定。题目本身的客观因素又包括三个属性值：题型难度系数、知识点难度系数和迷惑项干扰性。考生的主观因素主要包括对知识的掌握程度和对迷惑项的抗干扰能力。作者给出了选择题难度预测系统的体系结构。它主要由三部分组成：主观因素分析子系统、客观因素分析子系统、汇总输出。主观因素分析子系统，由w e b 题库、在线答题系统、答题情况分析系统组成。客观因素分析子系统，由题型系数分析模块、知识点难度分析子系统、迷惑项干扰性判断程序组成。在客观性因素子系统中，作者介绍了决策树技术并把它应用于选择题题型归类中。介绍了人工智能中的知识库理论并用于建立考题难度数据库和知识点关联性继承图。给出了知识点分析及难度计算程序的算法步骤，提出了层次权重方法来计算综合型或计算型的知识点难度系数。接着又给出了迷惑项干扰性因素的表示方法及判断程序的算法，简介了模糊数学理论，并用其中的模糊评价原理来汇总客观性因素的三属性( 题型难度、知识点难度、迷惑项干扰性) 。互联网的发展，w e b 题库和远程在线答题系统技术的成熟，使我们采集到更多考生主观性因素的数据成为可能。因此在主观性因素分析子系统的构建过程中，原先的普通测试方法( 出好样卷，选择地区和学校的学生进行测试，再试卷答题情况统计分析) ，现在可以借助于网络进行。因此主观性因素分析子系统可以建立在w e b 题库和在线考试系统之上。在主观性因素分析子系统中，着重论述了考生答题情况分析子系统的构建。通过与传统试卷分析系统的比较，提出数据挖掘技术在考生答题情况分析系统中的应用方法。给出了对考生知识掌握程度的挖掘统计算法和怎样表示考生做选择题时的抗干扰能力。对于选择题难度预测总系统的输出，作者采用标准样本表对照来确定选择题难度的最终值。关键词：题型难度，知识点难度，迷惑项干扰性决策树，模糊评价 n o w a d a y sc o m p u t e r m a c h i n e s y s t e m h a sb e e na p p l i e d i n e x a m i n g c h o i c e t e s t p a p e r h o w e v e r , f o r e c a s t i n g t h e d i f f i c u l t yo f c h o i c et e s ti s a r t i f i c i a l d a t am i n i n gt e c h n o l o g yh a sb e e nw i d e l ya p p l i e di nt h ef i e l d so f m e r c h a n d i z ef i n a n c ea n de n t e r p r i s em a n g e m e n t t h e r ea r el o t so f a c h i e v e m e n t sw h i c hh a v eb e e n g o t t h e a p p l i c a t i o n o fd a t a m i n i n g i ne d u c a t i o ni sj u s tb e g a n t h et h e s i s t r y t oa p p l yt h e d a t am i n i n gi nf o r e c a s t i n gt h ed i f f i c u l t yo fc h o i c et e s t p a p e r t h et h e s i si n t r o d u c et h em e a s u r em e h t o d so fc h o i c e r e s t s d i f f i c u l t y t h ed i f f i c u l t yo fc h o i c e t e s ti sb a s eo nt w of a c t o r s ( o b j e c t a n ds u b j e c t ) t h eo b j e c tf a c t o ri sc o m p o s e db yt h et y p eo f c h o i c e t e s tq u e s t i o n , d i f f i c u l t yo fk n o l e d g ep o i n t sa n dt r a p s t h es u b j e c t f a c t o rr e f e r st o s t u d e n t s su n d e r s t a n d i n ga n dr e s i s t a n c eo ft r a pw h e n c h o i c et h er i g h ta n s w e r t h ec h o i c et e s t sd i f f c u l t y f o r e c a s t i n gs y s t e m i sm a d eu po f t w os u b s y s t e m o n ei s o b j e c t f a c t o r s a n a l y s i n gs u b s y s t e m a n o t h e ri s s u b j e c t f a c t o r s a n a l y s i n gs u b s y s t e m t h e o b j e c t f a c t o r sa n a l y s i n gs u b s y s t e mi n c l u d e st h r e em o d u l e s ( c h o i c e t e s tq u e s t i o nc l a s s i n g ， k n o w l e d g ed i f f c u l t ya n a l y z i n g ， a n a l y z i n g t h et r a p si nc h o i c ei t e m s ) m t h e o b j e c t f a c t o r sa n a l y s i n g s u b s y s t e m i sb a s e do nw e b t e s tw a r e h o u s e ，o n l i n et e s ts y s t e ma n ds t u d e n t sa n s w e rp a p e r a n a l y s i n gs y s t e m m a n y d a t am i n i n gt e c h n o l o g i e sh a v eb e e na p p l i e do nc o n s t r c t i n g t h e s y s t e m s u c ha s d e c i s i o n - m a k i n g t r e ea n d f u z z y e v a l u a t i o n k e yw o r d s ： t y p e o fc h o i c et e s t q u e s t i o n ，d i f f i c u l t yo f k n o l e d g ep o i n t s ， d e c i s i o n - m a k i n gt r e e ，f u z z ye v a l u a t i o n , t r a p s i nc h o i c e i t e m s ，浙江师范大学学位论文诚信承诺书我承诺自觉遵守浙江师范大学研究生学术道德规范管理条例。我的学位论文中凡引用他人已经发表或未发表的成果、数据、观点等，均已明确注明并详细列出有关文献的名称、作者、年份、刊物名称和出版文献的出版机构、出版地和版次等内容。论文中未注明的内容为本人的研究成果。如有违反，本人接受处罚并承担一切责任。承诺人( 研究生) ：指导教j ) i l i - 学位论文独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。论文中除了特别加以标注和致谢的地方外，不包含其他人或其他机构已经发表或撰写过的研究成果。其他同志对本研究的启发和所做的贡献均己在论文中作了明确的声明并表示了谢意。研究生签名：日期：学位论文使用授权声明本人完全了解浙江师范大学有关保留、使用学位论文的规定，即：学校有权保留送交论文的复印件和电子文档，允许论文被查阅和借阅，可以采用影印、缩印或扫描等手段保存、汇编学位论文。同意浙江师范大学可以用不同方式在不同媒体上发表、传播论文的全部或部分内容。保密的学位论文在解密后遵守此协议。研究生签名：导师签名：日期浙江师范大学硕士论文第一章选择题难度相关的背景知识 1 1 选择题题型简介选择题由题干、题支组成。题干就是问题所在，题支是答案选项。选择题基本的题型为一个题干、四个备选答案选项，正确答案只有一项的单项选择题。在单项选择题基础上，答案选项数目增加，正确答案数目也增加，当正确答案项数在两个或两个以上时，我们就称之为多项选择题。当题目没有明确告诉，正确答案为一项或多项时，我们就称之为不定项选择题。对选择题的起源没有人做过专门考究。它是一种现代题型，笔者认为是先有判断题和填空题再有选择题的。判断题有两种选择，即对与错。填空题的答案范围太大，而且没有任何提示。要比判断题选择范围大一点，比填空题的答案范围小一点，并给予一定的提示。于是，就出现了选择题。选择题由国外发明，在七十年代末传入我国，八十年代开始在考试中推广使用。由于批改方便，随着标准化考试的兴起，而大量使用。英语学科率先引进选择题，而且选择题占试卷比重快速加大，高达7o 以上。随后英语学科中又率先推出计算机光电阅卷系统。接着其他学科的也推广使用选择题，选择题占试卷的比例也逐年提高。近年来，各门学科才根据自己的学科特点确定了选择题占试卷的比例，不再增加和减少 1 2 选择题特点选择题的最大特点，就是由于答案唯一，答题和批改的客观性都很强，所以又被称为客观性试题。相对填空题，它有答案项的提示和选择范围，所以从某种角度看难度降低了。但对考查概念内容的选择题，由于迷惑项的存在，使概念不清者，答题时，更容易误入“陷阱”。所以从这个角度看，选择题多也不一定就降低了整份试卷的难度。但是选择题的答卷上毕竟只显示的是最终选项，无法反映出答题的思考过程，不能排除也无法避免考生猜做答案的情况。对单项选择题的答题，理论上猜对的概率也有25 。 1 3 题目难度及常见测量理论题目难度是反映试题特征的一项重要指标。题目难度顾名思义就是题目的难易程度，反映题目难易程度的指标称为题目的难度系数，有时简称为题目难度。浙江师范大学硕士论文根据测量理论的不同，计算难度系数的方法也不同，我们常见的难度系数主要有题目正确作答率、难度和利用题目反应理论估计题目难度等。 1 ) 经典测量理论( c 1 邯经典测量理论是通过试题的得分率或答对率作为难度定义的，又称为题目的正确作答率。在每次考试以后，为了了解考生对试题的作答情况，需要进行试题分析，其中一项重要内容就是统计本次考试中每一道题有多少考生做对，有多少考生做错，或者算平均得分情况。在一次考试中平均得分高的试题就较易，平均得分低的试题就较难。为了对各题难易程度进行比较，在题目分析中一般就用题目的得分率或题目的答对率作为比较题目难度的依据，这也就是经典测量理论中题目难度定义。我们用p + 表示题目难度，则p + = r n ，其中r 是考生在该题上的平均得分， n 是该题的满分。o p + l 。其难度值的范围在o l 之间，难度值愈大，表明题目的得分率愈高，试题愈容易，反之，难度值愈小，表明题目的得分率愈低，试题愈难。这种难度表示方法其优点是意义直观，便于理解，在命题中便于专家控制，在题目分析中，可比较直观地反映各种类型试题得分情况和题目难易程度。其缺点是题目的难度系数与考生样本水平直接相关，考生群体变化、题目的难度系数变化，难以实现在题目参数的等值。 2 ) 难度题目难度是与考生水平有关的，是难以实现等值的。为了实现题目难度的等值，美国e t s 的做法是将其转化到d e l t a 量表( ) ，( 又称为难度) 。难度与p + 的关系是：= 1 3 - - 4 d p 一- ( p + ) 中，( x ) 是标准正态分布函数，- ( x ) 是其反函数。难度是将正确答对率难度转化为标准难度。难度可以实现等值，具体方法是从题库中选取r n 道试题( 其难度分别记为ae 1 ，ae 2 ，ae 。) 和新的试题构成新的试卷，经测试后，计算出这m 道试题的难度( 分别记为1 ，2 ，a m ) ，由此求出两者的回归直线方程：e - - aa + b 。将其它试题的难度带入此公式中，即可得到这些试题的等值的难度，并放入题库中。 3 )项目反应理论( m d 中题目难度项目反应理论认为：能力水平为0 的考生群体正确作答难度为b ，区分度为 a ，猜测参数为c 的o l 记分的选择题的概率p ( 0 ) 可以用逻辑斯蒂l o g i s t i c 数学模型表示。即 2 浙江师范大学硕士论文 p ( 0 ) 2c + ( 1 一c ) e m 0b l + e m eb 这个模型称为三参数逻辑斯蒂模型，假定c 为零时，此模型称为两参数逻辑斯蒂模型；假定c 为零，且a 为常数时，称为单参数逻辑斯蒂模型，又称r a s h 模型。在项目反应理论中核心的参数有两个一个是能力参数e ，一个是题目难度参数b 。题目难度的直观意义是：答对概率为p ( 0 ) ( 若c = o ，则答对概率为的考生群体的能力，就是该题的难度。根据数学模型的定义，能力参数0 和题目难度参数b 定义在同一量衷上，且难度参数与考生样本无关。中难度参数不是通过比率( 或概率) 定义的，而是通过具有某种要求的考生能力定义的，如果一道题很难，要求答对概率达到的p ( 0 ) 考生群体的能力就越高，则题目的难度就越大。项目反应理论提出了题目信息量和测验信息量的概念，测验信息量是各题信息量之和，各题的信息量与题目难度有直接的关系当题目难度与考生能力水平接近时题目的信息量最大。浙江师范大学硕士论文第二章数据挖掘技术概论当全球向信息化社会迈进之际，人类利用信息技术收集、加工、组织、生产信息的能力也大大提高，致使数以万计的各种类型的数据库诞生，它们在科学研究、技术开发、生产管理、市场扩张、商业运营、政府办公等方面发挥着巨大的作用。然而，随着信息量的不断增多，特别是网络信息资源的迅猛扩张，人类面l 缶着新的挑战。如何不被堆积如山的信息所淹没? 如何能够迅速地从海量的数据中获取有用的信息? 如何能够充分提高信息的利用率? 数据挖掘技术应运而生，在上述问题的解决中显示出强大的生命力。 2 1 数据挖掘的概念 1 ) 技术上的定义数据挖掘( d a t a m i n i n 蓟一词最初出现于1 9 8 9 年8 月举行的第1 届国际联合人工智能学术会议上。人们提出了多种数据挖掘的定义，目前比较公认的定义是 w j f r a w l e y , g p i a t e t s k y s h a p i r o 等人提出的：数据挖掘，就是从大型数据库的数据中提取人们感兴趣的知识。这些知识是隐含的、事先未知的、潜在有用的信息，提取的知识表示为概念、规则、模式和规律等形式。我们认为数据挖掘是知识发现过程中最根本的一个步骤，它更强调其对象是大规模的数据集合，而不论这些数据以何种方式存储和管理。原始数据可以是结构化的，如关系数据库中的数据；也可以是半结构化的，如文本、图形和图像数据：甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的，也可以是非数学的：可以是演绎的，也可以是归纳的。发现的知识可以被用于信息管理，查询优化，决策支持和过程控制等，还可以用于数据自身的维护口因此，对数据挖掘的更为广泛的定义是：数据挖掘，就是从大规模数据中发现有价值的知识的过程，这些数据存储在数据库、数据仓库或其他的信息存储介质中。 2 ) 商业角度的定义数据挖掘是一种新的商业信息处理技术，其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理，从中提取辅助商业决策的关键性数据。数据挖掘可以描述为：按企业既定业务目标，对大量的企业数据进行探索和分析，揭示隐藏的、未知的或验证已知的规律性，并进一步将其模型化的先进有效的方法。 4 浙江师范大学硕士论文 2 2 数据挖掘的分类通常数据挖掘分为两种类型的知识发现：“验证驱动型”和“发现驱动型”。。验证型驱动”是指用户首先提出自己的假设，然后利用各种工具通过反复的、递归的检索查询以验证或否定自己的假设。 “发现驱动型”是指通过使用机器学习( m a c h i n e - l e a r n i n g ) ，统计和数据可视化等技术来发现新的假设。这些技术对发现新的知识起到相当重要的和积极的作用。但是这个流程不完全是自动的，仍然要分析人员在知识发现流程中的参与。它又包括描述型和预测型两大类。一般我们说的数据挖掘技术主要是发现驱动型的。 2 。3 数据挖掘的功能一般而言，数据挖掘的功能与挖掘的目标数据类型是相关的。某些功能只能应用在某种特定的数据类型上，而某些功能则可以应用在多个不同类型的数据库上对于数据挖掘任务的确定，必须综合考虑数据挖掘功能、要挖掘的数据类型和用户的兴趣。数据挖掘的功能主要包括以下几个方面：自动预测趋势和行为、关联分析、分类与聚类、概念描述、偏差检测。数据挖掘功能一般可以分为描述和预测两类。描述性挖掘分析主要用来刻画数据集合的一般特性：预测性挖掘则是根据当前数据进行分析推算，从而达到预测的目的。 1 ) 自动预测趋势和行为数据挖掘自动在大型数据库中寻找预测性信息，以往需要迸行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题，数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户，其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。 2 ) 关联分析关联分析就是从大量的数据中发现项集之间有趣的关联、相关关系或因果结构以及项集的频繁模式。数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个交量韵取值之间存在某稀规律性，就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数，即使知道也是不确定的，因此关联分析生成的规则带有可信度。浙江师范大学硕士论文 3 ) 分类与聚类分类是按照分析对象的属性、特征，建立不同的组类来描述事物。例如：银行部门根据以前的数据将客户分成了不同的类别，现在就可以根据这些来区分新申请贷款的客户，以采取相应的贷款方案。聚类是识别出分析对内在的规则，按照这些规则把对象分成若干类。聚类是一种特殊的分类，与分类不同的是聚类是在预先不知道欲划分类的情况下，根据信息相似度原则进行信息集聚的一种方法。聚类增强了人们对客观现实的认识，是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。 4 ) 概念描述概念描述就是对某类对象的内涵进行描述，并概括这类对象的有关特征。这种描述是汇总的、简洁的和精确的，也是非常有用的知识。例如：关系数据库中的一个关系( 即一个表) 代表了一个对象集，其中的每个元组可以看作是一个对象，每个对象有一个唯一标识和数个属性值。在一个或一组属性上取值相同的对象构成一个对象类。概念描述分为特征性描述和区别性描述，前者描述某类对象的共同特征，后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多，如决策树方法、遗传算法等。 5 ) 偏差检测偏差检测就是对数据库中的偏差数据进行检测和分析。数据库中的数据常有一些异常记录，它们与其他数据的一般行为或模型不一致。这些数据记录就是偏差，或叫孤立点。从数据库中检测这些偏差很有意义的，例如在欺诈探测中，偏差可能预示着欺诈行为。偏差包括很多潜在的知识，如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是，寻找观测结果与参照值之间有意义的差别特别要指出的是，数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用，而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理，以指导实际问题的求解，试图发现事件问的相互关联，甚至利用己有的数据对未来的活动进行预测。 2 4 数据挖掘与传统分析方法的区别数据挖掘与传统的数据分析( 如查询、报表、联机应用分析) 的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识数据挖掘所得到的信息应具有先未知，有效和可实用三个特征。 6 浙江师范大学硕士论文先前未知的信息是指该信息是预先未曾预料到的，既数据挖掘是要发现那些不能靠直觉发现的信息或知识，甚至是违背直觉的信息或知识，挖掘出的信息越是出乎意料，就可能越有价值在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系 2 5 数据挖掘与机器学习和统计数据挖掘利用了人工智能( a 1 ) 和统计分析的进步所带来的好处。这两门学科都致力于模式发现和预测数据挖掘不是为了完全替代传统的统计分析技术。相反，他是统计分析方法学的延伸和扩展。大多数的统计分析技术都基于完善的数学理论和高超的技巧，预测的准确度还是令人满意的，但对使用者的要求很高。而随着计算机计算能力的不断增强，我们有可能利用计算机强大的计算能力只通过楣对简单和固定的方法完成同样的功能。一些新兴的技术同样在知识发现领域取得了很好的效果，如神经元网络和决策树，在足够多的数据和计算能力下，他们几乎不用入的关照自动就能完成许多有价值的功能。数据挖掘就是利用了统计和人工智能技术的应用程序，他把这些高深复杂的技术封装起来，使人们不用自己掌握这些技术也能完成同样的功能，并且更专注于自己所要解决的问题。。 2 6 数据挖掘研究的发展史从数据库中发现知识( k d d ) 一词首次出现在1 9 8 9 年举行的第十一届国际联合人工智能学术会议上。到目前为止，由美国人工智能协会主办的k d d 国际研讨会已经召开了8 次，规模由原来的专题讨论会发展到国际学术大会，研究重点也逐渐从发现方法转向系统应用，注重多种发现策略和技术的集成，以及多种学科之间的相互渗透。1 9 9 9 年，亚太地区在北京召开的第三届艄肋d 会议收到 1 5 8 篇论文，空前热烈i e e e 的k n o w l e d g ea n d d a t a e n g i n e e r i n g 会刊率先在1 9 9 3 年出版了k d d 技术专刊。并行计算、计算机网络和信息工程等其他领域的国际学会、学刊也把数据挖掘和知识发现列为专题和专刊讨论，甚至到了脍炙人口的程度。 2 7 国内研究现状与国外相比，国内对d l v l k d 的研究稍晚，没有形成整体力量。 1 ) 数据挖掘基础理论的研究情况： 1 9 9 3 年国家自然科学基金首次支持对该领域的研究项目。国内的许多科研 7 浙江师范大学硕士论文单位和高等院校竟相开展知识发现的基础理论及其应用研究，这些单位包括清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。其中，北京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究，北京大学也在开展对数据立方体代数的研究，华中理工大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学等单位开展了对关联规则开采算法的优化和改造：南京大学、四川联合大学和上海交通大学等单位探讨、研究了非结构化数据的知识发现以及w e b 数据挖掘。近年来，租糙集理论和神经元网络算法、遗传算法的改进成为研究热点。 2 ) 数据挖掘应用的研究情况：从早期的商业中o l a p ( 联机数据分析系统) ，到现在与企业信息管理系统相结合。如在c r m ( 客户关系管理系统) 中应用。金融业，股票价格预测模型中应用。医疗系统，医疗费用分析。交通，智能交通系统。近年来，在教育领域也有应用如远程教育个性化选课系统，教师教学评估系统，试题库智能组卷等。 2 8 国外研究现状近年，g a r t n e rg r o u p 的一次高级技术调查将数据挖掘和人工智能列为“未来三到五年内将对工业产生深远影响的五大关键技术”之首，并且还将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位。根据最近 g a r m e r 的h p c 研究表明，。随着数据捕获、传输和存储技术的快速发展，大型系统用户将更多地需要采用新技术来挖掘市场以外的价值，采用更为广阔的并行处理系统来创建新的商业增长点。” 2 9 出版物及工具此外，在i a t o m e t 上还有不少k d d 电子出版物，其中以半月刊k n o w l e d g e d i s c o v e r yn u g g e t s 最为权威( h t t p ：w w w k d n u g g e t s c o r n s u b s c r i b e h t m l ) 。在网上还有许多自由论坛，如d me m a i ic l u b 等。至于d m k d 书籍，可以在任意一家计算机书店找到十多本。目前，世界上比较有影响的典型数据挖掘系统有：s a s 公司的e n t e r p r i s em j n c f 、i b m 公司的i n t e l l i g e n ti t i n c r 、s g i 公司的s e t m i n e r 、 s p s s 公司的c l e m e n t i n e 、s y b a s e 公司的w a r e h o u s es t u d i o 、r u l c q u e s tr e s e a r c h 公司的s e e 5 、还有c o v e r s t o r y 、e x p l o r a 、k n o w l e d g ed i s c o v e r yw o r k b e n c h 、 d b m i n e r 、q u e s t 等。读者可以访问h t t p ：l l w w w d a t a m i n i n g l a b c o m 网站，该网站提供了许多数据挖掘系统和工具的性能测试报告。 8 浙江师范大学硕士论文第三章选择题难度预测系统简介 3 1 系统开发的必要性选择题是一种客观性试题。由于批改方便，评价客观在标准化考试中被大量使用。但是选择题难度的预测，多数还是靠命题专家的主观预测。现行的选择题难度预测方法主流是根据经典测试理论( c r r ) ，即用每道题答对率( 答对人数答题总人数) 或得分率( 平均得分该题满分) 来表示。因为选择题难度涉及太多因素。所以选择题难度预测一直是难点。决定考题难度的主要因素可分为两类即客观因素和主观因素。客观因素：题型难度，考查内容的广度、深度，知识点问的关联性，问题解决的复杂程度。主观因素主要是考生群体水平。现在对客观因素的预测，是由命题专家凭借多年的经验来估算对主观因素，是根据由于上一届学生考试后的答题情况分析，来推断这本届学生情况。不同地区的学生之间存在差异，同地区的每届学生情况也会有些差异。用上一届推断这本届，用局部地区的情况推断整个地区，这样的难度预测准确度肯定有偏差。因此当测试内容变动比较大时，大规模的考试通常会先出好样卷，选择几个地区的考生群体做普通测试。根据考后的试卷，统计每道题的得分率，来算出实际难度系数。但这样很花费人力、物力。选择题做为一种客观性试题，但它的难度预测还主要靠人的主观判断，难免使预测精确度下降，效率低下。现在选择题的阅卷已经实现计算机光电阅卷。计算机强大的数据处理应用于选择题难度预测是大势所趋。 3 2 系统开发的可行性计算机硬件进一步飞速发展，p c 机中出现c p u 双核技术，使计算机数据处理能力大大提高。双核c p u 正在品牌机中快速推广使用，随着产量的提升，使其价格不断下降。一些以前需要服务器才能处理的数据问题，现在用双核c p u 的计算机集群( - - 台以上计算机并行处理) ，完全能解决。另一方面互联网的带宽不断加宽，光纤接入费用也不断下降，软件方面：数据挖掘技术已日趋成熟，并且开始在教育领域中应用。已经取碍不少成果。如远程教育个性化选课，试题库智能组卷，教师教学模糊评价，部队新兵思想品德评定等等。人工智能决策问题成为研究的热点，已经有产品在企业管理中得以实现。选择题难度的计算机预测系统，就是用计算机代替命题专家来预测该选择题的难度。也算是一种人工智能决策系统。 9 浙江师范大学硕士论文 3 3 选择题难度预测系统的设计思路笔者认为选择题难度的确定因素，主要可分为主观因素和客观因素。主观因素，是指答题的考生的能力，水平和参加考试的心理素质决定。客观因素，是指选择题由题目本身，在题型、知识点难度及知识点关联性，迷惑项的干扰性等因素综合决定的。本系统的设计总体思路是，主要运用计算机人工智能决策技术来代替命题专家对选择题本身的客观因素的难度评估。即：输入一道选择题后，计算机能借助知识库，来自动分析出题型难度系数，和知识点难度，迷惑项的干扰性，然后运用模糊判断技术给出选择题的客观因素的难度等级。对主观因素，建立w e b 题库，把样卷放到互联网网页上，使得更多的学生能参与到在线样卷测试中。运用数据挖掘技术，对学生的在线答题结采迸行统计分析，分析出每道题的得分率，统计出学科各个章节在识记、理解、应用不同层次知识点的掌握情况，以及在迷惑性大的选择题答题中对迷惑项的抗干扰能力。最后，由软件系统综合汇总对客观因素和主观因素来预测出每道选择题的难度。 3 。4 该系统的适用范围对一些选拔性强的考试如各地的中考、高考，试题的难度对招生、录取工作的安排很重要的，建立该系统很有实用价值。对那些水平考试( 如全国大学英语四、六级考试，全国计算机等级考试等) ，每年难度要求稳定，并且考试内容相对稳定，考试的考纲对知识点能力要求说明很具体，样卷允许在网上公布的考试，也比较适合建立该系统。浙江师范大学硕士论文 3 5 系统的体系结构图浙江师范大学硕士论文第四章客观因素分析子系统的构建设计思想：该系统是代替命题专家，通过对输入的选择题的3 个客观属性( 题型系数、知识点难度、迷惑项干扰性) 的分析，评估出选择题客观性因素的难度等级。子系统组成：如下图牛一l 。由3 部分组成：题型系数分析模块、知识点难度分析子系统、迷惑项干扰性判断模块。削4 一l 4 1 题型难度系数模块的构建选择题的题型有单项选择题，多项选择题和不定项选择题。不同的学科对这三种题型各有偏好。如英语学科选择题用的最多，但它多数用的是单项选择题。高考的政治学科中会出现上述三种题型。英语中多项选择题，也不是标准的4 选2 ，4 选3 类型。而是用在选词填空中，一般是供选择的词的个数，比要填空的空格数略多。这样就很难制定统一的题型难度系数。每门学科应根据自身特点，制定好相应的题型难度系数。即要建立一个覆盖各学科的选择题题型系数表。然后让计算机对采集到的选择题，用数据挖掘中的决策树算法来归类，归到某一学科的某一类选择题型后。对各学科的选择题题型系数表进行搜索进而得到相应的题型系数。 1 2 浙江师范大学硕士论文 4 1 1 决策树技术概述 1 决策树的起源、定义及表示形式树是离散数学中的一种特殊的图，由节点和节点间的连线组成，因为整体形状象树。所以称为树状图。最高层次的节点称为根节点。最低层次的节点称为叶节点。树状图可以是二叉的，也可以是多叉的。决策树就是把树状图这种数据结构用于决策过程的模型。数据挖掘中决策树定义如下；一般来说，决策树是一个类似于流程图的树结构，其中每个节点表示在一个属性上的测试，每个分支代表一个测试输出，每个树叶节点代表类或类分布。决策树的最顶层节点是根节点。更明确地说，决策树通过根节点到叶节点的顺序对实例进行分类。其中，每个节点代表一个属性，每个分支代表它所连接的上节点在其属性上的可能取值。数据挖掘中的决策树通过对实例从根节点“行走”到某个叶子节点的过程来实现实例的分类，叶子节点即为实例所属的类。树上的每一个节点说明了对实侈8 的某个属佳的测试，并且该节点的每一个后继分支对应于该属性的一个可能值。决策树一般都是自上而下的来生成的。每个决策或事件( 即自然状态) 都可能引出两个或多个事件，导致不同的结果。从根到叶子节点都有一条路径，这条路径就是一条“分类规则”。如下图是一棵简单的决策树，用于判断选择题的题型分类。图4 2 2 决策树的核心问题建立决策树的目标是通过训练样本建立目标类变量关于各输入变量的分类预测模型，全面实现输入变量和目标变量在不同取值下的数据分组，进而川于新数据对象的分类和预测。当利用所建决策树对一个新数据对象进行分析时，决策树能够依据该数据输入变量的取值，推断出相应目标变量的分类或取值。 3 决策树处理数据的类型理论上讲决策树方法可以处理连续型数据和离散型数据。事物的定量属性通常是用连续型数据表示的。事物的定性属性通常是用离散型数据表示浙江师范大学硕士论文的。离散型数据用决策树表示更方便。连续型数据往往需要经过离散化处理后，才更适合用决策树表示。 4 。决策树对属性的重要性的表示。决策树是通过计算信息嫡选择分裂属性的，而信息墒正是该属性重要性的度量标量。从直观上看，决策树节点所在的层次越高，该节点所代表的属性就越重要，相反节点所代表的属性对此次分类的作用就越小。那么，同一层次节点的作用基本相同，没有明显的大小之分。本系统要用到的数据比较多，多数是定性属性( 即离散型数据) ，而且分类时需要根据属性重要性，所以决策树处理方法在本系统中会多次用到。 5 决策树算法分析决策树算法主要根据训练数据生成以树状结构表示的分类器，其每个内部节点都是对某个属性的判断，所有的叶节点则代表最终的分类。这种表示接近于现实世界的分类，易于普通用户的理解。 6 决策树方法的适用范围决策树方法并不适用于现实世界中的所有问题，它需要满足条件时才能产生较优的结果：首先。实例要用“属性一值”的形式描述。具体讲，实例是由一系列固定的属性( 例如：性别) 和值( 例如：男) 构成：属性的可能取值范围比较小( 例如：男、女) 时，决策树的效果最好：对基本算法扩展后可以处理属性的现实值属性( 例如：年龄) 。其次，目标类变量的可能取值是离散的。决策树算法要求每个实例属于某个类，最简单的情况是只存在两个可能的目标类取值，当然也可以扩充到两个以上的可能取值。最后，训练样本可以有错误。即决策树算法应是健壮的，不仅训练样本的目标类可以有错误，而且属性值也可以有错误。训练样本数据的某个属性可以包含缺失值。 1 4 浙江师范大学硕士论文 4 1 2 决策树技术在题型难度系数分析中的应用对于给定的选择题，我们可以借助如图4 2 的“选择题题型决策树” 对它进行归类。确定了属于哪一类选择题后，就可以通过搜索难度系数表，来得到具体的题型难度系数。单选多选单选多选不定项选择题题型决策树图4 - 3 各学科选择题的题型系数表的样例如下表：题型难度系数单项选择题多项选择题不定项选择题存目英语 0 9o 8 政治 0 90 70 6 表4 1 4 1 3 题型难度系数决策钳的算法描述：以样例表中的两门学科为例算法如下： c a s e 科目= 。英语。 i f ( 选项数目；4 ) a n d ( 答案项数目 i ) 浙江师范大学硕士论文 t h e n 题型系数= 0 8 e l s ei f ( 选项数目= 4 ) a n d ( 答案项数目= 1 ) t h e n 题型系数= 0 9 ： e l s eo u t p u t 。e r r o ” c a s e 科目= “政治” i f ( 选项数目 = 4 ) a n d ( 答案项数目 0 ) t h e n 题型系数= 0 6 e l s ei f ( 选项数目= 4 ) a n d ( 答案项数目= 1 ) t h e n 题型系数= 0 9 ： e l s ei f ( 选项数目 = 4 ) a n d ( 答案项数目 - - 2 ) t h e n 题型系数= 0 7e l s eo u t p u t “e r r o ”： 4 2 知识点难度系数确定子系统 4 2 1 子系统模块组成图选择题 v i 输出知识点难度系数值 4 2 2 对该子系统的说明该子系统其实是一个小型的人工智能专家系统。人工智能专家系统的简单系统结构如图4 _ - 4 。该子系统要求计算机把输入的选择题根据学科 1 6 浙江师范大学硕士论文考点库中的考点分解成若干知识点。再根据知识点关联性表推理出与要掌握这个知识点的前置知识点。根据前置知识点的难度系数，结合层次权重来计算出最终知识点的难度这里学科考点难度库和知识点关联性表就是专家系统中的知识库。知识点分解程序和知识点难度计算程序的功能就类似于专家系统中的推理机。人机交互界面图4 - 5 4 2 3 人工智能中的知识库理论简介 1 知识的定义。从认识论的角度来看，知识就是人类认识和改造自然界过程中的精神产物，也是人类进行智能活动和探索创新的基础。通常关于知识存在着以下几种定义： a 知识是经过消化、塑造、解释、选择和转换的信息； b 知识是对特定领域的概念、关系、过程和应用： c 知识= 事实+ 信念+ 启发式。目前计算机能够处理的知识，按性质可分为三类：即描述性知识、判断性知识、过鬈性知识；按照其作用的层次，分为对象级知识、元级知识两类。 2 知识表示知识表示是人工智能和专家系统领域较为关键的问题。知识表示是为描述世界所作的一组约定，是知识的符号化过程。知识表示实质是将关于世晃的事实、关系、过程等抽象为一种合适的数据结构。计算机的知识表示是关于各种数据结构及其解释的结合，研究各种数据结构的设计，把一个问题领域的各种知识通过这些数据结构应用到计算机系统的程序设计的过程中。知识的表示与知识的获取、管理、处理、解释等有直接的联系，对与问题能否求解，以及问题求解的效率有重大影响。一个恰当的知识表示可以使复杂的问题迎刃而解。一般而言，对知识表示有如下要求： ( 1 ) 可表达性：台甚够将阁题求解所需要的所有知识正确有效的表达出来； 1 7 浙江师范大学硕士论文 ( 2 ) 可理解性：指所表达的知识简单、明了、易于理解； ( 3 ) 可访问性：能够有效的利用所表达的知识： ( 4 ) 可扩充性：能够方便新增知识对原来知识集的扩充。 3 知识库的组织当把获取的知识送入知识库时，立即面临的任务是如何物理的安排这些知识，并建立起逻辑上的联系。知识库的组织方式一方面依赖于知识的表示模式，另一方面也与计算机系统提供的软件支持有关，在系统软件比较丰富的计算机系统中，可有比较大的选择余地。一般来说，在确定知识的组织方式时应遵循如下基本原则： ( 1 ) 选用的组织方式应使知识具有相对的独立性。知识库与推理机构相 ( 2 ) 分离是专家系统的基本特征，进行知识组织时，应能保证这一基本要求的实现。 ( 3 ) 便于对知识的搜索。搜索知识库是一件经常要进行的工作，组织知识库的方式是否便于搜索将直接影响系统的效率，因此要结合搜索策略考虑组织方式，使两者能密切结合，提高搜索的速度。 ( 4 ) 便于对知识库的管理与维护。知识库的组织方式应便于检测知识中可能存在的不一致、不完整之类的错误，便于向知识库增加新知识，删除错误知识以及对知识的修改。在删除或增加新知识时，应避免知识库结构变动。 ( 5 ) 便于在知识库中同时存放用多种模式表示的知识。多种表示模式的有机结合是知识表示中常用的方法，知识的表示方法应能对这种多模式表示的知识实现存储，而且便于对知识的利用。 ( 6 ) 尽量节省存储空间。 4 知识库的管理在专家系统中，知识库随着知识的不断积累和知识量的增加而不断增大。许多专家系统的知识量达到了几千条甚至上万条，知识的层次也逐渐增加，包括常识性知识、原理型知识、元知识等，而且开始涉及到可靠存储、安全修改、多用户等问题，因此知识的管理问题便成为一个很重要的问题 1 8 浙江师范大学硕士论文 4 2 4 知识库理论在本系统中的具体应用选择题难度预测系统用到的数据库( 知识库) 主要是两个：单一考点难度数据库和知识点关联性图。 1 单一考点难度数据库：每一个考点在数据库中都有两个地方存储：一个是在整门学科韵考点知识层次结构图中；另一个是在考点难度数据库。乱考点知识层次结构图考点层次结构图是一种树状图。把考点按照教材章节的层次组织起来如下图：科目夸童 + 夺知识直眇。飞升扩飞广图4 毛 b 考点难度数据库考纲中每一个考点对应着一条考点难度数据库中的记录。记录的数据结构用二维表来表示如下：主关键词次关键词所属章节能力要求难度系数力定义物体间作用理解 o 7 力图

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（应用数学专业论文）数据挖掘技术在选择题难度预测系统构建中的应用.pdf

文档简介

温馨提示

最新文档

评论

（应用数学专业论文）数据挖掘技术在选择题难度预测系统构建中的应用.pdf

文档简介

温馨提示

最新文档

评论

相关文档