(计算机应用技术专业论文)数据挖掘在高职院校教学质量评估中的应用研究.pdf_第1页
(计算机应用技术专业论文)数据挖掘在高职院校教学质量评估中的应用研究.pdf_第2页
(计算机应用技术专业论文)数据挖掘在高职院校教学质量评估中的应用研究.pdf_第3页
(计算机应用技术专业论文)数据挖掘在高职院校教学质量评估中的应用研究.pdf_第4页
(计算机应用技术专业论文)数据挖掘在高职院校教学质量评估中的应用研究.pdf_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 i 中 文 摘 要 随着教育信息化的推进,各院校都使用了教务管理系统,并且积累了大量的教 学和管理数据。但是这些数据很少被开发利用,没有深层挖掘隐藏在这些数据中的 教育规律,这使得管理人员在面对复杂情况时不能及时了解相关信息,领导在决策 时也没有切实的数据支持。 本文对关联规则和分类算法在高职院校教学质量评估中的应用进行了研究。首 先对晋城职业技术学院教务管理系统的历史数据进行了数据清理、数据转换、离散 化等数据预处理;然后将 apriori 算法应用到学院教学问题中,从教学评价数据中 找出课程教学效果与教师特征的关系,从而为教学部门提供决策支持信息;同时将 决策树算法应用在学生成绩评估中,使用决策树算法分析了学生成绩与多种因素之 间的联系。 本文的结论对于帮助学院更好地掌握教师的教学情况和学生的学习情况,以更 好地培养学生具有重要的指导意义。 关键词关键词:数据挖掘;关联规则;apriori 算法;决策树 abstract ii an application research of data mining on evaluation of educational quality in vocational college li jinghua(computer application technology) directed by prof. liang jiye abstract with the advance of information technology education, many colleges have used mis of educational administration, and have collected large-scale data. however, these data have not be synthetic analyzed, in which the education principle have not be discovered. this makes the managers cannot find out the relative information when they meet the complex cases, and has not useful data for supporting their decisions to leaders. in this paper, association rules and classification algorithm are investigated for the application of assess of teaching quality in vocational colleges. firstly, jincheng vocational and technical college of the senate of the historical data management system for the data cleaning, data conversion, data pre-processing; then apriori algorithm is applied for the issue of college teaching,from which one discover the relationship between teacher characteristics and the effect of teaching from teaching evaluation data. these results can provide decision support information for teaching. at the same time, one uses decision tree algorithm to assess student achievement, which can be used analyzed the link between student scores and various factors . the results of this article will be helpful for mastering the situation of student performance and teaching for the colleges and has very significant for more training students. keywords: data mining; association rule; apriori algorithm; decision tree 33 承承 诺诺 书书 本人郑重声明:所呈交的学位论文,是在导师 指导下独立完成的,学位论文的知识产权属于山西 大学。如果今后以其他单位名义发表与在读期间学 位论文相关的内容,将承担法律责任。除文中已经 注明引用的文献资料外,本学位论文不包括任何其 他个人或集体已经发表或撰写过的成果。 本人郑重声明:所呈交的学位论文,是在导师 指导下独立完成的,学位论文的知识产权属于山西 大学。如果今后以其他单位名义发表与在读期间学 位论文相关的内容,将承担法律责任。除文中已经 注明引用的文献资料外,本学位论文不包括任何其 他个人或集体已经发表或撰写过的成果。 学位论文作者(签章): 2008 年 月 日 第一章 绪论 1 第一章 绪论 1.1. 研究的背景与意义 近年来国家大力提倡发展高等职业教育,高职院校学生人数逐年增加,伴随教 学管理模式的变化,对教学管理手段提出了更高的要求。随着信息技术的飞速发 展,利用计算机、校园网构建综合教务管理系统1,实现教育信息化、网络化成为 必然的趋势。晋城职业技术学院也使用了教务管理系统(如图 1.1)。我院教务系统 自运行以来收集了大量的教育教学数据,但是这些数据很少被开发利用,没有好好 挖掘隐藏在这些数据中的教育规律、影响教学质量的各种因素。教师和决策者在进 行决策时,都缺乏切实的数据作为决策依据。因此,建立健全我院教学质量评价系 统是提高教学质量的重要途径,是提高教学管理水平的迫切要求,而数据挖掘技术 正是从大量的数据中提取或“挖掘”知识的有效技术。本文正是使用数据挖掘技术 对教务系统中的数据进行挖掘,辅助构建教学评价体系,提高学院的教学管理水 平。 图 1.1教务管理系统网络结构图 1.2. 高校教学质量评估的研究现状 1995 年,在美国计算机年会上,首次提出数据挖掘的概念,随后数据挖掘成 为热门的研究方向。世界上研究数据挖掘的著名组织、机构和大学有:卡内基梅隆 大学、麻省理工学院2、ncdm、acm 等。目前,世界上比较有影响的典型数据 数据挖掘在高职院校教学质量评估中的应用研究 2 挖 掘 系 统 有 : clementine , darwin , knowledge seeker , 密 西 根 州 立 大 学 erickgoodman 的遗传算法,rule qrest research 公司的 see5,ibm 的 intelligent, sgi 公司开发的 mineset3 ,等。 目前,大多数院校采用学生考评的方法来评估教学质量,虽然这种评教方法对 于教学管理和教学质量的提高有一定的作用,但是,由于学生在评分时,有许多客 观干扰因素,例如性别差异、个人兴趣不同、参考标准不同等,加上一些人为因素 的干扰,学生的评分并不够客观、准确,并且没有对评估数据进行深层的全面的分 析,使教学评估充分发挥对教学的指导作用。在国外高校,数据挖掘己有效应用于 教学管理中,成为提高教学管理质量和教学水平的有力工具。 我国对数据挖掘的研究比国外稍晚。我国的数据挖掘研究开始于 90 年代中 期,随后许多科研单位和高等院校竞相开展数据挖掘的基础理论及其应用的研究 (如华中理工大学、清华大学、复旦大学、中科院计算技术研究所和数学研究所等 4),并且取得了比较丰硕的研究成果。 1.3. 本文的研究内容及组织结构 本文在分析了数据挖掘算法及教学质量评估现状的基础上,将数据挖掘技术应 用于我院的教务管理系统中,对教师相关信息和学生的成绩进行具体挖掘实践。本 文的内容与组织如下: 数据挖掘理论介绍数据挖掘的定义、过程、数据预处理以及主要方法和工 具,同时对数据挖掘的应用领域进行了概述。 关联规则及其应用研究介绍了关联规则的定义、算法,将 apriori 算法应 用到学院教学问题中,从教学评价数据中找出课程教学效果与教师特征的关系,为 教学部门提供决策支持信息,促使更好的开展教学工作,提高教学质量。 决策树及其应用研究将数据挖掘中的决策树技术应用在学生成绩评估中, 提出了决策树技术在学生成绩分析应用中的实施方案,并详细的介绍了具体的实施 过程。 第二章 数据挖掘理论 3 第二章 数据挖掘理论 2.1. 数据挖掘的基本概念 数据挖掘(data mining,简记 dm)是在大型数据集中,挖掘隐含在其中的、 人们事先并不知道的、对决策有用的知识的过程,又称为数据采掘、数据开采等。 通常认为数据挖掘是数据库中知识发现(kdd)不可缺少的一个重要环节5。 数据挖掘技术经常被用来探查大型数据库,发现先前未知的有用模式。数据挖 掘还具有预测未来观测结果的能力,例如,预测某所高校学生的就业前景。 2.2. 传统分析方法与数据挖掘 传统分析方法包括查询、报表、联机应用分析等,通常这些方法只处理包含相 同类型属性的数据集,或者是连续的,或者是分类的,并且传统的统计方法基于一 种假设检验模式,这种过程过于劳神费力。 数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识,所分析的数据集 通常不是精心设计的实验的结果6,而且,这些数据集常常涉及非传统的数据类型 和数据分布。数据挖掘所得到的信息应是预先未曾预料到的,即数据挖掘是要发现 那些不能靠直觉发现的信息,甚至是违背直觉的信息;必须是有效信息,无效信息 对我们是没有任何价值的;必须能应用于实际的操作,指导实际的决策。 2.3. 数据挖掘的过程 一般情况下数据挖掘主要分为三个主要阶段,即:数据准备、数据挖掘、结果 表达和解释。如图 2-1 所示7: 2.3.1. 数据准备 数据准备一般分为三步: (1). 数据选择 根据挖掘目标,选取与处理对象有关的内部和外部的数据信息,抽取适用于数 据挖掘应用的数据。 (2). 数据预处理 数据挖掘常常使用为其他目的或未来的未指明的应用而收集的数据,难免有噪 声 数据、空缺数据以及数据的不一致等质量问题,因此数据挖掘关注数据质量问 题的检测和纠正。 数据挖掘在高职院校教学质量评估中的应用研究 4 图 2.1 数据挖掘过程 数据的预处理一般包括数据清理、数据集成与转换、数据离散化等 8。 数据清理指去除或修补源数据中的不完整、不一致、含噪声的数据,常见的方 法有均值法、平滑法、预测法、频率统计法和分箱法等。 数据集成指把数据挖掘涉及到的多个数据源的数据,在挖掘之前合并在一起, 形成统一的数据集合。在集成过程中要注意冗余、数值冲突检测和消除等问题。 数据转换指把原始数据转换成适合挖掘算法需要的描述形式。常见的方法有聚 集、平滑、数据泛化和数据规范化等 9。 数据离散化指把连续型的数据通过划分区间,用一个标号来代替一个区间内的 实际数据值,以减少属性的取值个数。例如:某学生的成绩:80 与 81,我们可以 近似的看做是同一值:良好,这样可以减少很多的 i/o操作。常见的方法有: 固定区间法,例如教师评的年龄数据,我们将年龄在 22-30 的年龄值设定为, “a1”,31-35 设定为“a2”,36-49 设定为“a3”,50-60 设定为“a4”。 等分区间法:找出最大值和最小值,按照所需要的区间数目对其进行等分,得 到对应的离散区间。 排序量化法:例如在一些比赛活动中,会根据比赛成绩排序,结合实际的要 求,对全部数据按比例划分为几个等级奖项。 第二章 数据挖掘理论 5 (3). 数据变换 将数据变换成适合数据挖掘算法的分析模型,这是数据挖掘成功的重要一步。 2.3.2. 数据挖掘 根据系统设计的功能确定挖掘的任务,选择合适的挖掘技术,对应选择适用哪 种具体的算法对准备好的数据进行挖掘。 2.3.3. 结果表达和解释 将挖掘结果用容易理解的语言、方式描述出来,并总结出其中的规律等有用信 息,使用户容易接受。 2.4. 数据挖掘的发现模式 数据挖掘的目的是发现知识,知识要通过一定的模式给出。数据挖掘系统的知 识表示模式比较丰富,常用的模式有: (1). 关联模式 关联模式(association pattern)反映一个事件和其他事件之间的依赖或关联 11。广义上讲,关联分析是数据挖掘的本质。关联规则挖掘是关联知识发现的最 常用方法,最为著名的是 agrawal 等提出的 apriori 及其改进算法。 (2). 分类模式 分类分析就是学会一个分类模型也称作分类器,该模型能把其它数据库中的记 录进行分类。其目标就是根据样本数据形成的类知识对源数据进行分类、进而也可 以预测未来数据的归类。分类模式的预测值可以是离散的,也可以是连续的。最常 用的分类知识挖掘技术有决策树、神经网络等。 (3). 聚类模式 聚类分析和分类分析是一个互逆的过程。聚类分析是把一组个体按照相似性归 类,即“物以类聚” 。其目标是,组内的对象相互之间是相似 的,而不同组中的对 象是不同的。组内的相似行越大,组间差别越大,聚类就越好。 (4). 预测模式 预测模式(prediction pattern)根据时间序列型数据,由历史的和当前的数据 去推测未来的数据趋势。 2.5. 数据挖掘的应用领域 数据挖掘的应用十分广泛,以下是数据挖掘技术的一些典型应用领域: 数据挖掘在高职院校教学质量评估中的应用研究 6 (1). 科学研究:在科学研究计算中,需要分析种大量的实验或观测数据,如航 空航天领域、医学、分子生物学领域等,以往的数据分析方法效率较低甚至无能为 力,这就推动了数据挖掘技术在科学研究领域的应用发展。 (2). 商务:数据挖掘技术用来支持广泛的商务智能应用,如顾客分析、定向营 销、商店分布和欺诈检测等。 (3). 金融:典型的有投资评估和股票交易市场预测。 (4). 保险业:对投保人员的分类将有助于确定适当的保险金额度。 (5). internet 的应用:研制新的更好的索引系统、利用已有索引系统或搜索引擎 开发高层次的搜索或发现系统。在信息安全系统中用于入侵检测也已经成为一个研 究热点。 第三章 关联规则及其应用研究 7 (3.1) 第三章 关联规则及其应用研究 3.1. 关联规则 关联规则(association rules)挖掘是数据挖掘中最活跃的研究方法之一,关 联规则反映一个事物与其他事物之间的相互依存性和关联性,是指在数据库中挖掘 存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构,发现隐藏 在其中的关联事件。采用关联模型比较典型的例子是“啤酒与尿布”的案例。 一个事物数据库中的关联规则挖掘可以描述为: 定义 3.112设一个项目集合为,事务数据库为 d。其中每个事 务 t 都有自己的身份即 tid 标识,且。设 a 是 i 中的项集,当且仅当, 称 t包含 a。 关联规则表示为,这里,而且。 关联规则的强度可以用它的支持度(support)和置信度(confidence)度量。 支持度低的规则多半也不是令人感兴趣的,通常可以删去。置信度度量通过规则进 行推理的可靠性。 规则的支持度是指事物 a 和事物 b 同时出现的几率,表示为, 即: 规则的置信度指在整个事物库中, a 事物出现的前提下 b 事物也出现的 概率。表示为: 3.2. 关联规则挖掘的基本步骤 第一,根据给定的最小支持度(minsup)找出频繁项集,也就是找出所有支持 度不小于最小支持度的项集。 第二,根据给定的最小置信度(minconf)在每个最大频繁项集中,寻找置信 度不小于最小置信度的关联规则,产生强关联规则。 (3.2) 数据挖掘在高职院校教学质量评估中的应用研究 8 3.3. 关联规则的算法-apriori apriori 算法是第一个也是最有影响的挖掘布尔型关联规则频繁项集的算法, 它开创性地使用基于支持度的剪枝技术,系统地控制候选项集指数增长。apriori 算法所采用的是逐层搜索的迭代方法,根据给出的 minsup,首先通过单遍扫描,确 定每个项的支持度,得到频繁 1-项集 ll:接下来使用 ll来寻找频繁 2-项集 l2;如 此迭代下去,直到不能找到新的频繁项集为止。 算法分为两步:连接和剪枝13。 连接:为了找 lk,通过 lk-1与自己连接产生候选 k-项集,该候选项记作 ck。 设 p1和 p2:是 lk-1中的项目集。记号 pi n表示 pi的第 n项,如果两个项目前 k-2 个项目相同,既是 lk-1的元素 p1和 p2是可连接,如果 连接结果为。 剪枝:连接之后的结果 ck是 lk的超集,即它的成员可以是频繁的,也可以不 是频繁的,这时就要扫描数据库,确定 ck中每个候选的计数,从而可确定 lk。然 而,ck可能很大,可以使用 apriori 性质剪枝,如果一个候选 k-项集的一个子集不 在 ck中,从 ck中删除15。 apriori 算法的性能瓶颈问题:多次扫描事物数据库,需要很大的 i/o 负载16。 而且可能产生庞大的侯选集。为了提高 apriori 算法可的效率,出现了一系列的改 进算法:基于散列(hash)的方法、基于数据分割(partition)的方法、基于采样 (sampling)的方法等。 3.4. 关联规则挖掘在教学质量评估系统中的应用研究 对教学质量进行分析是教学评估的重要手段,良好的教学评价对教学质量有导 向、促进和调控功能,本章对关联规则算法在教学评估中的应用进行了研究。 3.4.1. 信息初始化 信息初始化就是准确及时地对评价所必须的各项数据进行收集、核对、修改。 例如:本章需要分析教师的教学效果同教师的年龄、职称、学历等是否相关,而在 评价信息收集时,并没有包括以上信息。有些数据信息采集时是不包括的,但是在 数据挖掘分析时却十分重要,所以,信息初始化需要综合考虑各种需求,对数据信 息进行初始化处理。 第三章 关联规则及其应用研究 9 3.4.2. 数据采集 数据采集的目标是实现大规模评价数据的完整、准确地采集。数据采集的步骤 如图 3-2所示17。 图 3-2 数据采集过程 数据采集的内容包括教学质量评价数据和教师档案数据。由于我校的教学管理 系统刚刚投入使用,只有部分数据,所以实验中使用了模拟数据。表 3-1 给出了部 分教学评价信息。 表 3-1 部分教学评价 工号 性别 年龄 职称 学位 评定分数 0115 男 29 中级 本科 75 0180 女 30 初级 (专科) 77 0209 女 35 副高 本科 86 0234 男 52 副高 硕士 92 0273 女 26 初级 硕士 68 0313 女 32 中级 博士 88 0365 男 39 副高 本科 90 3.4.3. 数据准备 根据第二章提到的预处理操作,为数据挖掘分析准备完整、干净的数据。 本文将教学质量评估表中的一条记录视为一个事务,字段值采用代码表(表 3-2) 转换为相应的项目,如表 3-3 所示。 数据挖掘在高职院校教学质量评估中的应用研究 10 表 3-2 代码表 项目 值 代码 男 s1 性别 女 s2 22-30 a1 31-35 a2 36-49 a3 年龄 50-60 a4 初级 j1 中级 j2 副高 j3 职称 正高 j4 本科(含专科) e1 硕士 e2 学位 博士 e3 60 以下 d1 60-69 d2 70-84 d3 评价分数 85-100 d4 表 3-3 事务表 工号 性别 年龄 职称 学位 评定分数 0115 s1 a1 j2 e1 d3 0180 s2 a1 j1 e1 d3 0209 s2 a2 j3 e1 d1 0234 s1 a4 j3 e2 d4 0273 s2 a1 j1 e2 d2 0313 s2 a2 j2 e3 d4 0365 s1 a3 j3 e1 d4 3.4.4. 关联规则挖掘 (1). 生成频繁项集 经过搜索,评定分在 85 分以上的记录有 90 条,评定分在 70 到 84 间的记录有 260 条。根据给定的最小支持度,采用 apriori 算法寻找频繁项集。 (2). 生成关联规则 第三章 关联规则及其应用研究 11 频繁项集生成以后,对于任一频繁 k 项集,找出其中所有可能的真子集,作为 关联规则的前件1819,计算相应规则的置信度、兴趣度和有效度。根据给定的最 小置信度、置信度,输出规则。课堂教学效果优秀的关联规则如表 3-4 所示; 表 3-4 课堂教学效果优秀的关联规则(minsup=10%, minconf=40%) 规则 支持度 置信度 兴趣度 有效度 s1=d4 0.120 0.280 0.052 -0.050 s2=d4 0.120 0.330 0.012 0.140 a3=d4 0.120 0.450 0.280 0.270 j3=d4 0.100 0.500 0.210 0.220 e3=d4 0.020 0.510 0.020 0.190 (a3, j3)=d4 0.100 0.550 0.410 0.260 从表 3-4 中的规则的值可以发现,部分规则是无效关联规则或者是负关联规 则。设定兴趣度阀值 i1=0.1,有效度阀值 vl=0.15,得到正关联规则如表 3-5 所 示。 表 3- 5课堂教学效果优秀的关联规则(minsup=10%,minconf=40%) 规则 支持度 置信度 兴趣度 有效度 a3=d4 0.120 0.450 0.280 0.270 j3=d4 0.100 0.500 0.210 0.220 (a3, j3)=d4 0.100 0.550 0.410 0.260 表 3-6课堂教学效果良好的关联规则(minsup=10%, minconf=40%) 规则 支持度 置信度 兴趣度 有效度 s1=d3 0.200.45-0.607 -0.300 s2=d3 0.180.40-0.028 0.071 a2=d3 0.220.700.4800.360 j3=d3 0.120.500.0380.047 e1=d3 0.160.36-0.230 0.340 e2=d3 0.270.540.1500.440 (a1,j2) =d3 0.100.45-0.060 0.000 (a2,j2) =d3 0.210.890.8100.610 (a2,e2) =d3 0.101.001.0000.550 (j2,e1) =d3 0.100.900.8100.610 数据挖掘在高职院校教学质量评估中的应用研究 12 设定兴趣度阀值 i1=0.1,有效度阀值 vl=0.35,得到正关联规则如表 3-7 所 示。 表 3-7课堂教学效果良好的关联规则(minsup=12%, minconf=45%) 规则 支持度 置信度 兴趣度 有效度 a2=d3 0.22 0.70 0.480 0.360 e2=d3 0.27 0.54 0.150 0.440 (a2,j2) =d3 0.21 0.89 0.810 0.610 (a2,e2) =d3 0.10 1.00 1.000 0.550 (j2,e1) =d3 0.10 0.90 0.810 0.610 3.4.5. 结果表达和解释 规则 j3d4 解释为,职称为副高的且评价分数在 85-100 的教师占总参评教师 的 10%,有 50%的职称为副高的教师课堂教学效果为优秀。 规则(a2, j2)d3 解释为,年龄 31, 35 职称为中级=评定分数 74, 84, 支持度为 0.21 表明:年龄在 31-35,职称为中级且评定分数在 70-84 的教师占总参 评教师的 21%;而置信度 0.89表明:年龄在 31-35,职称为中级的教师中有 89%的 人课堂教学效果为良好。 规则 e2=d3 解释为:学位=硕士=评定分数 70, 84,支持度为 0.27 表明: 学位为硕士且评定分数在 70-84 的教师占总参评教师的 27%;而置信度 54%表明: 学位为硕士的教师中有 54%的课堂教学效果为良好。 在 350 名学生比较满意的老师中,年龄较长或者职称为副高或者高学位的教师 课堂教学效果优秀的可能性大,有一定年龄或者职称较高或者高学位的教师课堂教 学效果良好的可能性大。大多数中青年教师具有丰富的课堂教学经验,30 左右且 有硕士学位的青年教师一般都能令学生满意。可以发现,我院近年来重视高学位中 青年骨干教师的引进和培养,实施人才战略已初见成效。 3.5. 本章小结 本章首先介绍了什么是关联规则方法和著名的 apriori 算法,将 apriori 算法应 用到教学质量评价中,既能评价教师的授课效果,又可以对教学情况的优点和弱点 有一个全面客观的认识,可以指导制定出有针对性的教学方案,促进教学质量的提 第三章 关联规则及其应用研究 13 高。把数据挖掘技术应用与教学质量评价,大大加强了教学决策分析的功能和灵活 性,是一个很有前景的方向,在教育管理领域的应用必将越来越广泛和深入。 第四章 决策树及其应用研究 14 第四章 决策树及其应用研究 4.1. 决策树算法概述 决策树算法是应用最广泛的逻辑方法之一,主要用来解决数据挖掘中的分类和 预测问题。它从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。 采用自顶向下的递归方式,在决策树的内部节点进行属性值的比较,并根据不同的 属性值判断从该结点向下的分支,在决策树的叶结点得到结论。从根到叶结点的一 条路径就对应一条合取规则,整棵决策树据对应着一组析取表达式规则20。 决策树分类算法通常分为两个步骤,决策树构造和决策树修剪。 4.2. 决策树的构造算法 决策树归纳的基本算法是一个贪婪的,从上到下,各个击破的递归过程。构造 好的关键在于如何选择好的逻辑判断或属性。此算法的核心是确定分枝准则,也就 是如何从众多的属性变量中选择一个最佳的分裂属性。 决策树构造算法比较著名的有:id3 算法、以 id3 为蓝本的 c4.5算法等。 4.3. 信息增益算法 信息增益基于信息论中熵的概念,熵是对事件对应的属性的不确定性的度量。 一个属性的熵越大,其蕴含的不确定信息越大,越有利于数据的分类。决策树算法 中选择测试属性是构建决策树的关键所在,id3 算法使用信息增益做为属性评价标 准21,即选择具有最高信息增益的属性作为当前节点的侧试属性,相关描述如 下: 定义定义 4.121设 s 是具有 s 个样本的数据集合,类标号属性具有 m 个不同的值, 定义 m 个类 ci(i=1,2,m),设 si是类属性值为 mi(类 ci)的样本数,则对于一 个给定的样本分类的信息嫡由公式 4.1给出: 其中,p是任意样本属于 c的概率,用 si/s 估计。 定义定义 4.221设属性 a 具有 v 个不同的值a1, a2, , av, 用属性 a 作为定属性, 将样本 s划分成 v个不同的子集,s1, s2, , sv,其中 sj是样本 s中属性 a的值 aj的 (4.1) 数据挖掘在高职院校教学质量评估中的应用研究 15 (4.4) 样本子集;设 sij是样本子集 sj中属于 ci类的样本数量,由属性 a 划分的子集的信 息熵由下列公式 4.2给出: 其中,第一个子集的权,sij是子集 sj中 ci类样本的数量。对于给 定的子集 sj,有公式 4.3 其中,是 sj中样本属于类 ci的概率。 定义定义 4.321如果选择 a 作为判定属性,在 a 分支上获得的信息增示为公式 4.4: 计算各属性的信息增益,选择信息增益最高的属性作为样本集性,来划分数据 集。 c4.5 算法除了拥有 id3 算法的功能外,引入了用信息增益比例的概念,增加 了处理连续属性的值,处理缺少属性值的样本,通过使用不同的修剪技术以避免树 的过度拟合等功能。 4.4. 决策树技术在成绩分析中的具体应用研究 4.4.1. 确定对象及目标 在具体的应用中,以某学期的计算机课程为例,对象都是计算机专业的学生, 总人数 500 人。希望根据学生的基本情况来分析挖掘出哪些因素对学生的学习成绩 是有影响的,如性别、基础程度、对程序设计语言是否感兴趣、学习习惯、上机时 间量等,分析考试成绩为优良和不及格的学生与上面哪些因素有关系,并希望用得 到的分析结果来指导今后的教学工作,提高教学质量。 4.4.2. 数据的收集 分析哪些方面能够影响学生的考试成绩,需要组织以下几个方面的数据信息。 (1). 学生的基本情况信息 (4.2) (4.3) 第四章 决策树及其应用研究 16 数据结构包含以下属性信息:学号、姓名、性别、专业、班级。这些信息可以 通过学院的“学生学籍管理信息系统”来获取,存入“学生基本情况数据库”中。 (2). 需要向学生调查的数据信息 调查的信息包括:对程序设计语言是否感兴趣、基础程度、学习习惯、上机时 间量等。这些信息是通过对学生的调查才能得到,所以由学生亲自来填写。 这项工作是通过设计一张调查表,包含的内容如图 4-1所示: 图 4-1 学生调查表 参加调查的人数是 500 人,收回的调查表共 495 张。 调查信息数据库的数据 结构包含以下属性信息:学号、是否对程序设计感兴趣、基础程度、是否具有良好 的学习习惯、上机时间量五个属性。其中是否对程序设计感兴趣属性有感兴趣、不 感兴趣两个属性值;基础程度属性有很好、好、一般三个属性值;是否具有良好的 学习习惯属性有具有、不具有两个属性值;上机时间量有 0、1.5、1.53、3 四个属性值。 3、学生的考试成绩数据 数据挖掘在高职院校教学质量评估中的应用研究 17 学生的考试成绩是教师在期末考试后统计的,录入的学生成绩保存在“学生成 绩数据库”中,数据结构包含以下属性:学号、姓名、课程名称、成绩四个属性。 成绩分“不及格”、“一般”和“良好”三种属性值。 4.4.3. 数据准备 为了便于决策树模型的建立,选择学生成绩表中与成绩属性相关性较大的23性 别、基础程度、上机时间量三个属性作为建立成绩分类决策树模型的依据,生成新 的学生成绩分析基本数据表。经过数据预处理后,共有 485 条学生记录,为了后面 对建立好的决策树模型进行评估预测,所以预留四分之一的记录作为测试数据,四 分之三的记录数据作为用于建立决策树模型的训练集,共 360 条。具体的数据信息 如下表 4-1所示。 表 4-1 数据预处理后的学生成绩分析基本训练表 学号 性别 基础程度 上机时间量 成绩 00065 男 很好 =3 良好 00103 女 一般 1.53 一般 00127 女 一般 =3 一般 00152 男 好 =1.5 良好 00179 女 很好 =1.5 良好 00218 男 好 1.53 一般 00230 男 一般 0 不及格 00324 女 一般 0 不及格 00301 男 一般 =3 no 00152 男 好 =3 no 00152 男 好 =1.5 no 00179 女 很好 =1.5 no 00218 男 好 1.53 no 00230 男 一般 0 no 4.4.4. 分类规则挖掘 分类挖掘的目的是为了建立成绩分析决策树模型。 (1). 算法的选择 根据前面对算法的介绍和比较,我们选用 c4.5算法。 (2). 建立决策树模型 本文选择了其中与成绩属性相关性较大的性别、基础程度、上机时间量三个属 性作为建立成绩分类决策树模型的依据。在建立成绩是否良好决策树模型时,以是 否良好属性作为分类属性(表 4-2 所示)。建立成绩是否不及格决策树模型时,以 是否不及格属性作为分类属性(表 4-3所示)。 数据挖掘在高职院校教学质量评估中的应用研究 19 下面以表 4-2中的训练集为例来说明成绩是否良好决策树模型的生成。 具体的实现过程如下介绍: (1). 根据定义 4-1中的公式,计算分类属性的信息量。 在表 4-2 中所示的训练集中,共有 360 个样本,其中类是 yes 的有 125 个样 本,类是 no 的有 235 个样本。为计算每个属性的信息增益率,首先使用定义 4-1 中的公式,计算出对给定样本分类所需的信息熵: (2). 根据定义 4-1中的公式,依次计算每个测试属性的信息量。 首先计算“性别”属性,该属性中有两个属性值,需要对每个属性值所划分的 子集计算信息量。对于“性别”“男”,类 yes 有 90 个样本,类 no 有 175 个 样本,则表示为(90,175);对于“性别”“女”,类 yes 有 35 个样本,类 no 有 60 个样本,则表示为(35,60)。利用给出的公式,计算得到“性别”属性 各个子集的信息量: 再次计算“基础程度”属性,该属性中有三个属性值。对于“基础程度” “很好”,类 yes 有 13 个样本,类 no 有 30 个样本,则表示为(13,30);对于 “基础程度”“好”,类 yes 有 44 个样本,类 no 有 30 个样本,则表示为 (44,30);对于“基础程度”“一般”,类 yes 有 68 个样本,类 no 有 175 个样本,则表示为(68,175)。利用给出的公式,计算得到“基础程度”属性各 个子集的信息量: 第四章 决策树及其应用研究 20 最后计算“上机时间量”属性,该属性中有四个属性值。对于“上机时间量” “0”,类 yes 有 1 个样本,类 no 有 12 个样本,则表示为(1,12);对于 “上机时间量”“=3”,类 yes 有 19 个样本,类 no 有 18 个样本,则表示为(18,28)。利用给出的公式,计算得 到“上机时间量”属性各个子集的信息量: (3). 根据定义 4-2中的公式,依次计算每个测试属性的信息熵。 (4). 根据定义 4-3中的公式,依次计算每个测试属性的信息增益量。 数据挖掘在高职院校教学质量评估中的应用研究 21 (5). 根据定义 4-4中的公式,依次计算每个测试属性的信息增益率。 (6). 从上述计算结果可知,“基础程度”属性具有最高的信息增益率,其被选 择为测试属性。创建一个节点,用“基础程度”标记,并根据它的三个属性值,引 出三个分枝,样本以此划分,如图 4-3所示。然后再计算各个分枝节点的划分。 图 4-3 属性“基础程度”成为决策树根节点的测试属性 以划分“基础程度”是“很好”的所有可能性为例,接着进行决策树的建立。 根据上面的介绍可知,对于“基础程度”“很好”,类 yes 有 13 个样本, 类 no 有 30 个样本,分别计算“性别”和“上机时间量”两个测试属性的信息增 益率。 第四章 决策树及其应用研究 22 “性别”分枝中,对于“性别”“男”,类 yes有 7个样本,类 no有 28个 样本,则表示为(7,28);对于“性别”“女”,类 yes 有 6 个样本,类 no 有 2 个样本,则表示为(6,2)。根据公式计算得: “上机时间量”分枝中,对于“上机时间量”“0”,类 yes 有 1 个样本, 类 no 有 2 个样本,则表示为(1,2);对于“上机时间量”“=3”,类 yes 有 3 个样本,类 no 有 1 个样本,则表示为 (3,1)。根据公式计算得: 经过上面的结果可知,信息增益率最大的属性是“性别”属性,其被选择为 “基础程度”是“很好”的测试属性,所以在“基础程度”是“很好”的分枝下创 建一个节点,用“性别”标记,并根据它的两个属性值,引出两个分枝,然后再计 算各个分枝节点的划分。因为仅剩下一个“上机时间量”属性,所以没有必要在各 个分枝节点下分别计算该属性的信息增益率,可直接对“性别”的两个分枝按“上 机时间量”进行划分,其划分的结果如图 4-4所示。 由于决策树划分至此,已经没有其它的属性可划分,则根据算法对图 4-4 进行 整理,得出当“基础程度”=“很好”时的部分决策树模型。如果成绩是良好时, 数据挖掘在高职院校教学质量评估中的应用研究 23 则叶节点用 yes 表示;如果成绩不是良好时,则叶节点用 no 表示,如图 4-5 所 示。 (7). 同理重复(2)(6)步,完成各个分枝的划分,最终建立决策树模型, 得到学生成绩是否良好的决策树模型。如图 4-6所示。 在采集数据及输入数据的过程中,慎重地对数据进行了处理,没有噪声数据, 对于属性的缺值问题,在数据清理阶段已经人工填加了,因而对生成的决策树不进 行剪枝操作。 图 4-4 当“基础程度”=“很好”时的划分 第四章 决策树及其应用研究 24 图 4-5 经过休整后的“基础程度”=“很好”时的部分决策树模型 图 4-6 学生成绩是否良好的决策树模型 采用同理的方法,生成的学生成绩是否不及格的决策树模型如图 4-7 所示。如 果成绩是不及格时,则叶节点用 yes 表示;如果成绩是及格时,则叶节点用 no 表 示。 数据挖掘在高职院校教学质量评估中的应用研究 25 图 4-7 学生成绩是否不及格的决策树模型 4.4.5. 生成分类规则 根据建立的树,把树转换成 ifthen 规则。转换方法是:从根到叶节点的每 条路径创建一个规则,if 部分由路径上的每个属性值的合取项形成,then 部分由 叶节点包含类预测形成。 (1). 学生成绩是否优良的规则:(根据图 4-6提取的) if基础程度=“很好”and性别=“男”and上机时间量=3 then成绩优良 if基础程度=“很好”and性别=“女”then成绩优良 if基础程度=“好”and上机时间量=0 then成绩不是优良 if基础程度=“好”and上机时间量=3 and 性别=“女”then成绩优良 if基础程度=“一般”and上机时间量=0 then成绩不是优良 if基础程度=“一般”and上机时间量=3 then成绩优良 (2). 学生成绩是否不及格的规则:(根据图 4-7提取的) if上机时间量=0 and 基础程度=“很好”then成绩及格 if上机时间量=0 and 基础程度=“好”then成绩及格 if上机时间量=0 and 基础程度=“一般”then成绩不及格 if上机时间量=1.5 and 基础程度=“很好”then成绩及格 if上机时间量=1.5 and 基础程度=“好”then成绩及格 if上机时间量=1.5 and 基础程度=“一般”and性别=“男”then成绩及格 if上机时间量=3 then成绩及格 4.4.6. 模型准确性评估 模型准确性评估就是利用生成的规则来预测测试集中的未知数据属于哪一分 类,用结果的准确率来判断该决策树是否有效,根据其有效性确定是否需要重新选 定训练集生成新的决策树,并继续利用准确率来判断该决策树模型的优劣,直到准 确率达到预定的阈值为止24。 模型准确性评估的过程如图 4-8所示。 图 4-8 模型准确性评估的示意图 经过调研分析,确定准确率阈值为 84%,经过对模型测试,其准确率达到了 89%,超过预定的准确率阈值,能够满足用户需求。 4.5. 本章小结 本章介绍了决策树分类算法的基本概念并利用决策树分类算法实现了在教学研 究中有关学生成绩的分析。通过晋城职业技术学院教务管理系统得到学生学习情况 数据挖掘在高职院校教学质量评估中的应用研究 27 基本信息库,并使用决策树 c4.5 算法,建立了学生成绩分析决策树模型,并用事 后修剪法实现了决策树的修剪,利用最终形成的决策树提取可以提高教学质量的分 类规则。 第五章 结论 28 第五章 第五章 结结 论论 随着数据挖掘技术的成熟及应用领域的不断扩展,不少高校己开始研究将数据 挖掘技术应用于教学和管理中。 本文以晋城职业技术学院教务管理系统为背景,将关联规则和决策树算法应用 到教务管理系统中,并得出了一些对培养学生有意义、对决策者有帮助的规则。本 文主要做了以下工作: (1). 对教务管理系统的历史数据进行了数据清理、数据转换、离散化等数据预 处理,为下一步挖掘准备了完整、适合的数据。 (2). 将 apriori 算法应用到教学问题中,从教学评价数据中挖掘出课程教学效果 与教师特征的关系,从而为教学部门提供决策支持信息,在排课时注意教师的合理 分配,促进教学工作的开展,提高教学质量。 (3). 将决策树算法应用在学生成绩评估中,使用决策树算法分析了多种因素与 学生成绩之间的联系,从而指导制定教学方案。 另外,本文还有许多不足地方,比如数据的预处理不够完全,挖掘出的规则中 还有比较大的误差,没有进行改进算法与原有算法的对比,还需要通过大量的实验 来检验规则的通用性,这些都需要在后

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论