基于粗糙集理论的网络评教研究本科学位论文_第1页
基于粗糙集理论的网络评教研究本科学位论文_第2页
基于粗糙集理论的网络评教研究本科学位论文_第3页
基于粗糙集理论的网络评教研究本科学位论文_第4页
基于粗糙集理论的网络评教研究本科学位论文_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

黄冈师范学院本科学位论文基于粗糙集理论的网络评教研究PAGE22PAGE31摘要数据的约简包括属性约简和属性值约简[1],现在数据约简的方法很多,粗糙集理论是数据约简和数据挖掘的重要工具,数据约简和数据挖掘相互联系,它们没有必然的划分界限,通过粗糙集工具和决策树工具以及用粗糙集理论建立决策树的理论可以将数据约简的理论方法加以开发推广,本文通过对数据约简理论的发散研究,结合现在比较前沿的观点和实例阐明数学工具和方法理论之间的联系。首先介绍数据约简工具RoughSets理论应用范围和前景,粗糙集理论历史,特点以及与粗糙集理论相关的基本概念和基本的约简算法(包括A.Skowron提出的分辨矩阵约简算法和基于可辨识矩阵的启发式约简算法),粗糙集在数据挖掘中的应用,包括数据挖掘的基本概念,数据挖掘的基本任务(重点介绍了现在流行的基于决策树的数据分类算法),并且给出了粗糙集在数据挖掘中的应用举例。用粗糙集理论可以建立决策树,包括决策树的核心技术,粗糙集理论构造决策树的方法和决策树的应用介绍,现又新提出的双论域下粗糙集数据约简方法。然后分析国内外网络的教学评估系统的研究成果,并且结合课堂教学质量评价表,将数据约简理论成功运用于网络评教中。关键字:数据约简,RoughSets理论,数据挖掘,网络的教学评价,离算化。

AbstractReductionofdata,includingattributereductionandattributevaluereduction[1],datareductionisnowalotofmethods,roughsettheoryisthedatareductionandanimportanttoolfordatamining,datareductionanddatamininginterrelated,theyarenotthedelineationofboundariesisboundthroughtheroughsettoolsanddecisiontreetools,aswellastheestablishmentofroughsettheorywiththetheoryofdecisiontreecouldbethetheoryofdatareductionmethodstopromotethedevelopmentofthispaperthedatareductionofthedivergencetheory,incombinationwithcutting-edgeNowviewsandexamplesofmathematicaltoolsandmethodstoclarifythelinkbetweentheory.FirstdatareductiontoolintroducedRoughSetsTheoryandprospectsofapplications,roughsettheoryofhistory,characteristicsoftheroughsettheoryandbasicconceptsandbasicreductionalgorithm(includingA.SkowronproposedreductionalgorithmtodistinguishMatricesandHeuristicattributereductionbasedondiscernibulitymatrixanditsapplication),roughSetintheapplicationofdatamining,includingthebasicconceptsofdatamining,dataminingofthebasictasks(focusingonthenowpopulardata-baseddecisiontreeclassificationalgorithm),androughsetsaregivenintheapplicationofdatamining,forexample.Roughsettheorywiththetheoryofdecisiontree,includingthecoretechnologydecisiontree,decisiontreestructureofroughsettheorymethodsandtheapplicationofdecisiontreethatisalsothenewdual-domainofroughsettheorydatareductionmethods.Analysisofthenetworkathomeandabroadandthenteachingevaluationsystemofresearchresults,andcombinedwiththequalityofclassroomteachingevaluationform,datareductionwillbesuccessfullyappliedtothetheoryofteachingevaluation.Keywords:Thedatareduction,RoughSetstheory,thedatamining,thenetworkteachingappraisal,tocalculates.目录摘要 IIAbstract III目录引言 1引言 2第一章.粗糙集的基本理论 31.1粗糙集历史 31.2粗糙集特点 41.3粗糙集理论的基本概念 4第二章.基于粗糙集在数据挖掘算法研究 122.1数据挖掘的概念 122.2数据挖掘的基本任务 122.3应用实例 13第三章.基于粗糙集建立决策树的算法 16第四章.双论域下粗糙集数据约简方法 174.1变精度粗糙集模型: 174.2双论域下的粗糙集模型 17第五章.关于网络的教学评价 185.1教学评价的定义和网络教学评价的理论指导思想及定义 185.2国外网络教学评价研究成果 195.3国内网络教学评价研究分析 215.4网络教育教学评价过程中应该注意的问题 23第六章.数据约简理论在网络评教中的应用 246.1.数据的预处理 246.2对决策表进行属性约简 276.3决策规则的生成 27第七章总结与展望 29参考文献 30致谢 32引言RoughSets理论是1982年由波兰数学家Z.Pawlak提出的对不确定知识进行表示的理论。近年来,粗糙集作为一种新生的处理不确定性知识的数学工具,由于其独特的计算优势,及其在数据挖掘、机器学习、数据库知识发现、决策分析、专家系统和决策支持系统等方面的成功应用,粗糙集数据分析(RSDA)逐渐被公认为人工智能领域最具潜力的五大新兴技术(粗糙集理论、神经网络、演化计算、模糊系统及混沌系统)之一。同时,该理论还在农学、医学、化学[2]、材料学、地理学、管理科学和金融等其他学科得到成功应用。现在决策表又在决策表属性简化、决策规则的简化是粗糙集理论与实际应用的主要研究方向之一。约简是粗集理论的重要内容,通过删除知识库中多余的属性集(值),来保留知识库中的重要知识,以提高知识的质量,方便用户决策.近年来,许多学者通过不同的方法从不同的角度对决策规则获取(值约简)做了深入的研究。约简包括属性约简和属性值约简,在进行属性值约简之前我们必须先进行属性约简。目前,静态的属性约简算法主要有两类,一类是基于信息熵的算法。另一类是基于可辨识矩阵和可辨识函数构造的属性约简算法,下面据此理论进行发散研究,并将其成功运用于学校师生教学评价管理之中,提升教学管理水平。

第一章.粗糙集的基本理论1.1粗糙集历史现实生活中有许多含糊现象并不能简单地用真、假值来表示,如何表示和处理这些现象就成为一个研究领域。早在1904年谓词逻辑的创始人G.Frege就提出了含糊(Vague)一词,他把它归结到边界线上,也就是说在全域上存在一些个体既不能在其某个子集上分类,也不能在该子集的补集上分类。1965年,Zadeh提出了模糊集,不少理论计算机科学家和逻辑学家试图通过这一理论解决G.Frege的含糊概念,模糊集在实际中仍有比较广泛的应用,模糊集理论采用隶属度函数来处理模糊性,以先验知识为基础,正因为建立在可靠的已知知识基础上,对不确定问题的处理往往会得到很好的结果。(比如基于模糊技术的题库管理系统,基于模糊推理的高校专业课程体系评价专家系统,基于模糊信息处理的高校选课系统构建[3])。20世纪80年代初,波兰的Pawlak针对G.Frege的边界线区域思想提出了粗糙集(RoughSets),他把那些无法确认的个体都归属于边界线区域,而这种边界线区域被定义为上近似集和下近似集之差集。由于它有确定的数学公式描述,完全由数据决定,所以更有客观性。自提出以来,许多计算机科学家和数学家对粗糙集理论及其应用进行了坚持不懈的研究,使之在理论上日趋完善,特别是由于20世纪80年代末和90年代初在知识发现等领域得到了成功的应用而越来越受到国际上的广泛关注。1991年波兰数学家Pawlak教授的第一本关于粗糙集的专著《RoughSets:TheoreticalAspectsofReasoningaboutData》和1992年R.Slowinski主编的关于粗糙集应用及其与相关方法比较研究的论文集的出版,推动了国际上对粗糙集理论与应用的深入研究。1992年在波兰Kiekrz召开了第1届国际粗糙集讨论会。从此每年召开一次与粗糙集理论为主题的国际研讨会。2001年5月在重庆召开了“第1届中国Rough集与软计算学术研讨会”,邀请了创始人Z.Pawlak教授做大会报告;2002年10月在苏州第2届中国粗糙集与软计算学术研讨会;2003年5月在重庆第3届中国粗糙集与软计算学术研讨会;2004年10月中下旬在浙江舟山召开第4届中国粗糙集与软计算学术研讨会;2005年8月1日至5日在鞍山科技大学召开第五届中国Rough2006第六届中国粗糙集与软计算学术研讨会在,浙江师范大学;2007年粗糙集与软计算、Web智能、粒计算联合学术会议,山西大学;2008年第8届中国粗糙集与软计算学术会议、第2届中国Web智能学术研讨会、第2届中国粒计算学术研讨会联合学术会议(CRSSC-CWI-CGrC2008),河南师范大学[4].1.2粗糙集特点粗糙集是一种软计算方法。软计算的概念是由模糊集创始人Zadeh提出的.软计算中的主要工具包括粗糙集(RS),模糊逻辑(FuzzyLogic),神经网络(NN),概率推理(ProbabilityReasoning),信度网络(BeliefNetworks),遗传算法(GA)与其它进化优化算法,混沌(Chaos)理论等.传统的计算方法即所谓的硬计算(hardcomputing),使用精确,固定和不变的算法来表达和解决问题.而软计算的指导原则是利用所允许的不精确性,不确定性和部分真实性以得到易于处理,鲁棒性强和成本较低的解决方案,以便更好地与现实系统相协调。1.3粗糙集理论的基本概念人的的分类能力是对人类以及其他物种,事物的认识能力,是一种知识。从认知科学的观点来理解知识,知识是基于对对象的分类能力,知识直接与真实或抽象世界有关的分类模式联系在一起,称为论域U。设定有一个论域U,对于任何子集XU可成为一个U中的概念或范畴,U的任何概念族称为U的抽象知识,简称知识。关于U的一个划分定义为:={}其中XiU,Xi,XiXj=,ij,i,j=1,2,…n,=U.U上的一族划分称为关于U的一个知识库(knowledgebase)。设R是U上的一个等价关系,U/R表示R的所有等价类,或U上的划分构成的集合,[X]R表示包含元素XU的R等价类。一个知识库就是一个关系系统K=(U,R),其中U为非空有限集,是论域,R是U上的一族等价关系。若PR且P,P(P中所有等价关系的交集)也是一个等价关系,称为P上不可区分关系(indiscernibility),记为IND(P),IND(P)=P,且有[X]IND(P)=[X]HHP.U/IND(P)表示等价关系族(P)的相关知识,称为K中关于U的P基本知识(P为基本集)[5]。1.3.有序对S=(U,A),其中U为非空有限集合,称为全域。A=CD,CD,C表示条件属性集,D表示决策属性集。全域U的元素被称为对象或者实例。下面用表1所示的经典天气决策信息系统为例[6],表1中,a1,a2,a3,a4是条件属性,分别代表天气、温度、湿度、风。d是决策属性,论域U={x1,x2,…,x14[7]}。1.3.2不可区分关系R的非空子集P上的不可区分关系为ind(P).称U/ind(P)为K=(U,R)关于论域U的P基本知识。称[x]ind(P)为P的基本概念。Ind(k)=[ind(P)|PR}。例如:空间物体集合U具有“颜色”、“形状”这两种属,“颜色”的属性值取为红、黄、绿,“形状”的属性值取为方、圆、三角形。从离散数学的观点看,“颜色”、“形状”构成了U上的一族等效关系。U中的物体,按照“颜色”这一等效关系,可以划分为“红色的物体”、“黄色的物体”、“绿色的物体”等集合;按照“形状”这一等效关系,可以划分为“方的物体”、“圆的物体”、“三角形的物体”等集合;按照“颜色+形状”这一合成等效关系,又可以划分为“红色的圆物体”、“黄色的方物体”、“绿色的三角形物体”等集合。如果两个物体同属于“红色的圆物体”这一集合,它们之间是不可分辨关系,因为描述它们的属性都是“红”和“圆”。不可分辨关系的概念是RS理论的基石,它揭示出论域知识的颗粒状结构。1.3.3上近似,下近似给定知识库K=(U,R),对X且XU,一个等价关系,RInd(K).称RX={YU/R|YX}为X关于R的下近似。称X={YU/R|YX}为X关于R的上近似。1.3.4粗糙集若RXX则X为R粗糙集。否则称X为R精确集。1.3.5重要性设R是一族等价关系,RR,如果ind(R)=ind(R-{R}),则称R为R不必要的;否则称R为R必要的。如果每一个RR都为R必要的,则称R为独立的;否则称R为依赖的。1.3.6属性约简对于A的任意子集B,我们把B叫做A的约简,如果IND(B)=IND(A),且IND(B−{a})≠IND(A)[8]属性约简是粗糙集理论的核心问题之一。1.3.7RS理论中应用决策表来描述论域中对象。它是一张二维表格,每一行描述一个对象,每一列描述对象的一种属性。属性分为条件属性和决策属性,论域中的对象根据条件属性的不同,被划分到具有不同决策属性的决策类。对于分类来说,并非所有的条件属性都是必要的,有些是多余的,去除这些属性不会影响原来的分类效果。约简定义为不含多余属性并保证分类正确的最小条件属性集。一个决策表可能同时存在几个约简,这些约简的交集定义为决策表的核,核中的属性是影响分类的重要属性。从另一个角度看,决策表中每一个对象都蕴着一条分类规则,决策表实际上也是一组逻辑规则的集合。1.3.8决策表定义决策表可以定义如下:S=(U,A)为一信息系统,且C,DÌA是两个属性子集,分别称为条件属性和决策属性,且CÈD=A,CÇD=Æ,则该信息系统称为决策表,记作T=(U,A,C,D)或简称CD决策表。关系IND(C)和关系IND(D)的等价类分别称为条件类和决策类。1.3.9决策表的分类:当且仅当CÞD,决策表T=(U,A,C,D)是一致的。由命题1,很容易通过计算条件属性和决策属性间的依赖程度来检查一致性。当依赖程度等于1时,我们说决策表是一致的,否则不一致[9]。1.3.10决策表的属性约简方法一致决策表的约简步骤如下:对决策表进行条件属性的约简,即从决策表中消去某一列;(主要研究点)消去重复的行;消去每一决策规则中属性的冗余值。非一致决策表的约简:对于一致的决策表比较容易处理,在进行约简时,只要判断去掉某个属性或某个属性值时是否会导致不一致规则的产生。而对不一致表进行约简时就不能再使用这种方法了,一般采用下面的方法:一种是考虑正域的变化,另外一种是将不一致表分成完全一致表和完全不一致表两个子表。非一致决策表的约简步骤与一致决策表的约简步骤类似。1.3.11Skowron的约简方法决策表属性约简的过程就是从决策表信息系统的条件属性中去掉不必要的条件属性,已获得表示更简单,对决策更有效的决策规则。属性约简的方法有很多,其中A.Skowron提出一种用分辨矩阵表示知识的约简方法非常著名,另外还有数据分析约简方法,归纳属性约简算法,基于互信息的属性约简算法,基于特征选择的属性约简算法,基于搜索策略的属性约简算法,等等。约简算法如下:令s=(U,R,V,f)是一个信息系统,U为论域且U={x1,x2,…xn},R=CÈD是属性集合.子集C和D别是条件属性集和决策属性集,V=是属性值的集合,表示属性值rR的属性值范围,即属性r的值域,f:URV是一个信息函数,它指定U中每一个对象r的属性值。r(x)是对象x在属性r上的值,D(x)是记录x在D上的值,则可辨识矩阵记为:(Cij)m={rC:r(xi)r(xj)}D(xi)D(xj)=0D(xi)=D(xj)=-1r,r(xi)=(xj)D(xi)D(xj)i,j=1,2,…,n以上公式指出:当决策属性不同且条件属性也不完全相同时,元素值为互不相同的属性组合;当决策属性相同时,元素值为0;当决策属性不同而条件属性完全相同时,元素值为-1,该情况表明数据有误或提供条件属性不足。一个数据集的所有约简可以通过构造分辨矩阵并且化简由分辨矩阵导出的区分函数而得到,在使用吸收律化简区分函数成标准式后,所有的蕴含式包含的属性就是信息系统的所有约简集合。根据分明函数与约简的对应关系,A.Skowron提出了计算信息系统S的约简RED(S)的方法:(1)计算信息系统S的分明矩阵M(S)(2)计算与分明矩阵M(S)对应的分明函数fM(S)(3)计算分明函数fM(S)的最小析取范式,其中每个析取分量对应一个约简,将所有的析取表达式进行合并,得到一个合取范式。(4)将合取范式改为析取范式。(5)输出属性约简结果。析取范式中的每个合取项就对应一个属性约简的结为每个合取项中所包含的属性组成约简后的条件属性集合[10],[11]。为了对决策表进行约简,可以采用分明矩阵的方法对条件属性进行约简,对决策属性相同的个体不予比较。考虑下面的决策表,条件属性为a,b,c,d,决策属性为e。表2U/Aabcdeu110210u200121u320210u400222u511210由下面的分明矩阵很容易得到核为{c},分明函数fM(S)为c∧(a∨d),即(a∧c)∨(c∧d),得到两个约简{a,c}和{c,d}表3表2对应的分明矩阵uu1u2u3u4u5u1u2a,c,du3a,c,du4a,dca,du5a,b,ca,b,d根据得到的两个约简,表5可以简化为下列决策表:表4U\Aaceu1120u2011u3220u4022u5120表5U\Acdeu1210u2121u3210u4222u5210所有约简的计算是NP-hard问题(NP是Non-deterministicPolynomial的缩写,NP问题就是指其解的正确性可以在多项式时间内被检查的一类问题。比如说数组求和,得到一个解,这个解对不对呢,显然是可以在多项式时间内验证的。再比如说SAT,如果得到一个解,也是能在多项式时间内验证正确性的。所以SAT和求和等等都是NP问题。然后呢,有一部分NP问题的解已经可以在多项式时间内找到,比如数组求和,这部分问题就是NP中比较简单的一部分,被命名为P类问题。那么P以外的NP问题,就是目前还不能够在多项式时间内求解的问题了。如果所有NP问题都可以多项式归约到问题A,那么问题A就是NP-Hard)因此运用启发信息来简化计算以找出最优或次优约简是必要的。现在在求最优或次优约简的算法一般都使用核作为计算约简的出发点,计算一个最好的或者用户指定的最小约简。算法将属性的重要性作为启发规则,按照属性的重要度从大到小逐个加入属性,直到该集合是一个约简为止。行的约简:对决策表中的重复的行要删除,因为它们的条件属性和决策属性都相同,都表示同一条决策规则。另外,决策规则的列表顺序不是本质性的,所以表4、表5都可进行约简,如表6可简化为下表:表6U\Aaceu1120u1011u3220u4022对于决策表而言,属性值的约简就是决策规则的约简。决策规则的约简是利用决策逻辑消去每个决策规则的不必要条件,它不是整体上约简属性,而是针对每个决策规则,去掉表达该规则时的冗余属性值,即要计算每条决策规则的核与约简。1.3.12基于可辨识矩阵的启发式约简算法输入:决策表(U,A{d}),其中A=i=1..n。输出:约简:reduct。步骤:<1)令约简后得到的属性集台等干条件属性集台,即reduct=R;(2)计算可辨识矩阵M,并找出所有不包含核属性的属性组合S;(3)将所有不包含核属性的属性组合表示析取范式的形式.即P=ai,k:i=1,…s,k=1,…,m};(4)将P转化为析取范式的形式.并按照公式(2)计算属性的重要性。(5)选择其中重要性最小的属性a,使得reduct,reduct,{a};(6)判断约简操作是否成立,若成立.删除因条件属性约简而引入的冗余样本和不相容样本,i=i+1,转(5);否则恢复约简该属性前的样本数据,结束约简。第(6)步中的判断条件为P1/Po<a式中P0为执行本次约简操作前知识表中样本的数量,p1为执行约简后引入的不相容样本数。a为阈值,根据实际需要确定,通常取a=5%[12]。1.3.13“约简”和“核”概念的重要性“约简”和“核”这两个概念很重要,是RS方法的精华。RS理论提供了搜索约简和核的方法。计算约简的复杂性随着决策表的增大呈指数增长,是一个典型的NP完全问题,当然实际中没有必要求出所有的约简。引人启发式的搜索方法有助于找到较优的约简,即所含条件属性最少的约简[13]。

第二章.基于粗糙集在数据挖掘算法研究2.1数据挖掘的概念数据挖掘(DataMining)意在从大量的不完全的,有噪声的,模糊的,随机的数据中,提取隐含在其中的,人们事先不知道的,但又是潜在有用的信息和知识。还有很多和这一术语相近似的术语,如从数据库中发现知识(KDD)、数据分析、数据融合(DataFusion)以及决策支持等[14]。2.2数据挖掘的基本任务数据挖掘的主要任务是关联分析、聚类分析、分类、预测、时序模式和偏差分析等。1)关联分析(associationanalysis)关联规则挖掘由RakeshApwal等人首先提出。两个或两个以上变量的取值之间存在的规律性称为关联。数据关联是数据库中存在的一类重要的,可被发现的知识。关联分为简单关联,时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关联规则的相关性,还不断引入兴趣度,相关性等参数,使得所挖掘的规则更符合需求。2)聚类分析(clustering)聚类是把数据按照相性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。3)分类(classification)分类就是找出一个类别的概念描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定得算法而求得分类规则。分类可被用于规则描述和预测。分类可描述如下:输入数据,或称训练集(trainingset)是一条条记录组成的。每一条记录包含若干条属性(attribute),组成一个特征向量。训练集的每条记录还有一个特定的类标签(类标签)与之对应。该类标签是系统的输入,通常是以往的一些经验数据。一个具体样本的形式可为样本向量:(v1,v2,…,…vn:c)。在这里vi表示字段值,c表示类别。分类的目的是:分析输入数据,通过在训练集中的数据表现出来的特性,为每一个类找到一种准确的描述或者模型。这种描述常常用谓词表示。由此生成的类描述用来对未来的测试数据进行分类。尽管这些未来的测试数据的类标签是未知的,我们仍可以由此预测这些新数据所属的类。注意是预测,而不能肯定。我们也可以由此对数据中的每一个类有更好的理解。也就是说:我们获得了对这个类的知识。分类技术有很多,如决策树、贝叶斯网络、神经网络、遗传算法、关联规则等。基于决策树的数据分类算法主要有ID3和C4.5算法。Quinlan提出的著名的ID3学习算法是较早的经典算法。它通过选择窗口来形成决策树,是利用信息论中的互信息寻找训练集具有最大信息量的属性字段,建立决策树的一个节点,再根据该属性字段的不同取值建立树的分支;在每个分支子集中重复建立树的下层节点和分支过程。C4.5算法和ID3算法相似,它是对ID3算法的一种改进,它是根据信息增益(InformationGain)值选择作为分裂结点的属性及标准,按照此标准将训练集分成若干个子集。这两中种方法的优点是描述简单,分类速度快,分类较准确特别适合大规模的数据处理。但这两种算法是借用信息论中的互信息或信息增益作为单一属性能力的度量,试图减少树的平均深度,忽略了叶子数目的研究,其启发式函数并不是最优的,存在的主要问题还有:(1)抗噪性差,训练例子中正例和反例较难控制。(2)在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。(3)这两种算法只适合于能够驻留于内存的数据集使用,当训练集大得无法在内存容纳时程序无法运行。4)预测(predication)预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常用预测方差来度量。5)时序模式(time-seriespattern)。时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样,他也是用已知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。6)偏差分析(deviation)在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差检测的基本方法就是寻找观察与参照之间的差别。数据挖掘的基本技术包括统计学,聚类分析和模式识别,决策树分类技术,人工神经网络和遗传基因算法,规则归纳,可视化技术。2.3应用实例粗糙集理论运用病例得出规则,帮助医生做出诊断:信息系统如下:表7一知识信息系统条件属性决策属性患者头疼肌肉疼体温感冒e1是是正常否e2是是高是e3是是很高是e4否是正常否e5否否高否e6否是很高是e7否否高是e8否是很高否上系统描述了8个患者的症状,U={e1,e2,e3,e4,e5,e6,e7,e8},C={头疼,肌肉疼,体温},D={感冒}。根据定义计算知c的d约简为{体温,感冒},核也为{体温,感冒}。U/C={x1,x2,x3,x4,x5,x6},其中x1={e1},x2={e2},x3={e3},x4={e4},x5={e5,e7},x6={e6,e8}.U/D={Y1,Y2}.其中,y1={e2,e3,e6,e7},Y2={e1,e4,e5,e8}.确定性规则有如下几种。R12:IF(头疼,是)且(体温,正常)THEN(感冒,否)。

R21:IF(头疼,是)且(体温,高)THEN(感冒,是)。R31:IF(头疼,是)且(体温,很高)THEN(感冒,是)。R42:IF(头疼,否)且(体温,正常)THEN(感冒,否)。不确定规则有:R51:IF(头疼,否)且(体温,高)THEN(感冒,是)。规则的确定性因子为0.5。R52:IF(头疼,否)且(体温,高)THEN(感冒,否)。规则的确定性因子为0.5。R61:IF(头疼,否)且(体温,很高)THEN(感冒,否)。规则的确定性因子为0.5。R51:IF(头疼,否)且(体温,很高)THEN(感冒,是)。规则的确定性因子为0.5。患者5和患者7,患者6和患者8,症状相同,但有个是感冒另一个却不是,这种情况称为不一致(inconsistent)另外在文献[10]中提出了一种粗糙集属性约简的启发式算法本算法的存储空间主要是用于排序,空间复杂度是O(|C|),而传统的算法用分辨矩阵计算约减属性的核,空间复杂度是O(|C|2),空间复杂度降低了许多,最后得到的决策规则为:规则1(a1,晴)∧(a3,高)→(d,N).规则2(a1,多云)→(d,P).规则3(a1,雨)∧(a4,否)→(d,P).规则4(a1,雨)∧(a4,真)→(d,N).规则5(a1,晴)∧(a3,正常)→(d,P)高效约简算法,大数据集,并行计算以及混合计算等问题是粗糙集在数据挖掘中需进一步研究的问题。

第三章.基于粗糙集建立决策树的算法建立决策树的目标是通过训练样本集,建立目标变量关于各输人变量的分类预测模型,全面实现输入变量和目标变量不同取值下的数据分组,进而用于对新数据对象的分类和预测。当利用所建决策树对一个新数据对象进行分析时,决策树能够依据该数据输入变量的取值,推断出相应目标变量的分类或取值。决策树技术中有各种各样的算法,这些算法都存在各自的优势和不足。目前,从事机器学习的专家学者们仍在潜心对现有算法的改进,或研究更有效的新算法。总结起来,决策树算法主要围绕两大核心问题展开:第一,决策树的生长问题,即利用训练样本集,完成决策树的建立过程。第二,决策树的剪枝问题,即利用检验样本集,对形成的决策树进行优化处理[15]。在数据挖掘中,分类是一个很重要的问题,有很多流行的分类器可以创建决策树来产生类模型。文献[16]提出了一种基于粗糙集理论构造单变量决策树的优化算法,文献[17]介绍了通过信息增益或熵的比较来构造一棵决策树的数据挖掘算法思想,给出了用粗糙集理论构造决策树的一种方法,并用曲面造型方面的实例说明了决策树的生成过程。通过与ID3方法的比较,该种方法可以降低决策树的复杂性,优化决策树的结构,能挖掘较好的规则信息。决策树方法是一种逼近离散之间函数的方法,对噪声数据具有很好的健壮性。决策树方法具有速度快、精度高、生成的模式简单等优点,在数据挖掘中受到许多研究者的关注。决策树的算法很多,1986年J.RossQuinlan提出了著名的决策树归纳算法ID3版本,引起了很大的反响。在此基础上,他又对ID3算法进行了补充和改进,于1993年提出了非常流行的C4.5算法,以后又出现了C4.5的商业改进版C5.0算法。此外还有一些可伸缩算法如SLIQ、SPRINT和雨林算法等也有相当广泛的应用。在数据挖掘的决策树算法中,主要技术难点在于如何选择一个好的分支取值,用信息熵的增益率作为属性选择标准,可以加快决策树的生长速度。决策树技术的应用很广泛,目前,尤其在金融、贸易、电信等方面应用的研究很热点,,体育教学质量评价的公平、合理、高效离不开决策树技术的支持。从目前查阅大量资料来看,决策树技术应用于体育教学质量评价的研究,已引起体育教育管理部门部分专家的关注,目前虽然没有成功的应用系统,当然,这将成为体育学术界不容忽视的研究方向,但理论的研究已趋成熟,并不断得到完善。文献[18]中指出决策树在教学评估中运用正确的实例,我们看到:数据挖掘技术在教育层面上应用早已开始。

第四章.双论域下粗糙集数据约简方法4.1变精度粗糙集模型:Ziarko等人提出的变精度粗糙集(VariablePrecisionRoughSet简称VPRS)模型是对Pawlak的粗糙集(RoughSet简称RS)模型的一种扩展。VPRS通过设置阈值参数β,放松了RS理论对近似边界的严格定义,0.5<β<≤1。当β=1时,VPRS模型就变成了RS模型,因此RS模型是VPRS模型的一个特例。随着β增加,VPRS模型的近似边界区域变窄,即变精度粗糙集意义下的不确定区域变小。因此,VPRS模型对数据不一致性有一定的容忍度。VPRS模型有利于解决属性间无函数或不确定关系的数据分类问题[19]。4.2双论域下的粗糙集模型文献[20]将粗糙集模型推广到了两个不同但相关的论域。文献[21]中将变精度粗糙集理论与关系数据库理论相结合提出了较新颖的计算方法。在传统的粗糙集数据约简算法中,被约简的对象往往都是单一的信息系统,但是在将属性约简算法应用到数据挖掘实践中去的时候,数据约简的对象往往是关系模型数据库,这种情况下对某一问题进行分析时,往往对应数据库中两个以上的表(关系);大多数情况下,可以采用以下两种方法来对数据进行处理:(1)通过对两个表进行连接运算,然后将连接后的表按照单一信息系统的约简方法处理。但(2)将两个表的数据合并在一起,即求两个表的外部并,在某些极端情况下可能要计算两个表的笛卡尔积。双论域粗糙集模型在数据库中得到了较成功的应用,该理论还有待继续扩展[22]。

第五章.关于网络的教学评价5.1教学评价的定义和网络教学评价的理论指导思想及定义随着网络技术的不断发展,网络教学已成为一种重要的教学手段,并受到了众多教育工作者的关注与研究。在校期间,学校的网络教学评价不但完善,我们作为学生也能深深感觉到网络教学评价的方便和准确性,我们首先对网络教学评价做一下分析。5.1.1.教学评价的定义教学评价是指根据教学目标对学生通过教学产生的行为变化作出价值判断,为改善和优化教学提供依据的过程。教育评价从不同的角度,可以分成不同的类别。按评价的功能可以划分为形成性评价、终结性评价和诊断性评价三种。诊断性评价是指教学前为了使新课程、新教材适合不同学生的情况和需要,以实现因材施教。终结性评价指在一门学科的整个教学结束时,对学生的学习效果及成绩所进行的全面的评价。其主要目的是评定学生成绩,为学生具有某种能力或资格作证明。本文所讨论的形成性评价是在教学过程中使用的一种教学评价,主要用于监控、调节教学过程、提高教学质量。它强调的是改进教学,而不是给学生评定等级。这种评价的基本特征是把一个学年或学期的教学过程看作由一系列连续的教学单元所组成的整体,在每个重要的教学单元结束后,对学生的掌握情况进行适时的评价[23]。5.1.2.网络这一信息时代的产物,已经超出了技术产品的本身的内涵,而向社会生活的各个领域扩展,并逐渐形成了具有鲜明时代特色的文化。学习作为延续人类已有物质文化成果、并在原有知识基础上创造出前所未有的活动,已从传统的基于课堂的“教师讲授—学生接受”的。模式转变为通过多种途径来实现。网络突破了时间与空间的限制,给予学习者更加灵活的学习方式—网络教学。目前,网络教学已作为我国教育改革与发展的新生事物,但能否取得成就最终还将取决于其教学质量和教学水平。因此,从网络教学的发展来看,建立一整套从教学到管理、监控和评估的质量保证体系已经是当务之急。而网络教学是一种完全不同于传统教学的新型教学模式,其理论指导是建构主义学习理论,建构主义学习理论提倡以学习者为中心,强调学习者的认知主体作用,所以教学评价的对象,必然从教师转向学习者,评价学习者的学习。在此指导思想下,教学评价的主要对象是学生,当然也对教师进行评价,但评价的出发点从教改变成是否有利于学生的学,是否为学生创设了有利于学习的环境及是否能引导学生自主地学习等,显而易见,对教师的评价标准是围绕着学习者制定的。因此,网络教学评价表现出其独特的特点如注重过程性评价,强调对网络教学的过程进行实时的监控;关注全方位评价,网络教学评价不仅对运用教育技术实施智能教学以及对利用探索、发现、竞争、协作、角色扮演等一系列策略教学的效果进行有效的评价;还对学生在学习中的主动性、自控性、学习的效果进行评价。5.2国外网络教学评价研究成果1.《线学习的认证标准》(E-LeanringCertificationStandards)E-LeanringCertificationStandards是由以LynetteGillis博士为主创者的著名教学设计与适用专业委员会建立的认证标准,这是一种被评价专家认为是确定合格最可靠的标准参照法之一,因为它是基于命题专家们的综合判断。其要求专家审阅每一项,确定每一项指标的得分概率。这些概率的平均值乘以项目总数,其结果就是最低限度的得分。最终的合格线是基于这种综合判断和平均标准误差的计算。最后,对每项得分计算各种分析和可靠性指数。这一标准草案从三个方面旨在对在线学习进行评价,分别为可用性、技术性和教学性。2.《虚拟学习环境的教育评价框架》(AFrameworkforPedagogicalEvaluationofVirtualLearningEnvironments)虚拟学习环境的教育评价框架是由英国Wales-Bangor大学的SandyBritain和OlegLiber共同完成的。该框架从评价策略的角度介绍了两种不同的模型。一种是Laurilard提出的会话模型(TheConversationalFramework),主要把教师和学生、学生之间及学生与环境通过媒体进行交互的活动情况作为评价对象,从所提供的各种学习工具的交互性上考察一个虚拟环境的优劣。另一种是控制论模型,主要依据StaffordBeer的管理控制论中的可视化系统模型而改造成教育领域中应用的模型。3.《在线学习质量》(QualityOnTheLine)在线学习质量是由美国国家教育协会和黑板公司联合发布的基于互联网的远程学习评价标准。这一标准包括:体系结构、课程开发、教学与学习、课程结构、学生支持系统、教师支持系统、评价与评估系统等七个方面,并将这七个方面细化为24个必要的核心子指标项和21个非必要的可选子指标项,同时提供了采用这一标准评价六所学院的网络课程的案例。当然,这一套教学模式除、完整的知识体系、有效的作业和练习、合理的评价方式以外,还有一些与网络相关的特点:突出教与学交互的重要性,重视网络学习环境的创设,强调管理与支持评价内容的重要性等。5.3国内网络教学评价研究分析5.3.1网络教学评价体系1.对学习者的评价网络教学以学习者为中心,它的目的是向学习者提供学习的途径、资源和方法,使学生获得知识与技能,培养学生的认知和元认知策略,最终获得发展。因此,在网络教学中,对学生的评价是网络教学评价的主体内容。学生学习评价作为教育评价的一部分,它是依据学校教育目标,根据学生从事学习的具体情况,运用科学的方法、手段,对学生的学习过程与学习效果所进行的一种评判。2.对网络教师的评价在网络教学环境中,由于教师和学生间时空距离的存在,相对于传统教学对教师的要求更高。要组织成功的网络教学,教师必须提供有效的学习资源,并依据教学目标,采取相应的教学策略和手段,对学生远程学习过程进行组织。由于网络教学的过程是一个不断改进和提高的过程,因此对教师的工作只有不断地提出改进意见,不断调整和提高教学的质量,网络教学才能获得持续的发展。3.对学习资源的评价学习资源是整个网络教学活动过程的主线,学习过程就是对学习资源的利用,加工和再加工的过程。学习资源的利用程度直接关系到教学的效果,因此学习资源的质量直接关系到教学的质量,直接影响学生的发展。学习资源主要是指网络信息资源中有益于学习者学习的信息,是作为学习者开展基于网络学习活动的基础资源。网络教学中的学习资源不仅指教师提供的网络课件、网络课程,还包括教师提供的其它学习资源以及来自互联网的巨大资源。对网络课件、网络课程的评价包括课件、课程的内容是否符合网络学习的要求、结构与导航是否合理、练习与反馈是否对教学提供有利的支持、以及内容呈现的技术性、交互性等多个方面。4.对网络教学支撑平台的评价在网络教学环境中,教学信息的传递是通过网络这个媒介进行的。为了有效组织网络教学活动,网络教学的实施通常在网络教学支撑平台下进行。网络教学支撑平台包括技术系统和教学系统两部分,技术系统是指网络系统本身,是教学活动的技术平台;教学系统是指能够提供实现自主学习、协作学习、探究式学习的策略支持系统。5.对学习支持与服务系统的评价网络教学过程中的学习支持是网络教育机构为解决学生在网络学习中遇到的困难,提供的学术性或非学术性帮助。在网络教学过程中,学习者常常会遇到诸如学习技能方面的困难、与远程机构交互的困难和个人方面的困难。对于网络教学来说,学习支持与服务系统对网络教学的影响是非直接的,但它在很大程度上起到保证网络教学顺利进行的作用,它对于学生顺利完成学习常常起到了关键性的作用。5.3.2网络教学评价系统针对以上对网络教学评价体系的分析,结合现有的网络技术,目前可实现的网络教学评价系统有以下几种:1.网络实时评价系统网络实时评价系统是一个基于Intenret的网上虚拟评价环境的模型。学习者可以不受时间、空间的限制,通过公共通信手段,进行文字、图像、视频和音频的异地实时交流。这种评价系统体现了网络教学快捷、灵活的特性,可以为学习提供及时的反馈,有效地监控、管理学习过程,提高学习效率,增强学习的控制度。2.网络考试系统网络考试系统是一个基于数据库和Internet的远程在线实时测试系统,包括学生考试系统,自动批阅系统和题库管理系统等。该系统可以在任何地点、任何时间进行实时考试,试卷的难易程度可控制,支持自动批卷功能,而且数据的统计分析方便快捷。该系统中的所有考试信息都以数据库记录的形式存储。用户可以用登录的方式从数据库中随机抽取试卷,进行阶段测试和综合测试。信息量大,效率高,管理方便也是网络考试系统的优点,教学者能很容易地从评价结果中获得更深层的信息。3.网络答疑系统目前网络答疑系统主要有在线讨论和互动交流两种形式。在网络答疑系统的数据库中存储了大量的疑问和解答信息,教师可以对这些信息加以汇总和分析,从中发现教学的问题,并及时调整教学方法和策略,改进教学效果。网络答疑系统还提供了搜索引擎的数据库系统,学习者可以通过关键字匹配,问题勾连技术,全文检索等技术快速得到问题的答案。4.网络多媒体考试系统网络多媒体系统是基于Web、多媒体技术和虚拟现实技术的评价模式。在该模式下,服务器和客户端可实现对多种对象的评价。在传统文本型考试的基础上,增加了音频、视频、图形等多媒体数据,并可运用虚拟现实技术组建虚拟考试环境,使各种各样的测评方式得以实施。例如口语测试、技能实验、情感交流等。网络多媒体考试系统以宽带技术、流媒体技术、AG技术为技术支撑[24]。5.4网络教育教学评价过程中应该注意的问题教学评价是对非量化的教学过程或者某个对象进行定量调查,得出定性结论的一个过程。从非量化的事物中提出数据转化成定量和定性的结论的过程中,必须建立一个相对准确的模型。对于不确定的因素,只能用相对准确的数据来描述,这样必然会带来一定的误差。因此要注意以下一些因素带来的误差,使教学评价的结论尽量接近于真实情况。5.4.1教学评价的目的和相应评价对象标准的确定在评价的过程中,应该根据当前教学的实际情况,确定评价的目的。首先不应该过分提高需要达到的目的和要求,因为这样很可能得出的数据达不到预先的要求,从而出现错误的结论,影响正常的教学过程,出现“拔苗助长”的恶劣影响;然而过分降低需要达到的目的和要求,又有可能因为得出的结论轻易达到或者超过预定要求,而掩盖了教学中的隐患,使本次教学评价的可信度大大降低,同时也不利于教学过程的改进和教学质量的提高。5.4.2教学评价系统的可信度教学评价系统在进行信息收集、信息处理等各个方面或多或少会使用一定的模型,采用模型必然会影响到数据结论的可信度。在对调查结果中同一个问题的不同选项的进行分析整理的时候,应该对各种不同的选项采取相应的权重。采用的权重会直接影响最终结论。人为地确定权重,就会对结果产生相应的误差。即使采用国际通用的分析方法,分析方法本身就允许一定的误差存在。因此,我们必须降低各项因素的不确定性,以提高教学评价系统的可信度。网络技术在教育中的应用日益广泛和深入,特别是Internet与校园网的接轨,为各类教育提供了丰富的资源,使网络教学真正成为现实,同时也为各种教育开辟了广阔的前景。开展网络教学模式研究的重要理论基础之一就是网络教学的评价。所以,如何保证网络教学的质量,建立一个行之有效的网络教学评价模型,已成为网络教学研究的一个重要课题。

第六章.数据约简理论在网络评教中的应用学校为了提高教学质量会采多种措施,教学评价就是其中的措施之一。我们学校教务处在线系统比较多,功能比较齐全,比如说教务管理系统,网上选课系统,成绩查询系统,网上评教系统等[25]。比如我们学校教务处期末前些天在网上评教系统中将教师教学质量评估表发给学生,学生根据评估表中的项目对教师进行打分,经统计后根据评分结果确定该教师教学质量考核等级。这种教学质量评估活动对于学校的教学改革和教学质量的提高起到了相当的作用。但不能对教学评价数据进行分析,不能发挥教学评价对教学的指导作用。在教学过程中,影响教学质量的因素是多方面的,利用数据约简理论能够从大量的教学评价数据中发现影响教学质量的关键因素分析教师教学行为和教学成果之间的关系。6.1.数据的预处理数据的预处理主要包括数据的清洗和积成。在运用roughset理论处理决策表时,要确定条件属性或决策属性的值域,得到相关的条件属性和决策属性字段后,对属性值进行离算化[26],下图是一课堂教学质量评价表:表8.课堂教学质量评价表课堂教学质量评价表(学生用表)评价内容评价等级一级指标二级指标优(5)良(4)中(3)一教学态度1工作责任心强,按时上下课,不随意调课、停课ABC2适量布置作业并认真批改,耐心辅导答疑ABC3为人师表,重视课堂纪律,以理服人,关心并严格要求学生ABC二教学基本要求4选用适当、先进、近期出版教材ABC5准备充分,有讲稿、教学大纲、教学周历、教案等ABC6用普通话讲课,语言准确、流利,板书工整规范ABC三教学内容及水平7讲授熟练,概念准确,条理清楚,逻辑性强,举例恰当ABC8突出重点,讲清难点,进度适中,有深度和广度ABC9理论联系实际,吸收最新研究成果,反映学科前沿ABC四教学方法及手段10因材施教,突出课程特点,讲授方法得当A~C11注重启发式教学,引导学生思考、创新,重视能力培养A~C12注重课堂讨论和演示,采用现代化教学手段A~C五教学效果及艺术13教师有自己的风格,讲授受到欢迎,学生学习有兴趣ABC14授课内容易于接受和掌握;通过学习,能力得以提高ABC15师生互动,教师的教学有助于学生的做人和治学ABC六开放性评价栏首先对属性进行编号,列出字段表表9.属性编号字段表属性编号属性含义属性编号属性含义a1教学态度a5教学效果及艺术a2教学基本要求a6开放性评价专栏a3教学内容及水平D综合评价a4教学方法及手段离算化后各属性的含义如下:a1(教学态度):3—优(80—100),2—良(60-80),3(60分以下);a2(教学基本要求):3—优(80—100),2—良(60-80),3(60分以下);a3(教学内容及水平):3—优(80—100),2—良(60-80),3(60分以下);a4(教学方法及手段):3—优(80—100),2—良(60-80),3(60分以下);a5(教学效果及艺术):3—优(70—100),2—中(70分以下);a6(开放性评价专栏):3—优(80—100),2—良(60-80),3(60分以下);d(综合评价):3—优(80—100),2—良(60-80),3(60分以下)。假如经过大量的教学质量考评,然后求平均得分得到以下二维表:S=<U,R,V,F>,设论域为整个样本,R=CD,U={1,2,3,4,5,6,7,8,9,10},条件属性C={教学态度,教学基本要求,教学内容及水平,教学方法及手段,教学效果及艺术,开放性评价专栏},决策属性D={综合评价}。表10.离散化之后的教学质量评估表编号教学态度教学基本要求教学内容及水平教学方法及手段教学效果及艺术开放性评价专栏综合评价1良优良优优优优2优良优优优良优3优良优中优良优4优优良中优良优5中中优优优良良6良良优中良良良7优优优中中良良8中中中中优良中9良中优中中良中10优优良优中良良按照上面离算方法将上表离散之后得到教师质量评测的决策表:表11.离散化之后的教学质量评估表编号a1a2a3a4a5a6a71232133323231323332303234332032351131322622302227333012281110321921301211033211226.2对决策表进行属性约简利用RIDAS中基于分明矩阵的属性约简算法对决策表约简[12][27],约简之后决策表如下所示:表12.约简之后的决策表编号a1a3a5D122332333333333432335133262322733128113192311103212通过分析可知,通过对教学评价决策表约简,得到影响教学评价的关键因素,分别是教学态度,教学内容及水平,教学效果及艺术,这三个因素对教学平价结果起着关键作用,对其他三个属性进行了约简,他们只是不起决定作用,因此要对关键属性加强控制,有助于教学质量的提高。6.3决策规则的生成具体算法如下:对经过属性约简后的信息系统的每个实例删除多余的条件属性值,从而得到该实例的值核;又得到的值核求出最小约简;根据最小约简,得到信息系统决策规则。对上述约简之后的决策表进行属性值约简,采用启发式值约简,标记值核和删除无用的记录后得到下面决策表:表13.属性值约简之后的决策表编号a1a3a5D1*23323*33513*26**2273*128*1*192*11根据上述决策表导出提取规则:规则1:IF(a3=2)AND(a5=3)THENd=3规则2:IF(a1=3)AND(a5=3)THENd=3规则3:IF(a1=1)AND(a3=3)THENd=2规则4:IF(a5=2)THEN

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论