版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 基于c4.5决策树算法的网络学习行为研究 马伟杰摘 要 网络学习行为研究,是网络教育研究的重要组成部分。采用先进的人工智能技术对网络学习者的行为特征进行智能评价和预测,成为一个新兴交叉研究领域。采用c4.5决策树算法构建网络学习者行为特征系统,挖掘行为特征和学习效果关系的历史数据,建立学习效果-行为特征智能评价模型。通过实验仿真发现,c4.5决策树算法取得了较为理想的分类预测效果。关键词 c4.5算法 决策树 网络学习行为:tp311.13 :a0引言网络学习系统以其开放的网络平台、多媒体数字化的学习资源、灵活自主的学习方式为人们提供了一种
2、新型的学习平台,可以满足不同的学习者在不同的学习时间的个别化学习的需求。但大多数只是将教学资源放到了网络上,没有考虑到学习者的个性化特征。师生之间缺乏交流和反馈功能,教师难以对学生学习的过程进行控制,而学习者自己由于能力所限,也难以对学习过程进行自我控制,导致学习者信息迷航、情绪低下、学习热情衰减等问题,严重影响学习效果。因此,师生双方都迫切希望能够建立提供个性化的推荐和指导的学习系统。个性化指导的本质就是根据不同学生的个性特征提供有针对性的服务。因此,其最基本也是最首要的问题就是如何对学生的行为进行分析,并从中挖掘学生的学习特征。学习者的个性特征直接影响着学习者的学习行为和学习效果。本文研究
3、决策树方法的经典算法c4.5算法,将其应用于网络学习者的网络学习行为,建立数据挖掘模型,合理将网络学习者分类,进而改进网络学习系统的设计方案。1 c4.5决策树算法决策树是判断给定样本与某种属性相关联的决策过程的一种表示方法,从数据中生成分类器的一个特别有效的方法是生成一颗决策树,该方法广泛应用于数据挖掘和机器学习等领域,用来解决与分类相关的问题。决策树表示法是应用最广泛的逻辑方法。目前生成决策树方法的算法主要有三种:cart算法,id3算法,c4.5算法。其中c4.5算法具有分类速度快且精度高的特点,是发展得比较完善的一种决策树算法。c4.5算法是构造决策树分类器的一种有效算法,并最终可以形
4、成产生式规则。c4.5算法的输入是一张关系表,由若干不同的属性及若干数据元组(称为训练样本)组成。属性分为两部分:一部分作为判定对象属性(判定树中的非叶节点);另一部分作为分类对象属性(判定树中的叶节点)。c4.5算法采用信息熵的方法,比较各个判定对象属性的信息增益率的大小,选择信息增益率最大的属性进行分类,递归生成一个判定树。设|s|为训练集s的样本总数,共有m类样本ci(i=1,2,3,m,),|ci|为类ci中的样本数,设pi=|ci|/|s|是任意样本属于ci的概率,训练样本分类属性的总信息熵e(s1,s2,sm)的计算公式为:e(s1,s2,sm)=-(pi*log2(pi)公式(1
5、)设属性a具有v个不同值a1,a2,av,可以用属性a将s划分为个子集s1,s2,sm,其中si包含s中这样一些样本,它们在a上具有值aj(j=1,2,v)。设|sij|为si类中cj的样本数,以属性a为分类所需的期望熵e(a)的计算公式为:e(a)= (|s1j|+|s2j|+|smj|)*e(s1j,s2j,smj)/|s|公式(2)属性a相对于类别集合c的信息增益gain(c,a)的计算公式为:gain(c,a)=e(s1,s2,sm)hae(a)公式(3)属性a相对于类别集合c的信息增益率gainratio(c,a)的计算公式为:gainratio(c,a)=gain(c,a)/e(s
6、1j,s2j,smj)公式(4)2 c4.5算法在个性化网络学习中的应用2.1问题定义与数据预处理网络学习行为的评定,一方面要根据网络学习者的的学习基础,同时还要结合每位学习者的具体表现和实际情况,包括学习动机、学习策略。根据学习者的学习基础、学习动机以及学习策略,建立c4.5决策树的分类预测模型,实现对网络学习行为特征进行评价。其实质是:运用c4.5算法进行数据挖掘,获得分类规律,即学习策略与学习行为特征之间的关系;推导出分类规则,即学习行为特征智能评价模型。文中网络学习行为数据的采集采用问卷调查与web服务器端日志获取两种方法,学习者的学习动机与学习基础采用问卷调查的方式来获得,学习策略通
7、过web日志获取。我们对计算机学院2013级210名学生2015-2016学年的操作系统网络课程的学习行为建立数据表,进行分析和处理。其中包括字段:学号、学习基础、学习动机、学习策略和行为特征。对数据进行数据清洗、数据转换、数据集成、数据规约等技术,去掉数据集中的噪声和不相关的信息,将数据源的数据类型与值转换成统一的格式。对行为特征等级属性作处理:根据实际情况,将行为特征划分为四种类型:(1)变通型(用a表示):该类学生有着自主学习的经理和能力,自我管理和自治能力较强,在学习过程中可以不受学习固定路径的限制,自助选择学习的知识点进行学习;(2)顺应型(用b表示):该类学生习惯于传统教育模式,但
8、缺乏学习的积极性,在学习策略上无主见,主要取决于网络学习系统提供的学习策略和学习路径安排;(3)补充型(用c表示):该类学生喜欢学习,对课程有兴趣,但基础差,若在学习策略上符合要求,能够按照既定的目标和路径学习;(4)逆反型(用d表示):该类学生学习基础中等偏下,无学习动机,学习常常受外在动力的驱动。定义学习基础:根据实际情况,将学习基础划分为优良、中等、差三等,其中优良表示问卷测试得分为介于80与100之间,中等得分介于60与79之间,差是低于60分。 定义学习策略:根据实际情况,将学习策略划分为合格、不合格两类。定义学习动机:根据实际情况,将学习动机划分为强、中等和弱三类。数据预处理完成后
9、,得到数据转换后的网络学习者学习行为信息表,如表1所示。由于记录太多,表1仅显示部分记录。我们随机抽取预处理后的数据(共210个数据)2/3的数据,即140个数据样本,作为c4.5算法的训练集,剩下的1/3的数据,即70个数据样本,作为测试集。2.2构造决策树数据预处理后,开始归纳决策树,此过程使用数据预处理得到的训练集。根据前述的c4.5算法,将属性学习策略、学习动机、学习基础作为算法的对象属性, 将属性行为特征作为目标属性,利用信息增益率的定义将属性进行排列,具有最高信息增益率的属性选作给定集合的测试属性。创建一个根结点,并以该属性标记,对属性的每个值创建分枝,然后递归建树,可构造一棵决策
10、树,算法具体处理过程如下:训练样本数据集中,共有140个元组,其中行为特征等级属性(属性值为a,b,c,d)每个属性值所对应的子集中元组个数分别为s1=26,s2=30,s3=50,s4= 34。为了计算每一个决策属性的信息增益,首先利用公式计算集合s分类的总信息熵:e=(s1,s2,s3,s4)=e(26,30,50,34) =halog2halog2halog2halog2=1.035然后计算每一个决策属性的期望信息熵 。对属性“学习策略”,当学习策略=合格。e=(s11,s21,s31,s41)=halog2halog2halog2halog2=1.234当学习策略=不合格e=(s12,
11、s22,s32,s42)=halog2=0由此得出学习策略的熵值e(cl)=e(s11,s21,s31,s41)+e(s12,s22,s32,s42)=1.086因此“学习策略”的信息增益为:gain(cl)=e(s1,s2,s3,s4)hae(ty)=0.059属性“学习策略”的信息增益率为:gainratio(cl)=gain(cl)/(s1,s2,s3,s4)=0.052同理得到属性“学习动机”、“学习基础”的信息增一律分别为:gainratio(dj)=0.049,gainratio(jc)=0.041。由于属性“学习策略”具有最大的信息增益率值,故而选择该属性作为决策树的根节点。对于每一个分支,重复上述步骤生成决策树。如图1所示。因篇幅有限,只画出第一层次单位的决策树。2.3分类规则提取从决策树中提取一等,二等,三等类的规则。分类规则如下:(1)if学习策略=“合格” and 学习动机=“强” and 学习基础=“优良” then 行为特征为a;(2)if学习策略=“合格” and 学习动机=“强” and学习基础=“中等” then行为特征为b;(3)if学习策略=“合格” and 学习动机=“中等” and学习基础=“差” then 行为特征为c;(4)if(学习策略=“合格”)or (学习动机=“中等” and学习基础=“差
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度“唐代书法与绘画艺术品收藏与投资合同”3篇
- 2025年度体育赛事VI视觉形象合同3篇
- 2024简约合同封面图片
- 2025年度文化旅游景区场地经营权出让协议2篇
- 2025年度城市综合体拆迁补偿与开发合同4篇
- 2025便利店加盟店品牌保护及知识产权合同范本3篇
- 2024年03月广东兴业银行广州分行春季校园招考笔试历年参考题库附带答案详解
- 2024版股权转让委托的协议书
- 专业会计咨询与服务协议精简版版B版
- 2025年二零二五食堂工作人员聘用与食品安全培训及考核合同
- GB/T 22484-2008城市公共汽电车客运服务
- GB/T 14040-2007预应力混凝土空心板
- 带状疱疹护理查房课件整理
- 奥氏体型不锈钢-敏化处理
- 作物栽培学课件棉花
- 交通信号控制系统检验批质量验收记录表
- 弱电施工验收表模板
- 绝对成交课件
- 探究基坑PC工法组合钢管桩关键施工技术
- 国名、语言、人民、首都英文-及各地区国家英文名
- API SPEC 5DP-2020钻杆规范
评论
0/150
提交评论