数学建模—高等教育信息推荐模型_第1页
数学建模—高等教育信息推荐模型_第2页
数学建模—高等教育信息推荐模型_第3页
数学建模—高等教育信息推荐模型_第4页
数学建模—高等教育信息推荐模型_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、精选文档竞赛题目(在AB上打勾): A B 竞赛队编号(参赛同学不填写):_目 录问题的提出3问题的分析与假设3模型的建立与求解6效绩评价12猜测评估13信息推举方案13模型的评价与推广14附:给有关部门的信15 参考文献16高等院校教育信息化推举模型摘 要本文针对当前我国高等院校教育信息化过程关于信息推举方面存在的问题,进行了分析争辩,建立了包含满足度、精确率、掩盖率、实时性这四个方面的信息推举评价指标体系,通过问卷调查的方式收集相关数据,确定了各指标的权重因子。主要利用奇异值分解法和LSA方法建立了信息推举模型,并利用相关算法对我们设计出的模型的效绩进行检验,最终给出了具体的信息推举方案,

2、并对我们的模型进行了评价推广。问题一、我们对不同用户的评测标准进行了问卷调查,通过数据分析,给出了各个指标的权重,满足度是0.243,精确率是0.265,掩盖率是0.238 ,实时性是0.255。确定了外生变量: 用户个体差异、网站建设。内生变量:信息资源建设如学术网站、期刊杂志、选修综合课。问题二、建立信息推举模型,对奇异值分解后的矩阵进行降维, 构建潜在语义空间。通过计算得出表面上没有关联的关键词和文章之间的相关性达0.9333,验证了模型的效绩,并对模型进行了优化,给出了信息聚类图。问题三、提出了我国高等院校教育信息推举的具体方案。奇异值分解和LSA方法建立信息推举模型的优势:1、应用条

3、件易得;2、不在局限于计算方阵,可以适用于任意矩阵,更加具有普适意义。3、相比传统向量空间,潜在语义空间的维度更小,语义关系更明确。4、低维空间表示可以刻画同义词,同义词可对应相同或相像的主题。5、降维可去除部分噪声,使特征更明显。关键词:教育信息推举模型、奇异值分解法、LSA方法、Spearman coefficient相关系数一、问题的提出1、问题背景:21世纪是信息时代,随着信息技术越来越广泛的应用,互联网已经成为我们日常生活中必不行少的工具,而传统教育体系所暴露出来的弊端也日益明显,例如严峻受到地域限制,教育资源安排不均,相互之间沟通不够等,为使之适应信息化社会对教育进展的新要求,建设

4、更好的教育信息平台来满足同学互联网学习的需求,教育体系信息化改革刻不容缓。由于教育信息化表现出快捷高效、节省成本,不受地域时间限制、资源共享,沟通开放等优势,所以在教育教学及管理的各个领域都开头推出各种形式的信息教育平台,例如远程教育,网站管理,网课、论坛等很大程度上促进了教育信息化的进展,然而,目前的教育信息体系还是不够完善的,例如信息推举体系这一块被严峻忽视,而现有的推举体系仍存在推举精确率不够高,推举方式单一等一系列的问题,因此建立出合理的数学模型来完善教育信息推举体系是一项迫切等待解决的工作。2、需要解决的问题:(1)建立信息推举的指标体系,确定信息推举的变量(2)建立高等学校信息推举

5、模型(3)就信息推举模型设计推举算法(4)给有关部门写一封信,推介你们的信息推举模型。二、问题的分析及假设通过读题可知,有效信息推举是目前教育信息化的重要问题,我们需要明确信息推举的指标以及其推举变量,然后为高等院校建立合理有效的信息推举模型,设计其相应的算法,最终向相关部门推介我们的模型。1、信息推举的指标体系为了提高信息推举模型的精确度,我们的评测指标主要有包含以下四个方面的内容:(1)满足度O:即用户的需求被满足的程度。满足度是用户的一种心理状态,它能够反映推举的信息和用户的期望之间的契合程度,用数学式量化表示如下:O= exp(a1*x1+ a2 *x2+ a3 *x3+ a4 *x4

6、)(其中,x1是下载率、x2是点击率、x3是停留时间、x4是共享率,a1,a2,a3,a4分别是各自的权重,令a1=0.4,a2=0.2,a3=0.05,a4=0.35,这里我们假设用户的行为无出错。)注:O值越大,用户满足度越高。(2)精确率:信息推举的精确性也是评价此体系的一个重要指标,可以有效的提高用户的搜寻效率。我们这里用精确率P和召回率R来评测信息推举的精确性1。假设:系统检索到的相关信息(A)系统检索到的不相关信息(B)相关但是系统没有检索到的信息(C)不相关且没有被系统检索到的信息(D)则:精确率P: P = A / ( A + B ),0<P<1召回率R: R =

7、A / ( A + C ),0<R<1精确率P越大,说明检索到信息越精确,但检索范围相对较窄;召回率R越大,说明检索到的信息比较全面,但精确度会降低。综合考虑,我们用这两个指标进行调和后的指标F来反映信息推举的精确率。F=(2+1)P*R2*(P+R) 当=1时,F=2*P*RP+R注:F越大,精确率越高。(3)掩盖率:信息的掩盖率可以验证资源是否有效的传送给了用户,我们接受信息熵H和基尼系数G来量化这一指标2。假设,信息i的流行度是已知的。p(i)=b(i)/ b(i) ,H=-p(i) log p(i) ,G=1n-1(2j-n-1)p(ij)(b(i)为信息i的流行度, ij

8、 是依据信息流行度p()从小到大排序的信息列表中的第j条信息)注:H和G越小,掩盖率越高。(4)实时性T:因信息具有更新速度快的特点,所以信息推举的实时性更显得尤为关键。实时性反映所推举给用户的信息是否是最新最有参考价值的。T=vf f=m/n(v是推举列表的变化率,m是新信息的数量,n是全部推举信息的总数量)注:T越大,实时性越高。以上的评测指标可以通过在线或离线来计算。对于以上四个评测指标,我们对不同用户的评测标准进行了问卷调查,通过数据分析,给出了各个指标的权重,满足度是0.243,精确率是0.265,掩盖率是0.238 ,实时性是0.255。 图(一)各指标的平均得分(5分制) 图(二

9、)各指标的比例2、信息推举的变量外生变量: 用户个体差异、网站建设用户个体差异:由于用户个人的文化水平,个人喜好,搜寻习惯,对搜寻内容的生疏程度等的差异会对教育推举的指标体系造成一些影响。网站建设:现在的扫瞄器五花八门、种类繁多,其网站建设质量也良莠不齐,有好多网站为了追求商业利益,更是商业捆绑,推举一些用户不需要的广告消遣八卦等垃圾推送信息,有些网站甚至其本身就存在着一些系统漏洞等问题,这无疑对用户高校的猎取有用推送信息造成干扰,对教育信息推举的指标体系造成肯定负面影响。内生变量:信息资源建设,如学术网站,期刊杂志,选修综合课(包括校内课程与网络公开课)学术网站:作为用户猎取信息的直接来源,

10、其应当保持应有的学术严谨性,直接打算着用户猎取信息的满足度、精确率、掩盖率、实时性。对信息推举体系起这至关重要的作用。期刊杂志:市场上形形色色的期刊杂志百花齐放,竞争激烈,彼此之间也拉开了档次,用户的认可度也在很大程度上受到其知名度的影响,然而,无论是哪个档次的期刊,其收纳的文章都是层次不及的,只是比重有差异罢了,而由于认可度所带来的弊端暴露了出来,例如不能以批判理性的思维去辨别认可度高的期刊,更简洁对认可度低的期刊产生偏见。另一方面,当今社会,期刊杂志已经成为了人们茶余饭后,休闲消遣,候车等人时打发时间的不二之选,而且人们也乐于将自己宠爱的期刊杂志推举给亲朋好友,或是坚持追某一系列的期刊杂志

11、,所以期刊杂志也是构成信息推举体系的重要组成部分。选修综合课:选课系统作为高校教务管理系统中必不行少的一部分,然而,选修综合课推举系统还不够完善,同学很难高效精确的找到与自己的爱好安好全都的课程,因此加强选修综合管理系统建设,会显著影响到信息推举体系的评价指标。决策变量:用户需求3、确定主要的信息推举方式:网络信息推举。三、 模型的建立与求解(一)理论方法介绍1、奇异值分解法3特征值分解是一个有效提取矩阵特征的方法,但是它只是对方阵而言的。在现实的世界中,我们看到的大部分矩阵都不是方阵,而奇异值分解法能适用于任意的矩阵。分解方式如下: (1) 假设A是一个n *m的矩阵,那么得到的U是一个n

12、* m的方阵(U里面的向量是正交的,称为左奇异向量),是一个n* m的矩阵(除对角线的元素外都是0,对角线上的元素称为奇异值), VT(V的转置)是一个n* m的矩阵(V里面的向量是正交的,称为右奇异向量),即 (2)在很多状况下,前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上了。所以,我们也可以用前r个奇异值来近似描述矩阵,这里定义一下部分奇异值分解: (6)r是一个远小于m、n的数,这样矩阵的乘法形式如下: (7)右边的三个矩阵相乘的结果将会是一个接近于A的矩阵,r越接近于n,相乘的结果越接近于A。2、LSA法4 LSA(latent semantic analysis)潜

13、在语义分析,也被称为LSI(latent semantic index),是Scott Deerwester, Susan T. Dumais等人在1990年提出来的一种新的索引和检索方法。该方法和传统向量空间模型一样使用向量来表示词和文章,并通过向量间的关系(如夹角)来推断词及文档间的关系。(二)模型的建立假设:信息资源系统自动猎取。接受奇异值分解法和LSA方法相结合建立模型,以用户查找文章的行为为例,假设用户需求为“文章”,其输入为“关键词”。1、分析关键词与文章之间的关联性,建立关键词-文章矩阵X。假设有m个关键词,n篇文章,X就是一个m*n的矩阵。其中,第i行、第j列的元素是Xij,是

14、第i个词在第j篇文章中消灭的次数。下边以m=12,n=9为例:X= 1 0 0 1 0 0 0 0 00 1 1 0 1 0 0 0 01 1 0 0 0 0 0 0 01 0 1 0 0 0 2 0 00 1 1 2 0 0 0 0 00 1 0 1 0 0 0 0 1 0 1 0 0 1 0 0 0 00 0 1 0 0 0 0 0 00 1 0 0 1 0 0 0 00 0 0 0 0 1 1 1 00 0 0 0 0 0 1 1 10 0 0 0 0 0 0 1 1 观看这个矩阵,第一个词(b1)和其次个词(b2),他们没有在某篇文档中共同现过,他们的关系使用Spearman coef

15、ficient相关系数来计算。具体代码及结果如下:即得到b1和b2的相关系数为-0.3780,说明它们两者的相关性不大。2. 对X进行奇异值分解。分解公式为X=USVT,代码及结果如下:矩阵U的每一行代表的是一个关键词,每一列表示一个语义相近的词类,元素Uij表示的是第i个词和第j个语义的相关性,数值越大越相关。矩阵V的每一行代表一篇文章,每一列表示一个主题,元素Vij表示的是第i个文章和第j个主题的相关性,数值越大越相关。矩阵S表示的是词的语义和文章的主题的相关性,数值越大越相关。因此,通过奇异值分解,我们不但可以得到词的语义分类和文章的分类,而且得到了每个词的语义和文章每个主题之间的相关性

16、。3、对奇异值分解后的矩阵进行降维, 构建潜在语义空间。对关联矩阵进行重构,然后选取S矩阵中最大的两个值,作为重构矩阵的条件,即X=U(:,1:2)*S(1:2,1:2)*V(:,1:2)'。 U的第一列表示每一个词的消灭频繁程度,虽然不是线性的,但是可以认为是一个或许的描述;V的第一行表示每一篇文章中的消灭词的个数的近似;S表示的是U和V之间的重要程度,数字越大越重要。形成的潜在语义空间如下:4.计算语义空间的b1和b2的Spearman coefficient系数代码及结果如下:可以看到b1和b2虽然在原始文章中并没有共同消灭,但他们的相关联程度竟然达到了0.9333。5、推断是否

17、进行推举通过上面的分析,我们发觉表面上并没有直接联系的关键词和文章可能也存在深层次的关联。因此 ,我们接受上述模型计算关键词和文章的语义相关系数,通过这个数据对比,来打算文章是否进行推举。这里,我们设定相关系数大于0.8时,就进行推举,算法如下:row=size(y,1);% 猎取重构矩阵的大小x=1:row;num=0.8;z=0;%用来存储相关性大于num的文章所代表的的行号coeff=zeros(1,row);for i=2:row coeff(i)=corr(y(1,:)' , y(i,:)' , 'type' , 'Spearman')

18、; if(coeff(i)>num) z=z,i; endEnd通过这样的选择,就可以得到和第一篇文章相关性较强的文章,而这些文章就是我们所要推举给用户的。6、模型优化将第3部分中的矩阵U和V,投影到一个平面上,可以得到关键词和文章的分布图,代码及结果如下: clearclclsi=0,0,1,1,0,0,0,0,0;0,0,0,0,0,1,0,0,1;0,1,0,0,0,0,0,1,0; 0,0,0,0,0,0,1,0,1;1,0,0,0,0,1,0,0,0; 1,1,1,1,1,1,1,1,1;1,0,1,0,0,0,0,0,0; 0,0,0,0,0,0,1,0,1;0,0,0,0,

19、0,2,0,0,1; 1,0,1,0,0,0,0,1,0;0,0,0,1,1,0,0,0,0;U,S,V=svd(lsi);y=U(:,1:2)*S(1:2,1:2)*V(:,1:2)'lu=size(U,1);lv=size(V',1);scatter(U(:,2),U(:,3)hold onscatter(V(:,2)',V(:,3)')legend('point1','point2')hold onfor i=1:lu circle(U(i,2),U(i,3),abs(U(i,3) hold onendfunction =c

20、ircle(x,y;r) rectangle('Position',x-r,y-r,2*r,2*r,'Curvature',1 1 ) axis equalend图(三)图(三)中,每一个红色的点,表示一个关键词,每一个蓝色的点,表示一篇文章,这样我们可以对这些词和文章进行聚类。按聚类消灭的效果,可以提取文章集合中的近义词,这样当用户检索文章的时候,就可以用语义级别(近义词集合)去检索了。这样一来就削减了检索次数和存储量。 (三)模型的总结在此模型中我们首先构建了用户行为(关键词)与信息资源(文章)之间的关系矩阵,接下来利用奇异值分解法和LSA法得到了一个语义空

21、间矩阵,该矩阵可以反映那些在表面上看起来没有关系的关键词与文章之间的相关性,进一步的计算了Spearman coefficient系数,并利用Spearman coefficient系数的大小推断文章是否推举给用户,最终对模型进行了优化。上述模型的具体过程都是以用户输入关键词查找文章为例说明的,为了适用于高校教育信息化的其他方面,只需要将模型中的关键词换为用户的其他具体行为,文章换为其它信息资源。下面给出了一般情形的模型算法流程图:开头构建用户行为与信息资源的的关系矩阵计算Spearman coefficient相关系数Spearman coefficient相关系数相关系数>a奇异值分

22、解,构建语义空间 coefficient相关系数计算Spearman coefficient相关系数Spearman coefficient相关系数相关系数>a聚类分析Spearman coefficient相关系数进行推举Spearman coefficient相关系数不推举Spearman coefficient相关系数结束是否否是图(四)上边算法流程图中,推断相关系数时即“相关系数>a”,其中a<1,a的确定值依据具体状况给,理论上要求接近1。由于,a的值越接近1,相关性越大,推举的信息的质量就越高。四、效绩评价针对教育信息推举体系待完善的问题,我们从满足度、精确率、掩

23、盖率、实时性四个方面建立了信息推举指标体系,然后通过问卷调查,做图表汇总并分析相关数据,得出了各个指标的权重,满足度是0.243,精确率是0.265,掩盖率是0.238 ,实时性是0.255。并且进一步确定了外生变量: 用户个体差异、网站建设;内生变量:信息资源建设,如学术网站,期刊杂志,选修综合课(包括校内课程与网络公开课);决策变量:用户需求。在此基础上我们接受奇异值分解和LSA方法建立信息推举模型,通过一系列算法得出了在字面上看起来没有任何联系的关键词与文档实际上其潜在的深层次相关性达到0.9333,验证了这一模型取的了显著的效绩,更加深化精确的剖析出了搜寻关键词和期望文档之间的潜在联系

24、,在很大程度上提高了信息模型的满足度、精确率、掩盖率、适时地性等评价指标。为进一步完善模型,我们还对模型的功能做了优化,使信息推举模型的更好的满足用户的需求,促进我过教育现代化的进展步伐。五、猜测评估依据模型所取得的效绩,在将来几年,教育推举体系的效率和精确性将有很大的提高,而且其功能将会进一步被完善,教育信息化将迎来前所未有的创新性改革,大量的云计算将会运用于教育信息化,为教育信息化供应更加宽敞的空间。有望形成“人人皆学,处处能学、时时可学”的国家现代化教育进展目标。更好的实现教育信息化对同学全面进展的促进作用。对深化教育领域综合改革的支撑作用和对教育创新进展、均衡进展、优质进展的提升作用。

25、形成具有国际先进水平、信息技术与教育融合创新进展的现代化教育信息体系。六、信息推举方案针对目前教育信息化过程中的一些待解决的问题,我们对信息推举这一模块,通过收集数据,数学计算等方式建立了一套可以完善信息推举功能的模型,经过算法检验,证明我们所建立的模型表现出很好的效绩,并且形成了信息推举方案如下:第一、严格规范评价指标,全面提高信息推举质量。接受多种形式,从各个方面全面的对信息推举体系进行评价,并且打分排名,这样有利于规范这个网络平台的信息推举体系的建设,并且在竞争压力的推动下,也有利于促进各网络平台信息推举平台不断的创新完善其功能,从满足度、精确率、掩盖率、实时性等各方面全面的提高信息推举

26、质量。其次、加强用户需求分析,进一步提高信息推举精确率。对用户需求的分析,不应当学问停留在浅显的字面分析,而应当运用我们上面建立的模型,运用数学算法,客观的用数据结果给出搜寻关键字于用户期望的文档之间潜在的深层次联系,并高效精确的为用户推举其期望的文档,提高信息推举的精确率,优化信息推举体系的功能。第三、拓宽信息推举体系的引用,提高教育信息现代化的整体水平。虽然教育信息推举体系是主要针对教育信息的,在互联网如此发达的时代,整个信息现代化的进展形成了一个巨大的网络,各个领域的信息进展又是相互之间紧密联系,相互影响,荣辱共存的。所以应当讲此推举体系的应用进一步推广到社会进展的各个领域,只有整个社会

27、的信息化水平总体提高了,教育信息化水平才能进一步提高。不然,教育信息化水平仍旧是受到社会总体信息化水平的制约。第四、做好信息推举体系的监督工作,营造健康严谨的网络推举环境。应当对系统推举的信息进行初步过滤筛选,屏蔽不健康的、包含商业广告的、正确性没有权威保障的、以及消遣八卦、头条热点等任凭推送的一些垃圾骚扰信息然后再推送给用户,这样就提高了推送效率和质量,并且保障了健康严谨的网络推举环境。七、模型的评价与推广模型中实行的评价指标及相关数据来源于问卷调查,有较高的牢靠性和代表性,能够全面的、客观的、有效的评价各项指标的权重。奇异值分解法和LSA方法的优势:1、应用条件易得;2,不在局限于计算方阵

28、,可以适用于任意矩阵,更加具有普适意义。3相比传统向量空间,潜在语义空间的维度更小,语义关系更明确。局限性:无法猎取用户文章的评价值,仅仅是通过用户检索的关键词来给用户推举文章,这样的方法会导致用户在下一次搜寻时,上一次就筛选过的文章又会消灭在推举选项中,若要对模型进行优化处理,首先要考虑的问题就是需要如何避开文章的重复推举,下一步对模型的构思是利用其他算法,来对用户行为进行学习,通过对用户搜寻行为的记录,分析之后来推举出更适合于用户的文章。推广:用奇异值分解法和LSA方法建立的模型,不仅可以解决高等学校教育信息化进展过程中推举体系存在的一些问题,还可以解决商品购买推举、旅游攻略、最佳路径推举、求职岗位推举等问题,具有普适意义,应用范围广泛,功能全面。附:给有关部门的信敬重的各位领导:您好!我们是西北师范高校的同学,在此向您推举我们小组针对高等学校教育信息推举体系所建立的数学模型并提出具体的信息推举方案。首先,感谢您在繁忙之余能抽空来扫瞄我们的方案,也渴望您能够提出贵重的意见,对此我们将格外感谢。下面简洁的介绍下我们的方案。 十八大以来,信息化以成为重要的国家战略,然而,目前的教育信息体系还是不够完善的,还存在资源安排

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论