【基于差分隐私保护的学生成绩应用探究(论文)8000字】_第1页
【基于差分隐私保护的学生成绩应用探究(论文)8000字】_第2页
【基于差分隐私保护的学生成绩应用探究(论文)8000字】_第3页
【基于差分隐私保护的学生成绩应用探究(论文)8000字】_第4页
【基于差分隐私保护的学生成绩应用探究(论文)8000字】_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要伴随着互联网时代的到来,数据和数据之间的价值变得日益重要。同时,随着国家相关政策的出台以及经济的迅猛增长,教育成为人们密切关注的领域。因此,本文旨在研究学期课程之间的联系,为学校优化课程安排作出更合理的选择。首先,针对学生学期末各课程的测试成绩,运用关联规则挖掘中的Apriori算法进行分析,得到各个课程之间的关联性。得出各课程成绩最高分布区间及课程间存在强关联性等结论。但与此同时,运用学生成绩得到分析结果意味着学生个人信息可能会遭到泄露。因此,为了保护学生的隐私,本文采用拉普拉斯机制进行差分隐私保护,并引入了服从随机分布的噪声干扰值,使除学生本人以外,隐私攻击者无法获取学生的个人信息,起到良好的隐私保护的作用。得出在存在强关联规则的前提下,学生也无法通过已知的应用统计学成绩获取到离散数学的成绩的结论。关键词:学生成绩分析;差分隐私;关联规则挖掘;Apriori挖掘算法1绪论1.1研究背景与意义近年来,随着数据信息的深入研究,数据之间的关联规则的挖掘已迅速发展成为所有研究领域甚至各国政府的热门话题。挖掘数据相关性的算法数不胜数,其中关联规则挖掘算法得到了最为广泛的应用。同时,在关联规则挖掘算法的众多分支发展中,Apriori算法最早被人提出来,且以其原理简单、结果更易实现的特点成为实用性最强的算法。研究数据相关性的方法层出不穷的同时,如何在已有数据相关性结论之下,对隐私数据进行保护显得更为重要。差分隐私保护可以有效地保护数据:首先,隐私攻击者不论有多少相关的已知信息,也不能推断出信息所有者的其余重要隐私信息;其次,统计模型的严谨性使得在使用差分隐私时可以更好地得出准确的分析结论。在教育领域中,挖掘学生各学科成绩之间的关联性,有助于学校更深入了解课程之间的关系以更好的为学生定制课程,同时有利于学生有针对性地查漏补缺,强化优势学科,弥补弱势学科。然而,在得到各课程相关性结果的同时,学生的各科成绩信息存在被泄露的风险。因此,针对此类问题,可采用差分隐私保护学生个人隐私,拉普拉斯机制中的服从随机分布的噪声值干扰可以使学生只能获得自己的学习成绩信息,而不能推断他人的信息。综上所述,教育领域中,对于学生各科成绩进行基于差分隐私保护的关联规则挖掘非常有意义。因此,本文先是通过关联规则挖掘出课程之间的联系,以便学校更好的优化课程安排,后通过差分隐私引入噪声值保护学生的成绩隐私免于暴露。1.2国内外研究现状2010年,Enrique等人[1]提出了一种基于关联规则挖掘的协同教育数据挖掘工具。旨在帮助老师改善教学课程。2012年,王冬秀等人[2]为了提高Apriori算法在交通事故分析中的效率,提出了一种改进的Apriori算法来分析大量的交通事故记录并查找频繁因素的组合。2013年,Aher[3]在课程推荐系统中,使用k-means聚类算法对学生进行分类。在同一集群中,使用Apriori算法分析学习记录并推荐系统。2015年,杨财英[4]在已经优化过的Apriori算法基础上再次进行改进,生成Apriori33算法,此算法应用于学生成绩数据挖掘中。该算法可以更好地开展教学工作以及提高教学质量,也可以为教学和相关管理提供强有力的决策支持。2017年SongShaoyun[5]等人利用sqlserver关联规则挖掘算法,通过关联规则挖掘建立学生成绩预警模型。并分析了学生第一次课程考试的关联规则。2018年SungSik[6]等人使用Apriori算法对数学成绩与解题思路进行关联分析,提高学生成绩中有价值的信息。2018年,马天昊[7]等人使用经典的Apriori算法,挖掘每个学科之间的潜在关联关系,并获得一系列关联规则。在此基础上,我们可以对如何提高学生的学习成绩提出建议。2020年余弦[8]等人提出了一种大数据背景下基于Apriori算法的学生成绩与就业流向研究。为高校就业管理工作提供理论指导。2013年,MarcoGaboardi等人[9]证明了DFuzz增强的表达能力,证明了一大类迭代算法的差异隐私性,通常而言这些迭代算法以前是无法键入的。2014年,熊平[10]等人分析了差异隐私保护模型相对于传统安全模型的优势。本文综述了差异隐私的基本理论及其在数据发布和数据挖掘中的应用。2015年,Hong,Y等人[11]提出了一种高效的协议-协作搜索日志消毒(CELS),以满足这两个隐私要求。除了安全/隐私和成本分析外,作者还通过实际数据集演示了该方法的实用性和效率。2016年,ChiLin等人[12]提出了一种基于差分隐私保护的车身传感器网络大数据保密方案。与以往方法相比,该方案将提供更高的可用性和可靠性的隐私保护。并引入动态噪声阈值的概念,使该方案更适合于处理大数据。2017年,叶青青[13]等人介绍了局部差分隐私的原理和特点,并总结了该技术的最新研究工作。最后,作者重点分析了该技术的研究热点:局部差分隐私下的频率统计和均值统计,以及满足局部差分隐私的干扰机制的设计。2021年,WangDi等人[14]通过研究局部属性差分隐私模型下的真值推断问题部分地解决了这些问题。并在经典Dawid-Skene方法的基础上提出了一种新的算法private-Dawid-Skene。1.3研究方法本篇毕业设计主要采用两种研究方法,包括文献研究法、定量分析法。文献研究法:文献研究法是根据所选择的相应研究方向与主题,对已发表的文献进行资料的归纳与积累的过程。旨在对所研究方向有更为深入细致的了解。文献研究法被广泛应用于各类研究中。定量分析法:定量分析法是指在科学研究中,通过一定的计算及编程工具使所研究内容更精确的量化,以便更精准的掌握科学规律,参透本质,从而进一步正确预测发展趋势。1.4研究内容互联网时代下,挖掘数据之间的关联规则愈来愈重要,而在学生所学习过的多门课程中,某些课程存在较强的关联性,影响学生的学习情况。而如何挖掘出学生各学科成绩间的关联规则,日益成为值得研究的课题。基于以上讨论,本文决定使用关联规则挖掘算法Apriori算法来分析和挖掘学校课程之间的相关性,为学校优化课程安排提供更好的选择。此外,数据之间的关联性越来越多的被挖掘,同时,学生对未知事物的猎奇心理更重,在得到个人的成绩数据后,存在较大概率想要推算出其他同学相对应学科的分数。导致学生成绩隐私存在较大的被泄露风险。因此,迫切需要一种合理、正确的方法来保护学生的学科成绩数据不被泄露。基于此,本文采用差分隐私保护机制,引入噪声值,使得学生无法反推出其他同学的成绩,从而保护好学生的成绩隐私。2理论基础2.1关联规则挖掘关联是指存在两个及以上的变量相互联系,则称此两类变量存在关联。关联分析是指在大量数据集中存在某种数据关联,然后使用某种技术或算法来挖掘数据属性之间的规则和关系,这种分析技术的特点是实用、简单。关联规则挖掘技术在数据挖掘和分析中的应用旨在挖掘数据集中信息之间的某些关系和关联规则。值得注意的是,关联不是人为预先预测的,而是通过收集数据和挖掘关联规则来获得的。首次提出运用数据挖掘分析数据相关性的是沃尔玛连锁超市,根据啤酒、牛奶、尿布等的商品营销组合,发掘出尿布与啤酒为最佳销售组合,以此打开了数据相关性分析即关联规则挖掘的大门,同时为沃尔玛带来不低的利润。由此可知,关联挖掘规则对商业营销决策具有不可忽视的价值,常用于实体店商品捆绑售卖、线上门店商品联合推荐以及货物陈列等,为商业营销带来业绩增长,达到寻找高潜力消费者的目的。2.2差分隐私保护隐私是指当事人不愿意或者不愿暴露自己的个人信息提供给公众。差分隐私保护是指根据随机算法对特定数据集的结果进行随机化。该算法输出的统计结果的概率变化不大。隐私攻击者无法根据算法运行的统计结果推断出一定的数据记录是否存在于原始数据集中。拉普拉斯机制和指数机制为差分隐私的两类实现机制。上世纪九十年代中后期,为促进公共医学研究的发展,马萨诸塞州集团保险委员会发布一批医院导出数据。而这些医疗数据,为防止别有用心人士盗取医疗患者信息挪作他用,删除了所有医疗患者的姓名、住址等隐私信息。但一位在卡内基梅隆大学修学的博士LatanyaSweeney,将保险委员会公布的数据与选民公开记录对比后,挖掘出医疗患者被刻意隐藏掉的私人信息,因此,形成影响力巨大的隐私泄露事件。此事件发生之后,研究人士开始陆续提出差分隐私保护的概念,并着手研究。3基于AprioriDP算法的研究3.1问题描述项与项集:令,其中,。每一个称为项。项所组成的集合称为项集。其中,包含个项的项集称为项集。事务(事件)与事务集:一个事务集可属于一个项集。也就是说事务集是项集的一个子集。任何一个可标识符都存在一个相对应的事务。支持度:是一个比值,即事务库中具有一组特定项集的事务数。其中,既包括特定项集项又包括项集的事务计数可表示为,事务的计数可表示为。公式如下所示:可信度:置信度为一个比值,即支持度与支持度的比值,表示含有特定项集的数量,公式如下所示:频繁项集:如果项集的支持度超过定义的最小支持阈值,则称为频繁项目集。3.2算法实现原理及步骤3.2.1算法实现原理找出所有的频繁项集(如图1所示):每个项集都包含在候选1项的集合中。该算法将扫描每个事务以获取所有项目,然后生成的集合。之后,计算所有项目的总数。对于不符合条件(小于最小支持阈值)的项,删除该项集,并获得频繁项集。经过重复操作后,通过修剪策略进行自身连接并应用于频繁项集生成的集合,以获得候选项集。然后,重复步骤(1)以扫描交易,并计算集合中的项目总数。最后,通过删除不满足最小支持规则的项来获得频繁项目集。计算强关联规则:根据之前计算的频繁项集,可以通过公式获得强关联规则。因此,不难看出关联规则挖掘的效率在很大程度上取决于频繁项集搜索。图SEQ图\*ARABIC1频繁项集生成步骤3.2.2AprioriDP算法实现算法输入:数据集,最小支持度,最小可信度输出:频繁项集defgenerateLk_Ck(dataset,Ck,min_support,support_data):

2.Lk=set()//根据Ck,通过最小支持度生成Lk

3.i_count={}

4.forjindataset:

5.foriinCk:

6.ifi.issubset(t):

7.ifinotini_count:

8.i_count[i]=1

9.else:

10.i_count[i]+=1

11.j_num=float(len(dataset))

12.foriini_count:

13.if(i_count[item]/j_num)>=min_support:

14.Lk.add(i)

15.support_data[i]=i_count[i]/j_num

16.returnLk4基于差分隐私保护的研究4.1问题描述查询:查询是指数据集中定义的各种映射函数。用来表示。兄弟数据集:存在两数据集属性相同,两数据集的对称差可表示为,两数据集的数据差数值可表示为。若,则称两数据集为兄弟数据集。灵敏度:灵敏度是指数据集中的某条数据删除后对最终结果的影响,常用作测试噪声量大小。包括两种方式,一种为全局灵敏度,一种为局部灵敏度。差分隐私:将一个随机算法中全部的输出结果整合到一起,形成的集合用表示。假设存在和两个兄弟数据集,以及的任何子集,表示事件发生概率。那么,算法能够满足:通常而言,越小,数据的可用程度越低,数据的保密程度越高。越大,数据的可用程度越高,数据的保密程度越低。因此,确定恰当的为重中之重。4.2算法实现原理及步骤4.2.1Laplace机制实现原理数值类查询结果通常使用差分隐私保护机制,而非数值类查询结果通常使用指数性机制进行差异隐私保护。基于本篇毕业设计中学生学科成绩为数值类数据。所以,采用差分隐私保护中的机制。对于某一给定的数据集,设定映射函数为:,映射函数的敏感度可用表示,随机噪声可用表示,其中,随机噪声的参数服从保护机制。对随机算法加入隐私保护,则。函数:,其中,表示参数,表示期望。4.2.2Laplace算法步骤算法输入:噪声值,最大差值输出:差分隐私后的数据defset_noisy(epsilon,value):

2.w=np.random.random()-0.5

3.noisy=0.0-value/epsilon*np.sign(w)*np.log(1.0-2*np.abs(w))

4.returnnp.rint(noisy)5.foriingrade:

6.noisy_grade[i]=(noisy_grade[i]+set_noisy(epsilon,value))

7.print('原始的数据如下:{}'.format(grade))

8.print('差分隐私后的数据如下:{}'.format(noisy_grade))5基于差分隐私保护的学生成绩应用通过关联规则挖掘学生的学业成绩之间的相关性时,有可能会泄露学生的学业成绩。因此,研究人员需要采取某些措施来保护学生的个人隐私信息。在发送挖掘结论时,如何使得学生不能通过所发送的成绩结果推断出其他学生的成绩数据,同时保证保护学生自身的成绩不被他人推断出来。全体学生成绩相关性挖掘结果公示时,应当确保学生个人的成绩信息不被直接或间接攻击泄露。在采取一定措施保护学生个人信息后,应保证只有学生本人或其任课老师可获得学生的学科成绩。同时,该名学生无法通过自身信息获知其他同学的相关信息。因此,将算法应用到学生成绩分析中去。通过本校商学院2017级工程管理专业学生学习《离散数学》、《计算机网络与应用》、《战略管理》、《管理学》、《应用统计学》、《概率论与数理统计》等十五门课程的学习数据进行实验分析。通过实验结果分析出学生各学科成绩之间的关联性强弱。通过基于算法对学生各学科成绩进行分析,在保护学生个体隐私下,挖掘学生各学科成绩背后隐藏的价值信息。5.1实验数据集5.1.1数据来源本文首先收集本校商学院工程管理2017级学生学习《离散数学》等十五门课程的成绩数据,主要包括学期末十五门学科的测试成绩。原始数据集一共包括69名学生的成绩信息。研究使用的信息包括学生学科成绩,姓名,学号等几部分,部分数据显示如图2所示:图SEQ图\*ARABIC2原始数据学生成绩信息5.1.2数据预处理数据清理:旨在删除重复值、处理缺省值并对数据进行标准化处理的过程成为数据清理。收集的学生学科成绩中,存在部分学生未选修所测试学科。因此,学科测试成绩残缺值以平均值进行填充。5.1.3数据转换将数据转换为应用算法适用格式的过程成为数据的转换。学生的学科测试成绩为离散化数值,虽满足了算法的输入为离散化的数值信息这一要求。但成绩的数值间隔微小,并且仅以学生成绩这一单一维度作为测试数据挖掘各学科间的关联关系,会导致算法执行过程中效率低下且算法结果会使得后期的分析过程繁杂化,无法得到准确的关联情况。此外,所选中学科的学习成绩是百分制的数值型数据。基于此,对学生的各学科学习成绩按照成绩区间段划分为A~E五段,划分规则如表1所示。表1学生成绩区间划分学习成绩所属类别[90,100]A[80,90)B[70,80)C[60,70)D[0,60)E此外,将十五门学科的名称用序号1~9表示。对数据进行转换与处理后,所汇总得到的数据如图3所示图3处理后学生成绩信息5.2实验结果与分析5.2.1学生成绩相关性分析在对学生学科成绩进行数据挖掘后,可得到单门学科成绩所处分类级别及对应支持度,如表2。在所统计的15们学科中,B(即区间为80~90)为七门学科中占比例最高的分类级别,A(即分数区间90~100)为五门学科中占比例最高的分类级别。分类级别最高占比无D与E分类,表明十五门学科的学生成绩大都高于70分。计算机网络与应用中,存在96%的人数获得了90分以上的成绩,表明学生对该学科掌握较好。而在概率论与数理统计中,B为最高占比区间,但比例仅为29%,表明该学科对应的学生成绩分布较为均匀。表2单门学科学生成绩支持度学科得分最高区间得分区间占比学科得分最高区间得分区间占比离散数学A0.80数据库系统概论C0.36计算机网络与应用A0.96体育B0.52战略管理A0.65应用统计学B0.45马克思主义基本原理概论C0.62机器学习C0.36管理学A0.55运筹学A0.87营销学概论B0.83体育B0.52概率论与数理统计B0.29毛泽东思想概论B0.48电子商务B0.59可得到双门学科重复出现同一区间的情况及对应支持度,仅统计占比>0.70,如表3。运筹学与计算机网络与应用最高区间均为A(即90~100),且所占比例高达83%,表明大多数学生在学习此两门课程中,较易理解,得分都较高。而营销学与计算机网络与应用的组合中,营销学分类级别为B与计算机网络分类为A的所占比例最高,表明大多数学生在学习两门课程时得分高于80分。表3双门学科学生成绩支持度学科区间占比运筹学,计算机网络与应用A,A0.83营销学,计算机网络与应用B,A0.78离散数学,计算机网络与应用A,A0.77运筹学,概率论A,B0.75可获得三门学科重复出现同一区间的情况及相应的支持度,仅统计占比>0.60,如表4。在运筹,计算机网络与营销学的组合中,存在71%的学生运筹学与计算机网络同时获得90分以上的成绩,同时运筹学获得80~90分的成绩。表4三门学科学生成绩支持度学科区间占比运筹学,计算机网络与应用,营销学A,A,B0.71运筹学,离散数学,计算机网络与应用A,A,A0.65计算机网络与应用,离散数学,营销学A,A,B0.62可获得学科间的强关联规则部分如表5。由表中数据可知,大多数数据都可与计算机网络与应用形成强关联规则。由上文分析可知,计算机网络存在96%的学生该学科测试成绩在90分及以上,因此可分析出多数学科数据易与计算机网络形成关联规则。概率论与数理统计的成绩区间在80~90之间的学生所获得的运筹学成绩一定在90分以上。同时,机器学习的成绩区间在80~90之间的学生所测试的运筹学成绩也一定在90分以上。毛泽东思想概论的成绩区间在70~80之间的学生有0.77的概率在马克思的成绩中同样得到70~80的成绩。表5学科成绩置信度强关联规则置信度强关联规则置信度A10=>A21.001.00B11=>A10.87C10=>A2A7=>A30.85B7=>A131.00A7=>A50.80B12=>A131.00B7=>C40.80B11=>A130.97C10=>B80.78A7=>B60.95C15=>C40.77B7=>B60.9A8=>A50.76C15=>A10.88B10=>B140.72C4=>B60.88A8=>B140.72A1=>A130.85A8=>B100.72A1=>B60.81C12=>A30.72A2=>A130.86A5=>A30.71A2=>B60.81A1=>A30.705.2.2学生成绩隐私保护在存在强关联规则的前提下,以B11=>A1为例,假设学生B得知学生A的应用统计学成绩在80~90的区间内,则学生B较为容易推断出学生A的离散数学成绩。为保护学生隐私不受侵犯,本篇毕业设计以对离散数学进行差分隐私为例,对于每名学生的离散数学的测试成绩给予不同的隐私保护参数,之后观察不同隐私对隐私安全度的影响。图5-3给出的四个折线图分别表示不同的隐私保护参数下得到的学生离散数学被保护后的结果。其中,图4(a)为学生测试成绩的原始数据;图4(b)为当时生成的学生成绩结果;图4(c)为当时生成的成绩;图4(d)为当时生成的推荐结果。可以看出,当隐私保护预算参数不为零时,的不同值会使原始数据有一定程度的失真,从而起到隐私保护的作用。同时,设置不同的隐私保护预算参数可以获得不同的数据组。(a)原始数据(b)(c)(d)图4不同噪声值下学生学科成绩根据图5易看出,隐私参数设值不同的情况下,噪声值的波动范围也会不断发生变化。的值越小,越有可能偏离原始建议值,使得学生的成绩范围波动变大,最值扩大,并且其可用性变差。但是会使得隐私保护程度更高。因此,在今后的研究中,对于隐私保护级别的区分可以通过设置不同的值来实现,并且可以实现数据可用性与不同隐私保护级别两者的平衡。图5不同隐私保护参数对比6总结与展望本文对基于差分隐私保护的学生成绩分析进行了一系列的研究。首先,对目前国内外研究相关方向的文献进行了总结,得出进行成绩分析对学校优化课程安排的重要性。其次,对于学生各学科成绩采用Apriori算法进行关联规则挖掘,旨在分析出学校各学科相互之间的影响,以对今后的学校课程安排上提出合理的建议。再次,由于挖掘结果的公布,可能会导致学生的个人信息存在泄露的风险。并且公布数据越多,学生信息遭泄露的概率越高,风险越大。因此,提出利用差分隐私保护,调整隐私参数来控制隐私保护程度,使得隐私攻击者无法根据已知信息推导出信息所有者的相关数据。在本篇毕业设计中,仅针对单门学科之间的置信度进行隐私保护,希望在未来的研究中,在已知多门学科的相关关系中进行差分隐私扰动,更好的确保学生个人信息受到保护。参考文献EnriqueGarcia,CristobalRomero,SebastianVentura,etal.Acollaborativeeducationalassociationruleminingtool[J].Internet&HigherEducation,2010,14(02):77-88.王冬秀.关联规则挖掘的Apriori算法的改进与应用[J].广西工学院学报,2012,23(04):27-31.AherSB,LoboLMRJ.CombinationofmachinelearningalgorithmsforrecommendationofcoursesinE-LearningSystembasedonhistoricaldata[J].Knowledge-BasedSystems,2013,519(otc):1-14.杨财英.Apriori算法及其在学生成绩分析中的应用研究[D].湖南大学,2016.SongShaoyun.TheResearchonAssociationRulesMiningTechnologyinStudentAchievementEarlyWarning[P].Proceedingsofthe20177thInternationalConferenceonSocialNetwork,CommunicationandEducation(SNCE2017),2017.arkS,ParkYB.Analysisof

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论