R语言期末复习_第1页
R语言期末复习_第2页
R语言期末复习_第3页
R语言期末复习_第4页
R语言期末复习_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1、智慧教学及其评价研究智慧教学:教师与家长、管理者共同设计课程,学生对学习内容、方式(小组学习、自主学习)、测试形式、学习进度、学习路径、评价进行选择,课程符合个体需求,适应个性化发展。课堂中,教学内容并不是一成不变的,教师要随着时代发展,更改教学内容、测试内容,课程内容也可以由学生讨论生成的,让学生从内容的消费者变为创造者。学习资源自适应,全面支持移动泛在学习,既服务于在校学生,又支持社会学习者,支持学分银行。借助网络平台,充分表现社会性、实践性、现实性;采用视真手段,基于真实的课堂、场景、活动、竞赛,将教育与社会实践以新的形式相结合。全面支持学习者的研究和创造。评价:课堂中,通过智慧教室

2、的摄像设备,录制课堂学生的状态,针对视频,用滞后序列分析,分析学生的行为,进行过程性评价。通过学生使用的点阵笔和纸,记录学生思考和学习的过程,进行数据分析评价。在平台中,通过学生访问各个模块的数据,依据学生的认知风格的不同,进行个性化评价,过程性评价与总结性评价相结合。2、回归定义:回归是研究一个因变量与一组自变量之间的关系。即用一个或多个预测变量(自变量或解释变量)预测响应变量(因变量)的方法。回归分析可以生成一个等式,通过解释变量来预刚响应变量。思想:根据自变量的值预测因变量的均值回归诊断:vsFiftEidl二口一百比线性:拟合值与残差图,分布在y=0的上下,对称分布,比较好中llK.u

3、.二三;nhem口a-24012Th3口/atimKluW展6正态性:如果满足正态假设,那么图上的点应该落在呈45度的直线上,否则违反正态分布。IIttFH凸户EScale-Location同方差性:在水平线上随机分布,则满足同方差性。时由帕a残差与杠杆图:寻找以下三种类型点离群点:y轴距离较远的点杠杆点:x轴距离较远的点强影响点:去掉之后系数变动很大的点异常点的改进办法:删除观测点变量变换添加或删除变量使用其他回归方法回归数据分析Call:ImCformula=RunTimeRunsizetdata=production)Residuals:MinIQMedian3QMax-23.597-1

4、1.0793.3298.30229.627Coefficienrs:Estimatestd.ErrortvaluePr11|)(Intercept145.747703.S2S1517,9S6.00e-13*Run5ize0.259240.017146.9Sl.Gle-06*各*Signif.codes:0官'0.001w0-013050.11'1Residualstandarderror:It.25on18degreescffreedomMultipleR-squared:0.7302,AdjustedR-squared:0.7152F-statist1c:48.72on1an

5、d18df5p-value:1.615e-06Residuals(残差)对残差求一下最大值和最小值Coefficients系数Intercept截距RunSize斜率看一下p值(图中pr的值)有三个"代表显著(比较好)Residualstandard标准差(越小越好)(自由度,样本数-参数=自由度)MultipleR-squared代表R平方(越趋向于1越好)AdjustedR-squared调整的R平方值(考虑自由度)F-statistic(F检验)对整个式子进行检验p-value:1.615e-06小于0.05代表显著T检验用来检验各个参数的显著性F检验用来检验整个回归关系的显著

6、性拟合残差图是抛物线形状,那么需要二次项在p<0.001水平下,回归系数都非常显著。模型的方差结实率已经增加到了99.9%。二次项的显著性(t=13.89,p<0.001)表明包含二次项提高了模型的拟合度。逻辑斯蒂回归ea+xa+p25:2+-+pnxnP=P®=1|工1,又2一.,X-)=th-卜3112如“1+eo4p1x1+pEK2+-+pnKnrY=1就是这个式子,y=0是1减去这个式子这个式子计算丫取1的概率,式子结果>0.5取1,反之,取0训练集,训练一个模型测试集,测试训练集的模型glm()广义线性模型model<-glm(formula=chu

7、rn.,data=train,family='binomial')summary(model)因变量churn,自变量.,表示所有自变量3、聚类思想:聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。聚类分析的目标就是在相似的基础上收集数据来分类。流程:数据要满足:高类聚,低耦合欧拉距离(两点之间)曼哈顿距离(每一维度)明考斯基距离划分聚类:聚类算法k-means不存在三个中心点选距离作为数据样本间相似性度量选择评价聚类性能的准则函数组间聚类越大,聚类越好K-中心点聚类存在的三个中心点层次聚类group_k3=cutree(fit_hc,k=3)分成3类

8、str(as.dendrogram(fit_hc)文本的形式打印这棵树sapply(unique(group_k3),function(g)countries$countrygroup_k3=g)查看k=3的聚类结果中各类别样本4、关联规则思想:关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。流程:关联规则可以用两个指标来判定:支持度与可信度支持度:X商品交易量/总的交易量可信度:同时包含X、丫的交易量/包含X的交易量提升度:XY可信度/Y支持度(>1比较好)只有支持度和可信度较高的关联规则才是用户感兴趣的。关联规则挖掘主要有两个问题:1 .找出交易数据库中所有大于或等于用户指定

9、的最小支持度的频繁项集。(支持度不小于最小支持阈值的项集称为频繁集)2 .利用频繁项集生成所需要的关联规则,根据用户设定的最小可信度筛选出强关联规贝U。关联规则的操作过程:先计算出支持度与可信度,然后运用apriori函数apriori关联算法函数调用groceryrules=apriori(groceries,parameter=list(support=0.006,confidence=0.25,minlen=2)可视化显示5、分类思想:决策树顾名思义就是以建立一个树形结构模型,通过一系列规则对数据进行分类的过程。决策树采用递归分类的方式,一步步的把数据分成子集(divideandconq

10、uer)。从根节点开始,算法会选择一个最能预测目标类的属性来把数据分成多个子集,由此形成了几个树的分支,接下来算法再对每个分支进行递归处理,继续选择最适合的属性来进行分类,直到满足:+剩下的样本都是同一类或者+没有备选属性了+树已经达到了预先定义的大小限制6、主成分因子分析主成分(数据降维):主成分分析(PCA)是一种数据降维技巧,它能将大量相关变量转化为一组很少的不相关变量,这些无关变量称为主成分。因子分析(发现潜在结构):因子分析(EFQ是一系列用来发现一组变量的潜在结构的方法。它通过寻找一组更小的、潜在的或隐藏的结构来解释已观测到的、显式的变量间的关系。也。上成安4归酒吧国小折横中图1年

11、【主成分分析和因子分析模型口图中展小丁可决心交成到X5.主成分IPCI、PC21.因手(Fl,F2)和港城Icl?JcS)主要分析步骤:(1)数据预处理。(2)选择因子模型。(3)判断要选择的主成分/因子数目。(4)选择主成分/因子。(5)旋转主成分/因子。主成分旋转:正交旋转(使选择的成分保持不相关)与斜交旋转(使选择的成分变得相关)(6)解释结果。(7)计算主成分或因子得分。PCA中需要多少个主成分根据先验经验和理论知识判断主成分数;根据要解释变量方差的积累值的阈值来判断需要的主成分数;通过检查变量间kXk的相关系数矩阵来判断保留的主成分数。Cattell碎石检验则绘制了特征值与主成分数的

12、图形。这类图形可以清晰地展示图形弯曲状况,在图形变化最大处之上的主成分都可保留。最后,你还可以进行模拟,依据与初始矩阵相同大小的随机数据矩阵来判断要提取的特征值。若基于真实数据的某个特征值大于一组随机数据矩阵相应的平均特征值,那么该主成分可以保留。代码生成图形见图14-2,展示了基于观测特征值的碎石检验(由线段和x符号组成)、根据100个随机数据矩阵推导出来的特征值均值(虚线),以及大于1的特征值准则(y=1的水平线)。之前已经介绍过,principal()函数可以根据原始数据矩阵或者相关系数矩阵做主成分分析。格式为:其中:r是相关系数矩阵或原始数据矩阵;nfactors设定主成分数(默认为1

13、);rotate指定旋转的方法默认最大方差旋转(varimax),见14.2.3节。scores设定是否需要计算主成分得分(默认不需要)。ELGUWLtcCJ-lKl'sudQ53三6小口口皿豆1、选主成分数目Screenpletwithpar才H/lanalyticCdfrpoMriilNumb«r强J头,他征信A-Fl是口加*'M-4mLLBUIIDduJDaQEa书5anl>京E小有几个差代表几个特征值红色虚线代表随机矩组的平均值红线,代表特征值为1的2、提取主成分principal()函数可根据原始数据矩阵或相关系数矩阵做主成分分析u2=1-h2SSloadings行包含了主成分相关联的特征值,指的是与特定主成分相关联的标准化后的方差值。ProportionVar0.92ProportinVar行表示的是每个主成分对整个数据集的解释程度。3、主成分旋转方差极大旋转4、获取主成分得分利用principal()函数,很容易获得每个调查对象在该主

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论