R语言期末复习_第1页
R语言期末复习_第2页
R语言期末复习_第3页
R语言期末复习_第4页
R语言期末复习_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1智慧教学及其评价研究智慧教学:教师与家长、管理者共同设计课程,学生对学习内容、方式(小组学习、自主学 习)、测试形式、学习进度、学习路径、评价进行选择,课程符合个体需求,适应个性化发 展。课堂中,教学内容并不是一成不变的, 教师要随着时代发展,更改教学内容、测试内容, 课程内容也可以由学生讨论生成的,让学生从内容的消费者变为创造者。学习资源自适应,全面支持移动泛在学习,既服务于在校学生,又支持社会学习者,支持学分银行。借助 网络平台,充分表现社会性、实践性、现实性;采用视真手段,基于真实的课堂、场景、 活动、竞赛,将教育与社会实践以新的形式相结合。全面支持学习者的研究和创造。评价:课堂中,通

2、过智慧教室的摄像设备,录制课堂学生的状态,针对视频,用滞后序列分析, 分析学生的行为,进行过程性评价。通过学生使用的点阵笔和纸,记录学生思考和学习 的过程,进行数据分析评价。在平台中,通过学生访问各个模块的数据,依据学生的认 知风格的不同,进行个性化评价,过程性评价与总结性评价相结合。2、回归定义:回归是研究一个因变量与一组自变量之间的关系。即用一个或多个预测变量 (自变量或解释变量)预测响应变量(因变量)的方法。回归分析可以生成一个等式,通过解释变量来预刚 响应变量。思想:根据自变量的值预测因变量的均值 回归诊断:Rbsi皿恰 « Fitted2001QQFned uahjcs线性

3、:拟合值与残差图,分布在y=0的上下,对称分布,比较好Normal Q-QdiZJDScaie-Locahon正态性:如果满足正态假设,那么图上的点应该落在呈 45度的直线上,否则违反正态分布。号 m 0 PU a.oP昼一冒pi車 1FTbc va up 同方差性:在水平线上随机分布,则满足同方差性'CHR10»DKb 10a 1&Lwagcb残差与杠杆图:寻找以下三种类型点 离群点:y轴距离较远的点 杠杆点:x轴距离较远的点 强影响点:去掉之后系数变动很大的点 异常点的改进办法:删除观测点变量变换添加或删除变量 使用其他回归方法 回归数据分析C al 1:ImCf

4、ormula = FtunTime Run5i £e,data = producTT on)Residuals:MinIQ Median-23.597 -11.0793.329iQ& 302Max29, 627匚 oeff*fc1ents:Earimate Srd. ErrorS.325150.0并14(intercept) 149.74770 Runsile0.25924value17.98 e.96PrC>|t I)6.00e-13 *l,eie-06 5ign1f. codes: 00.0010.01 2 0.05'0.1 'Ftesidual s

5、tandard error: le. 25 on IS degrees of freedomMultiple R-squared:0.7302, Adjusted R-squared: 0.7152F-statiStic: 48.72 on 1 and IS DF, p-value1.615e-O6Residuals(残差)对残差求一下最大值和最小值Coefficie nts 系数In terce pt截距Run Size 斜率 看一下P值(图中Residual sta ndardMulti pie R-squaredAdjusted R-squaredpr的值)有三个*,代表显著(比较好)标

6、准差(越小越好)(自由度,样本数-参数=自由度) 代表R平方(越趋向于1越好)调整的R平方值(考虑自由度)F-statistic ( F检验)对整个式子进行检验p-value: 1.615e-06 小于 0.05 代表显著T检验用来检验各个参数的显著性F检验用来检验整个回归关系的显著性拟合残差图是抛物线形状,那么需要二次项99.9%。二次项在P<0.001水平下,回归系数都非常显著。模型的方差结实率已经增加到了 的显著性(t=13.89, p<0.001)表明包含二次项提高了模型的拟合度。逻辑斯蒂回归P = py =Xj = 1 + 凶祁严十亠丫 汁丫=1就是这个式子,y=0是1减

7、去这个式子这个式子计算丫取1的概率,式子结果>0.5取1,反之,取0 训练集,训练一个模型测试集,测试训练集的模型glm ()广义线性模型model <- gimformula = chur n - ., data =tra in, family = 'bino mial') summary(model)因变量churn,自变量.,表示所有自变量3、聚类思想:聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。聚类分析的目标就是在相似的基础上收集数据来分类。流程:数据要满足:高类聚,低耦合欧拉距离(两点之间)曼哈顿距离(每一维度)明考斯基距离划

8、分聚类:聚类算法 k-mea ns不存在三个中心点选距离作为数据样本间相似性度量选择评价聚类性能的准则函数组间聚类越大,聚类越好K-中心点聚类存在的三个中心点 层次聚类group _k3=cutree(fit_hc,k=3)分成3类"str(as.de ndrogram(fit_hc)文本的形式打印这棵树sapply(uniq ue(gro up _k3),fu ncti on( g)co un tries$co un trygroup_k3=g)查看k=3的聚类结果中各类别样本4、关联规则思想:关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。流程:关联规则可以用两个指标来判

9、定:支持度与可信度X商品交易量/总的交易量同时包含 X Y的交易量/包含X的交易量支持度:可信度: 提升度:XY可信度/Y支持度(>1比较好)只有支持度和可信度较高的关联规则才是用户感兴趣的。关联规则挖掘主要有两个问题:(支持度不小1. 找出交易数据库中所有大于或等于用户指定的最小支持度的频繁项集。于最小支持阈值的项集称为频繁集)2. 利用频繁项集生成所需要的关联规则,根据用户设定的最小可信度筛选出强关联规 贝农关联规则的操作过程:ap riori函数先计算出支持度与可信度,然后运用ap riori关联算法函数调用p arameter=list(s upp ort=0.006,con f

10、ide nee = 0.25,groceryrules = ap riori(groceries,min le n = 2)可视化显示5、分类思想:决策树顾名思义就是以建立一个树形结构模型,通过一系列规则对数据进行分类的过程。决策树采用递归分类的方式,一步步的把数据分成子集( divide and con quer)。从根节点开始,算法会选择一个最能预测目标类的属性来把数据分成多个子集,由此形成了几个树的分支,接下来算法再对每个分支进行递归处理,继续选择最适合的属性来进行分类,直到满足:+剩下的样本都是同一类或者+没有备选属性了+树已经达到了预先定义的大小限制 6、主成分因子分析主成分(数据降

11、维):主成分分析(PCA是一种数据降维技巧,它能将大量相关变量转化为 一组很少的不相关变量,这些无关变量称为主成分。小a因户片析KI辛图屮展叫规测哑駅(Ml列X" 主成分因子分析(发现潜在结构):因子分析(EFA是一系列用来发现一组变量的潜在结构的方法。 它通过寻找一组更小的、潜在的或隐藏的结构来解释已观测到的、显式的变量间的关系。图M-l(ai)析榷33主慮分分析*11网子分析僅蠻,(pvr PC2 > , (fIh F2 )和仏】列主要分析步骤:(1)数据预处理。(2)(3)(4)选择因子模型。判断要选择的主成分 / 因子数目。 选择主成分 / 因子。(5) 旋转主成分 /

12、 因子。 主成分旋转:正交旋转(使选择的成分保持不相关)与斜交旋转(使选择的成分变得相 关)(6) 解释结果。(7) 计算主成分或因子得分。PCA中需要多少个主成分根据先验经验和理论知识判断主成分数; 根据要解释变量方差的积累值的阈值来判断需要的主成分数; 通过检查变量间k X k的相关系数矩阵来判断保留的主成分数。Cattell 碎石检验则绘制了特征值与主成分数的图形。这类图形可以清晰地展示图形弯曲状况,在图形变化最大处之上的主成分都可保留。最后, 你还可以进行模拟, 依据与初始矩阵相同大小的随机数据矩阵来判断要提取的特征值。若基于真实数据的某个特征值大于一组随机数据矩阵相应的平均特征值,

13、那么该主成分可以保留。代码生成图形见图 14-2,展示了基于观测特征值的碎石检验(由线段和 x 符号组成) 、根 据 100 个随机数据矩阵推导出来的特征值均值(虚线) ,以及大于 1 的特征值准则( y=1 的 水平线)。之前已经介绍过, principal() 函数可以根据原始数据矩阵或者相关系数矩阵做主成分分 析。格式为:其中:r 是相关系数矩阵或原始数据矩阵;nfactors 设定主成分数(默认为1);rotate 指定旋转的方法 默认最大方差旋转( varimax ),见 14.2.3 节 。scores 设定是否需要计算主成分得分(默认不需要) 。02810Scree plot w

14、ith parallel anafysis6y - JI o46I'actor Number1、选主成分数目Scrstn plot with pdrilhl ar>alytitMS扣忡证a亢于诞祁pwjb氓»Oanntnl humbflir有几个差代表几个特征值 红色虚线代表随机矩组的平均值 红线,代表特征值为1的2、提取主成分principal ()函数可根据原始数据矩阵或相关系数矩阵做主成分分析u2 = 1- h2SS loadi ngs行包含了主成分相关联的特征值,指的是与特定主成分相关联的标准化后的方差值。Prop ortio n Var 0.923、主成分旋转方差极大旋转4、获取主成分得分利用 principal()函数,很容易获得每个调查对象在该主成分上的得分。5、探索性因子分析Scree plots with parallel analysisT PC Actual DataPC Simulated DataFA Actual DataFA Simulated DataFactor/Component Number大于0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论