2023下医学大数据分析与决策学习通超星期末考试答案章节答案2024年_第1页
2023下医学大数据分析与决策学习通超星期末考试答案章节答案2024年_第2页
2023下医学大数据分析与决策学习通超星期末考试答案章节答案2024年_第3页
2023下医学大数据分析与决策学习通超星期末考试答案章节答案2024年_第4页
免费预览已结束,剩余6页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2023下医学大数据分析与决策学习通超星期末考试章节答案2024年2.20某排球队6名场上队员的身高(单位:cm)是:180,184,188,190,192,194。现用一名身高为186cm的队员换下场上身高192cm的队员,与换人前相比,场上队员的身高(

)

答案:平均数变小,方差变小2.18我国发现的首例甲型H1N1流感确诊病例在某医院隔离观察,要掌握他在一周内的体温是否稳定,则医生需了解这位病人7天体温的(

)

答案:方差2.17有一-组数据7、11、12、7、7、8、11,下列说法错误的是(

)

答案:中位数是72.16采用默认算法计算出的序列12,3,4,56,78,18,46,78,100的第一个四分位数是(

)

答案:122.15一组数据按从小到大排列为1,2,4,x,6,9,这组数据中的中位数为5,那么这组数据的众数为(

)。

答案:62.13关于众数,以下说法正确的是(

)

答案:众数在一组数中会有好几个2.12na.rm=TRUE,序列3.1,2,5,NA,6.2,4,7的中位数是(

)

答案:4.52.11序列3.1,2,5,3.8,6.2,4,7的中位数是(

)

答案:42.10以下不是数据离散趋势度量的是(

)

答案:众数2.9以下不是数据集中趋势度量的是(

)

答案:方差2.6属性对应二维表中的(

)。

答案:列2.5数据对象也称实体,用(

)来描述。

答案:属性2.4数据表中第1条记录为“JohnDoe|john.doe@|123MainStreet”,第5条记录为“JohnDoe|john.doe@|123MainSt.”,说明数据中存在(

)问题

答案:重复性2.3患者性别输入时,有的输入值为F、M,有的输入值为0、1,这是典型的(

)问题。

答案:数据不一致2.2数据中存在“年龄=-100”的情况,这说明数据中存在(

)问题。

答案:噪声2.1数据预处理占数据分析过程(

)工作量。

答案:60%以上1.20关于PIC数据库,以下说法错误的是(

)。

答案:PIC数据库注册后就可免费下载。1.19以下不是组学大数据资源的是(

)

答案:MIMIC数据库1.18app数据获取方法,不正确的是(

)。

答案:通过SQL语句获取1.17以下不是结构化大数据采集工具的是(

)

答案:飞机采集器1.16以下不属于直接导出结构化数据的是(

)

答案:API程序接口1.15医学伦理审查,免除审查的情况有(

)。

答案:使用公开获取的数据库且受试者的身份不会被直接或间接地识别1.14以下不属于伦理审查方式的是(

)

答案:普通审查1.13个性化医疗的基础是(

)。

答案:基于基因分析的精准用药。1.12医学大数据用于药物研发,以下说法不正确的是(

)。

答案:利用药品研发大数据,可以提高临床诊疗质量。1.11对医学大数据进行指导性分析,以下说法正确的是(

)。

答案:结合数据、分析模型和领域知识,确定最优解决方案。1.10对医学大数据进行预测性分析,以下说法正确的是(

)。

答案:利用各种可变数据对疾病或健康状况进行预测。1.9对医学大数据进行诊断性分析,以下说法正确的是(

)。

答案:根据结果去分析产生结果的原因。1.8对医学大数据进行描述性分析,以下说法正确的是()。

答案:可以分析患者使用的某种药物以及治疗的效果。1.7大数据分析与传统统计分析的区别是(

)。

答案:大数据分析的数据质量不高,很多“脏”数据。1.6以下不是医学大数据的特征的是(

)。

答案:变异性1.5大数据的value特性是指(

)。

答案:数据价值高,价值密度低;1.4大数据的5V特征是在传统的4V特征上增加了(

)。

答案:Veracity真实性1.3医学大数据的种类不包括以下哪项?(

)

答案:自动驾驶研发数据1.2最早提出“bigdata”的是(

)。

答案:BillInmon1.1通常所说的大数据的数据规模级别是(

)。

答案:PB级别/star3/origin/a8ae8eb350c60cc837724f6093ed73b5.jpg

答案:45度4.19

当特征值大致相等时(

)

答案:PCA将表现不佳4.18

R中实现lasso算法的包有(

)①lars包

②cv.lars包

③glmnet包

④cv.glmnet包

答案:①③4.17

特征选择模型的评价方法有(

)①交叉验证法

②CP统计量

③F统计量

④t统计量

答案:①②4.16关于lasso算法的描述,正确的是(

)①lasso算法是一种变量选择技术

②lasso算法用于数据降维③lasso算法只适用于线性情况

④lasso算法只适用于非线性情况

答案:①②4.15

R中画碎石图的函数为(

)

答案:screenplot()4.14PCA中,主成分选择的方法有(

)①计算累计贡献率,达到85%以上为主成分

②画碎石图,从图中找出主成分③计算贡献率,达到85%以上为主成分

④画相关系数图,从图中找出主成分

答案:①②4.13PCA中,相关系数矩阵的特征值和特征向量,以下说法正确的是(

)

答案:eigen()函数用于求矩阵的特征值和特征向量4.12以下关于相关系数矩阵和协方差矩阵的描述,正确的是(

)

答案:标准化后的矩阵,其相关系数矩阵和协方差矩阵是相同的4.11R中实现主成分分析的函数为(

)

答案:princomp()4.8以下关于主成分分析PCA的说法,正确的是(

)①进行主成分分析之前要对数据进行中心化

②要选出方差最大的作为主成分③要选出方差最小的作为主成分

④主成分分析主要用于指标综合评价

答案:①②④4.5数据降维的应用包括(

)①监督学习中训练数据的降维

②图像处理中的特征降维③生物技术中致病基因的发现

④监督学习中测试数据的降维

答案:①②③4.4数据降维的意义包括(

)①便于计算

②便于可视化

③提取有效信息

④防止过拟合

答案:①②③④4.3数据降维的本质是学习一个映射函数,该映射函数(

)

答案:可以是线性的或非线性的4.1有关维的概念,以下说法正确的是(

)①维通常被称作字段或属性

②维通常被称作特征

③维通常被称作列④维通常被称作变量

⑤维通常被称作记录

⑥维通常被称作对象⑦维通常被称作行

⑧维通常被称作样本

答案:①②③④3.20在画两个变量的散点图时,下列哪个叙述是正确的(

)

答案:自变量在x轴上,因变量在y轴上3.19在回归分析中,代表了数据点和它在回归直线上相对应的差异的是(

)

答案:残差平方和3.18两个变量y与x的回归模型中,分别选择了4个不同模型,它们的决定系数R2如下,其中拟合效果最好的模型是(

)

答案:模型1的决定系数R2为0.983.17两个变量y与x的回归模型中,通常用R2来刻画回归的效果,则正确的叙述是(

)

答案:R2越小,残差平方和大3.16一位母亲记录了儿子3-9岁的身高,由此建立的身高与年龄的回归直线方程为y=7.19X+73.93,据此可以预测这个孩子10岁时的身高,则正确的叙述是(

)

答案:身高在145.83cm左右3.14对于以下回归分析的结论,正确的有(

)个(1)在回归分析中,可用决定系数R2的值判断模型的拟合效果,R2越大,模型的拟合效果越好;(2)在回归分析中,可用残差平方和判断模型的拟合效果,残差平方和越大,模型的拟合效果越好;(3)在回归分析中,可用相关系数的值判断模型的拟合效果,r越小,模型的拟合效果越好;(4)在回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高;

答案:23.13下列说法中正确的是(

)

答案:人的知识与其年龄具有相关关系3.12

对两个变量x,y进行线性回归分析时,回归步骤顺序正确的是(

)①对所求出的回归直线方程作出解释②收集数据(X,Y)③求线性回归方程④求未知参数⑤根据所收集的数据绘制散点图

答案:②⑤④③①3.11非线性回归的方法有(

)

答案:以上都是3.10

R语言中自动选择最优回归模型的函数是(

)

答案:step()3.9关于校正决定系数,以下说法错误的是(

)

答案:校正决定系数越大,模型越差3.6

以下关于决定系数的描述,正确的是(

)

答案:决定系数越大,回归模型的拟合效果越好3.5

以下不是线性回归的假设检验内容的是(

)

答案:差分检验/star3/origin/3d908a58872f3564e7f524c1c0d8f356.png

答案:截距3.2因变量为二分类变量时,选择(

)。

答案:logistic回归3.1关于回归,以下说法,不正确的是(

)

答案:回归用于描述变量间的确定性关系5.19

R中实现apriori算法需要用到(

)

答案:arules包5.18

(

)描述了关联规则的最低重要程度

答案:最小支持度5.17

Apriori算法结束的条件是(

)

答案:候选k-项集为空5.16

FP-growth算法主要步骤有(

)①构建FP树

②产生频繁项集候选集③从FP树中挖掘频繁项集

④对频繁项集进行剪枝

答案:①③5.15

关于A=>B关联规则提升度lift,以下说法正确的是(

)

答案:如果lift>1,则A、B的出现是正相关的5.14

FP-Growth算法和Apriori算法最大的不同是(

)

答案:FP-Growth算法不产生候选集5.13

Apriori算法中k项频繁项集连接的条件是(

)

答案:前k-1项相同,第k项不同5.12

Apriori算法产生k项频繁项集候选集的方法是(

)

答案:将k-1项频繁项集进行连接操作5.11

A=>B为强关联规则的条件是(

)

答案:关联规则的支持度大于等于最小支持度并且关联规则的置信度大于等于最小置信度5.9

以下关于关联规则(A=>B)支持度的描述,错误的是(

)

答案:支持度是指事务集中同时包含A和B的事务数与所有包含A的事务数之比5.8

数据库是(

)的集合。

答案:事务5.6

上题中,若将支持度改为3,则购物篮能够提取的频繁1-项集包括的项目为(

)

答案:牛奶,尿布5.5

设支持度为2,下面购物篮能够提取的频繁1-项集包括的项目为(

)ID购买项1牛奶,啤酒,尿布2面包,黄油,牛奶3牛奶,尿布,饼干4啤酒,饼干,尿布

答案:牛奶,啤酒,尿布,饼干5.4考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,3,4},{1,3,5},{2,3,4},{2,3,5},采用连接策略,产生候选4-项集不包含(

)

答案:{1,2,3,5}5.3设X={1,2,3}是频繁项集,则可由X产生(

)个关联规则。

答案:65.2Apriori算法的计算复杂度受(

)影响。

答案:ABC三项的影响5.1

某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的(

)问题

答案:关联规则发现7.20

贝叶斯分类所使用的包为(

)

答案:e10717.19

应用朴素贝叶斯进行分类的条件是(

)

答案:被分类对象各属性间相互独立7.18

关于集成学习,以下说法不正确的是(

)

答案:决策树集成一定能提升性能7.17

CART算法选择(

)的属性作为分裂属性

答案:Gini指数最小7.16

C4.5算法选择(

)的属性作为分裂属性

答案:信息增益率最大7.15

ID3算法选择(

)的属性作为分裂属性

答案:信息增益最大7.14

ID3算法的主要步骤包括构建决策树、剪枝和预测,其对应的函数分别为(

)

答案:rpart()、prune()、predict()7.13

R中rpart.plot包提供的功能有(

)

答案:决策树的可视化7.12

以下防止决策树过拟合的方法是(

)

答案:剪枝7.11

一棵含2个决策节点,5个叶子节点的决策树,能生成(

)个分类规则

答案:57.10信息熵越大,表示(

)

答案:信息越不确定7.9

二分类问题中,如果所有数据均属于同一类时,则信息熵为(

)

答案:07.8

二分类问题中,如果两类中数据记录个数相同,则信息熵为(

)

答案:17.7

(

)用来衡量信息量的大小

答案:信息熵7.6

以下不是基于信息论的决策树算法的是(

)

答案:CART算法7.5

决策树中间节点的特征是(

)

答案:有进边,有出边,进边一条,出边多条7.2分类模型准确率的定义为(

)

答案:正确被模型分类的测试样本与总的测试样本的百分比7.1

应用分类算法的步骤为(

)①使用类别未知的训练集创建模型

②使用类别已经确定的训练集创建模型③用创建的模型预测未来

④计算模型准确率

答案:②④③9.20

k-中心点聚类算法的时间复杂度为(

)(n为样本数)

答案:0(n2)9.19

K-means算法的不足之处不包括以下(

)项

答案:计算开销比k中心点算法大9.18

对含n个样本的数据集进行K均值聚类,则该聚类算法的时间复杂度为(

)

答案:0(n)9.17

能终止K均值聚类过程的有(

)

答案:以上都对9.16

以下不是类间距离度量方法的是(

)

答案:平均值点距离9.15

R中实现距离度量的函数为(

)

答案:dist()9.13

当不知道数据所属类别时,可以使用(

)技术促使类别相同的数据与其他类别的数据相分离。

答案:聚类9.11

下列算法中,不属于层次聚类算法的是(

)

答案:SVM算法9.10

下列算法中,不属于划分聚类算法的是(

)

答案:决策树算法9.9

下列不属于常用聚类方法的是(

)

答案:线性方法9.8

下列选项中说法不正确的是(

)

答案:聚类需要有类别确定的分类属性9.7

下列度量方式中,不属于距离度量的是(

)

答案:海明距离9.6

机器学习方式有多种,聚类属于(

)

答案:无监督学习/ananas/latex/p/5789291

答案:欧几里德距离/ananas/latex/p/5789291

答案:曼哈顿距离9.3

相异度矩阵的元素aij表示(

)

答案:第i个对象和第j个对象之间的距离9.2

包含n个对象p个属性的数据矩阵,其相异度矩阵为(

)的矩阵

答案:n行n列9.1

一个好的聚类结果,应该是(

)

答案:组内数据对象高度似度,组间数据对象不相似11.10

对文本进行分析处理,一般需要对语料库创立(

)

答案:词条-文档关系矩阵11.9

以下关于语料库的描述,错误的是(

)

答案:语料库都保存在外存中11.8

文本特征提取的步骤是(

)①提取关键词集

②计算词频TF

③计算逆文档频率IDF④计算词的权重

⑤提取特征

答案:①②③④⑤11.7

对change,changing,changes,changer,changed进行词形还原后的结果为(

)

答案:change11.6

对change,changing,changes,changer,changed进行词干提取后的结果为(

)

答案:chang11.5

关于英文数据分析中的标准化,以下说法错误的是(

)

答案:标准化就是将所有文本减去其平均值再除以其标准差11.3

常用的分词工具包有(

)

答案:jiebaR11.2

文本分析的一般流程为(

)①读取文本

②标准

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论