MOOC 数据科学基础(Matlab)-东北大学 中国大学慕课答案_第1页
MOOC 数据科学基础(Matlab)-东北大学 中国大学慕课答案_第2页
MOOC 数据科学基础(Matlab)-东北大学 中国大学慕课答案_第3页
MOOC 数据科学基础(Matlab)-东北大学 中国大学慕课答案_第4页
MOOC 数据科学基础(Matlab)-东北大学 中国大学慕课答案_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

MOOC数据科学基础(Matlab)-东北大学中国大学慕课答案单元作业一单元测验一1、问题:下列关于数据的描述,不正确的是选项:A、大部分文本格式数据是非结构化数据,例如服务器日志、论坛帖子内容。B、一个以行列结构记录的班级成绩表是结构化数据。C、用以表示人体体重的数据(例如62.3Kg)是离散型数据。D、用以表示一个商品产地的国家地区数据是定性数据。正确答案:【用以表示人体体重的数据(例如62.3Kg)是离散型数据。】2、问题:以下人物中,哪一位是第四范式的提出者?选项:A、ClaudeElwoodShannon(香农)B、JimGray(吉姆·格雷)C、NorbertWiener(诺伯特·维纳)D、PeterNaur(彼得·诺尔)正确答案:【JimGray(吉姆·格雷)】3、问题:下列属于使用数据的方法研究科学的案例是选项:A、商务智能B、开普勒三大定律C、人类基因组计划D、数字图像处理正确答案:【人类基因组计划】4、问题:下列属于使用科学的方法研究数据的学科是选项:A、地球科学B、生物信息学C、机器学习D、统计学正确答案:【统计学】5、问题:以下属于大数据的特征的是选项:A、数据规模大(Volume)B、数据产生/变更速度快(Velocity)C、数据种类繁多(Variety)D、数据价值高(Value)E、数据真实性(Veracity)正确答案:【数据规模大(Volume)#数据产生/变更速度快(Velocity)#数据种类繁多(Variety)#数据价值高(Value)#数据真实性(Veracity)】6、问题:以下属于数据的可能形式的是选项:A、文本B、数字C、音频D、视频E、图像正确答案:【文本#数字#音频#视频#图像】7、问题:在分析一家坐落于某大城市的咖啡店的数据时,记录了咖啡店的以下数据项:咖啡店名称、营业额、邮政编码、平均每月客户数、咖啡产地。以下表述正确的是选项:A、咖啡店名称是定性数据B、营业额是定量数据C、邮政编码是定量数据D、平均每月客户数是定量数据E、咖啡产地是定性数据正确答案:【咖啡店名称是定性数据#营业额是定量数据#平均每月客户数是定量数据#咖啡产地是定性数据】8、问题:数据科学包括两个方面:选项:A、用数据的方法研究科学B、用科学的方法研究数据C、统计学D、天体信息学正确答案:【用数据的方法研究科学#用科学的方法研究数据】单元作业二单元测验二1、问题:建立3阶全1矩阵A的语句是()。选项:A、A=one(3)B、A=ones(3,1)C、A=one(3,3)D、A=ones(3,3)正确答案:【A=ones(3,3)】2、问题:将矩阵A对角线元素加30的命令是()。选项:A、A+30*eye(size(A))B、A+30*eye(A)C、A+30*ones(size(A))D、A+30*eye(4)正确答案:【A+30*eye(size(A))】3、问题:求矩阵A的范数的函数是()。选项:A、trace(A)B、cond(A)C、rank(A)D、norm(A)正确答案:【norm(A)】4、问题:语句“[X,D]=eig(A)”执行后,D是一个()。选项:A、三角阵B、对角阵C、单位阵D、普通数值矩阵正确答案:【对角阵】5、问题:矩阵A、B进行运算,下面哪种运算是不正确的?选项:A、A.*BB、A+BC、A\BD、A.+B正确答案:【A.+B】6、问题:求出tant函数关于π/2点处的左极限,下列命令正确的是()选项:A、symst;f=tan(t);L1=limit(f,t,π/2,’left’)B、symst;f=tan(t);L1=limit(f,t,pi/2,’right’)C、symst;f=tan(t);L1=limit(f,t,pi/2,’left’)D、symst;f=tan(t);L1=limit(f,t,π/2,’right’)正确答案:【symst;f=tan(t);L1=limit(f,t,pi/2,’left’)】7、问题:令x=[1,2,3];y=[4;5;6];下列语句不能执行的是()。选项:A、x*yB、y*xC、x+y'D、x.*y正确答案:【x.*y】8、问题:下面语句的结果更接近0的是()。选项:A、mean(rand(100,1))B、mean(randn(100,1))C、norm(rand(10),2)D、norm(randn(10),2)正确答案:【mean(randn(100,1))】9、问题:在MATLAB中,下列说法正确的是()。选项:A、矩阵和向量无法相加。B、向量和标量无法相加。C、两个行向量一定能相加。D、两个同型矩阵不一定能相乘。正确答案:【两个同型矩阵不一定能相乘。】10、问题:下面无法生成[1,3,5,7,9]向量的语句是()。选项:A、1:2:9B、1:2:10C、linspace(1,9,5)D、linspace(1,10,5)正确答案:【linspace(1,10,5)】单元作业三单元测验三1、问题:下面哪种数据类型不是matlab中的数据类型选项:A、元胞类型B、字符类型C、指针类型D、结构体类型正确答案:【指针类型】2、问题:在matlab中下列哪条指令用于创建文件选项:A、editB、creatC、openD、file正确答案:【edit】3、问题:下列关于脚本文件的描述中,哪一种说法是错误的选项:A、文件是多条命令的综合体B、文件的扩展名为.matC、文件中没有函数的声明行D、文件中没有输入输出变量正确答案:【文件的扩展名为.mat】4、问题:下列关于函数文件的描述中,哪一种说法是错误的选项:A、文件中包含函数的声明行B、文件中可以包含输入输出变量C、运算中生成的所有变量都存放在函数工作空间D、文件不具备参数传递的功能正确答案:【文件不具备参数传递的功能】5、问题:在matlab中要强行终止正在运行的程序,需要按键盘上的哪两个组合键选项:A、ctrl+cB、ctrl+vC、ctrl+aD、ctrl+z正确答案:【ctrl+c】6、问题:下列选项为matlab中条件的结果,哪个结果代表条件成立选项:A、0B、[1,2;0,2]C、[0,0;0,0]D、[2,3;4,5]正确答案:【[2,3;4,5]】7、问题:已知程序x=input('请输入x的值:');ifrem(x,2)==1y=sqrt(x);elsey=x^(1/3);endy如果输入x的值为9,那么y的值为多少选项:A、3B、0C、9D、2.0801正确答案:【3】8、问题:下列哪组程序段,无法判断c为小写英文字母选项:A、if(c='a'c='z')...endB、ifc='a'c='z'...endC、if'a'=c='z'...endD、ifc='a'ifc='z'...end...end正确答案:【if'a'=c='z'...end】9、问题:运行下列程序,所得的结果为s=0;a=[2,3,4;5,6,7;8,9,10];fork=as=s+k;enddisp(s)选项:A、[9,18,27]'B、[9,18,27]C、54D、9正确答案:【[9,18,27]'】10、问题:在matlab中,跳出当前循环继续下次循环的指令是选项:A、breakB、pauseC、continueD、return正确答案:【continue】单元作业四单元测验四1、问题:subplot(2,2,2)命令绘制的是以下哪一个位置的子图?选项:A、两行两列的左下角B、两行两列的右下角C、两行两列的左上角D、两行两列的右上角正确答案:【两行两列的右上角】2、问题:绘制函数图应使用()函数。选项:A、ezplotB、fplotC、ezpolarD、stem正确答案:【fplot】3、问题:画出带光照模式的三维曲面图应使用()函数选项:A、surfB、meshC、surfcD、surfl正确答案:【surfl】4、问题:要使函数y=2e^x的曲线绘制成直线,应采用的绘图函数是选项:A、plotB、semilogyC、semilogxD、loglog正确答案:【semilogy】5、问题:在图形指定位置(x,y)加标注的命令是选项:A、title(x,y,'y=sin(x)');B、text(x,y,'y=sin(x)');C、legend(x,y,'y=sin(x)');D、xlable(x,y,'y=sin(x)');正确答案:【text(x,y,'y=sin(x)');】6、问题:下列程序运行后,看到的图形是()[X,Y,Z]=peaks(30);x=X(1,:);y=Y(:,1);i=find(y.8y1.2);j=find(x-.6x.5);Z(i,j)=nan;surf(X,Y,Z)选项:A、中间被“切除”矩形区域的图形B、中间被“切除”圆形区域的图形C、中间被“切除”环形区域的图形D、中间被“切除”三角形区域的图形正确答案:【中间被“切除”矩形区域的图形】7、问题:下列命令中,不能绘制三维图形的是选项:A、histgram2B、plot3C、surfD、meshgrid正确答案:【meshgrid】8、问题:以下指标中,不属于在箱线图中能反映的是()选项:A、最大值B、中位数C、四分位数D、平均值正确答案:【平均值】9、问题:以下能实现绿色实心圆数据标记的散点图的命令是()选项:A、scatter(x,y);B、scatter(x,y,'r.');C、scatter(x,y,'g.');D、scatter(x,y,'gx');正确答案:【scatter(x,y,'g.');】10、问题:具有对数据横坐标自动排序的绘图命令是()选项:A、boxplotB、scatterC、histD、pareto正确答案:【pareto】11、问题:为了检验连续变量x,y之间的线性关系,下列哪种图最合适?选项:A、散点图B、条形图C、直方图D、都不对正确答案:【散点图】单元作业五单元测验五1、问题:下列哪一项说明了X,Y之间的较强关系?选项:A、相关系数为0.9B、Beta系数为0的空假设的p-value是0.0001C、Beta系数为0的空假设的t统计量是30D、都不对正确答案:【相关系数为0.9】2、问题:在一个数据集中发现班级人数出现了少量的缺失,下列处理方法中不合理的是选项:A、删除具有NA值的行B、使用众数填充缺失数据C、使用中位数填充缺失数据D、使用平均数填充缺失数据正确答案:【使用平均数填充缺失数据】3、问题:进行数据离散化的原因不包括选项:A、增加算大模型的鲁棒性B、减少实际的运算量C、简化算法模型的复杂度D、增强数据集特征取值的可解释性正确答案:【增强数据集特征取值的可解释性】4、问题:以下原因不属于导致数据缺失的可能原因是选项:A、信息获取代价太大而未能获取B、人为原因录入错误C、采集设备故障D、逻辑上不存在,例如儿童的收入正确答案:【人为原因录入错误】5、问题:以下关于数据探索性分析的表述,不正确的是选项:A、抗性分析是指分析数据对局部不良的敏感性B、残差分析是分析因变量的观测值与根据估计的方程求出的预测值的差距C、模式发现是指通过分析发现数据中潜在的新的模式,不需要对数据降维D、重新表达是指找到合适的尺度或数据表达方式进行一定的转换,使得有利于简化分析正确答案:【模式发现是指通过分析发现数据中潜在的新的模式,不需要对数据降维】6、问题:以下关于抗性分析的表述,不正确的是选项:A、极差反映了数据的集中趋势B、方差反映了离中趋势C、偏态分析属于分布分析D、统计直方图是频度分析的一种呈现形式正确答案:【极差反映了数据的集中趋势】7、问题:以下关于相对数的表述,不正确的是选项:A、以“元/人”为单位表示的人均国内生产总值表征了强度相对数B、不同地区的投资与消费比例表征了比例相对数C、某产品的抽检合格率是结构相对数D、增长速度是动态相对数的表征正确答案:【不同地区的投资与消费比例表征了比例相对数】8、问题:以下不属于数据标准化的方法是选项:A、差分运算规范化B、最小最大规范化C、零-均值规范化D、小数定标规范化正确答案:【差分运算规范化】9、问题:下面不属于创建新属性的相关方法的是选项:A、特征提取B、特征修改C、映射数据到新空间D、特征构造正确答案:【特征修改】10、问题:下面哪个不属于数据的属性类型选项:A、标称B、序数C、区间D、相异正确答案:【相异】单元作业六单元测验六1、问题:在回归分析中,用来预测或用来解释另一个变量的一个或多个变量称为()。选项:A、随机变量B、因变量C、非随机变量D、自变量正确答案:【自变量】2、问题:已知变量x与y正相关,且由观测数据算得x的样本平均值为3,y的样本平均值为3.5,则由该观测数据算得的线性回归方程可能是()。选项:A、y=0.4x+2.3B、y=2x-2.4C、y=-2x+9.5D、y=-0.3x+4.4正确答案:【y=0.4x+2.3】3、问题:在两个变量的回归分析中,作散点图是为了()。选项:A、直接求出回归直线方程B、直接求出回归方程C、根据经验选定回归方程的类型D、估计回归方程的参数正确答案:【根据经验选定回归方程的类型】4、问题:下列两个变量之间的关系,哪个是函数关系?选项:A、学生的性别与数学成绩B、人的工作环境与健康状况C、正方形的边长与面积D、儿子的身高与父亲的身高正确答案:【正方形的边长与面积】5、问题:在线性回归方程y=a+bx中,回归系数b表示()。选项:A、当x=0时,y的平均值B、x变动一个单位时,y的实际变动量C、y变动一个单位时,x的平均变动量D、x变动一个单位时,y的平均变动量正确答案:【x变动一个单位时,y的平均变动量】6、问题:若每一吨铸铁成本y(元)与铸件废品率x%建立的回归方程y=56+8x,下列说法正确的是()。选项:A、废品率每增加1%,成本每吨增加64元B、废品率每增加1%,成本每吨增加8%C、废品率每增加1%,成本每吨增加8元D、废品率每增加1%,成本每吨增加56元正确答案:【废品率每增加1%,成本每吨增加8元】7、问题:()属于机器学习中的回归问题。选项:A、根据房屋特性预测房价B、预测短信是否为垃圾短信C、识别车牌D、机场安检人脸识别正确答案:【根据房屋特性预测房价】8、问题:MATLAB中创建非线性回归模型的函数是()。选项:A、fitlmB、fitnlmC、regressD、polyfit正确答案:【fitnlm】9、问题:下列结论正确的是()。选项:A、函数关系是一种确定性关系B、相关关系是一种非确定性关系C、回归分析是对具有函数关系的两个变量进行统计分析的一种方法D、回归分析是对具有相关关系的两个变量进行统计分析的一种方法正确答案:【函数关系是一种确定性关系#相关关系是一种非确定性关系#回归分析是对具有相关关系的两个变量进行统计分析的一种方法】10、问题:下列说法正确的是()。选项:A、当变量之间的相关关系不是线性关系时,也能描述变量之间的相关关系B、当变量之间的相关关系不是线性关系时,也能直接用线性回归方程描述它们的相关关系C、把非线性回归化为线性回归为我们解决问题提供了一种方法D、当变量之间的相关关系不是线性关系时,可以通过适当的变换使其转换为线性关系正确答案:【当变量之间的相关关系不是线性关系时,也能描述变量之间的相关关系#当变量之间的相关关系不是线性关系时,也能直接用线性回归方程描述它们的相关关系#把非线性回归化为线性回归为我们解决问题提供了一种方法#当变量之间的相关关系不是线性关系时,可以通过适当的变换使其转换为线性关系】单元作业七单元测验七1、问题:以下不属于分类问题的是?选项:A、判断一个肿瘤是良性还是恶性B、预测某人某月的信用卡消费金额C、判断一个网页新闻属于什么类型D、预测两个人是否会成为朋友正确答案:【预测某人某月的信用卡消费金额】2、问题:以下不属于分类算法的是?选项:A、K近邻B、支持向量机C、朴素贝叶斯D、K-means正确答案:【K-means】3、问题:有关KNN算法,说法正确的是?选项:A、K的选择对分类结果影响很小B、计算距离只能采用欧氏距离C、KNN算法的计算复杂度较低D、KNN算法中的K通常选择较小的值正确答案:【KNN算法中的K通常选择较小的值】4、问题:假设您正在使用垃圾邮件分类器,其中垃圾邮件是正例(y=1),非垃圾邮件是反例(y=0)。您有一组电子邮件训练集,其中99%的电子邮件是非垃圾邮件,另1%是垃圾邮件。以下哪项陈述是错误的?选项:A、一个好的分类器应该在交叉验证集上同时具有高精度precision和高召回率recall。B、如果您总是预测非垃圾邮件(输出y=0),那么您的分类器在训练集上的准确度accuracy将达到99%,而且它在交叉验证集上的性能可能类似。C、如果您总是预测非垃圾邮件(输出y=0),那么您的分类器的准确度accuracy将达到99%。D、如果您总是预测非垃圾邮件(输出y=0),那么您的分类器在训练集上的准确度accuracy将达到99%,但在交叉验证集上的准确率会更差,因为它过拟合训练数据。正确答案:【一个好的分类器应该在交叉验证集上同时具有高精度precision和高召回率recall。】5、问题:混淆矩阵中FN(FalseNegative)的含义是?选项:A、将负样本识别为负样本的数量(或概率)B、将正样本识别为负样本的数量(或概率)C、将负样本识别为正样本的数量(或概率)D、将正样本识别为正样本的数量(或概率)正确答案:【将正样本识别为负样本的数量(或概率)】6、问题:利用混淆矩阵计算召回率的公式是()选项:A、TP/(TP+FN)B、(TP+TN)/(TP+TN+FP+FN)C、都不对D、TP/(TP+FP)正确答案:【TP/(TP+FN)】7、问题:给定一定数量的红细胞、白细胞图像以及它们对应的标签,设计出一个红、白细胞分类器,这属于什么问题?选项:A、有监督学习B、半监督学习C、无监督学习D、其他答案都正确正确答案:【有监督学习】8、问题:混淆矩阵中的TP=16,FP=12,FN=8,TN=4,精确率是()选项:A、1/4B、1/2C、4/7D、2/3正确答案:【4/7】9、问题:支持向量机只能解决数据线性可分的问题。选项:A、正确B、错误正确答案:【错误】10、问题:ROC曲线越靠近左上角说明分类器的效果越好。选项:A、正确B、错误正确答案:【正确】单元作业八单元测验八1、问题:下列关于聚类模型的说法不正确的是选项:A、聚类模型属于无监督学习B、聚类模型的本质是寻找数据集内在的分布结构C、经过聚类之后的数据集形成不同的簇,同簇的样本相似度低,簇间的样本相似度高D、聚类模型作为独立的分析过程,通常不和其他数据分析任务结合叠加正确答案:【经过聚类之后的数据集形成不同的簇,同簇的样本相似度低,簇间的样本相似度高】2、问题:下列表述不正确的是选项:A、聚类算法需要考虑簇的个数以及簇的形状B、为了实现聚类算法,需要考虑衡量样本之间相似性的度量方式C、聚类算法需要处理不同类型样本特征值,如数值型,文本型D、聚类算法必须把输出的簇的个数作为先验信息正确答案:【聚类算法需要考虑簇的个数以及簇的形状】3、问题:下列关于层次聚类的表述正确的是选项:A、层次聚类在不同层级上对数据样本进行聚类,逐步形成树状结构B、层次聚类可分为分拆式聚类和聚合式聚类两种基本方法C、聚合式聚类为自下而上将小簇聚为大簇D、分拆式聚类为自下而上将大簇拆分为小簇正确答案:【聚合式聚类为自下而上将小簇聚为大簇】4、问题:在KMeans聚类算法的当前迭代过程中,各个簇的质心为(1,2),(-1,3),(6,0)。那么(2,4)和(2,0)这两个样本在下一次迭代中选项:A、分在同一簇中,该簇质心为(1,2)B、分在同一簇中,该簇质心为(-1,3)C、分在不同簇中,(2,4)在质心为(-1,3)的簇中,(2,0)在质心为(6,0)的簇中D、以上说法都不正确正确答案:【分在同一簇中,该簇质心为(1,2)】5、问题:执行聚类时,最少要有多少个变量或属性选项:A、0B、1C、2D、3正确答案:【1】6、问题:以下关于聚类分析的表述,不正确的是选项:A、进行聚类分析的统计数据有关于类的变量B、进行聚类分析的变量应该进行标准化处理C、不同的类间距离会产生不同的递推公式D、递推公式有利于运算速度的提高正确答案:【递推公式有利于运算速度的提高】7、问题:使用层次聚类算法对同一个数据集进行分析,生成两个不同的树形图有哪些可能的原因选项:A、距离函数的选取B、数据点的使用C、变量的使用D、以上都有正确答案:【以上都有】8、问题:在系统聚类中选项:是A、组内离差平方和除以组间离差平方和B、组间离差平方和除以组内离差平方和C、组间离差平方和除以总离差平方和D、组间均方除以总均方正确答案:【组间离差平方和除以总离差平方和】9、问题:应用K均值算法之前,特征缩放是一个很重要的步骤。原因是选项:A、在距离计算中,它为所有特征赋予相同的权重B、不管你用不用特征缩放,你总是会得到相同的簇C、在Manhattan距离中,这是重要的步骤,但是Euclidian中则不是D、以上都不是正确答案:【在距离计算中,它为所有特征赋予相同的权重】10、问题:关于K均值聚类的描述正确的是?1.K均值对簇中心初始化非常敏感2.初始化不良会导致收敛速度差3.初始化不良可能导致整体聚集不良选项:A、1和3B、1和2C、2和3D、1,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论