




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
【MOOC】《数据科学基础(Matlab)》东北大学-答案
有些题目顺序不一致,下载后按键盘ctrl+F进行搜索数据科学概论单元测验一1.单选题:下列关于数据的描述,不正确的是
选项:
A、大部分文本格式数据是非结构化数据,例如服务器日志、论坛帖子内容。
B、一个以行列结构记录的班级成绩表是结构化数据。
C、用以表示人体体重的数据(例如62.3Kg)是离散型数据。
D、用以表示一个商品产地的国家地区数据是定性数据。
答案:【用以表示人体体重的数据(例如62.3Kg)是离散型数据。】2.单选题:下列属于使用科学的方法研究数据的学科是
选项:
A、地球科学
B、生物信息学
C、机器学习
D、统计学
答案:【统计学】3.单选题:下列属于使用数据的方法研究科学的案例是
选项:
A、商务智能
B、开普勒三大定律
C、人类基因组计划
D、数字图像处理
答案:【人类基因组计划】4.单选题:以下人物中,哪一位是第四范式的提出者?
选项:
A、ClaudeElwoodShannon(香农)
B、JimGray(吉姆·格雷)
C、NorbertWiener(诺伯特·维纳)
D、PeterNaur(彼得·诺尔)
答案:【JimGray(吉姆·格雷)】5.多选题:以下属于数据的可能形式的是
选项:
A、文本
B、数字
C、音频
D、视频
E、图像
答案:【文本;数字;音频;视频;图像】6.多选题:以下属于大数据的特征的是
选项:
A、数据规模大(Volume)
B、数据产生/变更速度快(Velocity)
C、数据种类繁多(Variety)
D、数据价值高(Value)
E、数据真实性(Veracity)
答案:【数据规模大(Volume);数据产生/变更速度快(Velocity);数据种类繁多(Variety);数据价值高(Value);数据真实性(Veracity)】7.多选题:数据科学包括两个方面:
选项:
A、用数据的方法研究科学
B、用科学的方法研究数据
C、统计学
D、天体信息学
答案:【用数据的方法研究科学;用科学的方法研究数据】8.多选题:在分析一家坐落于某大城市的咖啡店的数据时,记录了咖啡店的以下数据项:咖啡店名称、营业额、邮政编码、平均每月客户数、咖啡产地。以下表述正确的是
选项:
A、咖啡店名称是定性数据
B、营业额是定量数据
C、邮政编码是定量数据
D、平均每月客户数是定量数据
E、咖啡产地是定性数据
答案:【咖啡店名称是定性数据;营业额是定量数据;平均每月客户数是定量数据;咖啡产地是定性数据】单元作业一1.通过文献检索,调查近3年在数据科学领域中的研究进展,写一段不少于200字的总结。
参考答案:【近三年数据科学领域取得了显著的研究进展。在技术方面,2023年大模型兴起,为数据科学带来新机遇,可用于数据预处理等任务,提高工作效率和结果可理解性7。实时数据治理和多模态融合分析成为重要方向,帮助企业处理海量复杂数据7。2024年,吉林大学等团队提出ds-agent,能让大语言模型智能体处理复杂机器学习建模任务。上海科技大学张海鹏课题组在中国人名表征、人物行迹挖掘、有向图表征以及大语言模型泛化机制方面取得多项成果1。在应用方面,数据科学在各行业的应用不断深化,如康复医学领域正推动康复大数据的规范化发展5。在政策标准方面,2023年发布《GB/T42813-2023数据论文出版元数据》国家标准,2024年中国在数据基础制度等方面也出台了诸多政策36。】2.企业员工流动率能够为企业注入新鲜的活力,增强组织的创新能力,但过多的员工离职,特别是核心员工的离职则会导致企业人力资本投资的损失,员工士气低落,破坏企业建立的竞争优势等消极影响。因此通过对离职影响因素的分析,企业管理者可以有效地对员工的离职行为进行管理。假设现在期望建立一个企业员工离职预测模型,用以预测可能离职的核心员工,请阐述需要采集哪些可能指标,并说明理由。
参考答案:【个人基本信息年龄:不同年龄阶段的员工离职倾向可能不同。例如,年轻员工可能更倾向于寻找新的机会来提升自己的职业发展,他们可能对工作的新鲜感和挑战性有更高的要求。而年长员工可能更注重工作的稳定性和福利等因素。如果年龄在30岁以下的员工离职率相对较高,这可能与他们对职业晋升速度的期望有关。性别:虽然不能一概而论,但在某些行业中,男性和女性在职业规划和工作稳定性方面可能存在差异。例如,在一些需要经常出差或者工作强度较大的行业,男性员工可能更容易适应,离职率相对较低;而女性员工可能因为家庭等因素更容易离职。婚姻状况:已婚员工通常会考虑家庭因素,如配偶的工作地点、子女的教育等。例如,若企业办公地点偏远,已婚且有子女的员工可能为了方便照顾家庭而离职,选择距离家庭更近的工作岗位。教育程度:高学历员工可能对工作内容的专业性和挑战性要求更高。如果企业不能提供足够的技术研发等高端任务,硕士及以上学历的员工可能会因为自身能力无法充分发挥而离职,他们更倾向于寻找能与自己知识水平相匹配的工作环境。工作相关信息工作年限:新员工在入职初期可能因为对公司文化不适应或者工作内容与预期不符而离职。而工作多年的员工,若离职可能是因为遇到了职业发展瓶颈。例如,在公司工作5-10年的员工,若没有得到晋升机会,可能会考虑跳槽到能提供更高职位的企业。职位级别:基层员工离职可能更多是因为薪资和工作压力问题。而中层和高层管理人员离职可能涉及到公司战略、权力分配等复杂因素。比如,中层管理人员可能因为对公司决策层的战略规划不认同,或者在团队管理过程中受到过多的限制而离职。工作部门:不同部门的工作压力、发展前景不同。例如,在技术创新部门,员工可能因为技术更新换代快,自身技术能力跟不上而离职;而在市场部门,员工可能因为业绩压力或者市场竞争激烈,寻找更轻松的工作环境而离职。绩效评估结果:绩效差的员工可能会因为担心被辞退或者无法获得奖金等原因而主动离职。而绩效优秀的员工如果没有得到相应的奖励,如晋升、薪资提升等,也可能会离职。例如,连续多年绩效优秀但没有得到晋升的员工,可能会被竞争对手以更好的职位吸引走。薪酬福利信息工资水平:如果员工的工资低于同行业平均水平,尤其是核心员工,他们很可能会因为薪资问题而离职。例如,一名资深的软件工程师发现自己的工资比市场水平低20%,在有其他公司提供更高薪资的情况下,离职的可能性就会增加。福利种类:除了法定福利外,企业提供的补充福利如商业保险、带薪休假、员工培训等也会影响员工的离职率。例如,重视自我提升的员工可能会因为企业没有提供足够的培训机会而离职,而有子女的员工可能会因为企业没有提供子女教育补贴等福利而考虑离职。企业文化和工作环境企业文化认同感:如果员工对企业的价值观、使命等不认同,就很难长期在企业工作。例如,一个注重环保的员工在一家对环境有较大负面影响的企业中工作,可能会因为内心的价值观冲突而离职。工作压力和工作氛围:工作强度过大、工作氛围压抑的环境会导致员工离职。例如,在一个经常加班且团队成员之间关系紧张的部门,员工离职率可能会比较高。相反,一个工作氛围轻松、团队合作良好的部门,员工的忠诚度可能会更高。】数据科学中的数学基础单元作业二1.求矩阵A的特征值和特征向量。
特征值特征向量2.已知求下列表达式的值:(1)A-B+I(其中I为单位矩阵)(2)A.*B(3)A^3(4)A/B(5)B\A
每个小题1分3.有矩阵如下(1)求该矩阵的行列式、秩、逆矩阵、迹;(2)交换该矩阵的第2行和第4行并重新显示A。
行列式秩逆矩阵迹行交换单元测验二1.单选题:下面无法生成[1,3,5,7,9]向量的语句是()。
选项:
A、1:2:9
B、1:2:10
C、linspace(1,9,5)
D、linspace(1,10,5)
答案:【linspace(1,10,5)】2.单选题:在MATLAB中,下列说法正确的是()。
选项:
A、矩阵和向量无法相加。
B、向量和标量无法相加。
C、两个行向量一定能相加。
D、两个同型矩阵不一定能相乘。
答案:【两个同型矩阵不一定能相乘。】3.单选题:下面语句的结果更接近0的是()。
选项:
A、mean(rand(100,1))
B、mean(randn(100,1))
C、norm(rand(10),2)
D、norm(randn(10),2)
答案:【mean(randn(100,1))】4.单选题:令x=[1,2,3];y=[4;5;6];下列语句不能执行的是()。
选项:
A、x*y
B、y*x
C、x+y'
D、x.*y
答案:【x.*y】5.单选题:求出tant函数关于π/2点处的左极限,下列命令正确的是()
选项:
A、symst;f=tan(t);L1=limit(f,t,π/2,’left’)
B、symst;f=tan(t);L1=limit(f,t,pi/2,’right’)
C、symst;f=tan(t);L1=limit(f,t,pi/2,’left’)
D、symst;f=tan(t);L1=limit(f,t,π/2,’right’)
答案:【symst;f=tan(t);L1=limit(f,t,pi/2,’left’)】6.单选题:矩阵A、B进行运算,下面哪种运算是不正确的?
选项:
A、A.*B
B、A+B
C、A\B
D、A.+B
答案:【A.+B】7.单选题:语句“[X,D]=eig(A)”执行后,D是一个()。
选项:
A、三角阵
B、对角阵
C、单位阵
D、普通数值矩阵
答案:【对角阵】8.单选题:求矩阵A的范数的函数是()。
选项:
A、trace(A)
B、cond(A)
C、rank(A)
D、norm(A)
答案:【norm(A)】9.单选题:将矩阵A对角线元素加30的命令是()。
选项:
A、A+30*eye(size(A))
B、A+30*eye(A)
C、A+30*ones(size(A))
D、A+30*eye(4)
答案:【A+30*eye(size(A))】10.单选题:建立3阶全1矩阵A的语句是()。
选项:
A、A=one(3)
B、A=ones(3,1)
C、A=one(3,3)
D、A=ones(3,3)
答案:【A=ones(3,3)】Matlab程序设计基础单元作业三1.编写程序:找到1000以内的所有完数(一个数等于除去其本身外所有因子之和,6=1+2+3)。
参考代码:%初始化一个空数组来存储完数perfect_numbers=[];%遍历从1到1000的所有数fori=1:1000%初始化因子之和为0factor_sum=0;%寻找i的因子,不包括i本身forj=1:i-1ifmod(i,j)==0%如果j是i的因子,将其累加到因子之和factor_sum=factor_sum+j;endend%如果因子之和等于该数,将其添加到完数数组中iffactor_sum==iperfect_numbers=[perfect_numbersi];endend%输出完数数组disp(perfect_numbers);2.编写程序:计算所有能既能被3整除又能被5整除的3位数的和,并输出结果。
参考代码:%初始化和为0sum_result=0;%遍历所有的三位数(100到999)fori=100:999%判断该数是否既能被3整除又能被5整除ifmod(i,3)==0&&mod(i,5)==0%如果满足条件,累加到sum_result中sum_result=sum_result+i;endend%输出结果disp(sum_result);[vk-content]3.编写函数sortcolumn:将[12,34,4,57,32,8,34,15]从小到大排成一列。
参考代码:functionsorted_array=sortcolumn()%输入数组input_array=[12,34,4,57,32,8,34,15];%使用sort函数对输入数组进行排序sorted_array=sort(input_array);end单元测验三1.单选题:在matlab中,跳出当前循环继续下次循环的指令是
选项:
A、break
B、pause
C、continue
D、return
答案:【continue】2.单选题:运行下列程序,所得的结果为s=0;a=[2,3,4;5,6,7;8,9,10];fork=as=s+k;enddisp(s)
选项:
A、[9,18,27]'
B、[9,18,27]
C、54
D、9
答案:【[9,18,27]'】3.单选题:下列哪组程序段,无法判断c为小写英文字母
选项:
A、if(c>='a'&&c<='z')...end
B、ifc>='a'&&c<='z'...end
C、if'a'<=c<='z'...end
D、ifc>='a'ifc<='z'...end...end
答案:【if'a'<=c<='z'...end】4.单选题:已知程序x=input('请输入x的值:');ifrem(x,2)==1y=sqrt(x);elsey=x^(1/3);endy如果输入x的值为9,那么y的值为多少
选项:
A、3
B、0
C、9
D、2.0801
答案:【3】5.单选题:下列选项为matlab中条件的结果,哪个结果代表条件成立
选项:
A、0
B、[1,2;0,2]
C、[0,0;0,0]
D、[2,3;4,5]
答案:【[2,3;4,5]】6.单选题:在matlab中要强行终止正在运行的程序,需要按键盘上的哪两个组合键
选项:
A、ctrl+c
B、ctrl+v
C、ctrl+a
D、ctrl+z
答案:【ctrl+c】7.单选题:下列关于函数文件的描述中,哪一种说法是错误的
选项:
A、文件中包含函数的声明行
B、文件中可以包含输入输出变量
C、运算中生成的所有变量都存放在函数工作空间
D、文件不具备参数传递的功能
答案:【文件不具备参数传递的功能】8.单选题:下列关于脚本文件的描述中,哪一种说法是错误的
选项:
A、文件是多条命令的综合体
B、文件的扩展名为.mat
C、文件中没有函数的声明行
D、文件中没有输入输出变量
答案:【文件的扩展名为.mat】9.单选题:在matlab中下列哪条指令用于创建文件
选项:
A、edit
B、creat
C、open
D、file
答案:【edit】10.单选题:下面哪种数据类型不是matlab中的数据类型
选项:
A、元胞类型
B、字符类型
C、指针类型
D、结构体类型
答案:【指针类型】Matlab数据可视化单元作业四1.从国家气象局网站上选取某一天的全国省会城市的平均气温,并结合省会城市的地理经纬度数据,利用geobubble函数绘制该日期的温度指数。参考答案:以下是一个可能的Matlab实现思路:解决思路:从国家气象局网站上获取所需数据:确定如何从国家气象局网站上爬取数据(可能需要使用网络爬虫技术或查找网站是否提供API接口)。提取某一天的全国省会城市的平均气温数据。确保提取的数据包含省会城市的名称、平均气温、以及对应的地理经纬度信息。整理数据:将获取的数据存储在Matlab中的数据结构中,如矩阵或表格。检查数据的完整性和准确性,确保数据格式符合后续处理的要求。绘制温度指数:使用
geobubble
函数绘制地理气泡图。以经纬度作为位置信息,平均气温作为气泡的大小或颜色强度指标。以下是一个简化的示例代码,假设你已经手动从国家气象局网站获取了数据并存储在Matlab中:%假设我们已经有以下数据存储在Matlab中%省会城市名称cityNames={'北京','上海','广州','深圳','杭州'};%平均气温(摄氏度)temperatures=[20,25,30,28,22];%省会城市的经度longitudes=[116.4,121.47,113.23,114.07,120.19];%省会城市的纬度latitudes=[39.9,31.23,23.16,22.54,30.26];%将数据存储在表格中dataTable=table(cityNames,longitudes,latitudes,temperatures);%使用geobubble函数绘制地理气泡图geobubble(dataTable,'Latitude','Latitudes','Longitude','Longitudes','SizeVariable','temperatures','ColorVariable','temperatures','Basemap','colorterrain')%设置标题title('全国省会城市某日平均气温');%设置颜色条标签colorbar('Label','平均气温(℃)');2.carbig是Matlab软件中自带的一个汽车数据集,使用loadcarbig命令可以加载该数据集。请编写程序实现如下功能:(1)以地区为横坐标,汽车马力为纵坐标绘制散点图,无需区分不同地区的颜色。提示:使用函数:cellstr和categorical;(2)对汽车气缸数目(Cylinders)绘制条形图;(3)如果想研究不同气缸数目(Cylinders)下汽车发动机排量(Displacement)或马力(Horsepower)的分布情况,请选取合理的数据以合理的可视化形式展现,并给出从图中可见的初步结论。
参考答案:%加载carbig数据集loadcarbig;%(1)以地区为横坐标,汽车马力为纵坐标绘制散点图%将地区转换为分类数据Origin=categorical(cellstr(Origin));scatter(Origin,Horsepower);title('汽车马力与地区的关系');xlabel('地区');ylabel('马力');%(2)对汽车气缸数目(Cylinders)绘制条形图bar(Cylinders);title('汽车气缸数目分布');xlabel('气缸数目');ylabel('数量');%(3)研究不同气缸数目下汽车发动机排量(Displacement)的分布情况%可以使用箱线图来展示不同气缸数目的汽车发动机排量分布figure;boxplot(Displacement,Cylinders);title('不同气缸数目下汽车发动机排量的分布');xlabel('气缸数目');ylabel('发动机排量');%另一种可视化方式:使用小提琴图figure;violinplot(Displacement,Cylinders);title('不同气缸数目下汽车发动机排量的分布(小提琴图)');xlabel('气缸数目');ylabel('发动机排量');%从图中可见的初步结论:%对于箱线图:%可以观察到不同气缸数目的汽车发动机排量的中位数、上下四分位数、异常值等信息。%气缸数目较多的汽车,其发动机排量的分布范围通常更广,中位数也更大,说明气缸数目与发动机排量可能存在正相关关系。%对于小提琴图:%可以看到不同气缸数目的汽车发动机排量的概率密度分布。%可以看出不同气缸数目的汽车发动机排量的分布形状,以及是否有多个峰值等信息,进一步验证了不同气缸数目的汽车发动机排量分布存在差异。%如果你想研究不同气缸数目下汽车马力(Horsepower)的分布情况,可以类似地使用箱线图或小提琴图figure;boxplot(Horsepower,Cylinders);title('不同气缸数目下汽车马力的分布');xlabel('气缸数目');ylabel('马力');figure;violinplot(Horsepower,Cylinders);title('不同气缸数目下汽车马力的分布(小提琴图)');xlabel('气缸数目');ylabel('马力');%从这些图中可以得到的初步结论:%一般来说,随着气缸数目的增加,汽车的马力也有增加的趋势,因为气缸数目的增加通常意味着发动机的功率更大。%不同气缸数目的汽车马力分布也有不同的特征,例如,可能存在更多的异常值或不同的分布形状,这可能反映了不同发动机设计和汽车类型的差异。3.生成一些样本量为n=30,n=50和n=100的标准正态分布数据。对数据进行不同组距的分组,并绘制统计直方图。使用subplot将不同组距参数下的统计直方图绘制于同一绘图窗口中。
参考答案:%生成样本量为n=30的标准正态分布数据n1=30;data1=randn(n1,1);%生成样本量为n=50的标准正态分布数据n2=50;data2=randn(n2,1);%生成样本量为n=100的标准正态分布数据n3=100;data3=randn(n3,1);%不同的组距binWidths=[0.5,1,2];%使用subplot绘制不同组距下的统计直方图figure;%对于样本量n=30subplot(3,3,1);histogram(data1,binWidths(1));title('n=30,binWidth=0.5');xlabel('Value');ylabel('Frequency');subplot(3,3,2);histogram(data1,binWidths(2));title('n=30,binWidth=1');xlabel('Value');ylabel('Frequency');subplot(3,3,3);histogram(data1,binWidths(3));title('n=30,binWidth=2');xlabel('Value');ylabel('Frequency');%对于样本量n=50subplot(3,3,4);histogram(data2,binWidths(1));title('n=50,binWidth=0.5');xlabel('Value');ylabel('Frequency');subplot(3,3,5);histogram(data2,binWidths(2));title('n=50,binWidth=1');xlabel('Value');ylabel('Frequency');subplot(3,3,6);histogram(data2,binWidths(3));title('n=50,binWidth=2');xlabel('Value');ylabel('Frequency');%对于样本量n=100subplot(3,3,7);histogram(data3,binWidths(1));title('n=100,binWidth=0.5');xlabel('Value');ylabel('Frequency');subplot(3,3,8);histogram(data3,binWidths(2));title('n=100,binWidth=1');xlabel('Value');ylabel('Frequency');subplot(3,3,9);histogram(data3,binWidths(3));title('n=100,binWidth=2');xlabel('Value');ylabel('Frequency');单元测验四1.单选题:为了检验连续变量x,y之间的线性关系,下列哪种图最合适?
选项:
A、散点图
B、条形图
C、直方图
D、都不对
答案:【散点图】2.单选题:具有对数据横坐标自动排序的绘图命令是()
选项:
A、boxplot
B、scatter
C、hist
D、pareto
答案:【pareto】3.单选题:以下能实现绿色实心圆数据标记的散点图的命令是()
选项:
A、scatter(x,y);
B、scatter(x,y,'r.');
C、scatter(x,y,'g.');
D、scatter(x,y,'gx');
答案:【scatter(x,y,'g.');】4.单选题:以下指标中,不属于在箱线图中能反映的是()
选项:
A、最大值
B、中位数
C、四分位数
D、平均值
答案:【平均值】5.单选题:下列命令中,不能绘制三维图形的是
选项:
A、histgram2
B、plot3
C、surf
D、meshgrid
答案:【meshgrid】6.单选题:下列程序运行后,看到的图形是()[X,Y,Z]=peaks(30);x=X(1,:);y=Y(:,1);i=find(y>.8&y<1.2);j=find(x>-.6&x<.5);Z(i,j)=nan;surf(X,Y,Z)
选项:
A、中间被“切除”矩形区域的图形
B、中间被“切除”圆形区域的图形
C、中间被“切除”环形区域的图形
D、中间被“切除”三角形区域的图形
答案:【中间被“切除”矩形区域的图形】7.单选题:在图形指定位置(x,y)加标注的命令是
选项:
A、title(x,y,'y=sin(x)');
B、text(x,y,'y=sin(x)');
C、legend(x,y,'y=sin(x)');
D、xlable(x,y,'y=sin(x)');
答案:【text(x,y,'y=sin(x)');】8.单选题:要使函数y=2e^x的曲线绘制成直线,应采用的绘图函数是
选项:
A、plot
B、semilogy
C、semilogx
D、loglog
答案:【semilogy】9.单选题:画出带光照模式的三维曲面图应使用()函数
选项:
A、surf
B、mesh
C、surfc
D、surfl
答案:【surfl】10.单选题:绘制函数图应使用()函数。
选项:
A、ezplot
B、fplot
C、ezpolar
D、stem
答案:【fplot】11.单选题:subplot(2,2,2)命令绘制的是以下哪一个位置的子图?
选项:
A、两行两列的左下角
B、两行两列的右下角
C、两行两列的左上角
D、两行两列的右上角
答案:【两行两列的右上角】数据探索性分析单元测验五1.单选题:下面哪个不属于数据的属性类型
选项:
A、标称
B、序数
C、区间
D、相异
答案:【相异】2.单选题:下面不属于创建新属性的相关方法的是
选项:
A、特征提取
B、特征修改
C、映射数据到新空间
D、特征构造
答案:【特征修改】3.单选题:以下不属于数据标准化的方法是
选项:
A、差分运算规范化
B、最小最大规范化
C、零-均值规范化
D、小数定标规范化
答案:【差分运算规范化】4.单选题:以下关于相对数的表述,不正确的是
选项:
A、以“元/人”为单位表示的人均国内生产总值表征了强度相对数
B、不同地区的投资与消费比例表征了比例相对数
C、某产品的抽检合格率是结构相对数
D、增长速度是动态相对数的表征
答案:【不同地区的投资与消费比例表征了比例相对数】5.单选题:以下关于抗性分析的表述,不正确的是
选项:
A、极差反映了数据的集中趋势
B、方差反映了离中趋势
C、偏态分析属于分布分析
D、统计直方图是频度分析的一种呈现形式
答案:【极差反映了数据的集中趋势】6.单选题:以下关于数据探索性分析的表述,不正确的是
选项:
A、抗性分析是指分析数据对局部不良的敏感性
B、残差分析是分析因变量的观测值与根据估计的方程求出的预测值的差距
C、模式发现是指通过分析发现数据中潜在的新的模式,不需要对数据降维
D、重新表达是指找到合适的尺度或数据表达方式进行一定的转换,使得有利于简化分析
答案:【模式发现是指通过分析发现数据中潜在的新的模式,不需要对数据降维】7.单选题:以下原因不属于导致数据缺失的可能原因是
选项:
A、信息获取代价太大而未能获取
B、人为原因录入错误
C、采集设备故障
D、逻辑上不存在,例如儿童的收入
答案:【人为原因录入错误】8.单选题:进行数据离散化的原因不包括
选项:
A、增加算大模型的鲁棒性
B、减少实际的运算量
C、简化算法模型的复杂度
D、增强数据集特征取值的可解释性
答案:【增强数据集特征取值的可解释性】9.单选题:在一个数据集中发现班级人数出现了少量的缺失,下列处理方法中不合理的是
选项:
A、删除具有NA值的行
B、使用众数填充缺失数据
C、使用中位数填充缺失数据
D、使用平均数填充缺失数据
答案:【使用平均数填充缺失数据】10.单选题:下列哪一项说明了X,Y之间的较强关系?
选项:
A、相关系数为0.9
B、Beta系数为0的空假设的p-value是0.0001
C、Beta系数为0的空假设的t统计量是30
D、都不对
答案:【相关系数为0.9】单元作业五1.鸢尾花数据集是Matlab软件中自带的一个经典数据集。数据集中包含不同品种的花的四个形状指标:萼片长度、萼片宽度、花瓣长度、花瓣宽度。在Matlab中使用loadfisheriris命令加载数据集后,编写程序计算如下问题:1)按species分离不同类别的样本;2)计算各类别中4个指标的均值、方差、标准差、偏度、峰度等;3)作出个指标数据直方图并检验该数据是否服从正态分布。
参考答案:%加载鸢尾花数据集loadfisheriris;%(1)按species分离不同类别的样本setosa=meas(strcmp(species,'setosa'),:);versicolor=meas(strcmp(species,'versicolor'),:);virginica=meas(strcmp(species,'virginica'),:);%(2)计算各类别中4个指标的均值、方差、标准差、偏度、峰度等%对于setosa类别setosa_mean=mean(setosa);setosa_var=var(setosa);setosa_std=std(setosa);setosa_skewness=skewness(setosa);setosa_kurtosis=kurtosis(setosa);%对于versicolor类别versicolor_mean=mean(versicolor);versicolor_var=var(versicolor);versicolor_std=std(versicolor);versicolor_skewness=skewness(versicolor);versicolor_kurtosis=kurtosis(versicolor);%对于virginica类别virginica_mean=mean(virginica);virginica_var=var(virginica);virginica_std=std(virginica);virginica_skewness=skewness(virginica);virginica_kurtosis=kurtosis(virginica);%输出结果disp('Setosa类别的统计信息:');disp(['均值:'num2str(setosa_mean)]);disp(['方差:'num2str(setosa_var)]);disp(['标准差:'num2str(setosa_std)]);disp(['偏度:'num2str(setosa_skewness)]);disp(['峰度:'num2str(setosa_kurtosis)]);disp('Versicolor类别的统计信息:');disp(['均值:'num2str(versicolor_mean)]);disp(['方差:'num2str(versicolor_var)]);disp(['标准差:'num2str(versicolor_std)]);disp(['偏度:'num2str(versicolor_skewness)]);disp(['峰度:'num2str(versicolor_kurtosis)]);disp('Virginica类别的统计信息:');disp(['均值:'num2str(virginica_mean)]);disp(['方差:'num2str(virginica_var)]);disp(['标准差:'num2str(virginica_std)]);disp(['偏度:'num2str(virginica_skewness)]);disp(['峰度:'num2str(virginica_kurtosis)]);%(3)作出各指标数据直方图并检验该数据是否服从正态分布%使用subplot绘制直方图并进行正态性检验figure;%对于setosa类别subplot(3,4,1);histogram(setosa(:,1));title('Setosa萼片长度直方图');[h,p]=lillietest(setosa(:,1));disp(['Setosa萼片长度正态性检验的p值:'num2str(p)]);subplot(3,4,2);histogram(setosa(:,2));title('Setosa萼片宽度直方图');[h,p]=lillietest(setosa(:,2));disp(['Setosa萼片宽度正态性检验的p值:'num2str(p)]);subplot(3,4,3);histogram(setosa(:,3));title('Setosa花瓣长度直方图');[h,p]=lillietest(setosa(:,3));disp(['Setosa花瓣长度正态性检验的p值:'num2str(p)]);subplot(3,4,4);histogram(setosa(:,4));title('Setosa花瓣宽度直方图');[h,p]=lillietest(setosa(:,4));disp(['Setosa花瓣宽度正态性检验的p值:'num2str(p)]);%对于versicolor类别subplot(3,4,5);histogram(versicolor(:,1));title('Versicolor萼片长度直方图');[h,p]=lillietest(versicolor(:,1));disp(['Versicolor萼片长度正态性检验的p值:'num2str(p)]);subplot(3,4,6);histogram(versicolor(:,2));title('Versicolor萼片宽度直方图');[h,p]=lillietest(versicolor(:,2));disp(['Versicolor萼片宽度正态性检验的p值:'num2str(p)]);subplot(3,4,7);histogram(versicolor(:,3));title('Versicolor花瓣长度直方图');[h,p]=lillietest(versicolor(:,3));disp(['Versicolor花瓣长度正态性检验的p值:'num2str(p)]);subplot(3,4,8);histogram(versicolor(:,4));title('Versicolor花瓣宽度直方图');[h,p]=lillietest(versicolor(:,4));disp(['Versicolor花瓣宽度正态性检验的p值:'num2str(p)]);%对于virginica类别subplot(3,4,9);histogram(virginica(:,1));title('Virginica萼片长度直方图');[h,p]=lillietest(virginica(:,1));disp(['Virginica萼片长度正态性检验的p值:'num2str(p)]);subplot(3,4,10);histogram(virginica(:,2));title('Virginica萼片宽度直方图');[h,p]=lillietest(virginica(:,2));disp(['Virginica萼片宽度正态性检验的p值:'num2str(p)]);subplot(3,4,11);histogram(virginica(:,3));title('Virginica花瓣长度直方图');[h,p]=lillietest(virginica(:,3));disp(['Virginica花瓣长度正态性检验的p值:'num2str(p)]);subplot(3,4,12);histogram(virginica(:,4));title('Virginica花瓣宽度直方图');[h,p]=lillietest(virginica(:,4));disp(['Virginica花瓣宽度直方图正态性检验的p值:'num2str(p)]);2.二手汽车交易是现代社会的一大需求。二手汽车交易过程中,车龄以及行驶里程数等都是影响二手汽车价格的重要因素。附件提供了一个二手汽车交易数据集,包含6项特征:price(价格)、mileage(已行驶英里数)、year(上市年份)、trim(档次)、engine(发动机气缸数)、transmission(换挡方式)。由于数据是从许多小广告中采集并手工录入的,难免出现异常。请结合课程内容,对数据集进行离群值检测。
参考答案:%读取数据集data=readtable('car_data.csv');%提取需要分析的数值型特征price=data.price;mileage=eage;year=data.year;%计算Z-scorezscore_price=(price-mean(price))/std(price);zscore_mileage=(mileage-mean(mileage))/std(mileage);zscore_year=(year-mean(year))/std(year);%设定Z-score的阈值,通常取3或-3threshold=3;%找出离群值outliers_price=abs(zscore_price)>threshold;outliers_mileage=abs(zscore_mileage)>threshold;outliers_year=abs(zscore_year)>threshold;%显示离群值disp('价格中的离群值:');disp(find(outliers_price));disp('里程数中的离群值:');disp(find(outliers_mileage));disp('上市年份中的离群值:');disp(find(outliers_year));%可视化离群值figure;%价格的箱线图subplot(3,1,1);boxplot(price);title('价格的箱线图');%里程数的箱线图subplot(3,1,2);boxplot(mileage);title('里程数的箱线图');%上市年份的箱线图subplot(3,1,3);boxplot(year);title('上市年份的箱线图');%标记离群值在原始数据中的位置holdon;%价格的离群值plot(find(outliers_price),price(outliers_price),'ro');%里程数的离群值plot(find(outliers_mileage),mileage(outliers_mileage),'go');%上市年份的离群值plot(find(outliers_year),year(outliers_year),'bo');holdoff;数据回归单元测验六1.单选题:在回归分析中,用来预测或用来解释另一个变量的一个或多个变量称为()。
选项:
A、随机变量
B、因变量
C、非随机变量
D、自变量
答案:【自变量】2.单选题:MATLAB中创建非线性回归模型的函数是()。
选项:
A、fitlm
B、fitnlm
C、regress
D、polyfit
答案:【fitnlm】3.单选题:()属于机器学习中的回归问题。
选项:
A、根据房屋特性预测房价
B、预测短信是否为垃圾短信
C、识别车牌
D、机场安检人脸识别
答案:【根据房屋特性预测房价】4.单选题:若每一吨铸铁成本y(元)与铸件废品率x%建立的回归方程y=56+8x,下列说法正确的是()。
选项:
A、废品率每增加1%,成本每吨增加64元
B、废品率每增加1%,成本每吨增加8%
C、废品率每增加1%,成本每吨增加8元
D、废品率每增加1%,成本每吨增加56元
答案:【废品率每增加1%,成本每吨增加8元】5.单选题:在线性回归方程y=a+bx中,回归系数b表示()。
选项:
A、当x=0时,y的平均值
B、x变动一个单位时,y的实际变动量
C、y变动一个单位时,x的平均变动量
D、x变动一个单位时,y的平均变动量
答案:【x变动一个单位时,y的平均变动量】6.单选题:下列两个变量之间的关系,哪个是函数关系?
选项:
A、学生的性别与数学成绩
B、人的工作环境与健康状况
C、正方形的边长与面积
D、儿子的身高与父亲的身高
答案:【正方形的边长与面积】7.单选题:在两个变量的回归分析中,作散点图是为了()。
选项:
A、直接求出回归直线方程
B、直接求出回归方程
C、根据经验选定回归方程的类型
D、估计回归方程的参数
答案:【根据经验选定回归方程的类型】8.单选题:已知变量x与y正相关,且由观测数据算得x的样本平均值为3,y的样本平均值为3.5,则由该观测数据算得的线性回归方程可能是()。
选项:
A、y=0.4x+2.3
B、y=2x-2.4
C、y=-2x+9.5
D、y=-0.3x+4.4
答案:【y=0.4x+2.3】9.多选题:下列说法正确的是()。
选项:
A、当变量之间的相关关系不是线性关系时,也能描述变量之间的相关关系
B、当变量之间的相关关系不是线性关系时,也能直接用线性回归方程描述它们的相关关系
C、把非线性回归化为线性回归为我们解决问题提供了一种方法
D、当变量之间的相关关系不是线性关系时,可以通过适当的变换使其转换为线性关系
答案:【当变量之间的相关关系不是线性关系时,也能描述变量之间的相关关系;当变量之间的相关关系不是线性关系时,也能直接用线性回归方程描述它们的相关关系;把非线性回归化为线性回归为我们解决问题提供了一种方法;当变量之间的相关关系不是线性关系时,可以通过适当的变换使其转换为线性关系】10.多选题:下列结论正确的是()。
选项:
A、函数关系是一种确定性关系
B、相关关系是一种非确定性关系
C、回归分析是对具有函数关系的两个变量进行统计分析的一种方法
D、回归分析是对具有相关关系的两个变量进行统计分析的一种方法
答案:【函数关系是一种确定性关系;相关关系是一种非确定性关系;回归分析是对具有相关关系的两个变量进行统计分析的一种方法】单元作业六1.读取附件提供的数据集。将数据集中的24个样本拆分成训练集和测试集,其中训练集18个,测试集6个。使用训练集建立多个自变量x1—x5和因变量y之间的多元线性回归模型。分别计算该模型在训练集和测试集上的均方根误差(RMSE)并输出。
(1)拆分数据集,2分;(2)建立多元线性回归模型,4分;(3)计算均方根误差值,4分。2.读取附件提供的数据集,第一列为自变量,第二列为因变量。使用MATLAB建立一元线性回归模型,并做回归诊断,去除异常值后重新建立回归模型,并自行绘图比较前后结果(要求:将去除异常值前后的回归直线绘制在一个图中)。
(1)建立回归模型,2分;(2)回归诊断去除异常值,4分;(3)绘图比较,4分。数据分类单元作业七1.下载bankpep数据集,使用MATLAB的分类工具箱进行分析,实现如下要求。(1)数据集共12列特征,在前11列中选择适合的特征用于预测最后一列的pep特征;(2)使用MATLAB分类工具箱,选择适合的分类模型创建分类器。(提示:可运行多种分类器后选择其中效果最好的模型)(3)将选定分类模型结果的混淆矩阵截图,并分别计算准确率、精确率、召回率和F1,输出评估结果。
(1)2分(2)2分(3)6分。其中:混淆矩阵结果2分,四个评估指标每个1分。2.使用MATLAB自带的fisheriris数据集,编程实现如下要求。(1)去除setosa类别数据,保留virginica和versicolor两类数据。(2)将两类数据,共100个样本拆分成训练集和测试集,拆分比例为8:2,即80个样本用于训练,20个样本用于测试。(提示:不同类别的样本分别拆分)(3)使用训练集数据建立SVM分类器模型,并应用测试集数据进行测试。输出准确率。(注意:答案不唯一,算法流程正确即可)
(1)2分;(2)4分;(3)4分。3.使用MATLAB自带的fisheriris数据集的全部样本数据,分别采用K=1和K=4建立两个KNN模型。设有一个新样本[5.9,3.2,4.8,1.8](注意样本特征顺序与原始数据集相同),使用两个模型分别预测该新样本的类别。要求提交代码和运行结果。
加载数据集1分,创建模型2分,预测结果2分。单元测验七1.单选题:有关KNN算法,说法正确的是?
选项:
A、K的选择对分类结果影响很小
B、计算距离只能采用欧氏距离
C、KNN算法的计算复杂度较低
D、KNN算法中的K通常选择较小的值
答案:【KNN算法中的K通常选择较小的值】2.单选题:以下不属于分类算法的是?
选项:
A、K近邻
B、支持向量机
C、朴素贝叶斯
D、K-means
答案:【K-means】3.单选题:以下不属于分类问题的是?
选项:
A、判断一个肿瘤是良性还是恶性
B、预测某人某月的信用卡消费金额
C、判断一个网页新闻属于什么类型
D、预测两个人是否会成为朋友
答案:【预测某人某月的信用卡消费金额】4.单选题:混淆矩阵中的TP=16,FP=12,FN=8,TN=4,精确率是()
选项:
A、1/4
B、1/2
C、4/7
D、2/3
答案:【4/7】5.单选题:给定一定数量的红细胞、白细胞图像以及它们对应的标签,设计出一个红、白细胞分类器,这属于什么问题?
选项:
A、有监督学习
B、半监督学习
C、无监督学习
D、其他答案都正确
答案:【有监督学习】6.单选题:利用混淆矩阵计算召回率的公式是()
选项:
A、TP/(TP+FN)
B、(TP+TN)/(TP+TN+FP+FN)
C、都不对
D、TP/(TP+FP)
答案:【TP/(TP+FN)】7.单选题:混淆矩阵中FN(FalseNegative)的含义是?
选项:
A、将负样本识别为负样本的数量(或概率)
B、将正样本识别为负样本的数量(或概率)
C、将负样本识别为正样本的数量(或概率)
D、将正样本识别为正样本的数量(或概率)
答案:【将正样本识别为负样本的数量(或概率)】8.单选题:假设您正在使用垃圾邮件分类器,其中垃圾邮件是正例(y=1),非垃圾邮件是反例(y=0)。您有一组电子邮件训练集,其中99%的电子邮件是非垃圾邮件,另1%是垃圾邮件。以下哪项陈述是错误的?
选项:
A、一个好的分类器应该在交叉验证集上同时具有高精度precision和高召回率recall。
B、如果您总是预测非垃圾邮件(输出y=0),那么您的分类器在训练集上的准确度accuracy将达到99%,而且它在交叉验证集上的性能可能类似。
C、如果您总是预测非垃圾邮件(输出y=0),那么您的分类器的准确度accuracy将达到99%。
D、如果您总是预测非垃圾邮件(输出y=0),那么您的分类器在训练集上的准确度accuracy将达到99%,但在交叉验证集上的准确率会更差,因为它过拟合训练数据。
答案:【一个好的分类器应该在交叉验证集上同时具有高精度precision和高召回率recall。】9.单选题:ROC曲线越靠近左上角说明分类器的效果越好。
选项:
A、正确
B、错误
答案:【正确】10.单选题:支持向量机只能解决数据线性可分的问题。
选项:
A、正确
B、错误
答案:【错误】数据聚类单元测验八1.单选题:应用K均值算法之前,特征缩放是一个很重要的步骤。原因是
选项:
A、在距离计算中,它为所有特征赋予相同的权重
B、不管你用不用特征缩放,你总是会得到相同的簇
C、在Manhattan距离中,这是重要的步骤,但是Euclidian中则不是
D、以上都不是
答案:【在距离计算中,它为所有特征赋予相同的权重】2.单选题:在系统聚类中是
选项:
A、组内离差平方和除以组间离差平方和
B、组间离差平方和除以组内离差平方和
C、组间离差平方和除以总离差平方和
D、组间均方除以总均方
答案:【组间离差平方和除以总离差平方和】3.单选题:使用层次聚类算法对同一个数据集进行分析,生成两个不同的树形图有哪些可能的原因
选项:
A、距离函数的选
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电子商务平台商品代理销售居间服务协议
- 管道支护施工方案
- 瑜伽教学考试题及答案
- 驻地场地布置方案
- 汽车国标考试题及答案
- 幼儿国考试题及答案
- 青岛工商面试题及答案
- 园林天井装修方案
- 民宅租房改造方案
- 2026版《全品高考》选考复习方案生物604 第19讲 第2课时 中心法则及基因表达含答案
- 投资公司项目考核与激励制度
- 注安2024注册安全工程师【法规】核心母题600题
- 临近既有线施工方案
- 智能交通可视化-深度研究
- 药材基原鉴定技术-洞察分析
- 《文化人类学的方法》课件
- UL498标准中文版-2019插头插座UL标准中文版
- 初中心理课职业生涯规划:我的未来我做主
- 糖尿病合并肺结核
- 平安车辆保险合同电子版
- 天疱疮护理个案分享
评论
0/150
提交评论