机器学习应用期末模拟试题附答案_第1页
机器学习应用期末模拟试题附答案_第2页
机器学习应用期末模拟试题附答案_第3页
机器学习应用期末模拟试题附答案_第4页
机器学习应用期末模拟试题附答案_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

机器学习应用期末模拟试题[复制]2020-2021年第二学期《机器学习应用》期末模拟试题1、(1分)【单选题】Pandas中可以用来加载csv文件的方法是()[单选题]A、read_csv()(正确答案)B、read_excel()C、read_sql_query()D、read_json()答案解析:read_csv()函数用来加载csv文件2、(1分)【单选题】决定系数是?[单选题]A、MAEB、MSEC、R2(正确答案)D、F1答案解析:

MAE(MeanAbsoluteError)平均绝对误差

MSE(MeanSquareError)均方误差

R2(R-Square)拟合优度也称决定系数

F1适用于作为分类评估指标3、(1分)【单选题】下图属于哪一类图()

[单选题]A、直方图B、密度图C、箱线图D、相关矩阵图(正确答案)答案解析:此图为热力图即相关矩阵图4、(1分)【单选题】哪个指标可以用于评估分类算法?[单选题]A、MAEB、MSEC、R2D、F1(正确答案)答案解析:

MAE(MeanAbsoluteError)平均绝对误差

MSE(MeanSquareError)均方误差

R2(R-Square)拟合优度也称决定系数

F1适用于作为分类评估指标5、(1分)【单选题】将数据调整为均值为0,方差为1的标准正态分布,应该使用scikit-learn中的哪个方法()[单选题]A、StandardScaler()(正确答案)B、MinMaxScaler()C、Normalizer()D、Binarizer()答案解析:

StandardScaler:为使各特征的均值为0,方差为1

MinMaxScaler:最大最小值规范化

Normalizer:使每条数据各特征值的和为1(归一化)

Binarizer:为将数值型特征的二值化(二值化)6、(1分)【单选题】从文件中导入已训练好的模型,使用()进行加载[单选题]A、反序列化模型(正确答案)B、序列化模型C、导出数据D、导入数据答案解析:序列化:用于模型储存;反序列化:用于加载模型7、(1分)【单选题】查看数据的描述性统计信息,使用DataFrame哪个属性或方法()[单选题]A、shapeB、head()C、describe()(正确答案)D、tail()答案解析:describe()查看数据描述信息;tail()查看尾部数据8、(1分)【单选题】查看数据的维数,使用DataFrame哪个属性或方法[单选题]A、shape(正确答案)B、head()C、describe()D、tail()9、(1分)【单选题】Python中常用的数据可视化的类库是()[单选题]A、NumpyB、ScipyC、PandasD、Matplotlib(正确答案)答案解析:略10、(1分)【单选题】欲绘制饼图,应该调用哪个函数[单选题]A、scatter()B、title()C、plot()D、pie()(正确答案)答案解析:略11、(1分)【单选题】下图中,可以认为数据集中哪个特征存在异常值()[单选题]A、SepalLengthB、SepalWidth(正确答案)C、PetalLengthD、PetalWidth答案解析:图中有圆圈图形部分为异常值12、(1分)【单选题】进行数据归一化处理可以使用scikit-learn中的哪个类[单选题]A、MinMaxScalerB、StandardScalerC、Normalizer(正确答案)D、Binarizer答案解析:略13、(1分)【单选题】下面哪个函数不是scikit-learn中用于创建仿真分类数据集的方法[单选题]A、make_regression()B、make_classificaiton()C、load_iris()(正确答案)D、make_blobs()答案解析:load_iris()是加载鸢尾花数据集14、(1分)【单选题】进行数据正态化处理可以使用scikit-learn中的哪个类[单选题]A、MinMaxScalerB、StandardScalerC、Normalizer(正确答案)D、Binarizer答案解析:略15、(1分)【单选题】绘制实线使用linestyle是?[单选题]A、-(正确答案)B、--C、-.D、:答案解析:16、(1分)【单选题】Pandas中,删除含重复值的样本,使用的函数是()[单选题]A、dropna()B、fillna()C、drop_duplicates()(正确答案)D、duplicated()答案解析:

dropna()删除缺失值数据

fillna()

填充缺失数据

drop_duplicates()

去重

duplicated()

标记重复值17、(1分)【单选题】进行数据阈值转换可以使用scikit-learn中的哪个类[单选题]A、MinMaxScaler(正确答案)B、StandardScalerC、NormalizerD、Binarizer答案解析:略18、(1分)【单选题】平均绝对误差是?[单选题]A、MAE(正确答案)B、MSEC、R2D、F1答案解析:略19、(1分)【单选题】Pandas中可以用来加载csv文件的方法是[单选题]A、read_csv()(正确答案)B、read_excel()C、read_sql_query()D、read_json()答案解析:略20、(1分)【单选题】将数据缩放到0至1之间,应该使用scikit-learn中的哪个方法[单选题]A、StandardScaler()B、MinMaxScaler()C、Normalizer()(正确答案)D、Binarizer()答案解析:将数据缩放到0至1之间即归一化21、(1分)【单选题】Pandas中,删除含缺失值的样本,使用的函数是[单选题]A、dropna()(正确答案)B、fillna()C、drop_duplicates()D、duplicated()答案解析:略22、(1分)【单选题】决定系数是?[单选题]A、MAEB、MSEC、R2(正确答案)D、F1答案解析:略23、(1分)【单选题】绘制虚线使用linestyle是?[单选题]A、-(正确答案)B、--C、-.D、:答案解析:略24、(1分)【单选题】从图中看,可以认为数据集中哪个特征存在异常值[单选题]A、SepalLengthB、SepalWidth(正确答案)C、PetalLengthD、PetalWidth答案解析:略25、(1分)【单选题】绘制柱状图的函数是?[单选题]A、pie()B、scatter()C、plot()D、bar()(正确答案)答案解析:略26、(1分)【单选题】Python中常用的数据整理的类库是[单选题]A、NumpyB、ScipyC、Pandas(正确答案)D、Matplotlib答案解析:略27、(1分)【单选题】模型训练完成以后,可以使用()进行保存[单选题]A、反序列化模型B、序列化模型(正确答案)C、导出数据D、导入数据答案解析:序列化:用于模型储存;反序列化:用于加载模型28、(1分)【单选题】进行数据尺度调整可以使用scikit-learn中的哪个类[单选题]A、MinMaxScaler(正确答案)B、StandardScalerC、NormalizerD、Binarizer答案解析:略29、(1分)【单选题】下图属于哪一类图[单选题]A、直方图B、密度图C、箱线图(正确答案)D、散点矩阵图答案解析:略30、(1分)【单选题】绘图中,设置网格线使用哪个函数[单选题]A、grid()(正确答案)B、legend()C、show()D、plot()答案解析:grid()网格线;legend()图例31、(1分)【单选题】下面哪个函数不是scikit-learn中用于创建仿真数据集的方法[单选题]A、make_regression()B、make_classificaiton()C、load_iris()(正确答案)D、make_blobs()答案解析:略32、(1分)【单选题】哪个指标可以用于评估分类算法?[单选题]A、MAEB、MSEC、R2D、F1(正确答案)答案解析:略33、(1分)【单选题】为了使用线性回归拟合下图,应该先进行()[单选题]A、填补缺失值B、特征选择C、什么都不用做(正确答案)D、生成多项式特征答案解析:该曲线拟合效果较好,不需要进行进一步操作34、(1分)【单选题】对于数据进行拟合,发现拟合效果如下图,则应该先进行()[单选题]A、填补缺失值B、特征选择C、正则化(正确答案)D、生成多项式特征答案解析:该图像为过拟合,处理过拟合方法有:增加数据量、简化模型、正则化35、(1分)【单选题】绘制散点图的函数是?[单选题]A、pie()B、scatter()(正确答案)C、plot()D、bar()答案解析:略36、(1分)【单选题】均方误差是?[单选题]A、MAEB、MSE(正确答案)C、R2D、F1答案解析:略37、(1分)【单选题】平均绝对误差是?[单选题]A、MAE(正确答案)B、MSEC、R2D、F1答案解析:略38、(1分)【单选题】卡方检验是检验定性自变量对定性因变量的相关性方法。欲使用卡方检验,应该使用哪个类[单选题]A、chi2(正确答案)B、f_regressionC、mutual_info_regressionD、f_classif答案解析:卡方(Chi2)检验;用于分类:chi2、f_classif、mutual_info_classif;用于回归:f_regression、mutual_info_regression39、(1分)【单选题】均方误差是?[单选题]A、MAEB、MSE(正确答案)C、R2D、F1答案解析:略40、(1分)【多选题】可以用来进行特征选定的类有A、SelectKBest(正确答案)B、RFE(正确答案)C、PCA(正确答案)D、ExtraTreesClassifer答案解析:ExtraTreesClassifer是sklearn.ensemble里的类,其他选项属于sklearn.feature_selection中的类41、(1分)【多选题】如想进行高效科学计算,应该导入哪两个工具包A、Numpy(正确答案)B、ScipyC、Pandas(正确答案)D、Matplotlib答案解析:略42、(1分)【多选题】哪些指标可以用于评估回归算法?A、MAE(正确答案)B、MSE(正确答案)C、R2(正确答案)D、F1答案解析:F1属于评估分类算法43、(1分)【多选题】数据准备阶段,常使用scikit-learn中的哪些类A、MinMaxScaler(正确答案)B、StandardScaler(正确答案)C、Normalizer(正确答案)D、Binarizer(正确答案)答案解析:略44、(1分)【多选题】哪些指标可以用于评估回归算法?A、MAE(正确答案)B、MSE(正确答案)C、R2(正确答案)D、F1答案解析:F1属于评估分类算法45、(0.2分)【判断题】通过身高和体重两个特征,得出BMI=(体重*体重)/身高,该方法是降维,减少数据集特征的数量。[判断题]正确错误(正确答案)46、(0.2分)【判断题】Numpy库的主要作用是加快矩阵运算速度[判断题]正确(正确答案)错误47、(0.2分)【判断题】模型的泛化性能好,表示模型比较优[判断题]正确(正确答案)错误答案解析:泛化能力是指机器学习算法对新鲜样本的适应能力48、(0.2分)【判断题】PCA(即主成分分析)是一种有监督的降维方法。[判断题]正确错误(正确答案)答案解析:PCA是一种无监督的学习算法,它是线性模型,不能直接用于分类和回归问题49、(0.2分)【判断题】精确率公式是P=TP/(TP+FP)[判断题]正确(正确答案)错误答案解析:50、(0.2分)【判断题】K均值聚类,每次得到的聚类结果肯定是一样的。()[判断题]正确错误(正确答案)51、(0.2分)【判断题】numpy.eye()是用于创建元素都是0的数组[判断题]正确错误(正确答案)答案解析:

numpy.eye()返回一个二维数组,其对角线元素为1,其余位置元素为0;

numpy.zeros()创建元素都是0的数组52、(0.2分)【判断题】绘制直方图,可以使用Pandas中DataFrame的hist()方法。[判断题]正确(正确答案)错误53、(0.2分)【判断题】实际为正例,预测也为正例,则属于真正例[判断题]正确(正确答案)错误54、(0.2分)【判断题】numpy.zeros()是用于创建元素都是0的数组[判断题]正确(正确答案)错误55、(0.2分)【判断题】R2取值范围是[-1,1][判断题]正确错误(正确答案)答案解析:R2取值范围为[0,1]56、(0.2分)【判断题】主成分分析通常用来压缩数据,进行数据降维[判断题]正确(正确答案)错误57、(0.2分)【判断题】scipy.linalg主要用于积分[判断题]正确错误(正确答案)答案解析:

egrate:数值积分例程和微分方程求解器

scipy.linalg:扩展了由numpy.linalg提供的线性代数例程和矩阵分解功能58、(0.2分)【判断题】Pandas库的主要作用是进行数据可视化[判断题]正确错误(正确答案)59、(0.2分)【判断题】皮尔逊相关系数值为0表示两个变量完全无关[判断题]正确(正确答案)错误答案解析:皮尔逊相关系数的值介于[-1,1],1表示变量完全正相关,0表示无关,-1表示完全负相关。60、(0.2分)【判断题】scipy.io主要功能是用于数据输入输出[判断题]正确(正确答案)错误61、(0.2分)【判断题】在使用支撑向量机进行分类时,下图中B划分比A划分好。

[判断题]正确错误(正确答案)答案解析:分割的间隙越大越好,这样分出来的特征的精确性更高,容错空间也越大62、(0.2分)【判断题】降维是减少数据集特征的数量。[判断题]正确(正确答案)错误63、(0.2分)【判断题】Pandas库的主要作用是加快矩阵运算速度[判断题]正确错误(正确答案)答案解析:Numpy主要作用才是加快矩阵运算速度64、(0.2分)【判断题】R2取值范围是[-1,1][判断题]正确错误(正确答案)答案解析:R2取值范围是[0,1]65、(0.2分)【判断题】PCA(即主成分分析)是一种无监督的降维方法。[判断题]正确(正确答案)错误66、(0.2分)【判断题】密度图一般用于呈现离散变量[判断题]正确错误(正确答案)答案解析:一般用于呈现连续变量67、(0.2分)【判断题】有一个dataframe,则dataframe.iloc[1:4]是选择第1、2、3行[判断题]正确(正确答案)错误68、(0.2分)【判断题】可以使用scikit-learn中MinMaxScaler进行数据尺度调整[判断题]正确(正确答案)错误69、(0.2分)【判断题】拟合优度越大,所拟合的回归方程越优[判断题]正确(正确答案)错误70、(0.2分)【判断题】特征选择时,应该尽量选择方差较大(即各样本数据之间差异较大)的特征。[判断题]正确错误(正确答案)71、(0.2分)【判断题】机器学习使用的数据集中,不能存在缺失值。()[判断题]正确(正确答案)错误72、(0.2分)【判断题】机器学习使用的数据集中,不能存在缺失值。[判断题]正确(正确答案)错误73、(0.2分)【判断题】精确率公式是P=TP/(TP+FP)[判断题]正确(正确答案)错误74、(0.2分)【判断题】在使用支撑向量机进行分类时,下图中B划分比A划分好。

[判断题]正确错误(正确答案)答案解析:分割的间隙越大越好,这样分出来的特征的精确性更高,容错空间也越大75、(0.2分)【判断题】精确率公式是P=TP/(TP+FN)[判断题]正确错误(正确答案)76、(0.2分)【判断题】分类是预测离散值,如“是”、“否”;“好”、“坏”等。[判断题]正确(正确答案)错误77、(0.2分)【判断题】想预测明天天气的温度,这是分类[判断题]正确错误(正确答案)答案解析:属于线性回归问题78、(0.2分)【判断题】使用matplotlib绘图,color值设为'b',表示黑色[判断题]正确错误(正确答案)答案解析:color值设为'b'为蓝色79、(0.2分)【判断题】特征选择时,应该尽量选择与分析结果关联性强的特征。[判断题]正确(正确答案)错误80、(0.2分)【判断题】定类型数据,例如学生喜欢的颜色{红色,黄色,绿色,蓝色},其中分类之间是有顺序关系的。[判断题]正确错误(正确答案)81、(0.2分)【判断题】Dataframe.tail()是现实底部最后3行数据[判断题]正确错误(正确答案)答案解析:默认读取5行数据82、(0.2分)【判断题】绘制箱线图,可以使用Pandas中DataFrame的hist()方法。[判断题]正确错误(正确答案)83、(0.2分)【判断题】下图中的聚类过程,常见于层次聚类算法过程中。

[判断题]正确(正确答案)错误84、(0.2分)【判断题】下图是使用决策树的判断逻辑。

[判断题]正确(正确答案)错误85、(0.2分)【判断题】scipy.optimize可以用于寻找等式的根[判断题]正确(正确答案)错误答案解析:scipy.optimization子模块提供了函数最小值(标量或多维)、曲线拟合和寻找等式的根的有用算法86、(0.2分)【判断题】实际为正例,预测为反例,则属于假反例[判断题]正确(正确答案)错误答案解析:87、(0.2分)【判断题】使用KNN算法,当K为3时,下图未知类别样本(星点),应该划分为方形的分类。()

[判断题]正确错误(正确答案)答案解析:k=3内六边形比较多,因此划分为六边形的分类88、(0.2分)【判断题】定序型数据数据,例如学生表现可能是{优秀,良好,及格,不及格},其中分类之间是没有顺序关系的。[判断题]正确(正确答案)错误89、(0.2分)【判断题】实际为正例,预测也为正例,则属于真正例[判断题]正确(正确答案)错误90、(0.2分)【判断题】精确率公式是P=TP/(TP+FN)[判断题]正确错误(正确答案)91、(0.2分)【判断题】回归是预测离散值,如“是”、“否”;“好”、“坏”等。[判断题]正确错误(正确答案)92、(0.2分)【判断题】实际为正例,预测为反例,则属于假反例[判断题]正确(正确答案)错误93、(0.2分)【判断题】Matplotlib库的主要作用是加快矩阵运算速度[判断题]正确错误(正确答案)94、(0.2分)【判断题】拟合优度越大,所拟合的回归方程越优[判断题]正确(正确答案)错误95、(0.5分)【填空题(客观)】安装Matplotlib的命令是________[填空题]_________________________________(答案:pipinstallmatplotlib)96、(0.5分)【填空题(客观)】numpy中用于创建元素都是1的函数是________[填空题]_________________________________(答案:np.onces())97、(0.5分)【填空题(客观)】pd.read_csv()函数中,head=None,表示读取的数据没有________索引[填空题]_________________________________(答案:列)98、(0.5分)【填空题(客观)】可以使用scikit-learn中________进行数据阈值转换[填空题]_________________________________(答案:MinMaxScaler)99、(0.5分)【填空题(客观)】使用train_test_split(X,Y,0.33,random_state=4),获得的测试数据集是原数据集的________。[填空题]_________________________________(答案:33%)100、(0.5分)【填空题(客观)】用于将JSON文件转换为Pandas对象的函数是________()[填空题]_________________________________(答案:json_normalize())101、(0.5分)【填空题(客观)】从数据帧中删除一列,使用的函数是________()[填空题]_________________________________(答案:df.drop(['A'],axis=1))102、(0.5分)【填空题(客观)】使用递归特征消除,应该使用________类。[填空题]_________________________________(答案:RFE)103、(0.5分)【填空题(客观)】安装Numpy的命令是________[填空题]_________________________________(答案:pipinstallnumpy)104、(0.5分)【填空题(客观)】可以使用scikit-learn中________进行数据归一化转换[填空题]_________________________________(答案:Normalizer)105、(0.5分)【填空题(客观)】使用train_test_split(X,Y,0.33,random_state=4),获得的测试数据集是原数据集的________。[填空题]_________________________________(答案:33%)106、(0.5分)【填空题(客观)】已知代码:

importnumpyasnp

np.random.seed(0)

________#生成3个0.0到1.0之间的随机浮点数[填空题]_________________________________(答案:np.random.random((3,1)))107、(0.5分)【填空题(客观)】显示数据的前10行

importpandasaspd

importnumpyasnp

long_series=pd.Series(np.random.randn(1000))

________#填空完成[填空题]_________________________________(答案:print(long_series.head(10)))108、(0.5分)【填空题(客观)】已知代码:

importnumpyasnp

matrix=np.array([[1,2,3],

[4,5,6],

[7,9,9]])

________#返回数组的最大值的代码[填空题]_________________________________(答案:np.argmax(matrix))109、(0.5分)【填空题(客观)】分离训练数据集和测试数据集,采用的函数是________。[填空题]_________________________________(答案:train_test_split())110、(0.5分)【填空题(客观)】使用主成分分析,应该使用________类。[填空题]_________________________________(答案:PCA)111、(0.5分)【填空题(客观)】可以使用scikit-learn中________进行数据尺度调整[填空题]_________________________________(答案:MinMaxScaler)112、(0.5分)【填空题(客观)】安装Pandas的命令是________[填空题]_________________________________(答案:pipinstallpandas)113、(0.5分)【填空题(客观)】分离训练数据集和测试数据集,采用的函数是________。[填空题]_________________________________(答案:train_test_split())114、(0.5分)【填空题(客观)】卡方检验是检验定性自变量对定性因变量的相关性方法。欲使用卡方检验,应该使用________类。[填空题]_________________________________(答案:chi2)115、(0.5分)【填空题(客观)】加载Excel数据表使用的函数是________[填空题]_________________________________(答案:read_excel())116、(0.5分)【填空题(客观)】查看矩阵的形状的属性为()?[填空题]_________________________________(答案:shape)117、(0.5分)【填空题(客观)】可以使用scikit-learn中________进行数据正态化[填空题]_________________________________(答案:Normalizer)118、(0.5分)【填空题(客观)】dataframe中skew()函数的结果接近于0是,表示数据偏差比较________[填空题]_________________________________(答案:小)119、(3分)【匹配题】Pandas中的数据结构和数组的对应关系为:

1、Series

A、一维数组

2、DataFrame

B、二维数组

___

___[填空题]空1答案:1-A空2答案:2-B120、(3分)【匹配题】在sk-learn函数与所属机器学习算法进行连线。

1、K近邻算法

A、VotingClassifier()

2、决策树

B、GaussionNB()

3、贝叶斯算法

C、KMeans(n_clusters=8)

4、支持向量机

D、Ridge()

5、集成学习

E、train_test_split()

6、聚类

F、SVC(kernel=’linear’)

7、线性回归

G、KNeighborsClassifier(n_neighbors=5)

H、cross_val_score()

I、DecisionTreeRegressor(max_depth)

___

___

___

___

___

___

___[填空题]空1答案:1-G空2答案:2-I空3答案:3-B空4答案:4-F空5答案:5-A空6答案:6-C空7答案:7-D121、(3分)【匹配题】在sk-learn函数与所属机器学习算法进行连线

1、K近邻算法

A、VotingClassifier()

2、决策树

B、GaussionNB()

3、贝叶斯算法

C、KMeans(n_clusters=8)

4、支持向量机

D、PCA()

5、集成学习

E、train_test_split()

6、聚类

F、SVC(kernel=’linear’)

7、降维

G、KNeighborsClassifier(n_neighbors=5)

H、cross_val_score()

I、DecisionTreeRegressor(max_depth)

___

___

___

___

___

___

___[填空题]空1答案:1-G空2答案:2-I空3答案:3-B空4答案:4-F空5答案:5-A空6答案:6-C空7答案:7-D122、(1分)【问答题】简述集成学习法中的投票算法思想[填空题]_________________________________答案解析:投票法本质是通过多个模型的集成降低方差,从而提高模型的鲁棒性。123、(1分)【问答题】简述机器学习中“学习”、“泛化”两个术语的含义[填空题]_________________________________答案解析:

学习:从数据中学的模型的过程

泛化:学得模型适用于新样本的能力124、(1分)【问答题】有以下数据,欲对其进行种类划分,请该数据集中样本数有几个,数据的维度是?

萼片长度

萼片宽度

花瓣长度

花瓣宽度

种类

5.1

3.5

1.4

0.2

Se(0)

7.0

3.2

4.7

1.4

Ve(1)

6.3

3.3

6.0

2.6

Vi(2)[填空题]_________________________________答案解析:样本数:4个

维度:5个125、(1分)【问答题】对照以下机器学习代码,简述机器学习的基本流程

importnumpyasnp

importpandasaspd

importmatplotlib.pyplotasplt

fromsklearn.datasetsimportload_iris

fromsklearn.model_selectionimporttrain_test_split

fromsklearn.neighborsimportKneighborsClassifier

iris_dataset=load_iris()

x_train,x_test,y_train,y_test=train_test_split(iris_dataset['data'],iris_dataset['target'],random_state=0)

iris_dataframe=pd.DataFrame(x_train,columns=iris_dataset.feature_names)

grr=pd.plotting.scatter_matrix(iris_dataframe,c=y_train,figsize=(15,15),marker='o',hist_kwds={'bins':20},s=60,alpha=.8)

plt.show()

knn=KNeighborsClassifier(n_neighbors=3)

knn.fit(x_train,y_train)

y_pred=knn.predict(x_test)

print("测试集得分:{:.2f}".format(knn.score(x_test,y_test)))[填空题]_________________________________126、(1分)【问答题】对照以下机器学习代码,简述机器学习的基本流程

#!/usr/bin/envpython

#coding:utf-8

importmatplotlib.pyplotasplt

importnumpyasnp

importpandasaspd

df=pd.read_csv('D:/3_film.csv')

X=df.iloc[:,1:4]

y=df.filmnum

fromsklearn.model_selectionimporttrain_test_split

X=np.array(X.values)

y=np.array(y.values)

X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.25,random_state=1)

fromsklearnimportlinear_model

ridge=linear_model.Ridge(alpha=0.1)

ridge.fit(X_train,y_train)

print('求解截距项为:',ercept_)

print('求解系数为:',ridge.coef_)

y_hat=ridge.predict(X_test)

plt.figure(figsize=(10,6))

t=np.arange(len(X_test))

plt.plot(t,y_test,'r',linewidth=2,label='y_test')

plt.plot(t,y_hat,'g',linewidth=2,label='y_hat')

plt.legend()

plt.show()

fromsklearnimportmetrics

fromsklearn.metricsimportr2_score

print("r2_score:",r2_score(y_test,y_hat))

print("MAE:",metrics.mean_absolute_error(y_test,y_hat))

print("MSE:",metrics.mean_squared_error(y_test,y_hat))

print("RMSE:",np.sqrt(metrics.mean_squared_error(y_test,y_hat)))[填空题]_________________________________127、(1分)【问答题】有数据如下,欲划分种类,请问属于有监督学习还是无监督学习,为什么?

萼片长度

萼片宽度

花瓣长度

花瓣宽度

种类

5.1

3.5

1.4

0.2

Se(0)

7.0

3.2

4.7

1.4

Ve(1)

6.3

3.3

6.0

2.6

Vi(2)[填空题]_________________________________答案解析:有监督学习,鸢尾花属于分类算法,分类算法均属于有监督学习128、(1分)【问答题】简述如何评估线性回归模型的性能[填空题]_________________________________答案解析:在回归任务(对连续值的预测)中,常见的评估指标(Metric)有:平均绝对误差(MAE)、均方误差(MSE)、均方根误差(RMSE)和平均绝对百分比误差(MAPE)129、(1分)【问答题】说一说箱线图的含义[填空题]_________________________________答案解析:箱线图,利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法。它可以直观明了地识别数据批中的异常值,利用箱线图判断数据批的偏态和尾重,也可以粗略地看出数据是否具有有对称性,分布的分散程度等信息,特别可以用于对几个样本的比较。130、(1分)【问答题】数据准备中,使用MinMaxScaler类的作用是什么[填空题]_________________________________答案解析:使用MinMaxScaler类的作用是:

使不同量纲的特征处于同一数值量级,减少方差大的特征的影响,使模型更准确;加快学习算法的收敛速度。131、(1分)【问答题】简述训练集和测试集的作用[填空题]_________________________________答案解析:训练集(trainset)——用于模型拟合的数据样本。在训练过程中对训练误差进行梯度下降,进行学习,可训练的权重参数。

测试集——用来评估模最终模型的泛化能力。但不能作为调参、选择特征等算法相关的选择的依据。

验证集(validationset)——是模型训练过程中单独留出的样本集,它可以用于调整模型的超参数和用于对模型的能力进行初步评估。132、(1分)【问答题】简述集成学习法中的装袋法(Bagging)算法思想[填空题]_________________________________答案解析:Bagging算法,又称装袋算法,是机器学习领域的一种集成学习算法。最初由LeoBreiman于1994年提出。之所以被称为装袋法,是因为它采用了一种有放回的抽样方法来生成训练数据。通过多轮有放回的对初始训练集进行随机采样,多个训练集被并行化生成,对应可训练出多个基学

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论