MOOC 数据挖掘与python实践-中央财经大学中国大学慕课答案

上传人：小*** IP属地：未知上传时间：2024-04-27 格式：DOCX 页数：61 大小：141.87KB 积分：12 举报 版权申诉

已阅读5页，还剩56页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

MOOC数据挖掘与python实践-中央财经大学中国大学慕课答案第一单元测验1、问题：数据挖掘又称从数据中发现知识，后者英文简称为（）。选项：A、KPPB、KDPC、KDDD、KPD正确答案:【KDD】2、问题：数据挖掘又称从数据中发现知识，前者英文简称为（）。选项：A、KPPB、DMC、KDDD、DD正确答案:【DM】3、问题：一般数据挖掘的流程顺序，下列正确的是（）。①选择数据挖掘的技术、功能和合适的算法②选择数据，数据清洗和预处理③了解应用领域，了解相关的知识和应用目标④寻找感兴趣的模式、模式评估、知识表示⑤创建目标数据集选项：A、③④①⑤②B、⑤④②①③C、③②⑤①④D、③⑤②①④正确答案:【③⑤②①④】4、问题：结构化的数据是指一些数据通过统一的（）的形式存储的，这类数据我们称为结构化的数据。选项：A、文档B、二维表格C、图像D、声音正确答案:【二维表格】5、问题：数值预测用于连续变量的取值，常用的预测方法是（）。选项：A、回归分析B、聚类C、关联D、分类正确答案:【回归分析】6、问题：下列应用场景不属于分类的是（）。选项：A、对信用卡申请者判断其信誉高低B、医生根据患者的症状判断所患疾病类型C、推广新产品时预测已有客户是否对新产品感兴趣D、为了解用户特点，公司将客户分群正确答案:【为了解用户特点，公司将客户分群】7、问题：Python语言的创始人是(）。选项：A、GuidovanRossumB、BillGatesC、SergeyBrinD、LarryPage正确答案:【GuidovanRossum】8、问题：Python科学计算的基本包是（）。选项：A、NumpyB、PandasC、Scikit-learnD、Matplotlib正确答案:【Numpy】9、问题：以下Python包中，绘图功能最强大的是（）。选项：A、MatplotlibB、PandasC、Scikit-learnD、Numpy正确答案:【Matplotlib】10、问题：以下Python包中，最适合用于机器学习的是（）。选项：A、Scikit-learnB、PandasC、NumpyD、Matplotlib正确答案:【Scikit-learn】11、问题：以下Python包中，提供了DataFrame数据类型的是（）。选项：A、PandasB、Scikit-learnC、NumpyD、Matplotlib正确答案:【Pandas】12、问题：为了避免包的依赖关系和系统兼容性等方面出现问题，本课程推荐的Python安装方式为（）。选项：A、通过Anaconda安装B、直接下载Python安装C、通过浏览器查找处理过的Python安装包D、直接安装Pycharm正确答案:【通过Anaconda安装】13、问题：数据挖掘包括下面哪些方法（）。选项：A、分类B、聚类C、关联D、异常发现正确答案:【分类#聚类#关联#异常发现】14、问题：数据挖掘和哪些学科领域有关系（）。选项：A、统计B、机器学习C、数据库D、优化正确答案:【统计#机器学习#数据库#优化】15、问题：聚类针对有标签的数据。选项：A、正确B、错误正确答案:【错误】16、问题：分类和回归都可用于预测，分类的输出是离散的类别值。选项：A、正确B、错误正确答案:【正确】17、问题：分类就是根据物以类聚的原理，将没有类别的对象根据对象的特征自动聚成不同簇的过程。选项：A、正确B、错误正确答案:【错误】18、问题：序列分析经常会用在购物篮分析中。选项：A、正确B、错误正确答案:【错误】19、问题：关联分析是数据分析中常用的分析方法。选项：A、正确B、错误正确答案:【正确】20、填空题：在这个大数据爆炸的时代，我们期待能够从这些数据中提炼出有用的知识，解决的方法就是数据仓库技术和技术。正确答案:【数据挖掘】21、填空题：在这个大数据爆炸的时代，我们期待能够从这些数据中提炼出有用的知识，解决的方法就是技术和数据挖掘技术。正确答案:【数据仓库】22、填空题：从存储方式对数据类型进行分类，可分为数据和数据。（输入两个位置的答案时，以一个空格作为分隔符）正确答案:【结构化非结构化】23、填空题：预测的模型构建需要来进行分析。正确答案:【历史数据】24、填空题：就是根据有类别的数据提供的信息，来概括类别的主要特征，构建模型或者规则，根据该模型或者规则预测对象的类别。正确答案:【分类】第二章单元测验1、问题：下列对学生相关属性描述中，不是标称属性的是（）。选项：A、头发颜色B、婚姻状况C、身高D、学号正确答案:【身高】2、问题：下列哪些选项能表示序数属性的数据集中趋势度量（）。选项：A、众数B、均值C、四分位数D、标准差正确答案:【众数】3、问题：（）可以观察从一个分布到另一分布是否有漂移。选项：A、直方图B、散点图C、盒图D、分位数-分位数图正确答案:【分位数-分位数图】4、问题：4人喜欢服饰的颜色如下，属性是标称属性。李四和孙六的相似性是（）。姓名帽子颜色上衣颜色裤子颜色鞋子颜色围巾颜色张三红蓝蓝绿红李四红蓝蓝红粉王五黄绿蓝绿红孙六蓝蓝蓝红粉选项：A、1/5B、2/5C、3/5D、4/5正确答案:【4/5】5、问题：度量作为一种测度，满足以下哪些条件：选项：A、同一性B、对称性C、三角不等式D、以上均是正确答案:【以上均是】6、问题：Python语言在创始人是（）。选项：A、BillGatesB、SergeyBrinC、LarryPageD、GuidovanRossum正确答案:【GuidovanRossum】7、问题：Python科学计算的基本包是（）。选项：A、PandasB、Scikit-learnC、NumpyD、Matplotlib正确答案:【Numpy】8、问题：以下Python包中，绘图功能最强大的是（）。选项：A、PandasB、Scikit-learnC、NumpyD、Matplotlib正确答案:【Matplotlib】9、问题：以下Python包中，最适合用于机器学习的是（）。选项：A、PandasB、Scikit-learnC、NumpyD、Matplotlib正确答案:【Scikit-learn】10、问题：以下Python包中，提供了DataFrame数据类型的是（）。选项：A、PandasB、Scikit-learnC、NumpyD、Matplotlib正确答案:【Pandas】11、问题：为了避免包的依赖关系和系统兼容性等方面出现问题，本课程推荐的Python安装方式为（）。选项：A、直接下载Python安装B、通过Anaconda安装C、通过浏览器查找处理过的Python安装包D、直接安装Pycharm正确答案:【通过Anaconda安装】12、问题：下列对学生的描述属性中，标称属性的属性是：选项：A、头发颜色B、婚姻状况C、身高D、学号正确答案:【头发颜色#婚姻状况#学号】13、问题：下列哪些指标可以度量数据的离散趋势度量：选项：A、极差B、四分位数C、四分位数极差D、五数概括正确答案:【极差#四分位数#四分位数极差#五数概括】14、问题：在探索性数据分析中，认为最有代表性，最能反映数据重要特征的五数概括,包括：选项：A、中位数Q2B、四分位数Q1C、四分位数Q3D、最小值E、最大值正确答案:【中位数Q2#四分位数Q1#四分位数Q3#最小值#最大值】15、问题：在文献中，属性、维、特征和变量通常可以互换地使用。选项：A、正确B、错误正确答案:【正确】16、问题：二元属性是一种特殊的标称属性，分为对称和不对称两种。选项：A、正确B、错误正确答案:【正确】17、问题：序数属性的值存在有意义的序。相邻两者之间的差是已知的。选项：A、正确B、错误正确答案:【错误】18、问题：如果属性不是离散的，则它是连续的。选项：A、正确B、错误正确答案:【正确】19、问题：四分位数极差（IQR）是第1个和第2个四分位数之间的距离。选项：A、正确B、错误正确答案:【错误】20、问题：盒图用来考察两个属性之间是否存在正相关和负相关。选项：A、正确B、错误正确答案:【错误】21、问题：对于非对称的二元属性，两个都取值1的情况(正匹配)被认为比两个都取值0的情况(负匹配)更有意义，其中负匹配数t被认为是不重要的，因此在计算时可以忽略。选项：A、正确B、错误正确答案:【正确】22、问题：一般来说数据库中行对应于数据对象，而列对应于属性。选项：A、正确B、错误正确答案:【正确】23、问题：相异性矩阵又称对象-对象结构，存放n个对象两两之间的邻近度。选项：A、正确B、错误正确答案:【正确】24、问题：在计算混合类型属性的相异性时，一般是通过将所有有意义的属性转换到共同的区间[0.0,1.0]上，实现在单个相异性矩阵中进行计算。选项：A、正确B、错误正确答案:【正确】25、填空题：为了抵消少数极端值对均值计算的影响，我们可以使用。正确答案:【截尾均值】26、填空题：中列数是数据集的最大值和的平均值。正确答案:【最小值】27、填空题：给定两个数据对象（19,4,5）和（22,6,3），则两个对象之间的欧氏距离。【如果计算结果是小数，则保留一位；如果是整数，则直接填写整数】正确答案:【4.1】28、填空题：给定两个数据对象（19,4,5）和（22,6,3），则两个对象之间的曼哈顿距离。【如果计算结果是小数，则保留一位；如果是整数，则直接填写整数】正确答案:【7】29、填空题：给定两个数据对象（19,4,5）和（22,6,3），则两个对象之间的上确界距离。【如果计算结果是小数，则保留一位；如果是整数，则直接填写整数】正确答案:【3】30、填空题：x=(5,0,3,0,2,0,0,2,0,0)和y=(3,0,2,0,1,1,0,1,0,1)，使用余弦相似度公式计算这两个向量之间的相似性等于。【如果计算结果是小数，则保留一位；如果是整数，则直接填写整数】正确答案:【0.9】第三单元测验1、问题：运行以下代码fromsklearn.datasetsimportload_irisiris_data=load_iris()iris_data.data.shape输出结果为(150,4)。则表示iris数据集包括样本个数为（）。选项：A、150B、4C、600D、154正确答案:【150】2、问题：运行以下代码fromsklearn.datasetsimportload_irisiris_data=load_iris()iris_data.data.shape输出结果为(150,4)。则表示iris数据集包括样本特征数为（）。选项：A、150B、4C、600D、154正确答案:【4】3、问题：在Numpy包中，计算中位数的函数为（）。选项：A、numpy.mean()B、numpy.median()C、numpy.std()D、numpy.var()正确答案:【numpy.median()】4、问题：在Numpy包中，计算标准差的函数为（）。选项：A、numpy.mean()B、numpy.median()C、numpy.std()D、numpy.var()正确答案:【numpy.std()】5、问题：给定df是一个DataFrame对象，对df所有字段进行描述性统计，可以利用的方法为（）。选项：A、df.summary()B、df.statistics()C、df.mean()D、df.describe()正确答案:【df.describe()】6、问题：运行以下代码”importmatplotlib.pyplotasplt”引入plt后，要绘制饼状图，需要利用的函数为（）。选项：A、plt.bar()B、plt.pie()C、plt.plot()D、plt.hist()正确答案:【plt.pie()】7、问题：运行以下代码”importmatplotlib.pyplotasplt”引入plt后，要绘制折线图，需要利用的函数为（）。选项：A、plt.bar()B、plt.pie()C、plt.plot()D、plt.hist()正确答案:【plt.plot()】8、问题：运行以下代码”importmatplotlib.pyplotasplt”引入plt后，要绘制直方图，需要利用的函数为（）。选项：A、plt.bar()B、plt.pie()C、plt.plot()D、plt.hist()正确答案:【plt.hist()】9、问题：运行以下代码”importmatplotlib.pyplotasplt”引入plt后，要绘制散点图，需要利用的函数为（）。选项：A、plt.bar()B、plt.scatter()C、plt.plot()D、plt.hist()正确答案:【plt.scatter()】10、问题：使用最小-最大法进行数据规范化，需要映射的目标区间为[0,100]，原来的取值范围是[-10,10]。根据等比映射的原理，一个值8映射到新区间后的值是（）。选项：A、80B、85C、90D、95正确答案:【90】11、问题：使用零均值规范化方法，年收入属性的均值为65，标准差为12，则年收入59万元规范化后为（）。选项：A、-0.5B、-0.2C、0.3D、0.5正确答案:【-0.5】12、问题：使用等距离分箱法进行数据离散化，数据范围为20,40,50,58,65,80,80,82,86,90,96,105,120,200，区间个数为4。下列属于4个箱的区间是（）。选项：A、[20,65]B、(65,110)C、[110,155)D、(155,200]正确答案:【[110,155)】13、问题：特征选择方法中，一般的启发式方法有（）。选项：A、逐步增加法B、逐步递减法C、随机选择D、以上都是正确答案:【以上都是】14、问题：在使用主成分分析法进行数据属性特征提取中，在对数据集进行中心化处理后，为了去除冗余和降低噪音，应将协方差矩阵非对角线上的元素化为（）。选项：A、-1/2B、0C、1/2D、不用处理正确答案:【0】15、问题：关联规则的挖掘算法只能处理（）类型的取值，为此（）是继续其知识发现过程的必要步骤。选项：A、离散；数据离散化B、连续；数据离散化C、离散；数据规范化D、连续；数据规范化正确答案:【离散；数据离散化】16、问题：（）是指对描述对象的属性进行重新组合，获得一组反映事物本质的少量的新的属性的过程。（）是指从属性集合中选择那些重要的、与分析任务相关的子集的过程。选项：A、特征提取；特征选择B、特征选择；特征提取C、数据提取；数据选择D、数据选择；数据提取正确答案:【特征提取；特征选择】17、问题：下列不属于数据预处理原因的是（）。选项：A、数据可能存在缺失、错误、不一致等问题B、数据有可能不能很好地反映潜在的模式C、有些数据属性是无用的或者冗余的D、数据量过于庞大正确答案:【数据量过于庞大】18、问题：下列关于数据规范化说法错误的是（）。选项：A、数据规范化又称为数据标准化B、数据规范化是将属性的取值范围统一C、数据规范化是为了给重要的属性赋予更大的权重D、数据规范化是为了避免不同属性的不平等地位正确答案:【数据规范化是为了给重要的属性赋予更大的权重】19、问题：缺失值处理方法中错误的是（）。选项：A、对于分类属性，使用同类对象属性值的均值B、对于离散属性或定性属性，使用众数C、对于所有属性都可以使用均值D、转换为分类问题或数值预测问题正确答案:【对于所有属性都可以使用均值】20、问题：主成分分析的步骤是（）。选项：A、中心化数据集-计算主成分矩阵-计算协方差矩阵-计算特征根-得到降维后的数据集B、中心化数据集-计算协方差矩阵-计算特征根-计算主成分矩阵-得到降维后的数据集C、计算协方差矩阵-计算主成分矩阵-计算特征根-中心化数据集-得到降维后的数据集D、计算协方差矩阵-计算特征根-中心化数据集-计算主成分矩阵-得到降维后的数据集正确答案:【中心化数据集-计算协方差矩阵-计算特征根-计算主成分矩阵-得到降维后的数据集】21、问题：下列关于等距离分箱的说法中错误的是（）。选项：A、又称为等宽度分箱B、若区间个数为k，每个区间的间距为I=(max-min)/kC、等距离分箱能使每个区间内包含的取值个数大致相同D、等距离分箱可能导致属于某些的取值非常多，而某些又非常少正确答案:【等距离分箱能使每个区间内包含的取值个数大致相同】22、问题：数据预处理的任务不包括（）。选项：A、数据分类B、数据清洗C、数据规范化和离散化D、特征提取与特征选择正确答案:【数据分类】23、问题：使用python处理缺失值的方法中叙述错误的是（）。选项：A、isnull()判断缺失值B、dropna()删除缺失值C、fillna()填充缺失值D、interpolate()使用中位数填充缺失值正确答案:【interpolate()使用中位数填充缺失值】24、问题：最小最大规范化方法MinMaxScaler属于python中的哪个包（）。选项：A、sklearnB、pandasC、numpyD、scipy正确答案:【sklearn】25、问题：主成分分析方法PCA属于属于python中的哪个包（）。选项：A、sklearnB、pandasC、numpyD、scipy正确答案:【sklearn】26、问题：最小-最大法中，假设需要映射到目标区间为[L,R]，原来的取值范围为[l,r]。一个值x映射到新区间后的值v的计算方法是（）。选项：A、B、C、D、正确答案:【】27、问题：在利用中文文本绘制词云时，需要在anaoncda的基础上安装哪些工具包（）。选项：A、WordcloudB、Scikit-learnC、JiebaD、Matplotlib正确答案:【Wordcloud#Jieba】28、问题：数据预处理的任务有哪些（）。选项：A、数据离散化B、数据规范化C、数据清洗D、特征提取与特征选择正确答案:【数据离散化#数据规范化#数据清洗#特征提取与特征选择】29、问题：数据规范化方法有哪些（）。选项：A、最小-最大法B、z-scoreC、聚类D、分类正确答案:【最小-最大法#z-score】30、问题：数据清洗的主要目的是将数据集中存在的（）和（）进行处理，降低其对后续数据分析处理的影响。选项：A、缺失B、噪声C、最大值D、最小值正确答案:【缺失#噪声】31、问题：特征选择过程是描述同一对象的多个属性的取值范围，统一到相同的范围，避免某些属性的作用大于其它属性。选项：A、正确B、错误正确答案:【错误】32、问题：通过数据离散化，可以实现缩减数据量的效果。选项：A、正确B、错误正确答案:【正确】33、问题：有监督的离散化方法常用的有分箱法和ChiMerge方法。选项：A、正确B、错误正确答案:【错误】34、问题：基于熵的方法可以被看做是自顶向下的分裂方法，ChiMerge则属于自底向上的合并方法。选项：A、正确B、错误正确答案:【正确】35、问题：一种简单的填补缺失值的方法为,将属于同一类的对象的该属性值的均值赋予此缺失值。选项：A、正确B、错误正确答案:【正确】36、问题：分箱离散化是一种有监督离散化方法。选项：A、正确B、错误正确答案:【错误】37、问题：基于熵的离散化方法是常用的有监督的离散化方法。选项：A、正确B、错误正确答案:【正确】38、问题：选择属性子集的方法一般采用启发式方法，只检验部分可能性比较大的子集，这样可以快速完成属性的选择。选项：A、正确B、错误正确答案:【正确】39、问题：主成分分析能够达到去除冗余、降低噪音和降维的目的，但无法得到反映事物本质的新变量。选项：A、正确B、错误正确答案:【错误】40、问题：将数据分为n个等频的箱中，可以?箱均值、箱中位数或箱边界光滑数据。选项：A、正确B、错误正确答案:【正确】41、问题：在主成分分析中，每个主成分都是原始变量的线性组合，且各个主成分之间互不相关。选项：A、正确B、错误正确答案:【正确】42、填空题：等距离分箱可能导致属于某些区间的取值非常多，而某些区间的取值又非常少。则能够解决此问题。正确答案:【等频】43、填空题：面对噪音，一类是识别出噪音，将其去除；另一类是可以使用方法，用于平滑噪音。正确答案:【分箱】44、填空题：使用主成分分析法进行数据属性特征提取中，每个新的特征是原有特征的。正确答案:【线性组合】45、填空题：一组数据：20，40，50，58，65，80，80，82，86，90，96，105，120，200。采用等距分箱法分为4箱，其中82位于第____个箱。（填写阿拉伯数字）正确答案:【2】46、填空题：一组数据：20，40，50，58，65，80，80，82，86，90，96，105，120，200。使用最大-最小法进行数据规范化，目标区间为[0,1]，则80映射到新区间后的值为___。（四舍五入保留小数点后两位）正确答案:【0.33】第四单元测验1、问题：Python在调用efficient-apriori包中的apriori函数进行挖掘关联规则时，第一个返回值是（）。选项：A、频繁项集B、关联规则C、最小支持度D、最小置信度正确答案:【频繁项集】2、问题：Python在调用efficient-apriori包中的apriori函数进行挖掘关联规则时，第二个返回值是（）。选项：A、频繁项集B、关联规则C、最小支持度D、最小置信度正确答案:【关联规则】3、问题：如下表所示，X={butter,cheese}，则支持度support(X)=（）。交易号（TID）商品（Items）1beer,diaper,nuts2beer,biscuit,diaper3bread,butter,cheese4beer,cheese,diaper,nuts5beer,butter,cheese,nuts选项：A、1/5B、2/5C、3/5D、4/5正确答案:【2/5】4、问题：如下表所示，X={butter,cheese}，Y={beer}，则置信度confidence(X→Y)=（）。交易号（TID）商品（Items）1beer,diaper,nuts2beer,biscuit,diaper3bread,butter,cheese4beer,cheese,diaper,nuts5beer,butter,cheese,nuts选项：A、1/2B、1/3C、1/4D、2/5正确答案:【1/2】5、问题：如下表所示，使用FP-Growth计算其频繁集，给定最小支持度为40%，频繁模式树（FP树）有（）个结点。（不包括根结点）。交易号（TID）商品（Items）1beer,diaper,nuts2beer,biscuit,diaper3bread,butter,cheese4beer,cheese,diaper,nuts5beer,butter,cheese,nuts选项：A、5B、8C、9D、10正确答案:【9】6、问题：对于任一个频繁项集X和它的一个非空真子集Y，S=X-Y，规则S→Y成立的条件是（）。选项：A、confidence(S→Y)minconfB、confidence(S→Y)≥minconfC、confidence(Y→S)minconfD、confidence(Y→S)≥minconf正确答案:【confidence(S→Y)≥minconf】7、问题：在多层次关联规则分析中，如果将商品进行归类，每一商品类别的支持度会（）其包含的每个商品的支持度，从而有利于发现一些有意义的频繁模式或关联规则。选项：A、小于B、等于C、大于D、不确定正确答案:【大于】8、问题：在FP-growth构建频繁模式树中，每个（）（除根结点外）代表一个单项，树中的每条（）代表原数据中每一个条目的各个项。如果把条目内的项组合在一起看成一个字符串，则字符串前缀相同时共享相同的（）。选项：A、结点；路径；路径B、结点；路径；结点C、路径；路径；结点D、路径；路径；路径正确答案:【结点；路径；路径】9、问题：购买了此商品后还会购买的商品，它们的地位是平等的，其中涉及了时间和顺序的概念，强调的是一个规则，也就是我们所说的关联规则。选项：A、正确B、错误正确答案:【错误】10、问题：如果一个项集是不频繁的，则其所有的超集都是不频繁的。利用这一性质可以简化Apriori算法中的计算过程。选项：A、正确B、错误正确答案:【正确】11、问题：逐层发现算法Apriori发现频繁项集的过程是按照项集的长度由大到小逐级进行的。选项：A、正确B、错误正确答案:【错误】12、问题：利用项的概念层次信息，不仅可以发现涉及那些出现频率比较低的商品的频繁模式和关联规则，而且还可以发现概括性更强的规则。选项：A、正确B、错误正确答案:【正确】13、问题：在结构化数据中进行关联分析发现其中的频繁模式和关联规则。对于取值连续的属性，首先将其离散化，然后将每个取值区间作为一个值，继而转化为“属性=值”的形式。选项：A、正确B、错误正确答案:【正确】14、问题：若Y和Z是X的两个不同的k项子集，只有当confidence(X-Y→Y)≥minconf和confidence(X-Z→Z)≥minconf都满足时，X-(Y∪Z)→(Y∪Z)一定成立。选项：A、正确B、错误正确答案:【错误】15、问题：具体来讲，若一个项集X的支持度大于用户给定的一个最小支持度阈值，则X被称为频繁项集（或频繁模式）。选项：A、正确B、错误正确答案:【正确】16、问题：如果一个规则X→Y同时满足support(X→Y)≥minsup和confidence(X→Y)≥minconf，则称该规则在数据库D中成立，其中minsup和minconf分别是用户给定的最小支持度和最小置信度的阈值。选项：A、正确B、错误正确答案:【正确】17、问题：给定最小支持度阈值minsup，一个频繁项集的所有非空子集都是频繁的。选项：A、正确B、错误正确答案:【正确】18、问题：FP-growth算法无须生成候选项集的方法，可以避免产生大量候选项集。选项：A、正确B、错误正确答案:【正确】19、填空题：Python在调用efficient-apriori包中的apriori函数训练挖掘关联规则时，设定最小支持度的参数是______。正确答案:【min_support】20、填空题：Python在调用efficient-apriori包中的apriori函数训练挖掘关联规则时，设定最小置信度的参数是______。正确答案:【min_confidence】21、填空题：给定一个频繁负项集X，我们可以从中发现隐含的负关联规则。负项集和负关联规则统称为_____。正确答案:【负模式】22、填空题：如果一个规则和其祖先规则具有近似相同的置信度，则该规则称为_____。为了减少发现的规则数目，可以将其从输出的结果中删除。正确答案:【冗余规则】第五单元测验1、问题：通过代码“fromsklearnimporttree”引入决策树模块，并通过代码“clf=tree.DecisionTreeClassifier()”构造分类器对象后，训练时要调用的方法是（）。选项：A、clf.train()B、clf.fit()C、clf.learn()D、clf.predict()正确答案:【clf.fit()】2、问题：通过代码“fromsklearnimporttree”引入决策树模块，并通过代码“clf=tree.DecisionTreeClassifier()”构造分类器对象，在训练后做预测时要调用的方法是（）。选项：A、clf.predict()B、clf.forecast()C、clf.guess()D、clf.outlook()正确答案:【clf.predict()】3、问题：利用tree.DecisionTreeClassifier()训练模型时调用.fit()方法需要传递的第一个参数是（）。选项：A、样本特征XB、样本标签YC、判断标准D、设置结点的最小样本数量正确答案:【样本特征X】4、问题：利用tree.DecisionTreeClassifier()训练模型时调用.fit()方法需要传递的第二个参数是（）。选项：A、样本特征XB、样本标签YC、判断标准D、设置结点的最小样本数量正确答案:【样本标签Y】5、问题：通过代码“fromsklearnimportmetrics”引入评价指标模块后，面对真实标签true_label和模型预测标签predicted_label，混淆矩阵可通过调用（）代码得到。选项：A、confusion_matrix(true_labe,predicted_label)B、confusion_matrix(predicted_label,true_labe)C、metrics.confusion_matrix(true_labe,predicted_label)D、metrics.confusion_matrix(predicted_label,true_labe)正确答案:【metrics.confusion_matrix(true_labe,predicted_label)】6、问题：在Scikit-learn模块下，不同分类模型在训练时，调用的方法名称（）。选项：A、相同B、不同C、视情况而定D、不知道正确答案:【相同】7、问题：在Scikit-learn模块下，不同分类模型在预测时，调用的方法名称（）。选项：A、相同B、不同C、视情况而定D、不知道正确答案:【相同】8、问题：用于分类与回归应用的主要算法有（）。选项：A、Apriori算法、HotSpot算法B、RBF神经网络、K均值法、决策树C、K均值法、SOM神经网络D、决策树、BP神经网络、贝叶斯正确答案:【决策树、BP神经网络、贝叶斯】9、问题：决策树中不包含一下哪种结点（）。选项：A、根结点（rootnode）B、内部结点（internalnode）C、外部结点（externalnode）D、叶结点（leafnode）正确答案:【外部结点（externalnode）】10、问题：以下哪种算法是分类算法（）。选项：A、DBSCANB、C4.5C、K-MeanD、EM正确答案:【C4.5】11、问题：下列属于决策树中应该剪枝的情景是（）。选项：A、一个结点关联的数据集的信息熵高于指定阈值B、一个结点关联的数据集的信息熵低于指定阈值C、双亲结点的误差比子女结点的加权误差大D、双亲结点的误差比子女结点的平均误差大正确答案:【一个结点关联的数据集的信息熵低于指定阈值】12、问题：朴素贝叶斯分类中得到条件概率的方法错误的是（）。选项：A、对于定性属性，计算某一类别的样本中某种属性取该值的样本所占比例来近似B、对于定性属性，将转化为定量属性，再计算相应的概率C、对于定量属性，将取值离散化变为区间，再当做定性属性处理D、对于定量属性，假设变量服从某种概率分布，通过训练数据集估计分布的参数正确答案:【对于定性属性，将转化为定量属性，再计算相应的概率】13、问题：假设某分类器在一个测试数据集上的分类结果的混淆矩阵如下所示，该分类器的准确率accuracy为（）。PredictedyesnoActualyes155no1020选项：A、70%B、75%C、66.7%D、80%正确答案:【70%】14、问题：假设某分类器在一个测试数据集上的分类结果的混淆矩阵如下所示，该分类器的错误率errorrate为（）。PredictedyesnoActualyes155no1020选项：A、30%B、25%C、33.3%D、20%正确答案:【30%】15、问题：构造训练数据集和测试数据集的常用方法有（）。选项：A、保持法(holdout)B、交叉验证法(crossvalidation)C、自助抽样法(bootstrap)D、留一法（leaveoneout）正确答案:【保持法(holdout)#交叉验证法(crossvalidation)#自助抽样法(bootstrap)#留一法（leaveoneout）】16、问题：为了比较利用不同分类算法构建的分类模型的性能，可以利用图形进行比较，常用的图形包括（）。选项：A、增益图B、ROC曲线C、直方图D、条形图正确答案:【增益图#ROC曲线】17、问题：分类是总结已有类别对象的特点，并根据这些特点，进行未知类别对象的类别预测的过程。又可称为无监督学习。选项：A、正确B、错误正确答案:【错误】18、问题：Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法，待分样本的分类结果取决于各类域中样本的全体。选项：A、正确B、错误正确答案:【错误】19、问题：分类模型的误差大致分为两种：训练误差（trainingerror）和泛化误差（generalizationerror）。选项：A、正确B、错误正确答案:【正确】20、问题：在决策树中，随着树中结点数变得太大，即使模型的训练误差还在继续减低，但是检验误差开始增大，这是出现了模型拟合不足的问题。选项：A、正确B、错误正确答案:【错误】21、问题：决策树方法通常用于关联规则挖掘。选项：A、正确B、错误正确答案:【错误】22、问题：留一法是交叉验证法的特殊情况。选项：A、正确B、错误正确答案:【正确】23、问题：决策树的思想是自顶向下递归的构建过程，关键点是在于分裂属性和分裂条件的选择。选项：A、正确B、错误正确答案:【正确】24、问题：ID3的分裂属性选择条件是选择信息增益最大的作为分裂属性。选项：A、正确B、错误正确答案:【正确】25、问题：朴素贝叶斯分类基于贝叶斯定理的一种分类方法。选项：A、正确B、错误正确答案:【正确】26、问题：k近邻方法不需要事先学习分类模型，当需要预测的时候，根据预测样本的特性和已知训练数据集中的数据进行类别的判断。选项：A、正确B、错误正确答案:【正确】27、问题：K近邻方法的核心思想是对一个预测样本A，从训练数据集中找到与其最相似的k个样本，利用这个k个样本的类别来决策该样本A的类别。选项：A、正确B、错误正确答案:【正确】28、填空题：为了评价一个分类模型的性能，我们通常根据分类模型判断一组已知类别的对象的类别，这些已知类别的对象构成的数据集称为。正确答案:【测试数据集##%_YZPRLFH_%##测试集】29、填空题：决策树中根结点的层次为。【请填写阿拉伯数字】正确答案:【1】30、填空题：分类算法针对某个测试数据集的有效性通常通过矩阵来反映。正确答案:【混淆】31、填空题：假设某分类器在一个测试数据集上的分类结果的混淆矩阵如下所示，请计算该分类器的错误率，以类别yes为正例，计算分类器的查准率precision为%。【保留到整数位】PredictedyesnoActualyes155no1020正确答案:【60】32、填空题：假设某分类器在一个测试数据集上的分类结果的混淆矩阵如下所示，请计算该分类器的错误率，以类别yes为正例，计算分类器的查全率recall为%。【保留到整数位】PredictedyesnoActualyes155no1020正确答案:【75】第六单元测验1、问题：通过代码”fromsklearnimportlinear_model”引入线性模型模块，并通过代码“reg=linear_model.LinearRegression()”构造回归器对象后，在训练时要调用的方法是（）。选项：A、reg.train()B、reg.fit()C、reg.learn()D、reg.predict()正确答案:【reg.fit()】2、问题：通过代码”fromsklearnimportlinear_model”引入线性模型模块，并通过代码“reg=linear_model.LinearRegression()”构造回归器对象，在训练后做预测时要调用的方法是（）。选项：A、reg.guess()B、reg.forecast()C、reg.predict()D、reg.outlook()正确答案:【reg.predict()】3、问题：利用“linear_model.LinearRegression()”训练模型时调用.fit()方法需要传递的第一个参数是（）。选项：A、样本特征XB、样本标签YC、样本权重D、是否考虑计算截距正确答案:【样本特征X】4、问题：利用linear_model.LinearRegression()训练模型时调用.fit()方法需要传递的第二个参数是（）。选项：A、样本特征XB、样本标签YC、样本权重D、是否考虑计算截距正确答案:【样本标签Y】5、问题：在利用linear_model.LinearRegression()构造的reg对象训练模型后，可以通过以下哪行代码查看回归模型系数（）。选项：A、reg.coefficient_B、reg._coefficientC、reg._coefD、reg.coef_正确答案:【reg.coef_】6、问题：在以下四个散点图中，其中适用于作线性回归的散点图为（）。选项：A、①②B、①③C、②③D、③④正确答案:【①③】7、问题：已知对一组观察值(xi，yi)作出散点图后确定具有线性相关关系，若对于y＝bx＋a，求得b＝0.51，x＝61.75，y＝38.14，则线性回归方程为（）。选项：A、y＝0.51x＋6.65B、y＝6.65x＋0.51C、y＝0.51x＋42.30D、y＝42.30x＋0.51正确答案:【y＝0.51x＋6.65】8、问题：对于指数曲线y=a*e^(bx)，令u＝lny，c＝lna，经过非线性化回归分析之后，可以转化成的形式为（）。选项：A、u＝c＋bxB、u＝b＋cxC、y＝b＋cxD、y＝c＋bx正确答案:【u＝c＋bx】9、问题：下面关于构建模型树的说法中，错误的是（）。选项：A、创建一个结点t，与结点t关联的数据集记为DtB、如果当前结点t所关联的数据集Dt中样本个数小于给定阈值或者Dt中样本的目标属性取值的标准差小于给定阈值,则将该结点标记为叶子节点C、在选择分类属性时，应选择时SDR值最小的属性D、SDR代表误差的期望减少正确答案:【在选择分类属性时，应选择时SDR值最小的属性】10、问题：下列选项中错误的是（）。选项：A、MST=SST/dfTB、MSE=SSE/dfEC、MSR=SSR/dfRD、SSR=SST+SSE正确答案:【SSR=SST+SSE】11、问题：决策树的叶子结点对应（）。选项：A、某个类别B、一个数值C、一个线性回归方程D、以上都可以正确答案:【某个类别】12、问题：回归树的叶子结点对应（）。选项：A、某个类别B、一个数值C、一个线性回归方程D、以上都可以正确答案:【一个数值】13、问题：模型树的叶子结点对应（）。选项：A、某个类别B、一个数值C、一个线性回归方程D、以上都可以正确答案:【一个线性回归方程】14、问题：在比较模型的拟合效果时，甲、乙、丙、丁四个模型的决定系数R^2的值分别约为0.96、0.85、0.80和0.7，则拟合效果好的模型是（）。选项：A、甲B、乙C、丙D、丁正确答案:【甲】15、问题：多元回归建模后的检验包括（）。选项：A、拟合优度检验B、回归关系的显著性检验C、回归系数的显著性检验D、倾向值检验正确答案:【拟合优度检验#回归关系的显著性检验#回归系数的显著性检验】16、问题：常用的非线性函数除了多项式函数之外，还包括（）。选项：A、幂函数B、指数函数C、对数函数D、双曲函数正确答案:【幂函数#指数函数#对数函数#双曲函数】17、问题：（）采用自顶向下分而治之的思想，将训练集不断分割成子数据集来不断扩展树枝，当满足一定条件时停止树的生长。选项：A、决策树B、模型树C、回归树D、多元回归正确答案:【决策树#模型树#回归树】18、问题：预测性能的优劣需要一定的度量来衡量，常用的度量是（）。选项：A、MAE（平均绝对误差）B、MSE（均方误差）C、RSE（相对平方误差）D、RAE（相对绝对误差）正确答案:【MAE（平均绝对误差）#MSE（均方误差）#RSE（相对平方误差）#RAE（相对绝对误差）】19、问题：数值预测与分类都属于有监督学习，解决问题的过程相同，都是先通过训练数据集进行学习，以得到一个模型然后利用模型进行预测。选项：A、正确B、错误正确答案:【正确】20、问题：的值越接近1，说明回归直线对观测值的拟合程度越好。选项：A、正确B、错误正确答案:【正确】21、问题：为了检验回归系数的显著性，可以使用F检验。选项：A、正确B、错误正确答案:【错误】22、问题：在模型树的剪枝过程中，两个叶子结点的期望误差通过加权求和结合在一起作为子树误差。选项：A、正确B、错误正确答案:【正确】23、问题：回归树和模型树都是通过自下而上、分而治之的思想，将训练集不断分割成子数据集来不断扩展树枝，当满足一定条件时停止树的生长。选项：A、正确B、错误正确答案:【错误】24、问题：在模型树的构建过程中，应选择使SDR值最小的属性。选项：A、正确B、错误正确答案:【错误】25、问题：一元线性回归的步骤：构建包含因变量和自变量的训练集；通过散点图确认因变量和自变量之前的近似线性关系；计算系数和构建模型；模型检验；利用模型进行预测。选项：A、正确B、错误正确答案:【正确】26、问题：多元回归是对一个自变量和多个因变量之间的回归分析。选项：A、正确B、错误正确答案:【错误】27、问题：回归系数的检验可以采用t检验。选项：A、正确B、错误正确答案:【正确】28、问题：模型树构建之后，为了避免过度拟合，需要对模型树进行剪枝。选项：A、正确B、错误正确答案:【正确】29、问题：在模型树的构建过程中，分裂属性的选择以分裂后的各个子数据集中目标属性取值的标准差为依据，将标准差作为一种误差度量，将分裂前后标准差的减少量作为误差的期望减少，称为SDR。选项：A、正确B、错误正确答案:【正确】30、问题：K近邻数值预测是利用一个样本的K个最相似的邻居的目标属性的取值来进行预测。选项：A、正确B、错误正确答案:【正确】31、填空题：模型树构建之后，为了避免过度拟合，需要对模型树进行________。正确答案:【剪枝】32、填空题：在模型树的构建过程中，分裂属性的选择以分裂后的各个子数据集中目标属性取值的标准差为依据，将标准差作为一种误差度量，将分裂前后标准差的减少量作为误差的期望减少，称为_________（填写英文简称）。正确答案:【SDR】第七单元测验1、问题：通过代码”fromsklearn.clusterimportKMeans”引入Kmenas模块，生成模型对象“kmeans=KMeans(n_clusters=2)”后，对于数据X训练时要调用的方法是（）。选项：A、kmeans.train()B、kmeans.fit()C、kmaens.train()D、kmaens.fit()正确答案:【kmeans.fit()】2、问题：通过代码”fromsklearn.clusterimportKMeans”引入Kmenas模块后，生成模型对象“kmeans=KMeans(n_clusters=3)”并完成对数据X完成聚类后，以下哪个代码可以查看每个样本所属簇的标签（）。选项：A、kmeans.labels_B、kmeans.y_C、kmeans.targets_D、kmeans.output_正确答案:【kmeans.labels_】3、问题：以下哪种情况对Kmeans模型的影响较小（）。选项：A、给定错误聚类个数B、数据有各向异性分布C、不同簇的方差相差较大D、簇的大小分布不均衡正确答案:【簇的大小分布不均衡】4、问题：在利用sklearn.cluster.AgglomerativeClustering进行凝聚聚类时，使用的默认距离度量是（）。选项：A、马氏距离B、余弦距离C、曼哈顿距离D、欧氏距离正确答案:【欧氏距离】5、问题：给定numpy.ndarray类型的数X，在以下代码中，eps参数的含义是（）。fromsklearn.clusterimportDBSCANclustering=DBSCAN(eps=3,min_samples=2).fit(X)选项：A、收敛条件阈值B、簇的个数C、邻域半径D、每个簇的最小样本数正确答案:【邻域半径】6、问题：根据聚类形成的簇的特点，如果有交集的簇之间必然存在包含关系，这种聚类称为（）。选项：A、划分型聚类B、层次型聚类C、重叠聚类D、以上均不是正确答案:【层次型聚类】7、问题：余弦相似度适用于（）情况。选项：A、属性类型多B、属性数量多C、有大量零值维度D、距离相近正确答案:【有大量零值维度】8、问题：皮尔森相关系数取值为（）时说明两个对象最不相似。选项：A、0B、1C、0.05D、-1正确答案:【-1】9、问题：k均值聚类的目标是（）。选项：A、最大化簇间距离B、最小化簇内距离的平方和C、最大化质心距离D、簇的大小基本一致正确答案:【最小化簇内距离的平方和】10、问题：给定密度阙值为3，对象o的ξ邻域中有5个对象，那么o是（）。选项：A、核心点B、关键点C、集中点D、高密度点正确答案:【核心点】11、问题：轮廓系数的取值范围是（）。选项：A、[0，1]B、[-1，1]C、[-1，0]D、[0，∞）正确答案:【[-1，1]】12、问题：P(22,1,42,10)，Q(20,0,36,8)为两个向量对象，这两个对象的欧几里得距离是（）。选项：A、B、11C、6D、正确答案:【】13、问题：P(22,1,42,10)，Q(20,0,36,8)为两个向量对象，这两个对象的曼哈顿距离是（）。选项：A、B、11C、6D、正确答案:【11】14、问题：P(22,1,42,10)，Q(20,0,36,8)为两个向量对象，这两个对象的切比雪夫距离是（）。选项：A、B、11C、6D、正确答案:【6】15、问题：P(22,1,42,10)，Q(20,0,36,8)为两个向量对象，这两个对象的闵可夫斯基距离（x=3）是（）。选项：A、B、11C、6D、正确答案:【】16、问题：下面哪些聚类方法易于发现具有球形形状的簇，难以发现椭圆形或者凹形形状的簇？选项：A、k均值聚类B、层次聚类C、DBSCAND、基于密度的聚类方法正确答案:【k均值聚类#层次聚类】17、问题：下面哪些聚类方法易于发现特殊形状的簇？选项：A、k均值聚类B、层次聚类C、DBSCAND、基于密度的聚类方法正确答案:【DBSCAN#基于密度的聚类方法】18、问题：关于聚类下列说法正确的是（）。选项：A、聚类有着广泛的应用。B、聚类可以作为其他数据挖掘分析过程的一个基础处理步骤。C、聚类可以发现偏离多数数据对象的孤立点。D、聚类和分类没有区别。正确答案:【聚类有着广泛的应用。#聚类可以作为其他数据挖掘分析过程的一个基础处理步骤。#聚类可以发现偏离多数数据对象的孤立点。】19、问题：聚类分析的过程中，聚类效果较好时属于同一个簇的对象相似度很高，而属于不同簇的对象相似度很低。选项：A、正确B、错误正确答案:【正确】20、问题：摄氏温度属于比例属性。选项：A、正确B、错误正确答案:【错误】21、问题：多种属性相似度的综合度量，可以先对单个属性进行相似度度量，然后求所有属性相似度的均值作为整个对象相似度。选项：A、正确B、错误正确答案:【正确】22、问题：凝聚层次聚类法中每次簇的合并可以更改。选项：A、正确B、错误正确答案:【错误】23、问题：凝聚度是用于衡量簇间相似程度的，凝聚度越大越好。选项：A、正确B、错误正确答案:【正确】24、问题：基于随机游走理论的链接相似度衡量方法(称为SimRank)计算两结点间的相似度，具有有界性、对称性、单调递增性、三角不等式性质。选项：A、正确B、错误正确答案:【错误】25、问题：轮廓系数是将凝聚度和分离度相结合的一种度量，越大聚类效果越好。选项：A、正确B、错误正确答案:【正确】26、问题：DBSCAN是一种基于密度的聚类方法，容易发现特殊形状的簇。选项：A、正确B、错误正确答案:【正确】27、问题：K均值聚类需要提前设定K值，而凝聚层次法不需要预先设置参数。选项：A、正确B、错误正确答案:【正确】28、填空题：____属性分为对称属性和非对称属性。正确答案:【二值】29、填空题：Jaccard系数适用于衡量用________二值属性描述的对象间的相似度。正确答案:【非对称】第八单元测验1、问题：顾客购物序列属于哪种数据类型（）选项：A、时间序列数据B、符号序列数据C、生物学序列D、空间数据正确答案:【符号序列数据】2、问题：下列哪项不是时间序列的主要研究方法（）选项：A、相似性搜索B、回归分析C、趋势分析D、序列模式挖掘正确答案:【序列模式挖掘】3、问题：下列属于异质网络的是（）选项：A、朋友网络B、合著者网络C、在线医疗网络D、网页网络正确答案:【在线医疗网络】4、问题：机动车辆管理者把GPS安装在汽车上，以便更好地监管和引导车辆，所记录的数据属于（）选项：A、空间数据B、时空数据C、物联网系统数据D、Web数据正确答案:【时空数据】5、问题：典型的文本挖掘任务包括（）选项：A、文本分类B、文本聚类C、观点分析D、以上都是正确答案:【以上都是】6、问题：（）是指大量流入系统、动态变化的、可能无限的，并且包含多维特征的数据。选项：A、流数据B、文本数据C、序列数据D、符号数据正确答案:【流数据】7、问题：根据分析目标，Web挖掘可以划分主要研究领域包括()。选项：A、Web内容挖掘B、Web结构挖掘C、Web使用挖掘D、Web布局挖掘正确答案:【Web内容挖掘#Web结构挖掘#Web使用挖掘】8、问题：下面哪些是时空数据的应用（）。选项：A、动物学家把遥感设备安装在野生动物身上，以便分析生态行为B、机动车辆管理者把GPS安装在汽车上，以便更好地监管和引导车辆C、气象学家使用人造卫星和雷达观察飓风D、从多媒体数据库中发现有趣的模式正确答案:【动物学家把遥感设备安装在野生动物身上，以便分析生态行为#机动车辆管理者把GPS安装在汽车上，以便更好地监管和引导车辆#气象学家使用人造卫星和雷达观察飓风】9、问题：生物学序列通常很长，携带重要的、复杂的、隐藏的语义。选项：A、正确B、错误正确答案:【正确】10、问题：符号序列数据由事件或标称数据的长序列组成，通常时间间隔相等。选项：A、正确B、错误正确答案:【错误】11、问题：图与网络挖掘应用范围广泛，涉及生物信息学、化学情报学、计算机视觉、多媒体和文本检索。选项：A、正确B、错误正确答案:【正确】12、问题：多媒体数据挖掘是一个交叉学科领域，涉及图像处理和理解、计算机视觉、数据挖掘和模式识别。选项：A、正确B、错误正确答案:【正确】13、问题：目前大部分系统能够多次读取流数据。选项：A、正确B、错误正确答案:【错误】14、问题：网络由一个节点集和一个连接这些节点的边集组成。选项：A、正确B、错误正确答案:【正确】15、问题：物联网系统由大量相互作用的物理和信息部件组成，其例子包括患者护理系统，运输系统等。选项：A、正确B、错误正确答案:【正确】16、问题：“你和任何一个陌生人之间所间隔的人不会超过六个”称为小世界现象。选项：A、正确B、错误正确答案:【正确】17、问题：多媒体数据挖掘是一个交叉学科领域，涉及图像处理和理解、计算机视觉、数据挖掘和模式识别。选项：A、正确B、错误正确答案:【正确】《数据挖掘与python实践》期末试卷1、问题：数据挖掘又称从数据中发现知识，后者英文简称为（）。选项：A、KDDB、KPPC、KDPD、KPD正确答案:【KDD】2、问题：数据挖掘又称从数据中发现知识，前者英文简称为（）。选项：A、DMB、KPPC、KDDD、DD正确答案:【DM】3、问题：一般数据挖掘的流程顺序，下列正确的是（）。①选择数据挖掘的技术、功能和合适的算法②选择数据，数据清洗和预处理③了解应用领域，了解相关的知识和应用目标④寻找感兴趣的模式、模式评估、知识表示⑤创建目标数据集选项：A、③⑤②①④B、③④①⑤②C、⑤④②①③D、③②⑤①④正确答案:【③⑤②①④】4、问题：结构化的数据是指一些数据通过统一的（）的形式存储的，这类数据我们称为结构化的数据。选项：A、二维表格B、文档C、图像D、声音正确答案:【二维表格】5、问题：数值预测用于连续变量的取值，常用的预测方法是（）。选项：A、回归分析B、聚类C、关联D、分类正确答案:【回归分析】6、问题：下列应用场景不属于分类的是（）。选项：A、为了解用户特点，公司将客户分群B、对信用卡申请者判断其信誉高低C、医生根据患者的症状判断所患疾病类型D、推广新产品时预测已有客户是否对新产品感兴趣正确答案:【为了解用户特点，公司将客户分群】7、问题：Python语言的创始人是（）。选项：A、GuidovanRossumB、BillGatesC、SergeyBrinD、LarryPage正确答案:【GuidovanRossum】8、问题：Python科学计算的基本包是（）。选项：A、numpyB、pandasC、scikit-learnD、matplotlib正确答案:【numpy】9、问题：以下Python包中，绘图功能最强大的是（）。选项：A、matplotlibB、pandasC、scikit-learnD、numpy正确答案:【matplotlib】10、问题：以下Python包中，最适合用于机器学习的是（）。选项：A、scikit-learnB、pandasC、numpyD、matplotlib正确答案:【scikit-learn】11、问题：以下Python包中，提供了DataFrame数据类型的是（）。选项：A、pandasB、scikit-learnC、numpyD、matplotlib正确答案:【pandas】12、问题：为了避免包的依赖关系和系统兼容性等方面出现问题，本课程推荐的Python安装方式为（）。选项：A、通过Anaconda安装B、直接下载Python安装C、通过浏览器查找处理过的Python安装包D、直接安装Pycharm正确答案:【通过Anaconda安装】13、问题：下列不属于数据预处理原因的是（）。选项：A、数据量过于庞大B、数据可能存在缺失、错误、不一致等问题C、数据有可能不能很好地反映潜在的模式D、有些数据属性是无用的或者冗余的正确答案:【数据量过于庞大】14、问题：下列关于数据规范化说法错误的是（）。选项：A、数据规范化是为了给重要的属性赋予更大的权重B、数据规范化又称为数据标准化C、数据规范化是将属性的取值范围统一D、数据规范化是为了避免不同属性的不平等地位正确答案:【数据规范化是为了给重要的属性赋予更大的权重】15、问题：缺失值处理方法中错误的是（）。选项：A、对于所有属性都可以使用均值B、对于分类属性，使用同类对象属性值的均值C、对于离散属性或定性属性，使用众数D、转换为分类问题或数值预测问题正确答案:【对于所有属性都可以使用均值】16、问题：主成分分析的步骤是（）。选项：A、中心化数据集-计算协方差矩阵-计算特征根-计算主成分矩阵-得到降维后的数据集B、中心化数据集-计算主成分矩阵-计算协方差矩阵-计算特征根-得到降维后的数据集C、计算协方差矩阵-计算主成分矩阵-计算特征根-中心化数据集-得到降维后的数据集D、计算协方差矩阵-计算特征根-中心化数据集-计算主成分矩阵-得到降维后的数据集正确答案:【中心化数据集-计算协方差矩阵-计算特征根-计算主成分矩阵-得到降维后的数据集】17、问题：下列关于等距离分箱的说法中错误的是（）。选项：A、等距离分箱能使每个区间内包含的取值个数大致相同B、又称为等宽度分箱C、若区间个数为k，每个区间的间距为I=(max-min)/kD、等距离分箱可能导致属于某些的取值非常多，而某些又非常少正确答案:【等距离分箱能使每个区间内包含的取值个数大致相同】18、问题：数据预处理的任务不包括（）。选项：A、数据分类B、数据清洗C、数据规范化和离散化D、特征提取与特征选择正确答案:【数据分类】19、问题：使用python处理缺失值的方法中叙述错误的是（）。选项：A、interpolate()使用中位数填充缺失值B、isnull()判断缺失值C、dropna()删除缺失值D、fillna()填充缺失值正确答案:【interpolate()使用中位数填充缺失值】20、问题：最小最大规范化方法MinMaxScaler属于python中的哪个包（）。选项：A、sklearnB、pandasC、numpyD、scipy正确答案:【sklearn】21、问题：主成分分析方法PCA属于属于python中的哪个包（）。选项：A、sklearnB、pandasC、numpyD、scipy正确答案:【sklearn】22、问题：运行以下代码fromsklearn.datasetsimportload_irisiris_data=load_iris()iris_data.data.shape输出结果为(150,4)。则表示iris数据集包括样本个数为（）。选项：A、150B、4C、600D、154正确答案:【150】23、问题：运行以下代码fromsklearn.datasetsimportload_irisiris_data=load_iris()iris_data.data.shape输出结果为(150,4)。则表示iris数据集包括样本特征数为（）。选项：A、4B、150C、600D、154正确答案:【4】24、问题：在numpy包中，计算中位数的函数为（）。选项：A、numpy.median()B、numpy.mean()C、numpy.std()D、numpy.var()正确答案:【numpy.median()】25、问题：在numpy包中，计算标准差的函数为（）。选项：A、numpy.std()B、numpy.mean()C、numpy.median()D、numpy.var()正确答案:【numpy.std()】26、问题：给定df是一个DataFrame对象，对df所有字段进行描述性统计，可以利用的方法为（）。选项：A、df.describe()B、df.summary()C、df.statistics()D、df.mean()正确答案:【df.describe()】27、问题：运行以下代码“importmatplotlib.pyplotasplt”引入plt后，要绘制饼状图，需要利用的函数为（）。选项：A、plt.pie()B、plt.bar()C、plt.plot()D、plt.hist()正确答案:【plt.pie()】28、问题：运行以下代码“importmatplotlib.pyplotasplt”引入plt后，要绘制折线图，需要利用的函数为（）。选项：A、plt.plot()B、plt.bar()C、plt.pie()D、plt.hist()正确答案:【plt.plot()】29、问题：运行以下代码“importmatplotlib.pyplotasplt”引入plt后，要绘制直方图，需要利用的函数为（）。选项：A、plt.hist()B、plt.bar()C、plt.pie()D、plt.plot()正确答案:【plt.hist()】30、问题：运行以下代码“importmatplotlib.pyplotasplt”引入plt后，要绘制散点图，需要利用的函数为（）。选项：A、plt.scatter()B、plt.bar()C、plt.plot()D、plt.hist()正确答案:【plt.scatter()】31、问题：使用最小-最大法进行数据规范化，需要映射的目标区间为[0,100]，原来的取值范围是[-10,10]。根据等比映射的原理，一个值8映射到新区间后的值是（）。选项：A、90B、80C、85D、95正确答案:【90】32、问题：使用零均值规范化方法，年收入属性的均值为65，标准差为12，则年收入59万元规范化后为（）。选项：A、-0.5B、-0.2C、0.3D、0.5正确答案:【-0.5】33、问题：使用等距离分箱法进行数据离散化，数据范围为20,40,50,58,65,80,80,82,86,90,96,105,120,200，区间个数为4。下列属于4个箱的区间是（）。选项：A、[110,155)B、[20,65]C、(65,110)D、(155,200]正确答案:【[110,155)】34、问题：特征选择方法中，一般的启发式方法有（）。选项：A、以上都是B、逐步增加法C、逐步递减法D、随机选择正确答案:【以上都是】35、问题：在使用主成分分析法进行数据属性特征提取中，在对数据集进行中心化处理后，为了去除冗余和降低噪音，应将协方差矩阵非对角线上的元素化为（）。选项：A、0B、-1/2C、1/2D、不用处理正确答案:【0】36、问题：通过代码fromsklearnimporttree引入决策树模块，并通过代码clf=tree.DecisionTreeClassifier()构造分类器对象后，训练时要调用的方法是（）。选项：A、clf.train()B、clf.fit()C、clf.learn()D、clf.predict()正确答案:【clf.fit()】37、问题：通过代码fromsklearnimporttree引入决策树模块，并通过代码clf=tree.DecisionTreeClassifier()构造分类器对象，在训练后做预测时要调用的方法是（）。选项：A、clf.predict()B、clf.forecast()C、clf.guess()D、clf.outlook()正确答案:【clf.predict()】38、问题：利用tree.DecisionTreeClassifier()训练模型时调用.fit()方法需要传递的第一个参数是（）。选项：A、样本特征XB、样本标签YC、判断标准D、设置结点的最小样本数量正确答案:【样本特征X】39、问题：利用tree.DecisionTreeClassifier()训练模型时调用.fit()方法需要传递的第二个参数是（）。选项：A、样本特征XB、样本标签YC、判断标准D、设置结点的最小样本正确答案:【样本标签Y】40、问题：通过代码fromsklearnimportmetrics引入评价指标模块后，面对真实标签true_label和模型预测标签predicted_label，混淆矩阵可通过哪行代码调用（）选项：A、confusion_matrix(true_label,predicted_label)B、confusion_matrix(predicted_label,true_label)C、metrics.confusion_matrix(true_label,predicted_label)D、metrics.confusion_matrix(predicted_label,true_label)正确答案:【metrics.confusion_matrix(true_label,predicted_label)】41、问题：在Scikit-learn模块下，不同分类模型在训练时，调用的方法名称是否相同（）。选项：A、相同B、不同C、视情况而定D、不知道正确答案:【相同】42、问题：在Scikit-learn模块下，不同分类模型在预测时，调用的方法名

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

MOOC 数据挖掘与python实践-中央财经大学中国大学慕课答案

文档简介

温馨提示

最新文档

评论

MOOC 数据挖掘与python实践-中央财经大学 中国大学慕课答案

文档简介

温馨提示

最新文档

评论

相关文档

MOOC 数据挖掘与python实践-中央财经大学中国大学慕课答案