Python数据挖掘智慧树知到期末考试答案章节答案2024年青岛大学_第1页
Python数据挖掘智慧树知到期末考试答案章节答案2024年青岛大学_第2页
Python数据挖掘智慧树知到期末考试答案章节答案2024年青岛大学_第3页
Python数据挖掘智慧树知到期末考试答案章节答案2024年青岛大学_第4页
Python数据挖掘智慧树知到期末考试答案章节答案2024年青岛大学_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Python数据挖掘智慧树知到期末考试答案+章节答案2024年青岛大学关于文件打开函数open(filename,mode)的说法正确的为:()

答案:b为二进制模式,可与其他模式组合使用;a为追加模式,不覆盖文件中原有内容;w为写模式,如果文件已存在,先清空原有内容;r为读模式(默认,可省),如果文件不存在则抛出异常下面关于字典数据类型,说法正确的为:()

答案:若dict是一个字典,则dict.pop(key)表示返回key对应的值,同时删除键值对;若dict是一个字典,则deldict表示删除该字典;若dict是一个字典,则dict.clear()代表清空字典所有条目;若dict是一个字典,则dict.pop(‘013’,’nostudent’)表示删除字典中键为’013’对应的值,若没有该键,则提示’nostudent’设aset为集合数据类型,下面说法正确的为:()

答案:aset.add(e)表示将元素e加入到aset集合中;aset.pop()表示删除aset中第一个元素;aset.clear()表示删除aset中的所有元素,只剩空集合;aset.discard(e)表示将aset中存在的元素e移除

答案:fun(3,2);fun(3)

答案:b=1/2/a;b=1/(2*a)

答案:print(“Theaveragenumberis”,ave(765,98));z=ave(x,y)print(“Theaveragenumberis”,z);z=ave(765,98)print(“Theaveragenumberis”,z);print(“Theaveragenumberis”,ave(x,y))在scikit-learn中,BIRCH类的重要参数不多,以下对其参数描述正确的是:()

答案:branching_factor:即CFTree内部节点的最大CF数B,以及叶子节点的最大CF数L。;n_clusters:即类别数K,在BIRCH算法是可选的,如果类别数非常多,我们也没有先验知识,则一般输入None。;threshold:即叶节点每个CF的最大样本半径阈值T。随机生成100个[0,100]范围内的自然数,存入列表a中,将包含的数字从小到大排列后输出,同种元素只输出一次,需要执行如下代码:(1)sorted(a)(2)a=set(a)(3)Importrandom()(4)random.randint(0,100)请问代码的执行的先后顺序应该为:()

答案:(3)(4)(2)(1)决策树中不包含以下哪种节点。()

答案:外部节点(externalnode)设有列表变量a=[1,2,3,4,5],切片操作a[::-1]的结果为:()

答案:[5,4,3,2,1]设有字符串变量s=“aaaassddfaaa”,执行s.rstrip(‘a’)的结果为:()

答案:“aaaassddf”

答案:11关于random库,下面说法正确的为:()

答案:randint(a,b)函数能够生成一个[a,b]之间的整数

答案:fun()

答案:18对于任一个频繁项集X和它的一个非空真子集Y,S=X-Y,规则S→Y成立的条件是()。

答案:confidence(Y→S)<minconf设有字符串变量s1=“Chinese”和s2=“China”,执行print(s1<s2)的运行结果为:()

答案:False数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成数据描述、预测数据等任务。()

答案:对定量属性可以是整数值或者是连续值()

答案:对使用for循环的时候,避免step=0的情况出现。()

答案:对在结构化数据中进行关联分析发现其中的频繁模式和关联规则。对于取值连续的属性,首先将其离散化,然后将每个取值区间作为一个值,继而转化为“属性=值”的形式。()

答案:对random库采用梅森旋转算法产生各种分布的伪随机数序列。可用于除随机性要求更高的加解密算法外的大多数工程应用。()

答案:对编写Python程序时,使用函数,可以使得程序结构清晰,可读性好。()

答案:对OPTICS算法仅存储了每个对象的核心距离。()

答案:错控制for循环的变量i是自动变化的,不需要在循环中人为改变。()

答案:对while循环比for循环更通用。()

答案:对字典的键是唯一的,但值未必唯一。()

答案:对

答案:啤酒牛奶;啤酒面包以下属于聚类算法的是:()

答案:K均值;DBSCAN;OPTICS

答案:fun(a=8,b=5);fun(a=8,c=6)

答案:fun(c=8);fun(a=8);fun(a=8,b=8);fun(c=9,b=8)以下哪些是属于中心趋势的度量()。

答案:中位数;平均值设有列表变量a=[1,2,3,4,5],b=[5,4,3,2,1],执行a+b的运算结果为:()

答案:[1,2,3,4,5,5,4,3,2,1]关于k-means算法,正确的描述是:()

答案:初始值不同,最终结果可能不同哪项关于决策树的说法是错误的:()

答案:决策树算法对于噪声的干扰非常敏感中心趋势度量模(mode)是指:()

答案:数据集中出现频率最高的值‏给定df是一个DataFrame对象,对df所有字段进行描述性统计,可以利用的方法为()。

答案:df.describe()设有字符串变量s1=“pan”和s2=“panel”,两个字符串较大的为:()

答案:panel朴素贝叶斯算法在对属性个数比较多或者属性之间相关性较大时,分类效果更好。()

答案:错逐层发现算法Apriori发现频繁项集的过程是按照项集的长度由大到小逐级进行的。()

答案:错列表是可变对象,但字符串和元组是不可变对象。()

答案:对int,float,str等是可变对象。()

答案:错设tu为一个元组,下面的说法正确的为:()

答案:len(tu)表示统计元组tu中所有元素的个数;tu.count(x)表示统计元组tu中x的个数设a=254.783629,b=98,能够将a和b打印为宽度为8,实数的小数点后面保留两位的正确代码为:()

答案:print('a=',format(a,'8.2f'),'b=',format(b,'8d'));print(“a=%8.2f,b=%8d”%(a,b))朴素贝叶斯算法的主要缺点包括:()

答案:虽然理论上、朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为朴素贝叶斯模型给定输出类别的情况下,假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。而在属性相关性较小时,朴素贝叶斯性能最为良好。对于这一点,有半朴素贝叶斯之类的算法通过考虑部分关联性适度改进。;事先并不知道先验概率,先验概率很多时候取决于假设,假设的模型可以有很多种,因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。;由于我们是通过先验和数据来决定后验的概率从而决定分类,所以分类决策存在一定的错误率。;对输入数据的表达形式很敏感。执行Python程序:3notin[1,2,3,4],其返回值为:()

答案:False设列表students=[[‘Zhang’,84],[‘Wang’,77],[‘Li’,100],[‘Zhao’,53]],执行students[1]的运行结果为:()

答案:[‘Wang’,77]定义一个集合s={1,2,3,2,3,1,2,2},执行print(s)的运行结果不可能为:()

答案:{1,1,2,2,2,2,3,3}

答案:fun(c=8)OPTICS算法属于下列那一项:()

答案:聚类。Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。()

答案:错函数的位置参数可以按照参数名指定,采用键值参数的方式传参。()

答案:对从点作为个体簇开始,每一步合并两个最近的簇,这是一种分裂的层次聚类方法。()

答案:错打印出10以内所有的正偶数的代码为:()

答案:数据挖掘的预测建模任务主要包括哪几大类问题:()

答案:分类;回归下列选项中关于OPTICS算法说法正确的是:()

答案:OPTICS算法的提出就是为了帮助DBSCAN算法选择合适的参数,降低输入参数的敏感度;OPTICS算法是一种基于高密度联通区域的聚类算法,它将类簇定义为高密度相连点的最大集合。;OPTICS算法的目的就是要过滤低密度区域,发现稠密样本点。朴素贝叶斯信念网络(BBN)有如下哪些特点:()

答案:构造网络费时费力;对模型的过分问题非常鲁棒设字典contacts={‘Fred’:’7235591’,‘Mary’:’3841212’,‘Bob’:’3841212’,‘Sarah’:’2213278’},输出字典中所有的键的代码为:()

答案:print(contacts.keys)卡方测试用来度量离散标称属性数据的相关性。()

答案:对为了克服使用全局参数的缺点,Optics算法并不显示的产生结果类簇,而是为聚类分析生成一个簇排序()

答案:对字符串、列表和元组都为序列类型。()

答案:错采用决策树分类算法,连续数据可做如下处理:()

答案:连续数据离散化;选择最佳划分点分裂

答案:a,b为全局变量;程序的运行结果为18;x,y为局部变量用Python语言编写:计算前n个数之和并显示结果,下面代码是正确的为:()

答案:下列属于ID3算法的缺点的是:()

答案:ID3算法不能处理具有连续值的属性;算法会生成很深的树,容易产生过拟合现象;ID3算法不能处理属性具有缺失值的样本;算法一般会优先选择有较多属性值的特征,因为属性值多的特征会有相对较大的信息增益,但这里的属性并不一定是最优的下面关于数学函数库math,说法正确的为:()

答案:math.gcd(x,y)将返回x与y的最大公约数;math.sqrt(x)将返回x的平方根;math.floor(x)将返回不大于x的最大整数;math.ceil(x)将返回不小于x的最小整数给定字符串s,下面函数能够将字符串s反向显示的为:()

答案:根据一个人的年龄age判断其是否为老年、中年、青年,并输出的代码正确的为:()

答案:数据清洗的主要目的是将数据集中存在的什么问题进行处理,降低其对后续数据分析处理的影响。()

答案:缺失;最大值设lst为一个列表,下面的说法正确的为:()

答案:lst.append(x)表示将元素x添加至列表lst尾部;lst.extend(x)表示将列表x中所有元素添加至列表lst尾部;lst.remove(x)表示在列表lst中删除首次出现的指定元素,该元素之后的所有元素前移一个位置下面描述正确的为:()

答案:s.partition(p)表示用从左到右碰到的第一个字符p将字符串s分割为三部分;s.rpartition(p)表示用从右到左碰到的第一个字符p将字符串s分割为三部分找出100以内能被15整除的最大正整数的代码为:()

答案:简单的将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作。()

答案:划分聚类设有字符串变量s=”\n\tabcd109\n“,执行s.strip()的结果为:()

答案:”abcd109”以下哪个聚类算法不属于基于网格的聚类算法:()

答案:BIRCH阅读下面程序:a=‘hello’+’world’print(a)运行以上代码的结果为:()

答案:helloworld查看十进制数字96的二进制数,可采用如下方法:()

答案:bin(96)K-Means算法中的初始中心点:()

答案:直接影响算法的收敛结果假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内?()

答案:第二个

答案:IloveChinaNone设列表lst=[1,3,5,7,9],执行result=[xforxinaifx>5]的结果为:()

答案:[7,9]高维数据表达的含义是:()

答案:数据属性很多设X={1,2,3}是频繁项集,则可由X产生个关联规则。()

答案:6设列表students=[[‘Zhang’,84],[‘Wang’,77],[‘Li’,100],[‘Zhao’,53]],执行len(students)的运行结果为:()

答案:4哪个算法和朴素贝叶斯算法类似。()

答案:C4.5在多层次关联规则分析中,如果将商品进行归类,每一商品类别的支持度会()其包含的每个商品的支持度,从而有利于发现一些有意义的频繁模式或关联规则。()

答案:等于使用函数有利于封装与信息隐藏。()

答案:对相关系数用来度量标称属性数据的相关性()

答案:错聚类(clustering)是这样的过程:它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。()

答案:错给定最小支持度阈值minsup,一个频繁项集的所有非空子集都是频繁的。()

答案:对BIRCH算法利用了一个树结构来帮助我们快速的聚类,这个数结构类似于平衡B+树,一般将它称之为聚类特征树()

答案:对在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。()

答案:错决策树方法通常用于关联规则挖掘。()

答案:错如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点。()

答案:对具体来讲,若一个项集X的支持度大于用户给定的一个最小支持度阈值,则X被称为频繁项集(或频繁模式)。()

答案:对元组可以像列表一样,采用切片的方式访问。()

答案:对不同于贝叶斯算法,决策树的构造过程不依赖领域知识,它使用属性选择度量来选择将元组最好地划分成不同的类的属性。()

答案:对关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。()

答案:错for循环适用于已知起止值和步长的循环范围(range)。()

答案:对寻找模式和规则主要是对数据进行干扰,使其符合某种规则以及模式。()

答案:错函数的键值参数必须出现在默认值参数之后。()

答案:对OPTICS聚类方法需要每个对象p都计算核心距离与可达距离。()

答案:对OPTICS聚类算法不需要设置邻域半径Eps和最小密度阈值MinPts。()

答案:错OPTICS不显示产生的结果簇,而是对所有样本按照距离稠密区域的可达距离进行升序排序。()

答案:对sklearn.cluster.DBSCAN方法的参数metric用于设置计算点之间距离的方法,默认为欧氏距离。()

答案:对划分和层次聚类方法适合发现球状簇。()

答案:对基于密度的聚类方法的主要策略是将簇看作数据空间中由低密度区域分隔开的高密度对象区域。()

答案:对DBSCAN聚类方法对输入参数较为敏感.难以确定合适的参数半径Eps与最小密度阈值MinPts。()

答案:对sklearn.cluster.DBSCAN方法的参数min_samples用于设置ε领域内最少的样本量。()

答案:对层次聚类首先将每一个样本点看成一类,然后通过测算不同样本之间的相似性,来实现类之间的合并。()

答案:对sklearn.cluster.Birch方法的参数branching_factor用于设置叶子节点的最大样本数L。()

答案:对sklearn.cluster.Birch方法的参数threshold用于设置叶节点的最大样本半径阈值T。()

答案:对在采用BIRCH层次聚类时,若某个叶子节点A中有两个元素,分别为(1,2)和(3,2),则节点A存放的聚类特征为:()

答案:(2,(4,4),(10,8))sklearn.cluster.Birch方法的参数branching_factor用于设置内部节点的分支因子B。()

答案:对sklearn.cluster.KMeans的参数init用于设置初始簇中心的获取方法。默认的‘k-means++’是用k-means++方法选定初始质心。()

答案:对聚类分析是依据样本间关联的度量标准将其自动分成几个组,使同一组内的样本相似,而不同样本相异。()

答案:对scikit-learn中包含传统的K-Means算法和基于采样的MiniBatchK-Means算法。()

答案:对聚类分析常用明氏距离(闵可夫斯基距离)是用来测试样本之间相似性。()

答案:对聚类分析可以作为其它算法的预处理步骤。()

答案:对sklearn.naive_bayes中包含GussianNB、MultinomialNB和BernoulliNB三种朴素贝叶斯分类器。()

答案:对朴素贝叶斯分类采用假设类条件独立的思想。()

答案:对给定包含{天气,温度,湿度,风,适合打球}五个属性的数据集如下:天气温度湿度风适合打球阴热高有是晴中低有否阴热低有否晴中低有否阴中高有是请问:适合打球的先验概率,以及,适合打球条件下温度=中的先验概率为:()

答案:0.4,0.5先验概率可以根据历史资料或主观估计的方法得到。()

答案:对GaussianNB的var_smoothing参数用于估计方差时,追求估计的稳定性。()

答案:对不适合作为随机森林的投票机制的是:()

答案:多数服从少数sklearn.ensemble.RandomForestClassifier的参数n_estimators用于设置生成决策树的个数。()

答案:对随机森林算法中使用的是CART二叉树生成算法。()

答案:对每颗树的分类强度越大,则随机森林的分类性能越好。()

答案:对sklearn.cross_validation.cross_val_score的参数scoring用于设置调用的精度评价方法。()

答案:对ID3算法能够处理连续属性。()

答案:错ID3算法的计算指标是:()

答案:信息增益下面对于C4.5算法的说法错误的是:()

答案:C4.5算法不能够处理有缺失值的情况sklearn.tree.DecisionTreeClassifier的参数max_depth表示决策树最大深度,模型样本数量多,特征也多时,推荐限制这个最大深度。()

答案:对sklearn.tree.DecisionTreeClassifier的参数criterion表示特征选择指标,有entropy和gini两种取值,默认为gini。()

答案:对

答案:没有频繁2项集;没有频繁4项集;没有频繁3项集非频繁项集的超级有可能是频繁的。()

答案:错Apriori算法是一种关联规则挖掘技术。()

答案:对频繁项集的子集也一定是频繁的。()

答案:对设data为用pandas库中用read_csv方法从文件中读取的数据,丢弃数据data中含有空缺值的行,用dropna。()

答案:对下面哪个库适合于进行数据预处理?()

答案:Pandas设data为用pandas库中用read_csv方法从文件中读取的数据,判断数据data中是否有空缺值,用函数fillna。()

答案:错设data为用pandas库中用read_csv方法从文件中读取的数据,判断数据data中哪些行有空缺值,用data.isnull。()

答案:错采用pandas库中读取数据,可以使用下面哪个方法实现?()

答案:read_csv()阅读下面代码importxlrddata=xlrd.open_workbook(‘a.xls’)table=data.sheet_by_index(0)获取表的行数,下面哪个选项是正确的。()

答案:table.nrows

答案:7输入importNumpy,可以将Numpy库导入并使用。()

答案:对x是pandas中定义的一个序列,那么x.append(‘2’)可以向这个序列追加一个元素。()

答案:错numpy中向量转成矩阵使用()。

答案:reshapenumpy中计算元素个数的方法是()。

答案:np.size()numpy中创建全为0的矩阵使用()。

答案:zeros如果要访问dataframe中的第一行,下列代码正确的是()。

答案:df[1:2]想要打开一个文件,向里面写数据,但还不想删除以前文件里面的内容,需要以什么模式打开?()

答案:a用readline()读取文件时,如果读到文件末尾,就返回一个空字符串。()

答案:对readline()可以每次读取多行。()

答案:错文件以‘r’模式打开成功,可以调用read()方法读取文件内容。()

答案:对以r模式打开一个文件,使用完之后,可以不用执行close()函数关闭文件。()

答案:错字典的键可以用数字、字符串或列表充当。()

答案:错初始化一个空的字典可以采用代码:dic={}。()

答案:对字典的值可以是字符串、整数、字典等数据类型。()

答案:对阅读下面代码:dict={‘010’:’刘芳’,’011’:’张平安’,’012’:’赵玲玲’}若想将’张平安’修改成’张平章’,下面哪个选项是正确的?()

答案:dict[‘011’]=’张平章’字典的值是通过键存取,而不是通过位置便宜存放。()

答案:对删除元组中的一个元素,可以使用pop函数。()

答案:错可以使用del语句删除整个元组。()

答案:对两个元组求和表示两个元组连接,产生一个更多元素的元组。()

答案:对初始化一个空的集合可以采用代码:s={}。()

答案:错元组中的元素是可以删除的。()

答案:错列表中的元素用逗号分隔并放在一对中括号中。()

答案:对列表中的数据是可以修改的。()

答案:对设列表X=[1,2,3],向列表中增加一个元素4,下面哪个代码是正确的?()

答案:X.append(4)阅读下面代码:a=[3,4,5,6,7,9,10]print(a[3::])上述代码的运行结果为:()

答案:[6,7,9,10]可以用列表名加元素序号访问列表中的某个元素。()

答案:对字符串在Python中是以单引号、双引号括起来的字符来表示,其中’’或””不是字符串的一部分。()

答案:对设字符串变量:path=‘C:\Windows\notepad.exe’执行print(path)的结果为:()

答案:C:\Windowsotepad.exe浏览网页的源码上会有类似<metacharset=”UTF-8”/>的信息,表示该网页为UTF-8编码。()

答案:对设有字符串变量s=“apple,peach,banana,peach,pear”下面哪个选项是查找字符‘p’在上面字符串中的最后位置。()

答案:s.rfind(‘p’)阅读下面代码:s=“Hello,我是中国人”print(s[1:6])运行结果为:()

答案:ello,“\r”表示一个字符串,里面有一个反斜杠和一个字母r。()

答案:错网页中汉字往往会显示为?????或者乱码,这是因为字符编码方式不同引起的。()

答案:对在函数内部,可以调用其他函数。如果一个函数在内部调用自身本身,这个函数就是递归函数。()

答案:对采用递归结构能够使得蕴含递归关系且结构复杂的程序简洁精炼,增加可读性。()

答案:对递归函数的效率不高,递归层次过多会导致栈溢出。()

答案:对递归函数的特性包含:()

答案:每次进入更深一层递归时,问题规模相比上次递归都应有所减少;必须有一个明确的结束条件;相邻两次重复之间有紧密的联系,通常前一次的输出就作为后一次的输入;递归效率不高,递归层次过多会导致栈溢出递归函数必须有一个明确的结束条件。()

答案:对在Python中导入模块module中的函数funchtion可采用哪些方法。()

答案:从module中导入所有函数,格式为:frommoduleimport*;将整个module导入,格式为:importmodule;从module中导入函数function,格式为:frommoduleimportfunction已知构建一个模块Module,采用importModule导入后,若想使用该模块中函数function(),可采用的调用方式为:()

答案:Module.function()局部变量是指定义在函数体内的变量,只能被本函数使用。()

答案:对全局变量是指定义在函数体外的变量,也称为公用变量。()

答案:对global是被用来声明全局变量的关键字。()

答案:对键值参数的传参方式可以任意顺序指定参数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论