版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2024年秋江苏开放大学数据挖掘技术第1次形考作业单选题1某超市研究销售记录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?()A关联规则发现B聚类C分类D自然语言处理正确答案:A2以下两种描述分别对应哪两种对分类算法的评价标准?()(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。(b)描述有多少比例的小偷给警察抓了的标准。A、Precision,RecallB、Recall,PrecisionC、Precision,ROCD、Recall,ROC正确答案:A3下列不属于分析与挖掘的数据类型的是()。A数据库数据B数据分析C数据矩阵D事务数据正确答案:B4目的是缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果的是()。A数据清洗B数据集成C数据变换D数据归约正确答案:C5目前数据分析和数据挖掘面临的挑战性问题不包括()。A数据类型的多样性B高维度数据C离散点数据D数据分析与数据挖掘结果的可视化正确答案:C6下列应用中,哪一个不属于数据分析与数据挖掘的应用()。A商务智能B搜索引擎C辅助医疗D垃圾邮件识别正确答案:D7假设12个销售价格记录已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每种方法将它们划分成四个箱。等宽划分时(宽度为50),15又在哪个箱子里?()A第一个B第二个C第三个D第四个正确答案:A8假设12个销售价格记录已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内?()A第一个B第二个C第三个D第四个正确答案:B9下面哪种不属于数据预处理的方法?()A变量代换B离散化C聚集D估计遗漏值正确答案:D10用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?()A根据内容检索B建模描述C预测建模D寻找模式和规则正确答案:A11建立一个模型,通过这个模型根据已知的变量值,来预测其他某个变量值属于数据挖掘的哪一类任务?()A根据内容检索B建模描述C预测建模D寻找模式和规则正确答案:C12为数据的总体分布建模,把多维空间划分成组等问题,属于数据挖掘的哪一类任务?()A探索性数据分析B建模描述C预测建模D寻找模式和规则正确答案:B13使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?()A探索性数据分析B建模描述C预测建模D寻找模式和规则正确答案:A14什么是KDD?()A数据挖掘与知识发现B领域知识发现C文档知识发现D动态知识发现正确答案:A15当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?()A分类B聚类C关联分析D隐马尔科夫链正确答案:B16将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?()A频繁模式挖掘B分类和预测C数据预处理D数据流挖掘正确答案:C17考虑值集{1、2、3、4、5、90},其截断均值(p=20%)是()。A2B3C3.5D5正确答案:C18下面不属于创建新属性的相关方法的是()。A特征提取B特征修改C映射数据到新的空间D特征构造正确答案:B19假设有学生考试成绩的值:60,45,33,77,80,100,100,90,70,65,找出这组数据的中列数()。A66.5B100C82.5D78正确答案:A20数值属性的相异性不包括()。A牛顿距离B欧几里得距离C闵可夫斯基距离D切比雪夫距离正确答案:A21假设有学生考试成绩的值:60,45,33,77,80,100,100,90,70,65,找出这组数据的中位数()。A100B73.5C78.5D55正确答案:B22下列的类型,哪一个不属于属性的分类()。A标称属性B集合属性C二元属性D数值属性正确答案:B23以下哪种方法不属于特征选择的标准方法()。A嵌入B过滤C包装D抽样正确答案:D24只有非零值才重要的二元属性被称作()。A计数属性B离散属性C非对称的二元属性D对称属性正确答案:C25属于定量的属性类型是()。A标称B序数C区间D相异正确答案:C26下面哪个不属于数据的属性类型。()A标称B序数C区间D相异正确答案:D多选题1基本统计图形显示有()A箱图B饼图C频率直方图D散点图正确答案:A;B;C;D2数据分散度量有()A极差B分位数C四分位数D方差E标准差正确答案:A;B;C;D;E3分析与挖掘的数据类型有()A数据库数据B数据仓库数据C事务数据D数据矩阵E图和网状数据F其它类型的数据正确答案:A;B;C;D;E;F填空题1数据预处理的方法包括、、、。正确答案:数据清理;数据集成;数据变换;数据归约2数据分析与数据挖掘的方法有、、、。正确答案:频繁模式;分类与回归;聚类分析;离群点分析简答题1阐述二元属性的状态以及每种状态表示的含义。答案:二元属性是一种特殊的数据属性类型,其状态及每种状态表示的含义如下:一、二元属性的状态二元属性只有两个类别或状态,通常用0和1来表示。二、每种状态表示的含义0:在二元属性中,0通常用来表示某个属性不出现或者为假(false)。例如,在表示患者是否抽烟的属性中,0可以表示患者不抽烟;在表示性别属性的非对称情况下(如将男性编码为1,女性编码为0,仅作为示例,实际编码可灵活处理),0可能表示女性。1:与0相反,1在二元属性中用来表示某个属性出现或者为真(true)。继续以患者是否抽烟的属性为例,1可以表示患者抽烟;在性别属性的非对称情况下,1可能表示男性。三、二元属性的对称性值得注意的是,二元属性还可以进一步分为对称的和非对称的:对称二元属性:如果二元属性的两种状态具有同等价值并且携带相同的权重,那么这种二元属性就是对称的。例如,性别属性(男、女)就是对称的,因为男性和女性在大多数情况下都被视为具有同等价值的类别。非对称二元属性:如果二元属性的两种状态不是同等重要的,那么这种二元属性就是非对称的。例如,在病毒化验结果中,阳性和阴性结果通常具有不同的重要性。在这种情况下,阳性结果(通常表示存在病毒感染)可能被编码为1,而阴性结果(表示未感染病毒)被编码为0。综上所述,二元属性的状态及其含义取决于具体的应用场景和编码规则。在实际应用中,需要根据数据的特性和分析目的来选择合适的编码方式。2什么是极差、分位数、方差?答案:极差、分位数、方差是统计学中常用的几个概念,它们各自具有不同的定义和用途。以下是对这三个概念的详细解释:一、极差定义:极差是一组数据中最大值与最小值之差,以R表示,是统计学术语,亦可称为极端差、极端距离、最大最小距离、极大极小差甚至最大最小差。公式:极差=最大值-最小值。用途:极差用于反映数据的变化幅度,其值越大就表明样本值变化越大,样本中的离散程度越大。特点:极差计算简单,含义直观,运用方便,但只能反映数据的最大离散范围,不能细致地反映测量值彼此相符合的程度。二、分位数定义:分位数(Quantile),亦称分位点,是指将一个随机变量的概率分布范围分为几个等份的数值点,常用的有中位数(即二分位数)、四分位数、百分位数等。用途:分位数可以用于描述数据的分布特征,例如中位数可以表示数据的中心位置,四分位数可以表示数据的分布形态等。特点:分位数能够更细致地描述数据的分布特征,比极差更能反映数据的整体情况。三、方差定义:方差是用来衡量一组观测值分散程度的统计量,是样本方差的简称。公式:方差=(每个数据与平均数的差的平方和)/数据个数。用途:方差用于描述数据的离散程度,方差越大,说明数据的离散程度越大;方差越小,说明数据的离散程度越小。特点:方差能够更全面地反映数据的离散程度,比极差和分位数更能揭示数据的内在特性。同时,方差具有可加性、齐次变换性和可开方性等特点,便于进行进一步的统计分析和计算。综上所述,极差、分位数和方差都是用于描述数据特征的统计量,但各自具有不同的定义、用途和特点。在实际应用中,需要根据数据的特性和分析目的来选择合适的统计量。3数据预处理的主要方法有哪些?每个方法的主要内容是什么?答案:数据预处理是数据分析和机器学习中的关键步骤,涉及对原始数据进行清洗、转换和整理,以便数据能够更好地适应模型训练和分析需求。以下是数据预处理的主要方法及其主要内容:一、数据清洗数据清洗是处理缺失值和异常值的过程,以提高数据质量和模型性能。缺失值处理:删除:删除含有缺失值的样本或特征。填补:使用插值、均值、中位数、众数等方法填补缺失值。异常值处理:使用统计方法(如Z-Score)或基于模型的方法(如IQR)识别和处理异常值。异常值是否剔除,视具体情况而定,因为有些异常值可能蕴含着有用的信息。二、数据集成数据集成是将多个数据源中的数据结合起来并统一存储的过程,建立数据仓库的过程实际上就是数据集成。实体识别:从不同数据源识别出现实世界的实体,处理同名异义、异名同义、单位不统一等问题。冗余属性识别:识别同一属性多次出现或同一属性命名不一致导致的重复,可以使用相关分析检测,并用相关系数度量一个属性在多大程度上蕴含另一个属性。三、数据变换数据变换是对数据进行规范化处理,将数据转化为适当的形式,以适用于挖掘任务及算法的需要。规范化:标准化:将数据转换为均值为0、标准差为1的分布,通常用于高斯分布的数据。标准化后的数据具有相同的尺度,减少特征之间量纲不一致的影响,有助于提高某些机器学习算法的性能。归一化:将数据缩放到特定范围(通常是[0,1]),特别适用于距离度量敏感的算法,如归一化后的数据每个特征的取值范围相同,有助于提高某些机器学习算法的性能。连续属性离散化:将连续属性的值用聚类算法(如K-Means算法)进行聚类,然后再将聚类得到的簇进行处理,合并到一个簇的连续属性值并做同一标记。聚类分析的离散化方法也需要用户指定簇的个数,从而决定产生的区间数。其他变换方法:简单函数变换:对原始数据进行数学函数变换,如平方、开方、取对数(进行压缩)、差分运算等。小波变换:一种新型数据分析工具,具有多分辨率的特点,在时域和频域都具有表征信号局部特征的能力,通过伸缩和平移等运算过程对信号进行多尺度聚焦分析,提供一种非平稳信号的时频分析手段。四、数据规约数据规约是在大数据集上进行复杂的数据分析和挖掘时,为了节省时间和空间,通过属性规约、数值规约等方法产生更小但保持原数据完整性的新数据集。属性规约:通过属性合并来创建新的属性维数,目标是寻找出最小的属性子集并确保新数据子集的概率分布尽可能的接近原来数据集的概率分布。常用方法包括主成分分析(PCA)、线性判别分析(LDA)等。数值规约:有参数方法:使用一个模型来评估数据,只要存放参数,不需要存放实际数据,例如线性回归、多元回归、对数线性模型等。无参数方法:需要存放实际数据,例如直方图、聚类、抽样等。五、其他方法类别编码:将类别特征转换为数值形式,以便机器学习算法能够处理。常用的方法包括独热编码(One-HotEncoding),将类别特征转换为二进制向量,其中只有一个位置为1,其余为0。特征选择:选择对模型训练最重要的特征,去除冗余或不相关特征,提高模型性能。常用的方法包括过滤法(FilterMethod)、包裹法(WrapperMethod)和嵌入法(EmbeddedMethod)。特征缩放:调整特征的尺度,使其在相似的范围内,常用于标准化和归一化之外的方法。减少特征值范围的差异,帮助某些算法更快收敛。特征构造:从现有数据中创建新的特征,以揭示数据中的隐藏关系,提高模型表现。例如,对于两个特征可以构造交互特征。数据增强:通过对数据进行变换增加数据的多样性,提高模型泛化能力,常用于图像和文本处理任务。通过数据增强生成更多样本,提高模型泛化能力。数据平衡:处理类别不平衡问题,可以使用过采样(如SMOTE)、欠采样等方法。通过过采样、欠采样等方法平衡类别分布,提高模型在少数类上的表现。综上所述,数据预处理的主要方法包括数据清洗、数据集成、数据变换、数据规约以及其他方法(如类别编码、特征选择、特征缩放、特征构造、数据增强和数据平衡等)。每种方法都有其适用的场景和优缺点,选择合适的方法对数据进行预处理,能够显著提升模型的效果和数据分析的质量。4简述均值、中位数、众数和中列数的定义。答案:均值、中位数、众数和中列数是统计学中用于描述数据集中趋势的几种重要指标。以下是它们的定义:均值(Mean):均值是所有数据的和除以数据的个数,它反映了数据的平均水平。在统计学中,均值是最常用的集中趋势量数,用于描述一组数据的中心位置。对于数值型数据,均值能够给出一个直观的平均水平,但需要注意的是,均值对极端值较为敏感,极端值的存在可能会使均值偏离大多数数据的真实水平。中位数(Median):中位数是将一组数据从小到大排序后,位于中间位置的数值。如果数据量是奇数,则中位数就是中间那个数;如果数据量是偶数,则中位数是中间两个数的平均值。中位数是一种位置平均数,它不受极端值的影响,因此在处理偏态分布的数据时,中位数能够给出一个更为稳健的中心位置估计。众数(Mode):众数是一组数据中出现次数最多的数值。众数可以是一个或多个(如果存在多个数值出现次数相同且都是最多的),也可以是没有(如果所有数据出现的次数都相同)。众数主要用于描述数据的集中趋势,但它并不总是存在,且对于定量数据来说,众数的意义通常不如均值和中位数重要。然而,在描述某些定性数据(如类别数据)时,众数却是一个非常重要的指标。中列数在统计学中的定义是指样本中极大值与极小值的平均。这个定义有时也被用作对称分布的均值的粗略估计。简单来说,如果有一个数据集,中列数就是该数据集中最大值和最小值之和的一半。例如,在数据集{1,3,7,9,0,3,5}中,最大值为9,最小值为0,因此该数据集的中列数为(0+9)/2=4.5。需要注意的是,中列数作为数据集中趋势的一种度量,其适用范围相对有限。在大多数情况下,均值和中位数是更为常用的数据集中趋势度量指标。均值能够给出一个直观的平均水平,但易受极端值影响;而中位数则是一种位置平均数,不受极端值影响,在处理偏态分布的数据时能够给出一个更为稳健的中心位置估计。综上所述,均值、中位数和众数是描述数据集中趋势的三种主要指标,它们各自具有不同的特点和适用场景。在实际应用中,需要根据数据的特性和分析目的来选择合适的指标。而“中列数”可能是一个非标准术语或特定上下文中的术语,需要具体情境来解读。5什么是数据分析和数据挖掘?简单论述他们之间的区别和联系。答案:数据分析和数据挖掘都是从数据中提取有价值信息的过程,但它们在方法、目标和应用场景上存在显著差异。以下是对数据分析和数据挖掘的简单论述,以及它们之间的区别和联系:一、数据分析数据分析是广义上通过收集、整理、清洗、分析等操作,提取出有价值的信息的过程。狭义的数据分析则是指以探索数据内在的规律、解决业务需求为目的,以数据为对象进行的分析过程。它主要依赖于统计学和数学方法,如描述性统计、推断性统计、回归分析和时间序列分析等。数据分析的主要目标是通过数据的描述和解释来支持决策制定,通常处理的是结构化或半结构化的数据。数据分析的结果一般为指标统计量,如总和、平均值等,这些指标需要结合业务背景进行解读,以发挥数据的最大价值。二、数据挖掘数据挖掘是一种跨学科的计算机科学分支,它使用人工智能、机器学习、统计学和数据库的交叉方法在相对较大型的数据集中发现模式。数据挖掘可以理解为从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、且有价值的信息和知识的过程。它涉及的技术和方法包括分类、聚类、关联规则挖掘、序列模式挖掘等。数据挖掘更侧重于从大量数据中发现隐藏的模式和知识,旨在预测未来事件或识别异常情况,适用于大规模数据集的探索。三、区别与联系区别:方法:数据分析主要依赖于统计学和数学方法,而数据挖掘则更多地使用人工智能、机器学习和数据库技术。目标:数据分析的主要目标是描述和解释数据,以支持决策制定;而数据挖掘的目标是发现数据中的隐藏模式和知识,以预测未来或识别异常。应用场景:数据分析通常用于处理结构化或半结构化的数据,并生成指标统计量;数据挖掘则更适用于大规模数据集的探索,发现未知的模式和知识。联系:数据分析可以为数据挖掘提供基础,例如通过数据分析提取特征、建模和预测等。数据挖掘可以进一步揭示数据中的模式和规律,为数据分析提供更深入的理解。在实际应用中,数据分析和数据挖掘常常相互配合,共同推动数据的有效利用和价值挖掘。综上所述,数据分析和数据挖掘在方法、目标和应用场景上存在显著差异,但它们在实际应用中常常相互配合,共同为企业和组织提供决策支持。
2024年秋江苏开放大学数据挖掘技术060734第2次形考作业单选题1在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是()。A有放回的简单随机抽样B无放回的简单随机抽样C分层抽样D渐进抽样正确答案:D2下列哪个不是专门用于可视化时间空间数据的技术:()A等高线图B饼图C曲面图D矢量场图正确答案:B3一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是()。A一年级B二年级C三年级D四年级正确答案:A4下列哪一项不是数据规范化的常用方法()。A按小数定标规范化B最小-最大值规范化C、z-score规范化D按整数定标规范法正确答案:D5下列哪一个选项是数据立方体中的基本方体的概念()。A不同层创建的数据立方体B最高层抽象的立方体C最低抽象层创建的立方体D每一个数据立方体正确答案:C6考虑值集{12243324556826},其四分位数极差是()。A31B24C55D3正确答案:A7假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为()。A18.3B22.6C26.8D27.9正确答案:A8假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为()。A0.821B1.224C1.458D0.716正确答案:D9熵是为消除不确定性所需要获得的信息量,投掷均匀正六面体骰子的熵是()。A1比特B2.6比特C3.2比特D3.8比特正确答案:B10下面()属于映射数据到新的空间的方法。A傅里叶变换B特征加权C渐进抽样D维归约正确答案:A11、OLAP技术的核心是()。A在线性B对用户的快速响应C互操作性D多维分析正确答案:D12在有关数据仓库测试,下列说法不正确的是()。A在完成数据仓库的实施过程中,需要对数据仓库进行各种测试.测试工作中要包括单元测试和系统测试.B当数据仓库的每个单独组件完成后,就需要对他们进行单元测试C系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回归测试D在测试之前没必要制定详细的测试计划正确答案:D13有关数据仓库的开发特点,不正确的描述是()。A数据仓库开发要从数据出发B数据仓库使用的需求在开发出去就要明确C数据仓库的开发是一个不断循环的过程,是启发式的开发D在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模式正确答案:A14下面关于数据粒度的描述不正确的是()。A粒度是指数据仓库小数据单元的详细程度和级别B数据越详细,粒度就越小,级别也就越高C数据综合度越高,粒度也就越大,级别也就越高D粒度的具体划分将直接影响数据仓库中的数据量以及查询质量正确答案:C15关于基本数据的元数据是指()。A基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息B基本元数据包括与企业相关的管理方面的数据和信息C基本元数据包括日志文件和简历执行处理的时序调度信息D基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息正确答案:D16数据仓库是随着时间变化的,下面的描述不正确的是()。A数据仓库随时间的变化不断增加新的数据内容B捕捉到的新数据会覆盖原来的快照C数据仓库随事件变化不断删去旧的数据内容D数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合正确答案:C17数据仓库设计的三级数据模型不包括()。A概念模型B逻辑模型C物理模型D数据模型正确答案:D18数据仓库的三层体系结构不包括()。A数据仓库服务器B、OLAP服务器C前端工具D、SMTP服务器正确答案:D19下列哪一项不是数据仓库的关键性质()。A面向主题B与时间相关C与空间相关D集成性正确答案:C20将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务()。A频繁模式挖掘B分类和预测C数据预处理D数据流挖掘正确答案:C21未来房价的预测,这种属于数据挖掘的哪类问题()。A分类B聚类C关联规则D回归分析正确答案:D22在图集合中发现一组公共子结构,这样的任务称为()。A频繁子集挖掘B频繁子图挖掘C频繁数据项挖掘D频繁模式挖掘正确答案:B23考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含()。A1,2,3,4B1,2,3,5C1,2,4,5D1,3,4,5正确答案:C24频繁项集、频繁闭项集、最大频繁项集之间的关系是()A频繁项集频繁闭项集=最大频繁项集B频繁项集=频繁闭项集最大频繁项集C频繁项集频繁闭项集最大频繁项集D频繁项集=频繁闭项集=最大频繁项集正确答案:C25概念分层图是()图。A无向无环B有向无环C有向有环D无向有环正确答案:B26设X={1,2,3}是频繁项集,则可由X产生()个关联规则。A4B5C6D7正确答案:C27关于OLAP和OLTP的说法,下列不正确的是()。A、OLAP事务量大,但事务内容比较简单且重复率高B、OLAP的最终数据来源与OLTP不一样C、OLTP面对的是决策人员和高层管理人员D、OLTP以应用为核心,是应用驱动的正确答案:A28、OLAM技术一般简称为”数据联机分析挖掘”,下面说法正确的是()。A、OLAP和OLAM都基于客户机/服务器模式,只有后者有与用户的交互性B、由于OLAM的立方体和用于OLAP的立方体有本质的区别C、基于WEB的OLAM是WEB技术与OLAM技术的结合D、OLAM服务器通过用户图形借口接收用户的分析指令,在元数据的知道下,对超级立方体作一定的操作正确答案:D29关于OLAP和OLTP的区别描述,不正确的是()。A、OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同B、与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务C、OLAP的特点在于事务量大,但事务内容比较简单且重复率高D、OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的正确答案:C30关于OLAP的特性,下面正确的是()。(1)快速性(2)可分析性(3)多维性(4)信息性(5)共享性A(1)(2)(3)B(2)(3)(4)C(1)(2)(3)(4)D(1)(2)(3)(4)(5)正确答案:D填空题1相关性分析有正确答案:提升度;杠杆度;皮尔森相关系数;IS度量;确信度2项集包含或_项的集合正确答案:0个;多个3回归分析的步骤。正确答案:确定变量;建立预测模型;进行相关分析;计算预测误差;确定预测值4变量之间的关系可分为正确答案:确定性关系;非确定性关系题型:填空题客观题答案不允许乱序分值3分难度:简单得分:35多维数据模型主要分为。正确答案:星型模型;雪花模型;事实星座模型简答题1变量间的确定性关系和非确定性关系分别指的是什么?答案:变量间的关系主要可以分为两大类:确定性关系和非确定性关系。以下是这两种关系的详细解释:一、确定性关系确定性关系,也称为函数关系,指的是变量之间的依赖关系可以通过某种明确的数学公式或逻辑规则来描述。在这种关系中,给定一组输入值,总能得到确定的输出值。这种关系的特点包括:唯一性:对于每一个输入值,输出值是唯一确定的。可预测性:基于给定的数学公式或逻辑规则,可以准确地预测输出值。精确性:输出值不受随机或偶然因素的影响,具有高度的精确性。在实际应用中,确定性关系常见于物理定律、数学函数等场景。例如,牛顿运动定律描述了物体运动状态与所受合力的关系,这种关系就是确定性的。二、非确定性关系非确定性关系指的是变量之间的依赖关系不能通过明确的公式或规则来描述,可能存在随机性或不确定性。在这种关系中,给定相同的输入值,可能会得到不同的输出值。这种关系的特点包括:非唯一性:对于每一个输入值,输出值不是唯一确定的,可能有多个输出值与之对应。不可预测性:由于随机或偶然因素的影响,输出值难以准确预测。波动性:输出值在一定范围内波动,但总是围绕某个平均值或趋势线变动。非确定性关系在统计学、经济学、社会学等领域中广泛存在。例如,在统计学中,相关性和回归分析描述的就是变量之间的非确定性关系。这种关系通常用概率模型来表征,如线性回归模型、逻辑回归模型等。这些模型可以从数据中学习到输入变量与输出变量之间的统计关系,但无法给出确定性的输出值。三、区别与联系确定性关系和非确定性关系在变量间的依赖关系上存在显著差异。确定性关系具有唯一性、可预测性和精确性等特点,而非确定性关系则具有非唯一性、不可预测性和波动性等特点。然而,这两种关系在实际应用中并不是孤立的,它们往往相互交织、相互影响。例如,在物理学中,虽然牛顿运动定律描述了物体运动状态的确定性关系,但在实际测量中,由于测量误差、环境因素等的影响,这种关系可能表现出一定的非确定性特征。综上所述,变量间的确定性关系和非确定性关系是统计学和数据分析中的基本概念。理解这两种关系的差异和联系有助于更好地把握数据之间的内在联系和规律,从而做出更准确的预测和决策。2简述数据仓库概念模型与逻辑模型的设计步骤。答案:数据仓库概念模型与逻辑模型的设计是数据库建模过程中的关键步骤,它们分别对应着从抽象到具体的不同阶段。以下是这两个阶段的设计步骤:一、数据仓库概念模型的设计步骤明确业务需求:这包括了解企业各部门的数据使用场景、分析需求以及未来可能的数据增长趋势。通过访谈业务用户、分析现有报告和查询模式,可以收集到关于数据内容、格式、访问频率及性能要求等方面的具体信息。深入理解企业的业务流程是设计高效数据模型的基础。确定数据主题域:主题域是数据仓库中逻辑上相关联的一组数据集合,如客户、产品、销售等。每个主题域应围绕一个核心业务流程展开,确保数据的完整性和一致性。这一步骤对应着概念模型设计阶段的核心任务。绘制实体-关系图(ER图):在确定了主题域后,接下来是绘制ER图,以图形化的方式展示各主题域内的实体(如客户、订单)、属性(如客户姓名、订单金额)以及它们之间的关系(如一对多、多对多)。ER图不仅有助于识别数据间的关联,还能为后续的逻辑模型设计提供基础。二、数据仓库逻辑模型的设计步骤设计星型或雪花模型:逻辑模型设计阶段的核心是将概念模型转化为具体的数据库表结构。在这一过程中,需要设计星型或雪花模型等具体的数据模型。星型模型将事实表和维度表直接连接,结构简单,查询效率高;而雪花模型则对维度表进行进一步规范化,可能包含多个层次的维度,结构较为复杂,但在某些场景下更具灵活性。选择哪种模型需要根据实际的业务需求、数据量和查询复杂度来决定。定义数据表和字段:为每个数据表选择合适的名称,并为每个字段定义合适的数据类型和长度。这既能节省存储空间,又能保证数据的准确性和完整性。例如,对于日期字段,应使用DATE或DATETIME类型而非文本类型;对于金额字段,应确保其精度足够以避免舍入误差。设置主键和外键:为每个表设定唯一的主键,以唯一标识表中的每一行数据。同时,根据ER图中定义的实体关系,设置外键以维护表间的一致性。良好的主键和外键设计是确保数据完整性和实现数据关联查询的基础。细化需求:逻辑模型还需要将概念模型具体化,包括实现概念模型所描述的内容所需的具体功能和处理的具体信息。这涉及对实体属性的详细定义、关系的进一步明确以及数据表结构的详细设计。总的来说,数据仓库概念模型与逻辑模型的设计是一个从抽象到具体、不断细化和完善的过程。通过这两个阶段的设计,可以构建出一个既满足当前业务需求又具备良好扩展性和高性能的数据仓库模型。3【案例分析题】某公司存储员工信息的数据库中表示收入的字段income排序后的值(元)为:900,1000,1300,1600,1600,1900,2000,2400,2600,2900,3000,3600,4000,4600,4900,5000。1.按照等深分箱法进行分箱。2.按照等宽分箱法进行分箱。答案:针对给定的员工收入数据,我们可以按照等深分箱法和等宽分箱法分别进行分箱处理。一、等深分箱法等深分箱法,也称统一权重分箱法,是将数据集按记录行数分箱,每箱具有相同的记录数,称为箱子的深度。给定的收入数据排序后为:900,1000,1300,1600,1600,1900,2000,2400,2600,2900,3000,3600,4000,4600,4900,5000。假设我们要将这些数据分成4个箱子,那么每个箱子应包含4个数据点(因为16/4=4)。箱1:900,1000,1300,1600箱2:1600(重复值,但在此方法中仍计入一箱),1900,2000,2400箱3:2600,2900,3000,3600箱4:4000,4600,4900,5000注意:在实际应用中,如果数据集中存在重复值,并且希望避免将重复值分入同一箱,可以考虑对数据进行预处理,如去除重复值或调整分箱数量。但在此案例分析中,我们保留了重复值以展示等深分箱法的基本操作。二、等宽分箱法等宽分箱法是将数据集在整个属性值的区间上平均分布,每个箱子的区间范围是一个常量,称为箱子宽度。首先,我们需要确定箱子的宽度。给定的收入数据范围是900到5000,共有16个数据点。假设我们要将这些数据分成4个箱子,那么箱子的宽度为(5000-900)/4=1025(元)(结果四舍五入到整数)。箱1:900~1924元(包含900,1000,1300,1600,其中1600虽稍大于上界但按等宽法仍计入此箱)箱2:1925~2949元(包含1900,2000,2400,其中2400虽稍大于上界但按等宽法仍计入此箱,1600的重复值不计入此箱,因为它已在箱1中)箱3:2950~3974元(包含2600,2900,3000,3600)箱4:3975~5000元(包含4000,4600,4900,5000)注意:在等宽分箱法中,对于边界值的处理可能因具体实现而异。例如,有的实现可能将边界值严格归入下一个箱子,而有的实现则可能允许边界值在当前箱子中有一定的“溢出”。在此案例分析中,我们采用了较为宽松的边界值处理策略,即允许边界值在当前箱子中有一定的“溢出”,以更好地展示等宽分箱法的基本操作。然而,在实际应用中,应根据具体需求和场景选择合适的边界值处理策略。综上所述,等深分箱法和等宽分箱法各有特点,适用于不同的场景和需求。在选择分箱方法时,应充分考虑数据的分布特性、业务需求以及后续的数据处理和分析目标。
2024年秋江苏开放大学数据挖掘技术060734第3次形考作业单选题1以下哪个聚类算法不属于基于网格的聚类算法()。A、BIRCHB、MAFIAC、WaveClusterD、STING学生答案:A2一般,K-NN最近邻方法在()的情况下效果较好。A样本较多但典型性不好B样本较少但典型性好C样本呈链状分布D样本呈团状分布学生答案:B3以下哪项关于决策树的说法是错误的()。A决策树算法对于噪声的干扰非常敏感B寻找最佳决策树是NP完全问题C冗余属性不会对决策树的准确率造成不利的影响D子树可能在决策树中重复多次学生答案:A4以下哪种技术对于减少数据集的维度会更好()。A删除数据差异较大的列B删除缺少值太多的列C都不是D删除不同数据趋势的列学生答案:B5一监狱人脸识别准入系统用来识别对待进入人员的身份,此系统一共包括识别4种不同的人员:狱警,小偷,送餐员,其他。下面哪种学习方法最适合此种应用需求()。A层次聚类问题B多分类问题CK-中心点聚类问题D二分类问题学生答案:B6下列哪个描述是正确的()。A回归是无指导的学习,聚类是有指导的学习B回归是有指导的学习,聚类是无指导的学习C回归和聚类都是有指导的学习D回归和聚类都是无指导的学习学生答案:B7以下哪个分类方法可以较好地避免样本的不平衡问题()。A、KNNB、SVMC、神经网络D、Bayes学生答案:A8决策树中不包含以下哪种节点()。A叶结点B内部节点C根节点D外部节点学生答案:D9以下哪个算法是分类算法()。A、DBSCANB、K-MeanC、EMD、C4.5学生答案:D10、BIRCH是一种()。A特征选择算法B关联分析算法C分类器D聚类算法学生答案:D11影响基本K-均值算法的主要因素有()。A样本的数量B聚类准则C模式相似性测度D样本输入顺序学生答案:C12简单地将数据对象集划分成不重迭的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作()。A层次聚类B划分聚类C非互斥聚类D模糊聚类学生答案:B13下列关于凝聚层次聚类的说法,说法正确的是()。A算法的终止条件是仅剩下一个簇B具有全局优化目标函数C一旦两个簇合并,该操作还能撤销D空间复杂度学生答案:A14我们想在大数据集上训练决策树,为了使用较少时间,我们可以()。A增加学习率B减少树的深度C减少树的数量D增加树的深度学生答案:B15以下不属于影响聚类算法结果的主要因素有()。A模式相似性测度B特征选取C已知类别的样本质量D分类准则学生答案:C16关于欠拟合,下面哪个说法是正确的()。A训练误差较大,测试误差较大B训练误差不变,测试误差较大C训练误差较小,测试误差较大D训练误差较大,测试误差较小学生答案:A17以下()算法是关联规则挖掘。A、ID3B、K-MeansC、AprioriD、DBSCAN学生答案:C18“点击率问题”是这样一个预测问题,99%的人是不会点击的,而1%的人是会点击进去的,所以这是一个非常不平衡的数据集。假设,现在我们已经建了一个模型来分类,而且有了99%的预测准确率,我们可以下的结论是()。A模型预测准确率不高,我们需要做点什么改进模型B模型预测准确率已经很高了,我们不需要做什么了C无法下结论D以上都不对学生答案:C19关联规则的评价指标是()。A、平均绝对误差、相对误差B、均方误差、均方根误差C、Kappa统计、显著性检验D、支持度、置信度学生答案:D20、当分析顾客消费行业,以便有针对性的向其推荐感兴趣的服务,属于什么问题()。A分类B聚类C主成分分析D关联规则学生答案:D填空题1、回归分析的步骤。学生答案:确定变量;建立预测模型;进行相关分析;计算预测误差;确定预测值2层次聚类方法可分为:学生答案:凝聚层次聚类;分裂层次聚类3分类的基本过程:学生答案:学习阶段;分类阶段4支持向量机的3种模型可分为:学生答案:线性可分支持向量机;线性支持向量机;非线性支持向量机5惰性学习法主要包括:学生答案:K最近邻分类法(KNN);局部加权回归法;基于案例的推理简答题1【案例分析题】聚类评价指标的计算:某池塘有1400条鲤鱼、300只虾、300只鳖。1.现在以捕到鲤鱼为目的,若撒网后捕捉到700条鲤鱼、200只虾、100只鳖,那么评价指标:正确率、召回率和F值分别是多少?参考答案:70%;50%;58.3%为了计算正确率(Precision)、召回率(Recall)和F值,首先需要明确几个关键的数量:真正例(TruePositives,TP):实际是鲤鱼且被捕捉到的鲤鱼数量。假正例(FalsePositives,FP):实际不是鲤鱼但被捕捉到的数量(虾和鳖的总数)。假负例(FalseNegatives,FN):实际是鲤鱼但未被捕捉到的鲤鱼数量。根据题目,有以下数据:总鲤鱼数:1400条捕捉到的鲤鱼数:700条捕捉到的虾数:200只捕捉到的鳖数:100只可以计算出:TP=700FP=200+100=300FN=1400-700=700正确率(Precision):正确率是指捕捉到的鲤鱼在所有捕捉到的生物中所占的比例。召回率(Recall):召回率是指捕捉到的鲤鱼在所有实际鲤鱼中所占的比例。F值(F-measure):F值是正确率和召回率的调和平均数,通常用于综合评估模型的性能。因此,评价指标为:正确率(Precision):0.7召回率(Recall):0.5F值(F-measure):约0.58332.如果把池子里的所有的鲤鱼、虾和鳖都一网打尽,则此时评价指标:正确率、召回率和F值分别是多少?答案:在这个特殊的案例中,如果把池子里的所有的鲤鱼、虾和鳖都一网打尽,那么实际上我们捕捉到了所有的目标(鲤鱼)以及所有的非目标(虾和鳖)。这种情况下,我们需要重新考虑正确率、召回率和F值的计算。首先,我们明确几个关键的数量:总鲤鱼数:1400条总虾数:300只总鳖数:300只捕捉到的鲤鱼数:1400条(因为全部捕捉,所以鲤鱼全部被捕捉到)捕捉到的虾数:300只捕捉到的鳖数:300只接下来,我们计算真正例(TP)、假正例(FP)和假负例(FN):TP=1400(所有鲤鱼都被捕捉到)FP=300(虾的数量,因为虾不是鲤鱼但被捕捉到)+300(鳖的数量,因为鳖不是鲤鱼但被捕捉到)=600FN=0(因为没有鲤鱼被遗漏)然而,在这种特殊情况下,由于我们捕捉到了所有的鲤鱼以及所有的非鲤鱼生物,正确率的计算变得有些微妙。正确率通常定义为“被正确分类的正例数量除以所有被分类为正例的数量”。但在这里,所有的生物都被“分类”为“被捕捉到”,这包括鲤鱼和非鲤鱼。因此,如果我们把“被捕捉到且是鲤鱼”视为“正确分类的正例”,那么:正确率(Precision):但这里需要注意的是,这种计算方式可能不是最直观的,因为通常我们不会把非目标生物计入假正例来计算正确率(因为正确率是针对目标类别而言的)。然而,为了符合题目要求并给出一个答案,我们暂时采用这种计算方式。在实际应用中,如果目标是评估鲤鱼捕捉的准确性,我们可能会忽略非鲤鱼生物的存在,只计算鲤鱼中的真正例和假负例。召回率(Recall):由于我们捕捉到了所有的鲤鱼,所以召回率为1。F值(F-measure):F值是正确率和召回率的调和平均数。但再次强调,这种计算方式可能不是最符合直觉的,特别是在这种特殊情况下。通常,在聚类或分类任务中,我们会更关注目标类别(在这里是鲤鱼)的正确分类情况,并据此来计算评价指标。综上所述,如果把池子里的所有的鲤鱼、虾和鳖都一网打尽,则此时的评价指标(采用上述计算方式)为:正确率(Precision):约0.7召回率(Recall):1F值(F-measure):约0.82352阐述统计方法的离群点检测的优缺点。答案:统计方法的离群点检测是一种基于数据分布特性的技术,其优缺点可以归纳如下:优点坚实的理论基础:统计方法通常拥有扎实的数学理论作为支撑,如概率论和统计学原理。这些理论为离群点检测提供了明确和可靠的依据。适用于低维数据:对于低维数据,统计方法能够高效地检测出离群点。因为低维数据的分布特性相对简单,统计模型能够更容易地捕捉这些特性。模型简洁:一旦统计模型建立,它通常只需要少量的信息来描述数据分布,这使得模型相对简洁且易于理解。缺点数据分布假设严格:统计方法通常要求数据对象服从某种特定的数据分布,如正态分布。然而,在实际应用中,数据分布往往是未知的或复杂的,这限制了统计方法的应用范围。高维数据处理困难:对于高维数据,统计方法的检测效
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 翻译三级笔译实务模拟59
- 血栓性外痔的治疗及手术
- 脑小血管病病例分享
- 小班音乐活动哈哈笑
- 第十七届山东省职业院校技能大赛高职组“网络系统管理”赛项样题
- 二零二四年度版权许可使用合同标的及使用范围规范2篇
- 人音版音乐七年级上册《父亲的草原母亲的河》课件
- 玉林师范学院《传感器原理与应用》2022-2023学年第一学期期末试卷
- 2024年度房产保险合同:投保人与保险公司房产保险协议3篇
- 2024年度健身房连锁经营与合作合同2篇
- 2024届高考英语语法填空题专项训练(有答案解析)
- 新课标背景下的大单元教学研究:国内外大单元教学发展与演进综述
- 心理健康-过程性考核作业二-参考资料-江苏开大
- MOOC 计算机网络系统-电子科技大学 中国大学慕课答案
- 2024【中期检查】《信息技术与高中数学教学的深度融合研究》课题研究中期报告新
- 金融基础知识考试题库300题(含答案)
- 2023-2024学年教科版六年级上册科学第二单元《地球的运动》单元测试卷(含答案)
- 2024 年咨询工程师《宏观经济政策与发展规划》猛龙过江口袋书
- 追觅入职测评题库
- 创意写作与媒体策划
- 机关单位保密知识培训课件
评论
0/150
提交评论