数据挖掘部分作业答案_第1页
数据挖掘部分作业答案_第2页
数据挖掘部分作业答案_第3页
数据挖掘部分作业答案_第4页
数据挖掘部分作业答案_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、一、概述数据挖掘概念: 数据挖掘是对大量数据进行探索和分析、以便发现有意义的模式和规 则的过程 .数据仓库: 数据仓库就是面向主题的、集成的、非易失的(稳定性) 、随时间变化(不 同时间)的数据集合,用以支持经营管理中的决策制定过程。数据立方体:允许以多维对数据建模和观察 .由维和事实组成 .其中事实是数值的度量 .分类: 就是通过学习获得一个目标函数 f, 将每个属性集 x 映射到一个预先定义好的类标号y.分类任务的输入数据是纪录的集合,每条记录也称为实例或者样例.用元组(X,y)表示, 其中 ,X 是属性集合 ,y 是一个特殊的属性 ,指出样例的类标号 (也称为分类属性或者目标属 性).信

2、息检索: 信息检索(In formation Retrieval)是指信息按一定的方式组织起来,并根据 信息用户的需要找出有关的信息的过程和技术。 狭义的信息检索就是信息检索过程的后半部 分,即从信息集合中找出所需要的信息的过程,也就是我们常说的信息查寻(InformationSearch 或 Information Seek )。知识发现( KDD ):知识发现是从数据集中识别出有效的、新颖的、潜在有用的,以 及最终可理解的模式的非平凡过程。OLAP:OLAP 是针对特定问题的联机数据访问和分析 .通过对信息 (这些信息已经从原始的数据进行了转换 ,以反映用户所能理解的企业的 实的 “维”)

3、的很多可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察 .维:是人们观察数据的特定角度 . 企业常常关心产品销售随着时间推移而产生的 变化的情况 ,这时企业是从时间的角度来观察产品的 销售,所以时间就是一个维 (时间维 ).企业也常常关心自己的产品在不同地区的销售分布情况 ,这时企业是从地理分布的角度来观察产品的销售,所以地理分布也是一个维 (地理维 ).上卷: -通过一个维的概念分层向上攀升或者通过维归约,在数据立方体上进行聚集, 也称为聚合操作 .下卷: -是上钻的逆操作 .它由不太详细的数据到更详细的数据.钻取可以通过沿维的概念分层向下或引入新的维来实现

4、 .切片:-设有(维1,维2,维i,维n,观察变量)多维数据集,对维i选定了某个维成员,则(维 1,维2,维i成员,维n,观察变量)就是多维数据集(维1,维2,,维I,维n,观察变量)在 维 i 上的一个切片 .切块: -将完整的数据立方体切取一部分数据而得到的新的数据立方体.在(维1,维2,维i,维k,维n,观察变量)多维数据集上,对维i,维k,选定了维成员, 则(维1,维2,维i成员,维k成员,维n,观察变量)就是多维数据集(维1,维2,,维 i,维k,维n,观察变量)在维i,维k上的一个切块.二、简述1、 KDD 的主要过程KDD 过程是多个步骤相互连接、反复进行人机交互的过程。 主要包

5、括以下步骤:1. 问题的理解和定义:数据挖掘人员与领域专家合作对问题进行深入的分析以确定 可能的解决途径和对学习结果的评测方法。2相关数据收集和提取:根据问题的定义收集有关的数据。在数据提取过程中,可以 利用数据库的查询功能以加快数据的提取速度。3数据探索和清理:了解数据库中字段的含义及其与其他字段的关系。对提取出的数 据进行合法性检查并清理含有错误的数据。4数据工程:对数据进行再加工主要包括选择相关的属性子集并剔除冗余属性、根 据知识发现任务对数据进行采样以减少学习量以及对数据的表述方式进行转换以适于学习 算法等。为了使数据与任务达到最佳的匹配这个步骤可能反复多次。5算法选择:根据数据和所要

6、解决的问题选择合适的数据挖掘算法并决定如何在这 些数据上使用该算法。6运行数据挖掘算法:根据选定的数据挖掘算法对经过处理后的数据进行模式提取。7结果的评价:对学习结果的评价依赖于需要解决的问题由领域专家对发现的模式 的新颖性和有效性进行评价。 数据挖掘是 KDD 过程的一个基本步骤 它包括特定的从数据 库中发现模式的挖掘算法。 KDD 过程使用数据挖掘算法根据特定的度量方法和阈值从数据 库中提取或识别出知识,这个过程包括对数据库的预处理、样本划分和数据变换。2、操作数据库系统与数据仓库的区别OLTP 和 OLAP 的主要区别概述如下:用户和系统的面向性: OLTP 是面向顾客的,用于办事员、客

7、户、和信息技术专业人员的 事务和查询处理。 OLAP 是面向市场的,用于知识工人(包括经理、主管、和分析人员)的 数据分析。数据内容: OLTP 系统管理当前数据。通常,这种数据太琐碎,难以方便地用于决策。 O LAP 系统管理大量历史数据,提供汇总和聚集机制,并在不同的粒度级别上存储和管理信 息。这些特点使得数据容易用于见多识广的决策。数据库设计:通常,OLTP系统采用实体-联系(ER)模型和面向应用的数据库设计。而0LAP 系统通常采用星形或雪花模型和面向主题的数据库设计。视图: OLTP 系统主要关注一个企业或部门内部的当前数据,而不涉及历史数据或不同组 织的数据。相比之下,由于组织的变

8、化, OLAP 系统常常跨越数据库模式的多个版本。 OL AP 系统也处 理来自不同组织的信息,由多个数据存储集成的信息。由于数据量巨大,OLAP 数据也存放在多个存储介质上。访问模式: OLTP 系统的访问主要由短的、原子事务组成。这种系统需要并行控制和恢复 机制。然而,对 OLAP 系统的访问大部分是只读操作(由于大部分数据仓库存放历史数据, 而不是当前数据),尽管许多可能是复杂的查询。OLTP 和 OLAP 的其它区别包括数据库大小、操作的频繁程度、性能度量等。OLTP 系统和 OLAP系统的比较特性OLTPOLAP特征操作处理信息处理面向事务分析用户 办事员、 DBA、数据库专业人员知

9、识工人 (如经理、 主管、分析员)功能日常操作长期信息需求,决策支持DB 设计基于 E-R ,面向应用星形/ 雪花,面向主题数据当前的;确保最新历史的;跨时间维护汇总原始的,高度详细汇总的,统一的视图详细,一般关系汇总的,多维的工作单位短的、简单事务复杂查询存取读/写大多为读关注数据进入信息输出操作主关键字上索引 / 散列大量扫描访问记录数量数十个数百万用户数数千数百DB规模优先度量100GB 至U TB高灵活性,端点用户自治查询吞吐量,响应时间100MB 到 GB高性能,高可用性事务吞吐量其中:OLTP指联机事务处理OLAP指联机分析处理3、如果面对学校数据库,你认为数据挖掘的目标是什么?&

10、#39; - r f . 'HI |P VfP* 甲 V P" r 9 !< " f 咎利学楼姊岸j可口楣8出老即的科醸力,斛盼解习精那的人軌博情亂1>通制毎年招収的斛孵习脳的分気可以挖爲啊柘的斛朋US好,以餐今呂曲大财的招 牛锹师期的*瀛通it对学牛四九9U珈.计舜机一三级成鎮的抡鮒可以不韓出啊诵鮮杀賞请水半覓乐:訂通辻和确也文去綁氐tifflii老匹的關能力和於札n jii.可以令理安*件啓的軟札 4、比较星型模式,雪花模式和事实星座模式歡星塑損式包1S事实表科一俎冷BM*舊花彊云是呈型嶷式时曼母彳嗣的蹄某删抿规巾化.£他电用、救JMI*干

11、耀沪节ffiM. in足征眞行盘闻时IHHE娄的关联块”,咐氐弋拥任 »!刨軌I讣中,星型HbCJUWb 实里座HW>J应爹个那实«A$««5、你了解的信息检索模型幷简要叙述其思想、布尔欖型布尔模型是基于集合理论和布尔代故的一种简单的楡索模理由于集合的捣含 非SSS,所规布尔模架为f;息检占琨疑I切;通出户畏供了一种券寸常也的血架.主要优点,理式简洁、給构閒单;主要不足;只是判斷文献要么相矢.要么不无铤描述打衿剳条f汁”;儿 忙的悄抚对能导数榆H亦j猷过芳或过少,二、向童空斶模空向最空间視型通过対检出文献按网姒度降序托列的方式来实现丈就与香询伯 部

12、分匹配这样做嚴明显的效呆就是姑果地(answerKt)内關文橄榕列顶序比通过 布挥除型總列伯嬪卑集翌仑理冯気从某种总壯说,能更好地国配用户帯息需求一1痒优点:标引词加収改进了检索效果其部分匹配绘略运轩检出与杏询条件 接IE的丈*U余找公式根据丈就与賽询之彻的相钗度对文献进打排厚.不足:标引词被认为彼此之间相血独立-三、经典辄率税抱经軌帆率虫型的裁木思想足敏用户-个齊询,徉农一个文献童令,读勒合 MS完全相关的丈就而不包桔其他不相关的文献.我们耙逗个文猷毎介称为理JS 给果集主要优点;从理论上讲畑棍据它门相关的概率按逸减的吧T|倩畀其缺点 £:帝買最初把文猷分曲相关怖集仑和不相关的集4

13、 堪种川不考世标引词在 乂枝中出现的锁卒:旧律标引诃州兀腹M不址:井不能明确标引词的独立性在时间悄况中是古是一个不剧的建设.6、数据挖掘的相关领域及主要的数据挖掘方法数据挖掘的相关领域:1. 金融数据分析的数据挖掘* 为多维数据分析和数据挖掘设计和构造数据仓库贷款偿还预测和顾客信用政策分析针对定向销售的顾客分类和聚类* 洗黑钱和其他金融犯罪的侦破2. 零售业的数据挖掘基于有效数据挖掘的数据仓库的设计和构造* 销售,顾客,产品,时间和地区的多维分析*促销活动的有效性分析*顾客保持力一一顾客忠诚度分析* 产品推销和产品的交叉推动3. 电信业的数据挖掘电信数据的多维分析* 盗用模式分析和异常模式识别

14、*多维关联和序列模式分析移动通信服务 电信数据分析中可视化工具的使用4. 生物学数据分析的数据挖掘*异构分布基因组和蛋白质组数据库的语义集成多核苷、蛋白质序列的对比、索引,相似性搜索和比较分析结构模式的发现、遗传网络和蛋白质路径的分析 关联和路径分析:识别同时出现的基因序列、把基因与疾病的不同阶段链接基因数据分析中的可视化工具5. 其他科技应用的数据挖掘数据仓库和数据库预处理挖掘复杂数据类型基于图的挖掘*可视化工具和特定领域知识数据挖掘的方法:可粗分为:统计方法、机器学习方法、神经网络方法和数据库方法。统计方法中,可细 分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非

15、参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)以及模糊集、粗糙集、支持向量机等。机器学习中,可细分为:归纳学习方法(决策树、规 则归纳等)、基于范例的推理 CBR、遗传算法、贝叶斯信念网络等。神经网络方法,可细分 为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数 据库方法主要是基于可视化的多维数据分析或OLAP方法,另外还有面向属性的归纳方法。7、数据挖掘涉及的数据类型Analysis Services支持挖湄结构列的以下如据类型匸型支持的內容类型TextLongCyclical-. Discrete. Discretized. Key Sequence, Ordered 和 SequenceContinuous-. Cydicak Discrete,Discretized,Key- Key Sequence. Key Time-,Ordered,Sequence 和

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论