数据挖掘试题参考答案_第1页
数据挖掘试题参考答案_第2页
数据挖掘试题参考答案_第3页
数据挖掘试题参考答案_第4页
数据挖掘试题参考答案_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘试题参考答案大学课程数据挖掘试题参考答案范围:? 1.什么是数据挖掘?它与传统数据分析有什么区分?定义:数据挖掘data mining,dm又称数据库中的学问发觉knowledge discover in database,kdd,是目前人工智能和数据库领域讨论的热点问题,所谓数据挖掘是指从数据库的大量数据中提醒出隐含的、从前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、形式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的形式,关心决策者调整市场策略,削减风险,做出正确的决策。区分:1数

2、据挖掘的数据源与以前相比有了显著的转变;数据是海量的;数据有噪声;数据可能是非构造化的;2传统的数据分析方法一般都是先给出一个假设然后通过数据验证,在肯定意义上是假设驱动的;与之相反,数据挖掘在肯定意义上是发觉驱动的,形式都是通过大量的搜寻工作从数据中自动提取出来。即数据挖掘是要发觉那些不能靠直觉发觉的信息或学问,甚至是违反直觉的信息或学问,挖掘出的信息越是出乎意料,就可能越有价值。在缺乏强有力的数据分析工具而不能分析这些资源的状况下,历史数据库也就变成了“数据坟墓里面的数据几乎不再被访问。也就是说,极有价值的信息被“吞没在海量数据堆中,领导者决策时还只能凭自己的阅历和直觉。因此改良原有的数据

3、分析方法,使之可以智能地处理海量数据,即演化为数据挖掘。? 2.请依据crisp-dmcross industry standard process for data mining模型,描绘数据挖掘包含哪些步骤?crisp-dm 模型为一个kdd工程供应了一个完好的过程描绘.该模型将一个kdd工程分为6个不同的,但挨次并非完全不变的阶段.1: business understanding: 即商业理解. 在第一个阶段我们必需从商业的角度上面理解工程的要求和最终目的是什么. 并将这些目的与数据挖掘的定义以及结果结合起来.2.data understanding: 数据的理解以及搜集,对可用的数据

4、进展评估.3: data preparation: 数据的预备,对可用的原始数据进展一系列的组织以及清洗,使之到达建模需求.4:modeling: 即应用数据挖掘工具建立模型.5:evaluation: 对建立的模型进展评估,重点详细考虑得出的结果是否符合第一步的商业目的.6: deployment: 部署,即将其发觉的结果以及过程组织成为可读文本形式.(数据挖掘报告)? 3.请描绘将来多媒体挖掘的趋势随着多媒体技术的进展,人们接触的数据形式不断地丰富,多媒体数据库的日益增多,原有的数据库技术已满足不了应用的需要,人们盼望从这些媒体数据中得到一些高层的概念和形式,找出蕴涵于其中的有价值的学问。

5、这种将数据挖掘技术和多媒体信息处理技术有机地结合起来形成的在多媒体数据中进展学问发觉的信息处理方法就是多媒体数据挖掘。对多媒体数据进展挖掘并且实现智能化信息检索是将来进展的需求,是一个很有前途的讨论方向。1、文本数据挖掘所谓多媒体文本数据挖掘,就是从大量的多媒体文本数据中发觉有意义的形式过程。多媒体文本数据挖掘的过程对多媒体文本数据挖掘最行之有效的途径就是将多媒体文本数据构造化后,再对构造化数据采纳数据挖掘方法。文本挖掘从功能上可以分为总结、分类、聚类、趋势预报等。2、图像数据挖掘图像挖掘是多媒体挖掘的一个分支,图像挖掘可以广泛地应用于图像检索、医学影像诊断分析、卫星图片分析、地下矿藏预报等各

6、种领域。其挖掘方法和原型构造存在着宏大的改良空间。3、视频、音频数据挖掘除了静态图像,在数字文档、万维网、播送数据流、个人或专业数据库中,还能获得数字形式的大量音频和视频信息。4、在医学图书馆效劳中的应用多媒体数据挖掘对医学信息有很强的适应性。多媒体技术的应用便于医学信息的储存多媒体技术是当今信息技术领域进展最快、最活泼的技术,是新一代电子技术进展和竞争的焦点。将来的热点应用领域网站的数据挖掘web site data mining生物信息或基因的数据挖掘文本挖掘textual mining多媒体挖掘将来的讨论热点发觉语言的形式化描绘寻求数据挖掘过程中的可视化方法讨论在网络环境下的数据挖掘技术

7、加强对各种非构造化数据的挖掘学问的维护更新? 4.在电信行业中,如何利用数据挖掘技术对用户信誉度进展分析数据挖掘有其一般的通用过程,但是在详细应用的时候因为实际状况可能比拟冗杂, 依据详细的状况不同还要做出适当的修改。针对电信行业用户信誉度分析,从工程需求的理解和定义开头, 经过数据的搜集和抽取、清洗、整合的过程, 到建立数据挖掘模型, 最终经过模型的评估到模型的发布。详细步骤如下:?工程需求信誉度分析的目的就是要对现有电信客户进展信誉评估,通过评估分析建立的挖掘分析模型可以获得客户信誉等级的评分, 在此根底上可以结合用户分群的结果, 将电信客户进展分群, 找出不同信誉级别的客户群体, 然后由

8、数据挖掘人员协作市场推出的各项优待政策( 尤其是存话费、赠话费等) , 细分市场, 使该类优待政策到达最好的效果。通过对客户信誉度的划分, 使决策人员可以清楚地看到,理解本网用户的信誉度构成, 使其在制定、讨论营销政策的时候做到心中有数。?数据的搜集和抽取数据搜集和抽取的过程就是要理解、熟识客户数据, 可以将商业理解转化为对数据的理解, 从而有针对性的开展数据挖掘。详细包括如下过程:2.1数据源描绘对电信客户信誉度的评估, 主要用法到数据源主要包括:行为数据、客户属性数据。详细到业务层面包含的信息有:客户的档案、身份信息、年龄、性别、历史欠费状况、往月的帐务消费状况等。2.2数据质量描绘对猎取

9、的各变量进展分析探究, 选取可用法的关键变量如年龄、话费等,可用法图形来展现这些关键的字段的分布。?数据预备电信客户的用户群很大,且业务繁杂,拥有多个业务系统,各个系统对于参数的定义和归类也是不尽一样的, 统一、整合各个系统中的信息, 使之可以到达参数全都化, 可以满足挖掘目的的要求, 需要处理的数据量也是特别宏大的, 详细处理步骤如下:3.1数据的整合3.2清洗数据3.3构建数据3.4选择数据3.5确定训练集和结果集?建立挖掘模型信誉度挖掘变量许多, 数据构造也比拟冗杂,目前对于其讨论也许多,而最常用的挖掘方法为神经元网络和c5.0 决策树两种算法。建模之前, 我们需要对训练集的数据做修改:

10、 即在训练集数据中参加结果字段, 供训练模型用法,我们首先依据业务需求人为划定信誉度档次, 初步将信誉度划分为3个层次: 欠费回收状况、月均加权区内消费、区内消费变异系数。经过以上三轮信誉度划分, 可以划分结果为aaa-eee。欠费回收状况首先反映了信誉度的主要方面, 假如一个用户欠3个月以上才能缴费或者不能缴费, 这样的用户对于电信公司来讲, 信誉度应当是最差的"反之, 未发生欠费的用户信誉度应当是最高的;划分的其次个指标之所以选择了区内通话费, 是因为: 在用户消费过程中, 长途等消费每个月的波动是比拟大的, 我们在进展划分档次的时候应当尽量选择比拟平稳的指标, 所以本文选择了区

11、内通话费,为了剔出1个月区内话费可能的突高状况带来的噪声, 采纳了近6个月区内消费金额的加权平均数。划分的第三个指标采纳了区内消费的变异系数, 反映了月区内消费的波动状况, 即: 越稳定的用户信誉级别越高, 反之, 波动比拟大的用户级别低。而后依据两个算法进展建模分析。?模型选择模型的选择和实际业务的需求亲密相关, 和数据挖掘人员对业务规律的把握是分不开的。我们在数据挖掘模型训练的过程中, 依据实际阅历来推断, 信誉度划分的精确率最高到达70%左右。考虑到划分信誉度的时候采纳的是三个输出点,选择的是神经网络模型。模型的训练、比拟和优化的过程是数据挖掘工程中的收尾工作,就是不断调整模型参数, 观

12、看数据结果, 对结果不断比拟, 依据阅历推断优化的过程。最终得出了最终的模型。?模型发布为了使市场经营决策人员可以直观地理解用户群在各个信誉度指标的分布"以便在制定营销政策之前可以理解目的客户群的大小, 初步对即将推出的活动的绩效有大致的理解。因此需要进展发布。针对电信可采纳报表工具发布。? 5.请阐述如何利用神经网络发觉用户欺诈行为。主要方式是依据以前拥有的用户欺诈数据建立用户属性、效劳属性和用户消费数据与用户流失可能性关联的数学模型,找出用户属性、效劳属性和用户消费数据与用户欺诈状态的关系,并给出明确的数学公式。只要知道用户属性、效劳属性和用户消费数据,就可以计算出用户欺诈的可能

13、性。计费部门可以依据得到的数学模型,随时监控用户欺诈的可能性。假如用户欺诈流失的可能性高于事先划定的限度,就可以重点高频率地检测该用户话费的用法情况,一旦发觉欠费就可准时停机,从而大大削减电信企业的损失。基于严格数学计算的数据挖掘技术可以在很大程度上转变以往电信企业在胜利获得用户后无法监控用户恶意欠费的情况。搜集用户的信息,包括欺诈的,没有欺诈。并对用户欺诈的和没有欺诈的用户经行分类。建立多输入,二输出有欺诈,没有欺诈的神经网络。利用搜集到的用大局部的历史数据对神经网络经行训练,训练完毕之后,规定精度,用剩下的数据用来检验神经网络的拟合优度。当然在实际中最好是依据历史数据的累积,规定肯定的时间间隔,定期对神经网络经行训练,这样能保持神经网络的学习力量和适应度。大体的步

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论