数据挖掘在数据分析中的应用_第1页
数据挖掘在数据分析中的应用_第2页
数据挖掘在数据分析中的应用_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、福建电脑2010年第10期数据挖掘在数据分析中的应用郑频捷(福建泉州儿童发展职业学院福建 泉州362000)【 摘要 】:本文围绕着教师多媒体软件使用情况方面的四个问题, 演示了数据挖掘的过程, 重点阐述了如何利用数据挖掘工具, 对挖掘结果的分类、 测试检验、 算法修改等操作, 并将分类特征可视化, 最终针对挖掘结果进行了分析, 得出结论 。 对于数据挖掘在数据分析中的应用, 本文做了很好的示范。【 关键词 】:数据挖掘数据分析信息社会的到来对数据的筛选和利用提出了更高要求 , 而海量数据的出现又使得人们用传统数据处理的方法无从下手, 此时必然要求有更为先进的数据处理技术 。所谓数据挖掘(da

2、ta mining)1就是从大量、 不完全 、有噪声 、 模糊 、 随机的数据中发现隐含数据中的关系,建立模型, 提取具有潜在价值、 可信 、 新颖 、 有效并能被人所理解的信息和知识的过程, 通俗的讲, 就是从大型数据库提取有效、 可信和可行信息的过程。 它又被称为数据库中的知识发现(kdd: knowledge discoveryin database)、数据分析、 数据融合(data fusion)、 决策支持等 。 它是一门交叉性学科, 涉及到机器学习、 神经网络 、 模式识别 、 归纳推理、 统计学 、 数据库 、 数据可视化、高性能并行等多个领域的相关技术。数据挖掘与传统数据分析工

3、具的主要区别在于探索数据关系时所用的方法不同。 传统数据分析工具使用基于验证的方法, 即用户首先对特定的数据关系做出假设 , 然后用分析工具去确认或否定这些假设。 这种方法的有效性受到很多因素的限制。 与分析工具相反,数据挖掘使用基于发现的方法, 运用模式匹配和其他算法决定数据之间的重要联系。一.挖掘流程数据挖掘的整个过程可以描述成四个步骤:1.问题定义清晰地定义出业务问题, 认清数据挖掘的目的是数据挖掘的重要一步。 在问题定义过程中, 数据挖掘人员必须和领域专家紧密协作, 明确实际工作对数据挖掘的要求, 并通过各种算法的比较, 选择合适的算法进行挖掘。2.数据准备1)数据的选择: 搜索所有与

4、业务对象有关的内部和外部数据信息, 并从中选择出适用于数据挖掘应用的数据 。2)数据的预处理: 研究数据的质量, 进行数据再加工, 包括检查数据的完整性及数据的一致性、 去除噪声 , 填补丢失的域, 删除无效数据, 为进一步的分析作准备 , 并确定将要进行的挖掘操作的类型。3)数据的转换: 将数据转换成一个分析模型, 从而减少数据维数或降维, 即从初始特征中找出真正有用的特征 , 以减少数据挖掘时要考虑的特征或变量个数。这个分析模型是针对挖掘算法建立的, 而建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。3.数据挖掘根据数据功能的类型和数据的特点选择相应的算法( 如神经元网络、 决策树

5、 、 聚类分析技术、 关联发现和序列发现技术), 在净化和转换过的数据集上进行数据挖掘,搜索或产生一个特定的感兴趣的模式或一个特定的数据集。4.结果分析该步骤是对数据挖掘发现的模式或数据集进行解释和评价, 生成一个相对最优模型, 并对此模型用业务语言加以解释, 把有用的知识呈现给用户。 但数据挖掘阶段发现出的模式也可能不满足用户要求, 这时需要整个发现过程回退到前一阶段, 如重新选取数据、 设定新的参数、 换用一种挖掘算法等。由此可见, 数据挖掘过程是多个步骤相互连接、 反复进行人机交互的过程。在本文的研究中, 围绕着教师多媒体软件使用情况进行挖掘分析, 设置了以下四个相关方面的问题,以期得出

6、相关的结论:1) 你使用过powerpoint吗 ?a) 从不b) 很少c) 经常2)你使用过flash吗 ?a) 从不b) 很少c) 经常3)你使用过authorware吗?a) 从不b) 很少c) 经常4) 使用photoshop进行图片制作情况1042010年第10期福建电脑a) 不会b) 会 , 但不经常使用c) 会 , 并且经常独立使用二.挖掘过程在前期工作中, 针对以上四个问题, 我们通过问卷形式 , 面向幼儿园教师收集了大量的资料, 并将这些资料采用excel文件存储下来, 表名为信息知识与技能,相 关 字 段 为使 用powerpoint情 况(ppt)、使 用flash情 况

7、(flash)、使 用authorware情 况(aw)、photoshop制作(psdzz),本文主要利用microsoft sqlserver 2005 analysis services(ssas) 所提供的算法进行挖掘处理。1. 教师多媒体软件使用情况挖掘模型设计(1) 指定列的用法我们指定数据源中信息知识与技能(zsjn) 为事例表 , 如上面文字所示, 从中提取出ppt、flash、aw、psdzz四个列组成挖掘结构, 列属性均为in -put and predict。(2) 挖掘算法的选择及其参数设置在此我们利用挖掘, 了解教师对于四种多媒体软件的了解、 掌握程度 , 并自动分成

8、具有显著特征的若干个类别 , 然后找出每个类别中的共性, 也就是说通过挖掘 , 希望能将教师进行分类。 针对选项式的调查, 比较关联算法和聚类算法, 在次我们认为聚类分析挖掘算法最为合适。根 据 聚 类 分 析 挖 掘 算 法 的 属 性 设 置 , 我 们 将cluster_count修改为0, 为了最准确地确定要生成的分类数。2.挖掘结果的图示在microsoft聚类方法挖掘结果的图示中, 包含了分类关系图、分类剖面图、分类特征和分类对比。其中分类关系图可以显示挖掘模型中的所有分类, 两个分类之间连线的明暗度表示分类的相似程度;分类剖面图可以提供模型中的算法创建的分类的总体视图;分类特征中

9、选择分类后, 可以检查特定分类的组成特征 ;分类对比可以用来比较两个分类的属性2。图2 教师多媒体软件使用情况分类剖面图图2为教师多媒体软件使用情况分类剖面图, 其中使 用powerpoint情 况(ppt)、使 用flash情 况(flash)、使 用authorware情 况(aw)、photoshop制作(psdzz) 四个变量的各个选项已经转化为中文含义。当点击aw分类1时 , 在挖掘图例中会显示各个颜色的含义以及各含义的分布比例。 其中 , 为了增强挖掘结果的直观性, 参照附录, 我们利用sql语言 , 在数据库中把字段的值修改成对应的中文含义, 如aw字段中a值改为从不,b值改为很

10、少,c值改为经常。依此类推 , 将flash、powerpoint、psdzz字段的值都改成对应的中文含义。3.挖掘结果的检验为了检验挖掘准确性, 我们设计了测试数据源test.dsv, 并将其作为事例表导入表中, 观察提升图, 发现总体正确率偏低, 如图3所示结果。图3 教师多媒体软件使用情况挖掘提升图从挖掘提升图中我们可以看到, 当总体为100时, 预测的正确率还不到40。 显然 , 这么低的正确率无法满足研究要求,聚类方式挖掘算法的参数需要改正, 根据聚类挖掘中参数设置, 我们尝试用其他聚类挖掘算法 : 将clustering_method的值修改为3, 即采用scalable k-me

11、ans算法 , 此时产生的挖掘提升图如图4所示 , 总体正确率和预测概率都提高了, 分别为62.5和65.22。图4修改后的挖掘提升图4.分类特征的可视化从图5所显示的分类剖面图可以明显看出, 颜色块大的部分, 所占总数的比例越大, 如在分类1中 ,ppt取值为很少的状态基本上占了所有的比例,意味着该分类中ppt的取值特点为很少。105福建电脑2010年第10期图5修改后的分类剖面图我们从分类特征图6中可以看到各变量的取值具体所占比例, 还可以看出各个分类中最显著的特征。图6 教师多媒体软件使用情况分类特征而分类与分类之间的比较, 则可以通过分类对比图来观察。 比如图7所示的分类2与其他分类之

12、间的对比关系, 从中看出分类2与其他分类的区别。图7分类2和非分类2的对比分数图因此 , 我们可以利用挖掘提升图来判断挖掘手段是否合理, 利用分类剖面图可以观察到所有分类中各值的分布大致情况, 还可以从分类特征图和对比分数图看出该分类的最大特点。5.挖掘结果的分析通过图5图7来看 , 我们发现:分 类1: 教 师 很 少 使 用powerpoint, 且 很 少 使 用photoshop和flash, 大部分没用过authorware。 可以看出 , 这部分教师会一些基本的多媒体工具, 有一定的操作能力 , 但没有学习过authorware, 因此确定这部分教师制作课件能力较差,需要全方位的进

13、行培训。分类2: 教师会经常使用powerpoint来制作课件,但很少使用authorware和flash,对于photoshop制作能力也不行。 因此可以认为, 这部分教师只会使用powerpoint来进行简单的课件制作, 可以从课件制作、素材制作等方面来提升。分类3: 这 类 的 教 师 能 经 常 使 用powerpoint, 但 对于authorware和flash也是很少使用, 甚至从没用过,而经常使用photoshop的教师占了总数将近一半。 意味着这部分教师能经常使用powerpoint, 能使用photo-shop,有一定的技术性,因此针对这类教师,应加强课件制作能力的培训。分

14、类4: 教师基本上不用authorware、photoshop或powerpoint, 只有部分教师偶尔做一些flash, 正说明了这部分教师在制作课件方面能力普遍较差, 但对flash制作有一定的兴趣, 可以针对教师的兴趣点, 增加flash方面的培训。分类5: 所有教师都能经常使用photoshop, 但很少使用authorware、flash和powerpoint, 可以这样理解-这类教师主要是把信息技术应用到个人兴趣、 生活需要上 , 有一定的信息处理能力, 因此可以通过较短期的培训 , 提高使用authorware课件制作能力, 增加实践的机会 。因此相信在幼儿园里还是一部分教师, 能主动使用多媒体软件制作课件, 虽然只是简单的powerpoint,但还是看到了信息推广的希望, 也是今年来学院重视学以致用的成果;photoshop还是有更多人会使用, 正是因为其实用性强, 与教师的实际生活、 教学需要有联系 , 如相片处理、 图片编辑等等; 而flash正是由于网络的推广, 且自身的优势, 让更多人意识到其好处, 因此能很好的吸引了教师的眼球; 而authorware这个相对专业的课件制作软件, 教师对其倒是知之甚少, 正好反映了广大教师在信息技术

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论