机器学习与数据挖掘_第1页
机器学习与数据挖掘_第2页
机器学习与数据挖掘_第3页
机器学习与数据挖掘_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、机器学习与数据挖掘本文主要介绍机器学习的几种常见模型和几种常见的分类,并介绍分析数据 挖掘的体系结构和二者的常见应用,最后总结二者相结合的实际应用及未来开展 的趋势。标签:数据挖掘;机器学习;大数据1引言近些年来,随着互联网行业飞速开展,无论是日常生活中还是其他领域每天 都会产生非常庞大的信息量,这些信息隐含着巨大的价值,对各个领域都有着很 显著的帮助。当下对数据库信息的处理只是传统的存取操作,通过简单的存取操 作获得的信息只是数据库信息所包含的很少的一局部。在大数据时代,传统的数 据分析方法,在时间以及空间意义上都是很难行得通的。数据挖掘通过数据统计, 对数据的在线处理分析,机器学习等方法搜

2、索大数据中有用信息,所以,数据挖 掘技术是大数据时代处理分析数据的有效方法。1机器学习作为人工智能的一个分支。在大数据时代飞速开展,机器学习 领域主要的研究对象是如何在经验学习中改善具体算法的性能,十分契合数据挖 掘对数据处理的需要。2机器学习机器学习主要工作是设计和分析一些让计算机可以对现有数据自动“学习” 的算法。机器学习算法从数据中自动分析获得规律,并利用规律对未知数据进行 预测。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤 为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的, 行之有效的学习算法。很多推论问题属于无程序可循难度,所以局部的机器学习

3、 研究是开发容易处理的近似算法。机器学习的基本模型美国卡内基-梅隆大学教授提出了一个机器学习决策过程模型。 该模型指出,以决策者为主体的管理决策过程包括三个阶段:情报:对数据进行 收集处理,研究决策环境,并确定影响决策的因素;设计:发现,开发并分析各 种可行方案,选择:确定最优方案并实施。机器学习的分类2基于解释的学习:在学习过程中使用给定的数据构建一个模型,新的数 据通过判断是否符合该模型判断是否符合规范来进行相关的学习;监督学习:监督学习主要应用于回归问题和分类问题中,输入变量会有类别 标签或与数值相关的标签,。回归问题是线性连续的,将输入变量与输出变量用 一个函数对应;分类问题是离散的,

4、将输入变量与离散的类别对应。无监督学习:在无监督学习中,输出变量是不确定的,输入数据没有相关标 签,对输入数据处理通过聚类的方式提取一个特殊的结构,无监督学习算法目标 以某种方式组织数据,然后找出数据中存在的内在结构并进行聚类或找到更简单 的复杂数据处理处理方式。强化学习:强化学习通过不断试错寻找问题的解决方案,强化学习不需要标 签,选择的行动越好,得到的反应越多,最终通过不断的试错与反应找到问题解 决的方案。3数据挖掘4数据挖掘的目标是从数据集中提取信息,并将其转化为可用的结构,数 据挖掘的实际工作是对大规模数据进行处理分析,来提取隐藏的预测性的信息, 例如数据的分组、数据异常的记录、不同数

5、据之间的关系。在数据挖掘时需要将 数据分成多组,之后再使用决策系统处理数据获得更为精确的数据挖掘结果。数 据收集过程、数据预处理过程、结果解释以及撰写报告过程属于“资料库知识发 现(KDD)过程,但是不属于数据挖掘的步骤,只是属于一些额外环节。现今 许多公司都拥有自己的数据挖掘系统,旧M公司开发了世界上第一套名为“智能 挖掘机”的应用工具。数据挖掘的体系结构当下的数据挖掘体系结构一般分为3层,5第1层是数据源,数据源其中 包括原始数据库、数据仓库。数据挖掘不仅仅可以建立再数据仓库之上,但是数 据仓库的数据经过处理更为方便使用,建立在其上可以非常有效的提高挖掘效 率。第2层是整个数据挖掘系统的管

6、理系统,该系统是整个数据挖掘的核心层, 此管理系统中囊括了诸多数据挖掘的方法分析数据仓库中的数据,其主要的方法 有关联分析、分类分析、聚类分析、序列模型分析。第3层是用户界面层,用户 界面层主要用户获取的信息以用户理解的方式和观察方式,现在大多使用可视化 工具数据挖掘的实际应用数据挖掘当下应用的领域非常广泛,只要所在领域数据有分析价值与需求, 都可以使用数据挖掘进行数据挖掘开掘分析处理。现在大数据环境下,数据挖掘 应用最集中的领域包括金融、医疗、零售和电商、电信和交通等,而且每个领域 都有特定的应用问题和应用背景。金融领域金融领域的金融数据具有可靠性、完整性和高质量等特点。这在很大程度上 有利

7、于开展数据挖掘以及数据挖掘应用。数据挖掘在金融领域中有许多具体的应 用,例如分析金融系统多维数据,以便专业金融从业人员把握金融市场的趋势; 运用孤立点分析等方法,侦查洗黑钱等犯罪活动;应用分类技术,对银行顾客信 用进行分类,为银行维持与客户的关系并且为客户提供相关服务的决策提供相应 的参考。医疗领域医疗领域对人类的遗传史、遗传密码、疾病史和医疗方法等许多医疗领域中, 都隐藏着不明显可见的海量的数据信息。另外,对医院内部结构、医药器具、病 人档案以及其他资料等的管理也产生了巨量的数据。对于这些巨量的数据,运用 数据挖掘相关技术处理,从而得到相关知识规律,将有利于相关人员工作的开展。 运用数据挖掘

8、技术,在很大程度上有助于医疗人员发现疾病的一些规律,从而提 高诊断的准确率和治疗的有效性,不断促进人类健康医疗事业的开展。零售和电商领域在零售和电子商务领域运用数据挖掘技术对零售商的海量销售数据进行处 理分析,可以帮助商家有效地识别顾客的购买行为,从而把握好相应顾客购买的 趋势。商家可以根据各自销售数据进行数据挖掘得到结果有针对性地采取有效措 施,从而提高企业效益。在如今,数据挖掘处理分析得到的推荐系统已经成为电 商电子商务的关键技术,经过数据挖掘,对网站进行系统分析,对用户的行为模 式进行识别,在增加客户黏着性,提供个性化的服务,优化互联网电商网站设计 等方面同样取得了很好的效果。4数据挖掘

9、和机器学习的合作数据挖掘就是从的数据库中分析处理得到不能显而易见得到的潜在数 据价值,数据挖掘结合了人工智能技术与数据库技术,其核心的技术是人工智能 领域的檄器学习。数据挖掘中最核心的技术是关系识别以及模式识别两种算法。 将数据挖掘得到的结果运用机器学习算法,将会得到符合需求的结果。在数据挖 掘中人工神经网络,仿照动物大脑结构的非线性预测模型,在进行学习模式识别, 它与数据挖掘大量应用在诸多领域。参考文献:Chaomei Chen.An Information-Theoretic View ofVisual AnalyticsJ.Computer Graphics, 2008, 28 (1) : 18.2陈良臣.大数据可视分析的假设干关键技术研究J.数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论