数据挖掘(第2版)PPT全套完整教学课件_第1页
数据挖掘(第2版)PPT全套完整教学课件_第2页
数据挖掘(第2版)PPT全套完整教学课件_第3页
数据挖掘(第2版)PPT全套完整教学课件_第4页
数据挖掘(第2版)PPT全套完整教学课件_第5页
已阅读5页,还剩545页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘第1章绪论.pptx第2章数据处理基础.pptx第3章分类与回归.ppt第4章聚类分析.ppt第5章关联规则.ppt第6章离群点挖掘.ppt全套PPT课件1第1章绪论

引例数据挖掘技术使用背景

数据挖掘任务及过程

数据挖掘应用数据挖掘与隐私保护2引例

超市货架的组织广告精准投放客户流失分析智能搜索入侵检测3超市货架的组织——“啤酒与尿布”

货架的组织会影响商品的销售!超市商品按什么原则摆放?尿布与啤酒被摆在一起。为什么?原来,美国的妇女通常在家照顾孩子,所以她们经常会嘱咐丈夫在下班回家的路上为孩子买尿布,而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒。这种现象就是卖场中商品之间的关联性,研究“啤酒与尿布”关联的方法就是购物篮分析,购物篮分析是沃尔玛秘而不宣的独门武器,购物篮分析可以帮助超市在销售过程中找到具有关联关系的商品,并以此获得销售收益的增长!关联销售!4网上购物——“定向营销”(广告投放)

随着Web2.0应用的推广,网络社区服务SNS(SocialNetworkService)已成为互联网关注的热点。通过挖掘网络中潜在的社区人群,企业可以更好地搜索潜在消费者和传播对象,将分散的目标顾客和受众精准地聚集在一起,精确地把广告投放给目标客户,这不但有效降低单人营销费用,而且可以减少对非目标客户的干扰,提高广告的满意度,最终实现网络广告投放策略的真正价值。5客户流失分析

在激烈竞争的市场,往往采取名目繁多的促销活动和层出不穷的广告宣传来吸引新客户、留住老客户;研究发现:发展一个新客户比保持一个老客户的费用要高出5倍以上。客户流失分析是以客户的历史消费行为数据、客户的基础信息、客户拥有的产品信息为基础,通过研究综合考虑流失的特点和与之相关的多种因素,以此建立可以在一定时间范围内预测客户流失倾向的预测模型,以便对流失进行预测、并对流失的后果进行评估

6信息检索——“智能搜索”

Web信息检索,即搜索引擎,是能有效解决通过网络来快速发现有用信息的重要工具。传统的搜索引擎(百度、Google、Bing、搜搜等),在用户输入关键词进行查询后,返回的是成千上万的相关结果,往往需要用户花费大量时间浏览与选择,不能满足用户快速获取信息的愿望。因此大量学者以及研究人员开始研究行业化、个性化、智能化的第三代搜索引擎。

7入侵检测随着互联网的发展,各种网络入侵和攻击工具、手段也随着出现,使得入侵检测成为网络管理的重要组成部分。入侵可以定义为任何威胁网络资源(如用户账号、文件系统、系统内核等)的完整性、机密性和可用性的行为。目前,大多数商业入侵检测系统主要使用误用检测策略,这种策略对已知类型的攻击通过规则可以较好地检测,但对新的未知攻击或已知攻击的变种则难以检测。新的网络攻击或已知攻击的变种可以通过异常检测方法来发现,异常检测通过构建正常网络行为模型(称为特征描述),来检测与特征描述严重偏离的新的模式。这种偏离可能代表真正的入侵,或者仅是需要加入特征描述的新行为。异常检测主要的优势是可以检测到以前未观测到的新入侵。与传统的入侵检测系统相比,基于数据挖掘的入侵检测系统通常更精确,需要更少的专家的手工处理。81.1数据挖掘技术使用背景9时代的挑战、市场的需求

随着通信、计算机、网络、传感器技术、数字化技术的快速发展,以及日常生活自动化技术的普遍使用,人们获取数据、存储数据变得越来越容易。我们正处在“大数据时代”,数以亿计的人们,无时无刻、不知不觉地在各种场合生产大量数据,如超市POS机、自动售货机、信用卡和借记卡、在线购物、自动订单处理、电子售票、RFID(RadioFrequencyIdentification射频识别)、客服中心、各种监控设备、社交媒体等。现象:“数据过剩”、“信息爆炸”与“知识贫乏”

苦恼:淹没在数据中,难以制定合适的决策!

如何将海量的数据以极快的速度加以归纳、计算与分析,找到暗藏于这些数据中的规律也就是挖掘人们工作、生活和社会发展中的规律,挖掘人与自然界的规律,这就是数据资源的开发利用,是非常有价值的工作。

10

数据挖掘——商业的驱动

在强大的商业需求驱动下,商家们开始注意到有效地解决大容量数据的利用问题具有巨大的商机;学者们开始思考如何从大容量数据集中获取有用信息和知识的方法。然而,面对高维、复杂、异构的海量数据,提取潜在的有用信息已经成为巨大的挑战。面对这一挑战,数据挖掘和知识发现(DMKD)技术应运而生,并显示出强大的生命力。11

数据挖掘——科学计算、人工智能的驱动

外太空探索、气象预报、基因数据分析、智慧城市、无人驾驶,......。12数据挖掘技术正在变成信息技术的核心之一;特别是大数据时代的来临冲击着传统行业,包括社交媒体、零售业、电子商务、交通、教育、金融、医疗、工业制造、旅游、生物医药等行业,同时大数据也正在彻底改变人们的生活、学习和工作方式。131.2数据挖掘任务及过程1.2.1数据挖掘定义1.2.2数据挖掘任务1.2.3数据挖掘过程1.2.4数据挖掘对象1.2.5数据挖掘工具及其选择14技术层面:数据挖掘就是从大量数据中,提取潜在有用的信息和知识的过程。商业层面:数据挖掘就是一种商业信息处理技术,其主要特点是对大量业务数据进行抽取、转换、分析和建模处理,从中提取辅助商业决策的关键性数据。1.2.1数据挖掘定义15本质区别:数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。其主要目标就是提高决策能力,能在过去的经验基础上预言未来趋势等。数据挖掘传统数据分析方法(如查询、报表、联机应用分析等)?16数据挖掘与相关学科之间的关系数据挖掘是统计学、人工智能、机器学习、模式识别、数据库等学科的交叉。MachineLearning/PatternRecognitionStatistics/

AIDataMiningDatabasesystems171.2.2数据挖掘任务预测任务根据其它属性的值预测特定属性的值,如分类、回归、离群点检测。描述任务寻找概括数据中潜在联系的模式,如聚类分析、关联分析、演化分析、序列模式挖掘。18

(1)分类(Classification)分析

分类分析,通过分析示例数据库中的数据为每个类别做出准确的描述或建立分析模型或挖掘出分类规则,然后用此分类规则对其它数据库中的记录进行分类。

分类分析广泛应用于用户行为分析(受众分析)、风险分析、生物科学等。垃圾邮件识别19

(2)聚类(Clustering)分析

“物以类聚,人以群分”。聚类分析技术试图找出数据集中的共性和差异,并将具有共性的对象聚合在相应的类中。聚类可以帮助决定哪些组合更有意义,广泛应用于客户细分、定向营销、信息检索等等。通信行业的套餐设计20聚类与分类的主要区别

聚类与分类是容易混淆的两个概念,聚类是一种无指导的观察式学习,没有预先定义的类。而分类问题是有指导的示例式学习,预先定义有类。分类是训练样本包含有分类属性值,而聚类则是在训练样本中找到这些分类属性值。聚类分类监督(指导)与否无指导学习(没有预先定义的类)有指导学习(有预先定义的类)是否建立模型或训练否,旨在发现空间实体的属性间的函数关系。是,具有预测功能21(b)(a)(c)(d)例:扑克牌的划分与垃圾邮件的识别之间的差异。扑克牌的划分属于聚类问题。在不同的扑克游戏中采用不同的划分方式,图1-2为十六张牌基于不同相似性度量(花色、点数或颜色)的划分结果。图1-2十六张牌基于不同相似性度量的划分结果垃圾邮件的识别属于分类问题,所有训练用邮件预先被定义好类标号信息,即训练集中的每封邮件预先被标记为垃圾邮件或合法邮件信息,需要利用已有的训练邮件建立预测模型,然后利用预测模型来对未来未知邮件进行预测。22例:识别不同类型的植物VS给植物命名识别不同类型的植物属于聚类问题。给植物命名属于分类问题。23 (3)回归(Regression)分析

回归分析是确定两种或两种以上变数间相互依赖的定量关系的一种分析方法。其可应用于风险分析、作文自动评分等领域。分类与回归的区别分类和回归都有预测的功能,但是:分类预测的输出为离散或标称的属性;回归预测的输出为连续属性值;分类与回归的例子:预测未来某银行客户会流失或不流失,这是分类任务;预测某商场未来一年的总营业额,这是回归任务。24(4)关联(Association)分析

关联分析,发现特征之间的相互依赖关系,通常是从给定的数据集中发现频繁出现的模式知识(又称为关联规则)。关联分析广泛用于市场营销、事务分析等领域。(5)离群点(Outlier)检测

离群点检测就是发现与众不同的数据。可应用于商业欺诈行为的自动检测,网络入侵检测,金融欺诈检测,反洗钱,犯罪嫌疑人调查,海关、税务稽查等。25(6)演化(Evolving)分析

演化分析就是对随时间变化的数据对象的变化规律和趋势进行建模描述。如商品销售的周期(季节)性分析。(7)序列模式(SequentialPattern)挖掘

序列模式挖掘是指分析数据间的前后序列关系,包括相似模式发现、周期模式发现等。其应用领域包括客户购买行为模式预测、Web访问模式预测、疾病诊断、网络入侵检测等。26(8)描述和可视化(DescriptionandVisualization)描述和可视化是对数据挖掘结果的表示方式。一般通过可视化工具进行数据的展现、分析、钻取,将数据挖掘的分析结果更形象,深刻地展现出来。271.2.3数据挖掘过程数据挖掘和知识发现紧密相连,在认识数据挖掘过程前,先来了解知识发现这个概念。知识发现(KnowledgeDiscoveryinDatabase,KDD)是从数据中发现有用知识的整个过程,这个过程定义为:从数据中鉴别出有效模式的非平凡过程,该模式是新的、可能有用的和最终可理解的。

28知识发现(KnowledgeDiscoveryinDatabase,KDD)从技术的角度看知识发现过程29知识发现的主要步骤:

数据清洗(datacleaning)。其作用是清除数据噪声和与挖掘主题明显无关的数据。数据集成(dataintegration)。其作用是将来自多数据源中的相关数据组合到一起。数据转换(datatransformation)。其作用是将数据转换为易于进行数据挖掘的数据存储形式。数据挖掘(datamining)。其作用是利用智能方法挖掘数据模式或规律知识。模式评估(patternevaluation)。其作用是根据一定评估标准从挖掘结果筛选出有意义的相关知识。知识表示(knowledgepresentation)。其作用是利用可视化和知识表达技术,向用户展示所挖掘的相关知识。301.2.4数据挖掘对象(1)车载信息服务数据(2)文本数据(3)时间数据和位置数据(4)RFID数据(5)智能电网数据(6)传感器数据(7)遥测数据(8)社交网络数据(9)时态数据和时间序列数据(10)流数据(11)多媒体数据311.2.5数据挖掘工具及其选择挖掘软件比较著名的商用数据挖掘软件有IBMSPSSModeler、MicrosoftSQLServerAnalysisServices、OracleDM等,它们都能够提供常规的挖掘过程和挖掘模式。Matlab,Excel(DatamininginExcel:XLMiner)等提供了数据挖掘模块。开源数据挖掘工具有Weka,RapidMiner(YALE),OrangeJHepWork,KNIME,ARMiner等。Python!R!321.3数据挖掘应用数据挖掘的应用无处不在,有大量数据的地方就有数据挖掘的用武之地。数据挖掘技术应用很广,应用较好的领域、行业有:金融保险业电信市场营销分析医学体育生物信息学智能交通等这里主要介绍在商业领域和计算机领域的应用。331.3数据挖掘应用1.3.1数据挖掘在计算机领域中的应用1.3.2数据挖掘在商业领域中的应用1.3.3数据挖掘在其它领域中的应用1.3.4数据挖掘技术的前景341.3.1数据挖掘在计算机领域中的应用(1)信息安全:入侵检测,垃圾邮件的过滤

传统的信息安全系统概括性差,只能发现模式规定的、已知的入侵行为,难以发现新的入侵行为。数据挖掘能够对审计数据进行自动的、更高抽象层次的分析,从中提取出具有代表性、概括性的系统特征模式,以便减轻人们的工作量,且能自动发现新的入侵行为。同样地,利用数据挖掘技术也可分析比较垃圾邮件与正常邮件的异同,建立垃圾邮件过滤模型,过滤无聊电邮和商业推销等方面的垃圾邮件。35(2)互联网信息挖掘

利用数据挖掘技术从与WWW相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息,涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域,是一项综合技术。

互联网信息挖掘可分为Web内容挖掘、Web使用挖掘、Web结构挖掘。36Web结构挖掘:挖掘Web上的链接结构,即对Web文档的结构进行挖掘。通过Web页面间的链接信息可以识别出权威页面、安全隐患(非法链接)等。Web使用挖掘:通过对用户访问行为或Web日志的分析,获得用户的有用模式,建立用户兴趣模型。分析和发现Log日志中蕴藏的规律可以识别潜在客户、跟踪Web服务的质量以及侦探非法访问的隐患等。Web内容挖掘:对Web页面内容及后台交易数据库进行挖掘,Web内容挖掘与文本挖掘(TextMining)和Web搜索引擎(SearchEngine)等领域密切相关。37(3)自动问答系统

自动问答系统Q/A(automaticQuestionAnswering)采用自然语言处理技术,一方面完成对用户疑问的理解;另一方面完成正确答案的生成。这些研究涉及到计算语言学、信息科学和人工智能学,是计算机应用研究的热点之一,其核心是自然语言理解技术。

如:Lexxe

wolfrram

Baidu知道,维基百科(Wikipedia)等利用群体智慧来部分实现自动问答的功能。注:在2011年2月14日至16日举行的有史以来首次广义性人机智力大赛中,IBM超级电脑“沃森”(Watson)击败美国颇受欢迎的智力竞赛节目Jeopardy中的两位最成功的参赛者肯-詹宁斯(KenJennings)和布拉德-鲁特(BradRutter)。智能客服

38(4)网络游戏:网络游戏外挂检测、免费用户到付费用户的转化在网络游戏中,游戏外挂是对游戏运营商最严重的危害之一。所谓网络游戏的外挂是指玩家利用游戏本身玩法的漏洞或通过作弊程序改变网络游戏软件。网络游戏正式运营前会存在大量的注册用户,这些注册用户会在网络游戏运行后存在很长一段时间。如何把这些注册用户转化成付费客户,真正为游戏运营商带来收益呢?数据挖掘技术的应用使网络游戏运营商能够对注册用户采取差别化营销,对正确的注册用户采用合适的营销手段,从而提高市场营销活动效果,使企业利润得到最大化。391.3.2数据挖掘在商业领域中的应用数据挖掘技术可以应用到公司运营的方方面面,包括对公司部门经营情况的评估、内部员工的管理、生产流程的监管、产品结构优化与新产品开发、财务成本优化、市场结构分析、精准营销和客户关系的管理等。数据挖掘商业应用的目标是:公司通过大量的客户行为数据的精准分析,更加高效地为用户服务,来改善其市场、销售和客户支持运作。在商业领域中,典型的应用是商业智能。所谓商业智能(BusinessIntelligence,BI),是指能够帮助企业确定客户的特点,从而使企业能够为客户提供有针对性的服务,并对自身业务经营做出正确明智决定的工具。商业智能是目前企业界和软件开发行业广泛关注的一个研究方向。IBM建立了专门从事BI方案设计的研究中心,ORACLE、Microsoft等公司纷纷推出了支持BI开发和应用的软件系统。商业智能技术的核心是数据挖掘,所能解决的典型商业问题包括:数据库营销(DatabaseMarketing)、客户细分(CustomerSegmentation&Classification)、客户背景分析(ProfileAnalysis)、交叉销售(Cross-selling)、客户流失分析(ChurnAnalysis)、客户信用记分(CreditScoring)、欺诈检测(FraudDetection)等。401.3.3其它领域中的应用在竞技体育中的应用数据挖掘在生活中的应用生物信息或基因数据挖掘医疗保健行业的数据挖掘情报分析挖掘天文学工业过程控制、智能电网农业在社会治理中的应用……41数据挖掘技术的价值和前景。在对产业界具有深远影响的大型IT公司里,数据挖掘技术发挥着重要作用,如Microsoft、Google、Yahoo、Baidu、Tencent等国内外著名IT公司包括IBM在内的世界上主要数据库厂商,纷纷在数据挖掘领域加大投入,把数据挖掘功能集成到其产品中,以提高产品的竞争力。2009年10月2日,IBM成功收购了SPSSInc。1.3.4数据挖掘技术的前景42数据挖掘技术具有巨大价值和光明前景。有关学者撰文指出:门户解决了Web0.5时代的信息匮乏;Google解决了Web1.0时代的信息泛滥;Fackbook解决了Web2.0时代的社交需求;未来是谁的十年?展望Web3.0时代,当高效的社交网络趋于信息量爆炸,我们庞大的社交关系也需要一个“Google”来处理,那就是下一个十年,数据挖掘的十年,网络智能的十年。2012年10月,《哈佛商业评论》公开报道“数据科学家是21世纪最性感的职业”。截止2021年6月,全国有674所高校开设有“数据科学与大数据技术”类似专业。海量数据的积累,数据在商业方面的价值成为企业未来发展的核心资源和重要支撑,如何去挖掘数据这座巨大而未知的矿藏,将是影响企业核心竞争力的关键因素。1.3.4数据挖掘技术的前景43机器学习与数据挖掘就业前景分析44数据挖掘不能干什么虽然数据挖掘具有广泛应用,但它绝不是无所不能,首先数据挖掘仅仅是一个工具,而不是有魔力的权杖;其次数据挖掘得到的预言模型可以告诉你会如何(whatwillhappen),但不能说明为什么会(why);再者数据挖掘不能在缺乏指导的情况下自动地发现模型。451.4数据挖掘与隐私保护(1)数据挖掘技术的应用能够为人们的生活提供便利、为政府的社会管理提供有效的支持、通过帮助公司更好地迎合顾客的需求来提高顾客的满意度为企业增加收益,然而数据挖掘可能被滥用而涉及隐私问题。特别是在大数据的环境下,数据安全和隐私保护就成为重要的问题。隐私保护的主体是用户个人的隐私信息。如果用户的隐私信息无法得到有效保护,则可能给客户的生活或者工作造成重大的影响。保障数据在采集、传输、利用和共享等各个环节安全的重要性不言而喻,个人隐私保护的安全合规性不容忽视。保护隐私的数据挖掘是数据挖掘的重要研究领域,对数据挖掘中的隐私保护做出反应,其目的是获得有效的数据挖掘结果而不泄露底层的敏感数据。大部分保护隐私的数据挖掘都是用某种数据变换来保护隐私。461.4数据挖掘与隐私保护(2)2019年7月份,广东省公安机关共监测发现490余款App存在超范围收集用户信息行为,存在超范围读取用户通话记录、短信内容,收集用户通讯录、位置信息,超权限使用用户设备麦克风、摄像头等突出安全问题。据安全情报供应商RiskBasedSecurity(RBS)的2019年Q3季度的报告,2019年1月1日至2019年9月30日,全球披露的数据泄露事件有5183起,泄露的数据量达到了79.95亿条记录!包括:智能家居公司欧瑞博数据库泄露涉及超过20亿条IoT日志,深网视界泄露250万人的人脸数据,PACS服务器泄露中国近28万条患者记录,印度某公司泄露了约2.75亿条详细个人信息,美国金融公司Evite泄露1亿客户的信息,优衣库泄露超过46万名客户的数据。471.4数据挖掘与隐私保护(3)在大数据环境下,可能会为个人隐私信息带来以下问题:个人隐私信息泄露风险增加。无法做到真正的个人隐私保护。无法实现用户匿名化。数据被攻击的可能性增加。当前,互联网行业对个人隐私的侵犯及对个人隐私数据的使用较为普遍。在利用大数据提高社会整体运行效率的同时,要防止数据滥用或非法使用。《民法典》与《个人信息保护法》等法律的实施将更好地保护个人隐私,在数据采集、处理过程中,我们也应遵守法律法规,合规使用数据。48小结

在信息爆炸的时代,我们将随时随地成为信息的接受者,散布在报纸、杂志、电视、广播、网络中的信息,良莠并存、真伪同在,有价值的信息淹没在大量数据之中,我们该如何“借来一双慧眼”,透过现象看本质,看个清楚明白呢?本章从实际应用场景引入了数据挖掘主题,对数据挖掘的理论及应用的概貌进行了介绍,从数据挖掘产生的背景、数据挖掘的任务和过程、数据挖掘的对象、数据挖掘的应用领域、数据挖掘技术的前景和隐私保护等方面展开了讨论。49数据陷阱之“平均值”对于服从正态分布、均匀分布的变量来说,平均值和中位数几乎相同。换句话说,在高斯法则生效的领域,平均值可以代表整体。但对于服从幂律分布的变量来说,平均值会偏向取值大的一端,明显大于中位数。对于服从幂律分布的变量,若使用平均值来代表总体水平,会严重误导读者。当一个人希望影响公众观念时,或者是向其他人推销广告版面时,平均值便是一个经常被使用的诡计,有时出于无心,但更多的时候是明知故犯。数据是真实的,然而不妥的是遇到平均值时,并没有先思考它是什么的平均,它包含了哪些对象,仅依据这些数据和事实就推断出一个未经证实或错误的结论,进而影响了自身的判断。50阅读资料10CHALLENGINGPROBLEMSINDATAMININGRESEARCH.pdfTop10algorithmsindatamining.pdfTop10DataMiningMistakes.pdf51作业1.2,1.4,1.6,1.752第2章

数据处理基础本章主要介绍对数据的探索分析、数据挖掘质量保障方法,包括数据特性分析与总体分布形态的了解、缺失数据的处理、数据变换、数据归约、数据离散化及特征构造与特征选择等,预先进行数据探索和适当的数据预处理是数据挖掘任务成功的必要条件。53第2章

数据处理基础2.1数据2.2数据探索2.3数据预处理2.4相似性度量542.1数据

2.1.1数据及数据类型相关概念数据狭义:数字。广义:数据对象及其属性的集合,其表现形式可以是数字、符号、文字、图像抑或是计算机代码等等。属性(也称为特征、维或字段),是指一个对象的某方面性质或特性。一个对象通过若干属性来刻画。数据集数据对象的集合(同分布、同特征)55属性包含电信客户信息的样本数据集案例客户编号客户类别行业大类通话级别通话总费用…N22011002518大客户采矿业和一般制造业市话16352…业客户批发和零售业市话+国内长途(含国内IP)27891…N22004895555商业客户批发和零售业市话+国际长途(含国际IP)63124…3221026196大客户科学教育和文化卫生市话+国际长途(含国际IP)53057…客户房地产和建筑业市话+国际长途(含国际IP)80827…︰︰︰︰︰…对象56属性类型描述例子操作分类的(定性的)标称其属性值只提供足够的信息以区分对象。这种属性值没有实际意义。颜色、性别、产品编号众数、熵、列联相关。序数其属性值提供足够的信息以区分对象的序。成绩等级(优、良、中、及格、不及格)、年级(一年级、二年级、三年级、四年级)中值、百分位、秩相关、符号检验。数值的(定量的)区间其属性值之间的差是有意义的。日历日期、摄氏温度均值、标准差、皮尔逊相关比率其属性值之间的差和比率都是有意义的。长度、时间和速度几何平均、调和平均、百分比变差不同的属性类型57数据集的特性维度(Dimensionality)指数据集中的对象具有的属性个数总和。维归约稀疏性(Sparsity)指在某些数据集中,有意义的数据非常少,对象在大部分属性上的取值为0;非零项不到1%。文本数据集分辨率(Resolution)不同分辨率下数据的性质不同58数据集的类型数据集的类别记录数据事务数据或购物篮数据数据矩阵基于图形的数据带有对象之间联系的数据:万维网具有图形对象的数据:化合物结构有序数据时序数据或时态数据序列数据时间序列数据空间数据流数据59记录数据事务数据(TransactionData)是一种特殊类型的记录数据,其中每个记录涉及一个项的集合。事务ID商品的ID列表T100Bread,Milk,BeerT200Soda,cup,Diaper……事务数据事例典型的事务数据如超市零售数据,顾客一次购物所购买的商品的集合就构成一个事务,而购买的商品就是项。这种类型的数据也称作购物篮数据(MarketBasketData),因为记录中的每一项都是一位顾客“购物篮”中购买的商品。60数据矩阵如果一个数据集簇中的所有数据对象都具有相同的数值属性集,则数据对象可以看作多维空间中的点,其中每个维代表描述对象的一个不同属性。数据集可以用一个m×n的矩阵表示,其中m行,一个对象一行;n列,一个属性一列。61文本数据文档用词向量表示每个词是向量的一个分量(属性)每个分量的值是对应词在文档中出现的次数62图形数据网页链接化合物结构63有序数据时序数据或时态数据项/事件时序元素64有序数据基因组序列数据65有序数据空间温度数据662.2数据探索对数据进行探查,以发现其主要特点,对其形成直观认识,理解数据的结构和各变量的意义,包括数据质量检查、描述性数据统计、探索各变量间的关系,在探索过程中可以应用可视化技术从中看出某些规律。672.2.1描述性统计分析数据统计又称为汇总统计,用单个数或数的小集合来捕获大的数据集的各种属性特征。通常需要数据的中心趋势和离散程度特征。中心趋势度量包括均值(mean)、中位数(median)、众数(mode)和中列数(midrange),而数据离散程度度量包括四分位数(quartiles)、四分位数极差(InterQuartilesRange,IQR)和方差(variance)等。68(1)数据的中心度量-1

数据集“中心”的最常用、最有效的数值度量是(算术)均值(mean)。设

x1,x2,…,

xN是N个值的集合,则该值集的均值定义为:69(1)数据的中心度量-2集合中每个值

与一个权值

相关联。权值反映对应值的显著性、重要性或出现频率。在这种情况下,使用加权算术均值(weightedarithmeticmean):70(1)数据的中心度量-3截断均值:指定0和100间的百分位数p,丢弃高端和低端(p/2)%的数据,然后用常规方法计算均值,所得的结果即是截断均值。中位数是p=100%时的截断均值,而标准均值是对应于p=0%的截断均值。例:计算{1,2,3,4,5,90}值集的均值,中位数,中列数和p=40%的截断均值.解:均值是17.5,中位数是3.5,中列数是45.5,p=40%时的截断均值也是3.571(1)数据的中心度量-4中列数、中位数分别定义为:

如果有奇数个值,则中位数为中间值;如果有偶数个值,则中位数为中间两个数的平均值。72(2)数据散布程度度量-1极差和方差是值集的散布度量,表明属性值是否散布很宽,或者是否相对集中在单个点(如均值)附近。最简单的散布度量是极差,即最大值和最小值之差假设属性x具有m个值,其极差定义为:

range(x)=max(x)-min(x)=x(m)-x(1)方差(variance)定义如下:73(2)数据散布程度度量-2因为方差用到了均值,而均值容易被离群值扭曲,所以方差对离群值很敏感。更加稳健的值集散布估计方法:绝对平均偏差(absoluteaveragedeviation,AAD)中位数绝对偏差(medianabsolutedeviation,MAD)四分位数极差(interquartilerange,IQR)

74

(3)数据分布形态度量

数据分布形态度量指标包括偏度、峰度。偏度(skewness),是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。定义上偏度是样本的三阶标准化矩。

图2-2(1)正偏斜分布(2)负偏斜分布75

(3)数据分布形态度量

峰度(peakedness;kurtosis)又称峰态系数。峰度表示分布的尾部与正态分布的区别,反应的是图像的尖锐程度:峰度越大,表现在图像上面是中心点越尖锐。在相同方差的情况下,中间一大部分的值方差都很小,为了达到和正太分布方差相同的目的,必须有一些值离中心点越远,所以这就是所说的“厚尾”,反应的是异常点增多这一现象。峰度计算方法为:

图2-3(1)峰度值为0(2)正峰度(3)负峰度762.2.2数据可视化

数据可视化分析是数据发现和探索过程中最重要的手段之一。数据可视化的主要方法是关于如何把数据从视觉上概括在一张图内。从视觉角度把数据呈现出来,有助于轻松理解复杂数据的各个变量以及变量之间的相互关系。借助可视化手段,可以对数据有一个宏观认识,同时能看清数据长远的发展趋势,可视化有助于探索变量之间的关系。数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息。数据可视化与信息图形、信息可视化、科学可视化以及统计图形密切相关。当前,在研究、教学和开发领域,数据可视化乃是一个极为活跃而又关键的方面。“数据可视化”这条术语实现了成熟的科学可视化领域与较年轻的信息可视化领域的统一。

常见的数据可视化方式有:饼图、散点图、折线图、柱形图、雷达图、地理图、箱线图。77772.2.3

辛普森悖论(1)辛普森悖论(Simpson'sParadox)由英国统计学家辛普森(E.H.Simpson)于1951年提出。当人们尝试探究两种变量是否具有相关性时,比如新生录取率与性别,报酬与性别等,会对之进行分组研究。辛普森悖论就是在这种研究中,在某些前提下有时会产生的一种诡异现象,即在分组比较中都占优势的一方,在总评中反而处于劣势。782.2.3

辛普森悖论(2)案例1:关于两种肾结石治疗效果的数据比较单独看治疗效果方面的数据,A疗法对治疗两种大小的肾结石的效果都更好,但是将数据合并后发现,B疗法针对所有情况的疗效更优。这个悖论可以用涉及相关专业知识的数据生成过程,或者说因果模型来解决。TreatmentStonesizeTreatmentATreatmentBSmallstonesGroup193%(81/87)Group287%(234/270)LargestonesGroup373%(192/263)Group469%(55/80)Both78%(273/350)83%(289/350)792.2.3

辛普森悖论(3)案例2:数据能证明一个观点,又能证明其相反的观点。这个例证展示了,辛普森悖论是如何证明两个相反的政治观点的。辛普森悖论也是政客们的常用伎俩。表2-4表明,美国在福特总统的1974~1978年的任期中,他对每个收入人群都进行了减税,但此期间全国性的税收额有明显上涨。

19741978AdjustedGrossIncomeIncomeTaxTaxRateIncomeTaxTaxRateUnder$5,00041,651,6432,244,467.05419,879,622689,318.035$5,000to$9,999146,400,74013,646,348.093122,853,3158,819,461.072$10,000to$14,999192,688,92221,449,597.111171,858,02417,155,758.100$15,000to$99,999470,010,79075,038,230.160865,037,814137,860,951.159$100,000ormore29,427,15211,311,672.38462,806,15924,051,698.383Total880,179,427123,690,314

1,242,434,934188,577,186

OverallTaxRate

.141

.152802.2.3

辛普森悖论(4)案例3:高校录取数据的理解一所美国高校的法学院和商学院,人们怀疑这两个学院在招生时有性别歧视。下表给出了不同性别考生录取情况统计数据。从表中来看,女生在两个学院的录取比率都较男生高。而将两学院的数据汇总后,在总评中,女生的录取比率反而比男生低,这就是辛普森悖论。我们应该采信哪个结论呢?学院性别录取拒收总数录取比例法学院男生8455315.10%女生5110115233.60%总数5914620528.78%商学院男生2015025180.10%女生92910191.10%总数2935935283.24%汇总男生2099530468.80%女50%总数35220555763.20%812.2.3

辛普森悖论(5)辛普森悖论的重要性在于它揭示了我们看到的数据并非全貌。我们不能满足于展示的数字或图表,我们需要考虑整个数据生成过程,考虑因果模型。

简单地将分组数据相加汇总,是不能反映真实情况的。为了避免辛普森悖论的出现,就需要斟酌各分组的权重,并乘以一定的系数以消除因分组数据基数差异而造成的影响。当有多个差异大的类别的数据混合在一起时,对数据挖掘的结论可能需要多角度评估,需要从分组数据中深度分析。822.3数据预处理数据挖掘方法的效果受到源数据质量的直接影响。高质量的数据是进行有效挖掘的前提,高质量的决定必须建立在高质量的数据上。数据预处理的目的是提供干净、简洁、准确的数据,以达到简化模型和提高算法泛化能力的目的,使挖掘过程更有效、更容易,提高挖掘效率和准确性。数据质量的检测和纠正是数据挖掘前期非常重要的环节。83数据预处理的主要任务数据清理填写空缺数据,平滑噪声数据,识别、删除孤立点,解决不一致性数据集成集成多个数据库,数据立方体或文件数据变换规范化和特征构造数据归约得到数据集的压缩表示及特征选择数据离散化通过概念分层和数据离散化来规约数据,对数值数据特别重要84数据预处理数据清理数据集成数据变换数据归约脏数据“干净”数据-2,32,100,59,48-0.02,0.32,1.00,0.59,0.48T1T2…T2000A1A2A3…A126T1T3…T1456A1A3…A11585数据清理——为什么要清理数据?现实世界的数据是“脏的”不完整的:有感兴趣的属性缺少属性值含噪声的:包含错误的或是“孤立点”不一致的:在命名或是编码上存在差异意义:数据清理的目的就是试图填充缺失值、去除噪声并识别离群点、纠正数据中的不一致值。86数据清理——缺失值数据并不总是完整的引起空缺值的原因设备异常与其它已有数据不一致而被删除因为误解而没有被输入的数据在输入数据时,有些数据认为得不到重视而没有被输入对数据的改变没有进行日志记载87数据清理——缺失值的处理方法忽略元组:当缺少类标号时通常这样处理(在分类任务中)。除非同一记录中有多个属性缺失值,否则该方法不是很有效。忽略属性列:如果该属性的缺失值太多,如超过80%,则在整个数据集中忽略该属性。人工填写缺失值:通常情况下,该方法费时费力,并且当数据集很大或缺少很多值时,该方法可能行不通。自动填充缺失值:有三种不同的策略。策略一:使用一个全局常量填充缺失值,将缺失的属性值用同一个常数替换。策略二:使用与给定记录属同一类的所有样本的均值或众数填充缺省值。策略三:用可能值来代替缺失值:可以用回归、基于推理的工具或决策树归纳确定。将模型集拆分成几个部分。88数据清理——噪声数据的平滑方法噪声是测量变量的随机错误或偏差。噪声是测量误差的随机部分,包含错误或孤立点值。导致噪声产生的原因有:数据收集的设备故障数据录入过程中人的疏忽数据传输过程中的错误目前噪声数据的平滑方法包括:分箱:分箱方法通过考察“邻居”(即周围的值)来平滑有序数据的值。聚类:聚类将类似的值组织成群或“簇”。回归:让数据适合一个函数来平滑数据。89数据平滑实例一组排序后的数据(单位:元):4,8,15,21,21,24,25,28,34划分为等深的箱箱1:4,8,15箱2:21,21,24箱3:25,28,34用箱平均值进行平滑箱1:9,9,9(下同)用箱的边界进行平滑箱1:4,4,15箱2:21,21,24箱3:25,25,3490特殊字段的处理有两种极端的字段需要特殊处理:取值几乎相同和几乎都不同的字段。只有一个取值或几乎只有一个取值的字段,包含的信息非常少量,对于数据挖掘目的而言,应该忽略这些字段。但在忽略这些字段之前,应该了解为什么会出现如此倾斜的分布、该例反映了关于商业的什么事情。每一行或几乎每一行取不同值的分类属性字段,这些字段可唯一(或非常接近)识别每一行(每位客户),例如:客户名字、地址、电话号码、身份证号码、学号、车牌号。这些字段不会在数据挖掘中被直接使用,但可能包含丰富的信息,如学号包含了入学年份和专业信息,这时需要从这些字段中提取重要特征作为衍生变量,数据挖掘者需借助领域知识发现这类信息并进行提取。91数据集成将两个或多个数据源中的数据,存放在一个一致的数据存储设备中。在数据集成时,有许多问题需要考虑,数据一致性和冗余是两个重要问题。不同表中可能使用不同名称来指示同一属性,正如一个人有多个不同的别名或不同的人拥有相同的名字,这样将导致数据的不一致或冲突。一个属性是冗余的,如果它能由另一个表“导出”;属性或维命名的不一致也可能导致数据集中的冗余。思考题:利用网上信息如何自动生成个人简历?92数据变换平滑:去除数据中的噪声数据聚集:汇总,数据立方体的构建数据泛化:沿概念分层高上汇总规范化:将数据按比例缩放,使之落入一个小的特定区间(消除量纲的影响)最小-最大规范化Z-score规范化小数定标规范化属性构造通过现有属性构造新的属性,并添加到数据集中数据离散化93数据变换——规范化最小-最大规范化Z-score规范化小数定标规范化94数据变换——特征构造特征提取(FeatureExtraction)由原始数据创建新的特征集映射数据到新的空间从不同视角提示重要和有趣的特征傅里叶变换(FourierTransform)小波变换(WaveletTransform)特征构造由一个或多个原始特征共同构造新的特征95数据变换——离散化与概念分层离散化通过将属性域划分为区间,减少给定连续属性值的个数。区间标号可以代替实际的数据值。概念分层通过使用高层的概念(比如:老年,中年,青年)来替代底层的属性值(比如:实际的年龄数据值)来规约数据概念分层可以用树来表示,树的每一个节点代表一个概念(比如:按地区划分世界)96数据归约从记录和维度两个方面减少数据量维归约维度(数据特征的数目)归约是指通过使用数据编码或变换,得到原始数据的归约或“压缩”表示。如果原始数据可以由压缩数据重新构造而不丢失任何信息,则该数据归约是无损的。如果只能重新构造原始数据的近似表示,则该数据归约是有损的。维规约的好处如果维度较低,许多数据挖掘算法效果会更好。维归约使模型涉及更少的特征,因而可以产生更容易理解的模型。使用维归约可以降低数据挖掘算法的时间和空间复杂度。97数据归约——数据立方体聚集对数据进行汇总或聚集。例如,可以聚集电信客户的日消费数据,计算月和年消费数据。通常,这一步用来为多粒度数据分析构建数据立方体。98数据归约——抽样抽样是一种选择数据对象子集进行分析的常用方法事先调查和最终的数据分析统计学使用抽样是因为得到感兴趣的整个数据集的费用太高、太费时间

数据挖掘使用抽样是因处理所有的数据的费用太高、太费时间

99有效抽样原理如果样本是有代表性的,则使用样本与使用整个数据集的效果几乎一样如果数据对象的均值是感兴趣的性质,而样本具有近似于原数据集的均值,则样本是有代表性的

100数据归约——抽样用数据较小的随机样本表示大的数据集简单随机抽样无放回抽样随着每个项被抽出,它被从构成总体的所有对象集中删除有放回的抽样对象被选中时不从总体中删除分层抽样特点总体由不同类别的对象组成每种类型的对象数量差别很大先对数据集进行分组:数据集D被划分为互不相交的“层”,则可通过对每一层按一定比例简单随机选样得到D的分层选样利用聚类实现分层抽样:将数据集D划分成m个不相交的簇,再在聚类结果的簇上进行简单随机抽样101案例8000个点 2000个点 500个点102聚类抽样同分层抽样的原理一样103数据归约——特征选择特征选择概念:从一组已知特征集合中选择最具代表性的特征子集,使其保留原有数据的大部分信息,即所选特征子集可以像原来的特征全集一样用来正确区分数据集的每个数据对象。通过特征选择,一些和任务无关或是冗余的特征被删除,从而提高数据处理的效率。目的:去除不相关和冗余的特征,降低时间空间复杂度,提高数据质量及数据泛化能力。理想的特征子集:每个有价值的非目标特征与目标特征强相关,而非目标特征之间不相关或是弱相关基本步骤:去掉与目标特征不相关的特征删除冗余特征104特征选择过程流程选择的属性停止标准评估验证过程搜索策略特征子集属性不满足105特征选择通过删除不相干的属性或维减少数据量属性子集选择找出最小属性集,使得数据类的概率分布尽可能的接近使用所有属性的原分布减少出现在发现模式上的属性的数目,使得模式更易于理解启发式(探索式)搜索方法逐步向前选择逐步向后删除向前选择和向后删除相结合判定归纳树106探索性选择方法d个属性有2d个可能的子集逐步向前选择由空属性集开始,选择原属性集中最好的属性,并将其添加入该集合,重复该步骤直到无法选择出最优属性或满足一定阈值约束为止。逐步向后删除由整个属性集开始,每一步都删除掉尚在属性集中的最坏属性。直到无法选择出最差属性为止或满足一定阈值约束为止。向前选择和向后删除相结合每一步选择一个最好属性,并删除一个最坏属性可以使用一个临界值来判定上述三种方法的结束条件判定归纳树利用决策树的归纳方法对初始数据进行分类归纳学习,获得一个初始决策树,所有没有出现这个决策树上的属性均认为是无关属性,因此将这些属性从初始属性集合删除掉,就可以获得一个较优的属性子集。107属性子集选择的贪心方法向前选择向后删除决策树归纳初始属性集:(A1,A2,A3,A4,A5,A6)初始归约集:{}=>{A1}=>{A1,A4}=>归约后的属性子集:{A1,A4,A6}初始属性集:(A1,A2,A3,A4,A5,A6)=>{A1,A3,A4,A5,A6}=>{A1,A4,A5,A6}=>归约后的属性子集:{A1,A4,A6}初始属性集:(A1,A2,A3,A4,A5,A6)与决策树建模相似108数据归约——数据压缩数据压缩——用数据编码或者变换,得到原始数据的压缩表示。有损压缩VS.无损压缩无损(loseless)压缩:可以不丢失任何信息地还原压缩数据例如:字符串压缩有广泛的理论基础和精妙的算法在解压缩前对字符串的操作非常有限有损(lossy)压缩:只能重新构造原数据的近似表示例如:音频/视频压缩有时可以在不解压整体数据的情况下,重构某个片断两种有损数据压缩的方法:小波变换和主成分分析109主成分分析(PCA)找出新的属性(主成分),这些属性是原属性的线性组合属性之间相互正交的用于连续属性的线性代数技术捕获数据的最大变差

x2x1e1102.4相似性度量2.4.1属性之间的相似性度量2.4.2对象之间的相似性度量111简单数据对象之间的相似度和相异度属性类别相异度相似度标称的序数的S=1-d区间的或比率的相似度两个对象相似程度的数值度量,两对象越相似,它们的相似度就越高。相异度与相似度相反。

112连续属性之间的相关度线性相关系数对于两个连续特征(x,y),其相关度的计算公式:r的取值范围在[-1,1],r的值越接近1或-1,表示两特征的相关性越强,越接近于0,相关性越弱。不足:对于非线性的数据的相关性计算会存在偏差。113余弦相似度如果(文档)d1

和d2

是两(文档)向量,则cos(d1,d2)=(d1

d2)/||d1||||d2||,

其中,表示向量点积,

||d||是向量d的长度.

例:

d1

=3205000200 d2=1000000102

d1

d2=3*1+2*0+0*0+5*0+0*0+0*0+0*0+2*1+0*0+0*2=5||d1||=(3*3+2*2+0*0+5*5+0*0+0*0+0*0+2*2+0*0+0*0)0.5=(42)0.5=6.481||d2||=(1*1+0*0+0*0+0*0+0*0+0*0+0*0+1*1+0*0+2*2)

0.5

=(6)0.5=2.245

cos(d1,d2)=0.3150114离散属性间的相关性计算对称的不确定性离散型数据间相关性计算(互信息)特征x的信息熵已知变量y后x的条件信息熵信息增益互信息115数据对象之间的相异度——距离距离的性质非负性对称性(有些距离定义不满足这一条!)三角不等式(有些距离定义不满足这一条!)相似度的性质:仅当x=y时,s(x,y)=1.0<=s<=1对称性116闵可夫斯基(Minkowski)距离闵可夫斯基(Minkowski)距离x=1,城市块(曼哈顿)距离x=2,欧几里得距离x=∞,切比雪夫(Chebyshev)距离117Canberra/BrayCurtis距离

Canberra距离BrayCurtis距离118马氏距离由印度统计学家Mahalanobis于1936年引入的考虑了属性之间的相关性可以更准确地衡量多维数据之间的距离计算公式如下(为m×m的协方差矩阵)不足协方差矩阵难以确定计算量大不适合大规模数据集119Mahalanobis距离CovarianceMatrix:BACA:(0.5,0.5)B:(0,1)C:(1.5,1.5)Mahal(A,B)=5Mahal(A,C)=4120二值属性二元数据相似性度量

M01=x取0并且y取1的属性的个数 M10=x取1并且y取0的属性的个数 M00=x取0并且y取0的属性的个数 M11=x取1并且y取1的属性的个数简单匹配系数(SimpleMatchingCoefficient,SMC):SMC=值匹配的属性个数/属性个数 =(M11+M00)/(M01+M10+M11+M00)Jaccard系数 J=匹配的个数/不涉及0-0匹配的属性个数

=(M11)/(M01+M10+M11)

121例子X=(1000000000)

Y=(0000001001)

M01=2(x取0并且y取1的属性的个数)M10=1(x取1并且y取0的属性的个数)M00=7(x取0并且y取0的属性的个数)M11=0(x取1并且y取1的属性的个数)SMC=(M11+M00)/(M01+M10+M11+M00)=(0+7)/(2+1+0+7)=0.7J=M11/(M01+M10+M11)=0/(2+1+0)=0

122符号、顺序和比例数值属性符号属性变量对于符号变量,最常用的计算对象p和对象q之间差异程度的方法是简单匹配方法,其定义如下:其中s表示对象p和对象q取值相同状态的符号变量个数,M为符号变量总的状态个数,M-s表示对象p和对象q取不同状态的符号变量个数。123符号、顺序和比例数值属性顺序变量在计算对象间的差异程度时,顺序变量的处理方法与间隔数值变量的处理方法类似。涉及变量f的差异程度计算方法如下:第i个对象的f变量值记为Xif,变量f有个Mf有序状态,利用等级1,2,…,Mf分别替换相应的Xif,得到相应的rif,。将顺序变量做变换映射到区间[0,1]上。利用有关间隔数值变量的任一种距离计算公式来计算差异程度。124符号、顺序和比例数值属性比例数值变量在计算比例数值变量所描述对象间的距离时,有三种处理方法,它们是:将比例数值变量当做区间间隔数值变量来进行计算处理,这种方法不太好,因为非线性的比例尺度可能会被扭曲。将比例数值变量看成是连续的顺序变量进行处理。利用变换(如对数转换)来处理第i个对象中属性f的值xif得到yif,将yif当作间隔数值变量进行处理。这里的变换需要根据具体定义或应用要求而选择log或log-log或其它变换。相对来说这一方法效果最好。125符号、顺序和比例数值属性混合类型的变量计算具有混合类型变量对象之间差异程度的一种方法是将变量按类型分组,对每种类型的变量单独进行聚类分析。另一种方法是将不同类型的变量组合在一个差异度矩阵中,把所有变量转换到统一的区间[0,1]中.假设数据集包含m种不同类型的变量,对象p和q之间的差异度d(p,q)定义为:126对象之间的相似系数

可以通过一个单调递减函数,将距离转换成相似性度量,相似性度量的取值一般在区间[0,1]之间,值越大,说明两个对象越相似。采用负指数函数将Euclidean距离转换为相似性度量s,即采用取Euclidean距离的倒数,为了避免分母为0的情况,在分母上加1,即若距离在0~1之间,可采用与1的差作为相似系数,即:127小结在进行数据挖掘之前,需要了解、分析挖掘对象的特性,并进行相应的预处理,使之达到挖掘算法进行知识获取所要求的最低标准。本章介绍了数据挖掘领域中的数据类型,以及每种数据类型的特点、数据的统计特征、数据可视化;重点介绍了数据预处理中的数据清理(缺失值和噪声数据处理)、数据集成、数据变换(特征构造、数据泛化、离散化、规范化、数据平滑)、数据归约(特征变换、特征选择、抽样)的主要方法及各种方法使用的前提;针对不同类型的数据对象,介绍了度量数据相似性和距离的方法。128数据陷阱之“幸存者偏差”幸存者偏差又叫“幸存者谬误”,反驳的是一种常见逻辑谬误,即只看到经过某种筛选之后的结果,却没有意识到筛选的过程,因此忽略了被筛选掉的关键信息。“幸存者偏差”的统计概念来自于二战期间英美军方调查了作战后幸存飞机上弹痕的分布,决定哪里弹痕多就加强哪里。“越是认真观察眼前的真相,你离真相越远。”耳听不一定是真,眼见也不一定为实。我们需要打破惯性思维,躲开显性证据,看到背后的隐性证据。129作业:2.5,2.6,2.11,2.13,2.15130第3章分类与回归3.1分类概述3.2决策树分类方法3.3贝叶斯分类方法3.4K-最近邻分类方法3.5神经网络分类方法3.6支持向量机3.7集成分类3.8分类问题拓展3.9分类模型的评价3.10回归分析3.11综合案例131分类与回归是数据挖掘中应用极其广泛的重要技术。分类的目的是利用已有观测数据建立一个分类器来预测未知对象属于哪个预定义的目标类,或者说分类就是利用训练数据中学习到的规律来确定未知样本的类别。回归分析可以对预测变量和响应变量之间的联系建模。在数据挖掘环境下,预测变量是描述样本的感兴趣的属性,一般预测变量的值是已知的,响应变量的值是我们要预测的。当响应变量和所有预测变量都是连续值时,回归分析是一个好的选择。132分类与回归的区别分类和回归都有预测的功能,但是:分类预测的输出为离散或标称的属性;回归预测的输出为连续属性值;分类与回归的例子:预测未来某银行客户会流失或不流失,这是分类任务;预测某商场未来一年的总营业额,这是回归任务。1333.1分类概述134分类的步骤分类的任务是对数据集进行学习并构造一个拥有预测功能的分类模型,用于预测未知样本的类标号。分类的过程描述如下:1)首先将数据集划分为2部分:训练集和测试集。2)第一步:对训练集学习,构建分类模型。模型可以是决策树或分类规则等形式。3)第二步:用建好的分类模型对测试集分类评估该分类模型的分类准确度及其它性能。4)最后,使用分类准确度高的分类模型对类标号未知的样本数据进行分类。135分类的应用目前分类方法广泛应用于各行各业,如:股票预测信用评估:划分出交易是合法或欺诈医疗诊断:根据核磁共振的结果区分肿瘤是恶性还是良性的市场营销图像分类:根据星系的形状对它们进行分类文本分类:根据电子邮件的标题和内容检查出垃圾邮件,将新闻分类为金融、天气、娱乐体育等……136数据挖掘中分类算法归类分类模型的学习方法大体上主要有以下几类基于决策树的分类方法贝叶斯分类方法K-最近邻分类方法神经网络方法支持向量机方法集成学习方法……1373.2决策树分类方法1383.2.1决策树的基本概念决策树(DecisionTree)是一种树型结构,包括:决策节点(内部节点)、分支和叶节点三个部分。其中:决策节点代表某个测试,通常对应于待分类对象的某个属性,在该属性上的不同测试结果对应一个分支。叶节点存放某个类标号值,表示一种可能的分类结果。分支表示某个决策节点的不同取值。决策树可以用来对未知样本进行分类,分类过程如下:从决策树的根节点开始,从上往下沿着某个分支往下搜索,直到叶结点,以叶结点的类标号作为该未知样本的类标号。139决策树分类例题演示训练数据集决策树模型outlooktemperaturehumiditywindyplaysunny8585nonosunny8090yesnoovercast8378noyesrain7096noyesrain6880noyesrain6570yesnoovercast6465yesyessunny7295nonosunny6970noyesrain7580noyessunny7570yesyesovercast7290yesyesovercast8175noyesrain7180yesno140应用模型测试数据Startfromtherootoftree.测试数据141测试数据应用模型测试数据142测试数据应用模型测试数据143测试数据应用模型测试数据144测试数据应用模型测试数据分配play属性为:“yes”145决策树的应用非常简单。如何从训练数据集构造决策树,是3.2小节要讨论的主要内容。图3-1的构造过程将在3.2.4小节介绍。1463.2.2构建决策树的要素决策树在构建过程中需重点解决2个问题:(1)如何选择合适的属性作为决策树的节点去划分训练样本;(2)如何在适当位置停止划分过程,从而得到大小合适的决策树。1471.属性“纯度”度量方法决策树根据数据“纯度”来构建,如何量化属性纯度呢?纯度有基于信息熵和基于Gini系数两类度量方法。

假定S为训练集,S的目标属性C具有m个可能的类标号值,C={C1,C2,…,Cm},假定训练集S中,Ci在所有样本中出现的频率为pi(i=1,2,3,…,m)。1481.属性“纯度”度量方法(续)

1491.属性“纯度”度量方法(续)

1501.属性“纯度”度量方法(续)

例:考虑下图所示性别变量。一个班有40人,男女生各20人。现将其划分为两组,第一组:18个男生,4个女生;第二组2个男生,16个女生。按照性别计算分组前后:(1)单个节点熵和总的熵;(2)单个节点Gini系数和总的Gini系数。全班男生20人,女生20人第一组18个男生,4个女生第二组2个男生,16个女生151解:(1)对于信息熵对于划分前单个节点的熵,计算如下:在这个例子中,男生和女生都是20个,各占一半,即p(男生)=p(女生)=0.5,将其代入上述公式中得:152划分成两组后,对于第一组有:对于第二组有:用划分后两个节点信息熵的平均表示划分后总的熵,每个节点的权重为节点记录的比例。因此划分后总的熵为:153(2)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论