版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘中的统计
方法及其实践朱建平厦门大学经济学院打算统计系11/19/2022TheStatisticalMethodforDataMiningandItsApplicationZhuJianpingXiamenUniversity11/19/2022教学目的数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和学问的过程。它是涉及机器学习、模式识别、统计学、人工智能、数据库治理及数据可视化等学科的边缘学科。用统计的观点看,它可以看成是通过计算机对大量的简单数据集的自动探究性分析。作为一种独立于应用的技术,一经消失马上受到广泛的关注。本课程从统计学的角度介绍该领域的全面状况,讲授好玩的数据挖掘技术和方法,并争论应用和争论方向。其目的是针对海量数据,让我们把握利用计算机分析数据、理解数据,并具有基于丰富的数据做出决策的力量。11/19/2022讲授的根本内容随着计算机技术和电子数据猎取方面的不断进展以及Internet和各种局域网的广泛普及,人们获得的数据正以前所未有的速度急剧增加,最近几十年产生了很多超大型数据库,普及超级市场销售、银行存款、天文学、粒子物理、化学、医学以及政府统计等领域。那么,如何从这些大型数据库中觉察有用的信息、模式和学问?如何开发有效的挖掘方法?已成为众多科技工作者共同关注的焦点。在过去几年,一个称为“数据挖掘”(DataMining)的新领域得到了快速进展,已在经济、商业、金融、天文等行业得到了成功的应用,在国际上掀起了一股空前的争论热潮。11/19/2022本课程从统计学的观点动身,立足理论,着眼应用,在明确了数据挖掘定义和对象的根底上,从七个方面对数据挖掘的理论及统计方法和应用进展较为具体的介绍。第一章介绍数据挖掘概况。讲授数据挖掘的定义,并以技术和商业的角度给出了数据挖掘的定义。在此根底上,澄清数据挖掘与学问觉察的关系,明确数据挖掘的对象。最终对数据分析提出一些思考。其次章数据挖掘与统计学的关系。以数据挖掘的进展历史为线索,讲授数据挖掘领域争论所取得成果,解释数据挖掘自身的特点,从中领悟到了数据挖掘与统计学的关系。以现代统计方法的根本思想,让学生生疏到统计学在数据挖掘中所做的奉献,即统计方法在数据挖掘中强有力的作用。11/19/2022第三章介绍数据预备。在这一章将分析原始大型数据库的根本表述和特征,了解数据预备的不同技术,比较去除丧失值的不同方法,构造时间相关数据的统一表述方法,实现一些数据预处理技术。第四章介绍Rough集的根本模型及有关概念。这一章讲授学问的分类观点和概念的边界观点,学问的约简和决策表的约简。以统计思想与Rough集理论相结合,介绍对事务性数据库的统计描述,对事务性数据库事务项及属性项压缩的方法,构建事务性数据库列联表示的模型的思想。并利用所介绍的方法进展实证分析。第五章重点介绍数据挖掘中的聚类问题。讲授数据的排序与有向聚类问题。介绍聚类分析数据类型衍生的思想,并对聚类分析方法进展了比较和检验。让学生在实际应用中生疏到其方法的牢靠性与稳定性。11/19/2022第六章介绍挖掘大型数据库中的关联规章。讲授关联规章的意义和量度,维布尔关联规章,多层关联规章,由关联规章到相关分析。另外,引入相应分析作为数据挖掘中关联规章的提升,介绍相应分析适应性检验的根本思想及方法,及相应分析适应性的分层量度方法。利用可视化方法对所多度相应分析方法进展了验证。第七章理解一些其它的数据挖掘技术。模糊聚类、神经网络、时序稠密数据集的挖掘技术等。为了满足实际的需要,我们将利用所讲授的方法,对某地区中国移动通讯用户消费数据库、某大学大学生隐形教育调查资料和上证指数收盘价信息进展剖析,以便让学生充分地领悟到数据挖掘的理论和实际价值。11/19/2022参考文献Cios,K.J.,Pedrycz,W.andSwiniarskiFriedman,J.H.,DataMiningandStatistics:What’sTheConnection?TechnicalReport,StanfordUniversityGlymour,C.,etc.StatisticalThemesandLessonsforDataMining,DataMiningandKnowledgeDiscovery1,11-28(1997)Han,J.W.andKamber,M.DataMining:ConceptsandTechniques,HigherEducationPress,(2023)Theresa,B.,Frederick,E.P.andGurdial,A.,Information-TheoreticMeasuresofUncertaintyforRoughSetsandRoughRelationalDatabases,JournalofInformationSciences109(1998),pp185-195Nelson,D.E.,HighRangeResolutionRadarTargetClassification:ARoughSetApproach,PaperofPhD11/19/2022张尧庭,谢邦昌,朱世武,数据采掘入门及应用——从统计技术看数据采掘,中国统计出版社,北京,(2023.6)史忠植著,学问觉察,清华大学出版社,北京,(2023.1)刘同明等编著,《数据挖掘技术及其应用》,国防工业出版社,(2023.9)数据挖掘争论组,数据挖掘的争论历史和现状,闪四清等译(MehmedKantardzic),数据挖掘——概念、模型、方法和算法,清华大学出版社,(2023.8)张银奎等译(Hand,D),数据挖掘原理,机械工业出版社,(2023.4)范明等译,统计学习根底——数据挖掘、推理与猜测,电子工业出版社,(2023.1)11/19/2022第一章数据挖掘概述§1.1数据挖掘的定义§1.2数据挖掘与学问觉察§1.3数据挖掘对象§1.4数据分析的一些思考11/19/2022WhatarethesenumberstryingtoTellme???MatrixCodes99:8179,7954,舅舅:不要吃酒,吃酒误事,
76269,8406,9405,吃了二两酒,不是动怒,就是动武,
7918934,1.91817。吃酒要被酒杀死,一点酒也不要吃。11/19/2022WhatAreTheseNumbersTryingtoTellUs?11/19/2022WhatAreTheseNumbersTryingtoTellUs?7÷22≦x≦340÷6二四六八00001×1=110002=100×100×1007/8
不三不四接二連三陸續不斷無獨有偶掛萬漏一一成不變千方百計七上八下11/19/2022§1.1数据挖掘的技术定义与商业定义什么是数据挖掘(DataMining)?关于定义取决于定义者的观点和背景,各人的说法不一.Friedman,J.H.在技术报告DataMiningandStatistics:What”sTheConnection?中总结出了多家关于数据挖掘的定义(也有对学问觉察而言的):Fayyad提出数据挖掘是一个确定数据中有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程.11/19/2022Zekulin的说法是数据挖掘是一个从大型数据库中提取以前未知的、可理解的、可执行的信息,并用它来进展关键的商业决策的过程.Ferruzza给出数据挖掘是用在学问觉察过程,来辩识存在于数据中的未知关系和模式的一些方法.Jonn提到数据挖掘是觉察数据中有益模式的过程.Parsaye定义数据挖掘是我们为那些未知的信息模式而争论大型数据集的一个决策支持过程.这些表达方式虽然不同,但从各自的角度描述出了对数据挖掘的理解.这里我们主要从技术和商业的角度给出数据挖掘的定义.11/19/2022§1.1.1数据挖掘的技术定义从技术角度,数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和学问的过程.它是涉及机器学习、模式识别、统计学、人工智能、数据库治理及数据可视化等学科的边缘学科.11/19/2022这个定义包括好几层含义:数据源必需是真实的、大量的、含噪声的;觉察的是用户感兴趣的学问;觉察的学问要可承受、可理解、可运用;这些学问是相对的,是有特定前提和约束条件的,在特定领域中具有实际应用价值.11/19/2022什么是学问呢?从广义上理解,数据、信息是学问的表现形式,但是人们更把概念、规章、模式、规律和约束等看作学问.人们把数据看作是形成学问的源泉,似乎从矿石中采矿或淘金一样.原始数据可以是构造化的,如关系数据库中的数据;也可以是半构造化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据.觉察学问的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的.觉察的学问可以被用于信息治理、查询优化、决策支持和过程掌握等,还可以用于数据自身的维护.11/19/2022§1.1.2数据挖掘的商业定义从商业应用角度看,数据挖掘是一种新的商业信息处理技术.其主要特点是对商业数据库中的大量业务数据进展抽取、转换、分析和其他模型化处理,从中提取帮助商业决策的关键性学问,即从一个数据库中自动觉察相关商业模式.实际上多年来,统计学家就开头手工挖掘数据库,从数据库中查找符合统计学规律的有意义的模式.这也是统计学类型的数据挖掘技术,是目前数据挖掘技术中最为成熟的重要缘由之一.11/19/2022数据挖掘也可以描述为:按企业既定业务目标,对大量的企业数据进展探究和分析,提醒隐蔽的、未知的或验证的规律性,且进一步将其模型化的数据处理方法.11/19/2022§1.2数据挖掘与学问觉察
〔DM&KDD〕§1.2.1学问觉察(KnowledgeDiscoveryinDatabase)过程学问觉察过程可以粗略的理解为三部曲:数据预备(datapreparation)数据挖掘(datamining)结果的解释评估(interpretationandevaluation)11/19/2022学问觉察过程示意图
11/19/2022数据预备又可分为三个子步骤:数据选取、数据预处理和数据变换.数据选取的目的是确定觉察任务的操作对象,即目标数据.数据预处理一般可能包括消退噪声、推导计算缺值数据、消退重复记录、完成数据类型转换等.数据变换的主要目的是消减数据维数或降维,即从初始特征中找出真正有用的特征以削减数据开采时要考虑的特征或变量数.11/19/2022数据挖掘阶段主要是确定开采的任务,如数据总结、分类、聚类、关联规章觉察或序列模式觉察等.确定了开采任务后,就要打算使用什么样的开采算法.选择实现算法有两个需要考虑的因素:一是不同的数据有不同的特点,需要用与之相应的算法来开采;二是依据用户或实际运行系统的要求来开采.11/19/2022结果解释和评价主要是数据挖掘阶段觉察出的模式,经过用户和机器的评价,可能存在冗余或无关的模式,这时需要将其剔除.假设有的模式不满足用户要求,需要将整个觉察过程退回到觉察阶段之前.最终结果是要面对用户,有时要对觉察的模式进展可视化,或着将结果转化为用户易懂的另一种形式.11/19/2022§1.2.2数据挖掘的地位KDD是一种学问觉察的一连串程序,数据挖掘只是KDD的一个重要程序.数据挖掘主要是利用某些特定的学问觉察算法,在肯定的运算效率的限制内,从数据中觉察有关的学问,即隐蔽的模式.数据挖掘是KDD中最重要的一步,在KDD的全过程中起到了至关重要的作用.因此,人们往往不加区分地使用数据挖掘和KDD.11/19/2022§1.3数据挖掘对象数据挖掘的范围特别广泛,可以是社会科学、经济学、商业数据、科学处理产生的数据和卫星观测得到的数据.它们的数据构造也各不一样,可以是层次的、网状的、关系的和面对对象的数据.11/19/2022§1.3.1关系数据库关系数据库是表的集合,每个表都赐予一个唯一的名字.每个表包含一组属性(列或字段),并通常存放大量元组(记录或行).关系中的每个元组代表一个被唯一的关键字标识的对象,并被一组属性值描述.当数据挖掘用于关系数据库时,可以进一步搜寻趋势或数据模式.数据挖掘系统也可以检测偏差,如在商业营运中,与以前的年份相比,哪种商品的销售出人预料.这种偏差可以进一步考察,例如包装是否有变化,或价格是否大幅度提高.11/19/2022§1.3.2数据仓库在数据仓库的进展过程中,很多人对此做出了奉献.其中,Devilin和Murphy在1998年发表了一篇关于数据仓库论述的最早文章.而Inmon,W.H.在1993年所写的论著BuildingtheDataWarehouse则首先系统性地阐述了关于数据仓库的思想、理论(Inmon,W.H.(1996)),为数据仓库的进展奠定了历史基石.在BuildingtheDataWarehouse中,他将数据仓库定义为“一个面对主题的、集成的随时间变化的非易失性数据的集合,用于支持治理层的决策过程”.11/19/2022通常,数据仓库用多维数据库构造建模.其中,每一维对应于模式中的一个或一组属性,每个单元存放某个聚拢度量值.数据仓库的实际物理构造可以是关系数据存储或多维数据立方体(datacube).它供给数据的多维视图,并允许估计算和快速访问汇总的数据.数据仓库工具对于支持数据分析是有帮助的,但是仍需要更多的数据挖掘工具,以便进展更深入的自动分析.11/19/2022§1.3.3高级数据库系统随着数据库技术的进展,各种高级数据库系统已经消失并在开发中,以适应新的数据库应用需要.新的数据库应用包括处理空间数据(如地图)、工程设计数据、超文本和多媒体数据、时间相关的数据(如历史数据或股票交易数据)和Web为响应这些需求,开发了高级数据库系统和面对特殊应用的数据库系统.这些包括面对对象和对象-关系数据库系统(Han,J.W.andKamber,M.(2023)12-16)、空间数据库系统(史忠植,(2023)13-16)、时间和时间序列数据库系统、文本(Hahn,U.etal.(1997))和多媒体数据库系统、异种和遗产数据库系统、基于Web的全球信息系统(Bern,S.(1998)).11/19/2022§1.3.4事务性数据库事务数据库由一个文件组成,其中每个记录代表一个事务.通常,一个事务包含一个唯一的事务标识号,和一个组成事务的项的列表(如,在商店购置的商品)(史忠植著,(2023)13-16).事务数据库可能有一些与之相关联的附加表,包含关于销售的其他信息,如事务的日期、顾客的ID号、销售者的ID号、销售分店等等.11/19/2022§1.4数据分析的一些思考我们不能这样简洁的理解统计親愛的齊: 我們的感情,在組織的親切關懷下、在領導的過問下,一年來正沿著安康的道路蓬勃發展。這主要表現在:〔一〕我們共通信121封,平均3.01天一封。其中你給我的信51封,占42.1%﹔我給你的信70封,占57.9%。每封信平均1502字,最長的達5215字,最短的也有624字。11/19/2022〔二〕約會共98次,平均3.7天一次。其中你主動約我38次,占38.7%﹔我主動約你60次,占61.3%。每次約會平均3.8小時,最長達6.4小時,最短的也有1.6小時。
〔三〕我到你家探望你父母38次,平均每9.4天一次,你到我家探望我父母36次,平均10天一次。以上充分証明一年來的交往我們已形成了戀愛的共識,我們愛情的主流是相互了解、相互關心、相互幫助,是公平互利的。11/19/2022當然,任何事物都是一分為二的,缺點的存在是不行避开的。我們二人雖然都是積極的,但從以上的數據看,發展還不太平衡,積極性還存在肯定的差距,這是前進中的缺點。信任在新的一年里,我們肯定會發揚成績、抑制缺點、攜手前進,開創我們愛情的新局面。11/19/2022因此,我提出三點意見供你參考:〔一〕要圍繞一個愛字,〔二〕要狠抓一個親字,〔三〕要落實一個合字。讓我們弘揚團結拼搏的精神,共同振興我們的愛情,爭取達到一個新高度,登上一個新台階。本著我們的婚事我們辦,辦好婚事為我們的精神,
共創輝煌!你的小惠11/19/202211/19/2022
Given72581116Whatisthemean?Whatisthemedian?Whatisthefirstquartile?Whatisthethirdquartile?IntroductoryStatistics11/19/2022Mean
Putinorder12567811↑↑↑
Q1
Median
Q311/19/2022
Given
x1,x2,x3,…,xnWhatisthemean?Whatisthemedian?Whatisthefirstquartile?Whatisthethirdquartile?11/19/2022Mean
Putinorder
x(1)x(2)…x()…x(n-1)x(n)↑Median11/19/2022
Given
x1,x2,x3,…,xnwheren=300,000,000.Whatisthemean?Whatisthemedian?Whatisthefirstquartile?Whatisthethirdquartile?Database,DataStructure11/19/2022本章参考文献[1]Friedman,J
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 保护知识产权我们在行动
- 踝关节镜下后侧入路切除跟距骨桥与(足母)长屈肌腱减压松解术治疗跟距骨桥的临床研究
- 初级会计经济法基础-初级会计《经济法基础》模考试卷514
- 温度差下一维两分量玻色气体的输运性质
- 二零二五版消防通道扩建整改工程合同
- 二零二五年度汽车销售委托代理合同规范文本3篇
- 二零二五年度绿色能源汽车抵押借款合同2篇
- 二零二五版个人房产交易合同范本(含家具家电清单)2篇
- 二零二五版水陆联运货物运输代理服务合同范本6篇
- 国家安全教育宣传日
- 新疆乌鲁木齐地区2025年高三年级第一次质量监测生物学试卷(含答案)
- 卫生服务个人基本信息表
- 医学脂质的构成功能及分析专题课件
- 苗圃建设项目施工组织设计范本
- 高技能人才培养的策略创新与实践路径
- 广东省湛江市廉江市2023-2024学年八年级上学期期末考试数学试卷(含答案)
- 学校食品安全举报投诉处理制度
- 2024年湖北省知名中小学教联体联盟中考语文一模试卷
- 安徽省芜湖市2023-2024学年高一上学期期末考试 生物 含解析
- 交叉口同向可变车道动态控制与信号配时优化研究
- 燃气行业有限空间作业安全管理制度
评论
0/150
提交评论