大数据与数据挖掘(2022年-2023年)学习课件_第1页
大数据与数据挖掘(2022年-2023年)学习课件_第2页
大数据与数据挖掘(2022年-2023年)学习课件_第3页
大数据与数据挖掘(2022年-2023年)学习课件_第4页
大数据与数据挖掘(2022年-2023年)学习课件_第5页
已阅读5页,还剩72页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2022年-2023年最新

数据拾掘课程教学研讨

2022年-2023年最新

数据挖掘课程的目的

2022年-2023年最新

什么是数据挖掘

•Wiki中的定义

•theanalysisstepofthe"KnowledgeDiscoveryinDatabases*process,orKDD

•Aninterdisciplinarysubfieldofcomputerscience,isthecomputational

processofdiscoveringpatternsinlargedatasets

•involvingmethodsattheintersectionofartificialintelligence,machine

learning,statistics,anddatabasesystems.

•Theoverallgoalofthedataminingprocessistoextractinformationfroma

datasetandtransformitintoanunderstandablestructureforfurtheruse.

•Asidefromtherawanalysisstep,itinvolvesdatabaseanddatamanagement

aspects,datapre-processing,modelandinferenceconsiderations,

interestingnessmetrics,complexityconsiderations,post-processingof

discoveredstructures,visualization,andonlineupdating.

2021/4/213

2022年-2023年最新

开设数据挖掘课程的目的

•技术发展的趋势的需要

•大数据和智能化是信息技术发展的新动力

•技术发展路径

*数据库。数据仓库。数据挖掘。大数据

•数据挖掘技术已经成为很多应用领域的基本支撑技术

•WEB数据分析

•电子商务

•生物信息学

力金融数据分析4

2022年-2023年最新

开设数据挖掘课程的目的

•数据分析类课程在计算机教学体系中的作用将逐渐增加

•数据挖掘、机器学习、…

•培养学生理论与应用相结合能力

•培养学生应用基本的方法,提高解决实际的系统能力

•数据挖掘课程的特点

・入门容易

•有深度

・应用实例多

2021/32易于设计实验

复旦大学数据挖掘课程的设置

•复旦大学计算机科学技术学院基本•复旦大学计算机科学技术学院基本

情况情况

•学生情况・主要研究方向

・120名本科生/年•媒体计算

•150名研究生/年•数据库与数据科学

•教师情况•网络与信息安全

・智能信息处理

•教学科研教师:100名左右

・教学理念•人机接口和服务计算

•理论计算机科学

•强调数据基础

•软件工程与系统软件

•强调学生综合能力的培养

•强调学生创新能力培养

2021/4/216

2022年-2023年最新

复旦大学数据挖掘课程的设置

•总体目标

•掌握大规模数据挖掘与分析的基本流程

•掌握数据挖掘的基本算法

•掌握对实际数据集进行挖掘的系统能力

•算法设计

­挖掘算法的内涵

•参数设置

•结果评估

・了解数据挖掘的主要应用方向

斗.匚二△土白/1,用工03-人7

2022年-2023年最新

复旦大学数据挖掘课程的设置

数据库新技术机器学习生物信息学多媒体数据处理

WEB数据文本数数据密

管理和数据挖掘集型计

据挖掘算

高级数据挖掘技术

数据库系统

2021/4/218

2022年-2023年最新

数据仓库与数据挖掘

•课程的教学目的

•掌握数据仓库数据挖掘原理、技术和方法,掌握建立数据挖掘应用系统的方法,了解相

关前沿的研究。

•教学内容

*数据挖掘、数据仓库的基本概念

•数据仓库设计和应用

•数据挖掘的基本技术

・关联分忻、分类分析、聚类分析、异常分析和演化分析等;联机分析处理OLAP技术;

•数据挖掘应用系统开发

•数据挖掘技术的新应用

2021/4/219

•粘土用挞垢J和〃b妗目

2022年-2023年最新

高级数据挖掘

•课程的教学目的

•让学生掌握数据挖掘的基本概念、算法和高级技术;

•将这些概念、算法和技术应用于实际问题。

•教学内容

•分类算法,

・包括决策树(ID3,C4.5,SPRINT等)、基于规则的分类器(C4.5rules,RIPPLE等)、

NaiveBayes分类器和贝叶斯网络、最近邻分类器(kNN,CondensedkNN,DANN

等)、支持向量机(SVM)、Ensemble方法(如AdaBoost,Bagging,RainForest等),

以及模型选择(如MDL,RegularizationNetwork等)。

2021/4/2110

2022年-2023年最新

高级数据挖掘

•教学内容•教学内容

*聚类分析•数据挖掘应用

•划分型聚类算法,如K-means等・异常检测、数据流挖掘、Web挖掘

(PageRank,HITS和Spam,Opinion

•层次型聚类算法,如Singlelink,

Mining).社会网络分析(Blog、Tag分

completelink,Ward方法等

析等)、数据挖掘和隐私保护、文本挖掘

­及基于模型的聚类如EM算法;(PLSA,概率主题模型等)、降维技术

•基于密度的聚类算法如DBSCAN(SVD,FastMap,LSH等)和特征选择

(基于互信息量的方法、Relief等)等主题

•其他高级聚类算法,如Clique,CURE,

CHAMELEON,BIRCH等•具体内容逐步调整

•关联分析,

•研讨是主要的授课方式

•Apriori算法、DHP、FP-growth,以

及频繁序列挖掘、图挖掘等

2021/4/2111

2022年-2023年最新

WF燃靴鹦能挖掘

•了解大规模WEB数据(包括HTML数据、XML等类型数据)的管理与挖掘技术,及

其在WEB领域中的应用,学会充分利用领域内的信息

•课程内容

・网络爬虫技术

•DNS解析、链接抽取、重复网页处理、…

・WEB搜索和信息检索

•文本预处理、向量空间模型、相关性反馈

•WEB数据挖掘

•相似性计算和聚类、文本分类、链接分析、…

•WEB数据挖掘应用

2021/4/2112

・升点网绢分垢格酒将知

2022年-2023年最新

文本数据挖掘

•课程的教学目的

・了解大规模文本数据的处理和挖掘技术,及其在生物/医疗等文本数据分析中的应用

•课程内容

•文本预处理技术

•文本聚类技术

•基于本体的文本数据挖掘

•文本挖掘中的概率模型

•可视化技术

・生物/医疗文本数据挖掘

2021/4/2113

2022年-2023年最新

据密集型计算理论与实践

•课程的教学目的

•了解基于云计算平台或其他的新型分布式/并行计算平台上数据挖掘算法的实现技术及

其应用

.课程编式系统简介

A分类算法与M叩Reduce

•分布式文件系统>NOSQL介绍

>GPU通用编程基础

•并行编程基础

>CUDA介绍与调优

编程模型

•Map/Reduce>社会媒体中典型应用

•分布式图算法与PageRank>信息检索中典型应用

・聚类算法与MapReduce

2021/4/2114

2022年-2023年最新

主要参考文献

,JiaweiHan,etc.DataMiningConceptandTechniques.MaganKarfmannPubIishers

,SoumenChakrabarti.MiningtheWEB-discoveringknowIedgefromhypertextdata,Magan

KarfmannPubIishers

•朱扬勇等,《数据挖掘技术及其应用》

°Pang-NingTan,M.Steinbach,andV.Kumar.IntroductiontoDataMining(影印版),人民邮电出

版社,2006.1.

°IanWitten,andE.Frank.DataMining:PracticaIMachineLearningToolsandTechniques(影

印版,第2版),机械工业出版社,2005.9.

°DavidHand,H.ManniIa,andP.Smyth.PrinciplesofDataMining,机械工业出版社,2003.4.

oT.Hastie,R.Tibshirani,andJ.Friedman,TheEIementsofStatisticalLearning:Data

Mining,Inference,andPredict!on,Springer-VerIag.2001

oDataandXML,MorganKaufmanPubIishers,2000

o6”网D.VLDB.SIGMOD,ICDM,SDM,ICML等会议论文

2UZ1/4/Z1ID

2022年-2023年最新

数据挖掘课程的主要内容

2022年-2023年最新

攵据挖掘的理念

•数据挖掘是一个过程

•数据准备、挖掘、评估、参数调整.再挖掘、…

•数据挖掘是一个白盒操作

•挖掘结果的解释是一个重要操作

•数据挖掘是对数据的操作

•理解数据

•整理数据

•面向目标设计挖掘模式

2021/4/2117

2022年-2023年最新

攵据挖掘课程的主要内容

•先导课程•高级数据挖掘技术

•数据库、概率统计•适用于研究生

•数据挖掘的基本算法•适用于研究生

•适用于本科生•面向特定领域的数据挖掘技术

•推荐教材・适用于本科生科创活动选题

,JiaweiHan,JianPei,etc.Data

MiningConceptandTechniques.

MaganKarfmannPubIishers

2021/4/2118

2022年-2023年最新

A据挖掘是一个过程

模式评估

2022年-2023年最新

故据

­数据的类型

•各种类型的数据

•文本、序列、图片、视频

•特征抽取

­属性数据

•图、树结构数据

•数据的关联关系和数据内容

理解数据的语义的体现的形式,明确数据挖掘的依据

2021/4/2120

2022年-2023年最新

攵据

•数据集的特点

­数据的稀疏性

­数据的分布

­数据的覆盖范围

数据挖掘的结果和数据集有很大的关联

挖掘之前需要了解数据

2021/4/2121

2022年-2023年最新

数据

-数据的相似性度量

•度量的三个性质

•非负性、对称性、三角不等式

•各种评价相似性的方法

•欧几里得距离、明考斯基距离、余弦相似度、皮尔森相关系数

评价数据的相似性是数据挖掘的基础

2021/4/2122

2022年-2023年最新

峰金库

•数据仓库是为支持管理决策建立的,面向主题的、集成的、随时间变化的、不可修改的数据集合

・主要内容

•ETL工具

•数据仓库建模

•联机分析

数据仓库为数据挖掘构建了数据

基础,是大数据集成技术的雏形,

联机分析是数据挖掘的一种

2021/4/2123

2022年-2023年最新

数据仓库

终端用户

数据源数据仓库前端工具

数据获取和据存储信息传递

202

2022年-2023年最新

数据仓库

ETL(Extract,Transfer

、Load)

数据加载L

包括最初的装载,数据仓

数据转换T库开始工作后的将变动的

数据进行转换后存入正在

数据清洁(编码矛盾,

工作的数据仓库

数据抽取E遗失值,重复值,规

针对多个数据源(来范化;组合多源记录

自不同设备,使用数据,清除无用源数

不同数据格式)据等);数据汇总

2021/4/2125

2022年-2023年最新

数据仓库

在一个给定时刻捕获的数据,即

相关源数据在某个特定时刻的快数据抽取将不同来

照。(一般初始装载时使用)源的数据放在一起

静态数修正/追加

据抽取抽取

抽取是实时的,当交易发生时就

会在源数据库和文件中发生。立即型延缓型

通过交易日志捕获;数据抽取数据抽取

从数据库触发器捕获;基于日期和时间标记捕获;通过

从源应用程序捕获。文件比较捕获。

数据抽取技术

2021/4/2126

2022年-2023年最新

数据仓库

数据转换:根据转换规则进选择从源系统得到的整个记

行转换和重新结构化(映射)选择录或部分记录(抽取过程)

数据转换将统一不

同格式的数据

标准化,使字段对用

数据转换

户可用可理解;粒度转化分离/合

汇总并多个系统中选中

部分的合并操作

■常见的转换类型

"格式修正;字段解码;计算值和导出值;单个字段分离;信息合并;特征集合转化;

度量单位转化;日期/时间转化;汇总;键重新构造等

2021/4/2127

2022年-2023年最新

故据仓库

•数据清洗

•不完整的数据可能来自收集数据时该数据值(属性)没有用、不考虑人员/

硬件/软件故障

•噪声数据(不正确的数值)可能来自仪器设备产生错误数据数据输入时人

为错误或计算机错误数据传输错误

•不一致数据可能来自不同的数据源

数据质量是取得好的数据挖掘结果

的基础

2021/4/2128

2022年-2023年最新

数据仓库模式-雪花模型

雪花模型是

marketingGroup

描述属性数层次结构

/~~~,,[二:..

据的候选模Jity

'、^Oorand

型维度属性/__

sale&Mana9«r

\\>holidayO______________OsalesDi-1

.Wx________SALE_______

oO'■1o-->->——-<5^o-o--o

-rquartermonW/2gquantity「」.«tor«City8

77receipts

unitPrice

numberOfCustomers

2021/4/21

2022年-2023年最新

联机分析

Q联机分析

A1993年,EFCodd提出多维数据库和多维分析的概念(即OU\P),侧重于分析

型应用

>用于区别于OLTP的操作型应用

>OLTP已不能满足用户对数据库查询分析的需要,SQL对大数据库进行的简单查

询也不能满足用户分析的需求

2021/4/2131

2022年-2023年最新

数据立方体

城市天津

南京

Q1

季Q2

Q3销

Q4额

话商品类型

按季度时间、城市地区和商品类型三个维销售的数据

2021/4/2132

2022年-2023年最新

数据立方体

•刊了ERP坯轶什么PPT

壬,功岷1«主

J,阻■决X分析

资L负值寰分而

情L!5imr0水平

资产m惘E站构

贵严m情内以出

法Lift分折

加注有分析

加n*业次用分析

揭珞至HE!纣析产I。

往来分忻

8®定资产分析

M海]中心预・分析

费用中心执工分析

恿;一:,■内f取©M决笫分分忻尸析1•“际例

♦>网收咻歌外忻

;•._)官廖欣策纣忻

,璃,—>车峰值气分析

;.」KW3K阱耐

•(-Slfe分析算内

•.」用案例

房J、*杭36*1*存/]“h于例

E

联机分析是数据挖掘的一种重要的形式

2021/4/2133

2022年-2023年最新

数据准备

•数据裁剪和构造

•在保持原数据完整性的基础上,对这些数据进行归约化处理,以提高

数据分析或数据挖掘的效果

•维归约

•选维:使用特征的一个子集

•降维:主成分分析PCA

•特征加权与筛选

•特征转换与构造

构造合适的数据是取得好的数据挖

数据压缩

•掘结果的基础

•数值归约

2021/4/2134

2022年-2023年最新

关联规则

项集X={X1,…,xk)

10A,B,D

找到满足最小支持度和置信度的规则X

20AzC,D

30A,D,E

9Y

40B,E,F

50B,QD,E,F•支持度,5,事务包含XuY的概率

­置信度,C包含X同时包含Y的条件概率

Letsupmin=50%,confmin=50%

Freq.Pat.:{A:3fB:3tD:4,E:3,AD:3}

Associationrules:

D(60%,100%)

D^A(60%,75%)

buysbeer

2021/4/2135

2022年-2023年最新

关联规则

・关联规则的主要算法种类

•Apriori

•FP-growth

•模式的变种

•约束减少频繁模式/规则的规模是关联规则

•闭模式技术应用的关键

•信息量的评估方法

・不同类型数据中的频繁模式

•序列

•图

2021/4/2136

2022年-2023年最新

聚类分析

是埋据最大化簇内的理似隹二最小化整闾一.

的相似性股等数据对象聚类或分组,

所形成的每个簇可

,用显式或隐式的方法描述它们

=8°C

O

2021/4/2137

2022年-2023年最新

聚类分析

基于划分的

•基于层次的

k______________________

聚类算法

2021/4/2138

2022年-2023年最新

聚类分析

应用聚类算法需要考虑的因素

能够适用于大数据量(可伸缩性)

能够处理不同类型数据距离定义)

能够发现任意形状的簇盘为

能够处理高维数据

具有处理噪声的能力

2021/4/2139

2022年-2023年最新

分类分析

。定义

A给定一个数据样本集样本=

D={XlzX2r..,Xn},

类的集合分类是从数据

D,C={ClzC2,……zCm),

样本集到类集合的映射f:D9C,即数据集中的样

本X分配到某个类J中,有Cj={XJf(Xj)=0

l<i<n,l<j<m,且Xj=D}。

A即通过学习得到一个目标函数f,把每个属性集X映

射到一个预先定义的类标号y,f又称分类模型

2021/4/214U

2022年-2023年最新

分类分析

TidAttribiAttrib2Attrib3ClassILearning

1Y<»Large125KNoalgorithm

2NoMedium100KNo

构造分类器:3NoSmal7DKNo

4YesMedium120KNo

5NoLarge96KYes

6NoMedium60KNo

7YesLarge220KNo

8NoSmal85KYes

a,模型训练阶段9NoMedium75KNo

10NoSmal90KYes

TrainingSet

b.测试(使用模型分类)

阶段

TestSet

2021/4/2141

2022年-2023年最新

分类分析

­分类算法•评估分类算法的要素

•决策树•预测的准确度

•贝叶斯方法•计算复杂度

,最近邻•模型描述的简洁性

•支持向量机•模型的可解释性

・神经网络•避免过度拟合

2021/4/2142

2022年-2023年最新

异常检测

。异常

»一个数据集中往往包含一些特别的数据,其行为和模式与一般的

数据不同,这些数据称为“异常”('小模式')

。异常检测

A发现数据集中明显不同于其他数据的对象的过程。即对“异常”

数据的发现和分析

2021/4/2143

2022年-2023年最新

吊、噪声

“噪声”:定义在簇的基础“异常”:是不依赖于是否

上,是不隶属于任何簇的存在簇。

数据

聚类算法中具有处理噪声能力的

多数聚类算法具有一定的噪声处出发点和目的是优化簇,在生成

理能力,在一定程度上可以检测结果簇时,噪声是可以容忍或忽

略的。

异常数据。但聚类定义的“噪声”

和“异常”在概念上是有偏差的。

X__________________________________/

如何定义异常7

2021/4/2144

2022年-2023年最新

异常检测

°异常检测的主要方法

>基于聚类的异常挖掘

>k-近邻方法

>基于统计的异常分析方法

>基于偏差的异常分析方法

。具体算法

>DB(pct,dmin)异常

>DJ异常

>k-distance

2021/力21LOF

45

2022年-2023年最新

序列数据挖掘

,应用领域•主要的挖掘角度

•生物信息学•趋势变化

•金融数据分析•序列模式挖掘

,电子商务•循环变化

,信用卡分析•非规则随机变化

•关联分析

曰K镂图上证指数P00001)

3786.053ap1白22'1«>.901<•「制白2296

3620.98

3455.91

3Z9Q.84

3125.77

2960.70

2795.63

Z630.06Ins

Z465.49

2300.42

2135.3!5

08-05-0505-2。06-04Q6-2O07-0707-2308-0708-2209-08

2021/4/2146

2022年-2023年最新

可视化

^DHMin^rEntorprlttcs(#8-A。。。,­]

AE«l&MiningWaooAX。,9ow•八口口wQpboncHGp_L*I

。囤cml»lizml?I

同ol田l*IX71U

->100%

ForHelp.F1|ZUM

可视化是评估挖掘结果的有效工具

2021/4/21

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论