清华大学大数据课程第4次课数据挖掘技术145_第1页
清华大学大数据课程第4次课数据挖掘技术145_第2页
清华大学大数据课程第4次课数据挖掘技术145_第3页
清华大学大数据课程第4次课数据挖掘技术145_第4页
清华大学大数据课程第4次课数据挖掘技术145_第5页
已阅读5页,还剩140页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2022年-2023年翻i

清华大默辘触第4

WWO145

将华桂均城股髅锹骸搬

2020/11/7

麒术145

2要°邺

0魏桐娥

0魏就理

0^1(Classification)

0MI(Cluster)

0(AssociationRule)

0回向(Regression)

0145

0What?

ii魏懒取义

0Why?

U魏挑的魏

0How?

卜些魏可以赚糊?

麟大钛U解融硼

榭加45

教版嘱奴

0什么是敖赫区(DataMining)?

veviousiyiinKnown

i4oiiihugeHiiiouiitol

mining)indatabase(KDD),data/patternanalysis,

lecisio^supXpAoits|yrsteniknowledgeextractiondata

ingandiiiibrniationharvestingetc.

DataMiningProcess

0Simplicity

UEg,(association)nilelength,(decision)treesize

0Certainty

UE.g.,confidence,P(A|B)二#(AandB)/#(B),classification

reliabilityoiaccuracy,nilestrength,etc.

0Utility

uPotentialusefiilness,e.g,,support(association),noise

threshold(description)

0Novelty

iiNotpreviouslyknown,surprising(usedtoremove

redundantmles)

榭加45

加糠懒械?

L魏量大

2.缺乏理以啾

产埔的假瓶者

ScienceParadigms

•Thousandyearsago

sciencewasempirical

descnbngMlutalpheno(nena

(Lastfewhundredyears:目~」

theoreticalbranch

USIOQmodelsgeneftlizations

•Lailfewdecades:

acomputationalbranch

simulabngcomplexphenooiend

,Today:

dataexploration(eScience)

umlytheory,expenmtandsmlabon

usingdatafnanagemeotandstatistics

-DMcipturedbyimtrumenti

OfgtnetaledbymiMoi

•Procnwdbyiofkvf

•ScEmilyzMdMM*/gs

狗辕鼬槛?

0Wearedrowningindata,butstarvinginknowledge

UDataexplosion:Automateddatacollectiontoolsandmaturedatabase

teclmologyleadtotremendousanioimtsofdataaccuniulatedand/ortobe

analyzedindatabases,datawarehouses,andotherinformationrepositories.

就嗨麟辘中;不酬定合适腆第

n金Rtn飘蹄既

n蒯n资金M

n人嘛n关系栅儿就告

生毓期蒯藉艇理谑

臂上魁期M耀部

0145

fl

行家

W“A6

T

Fs

^n%是%

T^o

4、.9

使

>月UMUM

^^rnB

M^MY

利,P^XS

,/A

叁S*

T

>DNArI1,购□E^J

八I

y■x

V

添£

>M尸

>A

A

袂黄枇DecisionTrees序列分析SequenceAnalysis

|rcome>$4iK•须向性分析

,耕傩I

•mMm

•目麻海

,偏岫淅

HA分所

向性

s分

分加

四?

I市

nw

tf也

foctorlfactor!

翻扰145

0翘预处理

撼蹄理(飕精或不一减新㈱

uttM(州麴轲城就出)

uBU(tB)

ii麴财(tt^d

0款臧羸质瞒能就整破榭线)

口分类、糕糠精、刚瑜虬文棣极

04t部(溯河如端就旗飘)

0弥球示(可视化和%好东林)

将华桂懈城股髅锹骸搬

麒术145

:花联湍漫致赭K戏义

?

U速对i:correctorwrong,accurateornot

utfi:notrecordedunavailable

U一改性:somemodifiedbutsomenot,dangling

Uupdate?

U可信『howtestablethedataarecorrect?

u可1译出howeasilythedatacanbeunderstood?

桂城股髅锹骸搬

W145

裁赫娜究好”

0麴翅

U本弱期伽样舒魏,跚刀弧西,[财

0ttM

U毓多林瓣、魏立淋明

0教微机

U蜕峥躲

0教娜为

。解媵赫膝赫示,训群,眄以儆桶轴近

砒操

0魏高刎

U辘阚的H尤般懒分独魏的减化版糠

.一宝辘楸幢要

蟠佚牌锹颖辘

撇状145

mu

0KB:Wrt制龈人赭撼娥

"漉性:篇性板默睛只有糅麴

p例如:phone--5;

。霜:包含好、麻妹睛便

p例如:salary=-10

u不-长性:

p例如:age=42,birthday=03-07-2010

uM:

P陋:伎麻-技就微爆性

麟大钛U解融硼

榭加45

供大值HD翻岬MVUSS叫

Data)

0魏杼版涯的

端如:ttWt,4版轴触字M

楠豌,比如辘耕的廊翻人

0腆空翻雕

uim

凶加已械财一政减麻

姻淅鬻破械於的魏

U楠入断他敖邮骗福魏破楝

命人

谢敬招的赧髓防口茄减

0空趟好我鞘耐卜上

—雌脚4丁姗

板㈱45

她林家找

0MO:当赫号就琳粒肘假部

摄任笳妍介,韩懦性轶!M的百

网和,刚放赫耗。

0人工蜡至雌:工触尢可行性低

0发舟一竹般士集放觥:此如使刖nknown

机-8

0使臊忸用罐贱空趟

0佞耐辕澈翻一耕暇肺神施

。使赫蘸髓赫堂雕:Ofryes/on4M

解溯端糠于糊的旅

将华桂懈城股髅锹骸搬

麒术145

好:-械量骐悯险媪俣辘差

0腆不止端睡的雕

U魏雇工期腱

iiptA*|

uMill

u魅睛

uM”的不T

0胧如蹄理赫搦横

utm

u不涯的M

u不一趟辘

将华桂懈城股髅锹骸搬

麒术145

Ufirstsortdataandpartitioninto(eqni-deptli)bins

uthenonecansmoothbybinmeans,smoothbybinmedian,

smoothbybinboundaries,etc.

udetectandremoveoutliers

0人棍格

udetectsuspiciousvaluesandcheckbyhuman(e.g,,deal

withpossibleoutliers)

0釉

usmoothbyfittingthedataintoregressionfunctions

W145

01tEquabwidth(distance)partitioning:

uDividestherangeinto^intervalsofequalsize:iinifonn

grid

uifAandBarethelowestandhighestvaluesoftheattribute,

thewidthofintervalswillbe:正二0-A)/N.

UThemoststraightforward,butoutliersmaydominate

presentation

uSkeweddataisnothandledwell.

0^1Equal-depth(frequency)partitioning:

uDividestherangeintoNintervals,eachcontaining

approximatelysamenuniberofsamples

uGooddatascaling

uManagingcategoricalattributescanbetricky.

W145

0price断轿后发加俾生就):4,8,15,21,24,25

,28,34

0酚为(将M)1

U制:4,8,15

iiB21,21,24

u|1:25,28,34

0mm:

”1:9,9,9

u敬:22,22,22

u郁:29,29,29

0UWm

fill:4,4,15

ii12:2感|fJ「;卜」[.

u13:25,25,34

解大默赫南哪■

榭加45

H:CMMAnalysis

腐个斜的魏腿中怫脑

S1立占

》施摩类劫激跚鼓。谴啦

舸能包含翻瞬感

从工醉查诞细幼

*施雅髅瞅

微木145

ReHion

嘘诵艇赫的魏靴的麟,a

舸期一个变量频另一个变量。

u祓舸帮嬲辘俣

uMgf

0属性解

盹关脑

0辘1复(

0辘阙1

U薪、睐帧翩佛

耀牌锹i

触术145

一支贼初

0W:精辘悯耕。林端M

、|虬糕

011:对魏的汇献糅。

0ttB(M):撕懒介扇嘱

层fcH林融"躲"tto

0MM:牖性翘撕例版,贬落

入一小卜献披酮嗣、-最大'Z-Score

、机像施媪化。

将华桂懈城股髅锹骸搬

麒术145

a

a瞽

x

s

2

0德

K

g

3苔

)

R

T

l

芟音衣

交::

8

8

V

7

0

.

K

一II——三

V

+

a予

I

2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论