数据挖掘知识点_第1页
数据挖掘知识点_第2页
数据挖掘知识点_第3页
数据挖掘知识点_第4页
数据挖掘知识点_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘知识点:

一、 数据挖掘是从大量的数据中挖掘那些令人感兴趣的有用的隐含的先前未知的和不可能有用的模式和知识。

数据库DB系统最主要的功能:

数据存储、查询处理、事物处理。

数据挖掘的主要功能:

关联分析、时序模式、聚类分析、分类、偏差检测、预测

数据预处理:是从大量的数据属性中提取出对目标有重要影响的属性来降低原始数据的维数,或者是处理一些不好的数据,从而改善实例数据的质量和提高数据挖掘的速度。

数据预处理功能:数据集成,数据清理,数据变换,数据简化。

二、 数据挖掘的基本算法:

1、分类:分类的目的是构造一个分类函数或分类模型(分类器),该模型能把数据库中的数据项映射到某一个给定类别。

分类定义:给定数据库D={t1,t2,…,tn},元组tiD,类的集合C={C1,,Cm},分类问题定义为从数据库到类集合的映射^DC,即数据库中的元组ti分配到某个类Cj中,有Cj={tilf(ti)=Cj,IWiWn,且ti^D}。

ID3算法:

ID3算法是国际上最具影响和最早的决策树算法。

首先通过检验数据库中的所有字段,找出具有最大信息增益Gian(A)的字段作为决策树碑的一个结点,再根据字段的不同取值建立树的分支,对每个子集分支重复建立下层结点和分支,直到某一子集的结果属于同一类。

信息量计算公式:

I(s1,s2, ,sm)=—EPilog2(pi)(i=1,…,m)

(S是s个数据样本的集合。类别属性具有m个不同值Ci。

si是类Ci中的样本数。pi是任意样本属于类别Ci的概率,并用si/s估计。)由非类别属性A划分为子集的熵(也叫做信息熵)计算公式为:E(A)=E(s1j+ +smj)/s*I(s1j, ,smj)

(非类别属性A具有v个不同值{a1,a2,…,av}。利用属性A将集合S划

Day

outlook

TemperatuHumidityre

Wind

Playball

1

Hot

High

Weak

No

2

Hot

High

StrongNo

3

多云

Hot

High

Weak

Yes

4

有雨

mild

High

Weak

Yes

5

有雨

Cool

Normal

Weak

Yes

6

有雨

Cool

Normal

StrongNo

7

多云

Cool

Normal

StrongYes

8

mild

High

Weak

No

9

Cool

Normal

Weak

Yes

10

有雨

mild

Normal

Weak

Yes

11

mild

Normal

StrongYes

12

多云

mild

High

StrongYes

13

多云

hot

Normal

Weak

Yes

14

有雨

mild

High

StrongNo

分为v个子集{S1,S2,…,Sv};其中Sj包含S集合中在属性A上具有值aj的数据样本。

Sij是子集Sj中类Ci的样本数(Sij是子集Sj中类Ci的样本数)。)

信息增益:Gain(A)=I(s1,s2,……,sm)-E(A)

例题:

类C1运动=“适合”,

类C2对运动=“不适合”

I(s1,s2)=I(9,5)=0.940

计算属性天气的熵:: 5 4

E(天气)=14/(2'3)+14/(4,0)

+乏I(3,2)=0.971

14

Gain(天气)=I(s1,s2)-E(天气)=0.246

天气

C1

C2

l(pn)

晴朗

2

3

0.971

多云

4

0

0

有雨

3

2

0.971

Gain(温度)=0.029

Gain(湿度)=0.151

Gain(风况)=0.048

贝叶斯分类方法:

贝叶斯分类方法是一种基于统计的学习方法,利用概率统计进行学习分类,如预测一个数据对象属于某个类别的概率。

贝叶斯定理:

P(H|X)=

P(X|H)P(H)

P(X)

主要算法:朴素贝叶斯分类、贝叶斯信念网络分类算法等。

朴素贝叶斯分类:

朴素贝叶斯分类算法利用贝叶斯定理来预测一个未知类别的样本属于各个类别的可能性,选择可能性最大的一个类别作为该样本的最终类别。

原理:

设样本有n个属性(A1,A2,...,An),每个样本可看作是n维空间的一个点X=(x1,x2,...,xn)。

假定有m个不同的类别,C1,C2,....Cm。X是一个未知类别的样本。预测X的类别为后验概率最大的那个类别,即算法将未知类别的样本X归到类Ci,当且仅当

P(Ci|X)>P(CjlX),对于所有的[成立(1WjWm,j尹i)即P(CilX)最大。

根据贝叶斯定理得知

P(CilX)=P(XlCi)P(Ci)/P(X)。

P(X)对于所有类为常数,因此只需P(XlCi)P(Ci)取最大即可

类的先验概率P(Ci)由P(Ci)=si/s估算

Si训练样本中属于类Ci的样本数,s全部训练样本的样本数。

给定具有多属性的数据集,计算P(xlCi)的开销可能非常大,为降低计算P(xlCi)的开销,朴素贝叶斯做了类条件独立假设,即假定一个属性值对给定类的影响独立于其他属性值,属性之间不存在依赖关系,则:

P(XlCi)=P(x1lCi)P(x2lCi)...P(xnlCi)

对未知样本X分类,对每个类Ci,分别计算P(XlCi)P(Ci)。

样本X被指派到类Ci,当且仅当

P(XlCi)P(Ci)>P(XlCj)P(Cj),(IWjWm,j尹i)即X被指派到其P(XlCi)P(Ci)最大的类Ci。

算法描述:

函数名:NaiveBayes

输入:类别号未知的样本X={x1,x2,・・・xn}

输出:未知的样本X所属类别号

forj=1tom

计算X属于每个类别Cj的概率

P(XlCj)=P(x1lCj)P(x2lCj)...P(xnlCj);

计算训练集中每个类别Cj的概率P(Cj);

计算概率值Q=P(XlCj)*P(Cj);

endfor

选择计算概率值Q最大的Ci(1<=i<=m)作为类别

输出。

例题:

Day

outlook

TemperatuHumidityre

Wind

Playball

1

Hot

High

Weak

No

2

Hot

High

StrongNo

3

多云

Hot

High

Weak

Yes

4

有雨

mild

High

Weak

Yes

5

有雨

Cool

Normal

WeakYes

6

有雨

Cool

Normal

StrongNo

7

多云

Cool

Normal

StrongYes

8

mild

High

WeakNo

9

Cool

Normal

WeakYes

10

有雨

mild

Normal

WeakYes

11

mild

Normal

StrongYes

12

多云

mild

High

StrongYes

13

多云

hot

Normal

WeakYes

14

有雨

mild

High

StrongNo

使用朴素贝叶斯算法预测未知样本:

x={rainy,hot,normal,weak,?}属性play为yes还是no的概率。

1、 P(play=yesIx)=P(xIplay=yes)*P(play=yes)

=P(xjplay=yes)*P(x2Iplay=yes)*...*P(x4Iplay=yes)*P(play=yes)

P(x1|play=yes)=P(outlook=rainy|play=yes)=3/9

P(x2|play=yes)=P(tem=hot|play=yes)=2/9

P(x3|play=yes)=P(humidity=normal|play=yes)=6/9

P(x4|play=yes)=P(wind=weak|play=yes)=6/9

所以,P(play=yes|x)=3/9*2/9*6/9*6/9*9/14=0.021

2、 P(play=no|x)=P(x|play=no)*P(play=no)

=P(x1|play=no)*P(x2|play=no)*・・・*P(x4|play=no)*P(play=no)

P(x1|play=no)=P(outlook=rainy|play=no)=2/5

P(x2|play=no)=P(tem=hot|play=no)=2/5

P(x3|play=no)=P(humidity=normal|play=no)=1/5

P(x4|play=no)=P(wind=weak|play=no)=2/5

所以,P(play=no|x)=2/5*2/5*1/5*2/5*5/14=0.0045

拉普拉斯(Laplace):朴素贝叶斯分类算法在计算概率的时候存在概率=0,及概率值可能很小的情况,所以,在某些情况下,需要考虑条件概率的Laplace估计和解决小概率相乘溢出问题。

条件概率=0,用条件概率的Laplace估计。

Laplace估计定义:

P(XilYj)=(nc+l*p)/(n+l)

N是类Yj中的实例总数,nc是类Yj的训练样例中取值为Xi的样例数,lp例题:

序号

是否有房

婚姻状况

年收入

拖欠贷款

1

Yes

Single

125K

No

2

No

Married

100K

No

3

No

Single

70K

No

4

Yes

Married

120K

No

5 :

No

Divorced

95K

Yes

6

No

Married

60K

No

7

Yes

Divorced

220K

No

8

No

Single

85K

Yes

9

No

Married

75K

No

10

No

Single

90K

Yes

当条件概率为0时,用Laplace估计求X=(yes,single,80k,?)拖欠贷款的属性为yes还是no的概率。

设是否有房为X1,婚姻状况为x2,年收入为x3.

1)P(拖欠贷款=yes|x)=P(x|拖欠贷款=yes)XP(拖欠贷款=yes)

=P(x1|拖欠贷款=yes)XP(x2|拖欠贷款=yes)XP(x3|拖欠

贷款=yes)XP(拖欠贷款=yes)

P(x1|拖欠贷款=yes)=(0+3X1/3)/3+3=1/6

P(x21拖欠贷款=yes)=2/3

P(x3l拖欠贷款=yes)= —/算=0.589

12兀。 yes

ci

x3(平均)=(95k+85k+90k)/3=90k

2)P(拖欠贷款=眼lx)=P(xl拖欠贷款=no)XP(拖欠贷款=no)

=P(x11拖欠贷款=no)XP(x21拖欠贷款=no)XP(x3|拖欠贷款=no)

XP(拖欠贷款=no)

P(x11拖欠贷款=no)=3/7

P(x21拖欠贷款=no)=2/7

1 80-110

P(x3|拖欠贷款=no)= —。2%=

3 、'2兀。

ci

X3(平均)=(125k+100k+70k+120k+60k+220k+75k)=110k

2、聚类

a) 聚类(Clustering)是一个将数据集划分为若干组(class)或类(cluster)的过程,并使得同一个组内的数据对象具有较高的相似度;而不同组中的数据对象是不相似的。

b) 有关的聚类方法(类型)主要有:划分类方法、分层类方法、基于密度类方法、基于网格类方法和基于模型类方法。

c) 聚类和分类的相同点和不同点分析:一是按照定义区分;二是聚类不依赖于预先定义好的类,它要划分的是未知的;是无指导学习,聚类是观察式学习,而不是示例式学习。(聚类又称分段,是一种对具有共同趋势和模式的数据元组进行分组的方法。)

d) 无论如何最大程度的实现类中对象相似度最大,类间相似度最小是聚类分析的指导思想。

e) 数据挖掘对聚类算法的典型要求如下:可伸缩性

处理不同类型属性的能力

发现任意形状的聚类

需要(由用户)决定的输入参数最少

处理噪声数据的能力

对输入记录顺序不敏感

高维问题

基于约束的聚类

可解释性和可用

区间标度变量计算方法:

数据标准化:计算绝对偏差的平均值

s=n(Ix—mI+1x—mI+...+1x—mI)

f 1f f 2f f nff

mf=+...+%).

计算标准度量值(z-score):

x-m

Z=祈。f

if —S

f

二元变量计算方法:

一个二元变量只有两个状态0或1,0表示该变量为空,1表示该变量存在。

两个变量0和1没有优先权,则二元变量为对称,相反,如果两个状态输出不是同等重要,那么该二元变量是不对称的。

对称的二元变量计算其相异度公式

d(i,j)=(r+s)/(q+r+s+t)

非对称的二元变量:d(i,j)=(r+s)/(q+r+s)

其中q表示对象i和j都为1的变量数目,r是对象i为1而对象j为0的变量数目。,是对象i为0对象j为1的变量数目,t是对象i和j都为0的变量数目。变量的总数是p=q+r+s+t。

例题:

计算相异度:

Name是对象标识,gender是对称的二元变量,其余的属性都是非对称的二元变量。(计算非对称二元变量)

Name

Gender

Fever

Cough

Test-1

Test-2

Tcst-3

Tcst-4

Jack

M

Y

N

P

N

N

N

Mary

F

Y

N

P

N

P—

N.

•酒看原图

Jun

M

Y

P

N

N

N

N

d(Jack,Mary)=(0+1)/(2+0+1)=0.33d

(Jack,Jim)=(1+1)/(1+1+1)=0.67

d(Jim,Mary)=(1+2)/(1+1+2)=0.75

上面的值显示Jim和Mary不可能有相似的疾病,因为他们有着最高的相似度。

在这三人中,Jack和Mary最有可能有类似的疾病。

相对于对称的二元变量,不对称的二元变量基于不对称的二元变量的相似度称为非恒定的相似度,且变量的两个状态的重要性不同,可用d(i,j)=(b+c)/(a+b+c)

当我被上帝造出来时,上帝问我想在人间当一个怎样的人,我不假思索的说,

我要做一个伟大的世人皆知的人。于是,我降临在了人间。

我出生在一个官僚知识分子之家,父亲在朝中做官,精读诗书,母亲知书答

礼,温柔体贴,父母给我去了一个好听的名字:李清照。

小时侯,受父母影响的我饱读诗书,聪明伶俐,在朝中享有“神童”的称号。

小时候的我天真活泼,才思敏捷,小河畔,花丛边撒满了我的诗我的笑,无可置

疑,小时侯的我快乐无虑。

“兴尽晚回舟,误入藕花深处。争渡,争渡,惊起一滩鸥鹭。”青春的我如同

一只小鸟,自由自在,没有约束,少女纯净的心灵常在朝阳小,流水也被自然洗

礼,纤细的手指拈一束花,轻抛入水,随波荡漾,发髻上沾着晶莹的露水,双脚任水流轻抚。身影轻飘而过,留下一阵清风。

可是晚年的我却生活在一片黑暗之中,家庭的衰败,社会的改变,消磨着我那柔弱的心。我几乎对生活绝望,每天在痛苦中消磨时光,一切都好象是灰暗的。“寻寻觅觅冷冷清清凄凄惨惨戚戚”这千古叠词句就是我当时心情的写照。

最后,香消玉殒,我在痛苦和哀怨中凄凉的死去。

在天堂里,我又见到了上帝。上帝问我过的怎么样,我摇摇头又点点头,我的一生有欢乐也有坎坷,有笑声也有泪水,有鼎盛也有衰落。我始终无法客观的评价我的一生。我原以为做一个着名的人,一生应该是被欢乐荣誉所包围,可我发现我错了。于是在下一轮回中,我选择做一个平凡的人。

我来到人间,我是一个平凡的人,我既不着名也不出众,但我拥有一切的幸福:我有温馨的家,我有可亲可爱的同学和老师,我每天平凡而快乐的活着,这就够了。

天儿蓝蓝风儿轻轻,暖和的春风带着春的气息吹进明亮的教室,我坐在教室的窗前,望着我拥有的一切,我甜甜的笑了。我拿起手中的笔,不禁想起曾经作诗的李清照,我虽然没有横溢的才华,但我还是拿起手中的笔,用最朴实的语言,写下了一时的感受:

人生并不总是完美的,每个人都会有不如意的地方。这就需要我们静下心来阅读自己的人生,体会其中无尽的快乐和与众不同。

“富不读书富不久,穷不读书终究穷。”为什么从古到今都那么看重有学识之

人?那是因为有学识之人可以为社会做出更大的贡献。那时因为读书能给人带来快乐。

自从看了《丑小鸭》这篇童话之后,我变了,变得开朗起来,变得乐意同别人交往,变得自信了因为我知道:即使现在我是只“丑小鸭”,但只要有自信,总有一天我会变成“白天鹅”的,而且会是一只世界上最美丽的“白天鹅”......

我读完了这篇美丽的童话故事,深深被丑小鸭的自信和乐观所折服,并把故事讲给了外婆听,外婆也对童话带给我们的深刻道理而惊讶不已。还吵着闹着多看几本名

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论