




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第 PAGE29 页 共 NUMPAGES29 页文本挖掘算法总结文本数据挖掘算法应用小结 1、基于概率统计的贝叶斯分类 2、ID3 决策树分类 3、基于粗糙集理论Rough Set的确定型知识挖掘 4、基于k-means聚类 5、无限细分的模糊聚类Fuzzy Clustering 6、SOM神经元网络聚类 7、基于Meaning的文本相似度计算 8、文本模糊聚类计算 9、文本k-means聚类 10、文本分类 11、关联模式发现 12、序列模式发现 13、PCA主成分分析p 1、基于概率统计的贝叶斯分类 算法概述:贝叶斯公式是由英国数学家( Thomas Bayes 1702-1763 )创
2、造,用来描述两个条件概率之间的关系,比如 P(A|B) 为当“B”事件发生时“A”事件发生的概率,按照乘法法则: P(AB)=P(A)*P(B|A)=P(B)*P(A|B),可导出 贝叶斯公式:P(A|B)=P(B|A)*P(A)/P(B) 贝叶斯分类基本思想为:设决策变量为D,D1,D2,Di,Dk为n条记录组成的样本空间S的一个划分,将n条记录划分成k个记录集合,如果以P(Di)表示事件Di发生的概率,且P(Di) 0 ( i=1,2,k)。对于任一事件x,P(x)0,则有: 贝叶斯分类的基本原理,就是利用贝叶斯条件概率公式,将事件X视为多个条件属性Cj各种取值的组合,当x事件发生时决策属
3、性Di发生的条件概率。贝叶斯分类是一种概率型分类知识挖掘方法,不能百分之百地确定X事件发生时Di一定发生。 解决问题:预测所属分类的概率。通过已知n条样本集记录,计算各种条件属性组发生的概率,得出“贝叶斯分类”规则,给定一个未知“标签”记录,选择最大概率为其所属“分类”。 2、ID3 决策树分类 算法概述:ID3算法是J.Ross Quinlan在1975提出的分类算法,当时还没有“数据挖掘”的概念。该算法以信息论为基础,以信息熵和信息增益度来确定分枝生成决策树D-Tree。ID3算法以决策树D-Tree构建分类知识模型,D-Tree中最上面的节点为根节点Root,每个分支是一个新的决策节点,
4、或者是树的叶子。每个决策节点代表一个问题或决策,每一个叶子节点代表一种可能的分类结果,沿决策树在每个节点都会遇到一个测试,对每个节点上问题的不同取值导致不同的分支,最后会到达一个叶子节点为确定所属分类。 解决问题:预测所属分类。通过已知样本集记录,生成一颗“分类知识树”, 给定一个未知“标签”记录,通过“分类知识树”来确定其所属分类。 3、基于粗糙集理论Rough Set的确定型知识挖掘 算法概述:1982年波兰学者Z.Paw lak 提出了粗糙集理论Rough Sets Theory,它是一种刻划不完整性和不确定性的数学工具,能有效分析p 不精确、不一致(Inconsistent)、不完整(
5、Inplete) 等各种不完备信息,利用数据进行分析p 和推理,从中发现隐含的知识,揭示潜在的规律。粗糙集理论是继概率论、模糊集、证据理论之后的又一个处理不确定性事物的数学工具。粗糙集理论是建立在分类机制的基础上的,它将分类理解为在特定空间上的等价关系,而等价关系构成了对该空间的划分。粗糙集理论将知识理解为对数据的划分,每一被划分的集合称为概念。其主要思想是利用已知的知识库,将不精确或不确定的知识用已知的知识库中的知识来(近似) 刻画。 解决问题:预测所属分类。粗糙集分类将样本空间S划分为上近似集(Upper approximation)、下近似集(Lower approximation)、边
6、界集(Boundary region),挖掘条件属性C与决策属性D集合所包含的不可分记录(不能再细分,该集合中的所有记录都属于某一决策属性Di的取值),这些记录形成不可辨识的关系(Indiscernibility relation),由此确定分类规则: IF THEN 即,如果满条件C,则其所属分类为Di。IF中的条件C可以是单一条件,也可以是组合and(并且)组合条件。 BIC给出的是“最小分类规则”。所谓“最小分类规则”是,最少的条件组合。例如一个人属于“高”、“富”、“帅”,条件为:“身高”、“财富”、“工资性收入”、“财产性收入”、“产业收入”、“脸型”、“眼睛大小”、“鼻梁形状”、“
7、英俊”等条件来判别,通过“粗糙集”分类计算,得出最小分类规则可能是 “IF 财富=XXX1 and 身高=185cm and 相貌=英俊” 其他条件可以忽略不计,这就是“最小分类规则”。 “粗糙集”分类规则为“百分之百确定型”分类规则,这是对样本集的统计结果,如果出现非“样本集”中出现过的条件变量属性,将无法得出“粗糙集”,可转而使用概率型“贝叶斯分类”进行计算。 4、基于k-means聚类 算法概述:给定一个包括n条记录、每条记录有m个属性 的样本集,再给出分类数k,要求将样本集中的记录,按记录间的相似性大小(或距离远近),将相似性最大(或距离最近)的记录划分到k个类中,相同分类中记录间的距
8、离要尽可能地小,而分类之间的距离要尽可能地大。 BIC改进了常规的k-means聚类算法,在聚类过程中,同时计算分类质量(类内均差 、类间均距和),并求解最优聚类max。 解决问题:将n条记录聚成k个分类。对n个样本集记录,指定分类个数k,为k个分类指定初始迭代记录为k个分类中心,通过计算其他记录对k个分类中心的距离,对不断变换分类、变换类中心,收敛都当分类不再变化时,计算结束。由此,将n个样本集记录分配到k个分类中,得到k个分类中心指标。 5、无限细分的模糊聚类Fuzzy Clustering 算法概述:在实际解决聚类问题时,很多数事物是“模糊”的,其特征属性A无法确进行量化,如:人的相貌、
9、人与人之间的关系、人的性格、购买商品的意愿等,这就需要用模糊数学来进行相似性计算。模糊数学是伴随着上世纪五六十年代兴起的控制论、信息论、系统论(俗称“老三论”)而形成的一种决策方法,是美国加利福尼亚大学伯克利分校Lotfi Zadeh教授于1965年创立的。 模糊聚类基本计算步骤为: (1)将样本集中的n条记录变换成n x n的模糊相似矩阵;(2)通过传递包卷积计算将模糊相似矩阵变换成等价相似矩阵;(3)最后通过截矩阵将n条记录分成1-n个分类。 K-means聚类需事先确定聚类数k,而模糊聚类Fuzzy Clustering无需事先确定聚类数k,可以从最小的k=1(所有学习集中的n条记录为1
10、个分类),到k=n(所有学习集中的n条记录各为1个分类)。 解决问题:将n条记录聚成1-n个分类。模糊聚类Fuzzy Clustering算法完全基于数据自然状况进行聚类,可产生聚类的解集合(k=1,2,n),因此,可以在解集合中求解最优聚类max,这对观察分析p 样本集的数据性态非常有用,可供观察不同情况下的“聚类”状况。 6、SOM神经元网络聚类 算法概述:人类对事物的认知是一个不断积累的过程,通过对事物的观察,不断地认识和修正因果关系,最后逐渐稳定为认知规则。医学证明,人眼的视网膜、脊髓和海马中存一种侧抑制现象,即,当一个神经细胞兴奋后,会对其周围的神经细胞产生抑制作用。这种侧抑制使神经
11、细胞之间呈现出竞争,开始时可能多个细胞同时兴奋,但一个兴奋程度最强的神经细胞对周围神经细胞的抑制作用也最强,其结果使其周围神经细胞兴奋程度减弱,从而该神经细胞是这次竞争的“胜者”,其它神经细胞在竞争中失败。 1981年芬兰学者kohonen提出一个称为自组织特征映射(Self Organization Feature Map-SOM或SOFM)网络,前述大脑神经细胞兴奋规律等,在该网络中都得到了反应。在竞争层神经元之间的连线,它们是模拟生物神经网络层内神经元相互抑制现象的权值,这类抑制性权值满足一定的分布关系,如距离近的抑制强,距离远的抑制弱。 通过上述可知,SOM聚类算法设计的核心思想是体现
12、神经元在认知过程中的3个特性: (1)根据样本比较,逐步积累、不断修正、渐近稳定特性? (2)神经元之间的侧抑由近到远、逐步衰弱制特性? (3)神经元兴奋区域随认知次数逐步缩小范围特性? BIC采用欧氏距离作为输入模式Xi与各输出神经元Wj之间的相似度,选择具有最小距离的神经元为兴奋神经元;采用(1-ti/tm)作为学习衰减函数,其中ti 为当前学习次数(第几次样本训练),tm 为总的学习数,以此来体现上述特性“1”;采用(1-ti/T)、C/Wij作为神经元侧抑制函数,其中C为设定的常数、Wij为被选中的神经元与其他神经元最远距离,来体现上述特性“2”、“3”。 解决问题:将n条记录按m个输
13、出神经元聚成m个分类。模仿人类的学习方法,对事物的认识是一个由浅入深、逐步学习、修正的过程,将对各种要素组态的认识逐步稳定到认知领域,由此进行“聚类”。 7、基于Meaning的文本相似度计算 算法概述:给出一组n个文档D,BIC为每个文档计算出一组最具有代表性的词组,同时,计算出相互间内容接近度及接近序列。 BIC的Meaning挖掘与自动搜索不同于现有Baidu、Google人工输入【关键词】:p 的搜索方式,现有搜索引擎不考虑语义和语境,只考虑词W与文档D的包含关系和词在文档内的频数TF,因此,【关键词】:p 的搜索与文档内容无关。 例如:“姚明”是中国篮球的骄傲,但“姚明”还投身于公益
14、事业,如果在搜索引擎中输入“姚明”,不见得搜索的文档内容只包含与篮球相关的内容,还可能包括公益及其他包含“姚明”的文档,可见,【关键词】:p 搜索具有不确定性。如果在搜索引擎输入一组词 “姚明”、“得分”、“篮板”,搜出文档是篮球比赛内容的概率更大,显然 ,形成的交集缩小了搜索范围,但组词 “姚明”、“得分”、“篮板”是经过人思考给出的。 BIC通过计算得出文档代表词组,相当于人工输入 “姚明”、“得分”、“篮板”,同时计算词在句子中语序关系的发生概率与马尔科夫链,因此,能够更好地确定搜索词的语义和语境,通过对文档间的相关性(接近度)进行聚类计算,可按Meaning“接近度”进行自动搜索而无需
15、人工干预,并随文档内容的变化而自动跟踪Meaning变化,使搜索更加准确、更加自动化,让搜索“随用户的心而动”。 BIC可用于基于Meaning计算的搜索、舆情分析p 、特定情报分析p 、垂直搜索和相似内容推荐等文本挖掘。 解决问题:计算两个文本的相似度。 8、文本模糊聚类计算 算法概述:基于模糊聚类算法,BIC首先计算将n个文本组成相似矩阵(第i个文本文档对第j个文本文档的相似度),然后将相似矩阵变成模糊相似矩阵,通过求模糊相似矩阵的等价矩阵和截矩阵,将n个文本文档分成1-n个分类,同时,按相同分类中的文本具有最接近的内容相似度Min,不同文本分类间具有最大差异Max,来求解按文本内容进行最
16、优分类方案。 解决问题:在不确定将文本划分成几类的情况下,将n个文本聚成1-n个分类,以此来观察“聚类”效果。 9、文本k-means聚类 算法概述:基于k-means聚类,在BIC平台上,用户上传或输入n个文本,确定希望分类数量k和k个分类样本,BIC将以k个样本作为初始迭代点进行k-means聚类计算,将n个文本分成k个分类。 解决问题:在已经确定了k个分类的情况下,将文本划分到k个“分类”中。 10、文本分类 算法概述:通过“文本模糊聚类”或“文本k-means”聚类,BIC不仅将n个文本按内容相似度进行分类,同时挖掘出各个分类的“分类代表词组”,以后,用户任意给出一个文本,BIC将根据
17、其对各个“分类代表词组”的相似度,选择最相似的分类MaxSimi,将该待分类文档分配到MaxSimi类。 解决问题:在已经完成文本聚类的情况下,将不确定的文本划分到“分类”中。 11、关联模式发现 算法概述:关联分析p 的目的是挖掘隐藏的关联(Association) 模型,最著名的关联模式应用是挖掘“购物篮”问题,是从发现购买行中,发现商品之间的关联关系。 给定一组交易记录: 每笔交易ID包含m个商品,n条记录组成二维表,构成 矩阵,BIC可计算得出任意两商品组合的Confidence(A-B)=P(A | B)置信度和支持度Support(A-B)=P(A U B),可用于分析p 商品之间
18、的关联性“购物篮”问题。 BIC的关联模式发现是一个快速、交互式Apriore计算过程:从发现最基本的2个Item关联高频项集开始,计算支持度Support(A-B)=P(A U B)和置信度Confidence(A-B)=P(A | B),逐步计算和发现2、3、4 Item关联频繁项集。 因为: (1)任何求解高频关联事务T中的项数Item必然大于等于2,如果只有1个Item不存在关联;(2)任何交易记录T中无论有多少个Item组合,如果存在大于2个Item的高频组合,都必然存在2关联的高频真子集。 如:交易记录T1=Item1,Item2,交易记录T2=Item1,Item3,Item4,
19、Item2,则T1为T2的非空真子集T1T2。 所以,如果存在3关联的高频Item组合,必然存在2关联的高频组合;如果存在4关联的Item高频组合,必然存在3关联高频组合。BIC就是通过最基本的2关联高频项集发现开始,逐步缩小记录集合,逐步发现所有任意数量Item组合的高频项集。因此,BIC的关联计算是一个快速、交互式计算的Apriore算法。 解决问题:从样本集中发现有较强“置信度”的关联规则。 12、序列模式发现 算法概述:算法原理同“关联分析p ”,但统计点在于事物(或商品购买)发生的先后序列。 如商品购买行为预测:汽车改装爱好者,购买某种品牌增压器的人,很多人后来还购买了活塞环、又购买
20、了某品牌机油,通过序列分析p ,发现其购买序列、预测下一步购买行为;如疾病诊断:患有某种疾病的人,先出现A症状、后出现B症状、又出现C症状,通过出现症状的序列分析p ,发现疾病发生、发展的序列模式,对疾病进行诊断;如Web访问行为模式发现:每个IP访问网站都是一个Web会话Session,每个Session由一系列的URL序列组成,通过Session计统计得到高频URL序列,预测用户的访问行为;不限于上述例子,还包括生物进化序列模式、DNA序列、地震、火灾、战争冲突爆发序列模式预测等,序列规律是大量存在的,只要有足够的统计数据,都可以通过BIC发现最率并进行预测。 序列模式发现与关联模式发现在
21、算法上很相似,但序列模式强调Item的先后顺序,而关联模式发现不关心顺序,只看是否在一个事物T中2个Item(或多个)是否同时出现。 BIC的序列模式发现是一个快速、交互式Apriore计算过程:从发现2个Item序列高频序列开始,计置信度Confidence(A-B)=P(A | B),逐步计算和发现2、3、4Item序列频繁序列。 因为: (1)任何求解高频序列事务T中的项数Item必然大于等于2,如果只有1个Item不存在关联;(2)任何事务记录T中无论有多少个Item序列组合,如果存在大于2个Item的高频序列组合,都必然存在2序列的高频序列真子集。 如:事务序列记录T1=Item1,
22、Item2,事务序列记录T2=Item1,Item3,Item4,Item2,则T1为T2的非空真子集T1T2。 所以,如果存在3个Item序列的高频Item组合,必然存在2序列的高频序列组合,如果存在4个Item的高频序列组合,必然存在3高频序列组合。BIC就是通过最基本的2序列高频序列发现开始,逐步缩小记录集合,逐步发现所有任意数量Item组合的高频序列组合。因此,BIC的序列计算是一个*快速、交互式计算的Apriore算法。 解决问题:序列模式发现的目的是挖掘事务发生、发展的序列 (Sequencing)模式,从样本集发现有较强“置信度”的序列规则。 13、PCA主成分分析p 算法概述:
23、假设一个事物由多种因素构成,设有n个样本,每个样本共有m个属性(指标、构成要素),构成一个nm阶的成分数据矩阵, PCA算法的目的是: (1)降低维度 当矩阵X的维数m较大时,在m维空间中考察问题比较麻烦,需要降低维度,在不影响对事物评价的基础上,选择较少的几个主要指标P(p 0 ( i=1,2,k)。对于任一事件x,P(x)0,则有:贝叶斯分类的基本原理,就是利用贝叶斯条件概率公式,将事件X视为多个条件属性Cj各种取值的组合,当x事件发生时决策属性Di发生的条件概率。贝叶斯分类是一种概率型分类知识挖掘方法,不能百分之百地确定X事件发生时Di一定发生。解决问题:预测所属分类的概率。通过已知n条
24、样本集记录,计算各种条件属性组发生的概率,得出“贝叶斯分类”规则,给定一个未知“标签”记录,选择最大概率为其所属“分类”。2、ID3 决策树分类算法概述:ID3算法是J.Ro Quinlan在1975提出的分类算法,当时还没有“数据挖掘”的概念。该算法以信息论为基础,以信息熵和信息增益度来确定分枝生成决策树D-Tree。ID3算法以决策树D-Tree构建分类知识模型,D-Tree中最上面的节点为根节点Root,每个分支是一个新的决策节点,或者是树的叶子。每个决策节点代表一个问题或决策,每一个叶子节点代表一种可能的分类结果,沿决策树在每个节点都会遇到一个测试,对每个节点上问题的不同取值导致不同的
25、分支,最后会到达一个叶子节点为确定所属分类。解决问题:预测所属分类。通过已知样本集记录,生成一颗“分类知识树”, 给定一个未知“标签”记录,通过“分类知识树”来确定其所属分类。3、基于粗糙集理论Rough Set的确定型知识挖掘算法概述:1982年波兰学者Z.Paw lak 提出了粗糙集理论Rough Sets Theory,它是一种刻划不完整性和不确定性的数学工具,能有效分析p 不精确、不一致(Inconsistent)、不完整(Inplete) 等各种不完备信息,利用数据进行分析p 和推理,从中发现隐含的知识,揭示潜在的规律。粗糙集理论是继概率论、模糊集、证据理论之后的又一个处理不确定性事
26、物的数学工具。粗糙集理论是建立在分类机制的基础上的,它将分类理解为在特定空间上的等价关系,而等价关系构成了对该空间的划分。粗糙集理论将知识理解为对数据的划分,每一被划分的集合称为概念。其主要思想是利用已知的知识库,将不精确或不确定的知识用已知的知识库中的知识来(近似) 刻画。 解决问题:预测所属分类。粗糙集分类将样本空间S划分为上近似集(Upper approximation)、下近似集(Lower approximation)、边界集(Boundary region),挖掘条件属性C与决策属性D集合所包含的不可分记录(不能再细分,该集合中的所有记录都属于某一决策属性Di的取值),这些记录形成
27、不可辨识的关系(Indiscernibility relation),由此确定分类规则: IF THEN 即,如果满条件C,则其所属分类为Di。IF中的条件C可以是单一条件,也可以是组合and(并且)组合条件。BIC给出的是“最小分类规则”。所谓“最小分类规则”是,最少的条件组合。例如一个人属于“高”、“富”、“帅”,条件为:“身高”、“财富”、“工资性收入”、“财产性收入”、“产业收入”、“脸型”、“眼睛大小”、“鼻梁形状”、“英俊”等条件来判别,通过“粗糙集”分类计算,得出最小分类规则可能是“IF 财富=XXX1 and 身高=185cm and 相貌=英俊” 其他条件可以忽略不计,这就是
28、“最小分类规则”。“粗糙集”分类规则为“百分之百确定型”分类规则,这是对样本集的统计结果,如果出现非“样本集”中出现过的条件变量属性,将无法得出“粗糙集”,可转而使用概率型“贝叶斯分类”进行计算。4、基于k-means聚类算法概述:给定一个包括n条记录、每条记录有m个属性 的样本集,再给出分类数k,要求将样本集中的记录,按记录间的相似性大小(或距离远近),将相似性最大(或距离最近)的记录划分到k个类中,相同分类中记录间的距离要尽可能地小,而分类之间的距离要尽可能地大。 BIC改进了常规的k-means聚类算法,在聚类过程中,同时计算分类质量(类内均差 、类间均距 和 ),并求解最优聚类max
29、。解决问题:将n条记录聚成k个分类。对n个样本集记录,指定分类个数k,为k个分类指定初始迭代记录为k个分类中心,通过计算其他记录对k个分类中心的距离,对不断变换分类、变换类中心,收敛都当分类不再变化时,计算结束。由此,将n个样本集记录分配到k个分类中,得到k个分类中心指标。5、无限细分的模糊聚类Fuzzy Clustering 算法概述:在实际解决聚类问题时,很多数事物是“模糊”的,其特征属性A无法确进行量化,如:人的相貌、人与人之间的关系、人的性格、购买商品的意愿等,这就需要用模糊数学来进行相似性计算。模糊数学是伴随着上世纪五六十年代兴起的控制论、信息论、系统论(俗称“老三论”)而形成的一种
30、决策方法,是美国加利福尼亚大学伯克利分校Lotfi Zadeh教授于1965年创立的。 模糊聚类基本计算步骤为:(1)将样本集中的n条记录变换成n x n的模糊相似矩阵;(2)通过传递包卷积计算将模糊相似矩阵变换成等价相似矩阵; (3)最后通过截矩阵将n条记录分成1-n个分类。K-means聚类需事先确定聚类数k,而模糊聚类Fuzzy Clustering无需事先确定聚类数k,可以从最小的k=1(所有学习集中的n条记录为1个分类),到k=n(所有学习集中的n条记录各为1个分类)。解决问题:将n条记录聚成1-n个分类。模糊聚类Fuzzy Clustering算法完全基于数据自然状况进行聚类,可产
31、生聚类的解集合 max(k=1,2,n),因此,可以在解集合中求解最优聚类 ,这对观察分析p 样本集的数据性态非常有用,可供观察不同情况下的“聚类”状况。6、SOM神经元网络聚类算法概述:人类对事物的认知是一个不断积累的过程,通过对事物的观察,不断地认识和修正因果关系,最后逐渐稳定为认知规则。医学证明,人眼的视网膜、脊髓和海马中存一种侧抑制现象,即,当一个神经细胞兴奋后,会对其周围的神经细胞产生抑制作用。这种侧抑制使神经细胞之间呈现出竞争,开始时可能多个细胞同时兴奋,但一个兴奋程度最强的神经细胞对周围神经细胞的抑制作用也最强,其结果使其周围神经细胞兴奋程度减弱,从而该神经细胞是这次竞争的“胜者
32、”,其它神经细胞在竞争中失败。 1981年芬兰学者kohonen提出一个称为自组织特征映射(Self Organization Feature Map-SOM或SOFM)网络,前述大脑神经细胞兴奋规律等,在该网络中都得到了反应。在竞争层神经元之间的连线,它们是模拟生物神经网络层内神经元相互抑制现象的权值,这类抑制性权值满足一定的分布关系,如距离近的抑制强,距离远的抑制弱。通过上述可知,SOM聚类算法设计的核心思想是体现神经元在认知过程中的3个特性: (1)根据样本比较,逐步积累、不断修正、渐近稳定特性? (2)神经元之间的侧抑由近到远、逐步衰弱制特性? (3)神经元兴奋区域随认知次数逐步缩小范
33、围特性?BIC采用欧氏距离作为输入模式Xi与各输出神经元Wj之间的相似度,选择具有最小距离的神经元为兴奋神经元;采用(1-ti/tm)作为学习衰减函数,其中ti 为当前学习次数(第几次样本训练),tm 为总的学习数,以此来体现上述特性“1”; 采用(1-ti/T)、C/Wij作为神经元侧抑制函数,其中C为设定的常数、Wij为被选中的神经元与其他神经元最远距离,来体现上述特性“2”、“3”。解决问题:将n条记录按m个输出神经元聚成m个分类。模仿人类的学习方法,对事物的认识是一个由浅入深、逐步学习、修正的过程,将对各种要素组态的认识逐步稳定到认知领域,由此进行“聚类”。7、基于Meaning的文本
34、相似度计算 算法概述:给出一组n个文档D具有代表性的词组,BIC为每个文档计算出一组最,同时,计算出相互间内容接近度及接近序列。BIC的Meaning挖掘与自动搜索不同于现有Baidu、Google人工输入【关键词】:p 的搜索方式,现有搜索引擎不考虑语义和语境,只考虑词W与文档D的包含关系和词在文档内的频数TF,因此,【关键词】:p 的搜索与文档内容无关。 例如:“姚明”是中国篮球的骄傲,但“姚明”还投身于公益事业,如果在搜索引擎中输入“姚明”,不见得搜索的文档内容只包含与篮球相关的内容,还可能包括公益及其他包含“姚明”的文档,可见,【关键词】:p 搜索具有不确定性。如果在搜索引擎输入一组词
35、 “姚明”、“得分”、“篮板”,搜出文档是篮球比赛内容的概率更大,显然 ,形成的交集缩小了搜索范围,但组词 “姚明”、“得分”、“篮板”是经过人思考给出的。 BIC通过计算得出文档代表词组明”、“得分”、“篮板”,同时计算词,相当于人工输入 “姚在句子中语序关系的发生概率与马尔科夫链,因此,能够更好地确定搜索词的语义和语境,通过对文档间的相关性(接近度)进行聚类计算,可按Meaning“接近度”进行自动搜索而无需人工干预,并随文档内容的变化而自动跟踪Meaning变化,使搜索更加准确、更加自动化,让搜索“随用户的心而动”。BIC可用于基于Meaning计算的搜索、舆情分析p 、特定情报分析p
36、、垂直搜索和相似内容推荐等文本挖掘。解决问题:计算两个文本的相似度。8、文本模糊聚类计算算法概述:基于模糊聚类算法,BIC首先计算将n个文本组成相似矩阵档对第j个文本文档的相似度),然后将相似矩阵似矩阵变成模糊相似矩阵(第i个文本文 ,通过求模糊相 的等价矩阵和截矩阵,将n个文本文档分成1-n个分类,同时,按相同分类中的,不同文本分类间具有最大差异Max,来求解文本具有最接近的内容相似度Min 按文本内容进行最优分类方案。解决问题:在不确定将文本划分成几类的情况下,将n个文本聚成1-n个分类,以此来观察“聚类”效果。9、文本k-means聚类算法概述:基于k-means聚类,在BIC平台上,用
37、户上传或输入n个文本,确定希望分类数量k和k个分类样本,BIC将以k个样本作为初始迭代点进行k-means聚类计算,将n个文本分成k个分类。解决问题:在已经确定了k个分类的情况下,将文本划分到k个“分类”中。10、文本分类算法概述:通过“文本模糊聚类”或“文本k-means”聚类,BIC不仅将n个文本按内容相似度进行分类,同时挖掘出各个分类的“分类代表词组”,以后,用户任意给出一个文本,BIC将根据其对各个“分类代表词组”的相似度,选择最相似的分类MaxSimi,将该待分类文档分配到MaxSimi类。解决问题:在已经完成文本聚类的情况下,将不确定的文本划分到“分类”中。11、关联模式发现算法概
38、述:关联分析p 的目的是挖掘隐藏的关联(Aociation) 模型,最著名的关联模式应用是挖掘“购物篮”问题,是从发现购买行中,发现商品之间的关联关系。 给定一组交易记录:每笔交易ID包含m个商品BIC可计算得出任意两商品,n条记录组成二维表,构成 矩阵,组合的Confidence(A-B)=P(A | B)置信度和支持度Support(A-B)=P(A U B),可用于分析p 商品之间的关联性“购物篮”问题。BIC的关联模式发现是一个快速、交互式Apriore计算过程:从发现最基本的2个Item关联高频项集开始,计算支持度Support(A-B)=P(A U B)和置信度Confidence
39、(A-B)=P(A | B),逐步计算和发现2、3、4Item关联频繁项集。 因为: (1)任何求解高频关联事务T中的项数Item必然大于等于2,如果只有1个Item不存在关联;(2)任何交易记录T中无论有多少个Item组合,如果存在大于2个Item的高频组合,都必然存在2关联的高频真子集。如:交易记录T1=Item1,Item2,交易记录T2=Item1,Item3,Item4,Item2,则T1为T2的非空真子集T1T2。所以,如果存在3关联的高频Item组合,必然存在2关联的高频组合;如果存在4关联的Item高频组合,必然存在3关联高频组合。BIC就是通过最基本的2关联高频项集发现开始,
40、逐步缩小记录集合,逐步发现所有任意数量Item组合的高频项集。因此,BIC的关联计算是一个快速、交互式计算的Apriore算法。解决问题:从样本集中发现有较强“置信度”的关联规则。12、序列模式发现算法概述:算法原理同“关联分析p ”,但统计点在于事物(或商品购买)发生的先后序列。 如商品购买行为预测:汽车改装爱好者,购买某种品牌增压器的人,很多人后来还购买了活塞环、又购买了某品牌机油,通过序列分析p ,发现其购买序列、预测下一步购买行为; 如疾病诊断:患有某种疾病的人,先出现A症状、后出现B症状、又出现C症状,通过出现症状的序列分析p ,发现疾病发生、发展的序列模式,对疾病进行诊断;如Web访问行为模式发现:每个IP访问网站都是一个Web会话Seion,每个Seion由一系列的URL序列组成,通过Seion计统计得到高频URL序列,预测用户的访问行为; 不限于上述例子,还包括生物进化序列模式、DNA序列、地震、火灾、战争冲突爆发序列模式预测等,序列规律是大量存在的,只要有足够的统计数据,都可以通过BIC发现最率并进行预测。序列模式发现与关联模式发现在算法上很相似,但序列模式强调Item的先后
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030年中国餐饮连锁行业运营市场深度调查及投资策略研究报告
- 2025-2030年中国阿莫西林行业竞争现状及投资战略研究报告
- 2025-2030年中国镀层钢板市场运营态势与发展风险分析报告
- 2025-2030年中国酒石酸美托洛尔缓释片行业发展趋势及投资战略研究报告
- 2025-2030年中国运动服饰行业运行现状及发展前景趋势分析报告
- 2025-2030年中国西厨设备行业市场发展现状及前景趋势分析报告
- 2025-2030年中国营养保健食品市场发展状况及投资战略研究报告
- 病人转运合同范本
- 2025河北省安全员B证(项目经理)考试题库
- 2025年广东省安全员知识题库及答案
- 肺栓塞患者护理查房课件
- 委托书之工程结算审计委托合同
- 《如何有效组织幼儿开展体能大循环活动》课件
- (完整版)重力式挡土墙专项方案
- 花城版四年级音乐下册全册教案
- 精神分裂症合并糖尿病患者护理查房课件
- 山东省2024届科目一模拟考试100题(答案)
- 共享wifi贴合同范本
- 借款人借款合同
- 统战工作先进个人事迹材料
- 国能辽宁北票 200MW 风力发电项目地质灾害危险性评估报告
评论
0/150
提交评论