中文文本挖掘演示v0.5剖析_第1页
中文文本挖掘演示v0.5剖析_第2页
中文文本挖掘演示v0.5剖析_第3页
中文文本挖掘演示v0.5剖析_第4页
中文文本挖掘演示v0.5剖析_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、中文文本挖掘 吴思博 郑祥云 谭紫逸 主要内容1文本数据分析和信息检索2文本挖掘方法3统一的中文文本挖掘模型4 1、数据挖掘大部分研究主要针对结构化数据 2、现实中大部分数据存储在文本数据库中 3、存放在文本数据库中的数据是半结构化数据1.2文本挖掘的定义 文本挖掘( Text Mining , TM) , 又称为文本数据挖掘(Text Data Mining , TDM) 或文本知识发现(Knowledge Discovery in Texts , KDT) , 是指为了发现知识, 从大规模文本库中抽取隐含的、以前未知的、潜在有用的模式的过程 。 数据挖掘数据挖掘文本挖掘文本挖掘研究对象研究

2、对象用数字表示的、结构化的数据用数字表示的、结构化的数据无结构或者半结构化的文本无结构或者半结构化的文本对象结构对象结构关系数据库关系数据库自由开放的文本自由开放的文本目标目标获取知识,预测以后的状态获取知识,预测以后的状态提取概念和知识提取概念和知识方法方法归纳学习、决策树、神经网络、归纳学习、决策树、神经网络、粗糙集、遗传算法等粗糙集、遗传算法等提取短语、形成概念、关联提取短语、形成概念、关联分析、聚类、分类分析、聚类、分类成熟度成熟度从从1994年开始得到广泛应用年开始得到广泛应用从从2000年开始得到广泛应用年开始得到广泛应用1.4文本挖掘的任务n 文本挖掘预处理文本挖掘预处理 原始的

3、原始的非结构化非结构化数据源数据源结构化结构化表示表示n 文本模式挖掘文本模式挖掘 文本挖掘系统核心功能是分析文本集合中各个文本之间共文本挖掘系统核心功能是分析文本集合中各个文本之间共同出现的模式同出现的模式 例如:蛋白质例如:蛋白质P1P1和酶和酶E1E1存在联系,在其他文章中说酶存在联系,在其他文章中说酶E1E1和酶和酶E2E2功能相似,还有文章把酶功能相似,还有文章把酶E2E2和蛋白质和蛋白质P2P2联系起来,联系起来,我们可以推断出我们可以推断出P1P1和和P2P2存在联系存在联系n 挖掘结果可视化挖掘结果可视化 也就是文本挖掘系统的表示层,简称也就是文本挖掘系统的表示层,简称浏览浏览

4、1.5文本挖掘处理过程特征的建立特征集的缩减学习与知识模式的提取知识模式模式质量的评价文档集文本挖掘的一般处理过程n 1.6 中文文本挖掘流程 1.7汉语特点与当前中文信息处理水平 汉语是一种语义型语言,汉语是一种语义型语言, 重重“意合意合”, ”, 轻形式轻形式, , 而且语而且语形、语法和语义等各层面的歧义现象非常严重。形、语法和语义等各层面的歧义现象非常严重。n (1) 汉语缺乏狭义的形态n (2) 语法灵活n (3) 语义灵活 (存在一词多义、同音词、同义词、近义词等)1.7中文文本挖掘研究现状n (1) 没有形成完整的适合中文信息处理的文本挖掘理论与技术框架n (2) 中文文本的特

5、征提取与表示大多数采用“词袋”法n (3) 知识挖掘的种类和深度有限1.8文本挖掘的可能应用领域包括:n (1) 客户模型分析n (2) 网上有害信息的发现、过滤与跟踪n (3) 主动个性化信息服务n (4) 公司资源计划n (5) 科技文献分析n (6) 网上论坛的实时监控;n (7) 电子邮件分类与过滤; 等等。2.1 文本检索的基本度量n 查准率(查准率(Precision)是检索到的文档中的相关文档占全部检索到的文档的百分比,它所衡量的是检索系统的准确性n 查全率(查全率(Recall)是被检索出的文档中的相关文档占全部相关文档的百分比,它所衡量的是检索系统的全面性信息检索的度量方式n

6、relevant:与某查询相关的文档的集合。:与某查询相关的文档的集合。nretrieved:系统检索到的文档的集合。:系统检索到的文档的集合。nrelevant retrieved:既相关又被检索到:既相关又被检索到的实际文档的集合。的实际文档的集合。模型质量的评价实例nrelevant =A,B,C,D,E,F,G,H,I,J = 10nretrieved = B, D, F,W,Y = 5nrelevant retrieved =B,D,F = 3n查准率:查准率:precision = 3/5 = 60%n查全率:查全率:recall = 3/10 = 30% B,D,F相关并被检索到

7、的文档所有文档A,C,E,G,H, I, J相关的文档 W,Y被检索到的文档2.2 文档检索方法 文本符号化文本符号化n 符号化:为表示文档而标识关键词。符号化:为表示文档而标识关键词。n 停用词表:看上去停用词表:看上去“不相关的不相关的”词的集合。词的集合。中文分词:中文分词:n 中文分词对人名地名分解的仍然不好,大多分解成单字。中文分词对人名地名分解的仍然不好,大多分解成单字。-展示分词软件n 分词效果:分词效果: zw - c( zw - c(如果你听到某人说他使用某软体,然如果你听到某人说他使用某软体,然后看看效果,有些美中不足,那就叫星光灿烂后看看效果,有些美中不足,那就叫星光灿烂

8、吧!吧! thus do not have the texts already thus do not have the texts already stored on a hard disk, and want to save stored on a hard disk, and want to save the text documents to disk)the text documents to disk)n 1 1、去停用词:、去停用词:n zwfc(zw,zj1)zwfc(zw,zj1)n 1 1 听听 某人某人 说说 使用使用 软软 体体 看看看看 效效果果 美美 中中 不足不足

9、 星光星光 灿烂灿烂 thu text thu text alreadi store hard disk save text alreadi store hard disk save text document disk time: 0.109 sdocument disk time: 0.109 sn 2 2、不去停用词:、不去停用词:n zwfc(zw,zj1)zwfc(zw,zj1) 1 1 如果如果 你你 听听 到到 某人某人 说说 他他 使用使用 某某 软软 体体 , , 然后然后 看看看看 效效果果 , , 有些有些 美美 中中 不足不足 , , 那那 就就 叫叫 , , 星光星光

10、 灿烂灿烂 , , 吧吧 , thu do not have , thu do not have the text alreadi store on a hard the text alreadi store on a hard disk , and want to save the text disk , and want to save the text document to disk time: 0.0 sdocument to disk time: 0.0 s文档建模n 词频:指词t在文档d中出现的次数,即freq(d,t).n (加权的)词频矩阵TF(d,t):用来度量词t与给定文

11、档d之间的关联度。-展示相关度实验展示相关度实验文档建模n 词频矩阵词频矩阵n行对应关键词行对应关键词t,列对应文档,列对应文档d向量向量n将每一个文档视为空间向量将每一个文档视为空间向量vn向量值反映单词向量值反映单词t与文档与文档d的关联度的关联度表示文档词频的词频矩阵表示文档词频的词频矩阵d1d2d3d4d5d6t132285356915320t236190765713370t325331604822126t430140702011635基于相似性的检索212121),(vvvvvvsimn 余弦计算法(余弦计算法(cosine measurecosine measure)文档间相似性计

12、算举例文档向量化-展示相关度实验展示相关度实验查询:相关度-展示相关度实验展示相关度实验文档间相似度(余弦定理)3.文本挖掘方法n 文本挖掘功能层次 关键词关键词相似检索相似检索词语关联分析词语关联分析自然语言处理自然语言处理文本聚类文本聚类文本分类文本分类文本挖掘功能层次文本挖掘功能层次3.1关联分析挖掘 关联分析过程:关联分析过程:对文本数据进行分析、词根处理、去除停词等预处理,再调用关联挖掘算法基于关键词的关联技术:基于关键词的关联技术:收集频繁出现的关键词或词汇,找出其关联或相互关系关联挖掘关联挖掘关联挖掘有助于找出符合关联,即领域相关的术语或短语关联挖掘有助于找出符合关联,即领域相关

13、的术语或短语3.1关联分析挖掘 输入语义信输入语义信息,如事件、息,如事件、事实或信息事实或信息提取发现的提取发现的实体实体输入是标记输入是标记的集合的集合输入是文档输入是文档中关键词或中关键词或词的集合词的集合基于关键词的方法基于关键词的方法标记方法标记方法信息提取方法信息提取方法3.2文档分类分析3.2文档分类分析n 应用领域应用领域 门户网站(网页)门户网站(网页) 图书馆(电子资料)图书馆(电子资料) n 自动分类优点:自动分类优点: 减小人工分类的繁杂工作减小人工分类的繁杂工作 提高信息处理的效率提高信息处理的效率 减小人工分类的主观性减小人工分类的主观性3.2文档分类分析文本分类基

14、本步骤3.3文档聚类分析n 文本聚类是根据文本数据的不同特征,将其划分文本聚类是根据文本数据的不同特征,将其划分为不同数据类的过程为不同数据类的过程n 其目的是要使同一类别的文本间的距离尽可能小,其目的是要使同一类别的文本间的距离尽可能小,而不同类别的文本间的距离尽可能的大而不同类别的文本间的距离尽可能的大 -展示相关度实验展示相关度实验3.3文档聚类分析n文档自动聚类的步骤文档自动聚类的步骤(1)获取结构化的文本集)获取结构化的文本集(2)执行聚类算法,获得聚类谱系图。)执行聚类算法,获得聚类谱系图。(3)选取合适的聚类)选取合适的聚类IA值。值。(4)执行聚类算法,获得聚类结果)执行聚类算法,获得聚类结果3.3文档聚类分析n 文档自动聚类的类型文档自动聚类的类型n 平面划分法:平面划分法:对包含n个样本的样本集构造样本集的k个划分,每个划分表示一个聚簇n 层次聚类法:层次聚类法:层次聚类法对给定的样本集进行层

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论