




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
商业分析概论文本挖掘目录文本挖掘概述文本预处理文本分类文本聚类文本自动摘要文本信息过滤段落分析文本分析的粒度:文本分析的层次:文本分析与挖掘词语分析句子分析篇章分析语形分析语法分析语义分析语用分析文本挖掘处理的是非结构化的文本信息,它的主要任务是分析文本的内容特征,发现文本数据库中概念、文本之间的相互关系和相互作用,为用户提供相关知识和信息。因此,文本挖掘和数据库挖掘在目标上具有相似性,在技术实现上具有一定的差异。文本挖掘的一般过程9.1文本挖掘概述特征标引特征集缩减知识模式的提取知识模式的输出知识模式的评价文本预处理将非结构化的文本数据进行整理,以便计算机进行分析常用方法:分词、去停用词、词性标注等特征提取从文本中提取能代表其特征的部分,用结构化的形式保存起来常用方法:布尔逻辑模型、向量空间模型、概率模型等特征选择从提取的特征中甄选最具有区分能力的特征,降低特征维数常用方法:文档频率、信息增益、互信息、卡方统计量等模式发现使用各类机器算法和学习方法,对文本数据进行分析与挖掘,以获取隐藏的知识常用方法:文本分类、文本聚类、关联规则等质量评价使用已经定义好的标准对获取的知识进行评估。若有必要则返回之前的某个环节进行调整和改进。是整个流程中的反馈部分9.1文本挖掘概述过程及方法9.2文本预处理文本表示标引与中文分词文本相似度计算9.2文本预处理:文本表示布尔逻辑模型将文本看做由一组词条向量(𝑡1,𝑡2,……,𝑡𝑛)构成。将文本中出现的词用“1”表示,没出现的词用“0”表示。向量空间模型以特征向量的形式表示文本,两个文本之间的相似度通过文本特征向量之间的相关度来计算。向量空间模型中,文本D表示为由特征词条和特征词条的权重所组成的向量,形式如下:((𝑡1,𝑤1)(𝑡2,𝑤2)…(𝑡𝑛,𝑤𝑛)),其中𝑡𝑖表示特征词条,𝑤𝑖则表示特征词条𝑡𝑖的权重。而两个文本的相似度就通过两个文本向量之间的相关度来度量。目前,常用的计算文本特征向量相关度的方法主要有:基于向量内积的方法和基于向量夹角的方法。VSM的基本思路:用向量模型来标识一篇文档或一个查询把文档看作一系列索引词(IndexTerm)组成,每一个词都有一个权重(Termweight),不同的索引词根据自己在文档中的权重来影响文档相关性的打分计算。在向量空间模型中可以把所有此文档中词(term)的权重(termweight)看作一个向量,并以此权重向量来表征文档。查询和文档都可转化成索引词及其权重组成的向量。向量空间模型VSM(VectorSpaceModel)9.2文本预处理:文本表示文档-索引词词矩阵(Doc-TermMatrix)n篇文档,m个索引词词构成的矩阵Am*n,每列可以看成每篇文档的向量表示,同时,每行也可以可以看成标引词的向量表示,矩阵元素可以是词频,也可以是布尔型。表示文档词频的词频矩阵d1d2d3d4d5d6t132285356915320t236190765713370t325331604822126t4301407020116359.2文本预处理:文本表示向量表示M个无序标引项ti(词条项,
特征),词根/词/短语/其他每个文档d可以用标引项向量来表示权重计算,N个训练文档WM*N=(wij)词频统计TFi,j:特征i在文档j中出现次数,词频(TermFrequency)DFi:所有文档集合中出现特征i的文档数目,文档频率(DocumentFrequency)词项的权重:{0,1},tf(词频=termfrequency),tf*idf,9.2文本预处理:文本表示常用算法:TF-IDFTF-IDF(termfrequency–inversedocumentfrequency)是一种统计方法,用以评估一词对于一个文件集或一个语料库中的其中一份文件的重要程度。TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合做特征词。TF-IDF实际上是:TF*IDF,TF词频(TermFrequency),IDF逆向文件频率(InverseDocumentFrequency)。TF表示词条在文档d中出现的频率。IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。实际上,如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词以区别于其它类文档。这就是IDF的不足之处。9.2文本预处理:文本表示9.2文本预处理:标引与文本分词将一个汉字序列切分成一个一个单独的词的过程。是深层次分析文本的前提。由于中文语法与句法的多变性与特殊性,在分词过程中需要计算机对歧义、未登录词等进行识别与判断,以便正确地进行分词目前的分词方法主要有:基于词典的分词、基于统计的分词、基于理解的分词分词是将一个汉字序列切分成一个一个单独的词的过程。是深层次分析文本的前提。由于中文语法与句法的多变性与特殊性,在分词过程中需要计算机对歧义、未登录词等进行识别与判断,以便正确地进行分词目前的分词方法主要有基于词典的分词基于统计的分词基于理解的分词中文文本分词技术1)基于词典的分词又称为机械分词法主要思想:将文本切分后的一小段与一个词典里的词进行比较,如果存在,则划分为一个词。主要算法:正向最大匹配法、逆向最大匹配法、双向最大匹配法等优点:实现简单缺点:依赖词典规模,词典规模越大分词的正确率越高;无法很好地处理歧义与未登录词问题9.2文本预处理:标引与文本分词中文文本分词技术1)基于词典的分词正向最大匹配法正向最大匹配是指以词典为依据,选取包含几个汉字的符号串(如6-8个)作为最大符号串,把最大符号串与词典中的单词条目相匹配,如果不能匹配,就削掉一个汉字继续匹配,直到在词典中找到相应的单词为止。匹配的方向是从右向左。9.2文本预处理:标引与文本分词正向最大匹配法下面以“我们在野生动物园玩”详细说明一下匹配方法:正向即从前往后取词(根据对应字典的最长字符串长度,如定义为7),从7->1,每次减一个字,直到词典命中或剩下1个单字。第1次:“我们在野生动物”,扫描7字词典,无第2次:“我们在野生动”,扫描6字词典,无。。。。第6次:“我们”,扫描2字词典,有扫描中止,输出第1个词为“我们”,去除第1个词后开始第2轮扫描,……最终切分结果为:“我们/在野/生动/物/园/玩”。9.2文本预处理:标引与文本分词中文分词工具ICTCLAS(InstituteofComputingTechnology,ChineseLexicalAnalysisSystem):中科院计算技术研究所在多年的研究工作积累的基础上研制出的汉语分词开源系统。主要功能包括中文分词、词性标注、命名实体识别、新词识别,同时支持用户词典,并且支持多种语言二次开发。是当前世界上最好的汉语词法分析器。IKAnalyzer:开源的轻量级中文分词工具包,使用Java语言编写。分析速度快,在特定环境下可达到160万字/秒。支持英文字母、数字、中文词汇等分词处理,兼容日文、韩文和用户词典自定义扩展。SCWS(SimpleChineseWordsSegmentation):一套基于词频词典的机械中文分词引擎。它能将一整段的中文文本基本正确地切分成词。在算法上采用自行采集的词频词典,并辅以一定程度上的专有名词、人名、地名、数字年代等规则集来达到基本分词的目的。庖丁解牛分词器:完全基于Lucene的中文分词系统。支持不限个数的用户自定义词典。9.2文本预处理:标引与文本分词词性标注和去除停用词词性标注汉语由于缺乏语法形态变化,词的应用比较灵活,词类兼类(一个词有多个词性,如编辑既可为动词,也可为名词)现象特别多,也很复杂,因而需要做词性标注去除停用词虚词以及在文本中经常出现但不表示文本内容的词被称为停用词由于停用词对表示文本内容毫无帮助,因此应该将其去除,以降低文本特征的复杂度,减少资源的消耗目前的去除停用词方法主要是:构造停用词表,若某词在停用词表中出现,则应当删除不限个数的用户自定义词典。9.2文本预处理:标引与文本分词通过特征标引可以获得文本对应的关键词向量,也可以获得文本对应的关键词相对词频向量。一般认为,相似的文本具有相似的关键词或相对词频,因此,可以基于关键词向量或关键词相对词频向量计算一组文本的相似度。利用文本的相似度,可以进一步对文本进行分类、聚类,也可以从文本中抽出重要的段落或语句。189.2文本预处理:标引与文本分词9.2文本预处理:文本相似度计算基于词间关系的计算法语词对的共现(co-occurrence)来计算相似度文本集合且足够大足够大的文本集合可以自动生成一个词汇共现词典。利用词汇之间的句法关系来计算相似度从文本中抽取出一个分析网络(AnalysisNetwork)作为文本的简化包含(关系,元素一,元素二)的元组,元素一”和“元素二”对应两个名词,“关系”通常对应一个动词“元素一”和“元素二”在句法上具有用“关系”表示的相近的联系计算相应的分析网络间的词一致性(termagreement)、词对一致性和行一致性(lineagreement)的权值和可以进行相似度的度量19VSM的文档相似度计算文档和查询条件之间的相关程度(即相似度)可由它们各自向量在向量空问中的相对位置来决定。相似度计算函数有很多种,较常用的是两个向量夹角的余弦函数。文档和查询条件的相似度值由以下公式获得:djq
9.2文本预处理:文本相似度计算向量相似度算法余弦相似性(cosine-basedsimilarity)相关相似性(Pearson相关系数)修正的余弦相似性(adjusted-cosinesimilarity)9.2文本预处理:文本相似度计算9.3文本分类基于训练集的文本分类向量空间模型法基于关联的方法神经网络方法基于遗传算法的方法基于EM算法的方法等基于关联的分类方法9.3文本分类基于关联的分类方法通过信息检索技术和关联分析技术提取出关键词;利用已有的词类生成关键词的概念层次,使用概念层次可以在不同层次上对文本进行分类,以便于在信息检索时可以灵活地扩检、缩检,在文本挖掘时可以实现多层挖掘;利用关联挖掘方法去发现关联词,每一类文本对应一组关联规则;用关联规则去对新的文档进行分类。9.3文本分类基于词表的文本分类方法(1)分类名词入库。分类名词就是分类体系中的类目词。类名作为表达一个类别的名称,往往能够很好地表达类别的特征。(2)当一个词可以分属不同的类别时,计算机需要进行分析才能判断该词究竟属于哪一类,分析所依赖的信息来自于词表。(3) 建立关键词与分类主题词的连接表,以方便分类;(4)解决各类别中带有共性的小类,复分词、所属分类号、所属复分类别等信息保存于复分词表中。(5)分类算法的实施。分类词表的编制很困难,通常利用已有的分词结果或手工标引的主题词构建分类词表。9.3文本分类文本分类效果评价分全率分准率等值平均F值宏平均微平均9.4文本聚类文本聚类就是对文本实现自动聚类的技术。文本聚类技术在文本挖掘和信息检索等不同领域都有应用。文本聚类的目的提高信息检索系统的查准率和查全率,并被作为寻找文本最近邻居的有效方式用于浏览文本、显示文本集合,或者在响应用户查询时,用于组织搜索引擎返回的结果文本聚类算法划分划分方法层次方法基于统计的方法基于神经网络的方法基于遗传算法的方法9.4文本聚类划分聚类法对包含n个文档的文本集合,划分将生成k个分组,k<=n,每一个分组代表一个聚类聚类的准则函数通常选用平方误差准则典型的划分方法(Partitioningmethods):k-平均方法
k-中心点方法K-means聚类方法012345678910012345678910012345678910012345678910K=2ArbitrarilychooseKobjectasinitialclustercenterAssigneachobjectstomostsimilarcenterUpdatetheclustermeansUpdatetheclustermeansreassignreassign9.4文本聚类9.4文本聚类k-平均、k-中心点是典型的基于划分的聚类方法。给定k,k-中心点算法的处理流程如下:(1)对于等待聚类的文本集D,确定要生成的簇的数目k;(2)按照某种原则(可随机)生成k个聚类中心作为聚类的初始中心点S={s1,…,sj,…,sk};(3)对D中的每一个文本di,依次计算它与各个中心点sj的相似度sim(di,sj);(4)选取具有最大的相似度的中心点argmaxsim(di,sj),将di归入以sj为聚类中心的簇Cj,从而得到D的一个聚类C={C1,…,Ck};(5)重新确定每个簇的中心点;(6)反复执行步骤3~5,直到中心点不再改变,文本不再重新被分配为止。299.4文本聚类二分k-平均法(Bisectingk-means):二分k-平均法是对k-平均法进行改进的一种简单有效的算法,但是严格说来,它也是一种分裂的层次聚类算法。算法流程如下:(1)选择一簇进行分裂。可以选择当前最大的簇或者当前总体相似性最小的簇;(2)使用基本的k-平均算法来寻找待分裂后的两个子簇;(3)重复步骤2,并根据选出的子簇进行分裂,以使新生成的簇具有最大的总体相似性;(4)重复步骤1、2、3,直到生成的簇的数目达到预定的值。30层次聚类方法凝聚的方法(agglomerative),也称自底向上(bottom-up)分裂的方法(divisive),也称自顶向下(top-down)还有许多变形(改进)方法,如BIRCH,CURE等9.4文本聚类层次聚类方法用凝聚的层次聚类方法对文本集D={d1,…,di
,…,dn}进行聚类,算法流程如下:(1)文本集D={d1,…,di,…,dn}中的每一个文本di看作是一个具有单个成员的簇Ci={di},这些簇构成了D的一个聚类C={C1,…,Ci,…,Cn};(2)计算C中每对簇(Ci,Cj)之间的相似度sim(Ci,Cj);(3)选取具有最大相似度的一对簇(Ci,Cj),并将Ci和Cj合并为一个新的簇Ck=Ci∪Cj,从而构成D的一个新簇C={C1,…,Cn-1};(4)重复步骤2~3,直到C中只剩下一个簇或者达到一个终止条件为止。9.4文本聚类神经网络法与GA方法神经网络理论中的自组织特征映射法(SOM)方法可用来生成词汇聚类地图(WordClusterMap)和文本聚类地图(DocumentClusterMap)。SOM(self-organizingmap)神经网络是一种基于模型的聚类方法。SOM是由芬兰赫尔辛基大学神经网络专家Kohonen教授在1981年提出的竞争式神经网络,它模拟大脑神经系统自组织特征映射的功能,在训练中能无监督地进行自组织学习。由于它的强大功能,多年来,网络在数据分类、知识获取、过程监控、故障识别等领域中得到了广泛应用。9.4文本聚类典型的SOM聚类算法1.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 人才培养新思路跨学科教育在医疗领域的实施与探索
- 区块链原理与实践助力企业数字化转型
- 2025年中国折叠魔块数据监测报告
- 2024年纺织机械操作规范试题及答案
- 焊接缺陷分类与预防试题及答案
- 人教部编版三年级下册一幅名扬中外的画教学设计
- 2025年中国平口连卷袋市场调查研究报告
- 2024秋八年级道德与法治上册 第三单元 法律在我心中 第十课 维护消费者权利(消费者的“保护神”消费者的权利)教学设计 人民版
- 2025年中国工伤鉴定信息管理系统市场调查研究报告
- 4古诗三首《夜书所见》(教学设计)2024-2025学年统编版三年级语文上册
- 2025届上海市浦东新区高三二模英语试卷(含答案)
- 开曼群岛公司法2024版中文译本(含2024年修订主要内容)
- 【MOOC】航空燃气涡轮发动机结构设计-北京航空航天大学 中国大学慕课MOOC答案
- 悦己人生-大学生心理健康智慧树知到期末考试答案章节答案2024年哈尔滨工业大学
- 职业卫生评价考试计算题汇总
- JJF 1318-2011 影像测量仪校准规范-(高清现行)
- 中山大学教授和副教授职务聘任实施办法(试行)
- 恒速传动装置的工作原理
- 住院病历交接登记本
- 沉井工程施工综合方案
- 产品开发控制程序
评论
0/150
提交评论