版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据与数据挖掘-文本挖掘 数据挖掘大部分研究主要针对结构化数据,如关系的、事 务的和数据仓库数据。 现实中大部分数据存储在文本数据库中,如新闻文章、 研究论文、书籍、WEB页面等。 存放在文本数据库中的数据是半结构化数据,文档中可能 包含结构化字段,如标题、作者、出版社、出版日期 等, 也包含大量非结构化数据,如摘要和内容等。 文本挖掘旨在通过识别和检索令人感兴趣 的模式,进而从数据源中抽取有用的信息。 文本挖掘的数据源是文本集合,令人感兴 趣的模式不是从形式化的数据库记录里发 现,而是从非结构化的数据中发现。 预处理 文档建模 相似性计算 信息检索 文本分类 文本聚类 模型评价 预处理预处
2、理 把中文的汉字序列切分成有意义的词,就是中文分 词,也称为切词。 “我是一个学生”分词的结果是:我是一个学生。 和平民主 和平、民主;和、平民、主 提高人民生活水平 提高、高人、人民、民生、生活、活水、水平 大学生活象白纸 大学、生活、象、白纸 大学生、活象、白纸 最大匹配分词法 S1=计算语言学课程是三个课时 设定最大词长MaxLen= 5 S2= (1)S2=“”;S1不为空,从S1左边取出候选子串 W=计算语言学; (2)查词表,“计算语言学”在词表中,将W加入到S2中, S2=“计算语言学/ ”,并将W从S1中去掉,此时S1=课程是 三个课时; (3)S1不为空,于是从S1左边取出候
3、选子串W=课程是三 个; (4)查词表,W不在词表中,将W最右边一个字去掉, 得到W=课程是三; (5)查词表,W不在词表中,将W最右边一个字去掉, 得到W=课程是; (11)查词表,W不在词表中,将W最右边一个字去掉, 得到W=是三 (12)查词表,W不在词表中,将W最右边一个字去掉, 得到W=“是”,这时W是单字,将W加入到S2中,S2=“计算 语言学/ 课程/ 是/ ”, 并将W从S1中去掉,此时S1=三个课时; (21)S2=“计算语言学/ 课程/ 是/ 三/ 个/ 课时/ ”,此时 S1=。 (22)S1为空,输出S2作为分词结果,分词过程结束。 停用词 指文档中出现的连词,介词,冠
4、词等并无太大意义的词。 英文中常用的停用词有the,a, it等 中文中常见的有“是”,“的”,“地”等。 停用词消除可以减少term的个数,降低存储空间。停用词 的消除方法: (1)查表法:建立一个停用词表,通过查表的方式去掉 停用词。 (2)基于DF的方法:统计每个词的DF,如果超过总文档 数目的某个百分比(如80%),则作为停用词去掉。 文档建模文档建模 特征表示是指以一定的特征项如词条或描 述来代表文档信息。 特征表示模型有多种,常用的有布尔逻辑 型、向量空间型等 向量空间模型中,将每个文本文档看成是一组词条(T1, T2,T3,Tn)构成,对于每一词条Ti,根据其在文档中 的重要程度
5、赋予一定的权值,可以将其看成一个n维坐标 系,W1,W2,Wn为对应的坐标值,因此每一篇文档 都可以映射为由一组词条矢量构成的向量空间中的一点, 对于所有待挖掘的文档都用词条特征矢量(T1,W1;T2, W2;T3,W3;Tn,Wn)表示。 向量空间模型将文档表达为一个矢量,看作向量空间中的 一个点。 文档的向量空间模型 W权值计算方法TF-IDF 目前广泛采用TF-IDF权值计算方法来计算权重, TF-IDF的主 要思想是,如果某个词或短语在一篇文章中出现的频率TF 高,并且在其他文章中很少出现,则认为此词或者短语具 有很好的类别区分能力,适合用来分类。 TF词频(Term Frequenc
6、y)指的是某一个给定的词语在该文件中 出现的次数。 IDF逆文档频率(Inverse Document Frequency)是全体文档数与 包含词条文档数的比值。如果包含词条的文档越少,IDF越 大,则说明词条具有很好的类别区分能力。 在完整的向量空间模型中,将TF和IDF组合在一起,形成TF- IDF度量:TF-IDF(d,t)= TF(d,t)*IDF(t) TF度量 在一份给定的文件里,词频(term frequency,TF)指的是 某一个给定的词语在该文件中出现的频率。这个数字是对 词数(term count)的归一化,以防止它偏向长的文件。(同 一个词语在长文件里可能会比短文件有更
7、高的词数,而不 管该词语重要与否。)对于在某一特定文件里的词语 来 说,它的重要性可表示为: 以上式子中 是该词在文件中的出现次数,而分母则是在 文件中所有字词的出现次数之和。 IDF度量 逆向文件频率(inverse document frequency,IDF)是一个 词语普遍重要性的度量。某一特定词语的IDF,可以由总文 件数目除以包含该词语之文件的数目,再将得到的商取对数 得到: |D|:语料库中的文件总数 : 包含词语的文件数目(即的文件数目)如 果该词语不在语料库中,就会导致被除数为零,因此一 般情况下使用 关键词与网页的相关性计算 在某个一共有一千词的网页中“大数据”、“的”和“
8、应 用”分别出现了 2 次、35 次 和 5 次,那么它们的 词频就分别是 0.002、0.035 和 0.005。三个数相加, 其和 0.042 就是相应网页和查询“大数据的应用” 相 关性的一个简单的度量。 概括地讲,如果一个查询包含关键词 w1,w2,.,wN, 它们在一篇特定网页中的词频分别是: TF1, TF2, ., TFN。 (TF: term frequency)。 那么,这个查询和 该网页的相关性就是:TF1 + TF2 + . + TFN。 词“的”站了总词频的 80% 以上,它对确定网页的主题几乎 没有用。在度量相关性时不应考虑它们的频率。删除后, 上述网页的相似度就变成
9、了0.007,其中“大数据”贡献了 0.002,“应用”贡献了 0.005。 “应用”是个很通用的词,而 “大数据”是个很专业的词,后者在相关性排名中比前者重 要。因此我们需要给汉语中的每一个词给一个权重,这个 权重的设定必须满足下面两个条件: 一个词预测主题能力越强,权重就越大,反之,权重就越 小。我们在网页中看到“大数据”这个词,或多或少地能了 解网页的主题。我们看到“应用”一次,对主题基本上还是 一无所知。因此,“原子能“的权重就应该比应用大。 应删除词的权重应该是零。 如果一个关键词只在很少的网页中出现,我们通 过它就容易锁定搜索目标,它的权重也就应该大 。反之如果一个词在大量网页中出
10、现,我们看到 它仍然不很清楚要找什么内容,因此它应该小。 概括地讲,假定一个关键词 在 个网页 中出现过,那么 越大,的权重越小,反 之亦然。在信息检索中,使用最多的权重是“逆文 本频率指数” (Inverse document frequency 缩 写为),它的公式为() 其中是全部网页数。 假定中文网页数是亿,应删除词“的”在所有的网 页中都出现,即亿,那么它的log(10 亿/10亿)= log (1) = 。假如专用词“大数据”在两百万个 网页中出现,即万,则它的权重 log(500) =6.2。 又假定通用词“应用”,出现在五亿个网页中,它的权重 = log(2)则只有 0.7。也
11、就只说,在网页中找到一个“大 数据”的比配相当于找到九个“应用”的匹配。利用 IDF,上 述相关性计算个公式就由词频的简单求和变成了加权求和 ,即 TF1*IDF1 +TF2*IDF2 . + TFN*IDFN。在上面的例 子中,该网页和“原子能的应用”的相关性为 0.0159,其中“ 大数据”贡献了 0.0124,而“应用”只贡献了0.0035。这个比 例和我们的直觉比较一致 算例1 词频 (TF) 是一词语出现的次数除以该文件的总词语数。假 如一篇文件的总词语数是100个,而词语“大数据”出现了3 次,那么“大数据”一词在该文件中的词频就是3/100=0.03。 一个计算逆文件频率 (ID
12、F) 的方法是测定有多少份文件出 现过“大数据”一词,然后除以文件集里包含的文件总数。 所以,如果“大数据”一词在1,000份文件出现过,而文件总 数是10,000,000份的话,其逆向文件频率就是 log(10,000,000 / 1,000)=4。 最后的TF-IDF的分数为0.03 * 4=0.12。 算例2 关键字k1,k2,k3与文档的相关性可用TF1*IDF1 + TF2*IDF2 + TF3*IDF3来表示。 比如文档1所包含词汇总量为1000,k1,k2,k3在文档1中出 现的次数是100,200,50。包含了 k1, k2, k3的文档总量分 别是 1000, 10000,5
13、000。文档的总量为10000。 TF1 = 100/1000 = 0.1; TF2 = 200/1000 = 0.2; TF3 = 50/1000 = 0.05; IDF1 = log(10000/1000) = log(10) = 2.3; IDF2 = log(10000/100000) = log(1) = 0; IDF3 = log(10000/5000) = log(2) = 0.69 这样关键字k1,k2,k3与文档1的相关性= 0.1*2.3 + 0.2*0 + 0.05*0.69 = 0.2645 ,其中k1比k3的比重在文档1要大,k2 的比重是0. 文档相似性计算文档相似
14、性计算 21 21 21 ),( vv vv vvsim n 根据一个文档集合d和一个项集合t,可以将每个文档表示 为在t维空间R中的一个文档特征向量v。 n 向量v中第j个数值就是相应文档中第j个项的量度。 n 计算两个文档相似性可以使用上面的公式 n 余弦计算法(cosine measure) 计算步骤 (1)使用TF-IDF算法,找出两篇文章的关键词; (2)每篇文章各取出若干个关键词,合并成一个集合,计 算每篇文章对于这个集合中的词的词频; (3)生成两篇文章各自的词频向量; (4)计算两个向量的余弦相似度,值越大就表示越相似。 文档相似性计算示例 句子A:我喜欢看电视,不喜欢看电影。
15、 句子B:我不喜欢看电视,也不喜欢看电影。 第一步,分词第一步,分词 句子A:我/喜欢/看/电视,不/喜欢/看/电影。 句子B:我/不/喜欢/看/电视,也/不/喜欢/看/电影。 第二步,列出所有的词第二步,列出所有的词 我,喜欢,看,电视,电影,不,也。 第三步,计算词频第三步,计算词频 句子A:我 1,喜欢 2,看 2,电视 1,电影 1,不 1,也 0。 句子B:我 1,喜欢 2,看 2,电视 1,电影 1,不 2,也 1。 第四步,写出词频向量第四步,写出词频向量 句子A:1, 2, 2, 1, 1, 1, 0 句子B:1, 2, 2, 1, 1, 2, 1 信息检索信息检索 信息检索研
16、究的是大量基于文本的文档信息的组 织和检索,如联机图书馆系统、联机文档管理系 统和WEB搜索引擎。数据库系统关注结构化数据 段查询和事务处理。 信息检索研究的典型问题是根据用户查询(描述 所需信息的关键词),在文档中定位相关文档。 文本检索的基本度量 查准率(Precision)是检索到的文档中的相关文 档占全部检索到的文档的百分比,它所衡量的是 检索系统的准确性 查全率(Recall)是被检索出的文档中的相关文档 占全部相关文档的百分比,它所衡量的是检索系 统的全面性 信息检索的度量方式 relevant:与某查询相关的文档的集合。 retrieved:系统检索到的文档的集合。 releva
17、nt retrieved:既相关又被检索到的实 际文档的集合。 查准率(precision):既相关又被检索到的实际文 档与检索到的文档的百分比。 查全率(recall):既相关又被检索到的实际文档 与查询相关的文档的百分比。 模型质量的评价实例 nrelevant =A,B,C,D,E,F,G,H,I,J = 10 nretrieved = B, D, F,W,Y = 5 nrelevant retrieved =B,D,F = 3 n查准率:查准率:precision = 3/5 = 60% n查全率:查全率:recall = 3/10 = 30% B,D,F 相关并被检索 到的文档 所有
18、文档 A,C,E,G, H, I, J 相关的文档 W,Y 被检索到的 文档 文本挖掘举例 文档向量化 查询:相关度 文档间相似度(余弦定理) 3.文本的维度规约 对于任何一个非平凡的文档数据库,词的数目T和文档数 目D通常都很大,如此高的维度将导致低效的计算,因为 结果频度表大小为T*D。 高维还会导致非常稀疏的向量,增加监测和探查词之间联 系的难度。 维度归约使用数据编码或变换,以便得到原数据的归约或 “压缩”表示。如果原数据可以由压缩数据重新构造而不丢 失任何信息,则该数据归约是无损的。如果我们只能重新 构造原数据的近似表示,则该数据归约是有损的。 文本挖掘方法 文本挖掘功能层次 关键词
19、关键词 相似检索相似检索 词语关联分析词语关联分析 自然语言处理自然语言处理 文本聚类文本聚类文本分类文本分类 文本挖掘功能层次文本挖掘功能层次 (1)关键词检索 关键词建立倒排文件索引,与传统的信息检索使用的 技术类似。 (2)相似检索 找到相似内容的文本。 (3)词语关联分析 聚焦在词语(包括关键词)之间的关联信息分析上。 (4)文本聚类和文本分类 实现文本的聚类和分类。 (5)自然语言处理 揭示自然语言处理技术的语义,进行文本语义挖掘。 关联分析挖掘 在文本数据库中,每一文本被视为一个事务,文本中 的关键词组可视为事务中的一组事务项。即文本数据库可 表示为: 文本编号, 关键词集 文本数
20、据库中关键词关联挖掘的问题就变成事务数据 库中事务项的关联挖掘。 关联分析挖掘可以用于找出词或关键词间的关联。 关联分析挖掘 输入语义输入语义 信息,如信息,如 事件、事事件、事 实或信息实或信息 提取发现提取发现 的实体的实体 输入是标输入是标 记的集合记的集合 输入是文输入是文 档中关键档中关键 词或词的词或词的 集合集合 基于关键词的方法基于关键词的方法标记方法标记方法信息提取方法信息提取方法 关联分析挖掘 关联分析过程:关联分析过程: 对文本数据进行分析、词 根处理、去除停词等预处 理,再调用关联挖掘算法 基于关键词的关联技术:基于关键词的关联技术: 收集频繁出现的关键词 或词汇,找出
21、其关联或 相互关系 关联挖掘关联挖掘 关联挖掘有助于找出符合关联,即领域相关的术语或短语关联挖掘有助于找出符合关联,即领域相关的术语或短语 关联分析挖掘 基于关键字的关联分析 n 基于关键字关联分析就是首先收集频繁一起出现的 项或者关键字的集合,然后发现其中所存在的关联 性 n 关联分析对文本数据库进行预处理,生成关键字向 量,根据关键字查询向量与文档向量之间的相关度 比较结果输出文本结果,然后调用关联挖掘算法 文档分类分析 文档分类分析 自动文档分类是指利用计算机将一篇文章 自动地分派到一个或多个预定义的类别中 文档分类的关键问题是获得一个分类模式, 利用此分类模式也可以用于其他文档的分 类
22、 有了一个模式之后,需要进行人工标记和 训练,以确定这个模式的参数,然后才能 进行自动的文档分类 文档分类分析 应用领域 门户网站(网页) 图书馆(电子资料) 自动分类优点: 减小人工分类的繁杂工作 提高信息处理的效率 减小人工分类的主观性 文档分类分析 u步骤 定义分类体系 将预先分类过的文档作为训练集 从训练集中得出分类模型(需要测试过程,不断 细化) 用训练获得出的分类模型对其它文档加以分类 文档分类分析 文本分类基本步骤 文档分类分析 文本分类过程 文档分类分析 特征选择 方法 贝叶斯分类 最近邻分类 相似文档具有相似文档向量,将每个文档关 联到相应的类标号 将文档分类看做计算文档在特
23、定类中的统计分布文档分类 支持向量机 使用数表示类,构建从词空间到类变量的直接映 射函数(在高维空间中运行良好,最小二乘线性 回归方法区分能力较强) 基于关联的、频繁出现的文本模式集对文档分类 基于关联的 分类 删除文档中与与类标号统计不相关的非特征词 文档聚类分析 文本聚类是根据文本数据的不同特征,将其划分 为不同数据类的过程 其目的是要使同一类别的文本间的距离尽可能小, 而不同类别的文本间的距离尽可能的大 文档聚类分析 文档自动聚类的步骤 (1)获取结构化的文本集 (2)执行聚类算法,获得聚类谱系图。聚类算法的 目的是获取能够反映特征空间样本点之间的“抱团” 性质 (3)选取合适的聚类IA值。在得到聚类谱系图后, 领域专家凭借经验,并结合具体的应用场合确定 阈值 (4)执行聚类算法,获得聚类结果 文档聚类分析 混合模型聚类 使用潜在语义 标引聚类(LSI) 光谱聚类 对原始数据进行维度归约, 运用传统的聚类方法 (如k均值,缺点是计算昂贵) 对文本数据和先验知识估计模型 参数,基于参数推断聚类 最小化全局重构误差下, 找到原文档空间的最佳子空间近似 文档聚类 分析 使用保持局部性 标引聚类(LPI) 发现局部几何结构, 具有更强的区分能力 文档
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中试项目安全管理协议书(2篇)
- 2024年度城市供水基础设施建设项目合同
- 2024年度知识产权许可合同:涉及专利技术、许可范围、许可费用等
- 2024年度大型工业项目拆迁安置房交易合同
- 2024版电力线路维修队租赁合同:租赁电力线路维修场地及工具
- 2024年度某科技公司软件工程师试用期劳动合同
- 绿色金融科技在信用卡业务中的应用
- 2024年度船运行业合作联盟合同:共同运营与市场拓展
- 2024年度品牌策划推广合同(标的:提升品牌知名度)
- 旅游指南服务行业绿色发展与可持续发展
- 部编版五年级语文上册 (教案+教学反思)语文园地三
- 电力物资仓储管理问题分析及提升措施5200字
- 高中数学公式(苏教版)
- 冷缩电缆附件
- 护理人力资源管理(课堂PPT)
- 工程地质及水文地质:6 地下水的运动
- 生物安全应急处置演练记录
- 酒店企业员工消防防火安全知识培训
- 台车司机(理论)试题及答案
- 教案(餐巾折花)
- 医院装修工程量清单
评论
0/150
提交评论