下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于hdfs和maprece的中文文献计量分析
tf-idf(termfreceiveinse,frece)是用于搜索和文本挖掘的一般加权技术,用于评估文件集或语言库中包含的文件的重要性。单词的重要性随着其在文件中出现的次数成正比增加,但同时会随着其在语料库中出现的频率成反比下降。TF-IDF算法的各种形式常被搜索引擎、Web数据挖掘、文本分类及相似度计算等各种应用中,而这些应用往往是以处理海量数据的输入为背景。因此,如何在海量数据中快速有效地计算出TF-IDF具有重要意义。1文件dv的形成在一份给定的文件里,词频TF(TermFrequency)指的是某一个给定的词语在该文件中出现的次数。对于在某一特定文件里的词语ti来说,它的重要性可表示为:式中,ni,j是该词在文件dj中的出现次数,而分母则是在文件dj中所有字词的出现次数之和。逆向文件频率IDF(InverseDocumentFrequency)是一个词语普遍重要性的度量。某一特定词语的IDF,由总文件数目除以包含该词语的文件的数目,再将得到的商取对数得到:式中,|D|表示语料库中的文件总数,|{j:ti∈dj}|表示包含词语ti的文件数目。在式(1)、式(2)的基础上,可得单词的权重计算公式:某一特定文件内的高词语频率以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。2mapfedf仿真模型Hadoop是一个开源的可运行于大规模集群上的分布式并行编程框架,它主要由分布式文件系统HDFS和MapReduce计算模型构成。HDFS实现了文件的分布式存储,它是MapReduce计算的数据载体。MapReduce计算模型的核心是Map和Reduce两个函数,这两个函数由用户负责实现,功能是按一定的映射规则将输入的<key,value>对转换成另一个或一批<key,value>对输出。HDFS与MapReduce的关系如图1所示。3通过并行计算词汇词频tfHadoop分布式计算的核心思想是分割任务,并行运行。从TF-IDF的计算公式可以看出,它非常适合用分布式计算求解。单词词频TF只与它所在文档的单词总数及它在此文档出现的次数有关。因此,可以通过分割数据,并行统计文档中的单词词频TF,加快计算速度。得到单词词频TF后,单词权重TF-IDF的计算取决于包含此单词的文档个数(因为文档总数是一个常量)。因此,只要能确定包含此单词的文档个数,即能以并行计算的方式实现TF-IDF的求解。本文通过设计3次Map、Reduce过程实现TF-IDF的计算。3.1生成表1输出信息原始数据经过分片后传给Map函数。在Map中使用正则表达式识别单词,并以键值对<word#documentName,1>的形式写入中间结果,传入Reduce函数处理。在Reduce中计算单词个数,并将结果输出到临时文件tempFile1中以作为下一步MapReduce计算的输入。输出结果是以<word#documentName>为键、<n>为值,n表示单词word在文档documentName中出现次数。函数设计如下:此步计算得出单词在文档中的出现次数。3.2计算相关词汇数上一步所得的临时文件tmpFile1作为本次Map函数的输入。在Map函数中,重新组织键值对(以documentName为键、<word=n>为值)以便于下一步的Reduce计算。Reduce中,为计算每份文档单词总数,只需累加每份文档的单词数即可。输出结果存入临时文件tempFile2中以作为下一步MapReduce计算TF-IDF的输入。函数设计如下:此步计算得出每份文档单词词频TF。3.3tf-idf计算以上一步所得的临时文件tmpFile2作为Map函数的输入。在Map函数中,重新组织键值对(以单词word为键、<documentName=n/N>为值)以便于计算单词word在整个文档集中出现的次数。Reduce函数中,统计出单词word在文档集中出现个数d、整个文档集个数D,然后按公式TF-IDF=n/N×log(D/d)计算单词的TF-IDF值。函数设计如下:此步计算得出文档集中每份文档的单词TF-IDF值。计算TF-IDF的整个处理流程如图2所示。4数据的生成实验(2)数据预处理:使用开源中文分词工具IKAnalyzer对文本进行分词处理,同时去掉停用词。维护过多的小文件会降低Hadoop效率,因此需将数据集归档处理。整理后的测试数据如表1所示。(3)Hadoop群集的搭建:使用了5台电脑构建了一个群集,其中一台作为主节点,以负责作业调度及文件空间的管理;其余的作为从节点用作TF-IDFSS的计算以及文件的存储。(4)实验结果:将使用了Map/Reducer框架的TD_IDF算法与传统的TF-IDF计算算法进行对比结果如图3所示。传统的TF-IDF计算算法只在一台机上运行,且不能以并行和分布式的方式运行。从图中可以看出,当数据量不大时(<200MB),传统算法与新算法的差距并不明显。这是因为Hadoop本身的维护与网络传输需要一定的开销。随着数据量的增大,传统方法计算TF-IDF的时间急剧增长,而应用了Hadoop框架的TF-IDF计算方法所需时间只是线性增长,新算法的效率明显高于传统算法。本文使用了Hadoop框架提供的服务改进了计算TF
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- IT行业就业安置协议
- 交通事故赔偿和解协议范本
- 动物行为课件教学课件
- 二手房交易合同示范模板
- 企业文化推广合作协议
- 企业环境健康安全咨询合作协议
- 交通运输事故报告标准
- 代建合同示范文本信息技术行业
- 交通安全HSE协议
- 二手房交易合同样本
- 高级政工师职称面试题
- 2022年HJ1237机动车环检作业指导书
- 大唐之美通用模板
- ABS装置湿法挤出机系统存在的问题研究及对策的中期报告
- 《肉牛营养需要》教学课件
- 网易云音乐用户满意度调查问卷
- 雪佛兰爱唯欧说明书
- 经营分析报告案例-麦肯锡风格
- 2023春国开会计实务专题形考任务1-4题库及答案汇总
- 可疑值的取舍-Q检验法
- 生物信息学(上海海洋大学)知到章节答案智慧树2023年
评论
0/150
提交评论