版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
副研究员博士 4如:选择,投影,求交集、并集,连接,成组,聚合5讨 one:doc1doc3fish:one:doc1doc3fish:doc1,doc2two:doc1red:doc2,doc3blue:doc2bird:doc3onefishtwooneonered bluefish→doc1,doc2red→doc2,doc3redfish→doc2importimportimportimportpublicclassInvertedIndexMapperextendsMapper<Text,Text,Text, //defaultRecordReader:LineRecordReader;key:lineoffset;value:line FileSplitfileSplit=(FileSplit)context.getInputSplit();StringfileName=fileSplit.getPath().getName();Textword=newText();TextfileName_lineOffset=newfor(;itr.hasMoreTokens();) }}}importjava.io.IOException;importjava.util.Collections;importjava.util.Iterator;importimport throwsIOException, Iterator<Text>it=values.iterator();StringBuilderall=newStringBuilder();for(;it.hasNext();) }}publicclass{publicstaticvoidmain(String[]{tryConfigurationconf=newjob=newJob(conf,"invertFileInputFormat.addInputPath(job,newFileOutputFormat.setOutputPath(job,new pletion(true)?0:}catch(Exceptione) }}11一个倒排索引由大量的postingslist一个postingslist由多个posting构成(按docid排序一个postingslist与一个term一个posting包含一 id和一个 中出现情况相关的信息(e.g.termfrequency,positions,termproperties)同时还有对应Web文档到其URL的映射111:class procedureMap(docidn,docd) H←newAssociativeArray foralltermt∈docddo H{t}←H{t}+ foralltermt∈H Emit(termt,posting<n,H{t}>)1:classReducer procedureReduce(termt,postings[<n1,f1>,<n2, P←new forallposting<a,f>∈postings[<n1,f1>,<n2,f2>…] Append(P,<a,f>) Emit(termt;postings11文档倒排索引1文档倒排索引进入reduce的键值对按照(termdocid)进入reduce的键值对按照(termdocid)Customized1带词频等属性的文档倒排算法(改进Class rtitionerextends// //overridethegetPartition(Kkey,Vvalue,int term=key.toString().split(“,”)[0];//<term,super.getPartition(term,value,}}SetthecustomizedpartitionerinjobJob. 2DistributedData10MB?10GB?2SortAlgorithminmap(k1,*)->(k1, //Identity(1)total-order(2)localreduce(k1,*)->(k1, //IdentityAcustomizedtotal-orderrecallthatshufflephaseneedsaPartitionertopartitionthekeythatdependsonyourdata22(1)如何避免在某些Reducer 过多的数据而拖慢了整个程(2)当有大量的key要分配到多个partition(也就是Reducer)时,如何高效地找到每Key的分布预读一小部分数据采样对采样数据排序后均分,假设有N个reducer,则取得N-1个分割usesasortedlistofN-1sampledkeysthatdefinethekeyrangeforeachInparticular,allkeyssuchthatsample[i-1]<=key<sample[i]aresenttoreducei.guaranteesthattheoutputofreduceiarealllessthantheoutputofreduce设reduce数目为3,采到9取两个分割点60,68;划分区间为:[*,60),[60,68),3M.R.Algorithm(“pairs”approach)pseudo-1:class2:methodMap(docida,doc foralltermw∈docd foralltermu∈Neighbors(w) //Emitcountforeachco-occurrenceEmit(pair(w,u),count1)1:class2:methodReduce(pairp;counts[c1, s← forallcountc2counts[c1,c2,…] s←s+ //Sumco-occurrence Emit(pairp,count3构建单词同现矩阵-wearenotwewanttobutatwearenotweusedto同现定义wordsthatco-occurwithwwithina2-word3构建单词同现矩阵把小的键值对合并成大的键值通常一个计算问题会产生大量的键值对,为了减少键值对传输和排序的开销,一些题中的大量小的键值对可以被合并成一些大的键值对(pair
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 全国大学生广告艺术大赛作品欣赏
- 《设立粮食仓库的战》课件
- 山东省济宁市邹城市2025届高三第五次模拟考试语文试卷含解析
- 陕西省西安市碑林区铁一中学2025届高考数学三模试卷含解析
- 吉林省汪清县六中2025届高考数学三模试卷含解析
- 测量学基础常识100个知识点
- 2025届四川省会理县第一中学高三冲刺模拟英语试卷含解析
- 甘肃省天水市甘谷县第一中学2025届高三第五次模拟考试英语试卷含解析
- 现代学徒制课题:中国特色学徒制实施现状调查研究(附:研究思路模板、可修改技术路线图)
- 《信使的信号通路》课件
- 个体诊所药品清单
- 国网基建国家电网公司输变电工程结算管理办法
- 深度学习数学案例(课堂PPT)
- 中国地图含省份信息可编辑矢量图
- 卧式钻床液压系统设计课件
- 路政运政交通运输执法人员考试题库
- 水库维修养护工程施工合同协议书范本
- MS培养基及配制注意事项
- 企业技术标准化管理
- 投资学第19章财务分析stu
- 已有输华贸易的国家(地区)及水产品品种目录
评论
0/150
提交评论