信息检索与搜索引擎技术实验向量空间模型_第1页
信息检索与搜索引擎技术实验向量空间模型_第2页
信息检索与搜索引擎技术实验向量空间模型_第3页
信息检索与搜索引擎技术实验向量空间模型_第4页
信息检索与搜索引擎技术实验向量空间模型_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、昆明理工大学信息工程与自动化学院学生实验报告( 20142015学年第 1学期)课程名称:信息检索与搜索引擎技术 开课实验室:信自楼445 2014 年12月 23日年级、专业、班计科111学号2姓名成绩实验项目名称向量空间模型指导教师李卫疆教师评语该同学是否了解实验原理:A.了解B.基本了解C.不了解该同学的实验能力:A.强 B.中等 C.差 该同学的实验是否达到要求:A.达到B.基本达到C.未达到实验报告是否规范:A.规范B.基本规范C.不规范实验过程是否详细记录:A.详细B.一般 C.没有 教师签名: 年 月 日一、 上机目的及内容:给定文档语料: d1: 北京安立文高新技术公司d2:

2、新一代的网络访问技术d3: 北京卫星网络有限公司d4: 是最先进的总线技术。d5: 北京升平卫星技术有限公司的新技术有。设计一个针对这些文档的信息检索系统。具体要求是:1) 给出系统的有效词汇集合(说明取舍原因)。2) 写出d1和d2在VSM中的表示(使用tf*idf,写出各项的数字表达式,具体数值不必实际计算出来)。3) 画出系统的倒排文件示意图。4) 按照向量夹角的余弦计算公式,给出针对查询“技术的公司”的前3个反馈结果。二、 实验原理给定文档语料: d1: 北京安立文高新技术公司 d2: 新一代的网络访问技术d3: 北京卫星网络有限公司 d4: 是最先进的总线技术。d5: 北京升平卫星技

3、术有限公司的新技术有。设计一个针对这些文档的信息检索系统。具体要求是:1) 给出系统的有效词汇集合(说明取舍原因)。北京、安、立、文、高新、技术、公司、新、网络、访问、卫星、有限、先进、总线、升、平的、是、最、有,这些词作为停用词不能加入系统的有效集合一、代,去除后并不影响原来句子语义的表达也不能算作系统的有效集合。2) 写出d1和d2在VSM中的表示(使用tf*idf,写出各项的数字表达式,具体数值不必实际计算出来)。 得到的矩阵:Termd1d2d3d4d5Term出现次数北京101013安100001立100001文100001高新100001技术110013公司101013新01001

4、2网络011002访问010001卫星001012有限001012先进000101总线000101升000011平000011TFIDF=cikj=1tcijlogNnk说明:TF:表示词项在该文档或者查询词中出现的频度。即该词项出现次数除以该文档的长度(所有词的个数)cik:表示词项k在Di中的出现次数。j=1tcij:表示该文档的长度(所有词的个数)IDF:表示词项在文档集合中的重要程度。一个词项出现的文档数越多,说明该词项的区分度越差,其在文档集合中的重要性就越低。N:表示集合中的文档数;nk:表示出现词项k的文档数。d1中各词项的数字表达式“北京”的TFIDF=17log53“安”的T

5、FIDF=17log51“立”的TFIDF=17log51“文”的TFIDF=17log51“高新”的TFIDF=17log51“技术”的TFIDF=17log53“公司”的TFIDF=17log53d2中各词项的数字表达式:“新”的TFIDF=17log52“网络”的TFIDF=17log52“访问”的TFIDF=17log51“技术”的TFIDF=17log533) 画出系统的倒排文件示意图。 4) 按照向量夹角的余弦计算公式,给出针对查询“技术的公司”的前3个反馈结果。该部分由代码实现。三、 实验方法、步骤1 建立Java项目,2 建立DocumentStruct.java类文件并编辑3

6、 建立TextVector.java类文件并编辑,如图4-1,图4-2所示图4-1图4-24 建立TF.java类文件并编辑,如图图4-7所示图4-45 建立IDF.java类文件并编辑,如图图4-5所示图4-56 建立CaculateSim.java类文件并编辑,如图4-6所示图4-67 建立MainApp.java类文件并编辑,图4-7所示图4-78 完成后的项目文件夹如图4-8所示图4-89 运行结果如图4-9所示-13-1. DocumentStruct.java代码:packageacm.model;public class DocumentStruct publicDocument

7、Struct()this.documentID = 0;this.documentSimValue = 0;this.documentContent = None;this.documentName = None;publicDocumentStruct(int ID, double sim, String name, String content)this.documentID = ID;this.documentSimValue = sim;this.documentName = name;this.documentContent = content;public String getDo

8、cumentContent() returndocumentContent;public void setDocumentContent(String documentContent) this.documentContent = documentContent;public String getDocumentName() returndocumentName;public void setDocumentName(String documentName) this.documentName = documentName;public double getDocumentSimValue()

9、 returndocumentSimValue;public void setDocumentSimValue(double documentSimValue) this.documentSimValue = documentSimValue;publicintgetDocumentID() returndocumentID;public void setDocumentID(intdocumentID) this.documentID = documentID;publicDocumentStruct sortDocBySim(DocumentStruct docList)DocumentS

10、truct temp;for(inti=0; idocList.length-1; i+)for(int j=i; jdocList.length-1; j+)if(docListi.getDocumentSimValue() docListj.getDocumentSimValue() )temp = docListi;docListi = docListj;docListj = temp;returndocList;private String documentName;private String documentContent;private double documentSimVal

11、ue;privateintdocumentID;2. TextVector.java代码:packageacm.model;public class TextVector publicTextVector(int dimension, int termCount, intdocumentTermCount, intdocumentCount, int documentContainTermCount)vectorWeight = new doubledimension;for(inti=0; idimension; i+)vectorWeighti = caculateWeight(termC

12、ounti, documentTermCount, documentCount, documentContainTermCounti);public double caculateWeight(inttermCount, intdocumentTermCount, intdocumentCount, intdocumentContainTermCount)TF termTF = new TF(termCount, documentTermCount);IDF termIDF = new IDF(documentCount, documentContainTermCount);termTF.ca

13、culateTF();termIDF.caculateIDF();return(termTF.getTf()*termIDF.getIdf();public double getVectorWeight() returnvectorWeight;public void setVectorWeight(double vectorWeight) this.vectorWeight = vectorWeight;private double vectorWeight;3. TF.java代码packageacm.model;public class TF public TF()tf = 0.0;te

14、rmCount = 0;termInDocumentCount = 0;public TF(inttermCount, intdocumentTermCount)this.tf = 0.0;this.termCount = termCount;this.termInDocumentCount = documentTermCount;public void caculateTF()if(termInDocumentCount = 0)System.out.println(请先设置文档总数!);return;this.tf = (double)termCount / (double)termInD

15、ocumentCount;public double getTf() returntf;publicintgetTermCount() returntermCount;public void setTermCount(inttermCount) this.termCount = termCount;publicintgetTermInDocumentCount() returntermInDocumentCount;public void setTermInDocumentCount(inttermInDocumentCount) this.termInDocumentCount = term

16、InDocumentCount;private double tf;privateinttermCount;privateinttermInDocumentCount;4. IDF.java代码packageacm.model;public class IDF public IDF() idf = 0.0;documentContainTermCount = 0;documentCount = 0;public IDF(intdocumentCount, intdocumentContainTermCount)idf = 0.0;this.documentCount = documentCou

17、nt;this.documentContainTermCount = documentContainTermCount;publicintgetDocumentCount() returndocumentCount;public void setDocumentCount(intdocumentCount) this.documentCount = documentCount;publicintgetDocumentContainTermCount() returndocumentContainTermCount;public void setDocumentContainTermCount(

18、intdocumentContainTermCount) this.documentContainTermCount = documentContainTermCount;public double getIdf() returnidf;public void caculateIDF()if(documentContainTermCount = 0)System.out.println(请设置文档的长度(所有词的个数)!);return;this.idf = Math.log10(double)this.documentCount / (double)this.documentContainT

19、ermCount);private double idf;privateintdocumentCount;privateintdocumentContainTermCount;5. CaculateSim.java代码packageacm.model;public class CaculateSim publicCaculateSim(TextVector vector1, TextVector vector2)doublesimDividend=0.0, simDivider=0.0;double tempVector1=0.0, tempVector2=0.0;for(inti=0; iv

20、ector1.getVectorWeight().length; i+)simDividend += vector1.getVectorWeight()i * vector2.getVectorWeight()i;for(inti=0; ivector1.getVectorWeight().length; i+)tempVector1 += Math.pow(vector1.getVectorWeight()i, 2.0);tempVector2 += Math.pow(vector2.getVectorWeight()i, 2.0);simDivider = Math.sqrt(tempVe

21、ctor1*tempVector2);this.sim = simDividend / simDivider;public double getSim() returnsim;private double sim;6. MainApp.java代码packageacm.model;public class MainApp public static void main(String args) intTermCount = 1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0, 0,0,0,0,0,1,0,1,1,1,0,0,0,0,0,0, 1,0,0,0,0,0,1,0,1,0,

22、1,1,0,0,0,0, 0,0,0,0,0,0,0,0,0,0,0,0,1,1,0,0, 1,0,0,0,0,1,1,1,0,0,1,1,0,0,1,1, 0,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0;intdocumentTermCount = 7, 7, 5, 6, 11, 3;intdocumentContainTermCount = 3,1,1,1,1,4,4,2,2,1,2,2,1,1,1,1;DocumentStruct docList = new DocumentStruct6;String documentContent = 北京安立文高新技术公司,新一代的网络访问技术,北京卫星网络有限公司,是最先进的总线技术。,北京升平卫星技术有限公司的新技术有。,技

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论