版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Project 3 说明及评判标准1提纲建索引查询文档2建索引:过程(1/3)预处理分词抽取posting排序输出3建索引:过程(2/3)1) 预处理全文检索处理的对象是文字。因此,对于非纯文本格式的文件,如HTML,PDF等,需要去掉其中的格式信息,转换为纯文本。假设文档都是纯文本的,不需要考虑非纯文本格式的预处理过程2) 分词/词形变换相对于英文全文检索,分词是中文独有的困难。由于词与词之间没有明显的边界,需要使用分词算法把句子分割成单词的序列。在目前的技术条件下,分词不能达到100%准确,而分词错误会直接影响查询效果。词形变换:英文单词的单复数、时态等分词可以使用ICTCLAS的分词工具
2、(最后补充里介绍),我们也会提供已经分词处理过的测试文档集。4建索引:过程 (3/3)3) 抽取posting文档-词 自然关系的倒置过程,生成 词-文档把单词和对应的文档编号,出现位置相结合,生成三元组(posting)。4) 排序先按单词(字典顺序),其次文档id,最后出现位置pos,对所有posting排序,产生倒排表。5) 输出按顺序将倒排表写到磁盘上。5建索引:基本要求设计一个方便的方式让用户对指定文件或指定目录下的文件建立索引你可以提供一个函数接口,让用户在程序中使用你的函数建立索引,比如:int Indexer:index(const char* srcDir, const ch
3、ar* destDir)提供一个命令行界面提供一个图形界面C: index.exe D:/data D:/index6建索引:FAQ索引是动态的还是静态的?大家可以自由选择。索引是否需要持久化,即写入硬盘?一个完整的检索系统肯定需要索引的持久化,但是不作硬性要求,留作加分点。其他源数据是纯文本格式,不需要考虑HTML、WORD等文件格式。不需要考虑英文的词形转换。7建索引:示例lucene索引结构 apple foo bar apple applet aqua foo .tii(in memory).tis docIds for apple docIds for applet proxs fo
4、r apple proxs for applet .frq.prx顺序查找=8建索引:如何建立倒排文件对于较小的文档集,可在完全在内存中对其建立倒排索引,再写到文件中。当文档集很大时,问题就出现了:不可能在内存中对所有的文档建立倒排索引。于是,必须把文档集分成若干块,分块建立索引。生成多个倒排文件后,再把它们归并成一个大文件。如下图所示:9建索引:归并I-1I-2I-3I-6I-4I-5I-8I-74152I-1.2I-3.4I-5.6I-7.836I-1.4I-5.87I-1.810提纲建索引查询文档11查询:过程从倒排文件中查找分三个基本步骤:词典的查找。注意每个查询可能包含若干个词。获得
5、各个词的posting列表对posting列表的处理。如处理词的相邻位置关系,布尔查询等。12查询:基本要求必须设计并提供一个查询接口,比如:Hits* Searcher:search(const string& queryString);orint Searcher:search(const string& queryString, Hits& hits);查询结果必须起码给出查询到的文档们的路径。13查询:支持的基本查询词查询只有一个词,比如,你在google里输入 “中国”返回包含“中国”的文档。最基础的查询方式。如何表示结果?简单布尔查询AND操作:即词查询的结果做集合与运算“中国 A
6、ND 人民” 返回既包含“中国” 又包含“人民”的文档。短语查询“中国人民”即中国 AND 人民,并且“中国”和“人民”这两个词的位置在文档中是相邻的。需要用到posting里的位置信息。14查询:可以考虑支持但不作要求的Ranked查询对返回的结果排个序,把认为重要的结果放在前面。如何排序?最简单原始的想法就是使用某个词在文档中出现的频率?比如,对于词查询:“中国”, “中国”在文档1中出现了10次,在文档2中出现了20次,在文档3中出现了11次, 那么最后返回的结果应该是:1. 文档22. 文档33. 文档1TopK查询返回前k条排序值最高的结果。可以利用堆吗?15提纲建索引查询文档16文
7、档对基本功能的实现情况自己的特色系统实现接口描述程序界面建索引查询:比如查询的函数,简单的查询语法用户界面(如果有,大体描述下如何使用)索引结构逻辑结构物理结构其他优化重要算法过程的描述建索引算法查询算法小组成员之间的详细分工情况其他想法和心得17其他注意事项附加说明:程序有诚实代码,最好每个文件都有,文档有签名(写明姓名,学号),每项占0.5分,如果没有则扣分。文档部分写明自己的设计思路,如果是有特色的设计,一定要说明,因为助教看程序可能没有看出来。(比如:为了提高查询速度,我采用了什么样的独特设计)再次提醒,提交正确的文档(正确作业(不要提交别的作业),编译通过,结果正确)18Thank You!19分词补充:ICTCLAS中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)功能有:中文分词;词性标注;未登录词识别。分词正确率高达97%以上,未登录词识别召回率均高于90%,其中中国人名的识别召回率接近98%处
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 国开00747+22003基础会计期末复习资料
- 第四单元 乘与除(复习课件)北师大版三年级数学上册课件+练习 (素养达标课件+教案+练习)三年级数学上册同步备课 (北师大版)
- 四川省内江市威远中学2024-2025学年高一上学期12月月考地理试题(含答案)
- 辽宁省鞍山市海城市西部集团2024-2025学年八年级上学期12月第三次质量监测英语试题(含答案无听力原文及音频)
- 河北省唐山市路南区2024-2025学年八年级上学期12月月考数学试题(无答案)
- 广东省梅州市梅雁中学2024-2025学年高三上学期12月月考地理试题(含答案)
- 2024-2025学年高一【数学(人教A版)】指数函数的图象和性质-教学设计
- 自动控制原理及应用知到智慧树章节测试课后答案2024年秋新疆工程学院
- 建筑力学知到智慧树章节测试课后答案2024年秋江西理工大学
- 高考英语3000词词性转换清单
- 年产12000吨水合肼(100%)项目环评报告书
- 城市规划原理课件(完整版)
- 2022年西南医院医护人员招聘笔试模拟试题及答案解析
- 初中音乐 人音版 八年级上册 多彩音乐剧-云中的城堡部优课件
- 围术期过敏反应诊治的专家共识(全文)
- 防汛应急抢险指挥与实务课件(PPT 89页)
- 农村信用社县级联社费用管控指导意见
- (完整版)八年级上综合性学习-我们的互联网时代-练习卷(含答案)
- 义务教育(数学)新课程标准(2022年修订版)
- 立式圆筒形钢制焊接储罐施工及验收规范》
- 地灾治理全套表格
评论
0/150
提交评论